20260503_Qwen‑Image‑2512 图生图 → 纸马版画角色一致性工作流改善

issac zhang
May 3
5 min read

Updated: May 4

prompt:一个有着胡须且体型圆润厚实的中国中年男人，头戴倒扣的铝锅，帽子两侧有把手结构。面部佩戴一副超现实未来主义墨镜。上半身裸露，腹部明显突出，手臂自然下垂。下半身穿着低裆、宽臀围、上松下收的束脚阔裆裤，轮廓接近中国传统扎脚宽裤。脚穿中国古代布靴。角色背对画面并略微侧转，以双腿交叉姿势盘坐在空中，双臂向左右张开并微微上抬。使用"最终纸马工作流2“生成人物的结果仍旧是不能保持一致性

这个阶段我也试了用我之前qwen的character lora生成角色，然后进入了img2img的流程后发现人物的细节（帽子、鞋子）还是会丢失

第1 轮：单纯的img2img的工作流

结果

每次生成结果差异明显
角色帽子形状、裤子结构、身体朝向经常变化
透视关系不稳定
风格存在，但纸马特征不纯

判断

专业判断：第二阶段的阶段高 denoise 的 img2img 会让模型重新解释角色结构。简单解释：模型在“重画人物”，而不是“在原人物上风格化”。

具体问题

denoise = 0.8 导致 latent 与原图脱钩
LoRA weight = 1 在无结构约束下吞噬角色特征
没有任何显式结构控制（pose / line）

下一步

引入 ControlNet
尝试降低 denoise
分离“结构保持”和“风格化”两个目标

第 2 轮：step1 ControlNet + img2img （尝试补结构）

结果

轮廓相对稳定
到了image2image阶段之后、帽子把手等细节仍然丢失人体姿势仍然漂移

判断

专业判断：第二阶段的图生图阶段并没有controlnet进行生成约束，所以导致第二阶段会变形

下一步

优化controlnet
imag2imag加入controlnet

zhima_ritualraw, Yunnan jiama and Meishan folk ritual woodblock print style, shamanic totemic imagery, myth-driven figure design,even inking，bold rough angular carved lines, bold uneven woodcut strokes, clumsy naive drawing, primitive anti-anatomical stylization, mask-like face, squat thick body, flat graphic image, ritual bilateral balance, sparse symbolic layout, clean negative space, few solid black fill areas, raw handmade print feeling.中远景，角色是一个有着胡须且体型圆润厚实的中年人物，头戴倒扣的铝锅，铝锅帽子两侧有把手结构，角色背对画面并略微侧转，以双腿交叉姿势盘坐在空中，双臂向左右张开并微微上抬。能看到铝锅帽背面轮廓和侧面把手，部分未来主义墨镜侧缘，裸露背部，宽大低裆束脚阔裆裤形成柔软体积，画面留白充足，强调悬浮感和仪式感。图生图noise 0.5

使用"最终纸马工作流2“生成人物的结果仍旧是不能保持一致性

第 3 轮：提出工作流两阶段生成思路（关键方法转折）

设置（概念层）

Stage A：结构保真
Stage B：风格化
明确区分：
- latent 是否来自原图
- ControlNet 的职责

结果

明确问题不在 prompt，而在 workflow 结构
明确“角色一致性”必须先于“纸马风格”

判断

专业判断：角色一致性问题是 pipeline 设计问题，而不是提示词问题。简单解释：模型被要求一次做太多互相冲突的事。

具体问题

结构与风格混在一次采样中
无法定位“是哪一步把角色弄坏了”

下一步

正式设计 Step1 / Step2A / Step2B

第 4轮：Step1 + Step2A + Step2B workflow 实现（首次完整管线）

设置（你的实际 workflow）

Step1：结构控制图提取

HED
Lineart
DWpose
DepthAnything
LoRA = 无
KSampler = 无

Step2A（当前实现）

latent = EmptySD3LatentImage
denoise = 1
LoRA weight = 0.5
HED strength = 0.28
Depth strength = 0.1
steps = 15
cfg = 3.5
SEED:Fixed

Step2B

latent = VAEEncode(Step2A output)
denoise = 0.45
HED strength = 0.9
DWpose strength = 0.6
LoRA weight = 0.38
steps = 20
cfg = 4
SEED:Fixed

结果

两阶段生成逻辑成立
风格可控性提高
可见第二阶段已经发生了特别明显的角色转换，有了木版画的味道
但帽子等关键身份特征在第一轮已发生偏移

具体问题

latent = EmptySD3LatentImage
denoise = 1
Step2B 只能稳定 Step2A 的结果，而非原角色

下一步

把 Step2A 改为真正的 img2img
latent 必须来自原图（原图）

第5轮：修正 Step2A 为真正的结构保真阶段

最后还是用banana pro把白膜换成稳定的木版画线稿，然后再用这个lora进行风格化。👇

设置（建议）

Step2A（修正后）

latent = VAEEncode(original image)
denoise = 0.5
LoRA weight = 1
Lineart/HED strength = 0.28
Depth strength = 0.1
steps = 20
cfg = 3.5
seed fixed：586514011270593

结果（预期）

角色结构显著稳定
帽子、裤子、姿势作为整体被继承
风格表现较弱，但结构可靠
有时候会出现帽子等细节失真的问题

判断

专业判断：Step2A 必须“牺牲风格”，换取结构稳定。简单解释：这是后续风格化的安全底稿。

具体问题

如果 Step2A 风格过强，会压缩 Step2B 空间
ControlNet 过多会使图像僵硬

下一步

仅保留关键 ControlNet
将帽子问题延后至 inpaint

降低了contronet lineart的强度，可见风格发生了明显的变化，变得更像纸马了，但是丢失了一致性

可以看到，这个lora对输入的图像进行了简化（裤子处与身体处的曲线进行了删减）。这个数值是对的

左图是用GPTIMAGE2生成的图片，可以看到gpt原本角色的细节继承的很好，但是并没有做到很好的简化（相对于我的lora），而且人物角色比例错了

第 6 轮：是否在 Step2A 中强化帽子细节？

设置（讨论焦点）

是否加入额外 ControlNet：
- Canny
- Segmentation
- Tile
- Normal

结果（分析）

Depth 对帽子无效
Segmentation 只保语义，不保形
Tile 不保拓扑
Normal 不适合平面版画

判断

专业判断：帽子不应主要靠新增全图 ControlNet 解决。简单解释：关键符号适合局部修，而不是全局强控。

具体问题

全图 ControlNet 会压制风格化
帽子是局部身份锚点

下一步

使用 inpaint 专门修帽子

第 7 轮：最终 Inpaint workflow 设计（Qwen‑2512）

设置（最终）

latent = VAEEncodeForInpaint
denoise = 0.25 ~ 0.40
steps = 18 ~ 24
cfg = 3.5 ~ 4.5
LoRA weight = 0.75 ~ 1.1（按部位）
ControlNet = HED / Lineart
ControlNet strength = 0.7 ~ 0.95
mask blur = 4 ~ 8
mask grow = 4 ~ 12

结果

错误集中在可控局部
帽子、裤子、手脚可被单独修正
全图不再反复重绘
但是生成出来的元素可能不是我自己想要的

具体问题

生成出来的元素可能不是我自己想要的

判断

专业判断：Inpaint 可以解决“局部身份崩坏”的但是，直接生成相应的标准元素，然后用Banana、gpt替换这个才是最稳的。

解决方案：直接生成相应的标准元素，然后用Banana、gpt替换

张Murmur

第1 轮：单纯的img2img的工作流

结果

判断

具体问题

下一步

第 2 轮：step1 ControlNet + img2img （尝试补结构）

结果

判断

下一步

第 3 轮： 提出工作流两阶段生成思路（关键方法转折）

设置（概念层）

结果

判断

具体问题

下一步

第 4轮：Step1 + Step2A + Step2B workflow 实现（首次完整管线）

设置（你的实际 workflow）

结果

具体问题

下一步

第5轮：修正 Step2A 为真正的结构保真阶段

设置（建议）

结果（预期）

判断

具体问题

下一步

第 6 轮：是否在 Step2A 中强化帽子细节？

设置（讨论焦点）

结果（分析）

判断

具体问题

下一步

第 7 轮：最终 Inpaint workflow 设计（Qwen‑2512）

设置（最终）

结果

具体问题

判断

Comments

第 3 轮：提出工作流两阶段生成思路（关键方法转折）