20260503_Qwen‑Image‑2512 图生图 → 纸马版画角色一致性工作流改善
- issac zhang

- 5 days ago
- 5 min read
Updated: 4 days ago


第1 轮:单纯的img2img的工作流
结果
每次生成结果差异明显
角色帽子形状、裤子结构、身体朝向经常变化
透视关系不稳定
风格存在,但纸马特征不纯
判断
专业判断:第二阶段的阶段高 denoise 的 img2img 会让模型重新解释角色结构。简单解释:模型在“重画人物”,而不是“在原人物上风格化”。
具体问题
denoise = 0.8 导致 latent 与原图脱钩
LoRA weight = 1 在无结构约束下吞噬角色特征
没有任何显式结构控制(pose / line)
下一步
引入 ControlNet
尝试降低 denoise
分离“结构保持”和“风格化”两个目标

第 2 轮:step1 ControlNet + img2img (尝试补结构)
结果
轮廓相对稳定
到了image2image阶段之后、帽子把手等细节仍然丢失人体姿势仍然漂移
判断
专业判断:第二阶段的图生图阶段并没有controlnet进行生成约束,所以导致第二阶段会变形
下一步
优化controlnet
imag2imag加入controlnet

使用"最终纸马工作流2“生成人物的结果仍旧是不能保持一致性
第 3 轮: 提出工作流两阶段生成思路(关键方法转折)
设置(概念层)
Stage A:结构保真
Stage B:风格化
明确区分:
latent 是否来自原图
ControlNet 的职责
结果
明确问题不在 prompt,而在 workflow 结构
明确“角色一致性”必须先于“纸马风格”
判断
专业判断:角色一致性问题是 pipeline 设计问题,而不是提示词问题。简单解释:模型被要求一次做太多互相冲突的事。
具体问题
结构与风格混在一次采样中
无法定位“是哪一步把角色弄坏了”
下一步
正式设计 Step1 / Step2A / Step2B
第 4轮:Step1 + Step2A + Step2B workflow 实现(首次完整管线)
设置(你的实际 workflow)
Step1:结构控制图提取
HED
Lineart
DWpose
DepthAnything
LoRA = 无
KSampler = 无
Step2A(当前实现)
latent = EmptySD3LatentImage
denoise = 1
LoRA weight = 0.5
HED strength = 0.28
Depth strength = 0.1
steps = 15
cfg = 3.5
SEED:Fixed
Step2B
latent = VAEEncode(Step2A output)
denoise = 0.45
HED strength = 0.9
DWpose strength = 0.6
LoRA weight = 0.38
steps = 20
cfg = 4
SEED:Fixed
结果
两阶段生成逻辑成立
风格可控性提高
可见第二阶段已经发生了特别明显的角色转换,有了木版画的味道
但帽子等关键身份特征在第一轮已发生偏移
具体问题
latent = EmptySD3LatentImage
denoise = 1
Step2B 只能稳定 Step2A 的结果,而非原角色
下一步
把 Step2A 改为真正的 img2img
latent 必须来自原图(原图)

第5轮:修正 Step2A 为真正的结构保真阶段
最后还是用banana pro把白膜换成稳定的木版画线稿,然后再用这个lora进行风格化。👇
设置(建议)
Step2A(修正后)
latent = VAEEncode(original image)
denoise = 0.5
LoRA weight = 1
Lineart/HED strength = 0.28
Depth strength = 0.1
steps = 20
cfg = 3.5
seed fixed:586514011270593
结果(预期)
角色结构显著稳定
帽子、裤子、姿势作为整体被继承
风格表现较弱,但结构可靠
有时候会出现帽子等细节失真的问题
判断
专业判断:Step2A 必须“牺牲风格”,换取结构稳定。简单解释:这是后续风格化的安全底稿。
具体问题
如果 Step2A 风格过强,会压缩 Step2B 空间
ControlNet 过多会使图像僵硬
下一步
仅保留关键 ControlNet
将帽子问题延后至 inpaint





第 6 轮:是否在 Step2A 中强化帽子细节?
设置(讨论焦点)
是否加入额外 ControlNet:
Canny
Segmentation
Tile
Normal
结果(分析)
Depth 对帽子无效
Segmentation 只保语义,不保形
Tile 不保拓扑
Normal 不适合平面版画
判断
专业判断:帽子不应主要靠新增全图 ControlNet 解决。简单解释:关键符号适合局部修,而不是全局强控。
具体问题
全图 ControlNet 会压制风格化
帽子是局部身份锚点
下一步
使用 inpaint 专门修帽子
第 7 轮:最终 Inpaint workflow 设计(Qwen‑2512)
设置(最终)
latent = VAEEncodeForInpaint
denoise = 0.25 ~ 0.40
steps = 18 ~ 24
cfg = 3.5 ~ 4.5
LoRA weight = 0.75 ~ 1.1(按部位)
ControlNet = HED / Lineart
ControlNet strength = 0.7 ~ 0.95
mask blur = 4 ~ 8
mask grow = 4 ~ 12
结果
错误集中在可控局部
帽子、裤子、手脚可被单独修正
全图不再反复重绘
但是生成出来的元素可能不是我自己想要的
具体问题
生成出来的元素可能不是我自己想要的
判断
专业判断:Inpaint 可以解决“局部身份崩坏”的但是,直接生成相应的标准元素,然后用Banana、gpt替换这个才是最稳的。

解决方案:直接生成相应的标准元素,然后用Banana、gpt替换


Comments