top of page
Search

20260503_Qwen‑Image‑2512 图生图 → 纸马版画角色一致性工作流改善

  • Writer: issac zhang
    issac zhang
  • 5 days ago
  • 5 min read

Updated: 4 days ago

prompt:一个有着胡须且体型圆润厚实的中国中年男人,头戴倒扣的铝锅,帽子两侧有把手结构。面部佩戴一副超现实未来主义墨镜。上半身裸露,腹部明显突出,手臂自然下垂。下半身穿着低裆、宽臀围、上松下收的束脚阔裆裤,轮廓接近中国传统扎脚宽裤。脚穿中国古代布靴。角色背对画面并略微侧转,以双腿交叉姿势盘坐在空中,双臂向左右张开并微微上抬。           使用"最终纸马工作流2“生成人物的结果仍旧是不能保持一致性
prompt:一个有着胡须且体型圆润厚实的中国中年男人,头戴倒扣的铝锅,帽子两侧有把手结构。面部佩戴一副超现实未来主义墨镜。上半身裸露,腹部明显突出,手臂自然下垂。下半身穿着低裆、宽臀围、上松下收的束脚阔裆裤,轮廓接近中国传统扎脚宽裤。脚穿中国古代布靴。角色背对画面并略微侧转,以双腿交叉姿势盘坐在空中,双臂向左右张开并微微上抬。 使用"最终纸马工作流2“生成人物的结果仍旧是不能保持一致性
这个阶段我也试了用我之前qwen的character lora生成角色,然后进入了img2img的流程后发现人物的细节(帽子、鞋子)还是会丢失
这个阶段我也试了用我之前qwen的character lora生成角色,然后进入了img2img的流程后发现人物的细节(帽子、鞋子)还是会丢失

第1 轮:单纯的img2img的工作流

结果

  • 每次生成结果差异明显

  • 角色帽子形状、裤子结构、身体朝向经常变化

  • 透视关系不稳定

  • 风格存在,但纸马特征不纯

判断

专业判断:第二阶段的阶段高 denoise 的 img2img 会让模型重新解释角色结构。简单解释:模型在“重画人物”,而不是“在原人物上风格化”。


具体问题

  1. denoise = 0.8 导致 latent 与原图脱钩

  2. LoRA weight = 1 在无结构约束下吞噬角色特征

  3. 没有任何显式结构控制(pose / line)


下一步

  • 引入 ControlNet

  • 尝试降低 denoise

  • 分离“结构保持”和“风格化”两个目标


第 2 轮:step1 ControlNet + img2img (尝试补结构)


结果

  • 轮廓相对稳定

  • 到了image2image阶段之后、帽子把手等细节仍然丢失人体姿势仍然漂移

判断

专业判断:第二阶段的图生图阶段并没有controlnet进行生成约束,所以导致第二阶段会变形


下一步

  • 优化controlnet

  • imag2imag加入controlnet

zhima_ritualraw, Yunnan jiama and Meishan folk ritual woodblock print style, shamanic totemic imagery, myth-driven figure design,even inking,bold rough angular carved lines, bold uneven woodcut strokes, clumsy naive drawing, primitive anti-anatomical stylization, mask-like face, squat thick body, flat graphic image, ritual bilateral balance, sparse symbolic layout, clean negative space, few solid black fill areas, raw handmade print feeling.中远景,角色是一个有着胡须且体型圆润厚实的中年人物,头戴倒扣的铝锅,铝锅帽子两侧有把手结构,角色背对画面并略微侧转,以双腿交叉姿势盘坐在空中,双臂向左右张开并微微上抬。能看到铝锅帽背面轮廓和侧面把手,部分未来主义墨镜侧缘,裸露背部,宽大低裆束脚阔裆裤形成柔软体积,画面留白充足,强调悬浮感和仪式感。   图生图noise 0.5
zhima_ritualraw, Yunnan jiama and Meishan folk ritual woodblock print style, shamanic totemic imagery, myth-driven figure design,even inking,bold rough angular carved lines, bold uneven woodcut strokes, clumsy naive drawing, primitive anti-anatomical stylization, mask-like face, squat thick body, flat graphic image, ritual bilateral balance, sparse symbolic layout, clean negative space, few solid black fill areas, raw handmade print feeling.中远景,角色是一个有着胡须且体型圆润厚实的中年人物,头戴倒扣的铝锅,铝锅帽子两侧有把手结构,角色背对画面并略微侧转,以双腿交叉姿势盘坐在空中,双臂向左右张开并微微上抬。能看到铝锅帽背面轮廓和侧面把手,部分未来主义墨镜侧缘,裸露背部,宽大低裆束脚阔裆裤形成柔软体积,画面留白充足,强调悬浮感和仪式感。 图生图noise 0.5

使用"最终纸马工作流2“生成人物的结果仍旧是不能保持一致性


第 3 轮: 提出工作流两阶段生成思路(关键方法转折)

设置(概念层)

  • Stage A:结构保真

  • Stage B:风格化

  • 明确区分:

    • latent 是否来自原图

    • ControlNet 的职责

结果

  • 明确问题不在 prompt,而在 workflow 结构

  • 明确“角色一致性”必须先于“纸马风格”

判断

专业判断:角色一致性问题是 pipeline 设计问题,而不是提示词问题。简单解释:模型被要求一次做太多互相冲突的事。

具体问题

  1. 结构与风格混在一次采样中

  2. 无法定位“是哪一步把角色弄坏了”

下一步

  • 正式设计 Step1 / Step2A / Step2B


第 4轮:Step1 + Step2A + Step2B workflow 实现(首次完整管线)

设置(你的实际 workflow)

Step1:结构控制图提取

  • HED

  • Lineart

  • DWpose

  • DepthAnything

  • LoRA = 无

  • KSampler = 无

Step2A(当前实现)

  • latent = EmptySD3LatentImage

  • denoise = 1

  • LoRA weight = 0.5

  • HED strength = 0.28

  • Depth strength = 0.1

  • steps = 15

  • cfg = 3.5

  • SEED:Fixed

Step2B

  • latent = VAEEncode(Step2A output)

  • denoise = 0.45

  • HED strength = 0.9

  • DWpose strength = 0.6

  • LoRA weight = 0.38

  • steps = 20

  • cfg = 4

  • SEED:Fixed

结果

  • 两阶段生成逻辑成立

  • 风格可控性提高

  • 可见第二阶段已经发生了特别明显的角色转换,有了木版画的味道

  • 但帽子等关键身份特征在第一轮已发生偏移


具体问题

  1. latent = EmptySD3LatentImage

  2. denoise = 1

  3. Step2B 只能稳定 Step2A 的结果,而非原角色

下一步

  • 把 Step2A 改为真正的 img2img

  • latent 必须来自原图(原图)


第5轮:修正 Step2A 为真正的结构保真阶段

最后还是用banana pro把白膜换成稳定的木版画线稿,然后再用这个lora进行风格化。👇

设置(建议)

Step2A(修正后)

  • latent = VAEEncode(original image)

  • denoise = 0.5

  • LoRA weight = 1

  • Lineart/HED strength = 0.28

  • Depth strength = 0.1

  • steps = 20

  • cfg = 3.5

  • seed fixed:586514011270593

结果(预期)

  • 角色结构显著稳定

  • 帽子、裤子、姿势作为整体被继承

  • 风格表现较弱,但结构可靠

  • 有时候会出现帽子等细节失真的问题

判断

专业判断:Step2A 必须“牺牲风格”,换取结构稳定。简单解释:这是后续风格化的安全底稿。

具体问题

  1. 如果 Step2A 风格过强,会压缩 Step2B 空间

  2. ControlNet 过多会使图像僵硬

下一步

  • 仅保留关键 ControlNet

  • 将帽子问题延后至 inpaint

这个是用了三维白膜之后的样子
这个是用了三维白膜之后的样子

这个是用了banana pro生成的版画,然后图3是最后的风格修改
这个是用了banana pro生成的版画,然后图3是最后的风格修改
降低了contronet lineart的强度,可见风格发生了明显的变化,变得更像纸马了,但是丢失了一致性
降低了contronet lineart的强度,可见风格发生了明显的变化,变得更像纸马了,但是丢失了一致性
可以看到,这个lora对输入的图像进行了简化(裤子处与身体处的曲线进行了删减)。这个数值是对的
可以看到,这个lora对输入的图像进行了简化(裤子处与身体处的曲线进行了删减)。这个数值是对的
左图是用GPTIMAGE2生成的图片,可以看到gpt原本角色的细节继承的很好,但是并没有做到很好的简化(相对于我的lora),而且人物角色比例错了
左图是用GPTIMAGE2生成的图片,可以看到gpt原本角色的细节继承的很好,但是并没有做到很好的简化(相对于我的lora),而且人物角色比例错了

第 6 轮:是否在 Step2A 中强化帽子细节?

设置(讨论焦点)

  • 是否加入额外 ControlNet:

    • Canny

    • Segmentation

    • Tile

    • Normal

结果(分析)

  • Depth 对帽子无效

  • Segmentation 只保语义,不保形

  • Tile 不保拓扑

  • Normal 不适合平面版画

判断

专业判断:帽子不应主要靠新增全图 ControlNet 解决。简单解释:关键符号适合局部修,而不是全局强控。

具体问题

  1. 全图 ControlNet 会压制风格化

  2. 帽子是局部身份锚点

下一步

  • 使用 inpaint 专门修帽子


第 7 轮:最终 Inpaint workflow 设计(Qwen‑2512)

设置(最终)

  • latent = VAEEncodeForInpaint

  • denoise = 0.25 ~ 0.40

  • steps = 18 ~ 24

  • cfg = 3.5 ~ 4.5

  • LoRA weight = 0.75 ~ 1.1(按部位)

  • ControlNet = HED / Lineart

  • ControlNet strength = 0.7 ~ 0.95

  • mask blur = 4 ~ 8

  • mask grow = 4 ~ 12

结果

  • 错误集中在可控局部

  • 帽子、裤子、手脚可被单独修正

  • 全图不再反复重绘

  • 但是生成出来的元素可能不是我自己想要的


具体问题

  • 生成出来的元素可能不是我自己想要的

判断

专业判断:Inpaint 可以解决“局部身份崩坏”的但是,直接生成相应的标准元素,然后用Banana、gpt替换这个才是最稳的。

可以看到这个帽子生成完全有问题
可以看到这个帽子生成完全有问题



解决方案:直接生成相应的标准元素,然后用Banana、gpt替换

注意看这个帽子替换
注意看这个帽子替换

 
 
 

Comments


© Powered by Zicheng Zhang

bottom of page