新lora_caption&多重controlnet&训练权重_20260328

issac zhang
Mar 28
4 min read

Updated: Mar 30

QWEN 202512训练网站教程

https://help.apiyi.com/en/qwen-image-2512-prompt-guide-test-cases-en.html

Q：我有最后一个问题。qwen lora是不是更加青睐自然语言的caption？比如a digital painting of a woman sitting on the ground... A：不是“更青睐长篇自然语言”，而是“能很好理解自然语言”。 对 Qwen-Image-2512 来说，公开资料确实提到它适合用更自然语言的提示，并且社区案例也推荐自然语言驱动的提示；但在 LoRA 训练 场景里，官方/社区训练建议同时明确：你也可以用 trigger-only 或 短而一致的 caption，尤其 style LoRA 更推荐写稳定的风格属性，而不是长篇场景叙述。

所以对你现在这个 纸马 style LoRA，我的判断是：

推理提示词：Qwen 2512 确实比较吃自然语言。
训练 caption：不必故意写成 a digital painting of a woman sitting on the ground... 这种长句；短、稳定、结构化 往往更适合你现在的 style LoRA 实验。公开训练页就给过 style LoRA 的短 caption 模板，例如 trigger + watercolor illustration, pastel palette, soft edges 这种形式。

其实可以看出Lora技术的进化，从只能理解短词到自然语言，这是一个门槛的下降。 “Qwen-Image-2512 适合更自然语言的提示 / 社区推荐自然语言驱动提示”：官方仓库里的 prompt_utils_2512.py 明确写了 “Use fluent, natural descriptive language”，说明 2512 的提示重写工具就是朝自然、连贯描述去优化的；同时，社区的 Qwen-Image 提示指南也明确说 Qwen-Image 能按自然语言理解提示，可以用完整句子或详细短语来写 prompt。 [github.com ], [civitai.com ]

“但在 LoRA 训练场景里，可以用 trigger-only 或短而一致的 caption”：Qwen 2512 的 LoRA 训练指南明确写到：可以用 trigger-only 或 short consistent captions；角色 LoRA 还给出了 [trigger] 这种 trigger-only 模板，以及 短 caption 模板。 [runcomfy.com ]
“尤其 style LoRA 更推荐写稳定的风格属性，而不是长篇场景叙述”：同一份 Qwen 2512 LoRA 训练指南明确区分了 style LoRA 的 caption 写法：style captions should describe style attributes, not scene content，并给出了类似 [trigger], watercolor illustration, pastel palette, soft edges 的短模板。 [runcomfy.com ]

Comfyui controlnet +lora测试

2512版本是可以调整controlnet强度的，但是怎么用multiple lora就得稍微研究一下了

答案就在这个网站👇

https://comfyui-wiki.com/en/tutorial/advanced/how-to-use-muti-contorlnet-in-comfyui

用下面的这个lora结合多重controlnet进行测试👇

Dark Ghibli Fairytales

两个apply controlnet强度都为1，结果会出错，因为两个controlnet相加就等于2了。

当两个controlnet相连，两个都不bypass的结果，strength 1

下图的姿势确实和参考图的姿势一模一样

一个controlnet strength为1，其他的controlnet为零或者 bypass

一个controlnet strength为0.3，其他的controlnet为0，虽然openpose的强度调整确实有效，但是可见下图lora就失效了。

其他的controlnet输入图片为空图片，然后会保留lora的风格

一个controlnet strength为0.3，其他的controlnet为0。7

Conclusion：多重controlnet要记得互相协调强度。

LoRA测评： 可以看到这个lora只学到了木版画的风格和一点点东方的感觉（亚洲人），也就是里面有很多装饰性的linocut line，而且还有明暗。总体来说是可用的，但是有继续提升的空间。不过这可能因为prompt太过于强调了一些”monochrome carved print style“等关键词，让ai联想到了其他的木版画风格。明天可以在comfy cloud上继续测试一下。

和AI聊过之后，可能出现了三个方向的问题： 1：caption过于强调什么rough carved linework，或者是其他木版画一半都会出现的词”thick-and-thin line variation, flat ink shapes, simplified forms, folk decorative motifs, imperfect registration“。而没有强调这个版画是线为主、装饰性特别强、民间题材、没有明暗、negative space是干净的特点。

learning rate可能需要调整

3.素材还是太少，可能要到30张的样子

因为你这次的问题，不是“像不像”，而是像错了方向。

你给的参考图（图1）核心是：

线条主导
留白干净
黑块克制
没有明暗建模
装饰性很强
民间题材 / 民间图像秩序
平面化、符号化
negative space 是画面结构的一部分

而 AI 图（图2）学到的更像是：

generic 黑白木版画 / cutout 风
黑底白线的反相版画感
动态装饰波纹
较强的戏剧性动势
更像“现代化的民俗黑白插画”
不是“民间供像/纸马体系里的线描印刷逻辑”

这说明模型不是完全没学，而是学到了一个更宽泛、更常见、更容易学到的上位风格：黑白木刻/版画感，却没学到你真正要的那个下位风格：线为主、块为辅、留白干净、民间平面图像秩序。

而这种“方向性学偏”，最常见的根源恰恰就是 caption 把风格本体定义错了。

Style LoRA 训练数值推荐

 {
        "data": "https://your-storage.com/training-images.zip",
        "trigger_word": "mystyle",
        "steps": 1000,
        "learning_rate": 0.0004,
        "lora_rank": 16
    },
)

learning_rate

Default: 5e-4

Use 1e-4 for slower/conservative learning, 1e-3 for faster/aggressive learning.

张Murmur

新lora_caption&多重controlnet&训练权重_20260328

learning_rate

Recent Posts

Comments