新lora_caption&多重controlnet&训练权重_20260328
- issac zhang

- Mar 28
- 4 min read
Updated: Mar 30
QWEN 202512训练网站教程
Q:我有最后一个问题。qwen lora是不是更加青睐自然语言的caption?比如a digital painting of a woman sitting on the ground... A:不是“更青睐长篇自然语言”,而是“能很好理解自然语言”。 对 Qwen-Image-2512 来说,公开资料确实提到它适合用更自然语言的提示,并且社区案例也推荐自然语言驱动的提示;但在 LoRA 训练 场景里,官方/社区训练建议同时明确:你也可以用 trigger-only 或 短而一致的 caption,尤其 style LoRA 更推荐写稳定的风格属性,而不是长篇场景叙述。
所以对你现在这个 纸马 style LoRA,我的判断是:
推理提示词:Qwen 2512 确实比较吃自然语言。
训练 caption:不必故意写成 a digital painting of a woman sitting on the ground... 这种长句;短、稳定、结构化 往往更适合你现在的 style LoRA 实验。公开训练页就给过 style LoRA 的短 caption 模板,例如 trigger + watercolor illustration, pastel palette, soft edges 这种形式。
其实可以看出Lora技术的进化,从只能理解短词到自然语言,这是一个门槛的下降。 “Qwen-Image-2512 适合更自然语言的提示 / 社区推荐自然语言驱动提示”:官方仓库里的 prompt_utils_2512.py 明确写了 “Use fluent, natural descriptive language”,说明 2512 的提示重写工具就是朝自然、连贯描述去优化的;同时,社区的 Qwen-Image 提示指南也明确说 Qwen-Image 能按自然语言理解提示,可以用完整句子或详细短语来写 prompt。 [github.com], [civitai.com]
“但在 LoRA 训练场景里,可以用 trigger-only 或短而一致的 caption”:Qwen 2512 的 LoRA 训练指南明确写到:可以用 trigger-only 或 short consistent captions;角色 LoRA 还给出了 [trigger] 这种 trigger-only 模板,以及 短 caption 模板。 [runcomfy.com]
“尤其 style LoRA 更推荐写稳定的风格属性,而不是长篇场景叙述”:同一份 Qwen 2512 LoRA 训练指南明确区分了 style LoRA 的 caption 写法:style captions should describe style attributes, not scene content,并给出了类似 [trigger], watercolor illustration, pastel palette, soft edges 的短模板。 [runcomfy.com]
Comfyui controlnet +lora测试

答案就在这个网站👇

用下面的这个lora结合多重controlnet进行测试👇
Dark Ghibli Fairytales
两个apply controlnet强度都为1,结果会出错,因为两个controlnet相加就等于2了。

下图的姿势确实和参考图的姿势一模一样

一个controlnet strength为0.3,其他的controlnet为0,虽然openpose的强度调整确实有效,但是可见下图lora就失效了。

其他的controlnet输入图片为空图片,然后会保留lora的风格

Conclusion:多重controlnet要记得互相协调强度。
LoRA测评:
可以看到这个lora只学到了木版画的风格和一点点东方的感觉(亚洲人),也就是里面有很多装饰性的linocut line,而且还有明暗。总体来说是可用的,但是有继续提升的空间。不过这可能因为prompt太过于强调了一些”monochrome carved print style“等关键词,让ai联想到了其他的木版画风格。明天可以在comfy cloud上继续测试一下。
和AI聊过之后,可能出现了三个方向的问题: 1:caption过于强调什么rough carved linework,或者是其他木版画一半都会出现的词”thick-and-thin line variation, flat ink shapes, simplified forms, folk decorative motifs, imperfect registration“。而没有强调这个版画是线为主、装饰性特别强、民间题材、没有明暗、negative space是干净的特点。
learning rate可能需要调整
3.素材还是太少,可能要到30张的样子
因为你这次的问题,不是“像不像”,而是像错了方向。
你给的参考图(图1)核心是:
线条主导
留白干净
黑块克制
没有明暗建模
装饰性很强
民间题材 / 民间图像秩序
平面化、符号化
negative space 是画面结构的一部分
而 AI 图(图2)学到的更像是:
generic 黑白木版画 / cutout 风
黑底白线的反相版画感
动态装饰波纹
较强的戏剧性动势
更像“现代化的民俗黑白插画”
不是“民间供像/纸马体系里的线描印刷逻辑”
这说明模型不是完全没学,而是学到了一个更宽泛、更常见、更容易学到的上位风格:黑白木刻/版画感,却没学到你真正要的那个下位风格:线为主、块为辅、留白干净、民间平面图像秩序。
而这种“方向性学偏”,最常见的根源恰恰就是 caption 把风格本体定义错了。
Style LoRA 训练数值推荐
{
"data": "https://your-storage.com/training-images.zip",
"trigger_word": "mystyle",
"steps": 1000,
"learning_rate": 0.0004,
"lora_rank": 16
},
)learning_rate
Default: 5e-4
Use 1e-4 for slower/conservative learning, 1e-3 for faster/aggressive learning.
Comments