top of page
Search

新lora_caption&多重controlnet&训练权重_20260328

  • Writer: issac zhang
    issac zhang
  • Mar 28
  • 4 min read

Updated: Mar 30

QWEN 202512训练网站教程

Q:我有最后一个问题。qwen lora是不是更加青睐自然语言的caption?比如a digital painting of a woman sitting on the ground... A:不是“更青睐长篇自然语言”,而是“能很好理解自然语言”。 对 Qwen-Image-2512 来说,公开资料确实提到它适合用更自然语言的提示,并且社区案例也推荐自然语言驱动的提示;但在 LoRA 训练 场景里,官方/社区训练建议同时明确:你也可以用 trigger-only 或 短而一致的 caption,尤其 style LoRA 更推荐写稳定的风格属性,而不是长篇场景叙述。

所以对你现在这个 纸马 style LoRA,我的判断是:

  • 推理提示词:Qwen 2512 确实比较吃自然语言。

  • 训练 caption不必故意写成 a digital painting of a woman sitting on the ground... 这种长句;短、稳定、结构化 往往更适合你现在的 style LoRA 实验。公开训练页就给过 style LoRA 的短 caption 模板,例如 trigger + watercolor illustration, pastel palette, soft edges 这种形式。


其实可以看出Lora技术的进化,从只能理解短词到自然语言,这是一个门槛的下降。 “Qwen-Image-2512 适合更自然语言的提示 / 社区推荐自然语言驱动提示”:官方仓库里的 prompt_utils_2512.py 明确写了 “Use fluent, natural descriptive language”,说明 2512 的提示重写工具就是朝自然、连贯描述去优化的;同时,社区的 Qwen-Image 提示指南也明确说 Qwen-Image 能按自然语言理解提示,可以用完整句子或详细短语来写 prompt[github.com], [civitai.com]

  • “但在 LoRA 训练场景里,可以用 trigger-only 或短而一致的 caption”:Qwen 2512 的 LoRA 训练指南明确写到:可以用 trigger-only 或 short consistent captions;角色 LoRA 还给出了 [trigger] 这种 trigger-only 模板,以及 短 caption 模板。 [runcomfy.com]

  • “尤其 style LoRA 更推荐写稳定的风格属性,而不是长篇场景叙述”:同一份 Qwen 2512 LoRA 训练指南明确区分了 style LoRA 的 caption 写法:style captions should describe style attributes, not scene content,并给出了类似 [trigger], watercolor illustration, pastel palette, soft edges 的短模板。 [runcomfy.com]

Comfyui controlnet +lora测试

2512版本是可以调整controlnet强度的,但是怎么用multiple lora就得稍微研究一下了
2512版本是可以调整controlnet强度的,但是怎么用multiple lora就得稍微研究一下了

答案就在这个网站👇



用下面的这个lora结合多重controlnet进行测试👇

Dark Ghibli Fairytales

两个apply controlnet强度都为1,结果会出错,因为两个controlnet相加就等于2了。

当两个controlnet相连,两个都不bypass的结果,strength 1
当两个controlnet相连,两个都不bypass的结果,strength 1

下图的姿势确实和参考图的姿势一模一样

一个controlnet strength为1,其他的controlnet为零或者 bypass
一个controlnet strength为1,其他的controlnet为零或者 bypass

一个controlnet strength为0.3,其他的controlnet为0,虽然openpose的强度调整确实有效,但是可见下图lora就失效了。

一个controlnet strength为0.3,其他的controlnet为0
一个controlnet strength为0.3,其他的controlnet为0

其他的controlnet输入图片为空图片,然后会保留lora的风格

一个controlnet strength为0.3,其他的controlnet为0。7
一个controlnet strength为0.3,其他的controlnet为0。7

Conclusion:多重controlnet要记得互相协调强度。

LoRA测评: 可以看到这个lora只学到了木版画的风格和一点点东方的感觉(亚洲人),也就是里面有很多装饰性的linocut line,而且还有明暗。总体来说是可用的,但是有继续提升的空间。不过这可能因为prompt太过于强调了一些”monochrome carved print style“等关键词,让ai联想到了其他的木版画风格。明天可以在comfy cloud上继续测试一下。

和AI聊过之后,可能出现了三个方向的问题: 1:caption过于强调什么rough carved linework,或者是其他木版画一半都会出现的词”thick-and-thin line variation, flat ink shapes, simplified forms, folk decorative motifs, imperfect registration“。而没有强调这个版画是线为主、装饰性特别强、民间题材、没有明暗、negative space是干净的特点。

  1. learning rate可能需要调整

3.素材还是太少,可能要到30张的样子

因为你这次的问题,不是“像不像”,而是像错了方向

你给的参考图(图1)核心是:

  • 线条主导

  • 留白干净

  • 黑块克制

  • 没有明暗建模

  • 装饰性很强

  • 民间题材 / 民间图像秩序

  • 平面化、符号化

  • negative space 是画面结构的一部分

而 AI 图(图2)学到的更像是:

  • generic 黑白木版画 / cutout 风

  • 黑底白线的反相版画感

  • 动态装饰波纹

  • 较强的戏剧性动势

  • 更像“现代化的民俗黑白插画”

  • 不是“民间供像/纸马体系里的线描印刷逻辑”

这说明模型不是完全没学,而是学到了一个更宽泛、更常见、更容易学到的上位风格:黑白木刻/版画感,却没学到你真正要的那个下位风格:线为主、块为辅、留白干净、民间平面图像秩序

而这种“方向性学偏”,最常见的根源恰恰就是 caption 把风格本体定义错了

Style LoRA 训练数值推荐

 {
        "data": "https://your-storage.com/training-images.zip",
        "trigger_word": "mystyle",
        "steps": 1000,
        "learning_rate": 0.0004,
        "lora_rank": 16
    },
)
learning_rate

Default: 5e-4

Use 1e-4 for slower/conservative learning, 1e-3 for faster/aggressive learning.

 
 
 

Comments


© Powered by Zicheng Zhang

bottom of page