新LORA_caption修改&标注APP&训练参数_2026030
- issac zhang

- Mar 30
- 4 min read
Updated: Mar 31
纯隆回纸马纸马的训练效果并不是很好,因为这个lora只学到了木版画的通用风格,画面会有特别多的排线、甚至有明暗,所以我需要重新优化caption和数据集👇
caption优化
民间纸马的视觉建构逻辑与空间语法.docx根据我们最新一版关于caption的讨论,结合我上传的文件“民间纸马的视觉建构逻辑与空间语法”与我期待的这个训练出来的lora生成图像不要有明暗变化、细致排列的decorative carved line,而是粗野、拙稚的线条为主,负空间干净,结合少量黑色色块上色区域、中国民间视觉符号、中心构图..为主的,然后去给我一个新用于style lora训练caption方案。
我给你一个更“收束”、更适合这次目标审美的 style LoRA 训练 caption 方案。它不是简单复述“纸马”研究文本,而是从你上传的文档中做了一次“选择性抽取”:保留纸马图像最关键的仪式性中心构图、主次等级、符号化、粗拙刀感,但主动剔除那些会把模型带向“细密装饰雕线、复杂纹理堆叠、明暗塑形”的描述方向。文档本身强调,纸马图像遵循严格的空间语法,而不是随意涂抹;👇
zhima_ritualraw, Yunnan jiama and Meishan folk ritual print style, shamanic totemic imagery, myth-driven figure design, rough angular carved lines, bold uneven woodcut strokes, clumsy naive drawing, primitive anti-anatomical stylization, mask-like face, squat thick body, flat graphic image, ritual bilateral balance, sparse symbolic layout, clean negative space, few solid black fill areas, raw handmade print feeling, [subject], [gesture/layout], [1-3 ritual or animal motifs], [print texture]
但是我陷入了一个纠结之中,即:我有个疑问,就是关于caption里面的一些词,qwen lora这个底模能看懂吗。比如: Yunnan jiama and Meishan folk ritual print style, shamanic totemic imagery、anti-anatomical stylisation???
所以:我用云南纸马去测试这个caption能不能成立,因为qwen官方底模生成不出来,生成不出来也就是他们没有把数据放进来,所以基于qwen底模生成的lora自然不认识这个caption,这个逻辑成立吗?

你做了一个非常好的测试!这张图完美证明了你的前半段逻辑:Qwen 底模的预训练数据里,确实没有(或者极度缺乏)“云南甲马”和“梅山纸马”的视觉数据。 它仅仅提取了“马”和一点点“纸绘/素描”的概念,给你画了一匹非常西式的、符合标准解剖学的普通素描马,完全没有民间版画的野性与萨满气息。
但是,你推导出的结论——“所以基于 Qwen 底模训练的 LoRA 自然也不认识这个 Caption”——是错误的。
💡 为什么你的结论不对?
因为教底模认识它原本不认识的词汇和画面,正是我们训练 LoRA 的唯一目的!
如果底模本来就能通过“云南纸马”画出完美的甲马图,那你根本就不需要训练 LoRA 了。
LoRA 训练的本质,是一个“强行绑定(词汇重定义)”的过程:
训练前(你现在的状态): 底模看到 Yunnan jiama,脑子里是空白的,只能瞎猜(画个普通马)。
训练中: 你把几十上百张真正的“云南甲马”图片喂给它,并在每张图的 Caption 里都写上 zhima_ritualraw 和 Yunnan jiama。
发生的变化: 模型会在训练中不断纠错,它会发现:“原来主人说的 Yunnan jiama 根本不是我以为的那种普通马,而是这种线条粗犷、比例夸张、带有木刻质感的奇特图案!”
训练后(加载 LoRA): 当你挂载上你训练好的 LoRA,再次输入 Yunnan jiama 时,模型就已经“认识”这个词了,它会精准输出你教给它的那种版画风格。
最后新一版的caption模板👇
zhima_ritualraw, Yunnan jiama and Meishan folk ritual woodblock print style, shamanic totemic imagery, myth-driven figure design, rough angular carved lines, bold uneven woodcut strokes, clumsy naive drawing, primitive anti-anatomical stylization, mask-like face, squat thick body, flat graphic image, ritual bilateral balance, sparse symbolic layout, clean negative space, few solid black fill areas, raw handmade print feeling, [subject], [gesture/layout], [ritualor animal motifs]
新增了一版隆回纸马+云南纸马的训练集,因为风格相似,然后可以起到补充数据集数量的原因,在筛选云南甲马的过程中,我有限选择线条为主的,没有那么抽象的。符合caption的。
详情见我整理的zhima_nonpurestyle&zhima_purestyle与纯隆回纸马的数据集区别
然后我根据用word里面的gpt5.4生成的一个skills上传到ai studio写了一个app。

Lora训练参数
![训练参数,zhima_Purestyle: 10%|9 | 249/2500 [28:28<4:17:27, 6.86s/it, lr: 5.0e-05 loss: 1.218e-01] 会出错 。后面查出来是sample图生成的时候像素设置太高了,所以我重新设置了一个540*960的像素,这样就不会因为内存爆了而训练失败了](https://static.wixstatic.com/media/4dfa68_1aa92a81b6284b999956762437ed762e~mv2.png/v1/fill/w_980,h_544,al_c,q_90,usm_0.66_1.00_0.01,enc_avif,quality_auto/4dfa68_1aa92a81b6284b999956762437ed762e~mv2.png)

Comments