新LORA_训练集挑选&caption&云端LORA私密化_20260326
- issac zhang

- Mar 26
- 4 min read
Updated: Mar 27
云端模型私密化 之前我的lora上传之后模型变得公开,这对我的数据安全非常不好,所以我找到了一个方法解决这个问题就是通过huggingface或者找到civitai不公开的方法。具体链接如下👇
还是那个老问题:style lora应该怎么写caption。 虽然这个网站:https://www.runcomfy.com/comfyui-nodes)/trainer/ai-toolkit/qwen-image-2512-lora-training 提供了解决方案-只写风格提示词和触发提示词,比如: 4.2.3 Style caption templates
Trigger is optional. If you use one, it gives you an on/off switch.
No trigger, short caption:
in a watercolor illustration style, soft edges, pastel palette
Trigger + short caption:
[trigger], watercolor illustration, pastel palette, soft edges
根据以前训练lora的经验style lora很可能只学到了黑色线条怎么使用,而是不学会里面的五官画风、角色风格、构图等等。所以,如果从qwen lora工作的原理来说,假设我只写触发词和风格描述词,而不写shot和角色、细节与构图描述。它的泛化性是不是最强的?因为我的lora训练集是一共有45张中国古代纸马,从手相、面相、单人、半身、双人、多人到动物等。 那么我如果想做一个现代人和外星人的2min动画,我是不是得两个方案同时进行A B测试?
我的设想是进行一个AB版本的测试,去测试我的lora是否能够保持在保持风格特性的同时还能有着泛化性的平衡:
第一个是只写触发词和风格描述词,第二个是触发词和风格描述词+角色结构词 + shot 词
AI最后推荐我进行ABC测试,也就是: A:纯风格组(最适合测试“现代人/外星人”) B-lite:风格 + shot 词(我最推荐) B:风格 + shot + 角色结构词(最适合测试“纸马人物语法保留”),例如”zhima_style, paper horse print, stamp-like layout, decorative border, rough carved linework, thick-and-thin line variation, flat ink shapes, simplified forms, folk decorative motifs, imperfect registration, visible print pressure variation, frontal figure, symmetrical layout, close-up“
但是那为什么不能像描述这张图片这样,在提示词里写”两个人,一个老人在前面,一个侍者在后面“。
AI 理由是:1) 因为这已经不是“视觉结构描述”,而是“语义解释”
对于 Qwen-Image-2512 的 style LoRA,公开训练建议的核心是:
style caption 应该优先描述 style attributes,而不是 scene content
2) 因为它会把 LoRA 从“风格适配器”推向“题材/叙事适配器”
Qwen 2512 的公开指南反复强调一点:
style LoRA 泛化最好时,style 应该尽量成为唯一稳定因子。
解决方案
所以我最后应该是: A:纯风格
B-lite:风格 + shot
B-struct:风格 + shot + 客观结构内容(我现在最推荐)
B-heavy:风格 + shot + 角色语法 + 更强内容词(对照组)
然后要用同一批测试提示词去比较三组,比如:
modern person, walking in a city street
alien standing in a corridor
two astronauts talking
close-up portrait of an extraterrestrial
wide shot of a crowd
然后看这三件事:
风格味道够不够强
外星人/现代人是否能自然出现
镜头是否可控、是否总被吸回默认版式
这一步对动画尤其关键,因为你最终不是做单图,而是做 2min 多镜头序列。
数据集标注 在训练的时候我忘记给数据集的来源进行标注出处了,这是一个巨大的错误(万一以后examiner问怎么办?) 所以我以后的lora要记得进行标注来源在哪...
数据集挑选
因为我是基于隆回纸马这一个非常小众的版画为数据集主体,其他的图片只能做为风格多样化的补充(这是为了要我的style lora有更多的泛化性的缘故),所以很多不符合隆回纸马的调性的图片都给删掉。就好比下面两个图,一个是新刻一个是旧版。旧版的粗糙、稚嫩的画面更加符合。


不过这诞生了一个新问题:”我动画里面有飞碟 + 器官 + 手部特写,那我数据集里能针对性的加入相关图片吗?“其实也是我有必要为了保证数据集多样性这样做吗?
AI的回答是: 新加入的图片,必须服务于你想扩展的“可生成边界”,而不是破坏核心风格。
数据集分为: 1. 风格锚点样本(主干)
这是你的核心纸马图,继续占大头。
它们负责教会模型:
单色木版感
粗细不均的刀味线条
印压变化
黑白块面
纸马式版式
民间装饰性
建议占比:
60%–75%
2. 结构扩展样本(你要补的重点)
这类就是你说的:
手部特写
器官图形
飞碟轮廓
外星生物轮廓
特定局部构图
然后数据集我觉得可以统一一套风格,一个是精细版的。
还有一个是粗版的。 植物:新编类要图注本草.卷01至17.总四十二卷.目1卷.上5卷.宋唐慎微.寇宗奭撰.宋末元初建安余彦国励贤堂刊本
动物/人物:!新刊京本风鉴相法人相编.6卷.首1卷.明.回阳子编
杂项:
Comments