top of page
Search

新LORA_训练集挑选&caption&云端LORA私密化_20260326

  • Writer: issac zhang
    issac zhang
  • Mar 26
  • 4 min read

Updated: Mar 27

云端模型私密化 之前我的lora上传之后模型变得公开,这对我的数据安全非常不好,所以我找到了一个方法解决这个问题就是通过huggingface或者找到civitai不公开的方法。具体链接如下👇



还是那个老问题:style lora应该怎么写caption。 虽然这个网站:https://www.runcomfy.com/comfyui-nodes)/trainer/ai-toolkit/qwen-image-2512-lora-training 提供了解决方案-只写风格提示词和触发提示词,比如: 4.2.3 Style caption templates 

Trigger is optional. If you use one, it gives you an on/off switch. 

  • No trigger, short caption:  

    in a watercolor illustration style, soft edges, pastel palette

  • Trigger + short caption:  

    [trigger], watercolor illustration, pastel palette, soft edges


根据以前训练lora的经验style lora很可能只学到了黑色线条怎么使用,而是不学会里面的五官画风、角色风格、构图等等。所以,如果从qwen lora工作的原理来说,假设我只写触发词和风格描述词,而不写shot和角色、细节与构图描述。它的泛化性是不是最强的?因为我的lora训练集是一共有45张中国古代纸马,从手相、面相、单人、半身、双人、多人到动物等。 那么我如果想做一个现代人和外星人的2min动画,我是不是得两个方案同时进行A B测试?

我的设想是进行一个AB版本的测试,去测试我的lora是否能够保持在保持风格特性的同时还能有着泛化性的平衡:

第一个是只写触发词和风格描述词,第二个是触发词和风格描述词+角色结构词 + shot 词

AI最后推荐我进行ABC测试,也就是: A:纯风格组(最适合测试“现代人/外星人”) B-lite:风格 + shot 词(我最推荐) B:风格 + shot + 角色结构词(最适合测试“纸马人物语法保留”),例如”zhima_style, paper horse print, stamp-like layout, decorative border, rough carved linework, thick-and-thin line variation, flat ink shapes, simplified forms, folk decorative motifs, imperfect registration, visible print pressure variation, frontal figure, symmetrical layout, close-up“

但是那为什么不能像描述这张图片这样,在提示词里写”两个人,一个老人在前面,一个侍者在后面“。

AI 理由是:1) 因为这已经不是“视觉结构描述”,而是“语义解释”

对于 Qwen-Image-2512 的 style LoRA,公开训练建议的核心是:

style caption 应该优先描述 style attributes,而不是 scene content

2) 因为它会把 LoRA 从“风格适配器”推向“题材/叙事适配器”

Qwen 2512 的公开指南反复强调一点:

style LoRA 泛化最好时,style 应该尽量成为唯一稳定因子。


解决方案

所以我最后应该是: A:纯风格

B-lite:风格 + shot

B-struct:风格 + shot + 客观结构内容(我现在最推荐)

B-heavy:风格 + shot + 角色语法 + 更强内容词(对照组)


然后要用同一批测试提示词去比较三组,比如:

  • modern person, walking in a city street

  • alien standing in a corridor

  • two astronauts talking

  • close-up portrait of an extraterrestrial

  • wide shot of a crowd

然后看这三件事:

  1. 风格味道够不够强

  2. 外星人/现代人是否能自然出现

  3. 镜头是否可控、是否总被吸回默认版式

这一步对动画尤其关键,因为你最终不是做单图,而是做 2min 多镜头序列。


数据集标注 在训练的时候我忘记给数据集的来源进行标注出处了,这是一个巨大的错误(万一以后examiner问怎么办?) 所以我以后的lora要记得进行标注来源在哪...


数据集挑选 因为我是基于隆回纸马这一个非常小众的版画为数据集主体,其他的图片只能做为风格多样化的补充(这是为了要我的style lora有更多的泛化性的缘故),所以很多不符合隆回纸马的调性的图片都给删掉。就好比下面两个图,一个是新刻一个是旧版。旧版的粗糙、稚嫩的画面更加符合。

!全像麻衣相法.二册(字体)
!全像麻衣相法.二册(字体)
新刻麻衣相.图一卷
新刻麻衣相.图一卷

不过这诞生了一个新问题:我动画里面有飞碟 + 器官 + 手部特写,那我数据集里能针对性的加入相关图片吗?“其实也是我有必要为了保证数据集多样性这样做吗?

AI的回答是: 新加入的图片,必须服务于你想扩展的“可生成边界”,而不是破坏核心风格。

数据集分为: 1. 风格锚点样本(主干)

这是你的核心纸马图,继续占大头。

它们负责教会模型:


单色木版感

粗细不均的刀味线条

印压变化

黑白块面

纸马式版式

民间装饰性


建议占比:

60%–75%


2. 结构扩展样本(你要补的重点)

这类就是你说的:


手部特写

器官图形

飞碟轮廓

外星生物轮廓

特定局部构图



然后数据集我觉得可以统一一套风格,一个是精细版的。

还有一个是粗版的。 植物:新编类要图注本草.卷01至17.总四十二卷.目1卷.上5卷.宋唐慎微.寇宗奭撰.宋末元初建安余彦国励贤堂刊本

动物/人物:!新刊京本风鉴相法人相编.6卷.首1卷.明.回阳子编

杂项:

 
 
 

Comments


© Powered by Zicheng Zhang

bottom of page