新lora_caption&AB方案_20260327
- issac zhang

- Mar 27
- 2 min read
经过我们交谈之后,我经过考虑过时间与预算,我不想进行以下测试
A:纯风格 B-lite:风格 + shot B-struct:风格 + shot + 客观结构内容(我现在最推荐) B-heavy:风格 + shot + 角色语法 + 更强内容词(对照组)
而是只进行两个版本的AB测试,即一个不加入其他有着风格差异,但是只有隆回纸马的数据集。另一个是加入其他少数动画里面会出现的元素,比如手、波形、日月等元素。
然后进行AB测试。
一个是按照网络上推荐的那样,A版本只有风格词和trigger word,b版本是风格词和trigger word+你所描述的“客观的画面结构内容”。
对我的方案进行评估,请你给我一个训练方案
AI建议:
第一阶段:只做这两个 run
Run A
数据:纯隆回纸马核心集
caption:trigger + 风格词
Run B
数据:纯隆回纸马核心集
caption:trigger + 风格词 + 客观结构内容
训练
1024px+,开 bucketing [Document | Word], [Document | Word]
900–1400 steps 先 smoke test [kombitz.com]
统一测试 prompt 对比
所以我把LORA训练书籍分成了两个,一个是有隆回纸马的数据集。另一个是加入其他少数动画里面会出现的元素,比如手、波形、日月等元素。数据集可以在学校云盘有看。
我要求AI:
按照你这个(最简执行版)方案执行。请你重点根据visual analysis(视觉分析)里面的纯描述和形式层面去分析我文档里面的图片视觉特点,然后根据我们之前讨论的caption方案,每张图片分别给我提供两个不同的caption。要注意caption的trigger word和风格提示词要每张一样
插一嘴:我把数据集图片进行了处理,去除了纸投过去产生的叠影,还有图片正上方的文字介绍(这是为了要适配动画做出来的取舍,不然静止的框和动起来的人物会形成一种强烈的对比,产生一种人物在画框里动的奇怪感觉)
Comments