模型必备触发词:s4s the pallas's cat,建议搭配的其他提示词包括:manul、4K HD hi-res photo,realistic Hasselblad photography
模型建议权重:0.6~0.8
模型建议参数: Sampler: DPM++ 2M Karras或Restart、 CFG scale: 7~10、Size≥1024x1024、Steps≥30
心里话:
狲思邈(2015-2022.10.10)是一只从野外救助、曾生活在西宁野生动物园的雄性兔狲,是中国知名度最高的兔狲。
得益于西野圆掌多年如一日的不断科普,以及狲思邈和它的家人们的巨大魅力,兔狲近年来从罕为人知逐渐变为明星物种,和雪豹、荒漠猫等物种一起,极大提升了人们对青藏高原野生动物保护以及生态建设的关注度。
狲思邈的名字源于它第一次被观察到的交配行为只持续了4秒,从而谐音得名狲思邈。它的一生以一个调侃的名字开始,又以一个调侃的方式结束。去年的10月10日,因为吃鸡肉太着急,被鸡骨头卡住喉咙窒息而死。通常圈养兔狲的寿命在12-15岁左右,7岁还正值壮年,我身边喜爱兔狲的朋友们,当时都是巨大的震惊与难过。
今年2月份,我第一次接触了解LoRA模型,做的第一个模型便是兔狲LoRA。兔狲作为一个冷门物种,不管是midjourney、官方SD模型,至今都还没法准确地输出兔狲形象,而LoRA正是微调这一小众概念的绝佳方式。我的初版兔狲LoRA是类似filmgirl这样的通用性模型,使用了300张不同兔狲个体照片来进行训练。在做完这个模型后,我的第二个LoRA模型便是为狲思邈制作一个专属形象LoRA,为此我从兔狲朋友们那里收集到了共263张狲思邈的照片,其中70%来自@yspenny,30%来自@西宁野生动物园 、@圆掌 以及@天音文创馆 。但做成的效果并不好,主要原因有三方面:
1.绝大多数照片都是由手机拍摄、远景裁切,普遍画质模糊并带有自动滤镜色彩。
2.西野小猫馆的玻璃偏绿且反光严重,进一步劣化画质。
3.狲思邈一生都生活在小猫馆的小展室里,场景单一固化。
以上原因导致模型出图率较低,需要大量roll图。因此版本的狲思邈LoRA我并没有公开发布,而是经常笔记本跑图一晚上,然后第二天早上从中选择我认为最理想的图片发布在自己的动物科普账号上。我也曾发微博调侃这样大量的筛图是AI对我的反向微调洗脑,扭曲着我脑海中对于狲思邈真实长相的记忆,因此不得不筛选一阵子就去看看真实照片洗洗眼。
但如今,这些问题有了新的解决方式。虽然仍面临很多不足,但SDXL模型无可置疑要比性能更强,天花板也更高。赶在狲思邈去世一周年之前,我决定再次制作狲思邈的专属形象SDXL LoRA模型。面对SD1.5模型的不足之处,我尝试了以下改进方式:
1.考虑到SDXL模型对训练集的质量极为敏感,然而原有训练集质量参差不齐且普遍画质模糊,因此我重新精选训练集到224张,在淘汰一批图像同时,对于一些可以挽救的训练图进行了AI画质增强。
2.在正则化集中添加了1006张精选的全球各地兔狲个体照片。训练采用自然语言+标签混合打标方式,测试了不同触发词的触发效果,以追求狲思邈训练集与其他兔狲正则化集之间能恰当的区分和关联。尽量做到避免污染个体样貌同时,借助正则化集强化毛发细节,并泛化背景环境与表情姿态。
3.采用adam8bit、DAdaptAdam、Prodigy、adaFactor四个优化器分别进行了训练。对产出模型进行了对比与融合,最终选择出了色彩细节、泛化性以及相似度三个维度上最为平衡的一版作为正式版LoRA。
最终的完工结果让我满意,虽然仍存在SDXL远景模糊的通病,但模型在色彩、神态、环境上的泛化性相比模型显著提升。
以上就是狲思邈LoRA模型的完整心路历程,这注定会是个小众到只有几个人会经常使用的模型,但它在我眼中的价值并不比制作过的其他任何一个模型低,因为这个模型寄托着我和提供训练图的拍摄者们对狲思邈的纪念。生地短暂,活地辉煌,身处一个穷困的西北动物园没能拍出很多好照片,但不妨碍你赛博永生。一年过去了,我们很想你。祝你在狲星慢点吃饭、一切都好。