Kolors操作指南与SD3模型评比

AI快讯 2024-07-09

Kolors大模型简介

就在上周末,国内大厂快手开源了可图大模型文生图模型,这是由快手可图团队开发的基于潜在扩散的大规模文本到图像生成模型。

• Kolors 是在数10亿图文对下进行训练,

• 在 视觉质量、复杂语义理解、文字生成(中英文字符) 等方面,相比于当前业界开源/闭源模型,都展示出了巨大的优势。特别是在中文文字生成方面领先于当前所有业界模型。

• Kolors 支持中英双语,在中文特色内容理解方面更具竞争力。

研发团队构建了一个包含14种垂类,12个挑战项,总数量为一千多个 prompt 的文生图评估集 KolorsPrompts。在 KolorsPrompts 上,并且收集了 Kolors 与市面上常见的 SOTA 级别的开源/闭源系统的文生图结果,并进行了人工评测和机器评测。

人工评测

研发团队邀请了50个业界领域专家对生成图像打分,评估维度包括:画面质量、图文相关性、整体满意度三个方面。结果表明:Kolors 在整体满意度方面处于最优水平,其中画面质量显著领先其他模型。

image.png

机器评测

研发团队采用 MPS(Multi-dimensional Human preference Score) 来模型评估。结果表明:Kolors 实现了最高的MPS 指标,这以结果与人工评估的指标一致。

image.png

官方演示

高质量人像

image.png

中国元素

image.png

复杂语义理解

image.png

文字渲染能力

image.png

Kolors大模型ComfyUI安装

当前快手已经提供了在线的Kolors文生图服务可使用,不想本地部署的同学可以使用在线服务体验:https://klingai.kuaishou.com/。

模型安装

如果需要本地部署,则使用社区的ComfyUI-KwaiKolorsWrapper插件实现。

• 首先需要更新ComfyUI到最新版本,然后通过ComfyUI插件管理器安装ComfyUI-KwaiKolorsWrapper。插件地址为:https://github.com/kijai/ComfyUI-KwaiKolorsWrapper。

• 下载ChatGLM3量化模型,并放置在本地目录ComfyUI/models/LLM/checkpoints。模型地址为:https://hf-mirror.com/Kijai/ChatGLM3-safetensors/tree/main 。这里提供了3种量化权重文件,根据本地显存选择合适模型权重。对于小显存建议直接chatglm3-4bit.safetensors。

• 下载Kolors模型,本模型会在首次运行时自动下载(切记科学!!!),并放置在ComfyUI/models/diffusers/Kolors目录下。模型地址为:https://hf-mirror.com/Kwai-Kolors/Kolors/tree/main。

• 加载文末工作流文件,然后重启ComfyUI,即可开始体验。

image.png

本地模型结构为:

image.png

不同量化模型对应的显存要求如下所示:

image.png

文生图工作流

image.png

图生图工作流

image.png

Kolors与SD3工作流

image.png

Kolors和SD3评比体验

• SD3模型下载地址:https://www.liblib.art/modelinfo/7847d40f1f54491993748607787769c0

• SD3工作流下载地址:https://www.liblib.art/modelinfo/771e1bfd85f44bf68f26ad11fab71d12

注:本文为了保持评比图像的真实性,未对脸、手等做后期二次处理。如需修手参见笔者文章:[SD必备知识18]修图扩图AI神器:ComfyUI+Krita加速修手抽卡,告别低效抽卡还原光滑细腻双手,写真无需隐藏手势

01:中文提示语

因为SD3输入提示语理解主要为英文,但Kolors是支持直接中文和英文双语提示的。SD3并没有收据木牌。

1个中国女孩,手举这木牌,木牌上写着文字“我爱你中华”。身穿中国古风旗袍,淡黄色旗袍,18岁女孩,年轻美貌

SD3效果:

image.png

image.png

Kolors效果:

image.png

image.png

02:中文渲染

Kolors中文渲染能力胜出。提示这里也能看出SD3手部问题明显大于Kolors。但都未很好的解决。笔者抽卡中感觉Kolors会更容易一些,因为巧妙的藏起来了,特别在后续多人场景更明显。

A Chinese girl holds up a wooden sign with the chinese words "我爱你中华" written on it. Dressed in ancient Chinese style cheongsam, light yellow cheongsam,

SD3效果:图片

image.png

image.png

Kolors效果:图片

image.png

image.png

03:中文元素与光影效果

在中文元素方面会Kolors稍强一些,但在光影效果方面SD3各有千秋。

A young model in Chinese dress poses, in front of divine light with silhouette light illuminating the edges of the long curly hair, snowflake, solid color red background, Excellent skin texture, gaze deeply, cheerful atmosphere, in the style of eye-catching resin jewelry, Beauty product advertising, photo

SD3效果:

image.png

image.png

Kolors效果:

image.png

image.png

04:人物写实

在人物写实艺术感和光影上SD3会更多变彩色元素融合,Kolors会贴近现实,各有千秋。

 masterpiece, best quality, 1girl ((pure gradient background, )), long hair, floating hair, blush, looking at viewers, happy, ((front)),(upper body), (studio light), soft light, dark style, night style,Real photography

SD3效果:

image.png

image.png

Kolors效果:

image.png

image.png

总结,综合评估结果笔者感觉如Kolors的评估结果,对于中文语境的创作会显著优于SD3,特别对中文提示语支持,中文语言了解,以及ChatGLM3大语言模型的加持下。特别是在与可灵图生视频结合,极大的推进了国产AIGC迈进的里程碑。当然这只是感性评估,仁者见仁。

@版权声明:部分内容从网络收集整理,如有侵权,请联系删除!

相关文章