ComfyUI适配“铺路”,Stable Diffusion 3 Medium真的要来了
最近,从Stability AI 在 X 上发布的消息以及已经有一部分人收到了 Stability AI 的邮件证实了 6 月 12 号将会开源 2B 版本的模型-Stable Diffusion 3 Medium。目前看这消息应该是可以进一步证实了,ComfyUI 已经提交了对 SD3 支持的版本。
据了解,Stable Diffusion3Medium是一个拥有20亿参数的强大模型,与前代版本相比,它在复杂性和性能上都有了显著的提升,使其能够处理更为复杂的图像生成任务,并为用户提供更高质量的生成结果。而为了迎接这一重要时刻,ComfyUI已经提前进行了适配工作,做好了迎接新模型的准备。
再对stable diffusion 3更新特点做一个简单的介绍。
采用Diffusion Transformer(DiT)架构:Stable Diffusion 3.0采用了与Sora相同的DiT架构,这种架构设计使得系统的扩展性更强,能够处理多种类型的输入数据。
支持生成视频、3D内容:Stable Diffusion 3.0发布时,将包含一套完整的工具,支持生成视频、3D以及更多类型的内容创作。
模型参数量的增加:从之前的800M参数升级到8亿参数量,这意味着新的模型能够为用户提供更多扩展性选择,同时生成的图片效果更加惊人。
图像质量的提升:Stable Diffusion 3.0在图像质量和色彩饱和度、图像构图、分辨率、类型、质感、对比度等方面大幅度增强。
Stable Diffusion 3架构简单介绍
根据Stable Diffusion 3论文显示,使用了与Sora相同的架构Diffusion Transformer。
Diffusion模型作为生成模型的一种,主要通过数据到噪声的逆过程来创造新的数据点。这种方法在图像和视频生成方面应用非常广泛。
但是随着Diffusion不断迭代,预训练、推理对算力需求呈指数级增长,对于中小企业、个人开发者来说非常不友好。
所以,在Diffusion基础之上又融合了大模型界非常知名的Transformer架构,通过独立的权重处理图像和文本模态,并实现了这两种模态之间的双向信息流。
Diffusion Transformer架构引入新的噪声采样技术,改进了训练Rectified Flow模型的方法。通过偏向感知上相关的尺度,提高了训练的效率和性能。
该架构采用了模拟无关的流训练方法,直接回归一个向量场,用于生成数据分布和噪声分布之间的概率路径,有效避免了求解常微分方程所带来的超高算力成本,同时也极大增强了文本语义理解、文字嵌入和图片样式等。
Stable Diffusion 3生成展示
其实在Stability AI发布预览版时,已经公布了一大批Stable Diffusion 3生成的图片,基本上与Midjourney、DALL·E 3这两款知名产品差不多。
例如,教室里,黑板上用白色粉笔写着 "GPUs go brrmr",这是一个肯定而幽默的场景。黑板前,一群学生正在庆祝。这些学生被独特地描绘成鳄梨,长着小胳膊小腿,脸上洋溢着喜悦和兴奋的表情。
这个场景捕捉到了一种充满童趣和想象力的氛围,将传统教室的概念与牛油果学生的奇特形象融为一体。
一只半透明的猪,里面是一只更小的猪。
一只青蛙坐在20世纪50年代的快餐厅里,穿着皮夹克,戴着礼帽。桌子上有一个巨大的汉堡和一个写着“Froggy Fridays”的牌子。
一只巨大、威严的白色巨龙,它有多个角和类似须的触角,翱翔在崎岖的山脉景观之上。
这条龙有着明亮的橙色眼睛,似乎在清澈的蓝天下飞翔在蓬松的白云之间。周围有尖锐的积雪覆盖的山峰,以及一座类似古代寺庙或塔楼的小建筑。
目前,Stable Diffusion 3 Medium模型只能用于学术研究无法商业化。如果在正式开源后,想商业化的开发者可以联系Stability AI。