Stable Diffusion 3 Medium免费体验地址

AI教程 2024-06-14

在经历 CEO 被迫下台、核心研发团队成员离职等风波后,在文生图领域享受盛名的 AI 独角兽公司 Stability AI 如约开源 Stable Diffusion 3 Medium,并号称这是迄今为止最先进且最新的文本图像开源生成模型。

Hugging Face 地址:

https://huggingface.co/stabilityai/stable-diffusion-3-medium

新推出的 Stable Diffusion Medium 旨在成为一款体积更小、功能强大的模型,能够在消费级 GPU 上流畅运行。目前该模型已授权非商业用途下载体验。 体验地址:https://stability.ai/news/stable-diffusion-3-medium

image.png

据官博介绍,SD3 Medium 是一款具备 20 亿参数的 MMDiT 图像模型,其在图像质量、字体处理、复杂指令理解及资源效率等方面实现了显著的性能飞跃,其背后功臣则是 Diffusion Transformer 架构。其中与英伟达合作的 TensorRT 优化版性能直接提升了 50%。

为此,官网还列出了 SD 3 Medium 的诸多亮点:

整体质量和照片级真实感:生成的图像细节丰富、色彩饱满、光影自然,既能实现逼真的照片级输出,也能适应多种风格的高质量创作。通过诸如 16 通道变分自编码器(VAE)等创新技术,该模型成功规避了其他模型常见的缺陷,比如在渲染手部和面部时的不真实感,从而提升了这些部位的表现力和真实度;

提示词理解能力:能深入理解包含空间推理、构成元素、动作及风格等复杂要素的长指令。用户可通过全部三个文本编码器的组合使用,在性能与效率之间做出灵活取舍;

文字呈现:借助 Stability AI 的扩散变换器架构,实现了前所未有的文字质量,大幅减少了拼写错误、字距调整、字母形态和间距问题;

资源高效:较低的 VRAM 占用,即便是在标准消费级 GPU 上运行,也能保持高性能,无性能衰减之忧;

精细调校:即使面对小型数据集,也能精准吸收其中的细微特色,非常适合个性化定制。

期待之下,不少用户及时测评了新模型的图片生成效果。

image.png

樱花少女,甜美可爱。

image.png

3D猫猫,萌感得让人想rua。

同时,日语用户还在感叹 SD 3 Medium 对非英语的提示词的输入识别理解及对应生成能力。

等等,事情并没有这么简单。

到了现实场景的人像生成时,各种诡异的现象发生了……

image.png

SD3 Medium 在人体图像生成能力上翻车了!

不少网友也晒出了更多翻车图片:

image.png

使用 Stable Diffusion 3 生成的躺在草地上的女孩的 AI 图像

image.png

使用 Stable Diffusion 3 Medium 生成的 AI 图像

根据实测表现,用户对该款模型的发布并未给到多少赞誉,反而是嘲笑的成分更多些:这款号称最先进的图像合成模型,却在人像生成及人体部位绘制上比 Midjourney 或 DALL-E 3 的效果更差,着实令人大跌眼镜。

简直就是对上述官网列出的亮点第一条的大型打脸现场!各种匪夷所思的“鬼胎”生成,让网友直呼:太阴间!

在 Reddit 上,一篇名为“这个版本是个笑话吗?”的帖子详细描述了 SD3 Medium 在渲染人类特别是四肢(如手和脚)方面的失败。用户直接吐槽道:“StableDiffusion 与 Midjourney 的竞争时间并不长,现在它看起来简直像个笑话。唯一能拿出来说说的,就只有数据集安全和符合道德原则了!”

究其主要原因在于道德准则,Stability 强调安全、负责任的 AI 实践原则,并已经采取并将继续通过合理措施以防范恶意行为者对 SD3 Medium 的滥用行为。该公司表示,安全自模型训练之时起,贯穿整个测试、评估与部署过程。Stability 对模型开展了广泛的内、外部测试,同时制定并实施了多项保护措施以防止危害发生。

然而,这样严苛的道德准则,也会影响训练图片中的过滤机制。

太讲武德的开发及训练规则,让大模型难以窥其全貌,于是幻觉产生,“鬼胎”诞生。道德准则也许不应前置在大模型学习阶段,而应在输出阶段严加把控。

应该坚持怎样的道德准则,如何设置道德规则以至于让大模型更好地服务人类,此次 SD3 Medium 发布及人体绘制的再次翻车更说明了其重要性。

@版权声明:部分内容从网络收集整理,如有侵权,请联系删除!

相关文章