Stable Diffusion 3 Medium免费体验地址

AI教程 2024-06-14

在经历 CEO 被迫下台、核心研发团队成员离职等风波后，在文生图领域享受盛名的 AI 独角兽公司 Stability AI 如约开源 Stable Diffusion 3 Medium，并号称这是迄今为止最先进且最新的文本图像开源生成模型。

Hugging Face 地址：

https://huggingface.co/stabilityai/stable-diffusion-3-medium

新推出的 Stable Diffusion Medium 旨在成为一款体积更小、功能强大的模型，能够在消费级 GPU 上流畅运行。目前该模型已授权非商业用途下载体验。体验地址：https://stability.ai/news/stable-diffusion-3-medium

据官博介绍，SD3 Medium 是一款具备 20 亿参数的 MMDiT 图像模型，其在图像质量、字体处理、复杂指令理解及资源效率等方面实现了显著的性能飞跃，其背后功臣则是 Diffusion Transformer 架构。其中与英伟达合作的 TensorRT 优化版性能直接提升了 50%。

为此，官网还列出了 SD 3 Medium 的诸多亮点：

整体质量和照片级真实感：生成的图像细节丰富、色彩饱满、光影自然，既能实现逼真的照片级输出，也能适应多种风格的高质量创作。通过诸如 16 通道变分自编码器（VAE）等创新技术，该模型成功规避了其他模型常见的缺陷，比如在渲染手部和面部时的不真实感，从而提升了这些部位的表现力和真实度；

提示词理解能力：能深入理解包含空间推理、构成元素、动作及风格等复杂要素的长指令。用户可通过全部三个文本编码器的组合使用，在性能与效率之间做出灵活取舍；

文字呈现：借助 Stability AI 的扩散变换器架构，实现了前所未有的文字质量，大幅减少了拼写错误、字距调整、字母形态和间距问题；

资源高效：较低的 VRAM 占用，即便是在标准消费级 GPU 上运行，也能保持高性能，无性能衰减之忧；

精细调校：即使面对小型数据集，也能精准吸收其中的细微特色，非常适合个性化定制。

期待之下，不少用户及时测评了新模型的图片生成效果。

樱花少女，甜美可爱。

3D猫猫，萌感得让人想rua。

同时，日语用户还在感叹 SD 3 Medium 对非英语的提示词的输入识别理解及对应生成能力。

等等，事情并没有这么简单。

到了现实场景的人像生成时，各种诡异的现象发生了……

SD3 Medium 在人体图像生成能力上翻车了！

不少网友也晒出了更多翻车图片：

使用 Stable Diffusion 3 生成的躺在草地上的女孩的 AI 图像

使用 Stable Diffusion 3 Medium 生成的 AI 图像

根据实测表现，用户对该款模型的发布并未给到多少赞誉，反而是嘲笑的成分更多些：这款号称最先进的图像合成模型，却在人像生成及人体部位绘制上比 Midjourney 或 DALL-E 3 的效果更差，着实令人大跌眼镜。

简直就是对上述官网列出的亮点第一条的大型打脸现场！各种匪夷所思的“鬼胎”生成，让网友直呼：太阴间！

在 Reddit 上，一篇名为“这个版本是个笑话吗？”的帖子详细描述了 SD3 Medium 在渲染人类特别是四肢（如手和脚）方面的失败。用户直接吐槽道：“StableDiffusion 与 Midjourney 的竞争时间并不长，现在它看起来简直像个笑话。唯一能拿出来说说的，就只有数据集安全和符合道德原则了！”

究其主要原因在于道德准则，Stability 强调安全、负责任的 AI 实践原则，并已经采取并将继续通过合理措施以防范恶意行为者对 SD3 Medium 的滥用行为。该公司表示，安全自模型训练之时起，贯穿整个测试、评估与部署过程。Stability 对模型开展了广泛的内、外部测试，同时制定并实施了多项保护措施以防止危害发生。

然而，这样严苛的道德准则，也会影响训练图片中的过滤机制。

太讲武德的开发及训练规则，让大模型难以窥其全貌，于是幻觉产生，“鬼胎”诞生。道德准则也许不应前置在大模型学习阶段，而应在输出阶段严加把控。

应该坚持怎样的道德准则，如何设置道德规则以至于让大模型更好地服务人类，此次 SD3 Medium 发布及人体绘制的再次翻车更说明了其重要性。