“中文原生”的腾讯混元大模型开源,网友们都是怎么“整活”的
5 月 14 日,腾讯宣布其旗下混元文生图大模型全面升级,并对外开源。这也是首个中文原生的类 Sora 架构开源模型,填补了国产大模型在文生图先进架构上的空白。
值得一提的是,该文生图模型显著优于SDXL模型,特别包括:
• 中文元素理解:混元DiT提供双语生成能力,中国元素理解具有优势。特别是对中文和中国文化(例如:古诗)的理解。
• 长文本理解能力:混元DiT能分析和理解长篇文本中的信息并生成相应艺术作品。支持更长、更复杂的提示文本理解。
• 细粒度语义理解:混元DiT能捕捉文本中的细微之处,从而生成完美符合用户需要的图片。
• 多轮对话文生图:混元DiT可以在多轮对话中通过与用户持续协作,精炼并完善的创意构想。
混元-DiT是一款**具有精细中英文理解能力的文本到图像DiT(diffusion transformer)**。研发团队精心设计了transformer结构、文本编码器和位置编码。还从头构建了整个数据管道,以更新和评估数据,进行迭代模型优化。为了精细的语言理解,团队还训练了一个多模态大型语言模型来提炼图像的标题。因此混元-DiT模型可以与用户进行多轮多模态对话,根据上下文生成和提炼图像。
在通过精心设计的整体人类评估方面,邀请了超过 50 位专业人类评估员,展示出混元-DiT模型在中文到图像生成方面与其他开源模型相比,树立了新的最先进的水平。
混元-DiT核心特性
中英文双语 DiT 架构
混元-DiT模型是一个在潜在空间中的扩散模型,如下图所示。遵循潜在扩散模型,使用了预训练的变分自编码器(VAE)将图像压缩到低维潜在空间,并训练一个扩散模型来学习数据分布。混元-DiT模型的diffusion扩散模型使用transformer进行参数化。为了编码文本提示,还利用了预训练的双语(英文和中文)CLIP 和多语言 T5 编码器的组合。
多轮文本到图像生成
理解自然语言指令并与用户进行多轮交互对于一个文本到图像系统来说很重要。它可以帮助建立一个动态的、迭代的创作过程,逐步将用户的想法变为现实。研发团队训练 MLLM(多模态LLM) 来理解多轮用户对话并输出新的文本提示,用于图像生成,用来支撑混元-DiT模型进行多轮对话和图像生成的能力。
混元-DiT模型与其他模型对比
为了全面比较 混元-DiT模型 和其他模型的生成能力,研发团队还构建了一个四维测试集,包括文本图像一致性、排除 AI 伪影、主题清晰度、审美。超过 50 位专业评估员进行了评估。
混元-DiT模型演示案例
中文元素理解
01.小桥流水人家
提示词:枯藤老树昏鸦,小桥流水人家。
02。麻婆豆腐
提示词:麻婆豆腐
03.醉后不知天在水
提示词:醉后不知天在水,满船清梦压星河。
长文本理解能力
01.创意创作
提示词:一张细致的照片捕捉到了一尊雕像的形象,这尊雕像酷似一位古代法老,头上出人意料地戴着一副青铜蒸汽朋克护目镜。
这座雕像穿着复古时髦,一件清爽的白色T恤和一件合身的黑色皮夹克,与传统的头饰形成鲜明对比。
背景是简单的纯色,突出了雕像的非传统服装和蒸汽朋克眼镜的复杂细节。
02.人物写真
提示词:一位年轻女子站在春季的火车站月台上。
她身着蓝灰色长风衣,白色衬衫。她的深棕色头发扎成低马尾,几缕碎发随风飘扬。
她的眼神充满期待,阳光洒在她温暖的脸庞上。
03.艺术风格
提示词:后印象主义风格,一条古老的石板路上面散落着金黄色的树叶。
路旁的风车在静谧地转动,后面竖着两个风车。
背景是一片向日葵田,蓝天上飘着几朵白云
细粒度语义理解
01.瓢虫
提示词:太阳微微升起,花园里的玫瑰花瓣上露珠晶莹剔透,一只瓢虫正在爬向露珠,背景是清晨的花园,微距镜头。
02.草莓
提示词:一颗新鲜的草莓特写,光泽鲜艳,颜色诱人,被放在绿色的叶子上,背景是棕色的桌面。
03.白天鹅
提示词:湖水清澈,天空湛蓝,阳光灿烂。一只优雅的白天鹅在湖边游泳。它周围有几只小鸭子,看起来非常可爱,整个画面给人一种宁静祥和的感觉。
混元-DiT模型体验
当前混元-DiT模型官方已经开发源码了,可自由部署体验。本次官方开源包括:DialogGen(提示增强模型)和 Hunyuan-DiT(文本到图像模型)组成。下表显示了运行模型的要求(TensorRT 版本即将更新):
模型 TensorRT 批量大小 GPU 内存 GPU
DialogGen + Hunyuan-DiT ✘ 1 32G V100/A100
Hunyuan-DiT ✘ 1 11G V100/A100
• 需要一个支持 CUDA 的 NVIDIA GPU。
• 最低要求:GPU 内存至少需要 11GB。
• 推荐:建议使用具有 32GB 内存的 GPU 以获得更好的生成质量。
• 测试的操作系统:Linux