DreamTech获得连续两轮千万元融资,这家3D大模型凭的是什么?

AI快讯 2024-06-26

语言大模型技术的进步直接推动了ChatGPT等文本生成AI的浪潮一样,在图像、视频、三维领域,大模型技术也推动了包括2D、3D等生成式AI的进步。

从2022年开始,包括Midjourney、Stability AI等专注AI生成图片方向的公司迅速崛起,带动了文生图领域的迅速繁荣,而OpenAI SORA、Luma Dream Machine、快手可灵等AI生成视频方向的应用,也成为当前热点。

image.png

近日,选择原生3D路线的AI创业公司「DreamTech」连续完成数千万元天使轮及天使+轮融资,天使轮为元禾原点领投,启迪之星创投、云天使基金跟投,天使+轮为初心资本独家投资。

事实上,想利用AI生成一个3D的立体模型,主要有2D升维和原生3D两种技术路线。但2D升维需要先经历从文字或单张2D图像到多视角图像,再进行重建得到3D模型,尽管可在现有图像生成模型(例如Stable Diffusion)基础上进行微调,更容易完成训练。但缺点是过程复杂,中间的误差累计导致生成的3D模型出现畸形、多头等质量问题。

image.png

另外,由于2D图像本质上缺少3D信息,而2D升维的模型架构设计上主要针对2D数据处理进行优化,无法继续像大语言模型一样scale up,生成质量已经达到瓶颈,即使增加模型参数和训练数据,3D生成质量也很难继续提高。

相较之下,原生3D采用纯3D数据进行训练,优点是由于训练的数据和优化的目标都是原始的3D模型,生成的3D模型质量和效果会更好,更接近原始3D模型的质量,也更能处理应对复杂场景。

据了解,DreamTech团队之所以选择原生3D路线,首先是其在高效的3D模型表征上找到了新的方法,通过Decoder网络实现了对原始3D数据近乎无损的恢复。

其次,团队基于Diffusion Transformer架构,在3D领域做了大量优化,在扩大训练数据规模以及增加参数量后,大模型的生成质量会得到巨大提升。

一个典型例子是,OpenAI在2024年发布的SORA,就是基于Diffusion Transformer架构进行训练,展示了震惊世界的生成效果,无论是视频分辨率、视频时长还是视频生成质量都得到了极大提升。

再者,为了解决3D数据困境,DreamTech团队自研了一套3D数据合成引擎,建立了数据清洗、标注等全自动数据处理流程,其产出的3D数据在千万量级,均为高质量数据,能够用于进一步的模型训练。

在今年5月,DreamTech发布了采用3D Diffusion Transformer(3D-DiT)架构的Direct3D-1B模型(10亿参数)。张飞虎表示,这是全球首个公开发布的原生三维生成路线的3D大模型。随着训练数据量的增加,模型的生成质量明显提升,接下来,团队还会进一步扩大模型参数和训练规模。

并且,尽管用的是原生3D路线,训练成本反倒减少了。基于原生3D数据模型表征及3D-DiT训练上的突破,DreamTech把训练和推理的算力成本压缩为了原先的十分之一,将原本需要千卡以上的训练任务压缩到了百卡规模。

当前,DreamTech在模型层面已经完成初步开发,接下来将逐步迭代,产品层面也在同步准备,下半年将启动产品落地。团队计划先从游戏、二次元人群的C端产品入手,推出符合二次元用户娱乐社交需求的相关产品。在B端用户上,也会针对游戏、动画创作者推出基于原生3D大模型生成能力的三维创作平台。

@版权声明:部分内容从网络收集整理,如有侵权,请联系删除!

相关文章