生数科技：从UniDiffuser到Vidu，打造全球领先的多模态大模型

AI快讯 2024-04-28

4月27日，中关村论坛的盛大舞台上，一场关于人工智能的盛会吸引了众人的目光。在这次盛会上，清华大学携手生数科技，共同揭开了中国首个在视频大模型领域实现长时间、高一致性、高动态性的产品——Vidu的神秘面纱。

据悉，这款名为Vidu的视频大模型，其独特的Diffusion与Transformer融合的架构U-ViT，展现了令人瞩目的能力。它能够根据文本生成长达16秒、清晰度高达1080P的高清视频内容，这在业界堪称一大突破。

Vidu不仅拥有模拟真实物理世界的强大功能，更展现出惊人的想象力。多镜头生成、时空一致性高等技术特点，让它在全球范围内率先取得了重大突破，性能与国际顶尖水平相媲美。

对于想要体验这款产品的朋友们，可以访问指定的产品入口和申请试用地址，感受Vidu带来的全新视觉体验。

谈及Vidu的架构，不得不提生数科技在技术研发和原创能力方面的卓越表现。该公司在全球顶级期刊上已发表了超过15篇技术论文，这为其原创Vidu架构奠定了坚实的基础。

生数科技的研究人员表示，Vidu的快速突破得益于团队在贝叶斯机器学习和多模态大模型领域的深厚积累和原创性成果。U-ViT架构的提出，早于其他同类模型，其独特的Diffusion与Transformer融合特性，为全球首创。

此外，生数科技在2023年3月还开源了基于U-ViT融合架构的多模态扩散模型UniDiffuser，进一步验证了U-ViT架构的大规模可扩展性。正是基于对U-ViT架构的深入理解以及丰富的工程与数据经验，生数科技在短短两个月内就突破了长视频表示与处理的多项关键技术，成功研发出Vidu视频大模型，极大地提升了视频的连贯性和动态性。

Vidu的发布，不仅是U-ViT融合架构在大规模视觉任务中的又一次成功应用，更是生数科技在多模态原生大模型领域持续创新能力和领先地位的体现。作为通用视觉模型，Vidu能够支持生成更加多样化、更长时长的视频内容，为未来更广泛的模态兼容和多模态通用能力的拓展奠定了坚实基础。

除了Vidu视频大模型，生数科技还提供了文生图片、文本或图片生成3D模型等多项功能，目前均已在线提供，感兴趣的朋友们不妨去体验一下。

谈到生数科技，这是一家在2023年3月成立的年轻而充满活力的公司。其核心团队成员均来自清华大学人工智能研究院，并汇聚了阿里、腾讯、字节等知名科技公司的顶尖人才。作为全球领先的深度生成式算法研究团队，生数科技在扩散概率模型底层创新研发方面拥有强大的实力。

生数科技致力于打造世界领先的多模态大模型，通过融合文本、图像、视频、3D等多模态信息，探索生成式AI在艺术设计、游戏制作、影视后期、内容社交等场景的商业应用，以期通过AI技术提升人类的创造力和生产力。