直逼Sora,腾讯推出文生视频模型Mira,20秒超长视频强势出圈

AI快讯 2024-04-29

在2024年伊始,OpenAI推出的Sora文生视频模型,为AI人工智能的发展揭开了崭新的篇章。自此,文生视频(T2V)技术正式踏入了竞技的战场,国内外众多企业纷纷投身其中,试图复刻Sora的架构,以创造出更为出色的文生视频模型。腾讯作为国内科技巨头,亦不甘示弱,其最新研究成果——Mira(Mini-Sora)文生视频模型,便是向Sora式长视频生成T2V模型迈进的重要一步。

image.png

腾讯PCG的ARC实验室精心研发出了这款名为Mira的高质量、长时视频生成模型,其风格与Sora颇为相似。在现有的文本到视频(T2V)生成框架中,Mira凭借几个关键特点脱颖而出:

首先,Mira突破了生成短视频的限制。在大多数框架中,生成的视频往往被限制在2秒或16帧以内,而Mira则能够生成显著更长的视频序列,其潜在时长可达10秒、20秒甚至更长。

其次,Mira在增强动态性方面表现出色。相较于当前视频生成技术中更偏静态的输出,Mira能够创造出具有丰富动态和复杂动作的视频,为用户带来更为生动和真实的视觉体验。

此外,Mira还具备强大的3D一致性。即便在存在复杂动态和物体交互的情况下,Mira仍能确保在整个视频中保持物体的3D完整性,有效避免了可能出现的扭曲现象。

然而,值得注意的是,Mira项目目前仍处于实验阶段,与Sora相比,在某些关键领域仍存在差距。例如,Sora能够支持生成物体与周围环境进行动态交互的视频,从而增加了视频的复杂性和现实感。此外,Sora还能保持物体形状的一致性,即使在物体暂时离开并重新进入画面时,也能确保视频的连续性和一致性。

Mira项目的目标是致力于完善Sora风格的轻量级T2V框架的整个数据-模型-训练管道,并初步展示上述Sora特征。该项目旨在推动创新,并为内容创作领域提供更易访问和先进的视频生成工具,从而助力民主化内容创作的发展。

为实现这一目标,Mira采用了独特的MiraDiT架构方法。同时,团队还精心构建了MiraData数据集,这是一个专为长视频生成任务设计的大规模视频数据集,具备长时和结构化字幕的特点。

Mira采用MiraDiT架构方法,如下图所示:

image.png

另外团队专门精心构建了MiraData数据集,这是专门为长视频生成任务设计的大规模视频数据集,具有长时和结构化字幕。

与以往通常非常短的视频片段不同,MiraData专注于未剪辑的视频片段,时长从1到2分钟不等。这种延长的时长使得视频内容得以更全面的建模。此外,MiraData中的每个视频都配有结构化字幕,这些字幕提供了不同角度的详细描述,进一步丰富了数据集的内容。平均字幕长度为349个单词,确保了视频内容的全面呈现。

MiraData的关键特性

1. 长视频时长:与以往视频片段通常非常短(通常少于6秒)不同,MiraData专注于未剪辑的视频片段,时长从1到2分钟不等。这种延长的时长允许对视频内容进行更全面的建模。

2. 结构化字幕:MiraData中的每个视频都配有结构化字幕。这些字幕提供了不同角度的详细描述,增强了数据集的丰富性。平均字幕长度为349个单词,确保了视频内容的全面呈现。

在此次初始发布中,MiraData涵盖了游戏和城市/风景探索两种场景的视频。这些视频展示了不同环境下物体的动态交互和复杂动作,为模型训练提供了丰富的素材。

尽管MiraData仍处于早期阶段,但项目团队表示将在未来发布更多场景的视频,并不断提高数据集的质量。随着研究的深入和数据的积累,相信Mira将在未来展现出更为出色的性能,为AI视频生成领域带来更多的惊喜和突破。

腾讯PCG的ARC实验室推出了一款名为Mira(Mini-Sora)的高质量、长时视频、风格类似于Sora的文生视频模型。

Mira在现有的文本到视频(T2V)生成框架中以几个关键方式脱颖而出的特点是:

1. 扩展序列长度:大多数框架限制于生成短视频(2秒/16帧),而Mira能够在产生显著更长的序列,潜在时长可达10秒、20秒或更长。

2. 增强动态性:Mira能够创建具有丰富动态和复杂动作的视频,与当前视频生成技术中更静态的输出形成鲜明对比。

3. 强大的3D一致性:尽管存在复杂的动态和物体交互,Mira确保在整个视频中保持物体的3D完整性,避免明显扭曲。

MiraData实操案例

游戏环境导航:视频中展示了一个男性角色在视频游戏中穿越一系列城市环境。该角色穿着休闲的浅色衬衫和深色裤子,动作带有紧迫感,暗示了潜行或动作导向的游戏场景。

image.png

雪地战斗:一个战士角色穿着毛皮领子的粗犷盔甲,手持长杆状武器,在雪地中与看不见的对手进行战斗。

image.png

 城市街道漫步:视频中展示了一对男女在视频游戏设置中沿着充满活力的城市街道行走的场景。

image.png

厨房氛围:视频呈现了一个昏暗、气氛的厨房环境中的一系列事件。

image.png

滑雪胜地:视频捕捉了一个滑雪胜地动态且风景如画的环境,人们正在进行冬季运动

image.png

山村之旅:视频通过一个风景如画的山村进行了一次宁静的旅程,展示了该地区的自然美景和古朴建筑。

image.png

城市雨夜:视频捕捉了一个繁忙的城市景观中的一个雨夜,霓虹灯和路灯的光辉反射在湿漉漉的人行道上。

image.png

摩托车骑行:视频捕捉了沿穿过广阔山景的土路的摩托车骑行的兴奋体验。

image.png

附录

项目主页:https://mira-space.github.io/

@版权声明:部分内容从网络收集整理,如有侵权,请联系删除!

相关文章