吊打Sora,国内文生视频天花板诞生!快手「可灵」一号难求

AI快讯 2024-06-13

近日,快手科技再次刷新了国内AI视频生成领域的天花板,推出了全新的“可灵”大模型。据悉,该模型在视频生成效果上不仅超越了一众国内竞品,更是直逼国际知名模型Sora,甚至在某些细节上实现了超越。更为引人注目的是,“可灵”并非预发布或纯Demo合集,而是直接面向公众开放测试的产品级应用,人人都能轻松申请体验。

image.png

“可灵”支持生成最长2分钟、30fps的1080P高清视频,实现从创意构思到成片的“一键转化”,极大地提升了创作效率。首批体验用户纷纷表示,这一新功能让他们的创作之路更加顺畅,也让他们对AI技术在视频制作领域的应用充满了期待。

image.png

在社交媒体上,“可灵”的火爆程度更是可见一斑。交流群人数迅速满员,外国友人也纷纷表达了对这一新技术的渴望。不少用户表示,“可灵”的出现,让他们看到了AI技术在视频制作领域的无限可能。

image.png

业内专家也对“可灵”给予了高度评价。Stability AI前CEO Emad Mostaque表示,中国的AI技术正在展现出自己的优势,而“可灵”正是这一趋势的生动体现。

今天就让可灵与Pika、ruaway Gen-2(两个目前市面已上线且最火的视频生成大模型)对比一下。

远景视频

prompt:海啸席卷了全球,冲塌了房子,海上一片废墟,高清画质

image.png

可灵

image.png

Pika

image.png

Runway Gen-2

prompt:城市中的高楼大厦变成了废墟,到处都是浓烟弥漫,烈火焚烧

image.png

可灵

image.png

Pika

image.png

Runway Gen-2

可灵视频生成效果真实感最强,无论是海啸的波涛汹涌还是浓烟滚滚的战场,完全符合物理学规律;其次是Runway Gen-2,画面内容比较单一,只有浓烟;Pika生成的效果不佳,火焰像是贴图,并没有和楼融为一体。

人物特写

prompt:美女吃播,吃炸鸡

image.png

可灵

image.png

Pika

image.png

Runway Gen-2

视频人物生成方面完全不在同一层次了。可灵的生成效果最佳,基本上分辨不出是实拍还是 AI 生成的;Runway Gen-2和Pika 半斤八两,既没有发生“吃”这个动作,画面的变形、扭曲和错误也是铺满了屏幕。

动物特写

prompt:一只白色的中国田园猫和一只成年的拉布拉多一起趴在客厅沙发旁边的灰色地毯上玩闹,丰富细节,写实风格,氛围光照

image.png

可灵

image.png

Pika

image.png

Runway Gen-2

动物生成,第一名可灵,背景和动物的神态动作都十分真实,猫狗之间的互动也是符合真实的情况;第二名Runway Gen-2,视频首图还可以,老问题就是不能“动起来”;第三名Pika,第一组视频中狗狗直接失踪,猫的骨骼严重畸形,但第二组视频中非常符合尼克和朱迪的形象,在训练素材中大概率是有疯狂动物城。

快速特效镜头

prompt:飞船进入一个旋转的虫洞,周围星光扭曲,时间与空间似乎在这一刻凝固。

image.png

可灵

image.png

Pika

image.png

Runway Gen-2

第一名可灵特效镜头画面比较稳定,第一视角快速穿梭,沉浸感十足;第二名Runway Gen-2画面运动缓慢,且有变形;第三名Pika视频生成和prompt有出入。

那么,“可灵”背后的技术秘密究竟是什么呢?

据快手官方透露,“可灵”大模型在数据准备、模型架构、训练方案及优化策略等方面都进行了深入的研发和优化。依托快手在视频技术领域的多年积累,团队构建了完备的标签体系,对视频数据质量进行了精细化的刻画和调整。同时,为了满足训练文生视频模型的需求,团队还自研了视频描述模型,能够生成精确、详尽、结构化的视频描述,为视频生成模型提供了强大的文本指令响应能力。

在模型架构方面,“可灵”采用了目前流行的Diffusion Transformer(DiT)架构。这一架构通过引入Transformer的灵活性,使得扩散模型能够使用更多的训练数据和更大的模型参数,从而获得了模拟物理世界特性与概念组合的能力。同时,基于团队自研的3D VAE网络,“可灵”大模型能够生成高质量的1080P视频,满足了用户对于高清视频制作的需求。

这几个月来,业内形成一个共识,视频生成模型的成功,归根结底是 Scaling Law 的作用。这一共识正是基于 DiT 论文的发现,使用 Transformer 能稳定地扩大模型规模:随着训练计算量的增加(训练模型的时间延长或模型增大,或两者兼而有之),性能也会随之提高。

这意味着,对于视频生成模型,只要用更多的算力、更多的数据去 Scale up,生成质量还会持续提升。

可灵之所以能够将用户的文本提示转化为具体的画面,包括那些真实世界中不会出现的虚构场景,就是基于对文本 - 视频语义的深刻理解和 Diffusion Transformer 架构的强大能力。在自研架构和 Scaling Law 激发出的强大建模能力推动下,可灵能够很好地模拟真实世界的物理特性,生成符合物理规律的视频。

与此同时,基于团队自研的 3D VAE 网络,可灵大模型能够生成 1080p 分辨率的电影级视频,无论是浩瀚壮阔的宏大场景,还是细腻入微的特写镜头,都能够生动呈现。

当然,对于视频生成模型来说,另一个必须考虑的因素是:视频是一种具有时间维度的视觉内容,不连贯的内容会让用户的观看体验大打折扣。

为了保证画面中运动的呈现更加合理,可灵大模型采用 3D 时空联合注意力机制,更好地建模复杂时空运动,即可生成较大幅度运动的视频内容,同时能够符合运动规律。

通过这一系列的技术创新和优化,“可灵”大模型在视频生成领域取得了显著的成果。它不仅能够生成连续性、真实度、清晰度都很优秀的短片,还能够很好地解决一些生成难点,如疾速行驶的赛车、动物驾驶车辆等。这些功能的实现,都得益于“可灵”对文本-视频语义的深刻理解和Diffusion Transformer架构的强大能力。

image.png

可灵的诞生,或许意味着一个新时代开启了。在生成式 AI 时代,生成和编辑视频或许会像今天我们用手机 P 图一样简单,想象力与现实之间的阻隔将被彻底打破。

可以预见的是,“可灵”大模型的推出将会对视频制作领域产生深远的影响。它不仅能够提高创作效率和质量,还能够拓展创作的边界和可能性。随着技术的不断发展和优化,“可灵”将会在未来为我们带来更多惊喜和可能性。

在整体架构设计上,可灵采用了目前火热的 Diffusion Transformer (DiT) 。传统的扩散模型主要利用包含下采样和上采样块的卷积 U-Net 作为去噪网络骨干。但一些研究表明,U-Net 架构对扩散模型的良好性能并非至关重要。通过采用更灵活的 Transformer 架构,扩散模型可以使用更多的训练数据和更大的模型参数。DiT 就是这个研究思路下的代表作之一。

@版权声明:部分内容从网络收集整理,如有侵权,请联系删除!

相关文章