媲美Sora!快手可灵打造高质量、高效率的视频生成体验

AI快讯 2024-06-07

昨日，快手科技震撼发布了一款名为「可灵」的革新性视频生成大型模型。这款模型借鉴了Sora的先进技术理念，并结合了快手独特的创新技术，为用户带来了前所未有的视频创作体验。它不仅能生成长达2分钟、每秒30帧、分辨率高达1080p的精致视频，还支持多样化的宽高比选择，完美契合快手的短视频生态。

亮点解析

卓越的生成能力：

「可灵」模型在视频生成方面展现出了强大的实力。不仅能够支持长达2分钟的高清视频创作，分辨率更是达到了细腻的1080p，让每一帧都清晰可见。同时，它还支持多种宽高比，包括竖版视频，为用户提供了更多的创作选择和自由度。

运动与物理模拟的精准度：

这款模型在模拟复杂、大幅度运动方面表现出色。无论是公路上奔跑的老虎，还是宇航员在月球上的轻盈行走，「可灵」都能精准刻画每一个动作细节，使画面连贯且动作协调。此外，它还能模拟真实的物理特性，如重力、液体流动和光学反射等，让生成的画面更加符合自然规律。

广泛的应用场景：

「可灵」模型在应用场景上具有广泛的适用性。无论是娱乐、教育还是其他领域，它都能为用户提供强大的视频创作支持。通过文本转视频、多种控制信息输入以及丰富的内容控制能力，「可灵」能够满足不同用户的多样化需求。

实际案例展示

在官方发布的prompt中，「可灵」展现出了惊人的创作能力。无论是戴眼镜的中国男孩在快餐店内闭眼享受美味的芝士汉堡，还是宇航员在月球表面奔跑的震撼场景，「可灵」都能生动还原每一个细节。此外，它还能精准模拟真实物理世界的特性，如倒牛奶时的重力规律和液面上升，以及光学上的反射规律。甚至在小男孩吃汉堡时齿印的变化等细微之处，「可灵」也能真实反映与真实物理世界的交互。

prompt:一个戴眼镜的中国男孩在快餐店内闭眼享受美味的芝士汉

prompt:一名宇航员在月球表面奔跑，低角度镜头展现了月球的广阔背景，动作流畅且显得轻盈

一只戴着眼镜的兔子在看报纸

厨师正在切菜

一只蓝色的鹦鹉

除了以上示例，「可灵」还能轻松应对各种创意场景，如一只戴着眼镜的兔子在看报纸、厨师正在切菜、一只蓝色的鹦鹉等。这些生动的画面和细腻的动作展现出了「可灵」在视频生成领域的卓越实力。

技术特点解读

快手最新推出的「可灵」视频生成技术，展示了在AI视频创作领域的创新与突破。这项技术不仅融合了前沿的深度学习架构，还通过高质量的数据支持和高效的训练策略，为用户带来了前所未有的视频创作体验。

原生视频生成技术的前沿应用

「可灵」技术采用了类似Sora的DiT结构，通过Transformer替代了传统的卷积网络U-Net，为视频生成带来了更高的灵活性和准确性。同时，3D VAE网络被用于时空同步压缩，有效提升了视频的重建质量和训练性能。此外，3D Attention机制被引入，加强了复杂时空运动的建模能力，使生成的视频画面更加自然流畅。

高质量数据支持确保模型性能

为了确保模型的准确性，「可灵」技术构建了完备的标签体系，对训练数据进行了精细化筛选和分布调整。此外，快手还开发了专用的视频描述模型，能够生成精确、详尽的结构化视频描述，从而提升了模型对文本指令的响应能力。这些高质量的数据支持确保了「可灵」技术在实际应用中的卓越性能。

高效训练策略加速模型优化

为了提高运算效率，「可灵」技术采用了分布式训练集群和优化策略。同时，分阶段训练策略确保了模型在初期低分辨率阶段注重数量，而在后期高分辨率阶段则更侧重于质量。这种训练策略确保了模型在各个阶段的优化效果，使其能够更好地应对复杂场景的视频生成需求。

实际应用展示

快影APP中的「可灵」技术

目前，「可灵」技术已在快影APP中开启邀测。当前版本支持生成720P视频，而竖版视频的生成能力也即将开放。用户可以在快影APP中体验这一先进技术带来的便捷与乐趣。

多样化的应用场景

除了快影APP外，「可灵」技术还广泛应用于其他场景。例如，“AI舞王”功能可以让用户上传全身照，然后生成人物跟随音乐跳舞的视频；“AI唱跳”功能则可以生成跳舞并唱歌的视频。未来，快手还将推出图生视频功能，进一步拓展「可灵」技术的应用范围。

总结与展望

快手在大模型技术方面的迅速动作和与高校、科研机构的紧密合作，为「可灵」技术积累了深厚的技术沉淀。现在，快手的文生视频功能已正式亮相，并期待在短视频场景中得到广泛应用。对于对AI视频创作感兴趣的用户来说，快影APP中的「可灵」技术无疑是一个值得尝试的选择。随着技术的不断发展和优化，「可灵」技术将为短视频创作领域带来更多创新和可能。