120秒超长AI视频模型诞生，Sora表示不服

AI快讯 2024-03-27

Sora的出现，让文生视频的长度指标彻底被刷新。从Pika和Runway的4秒短视频，到VideoPoet宣称的几乎无限长度，各团队正通过不同技术路径竞相拓展视频生成长度的边界。

近期，Picsart AI Research携手UT Austin和Shi Labs的研究团队，推出了创新的文生视频技术——StreamingT2，该技术能生成高度连贯且长度可灵活扩展的视频。

StreamingT2技术的核心架构精妙绝伦，主要由三个关键组件构成：

条件注意力模块（CAM），作为短期记忆单元，确保视频内容的连贯性。它通过聚焦于前一个视频片段的特征，精准引导当前片段的生成，使得整个视频流畅自然。

外观保持模块，担任长期记忆单元的角色。该模块帮助模型牢牢记住视频起始的场景和对象，防止随着时间流逝而遗忘初始画面，确保视频的连贯性和一致性。

随机混合技术，这一创新点使得即便是无限长的视频也能保持高度的协调性，避免了视频片段之间的突兀和不和谐。

值得一提的是，StreamingT2技术的通用性使其不受特定文生视频模型的限制。

这意味着，随着基础模型性能的不断攀升，生成的视频效果也将持续升级，为观众带来更为震撼的视觉体验。

StreamingT2技术的工作流程精细而高效，大致可分为三个关键环节：

首先是初始化阶段，研究人员利用先进的文本到视频模型，精心打造出视频的前16帧，作为整个故事的开篇。

紧接着进入Streaming T2V阶段，研究人员继续运用自回归技术生成视频的后续帧。每一帧的生成都以前一帧为参考，确保视频内容的连贯性和故事的完整性。

最后是Streaming Refinement阶段，研究人员对生成的长视频进行精细化处理。无论是600帧、1200帧还是更长的视频，都能得到进一步的优化和提升。

在这一阶段，研究团队采用高分辨率的文本到短视频模型，并结合独特的随机混合技术，不仅提升了视频的清晰度，更增强了视频的动态效果和视觉冲击力，为观众带来沉浸式的观看体验。

在这个数字化时代，视频已经成为我们生活中不可或缺的一部分。无论是社交媒体上的短视频，还是电影、电视剧等长视频，都在不断满足着人们的视觉需求。而文生视频技术的出现，更是为我们打开了一扇全新的大门，让文字与视频的结合变得更加紧密。

StreamingT2技术的诞生，无疑是文生视频领域的一大突破。它不仅在视频长度上实现了前所未有的扩展，更在视频质量和连贯性上取得了显著的提升。随着基础模型性能的不断提升，我们有理由相信，StreamingT2技术将在未来继续发挥巨大的潜力。

在这个充满无限可能的时代，让我们共同期待StreamingT2技术为我们带来更多精彩和惊喜，让文生视频成为连接文字与视觉世界的桥梁，为我们的生活增添更多色彩和活力。

AI Pika Runway Sora StreamingT2

2024-08-21

Midjourney咒语｜跟着AI学摄影，打造最逼真的照片！

2024-08-20

新手必看！AI绘画工具Stable Diffusion模型分几种？

2024-08-20

2024-08-20

2024-08-19

2024-08-16

AI569工具导航站-ai工具大全