120秒超长AI视频模型诞生,Sora表示不服
Sora的出现,让文生视频的长度指标彻底被刷新。从Pika和Runway的4秒短视频,到VideoPoet宣称的几乎无限长度,各团队正通过不同技术路径竞相拓展视频生成长度的边界。
近期,Picsart AI Research携手UT Austin和Shi Labs的研究团队,推出了创新的文生视频技术——StreamingT2,该技术能生成高度连贯且长度可灵活扩展的视频。
StreamingT2技术的核心架构精妙绝伦,主要由三个关键组件构成:
条件注意力模块(CAM),作为短期记忆单元,确保视频内容的连贯性。它通过聚焦于前一个视频片段的特征,精准引导当前片段的生成,使得整个视频流畅自然。
外观保持模块,担任长期记忆单元的角色。该模块帮助模型牢牢记住视频起始的场景和对象,防止随着时间流逝而遗忘初始画面,确保视频的连贯性和一致性。
随机混合技术,这一创新点使得即便是无限长的视频也能保持高度的协调性,避免了视频片段之间的突兀和不和谐。
值得一提的是,StreamingT2技术的通用性使其不受特定文生视频模型的限制。
这意味着,随着基础模型性能的不断攀升,生成的视频效果也将持续升级,为观众带来更为震撼的视觉体验。
StreamingT2技术的工作流程精细而高效,大致可分为三个关键环节:
首先是初始化阶段,研究人员利用先进的文本到视频模型,精心打造出视频的前16帧,作为整个故事的开篇。
紧接着进入Streaming T2V阶段,研究人员继续运用自回归技术生成视频的后续帧。每一帧的生成都以前一帧为参考,确保视频内容的连贯性和故事的完整性。
最后是Streaming Refinement阶段,研究人员对生成的长视频进行精细化处理。无论是600帧、1200帧还是更长的视频,都能得到进一步的优化和提升。
在这一阶段,研究团队采用高分辨率的文本到短视频模型,并结合独特的随机混合技术,不仅提升了视频的清晰度,更增强了视频的动态效果和视觉冲击力,为观众带来沉浸式的观看体验。
在这个数字化时代,视频已经成为我们生活中不可或缺的一部分。无论是社交媒体上的短视频,还是电影、电视剧等长视频,都在不断满足着人们的视觉需求。而文生视频技术的出现,更是为我们打开了一扇全新的大门,让文字与视频的结合变得更加紧密。
StreamingT2技术的诞生,无疑是文生视频领域的一大突破。它不仅在视频长度上实现了前所未有的扩展,更在视频质量和连贯性上取得了显著的提升。随着基础模型性能的不断提升,我们有理由相信,StreamingT2技术将在未来继续发挥巨大的潜力。
在这个充满无限可能的时代,让我们共同期待StreamingT2技术为我们带来更多精彩和惊喜,让文生视频成为连接文字与视觉世界的桥梁,为我们的生活增添更多色彩和活力。