彻底藏不住了！Sora最新升级：支持16s视频生成和720p分辨率

AI快讯 2024-04-25

Open-Sora开源项目近期迎来了一次重要的更新，不仅将单镜头视频生成时长扩展至16秒，更将视频分辨率提升至最高720p，从而满足了从文本到图像、文本到视频、图像到视频、视频到视频，乃至无限长视频的多样化生成需求。

技术报告与模型架构方面，Open-Sora的详尽技术报告已经正式登陆GitHub，其中深入解析了项目的新增功能及背后的模型架构。为了进一步优化模型训练稳定性及整体性能，开发团队对STDiT架构进行了关键性改进。同时，通过引入旋转位置编码（RoPE embedding）和QK归一化技术，项目的训练稳定性得到了显著增强。此外，ST-DiT-2架构更是能够智能调整位置编码，从而适应不同尺寸输入的处理需求。

在训练方法上，Open-Sora采用了多阶段训练策略。项目团队通过分阶段引入数据，高效地实现了高质量视频生成。在初始阶段，视频以144p分辨率进行训练，同时混合训练图片和更高分辨率的视频素材。随着训练的深入，项目逐步提升至240p和480p分辨率，最终在第三阶段实现480p和720p的高清视频生成。

值得一提的是，Open-Sora还构建了一个统一的图生视频/视频生视频框架。这一框架基于Transformer和DiT架构，不仅支持图像到图像及视频到视频的任务，还通过提出创新的掩码策略，支持图像和视频的条件化处理。这一掩码策略通过随机方式选择并取消掩码的帧，从而显著提升了模型处理图像条件化的能力。

为了满足多样化的训练需求，Open-Sora还支持多时间/分辨率/长宽比/帧率训练。项目团队通过分桶策略，利用原始视频的分辨率、长宽比和长度进行训练，从而增加了采样的灵活性。

Open-Sora 性能全方位评测

视频生成效果展示

Open-Sora 最令人瞩目的亮点在于，它能够将你脑中的景象，通过文字描述的方式，捕捉并转化为动人的动态视频。那些在思维中一闪而过的画面和想象，现在得以被永久地记录下来，并与他人分享。在这里，笔者尝试了几种不同的prompt，作为抛砖引玉。

比如，笔者尝试生成了一个在冬季森林里游览的视频。雪刚下不久，松树上挂满了皑皑白雪，暗色的松针和洁白的雪花错落有致，层次分明。