彻底藏不住了!Sora最新升级:支持16s视频生成和720p分辨率

AI快讯 2024-04-25

Open-Sora开源项目近期迎来了一次重要的更新,不仅将单镜头视频生成时长扩展至16秒,更将视频分辨率提升至最高720p,从而满足了从文本到图像、文本到视频、图像到视频、视频到视频,乃至无限长视频的多样化生成需求。

技术报告与模型架构方面,Open-Sora的详尽技术报告已经正式登陆GitHub,其中深入解析了项目的新增功能及背后的模型架构。为了进一步优化模型训练稳定性及整体性能,开发团队对STDiT架构进行了关键性改进。同时,通过引入旋转位置编码(RoPE embedding)和QK归一化技术,项目的训练稳定性得到了显著增强。此外,ST-DiT-2架构更是能够智能调整位置编码,从而适应不同尺寸输入的处理需求。

image.png在训练方法上,Open-Sora采用了多阶段训练策略。项目团队通过分阶段引入数据,高效地实现了高质量视频生成。在初始阶段,视频以144p分辨率进行训练,同时混合训练图片和更高分辨率的视频素材。随着训练的深入,项目逐步提升至240p和480p分辨率,最终在第三阶段实现480p和720p的高清视频生成。

值得一提的是,Open-Sora还构建了一个统一的图生视频/视频生视频框架。这一框架基于Transformer和DiT架构,不仅支持图像到图像及视频到视频的任务,还通过提出创新的掩码策略,支持图像和视频的条件化处理。这一掩码策略通过随机方式选择并取消掩码的帧,从而显著提升了模型处理图像条件化的能力。

为了满足多样化的训练需求,Open-Sora还支持多时间/分辨率/长宽比/帧率训练。项目团队通过分桶策略,利用原始视频的分辨率、长宽比和长度进行训练,从而增加了采样的灵活性。

Open-Sora 性能全方位评测

视频生成效果展示

Open-Sora 最令人瞩目的亮点在于,它能够将你脑中的景象,通过文字描述的方式,捕捉并转化为动人的动态视频。那些在思维中一闪而过的画面和想象,现在得以被永久地记录下来,并与他人分享。在这里,笔者尝试了几种不同的prompt,作为抛砖引玉。

比如,笔者尝试生成了一个在冬季森林里游览的视频。雪刚下不久,松树上挂满了皑皑白雪,暗色的松针和洁白的雪花错落有致,层次分明。

image.png

又或者,在一个静谧夜晚中,你身处像无数童话里描绘过黑暗的森林,幽深的湖水在漫天璀璨的星河的照耀下波光粼粼。

image.png

在空中俯瞰繁华岛屿的夜景则更是美丽,温暖的黄色灯光和丝带一样的蓝色海水让人一下子就被拉入度假的悠闲时光里。

image.png

城市里的车水马龙,深夜依然亮着灯的高楼大厦和街边小店,又有另一番风味。

image.png

除了风景之外,Open-Sora 还能还原各种自然生物。无论是红艳艳的小花,

image.png

还是慢悠悠扭头的变色龙, Open-Sora 都能生成较为真实的视频。

image.png

笔者还尝试了多种 prompt 测试,还提供了许多生成的视频供大家参考,包括不同内容,不同分辨率,不同长宽比,不同时长。

image.png

image.png

笔者还发现,仅需一个简洁的指令,Open-Sora便能生成多分辨率的视频短片,彻底打破创作限制。

分辨率:16*240p

image.png

分辨率:32*240p

image.png

分辨率:64*360p

image.png

分辨率:480*854p

image.png

值得注意的是,Open-Sora的模型权重已经完全免费公开在他们的开源社区上,不妨下载下来试一下。由于他们还支持视频拼接功能,这意味着你完全有机会免费创作出一段带有故事性的小短片,将你的创意带入现实。

@版权声明:部分内容从网络收集整理,如有侵权,请联系删除!

相关文章