可灵(KLING)是快手AI团队自研的视频生成大模型,于2024年6月6日正式上线其官网。该模型基于快手在视频技术方面的多年积累,采用与Sora相似的技术路线,并结合了多项自研技术创新,效果对标Sora。

image.png


  • 一、视频生成能力

    高分辨率与长时长:可灵能够生成分辨率高达1080p的视频,时长最高可达2分钟(帧率30fps),且支持自由的宽高比,包括16:9、9:16和1:1等多种比例。这为用户提供了丰富的视频创作选择。

    高质量的视觉效果:可灵能够生成大幅度的合理运动,还能模拟物理世界特性,如力学方面的重力规律、液面的上升等,使得生成的视频更加符合现实世界的物理规律。此外,其视频镜头稳定,动态效果真实,保证了生成视频的高质量。

    多种输入方式:可灵支持文生视频、图生视频以及文图生视频等多种输入方式,用户可以根据自己的需求选择合适的输入方式,从而生成符合自己需求的视频内容。

  • 二、技术创新与优势

    DiT架构与自研技术:可灵采用了DiT(Diffusion Transformer)架构,这是一种结合了扩散模型(Diffusion Model)和Transformer模型的新型视频生成技术。在此基础上,快手对模型中的隐空间编/解码、时序建模等模块进行了升维处理,自研了3D VAE网络等新技术,实现了时空同步压缩和高效的全注意力机制,从而提高了模型的生成能力和效果。

    高效的数据解决方案:在研发过程中,可灵配套建设了高效的大规模自动化数据解决方案,覆盖了海量视频挖掘、多维打标筛选、视频描述增强及数据驱动的效果质量评估等多个方面。这些解决方案为模型的训练和效果评估提供了有力的数据支持。

    计算优化与故障恢复能力:在训练过程中,可灵采用了多种计算优化和通信优化方案,极大提升了GPU和网络带宽利用率。同时,通过自动故障检测和failover等机制,提供了分钟级故障恢复能力,保障了短时间内模型效果的快速提升。

  • 三、应用场景与未来展望

    广泛的应用场景:可灵生成的视频可以广泛应用于视频创作、电影短剧分镜制作、电商视频、宣传片、推文视频等多个领域。其高质量的视频输出和丰富的功能特性将为用户带来全新的创作体验。

    持续的技术创新:随着技术的不断发展和进步,可灵将继续进行技术创新和优化升级。未来,我们可以期待可灵在视频生成领域取得更加卓越的成就和突破。

综上所述,可灵作为一款由快手AI团队自研的视频生成大模型,在视频生成能力、技术创新与优势以及应用场景与未来展望等方面都表现出了强大的竞争力和发展潜力。

@版权声明:部分内容从网络收集整理,如有侵权,请联系删除!

类似网站