中国版Sora来袭,腾讯开源AniPortrait也让图像开口说话

AI快讯 2024-04-08

在人工智能领域的激烈竞争中,继OpenAI和阿里之后,腾讯也强势推出了其版本的Sora——开源技术框架AniPortrait。这一创新性的技术框架能够通过一张人脸照片和音频生成一段高质量视频,引起了业界的广泛关注。

AniPortrait的功能强大且实用,它可以根据输入的音频和图像生成会说话、唱歌的动态视频。不仅如此,它还能保持人物面部表情流畅、生动,口型与音频一致,为用户带来逼真的视觉体验。同时,AniPortrait还支持多种语言输入,并具备面部重绘以及头部姿势控制的功能,进一步提升了其灵活性和实用性。

image.png

据悉,AniPortrait的工作原理分为两个关键步骤。首先,它会从音频中提取关键信息,将音频通过处理层转换成三维面部模型,并确定头部姿势。随后,将三维模型转换成二维点进行识别标注,再利用先进的Stable Diffusion技术结合时间运动模块,生成一系列连贯的肖像帧,形成流畅的动画效果。

尽管AniPortrait在视频生成方面取得了显著成果,但目前仍存在对口型不太流畅自然的问题。腾讯团队表示,他们正在积极改进,并计划效仿阿里的EMO方法,直接从音频预测肖像视频的生成,以进一步提升效果。

值得一提的是,AniPortrait已经在GitHub上获得了3000 Stars的认可,证明了其受欢迎程度和技术实力。用户可以通过项目地址和论文地址获取更多关于AniPortrait的详细信息。

项目地址:https://huggingface.co/ZJYang/AniPortrait

论文地址:https://huggingface.co/papers/2403.17694

@版权声明:部分内容从网络收集整理,如有侵权,请联系删除!

相关文章