又整花活!让奥黛丽赫本唱《上春山》,阿里的这个APP彻底火了

AI教程 2024-04-26

把一段音频、一张照片输入 AI 模型,就能让图中人物开口唱歌说话,让奥黛丽赫本唱《上春山》、陶俑仕女说英文 RAP、爱因斯坦说中文段子。近日,阿里的EMO模型上线了并开启线上内测通道,目前已经接入到通义千问App中。

简单了解一下EMO模型的主要作用:它是一个图片转视频的AI模型,只需要提供一张照片和一段任意音频文件,EMO即可生成会说话唱歌的 AI 视频,以及实现无缝对接的动态小视频。

目前,通义 APP 首批上线了 80 多个 EMO 模板,包括热门歌曲《上春山》《野狼 disco》等,网络热梗 " 钵钵鸡 "" 回手掏 " 等,需要注意的是,通义 APP 暂不开放用户自定义音频,用户只能选择 APP 预置的音频来生成视频。

image.png

一、如何使用呢?

1.首先下载通义千问APP。包含EMO模型的通义千问APP的下载链接:https://humanaigc.github.io/emote-portrait-alive/

arXiv 研究论文:https://arxiv.org/abs/2402.17485

GitHub:https://github.com/HumanAIGC/EMO

image.png

2.打开通义千问后发送”emo“。即可进入”全民唱演“的功能。

接下来就按照提示,上传照片,选择模版,等待生成就好了。

不过目前不支持用户自己上传音频,只能用模板中的音频来生成。

image.png

二、EMO模型的特点

简便的操作: 用户只需提供一张照片和克隆的语音模型,即可定制自己的数字人像。

低成本: 与Heygen等需要录制长视频和高算力成本的产品相比,EMO模型提供了一种免费且高效的解决方案。

广泛的适用性: 不仅限于写实人像,3D模型和二次元漫画风格也能生成视频,满足不同用户的需求。

自然的表达: EMO模型在talking head领域首次提出weak condition(弱控制)设计,通过较弱的控制条件引导diffusion去噪过程,生成表情丰富、表现力强的人脸。

image.png

三、技术实现

EMO模型通过算法pipeline中的face locator和speed layers控制人脸生成区域与人头动作频率,保留了diffusion模型的生成创造能力。

模型在训练中学习音频特征与图像像素的对应关系,放大音频特征对相关像素的影响,确保人物表情口型与音频特征一致。

EMO在250小时的人物讲话视频上训练,不仅匹配了音频中具体发音与人像口型,还发现了音频中的语气特征与人物表情的关联性,将音频中的情绪色彩反映到人物微表情上。

实际上,通义 APP 近期爆款频出,现象级应用 " 全民舞王 " 曾在社交平台掀起 " 兵马俑跳科目三 "" 金毛跳舞 " 的热潮,全民舞王背后的模型 Animate Anyone 也出自通义实验室。近期,通义 APP 还陆续推出了超长文档解析、AI 编码助手、AI 会议助手等免费实用功能。通义大模型正在成为越来越多用户的超级 AI 助手。

image.png

EMO 是通义实验室研发的 AI 模型,其背后的肖像说话(Talking Head)技术是当前大热的 AIGC 领域。EMO 之前的 Talking Head 技术都需针对人脸、人头或者身体部分做 3D 建模,通义实验室在业界率先提出了弱控制设计,无需建模就可驱动肖像开口说话,不仅降低视频生成成本,还大幅提升了视频生成质量。EMO 学习并编码了人类表达情绪的能力,能将音频内容和人物的表情、嘴型匹配,还能把音频的语气特征和情绪色彩反映到人物微表情上。

现在,通义 APP 让所有人都可免费体验前沿模型的创造力。未来,EMO 技术有望应用于数字人、数字教育、影视制作、虚拟陪伴、电商直播等场景。

@版权声明:部分内容从网络收集整理,如有侵权,请联系删除!

相关文章