15秒样本即可复刻人声，OpenAI音频模型Voice Engine炸场

AI快讯 2024-04-01

OpenAI最近在其官网上亮相了一项令人瞩目的技术革新——“Voice Engine”。这项技术犹如魔法般，仅需一个简短的15秒音频样本和文本输入，便能生成与原说话者几乎无异的自然语音。

想象一下，这项技术可以应用于哪些场景呢？OpenAI在公告中为我们描绘了一幅美妙的画卷：通过真实而充满情感的声音，为孩子们带来愉快的阅读体验；为视频和播客内容提供即时的翻译，打破语言障碍；助力偏远地区的社区服务，让信息传达更加便捷；更为患有突发性或退化性言语病症的患者带来希望，帮助他们重拾清晰表达的能力。

而这项技术的实际应用案例更是令人眼前一亮。儿童教育领域的佼佼者Age of Learning，已经借助GPT-4与Voice Engine，为学生们带来了个性化的学习交流体验；人工智能通信应用Livox则利用Voice Engine，为残疾人提供了跨越多种语言的自然交流方式；就连曾因“Taylor Swift说中文”等趣味视频而火爆全网的Heygen，也在这项技术的助力下焕发出新的光彩。

OpenAI透露，Voice Engine技术的研发始于2022年底，如今已经为公司的文本转语音API和ChatGPT的朗读功能提供了预设语音。关于模型训练的数据来源，OpenAI语音引擎团队的杰夫·哈里斯表示，这一模型是由“许可数据和公开数据的组合”共同训练的，确保了技术的可靠性和广泛性。

然而，尽管OpenAI已经为“Voice Engine”申请了商标，但他们在是否要大规模部署这项技术的问题上，仍然保持着谨慎的态度。毕竟，2024年曾发生过少数公司利用人工智能语音技术影响选民投票的事件，这样的潜在风险让OpenAI选择先在小范围内应用Voice Engine，以确保技术的安全性和稳定性。

OpenAI深知合成语音技术存在的滥用风险，因此他们希望社会各界能够就合成声音的负责任部署以及社会如何适应这些新功能展开讨论。只有在深入讨论和小规模测试的基础上，OpenAI才会做出是否大规模部署这项技术的决定。

值得一提的是，OpenAI在人工智能安全领域一直走在前列。他们早在2023年10月就成立了“准备团队”，旨在监测和评估前沿模型的技术和风险。随后，他们更是在12月公布了“准备框架”，为防范潜在风险制定了一系列机制。

对于Voice Engine技术，OpenAI也在积极探索如何防止滥用。他们考虑在合成声音中加入水印或采取其他控制措施，以确保技术不被用于不当之处，如利用政治家或知名人物的声音进行恶意行为。

OpenAI的“Voice Engine”技术是一项具有巨大潜力和社会价值的技术创新，有望在多个领域提供个性化和富有情感的语音服务。通过谨慎有序地推进和发布，以及与社会各界的广泛讨论和合作，相信这项技术将在未来发挥更大的作用OpenAI 的 Voice Engine 技术，