Cartesia推出Sonic：135毫秒低延迟语音生成新纪元

AI快讯 2024-05-31

Cartesia重磅推出Sonic语音生成模型，该模型以惊人的低延迟性能与卓越的语音质量，在行业内引发了热烈讨论。Sonic的出色之处在于其卓越的实时性，延迟时间仅为135毫秒，为用户带来流畅自然的语音交互体验。

这款名为Sonic的模型不仅具备令人惊叹的快速推理速度，更重要的是，它能够生成带有真实情感和丰富表达力的语音。用户只需提供简短的10秒录音，Sonic便能迅速捕捉并模仿说话者的独特韵律、语调和声音特征，让生成的语音更加自然且个性化。

Sonic模型的独特优势不仅体现在其低延迟和逼真语音生成上，更在于其高度可调性。用户可以根据自己的需求，轻松调节音调、速度、情感、发音等参数，实现个性化的语音输出。这种灵活性使得Sonic在多个领域都具备广泛的应用潜力，如客户支持、娱乐内容创作等。

为了实现这一突破性的技术成果，Cartesia团队引入了创新的“状态空间模型”（SSM）架构。这种架构能够高效处理任意大小的语境，并支持实时处理各种形式的模态。通过SSM架构，Cartesia成功打造了一个能够长期稳定运行在各类设备上的实时智能系统。

在实时对话型AI的研发上，Cartesia已经取得了显著的成果。他们正在开发一个具备长期记忆和实时对话能力的AI计算平台。这个平台能够处理复杂问题，并为用户提供前所未有的智能体验。Sonic模型的低延迟性能正是这一平台得以成功实现的关键。

通过优化SSM推理系统，Cartesia进一步提升了Sonic模型的性能。现在，Sonic能够以更低的成本提供高质量的语音生成服务。为了方便用户使用，Cartesia还推出了Web Playground和低延迟API。在Playground中，用户可以探索丰富的语音库，进行各种应用程序的开发。而通过API接口，用户可以轻松地将Sonic模型集成到自己的项目中。

展望未来，Cartesia将致力于实现原生多模态的实时智能。他们希望能够在更多领域实现即时理解和生成任意形式的模态信息，从而推动实时智能技术的进一步发展。Sonic语音生成模型的发布只是他们迈向这一目标的坚实一步。