音色自由定制:ChatTTS让声音更有个性

AI快讯 2024-06-03

你是否还记得那款在中文语音AI领域掀起波澜的ChatTTS?这款曾被誉为可与GPT-4o媲美的文本转语音项目,一经上线便迅速走红,短短数日内在GitHub上便收获了高达16.9K的星标。而今,ChatTTS更是迈出了重要的一步,正式推出了官方网站,为广大用户提供了更加便捷的在线体验机会。

image.png

主要功能一览

文字转语音:只需在指定的文本框中输入文字,ChatTTS即可迅速将其转化为生动自然的语音,同时自动优化韵律和停顿,使语音更加流畅自然。

实时语音对话:通过与大语言模型的结合,ChatTTS实现了令人惊叹的实时语音对话功能,为用户带来了全新的交流体验。

音色调节:在“Audio Seed”区域,用户可以根据个人喜好调节数字指定说话人的音色,或是通过摇骰子的方式随机生成一种独特的音色,为语音增添更多个性色彩。

细节控制:ChatTTS允许用户在文本中插入特殊标记,如[laugh]和[uv_break],从而轻松控制笑声、停顿等语音效果,使生成的语音更加贴近真实交流场景。

ChatTTS的独特之处

多语言支持:ChatTTS不仅擅长中文语音合成,还能生成自然流畅的英文语音。在中英文混合语音表现上,ChatTTS更是达到了难以分辨真伪的境地,让人几乎察觉不到这是由AI生成的语音。

细粒度控制:ChatTTS为用户提供了前所未有的细粒度控制功能,让用户能够轻松调整笑声、停顿和语气词等细节,使生成的语音更加生动自然。

多说话人支持:ChatTTS具备强大的多说话人语音合成能力,能够复刻各种声音,包括已故人物的经典声音,为用户带来了更多的创意空间。

大规模训练数据:为了确保语音合成的质量和准确性,ChatTTS采用了超过10万小时的中英文数据进行训练。在HuggingFace开源的版本中,虽然使用了4万小时的训练数据,但同样展现出了出色的性能,即便未经过监督微调(SFT)。

ChatTTS的推出无疑为中文语音AI领域注入了新的活力。让我们共同期待ChatTTS在未来能够带来更多惊喜和突破!

@版权声明:部分内容从网络收集整理,如有侵权,请联系删除!

相关文章