点击返回网站首页

 

TTS 文本转为语音

Google 团队提出了一种文本语音合成(text to speech)神经系统,能通过少量样本学习到多个不同说话者(speaker)的语音特征,并合成他们的讲话音频。此外,对于训练时网络没有接触过的说话者,也能在不重新训练的情况下,仅通过未知说话者数秒的音频来合成其讲话音频,即网络具有零样本学习能力。 传统的自然语音合成系统在训练时需要大量的高质量样本,通常对每个说话者,都需要成百上千分钟的训练数据,这使得模型通常不具有普适性,不能大规模应用到复杂环境(有许多不同的说话者)。而这些网络都是将语音建模和语音合成两个过程混合在一起。

主要由三部分构成:

声音特征编码器(speaker encoder)

序列到序列的映射合成网络(Tacotron 2)

语音合成网络 (WaveGlow)

运行例子 - TTSExample

运行成功后,命令行应该看到下面的信息:

文本 - "基于给定音色将文本转为语音" - 生成的语音效果: audio.wav

SDK代码下载地址:

Github链接

Gitee链接

 

点击返回网站首页