点击返回网站首页

 

模型生成文本基于目标音色的梅尔频谱图

声音克隆是指使用特定的音色,结合文字的读音合成音频,使得合成后的音频具有目标说话人的特征,从而达到克隆的目的。在训练语音克隆模型时,目标音色作为Speaker Encoder的输入,模型会提取这段语音的说话人特征(音色)作为Speaker Embedding。接着,在训练模型重新合成此类音色的语音时,除了输入的目标文本外,说话人的特征也将成为额外条件加入模型的训练。 在预测时,选取一段新的目标音色作为Speaker Encoder的输入,并提取其说话人特征,最终实现输入为一段文本和一段目标音色,模型生成目标音色说出此段文本的语音片段。

输入梅尔频谱图与合成频谱图的对比示例如下:

运行例子 - Tacotron2EncoderExample

运行成功后,命令行应该看到下面的信息:

SDK代码下载地址:

Github链接

Gitee链接

 

点击返回网站首页