sv2tts_waveglow

TTS 文本转为语音

Google 团队提出了一种文本语音合成（text to speech）神经系统，能通过少量样本学习到多个不同说话者（speaker）的语音特征，并合成他们的讲话音频。此外，对于训练时网络没有接触过的说话者，也能在不重新训练的情况下，仅通过未知说话者数秒的音频来合成其讲话音频，即网络具有零样本学习能力。传统的自然语音合成系统在训练时需要大量的高质量样本，通常对每个说话者，都需要成百上千分钟的训练数据，这使得模型通常不具有普适性，不能大规模应用到复杂环境（有许多不同的说话者）。而这些网络都是将语音建模和语音合成两个过程混合在一起。

网络结构

主要由三部分构成：

声音特征编码器（speaker encoder）

序列到序列的映射合成网络（Tacotron 2）

语音合成网络 (WaveGlow)

运行例子 - TTSExample

运行成功后，命令行应该看到下面的信息:


...
[INFO ] - 文本: 基于给定音色将文本转为语音
[INFO ] - 给定音色: src/test/resources/biaobei-009502.mp3

# 生成特征向量：
[INFO ] - Speaker Embedding Shape: [256]
[INFO ] - Speaker Embedding: [0.06272025, 0.0, 0.24136968, ..., 0.027405139, 0.0, 0.07339379, 0.0]
[INFO ] - mel频谱数据 Shape: [80, 331]
[INFO ] - mel频谱数据: [-6.739388, -6.266942, -5.752069, ..., -10.643405, -10.558134, -10.5380535]
[INFO ] - 生成wav音频文件: build/output/audio.wav

文本 - "基于给定音色将文本转为语音" - 生成的语音效果： audio.wav

SDK代码下载地址：

Github链接

Gitee链接

点击返回网站首页