TTS…你都掌握了吗？一文总结语音合成必备经典

作者：杨超月

本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务，并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA！模型资源站（sota.jiqizhixin.com）即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。

本文将分 2 期进行连载，共介绍 19 个在语音合成任务上曾取得 SOTA 的经典模型。

第 1 期：BLSTM-RNN、WaveNet、SampleRNN、Char2Wav、Deep Voice、Parallel WaveNet、GAN、Tacotron、VoiceLoop

第 2 期：Tacotron2、GST、DeepVoice3、ClariNet、LPCNet、Transformer-TTS、Glow-TTS、Flow-TTS、cVAE+Flow+GAN、PnG BERT

您正在阅读的是其中的第 2 期。前往 SOTA！模型资源站（sota.jiqizhixin.com）即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。

第1期回顾：

本期收录模型速览

模型SOTA！模型资源站收录情况模型来源论文
Tacotron2 https://sota.jiqizhixin.com/project/tacotron-3
收录实现数量：23
支持框架：PyTorch、TensorFlow Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions
GST https://sota.jiqizhixin.com/project/gst
收录实现数量：2
支持框架：PyTorch、TensorFlow Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis
DeepVoice3 https://sota.jiqizhixin.com/project/deepvoice3
收录实现数量：1
支持框架：PyTorch Deep Voice 3: Scaling text-to-speech with convolutional sequence learning
ClariNet https://sota.jiqizhixin.com/project/clarinet
收录实现数量：1
支持框架：PyTorch ClariNet Parallel Wave Generation in End-to-End Text-to-Speech
LPCNet https://sota.jiqizhixin.com/project/lpcnet
收录实现数量：1
支持框架：PyTorch LPCNET: IMPROVING NEURAL SPEECH SYNTHESIS THROUGH LINEAR PREDICTION
Transformer-TTS https://sota.jiqizhixin.com/project/transformer-tts-mel-waveglow
收录实现数量：1
支持框架：TensorFlow Neural Speech Synthesis with Transformer Network
Glow-TTS https://sota.jiqizhixin.com/project/glow-tts
收录实现数量：1
支持框架：PyTorch Glow-TTS：A Generative Flow for Text-to-Speech via Monotonic Alignment Search
Flow-TTS https://sota.jiqizhixin.com/project/flow-tts
收录实现数量：1
FLOW-TTS: A NON-AUTOREGRESSIVE NETWORK FOR TEXT TO SPEECH BASED ON FLOW
VITS https://sota.jiqizhixin.com/project/cvae-flow-gan
收录实现数量：2
支持框架：PyTorch Conditional variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech
PnG BERT https://sota.jiqizhixin.com/project/png-bert
收录实现数量：1
支持框架：PyTorch PnG BERT: Augmented BERT on Phonemes and Graphemes for Neural TTS

语音合成（speech synthesis）是指通过机械的、电子的方法产生人造语音的技术，Text To Speech（TTS）将文本转化成拟人化的语音（输入为文本的语音合成），就是一种典型的也是最为我们熟知的语音合成任务。语音合成广泛适用于智能客服、有声阅读、新闻播报、人机交互等业务场景。语音合成和语音识别技术是实现人机语音通信、建立一个有听和讲能力的口语系统所必需的两项关键技术。使电脑具有类似于人一样的说话能力，是当今时代信息产业的重要竞争市场。和语音识别相比，语音合成的技术相对说来要成熟一些，并已开始向产业化方向成功迈进，大规模应用指日可待。像我们熟知的讯飞、火山引擎等就是语音合成技术产业化的典范。

传统的语音合成模型（也称为统计参数语音合成（Statistical Parametric Speech Synthesis）SPSS）包括三个处理步骤：前端处理——声学模型——声码器，其中，前端处理与声码器都有通用的一些方案，针对不同任务的改进点主要在声学模型部分。前端处理主要是指对文本进行分析，通常会对输入语音合成系统的文本进行预处理，比如转成音素序列，有时还会进行断句、韵律分析等，最终从文本中提取发声和韵律。声学模型主要是根据语言学特征生成声学特征。最后，声码器根据声学特征合成语音信号。建设这些模块需要大量的专业知识和复杂的工程实施，这将需要大量的时间和精力。另外，每个组成部分的错误组合可能会使模型难以训练。向传统的三阶段式语音合成模型中引入深度学习模型（DNN），可以学习从语言特征（输入）到声音特征（输出）的映射函数。基于DNN的声学模型为语言特征和声学特征之间的复杂依赖关系提供了有效的分布式表示。然而，基于前馈DNN的声学特征建模方法的一个局限性是，它忽略了语音的连续性。基于DNN的方法假定每一帧都是独立采样的，尽管语音数据中的连续帧之间存在着关联性。递归神经网络（RNN）提供了一种有效的方法来模拟语音相邻帧之间的相关性，因为它可以使用所有可用的输入特征来预测每一帧的输出特征。在此基础上，一些研究人员用RNN代替DNN来捕捉语音帧的长期依赖性，以提高合成语音的质量。