声学模型是语音合成和语音识别的重要组成部分,用于建模语音信号的声学特征。声学模型主要关注如何将输入的文本或语音特征映射到声学特征,以便进一步生成自然流畅的语音或识别语音的内容。
在语音合成中,声学模型的目标是根据输入的文本生成合成语音的声学特征。声学模型通常是一个训练过的模型,它可以通过深度学习方法进行建模。其中,常用的声学模型包括以下几种:
(1)隐马尔可夫模型。HMM是一种传统的声学模型,在语音合成和语音识别中得到广泛应用。HMM 将语音信号建模为一系列隐藏状态的概率模型,并使用发射概率来描述状态与声学特征之间的关系。
(2)混合高斯模型。GMM 是在 HMM的基础上发展起来的一种声学模型,GMM假设每个隐藏状态是由多个高斯分布组合而成的,以更地建模语音信号的声学特征。
(3)深度神经网络。DNN在语音合成中也被广泛使用。DNN通过多层神经网络来建模输入文本与声学特征之间的映射关系。DNN 具有较强的非线性建模能力,可以更准确地捕捉语音信号的复杂特征。
(4)生成对抗网络。GAN是一种近年来在声学模型中得到广泛研究的方法。GAN 通过同时训练生成器和判别器网络,以提高合成语音的质量和自然度。
这些声学模型通常需要在大量的标注语音数据上进行训练,以学习语音信号的声学特征分布。随着深度学习技术的发展,基于神经网络的声学模型在语音合成和语音识别领域发席迅速,使合成的语音更加自然流畅。
在神经网络语音合成系统中,从文本到语音,实际上经过了文本表示(将输入的文本转换为机器可理解的表示形式),文本编码器接收文本表示,并将其转换为低维的语义表示声学模型接收文本编码器的输出并生成对应的波形特征,生成的波形特征需要声码器进行后处理以提升语音的质量和自然度;最后波形生成器接收声学特征,并将其转换为最终的音频波形。
神经网络语音合成系统使用的声学模型(Tacotron 与 FastSpeech 等)是基于Transformer 建模的,即先将文字字符映射为中间声学特征,再使用声码器解码为波形的解决方案。而在生成对抗网络中,VITS 模型则直接将文字字符映射为音频波形,解决了声学模型和声码器的误差问题,是一种高质量、端到端的语音合成声学模型。