VITS是一种结合变分推理、标准化流和对抗训练的端到端文本到语音(TTS)模型,使用预先训练好的语音编码器将文本转化为语音。
VITS由Jaehyeon Kim等人在2021年6月11日发布的论文中首次提出2021年6月21日,西北工业大学与腾讯AI实验室也发表了VITS同架构论文 Glone WineGAN: Learning Speech Representations from GAN-based Yartatlonal Auto-Encoder For High Fideliy Flow-based Speech Synthesis。
区别于传统模型的 TTS 系统, VITS 模型利用VAE捕捉文本韵律和Flow重建音频细节,从而实现从文本直接到音频的端到端处理方案。也就是说,传统模型下的 TTS 需要经过文本到声学特征再到声波两步,而在VITS模型下只需要一步就完成了,从而消除了两个模型衔接带来的误差。同时,VITS对GAN的训练是全面的,对每个模块都有效;而相对来说,传统模型 TTS对GAN的训练一般只应用在声码器上。
依据 VITS 模型的整体结构,使用VITS的工作流程如下:
(1)准备某个角色声音的大量干声语料,以训练声码器和语音合成模型。这是使用VITS的先决条件。目前,经过许多开发人员的研究,已经可以在预训练模型基础上进行快速微调,从而得到较为优秀的角色语音模型和声码器了。
(2)将角色语音模型和声码器放到 VITS 项目环境中,使用文本通过预先训练好的模型(声码器)生成语音信号。
(3)语音模型会将语音表示根据特征生成波形语音。
当然,生成的语音质量受预训练的语音模型和声码器的质量影响,或者说它与收到训练物料,也就是干声语料的时长与质量有关。
在跨境电商业务和社交媒体领域,可以训练专属的模型与声码器,再配以文本,即可生成大量优质的商业音频,节省大量的音频录制时间。并且,AI模型不会出现情绪波动,从而保证了音频内容的稳定性。