VITS是一种结合变分推理、标准化流和对抗训练的端到端文本到语音(TTS)模型，使用预先训练好的语音编码器将文本转化为语音。

VITS由Jaehyeon Kim等人在2021年6月11日发布的论文中首次提出2021年6月21日，西北工业大学与腾讯AI实验室也发表了VITS同架构论文 Glone WineGAN: Learning Speech Representations from GAN-based Yartatlonal Auto-Encoder For High Fideliy Flow-based Speech Synthesis。

区别于传统模型的 TTS 系统, VITS 模型利用VAE捕捉文本韵律和Flow重建音频细节，从而实现从文本直接到音频的端到端处理方案。也就是说，传统模型下的 TTS 需要经过文本到声学特征再到声波两步，而在VITS模型下只需要一步就完成了，从而消除了两个模型衔接带来的误差。同时，VITS对GAN的训练是全面的，对每个模块都有效；而相对来说，传统模型 TTS对GAN的训练一般只应用在声码器上。

VITS：创新语音合成技术

依据 VITS 模型的整体结构，使用VITS的工作流程如下：

(1)准备某个角色声音的大量干声语料，以训练声码器和语音合成模型。这是使用VITS的先决条件。目前，经过许多开发人员的研究，已经可以在预训练模型基础上进行快速微调，从而得到较为优秀的角色语音模型和声码器了。

(2)将角色语音模型和声码器放到 VITS 项目环境中，使用文本通过预先训练好的模型(声码器)生成语音信号。

(3)语音模型会将语音表示根据特征生成波形语音。

当然，生成的语音质量受预训练的语音模型和声码器的质量影响，或者说它与收到训练物料，也就是干声语料的时长与质量有关。

在跨境电商业务和社交媒体领域，可以训练专属的模型与声码器，再配以文本，即可生成大量优质的商业音频，节省大量的音频录制时间。并且，AI模型不会出现情绪波动，从而保证了音频内容的稳定性。