Wav2Lip项目来源于英国巴斯和印度海得拉巴的两个团队于2020 年 8 月在 ACM Multimedia(ACM 国际多媒体大会)2020上发表的论文 A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild, 只需要一段人物视频或一张人物图片和目标语音文件,就可以使用 Wav2Lip 预训练模型,实现语音与唇形的匹配。
Wav2Lip 是一种生成对抗网络模型,其主要原理是从音频中提取语音特征,利用生成对抗网络将其与面部图像联合训练,得出一个从音频特征到唇形图像的映射,从而对齐并合成动态视频。
Wav2Lip 模型分为两步:一是训练一个唇形判别器,判别声音与唇形是否同步,并使用连续帧提高视觉质量;二是采用编码-解码模型结构或者基于生成对抗网络训练,强制生成器产生准确的唇部运动。
由于使用Wav2Lip只需准备一张图片或一段视频再加上一段音频,就可以让Wav2li自动学习与处理音频与图像,生成相对真实准确的结果。因此,它被广泛应用于影视制作、数字人、语音播报等场景。