可以从项目的原始GitHub开源仓库中获取Wav2Lip的开源代码和测试环境并在电脑本地或者 Demo进行测试,也可以使用百度飞桨的PaddleGAN Wav2Lip产品进行测试。下面使用原始项目环境中提供的Demo和Colab Notebook进行演示。

一种方式是使用 Demo,它提供了 Web 图形界面,只需要上传一段最长不超过20秒的视频和最长不超过20秒的音频即可。

另一种方式是使用谷歌公开的付费Colab工具,利用作者提供的 Demo和预训练模型,体验效果和内容质量更佳的生产过程。

1.从GitHub 仓库中获取预训练模型

该工具的设计者提供了四种预训练模型,从上往下,判别器功能越强,模型体积越大,生产效果越好。这里, 选择“Wav2Lip + GAN”,点击“Link”,将模型下载到电脑本地。

2.上传模型

打开谷歌网盘 Google Drive,新建一个文件夹,命名为 Wav2Lip, 将下载的模型上传到硬盘文件夹中。

再新建一个Wav2Lip文件夹,将准备好的含有人物唇形的图片或视频与驱动感形合成的音频素材也上传进来。

Wav2Lip测试与应用

3.打开 Colab Notebook demo 地址

设计者已经将环境和代码部署完成,只需要从上到下按步骤操作即可。

1)运行代码

2) 账号授权

登录自己的谷歌账号,授权使用。

3)读取存取在谷歌网盘文件夹中的模型和素材。

4)安装依赖库

在出现“Proceed(y/n)?”时,输入“y”,继续执行下一步,该步骤需要运行一段时间。

5)读取素材

指定素材路径,读取视频与音频素材,执行合成。

6)获取结果

执行完成后,在页面左侧的Wav2Lip的results 文件下会生成一个“.mp4”格式的文件,就是得到的结果文件。

在已经有预训练模型的前提下,无论是在云端还是在本地,部署和生产过程都不复杂。

目前,已有非常多的团队在初版Wav2Lip 的基础上开发了很多升级版本,较初代Wav2Lip,其使用更简单,生产视频质量更高。

在数字人项目中,除了要用到上一章提到的文本生成语音和本章所述的音频驱动唇形,还要用到语音情感、人物动作、环境变量,以及与用户的实时互动等,将之融合运用才能获得较为理想的数字人直播效果,例如针对语音情感标注,已有 Bert 和 Pert 模型提供了处理方案。期待更加成熟的整体商业处理方案的出现,以便更好地为企业提高生产力,降低成本。

(本文内容根据网络资料整理,出于传递更多信息之目的,不代表连连国际赞同其观点和立场)
*连连国际 (LianLian Global) 是连连数字旗下跨境支付核心品牌