数字人有两类,真人驱动与非。各具特色展魅力,应用场景广阔。
目前数字人的类型,按照是否是真人驱动,主要有两种:
一种是传统的对真人进行动作与面部捕捉,进而通过数字人反馈和体现出来动作形态,即所有的内容都是真人表现出来的。不过,这种数字人的形象可以是传统“捏脸”建模而成的,也可以是通过换脸得到的;数字人的声音可以是真人的原始声音,也可以是按照预置模型输出加工后的变音。
另一种是没有真人参与的。数字人形象可以通过建模而成,也可以通过预先采集用户数据训练得到;声音则是文本通过预训练模型加工而成的;数字人的语音感情、动作和面部表情也都是通过预先采集用户数据进行训练与标注得到的;其互动的方式则通过抓取实时数据在语言模型中加工后通过TTS语音输出。
无真人参与的直播形式,因其可以降低人工成本,可以批量、稳定复制,在技术成熟的情况下,在很长一段时间内,可能会成为企业生产视频和直播内容的优选方式。不过,需要注意的是,这种直播的效果与直播团队的脚本生产能力有很大关系。
无真人参与的数字人模型会预先采集数据,进行模型训练,主要数据和训练过程如下:
(1)人物形象数据:采集多角度、多种环境,以及多种物体遮罩的场景下的数据,数据覆盖的场景越多,训练出来的模型在使用过程中就相对更加稳定,不会“翻车”。
(2)动作与面部表情:捕捉真人在设备下的形态、表情、手势、眼神等变化,生成模型。
(3)声音预训练模型:生成特定音色的声线。
(4)感情标注:使用标注什么样的文本会对应什么样的感情,从而让数字人表现出不同的情感。
在使用过程中,文本脚本将被分割成无数的文字句段,数字人利用训练好的模型,“读出”句段并辅之以特定的动作与感情,从而使动作与语音在合成后输出。此外,观众的互动数据,将在语音模型加工后,插入当前句段阅读完成后,数字人透完互动文本后,会继续下一个文本脚本的句段,以保证连续性、当然,GPT加工的互动文字也可以以文字的形式在直播间弹幕上体现。