数字人系统复杂,涵盖多模块功能。了解其框架,探索科技新领域。
数字人框架
现代数字人系统的框架根据具体需求和应用场景的不同而有所差异,主要包括以下四个模块。
1. 语音合成与识别
使用语音合成技术将文本转换为语音,为数字人赋予语音交互能力。
利用语音识别技术,将用户的语音指令转换为文本或命令,以实现与数字人的语音交互。
2.人物形象、动作与面部表情
传统数字人形象主要利用 2D 或 3D 建模软件, 根据采集到的数据创建数字人的3D模型,通过添加骨骼系统,以实现动画效果。
智能模型制作数字人形象,则是根据收集和准备用于训练智能模型的数据,例如真实人物的运动捕捉数据、面部表情数据等,利用机器学习模型,使用标注数据模型,学习与预测数字人的行为与面部表情。
3.音视频合成
真人驱动下,使用动作捕捉的方式,音视频能够保持一致。
非真人驱动下,音频需要预先录制或者通过TTS 用文本转换成语音,面部表情则根据算法使用语音进行驱动与同步,从而保证音频与面面、口形、表情等的对齐与一致。
4.交互
真人驱动下的交互都是由真人完成的。非真人驱动下,传统数字人没有交互或只能通过识别出的预置关键词对应的文本转换为语音进行回复;在机器学习下智能交互,则可以将识别或抓取到的关键词交给语言模型进行加工反馈,再将文字通过模型的形式输出,既保证了互动性,又使得音色不会失真。