概述:虚拟数字人作为新一代人机交互平台,其发展与制作技术密切相关,是由计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等技术构建而成。虚拟人由角色形象、语音生成、动画生成、音视频展示、交互五大模块组成,大致可分为2D虚拟人和3D虚拟人两大类。
2D虚拟人:2D虚拟人是按照真人的形象塑造的,和真人很像。主要应用于金融、医疗、保险、传统房地产企业客服等。可以进行多轮对话互动,但不能旋转。虚拟人的姿态是有限的,服装的外观,发型等。不能随意修改,所以形象相对固定。虚拟人不能用于3D场景,3D演示,VR,AR,游戏。
3D虚拟人:3D虚拟人风格多样化,可以自由打造风格化的外观,应用场景广泛。主要应用场景包括内容创作、IP创作、创意内容创作,具有多交互、多形式、自由修改的特点,并可搭配真实场景,进一步增强逼真效果。
制作模型
2D虚拟人:2D虚拟人一般采用静态扫描技术制作,即用40-60个摄像头全方位拍摄真人,根据拍摄光线和角度进行矩阵扫描,从而在软件中呈现2D立体图像。静态扫描技术只需拍摄少量所需数据,就能以较低的成本生成2D虚拟人图像。
2D虚拟主播
3D虚拟人:3D虚拟人建模对软件和技术要求很高。采用动态扫描技术,通过人脸特征识别、空变换组件、模型重建组件、骨骼变形组件、纹理融合组件等,将采集到的光影效果或照片数据组合成多模态3D模型。,除了真人形象,还包括卡通、二次元等类型。
3D虚拟人
驱动器
1。面部表情
2D和3D虚拟数字人嘴部动作智能合成的底层逻辑是相似的,都是基于输入文本、输出音频和输出视觉信息之间的相关性映射。
2D虚拟人:主要通过视频算法呈现。从文本到语音和嘴部视频收集的数据经过训练,得到一个可以通过输入任何文本来驱动嘴部形状的模型。然后再配合自动语音识别对语音进行标记,绑定数据和动作,让虚拟人对特定的单词或特定的语境做出相应的动作,但动作是有限的、重复的,只能笼统的呈现。
3D虚拟人:有多种驾驶模式,包括视频算法训练、自动语音识别和动作捕捉设备的获取等。通过三维模型及其对应的BlendShape向量,可以呈现出一个具有三维图像、运动灵活、可以随意驱动的三维虚拟人形象。
嘴部动作合成逻辑
2。全身运动
运动捕捉技术是目前最成熟有效的运动产生方式,可分为光学、惯性、电磁和基于计算机视觉的运动捕捉。其中光学抓拍精度最高,环境要求最高,硬件成本最高,惯性抓拍抗遮挡能力最强,视觉抓拍算法最难开发。
动作捕捉服装:真人需要佩戴一套完整的动作捕捉设备,与真人的肢体动作绑定,可以实时传输给虚拟人。
光学运动捕捉:运动捕捉的任务是通过监视和跟踪目标上的特定光点来完成的,即在真人身上粘贴能反射红外光的标记点,由摄像头跟踪反射的标记点,从而捕捉到真人的运动。
惯性运动捕捉:基于惯性测量单元(IMU)捕捉人体运动,即将集成了加速度计、陀螺仪和磁强计的IMU绑定在人体特定的骨节点上,通过算法计算测量数据,从而完成运动捕捉。
光学捕捉、惯性捕捉和视觉捕捉对比图
加油
渲染技术分为实时渲染技术和离线渲染技术。随着硬件能力的提高和算法的突破,虚拟数字人的真实性和实时性将会大大提高。两者在渲染时间、计算资源、计算量等方面存在差异,对应的应用场景也有所不同。
实时渲染:实时计算并输出图形数据,每一帧都是根据当时实际的环境光源、相机位置、材质参数计算出来的图像。渲染时间短,但由于时间限制,计算资源无法及时调整。实时渲染主要用于三维虚拟人。
离线渲染:图像数据不是实时计算输出的。渲染时间比较长,计算资源丰富,时间限制,可以临时调整更多的计算资源。离线渲染主要用于2D虚拟人。
虚拟人的发展趋势
虚拟人产业生产运营成本高,优劣差异显著,受众群体不断扩大。因此,虚拟数字人产业价值凸显,应用领域不断拓展,未来有望加速商业化进程。
标签:虚拟数字人,建模,驾驶,渲染