索尼数字人研究:画质超逼真,面部表情与身体动作保持协调


索尼数字人研究:画质超逼真,面部表情与身体动作保持协调


文章图片


索尼数字人研究:画质超逼真,面部表情与身体动作保持协调


文章图片


索尼数字人研究:画质超逼真,面部表情与身体动作保持协调


文章图片


索尼数字人研究:画质超逼真,面部表情与身体动作保持协调


文章图片


索尼数字人研究:画质超逼真,面部表情与身体动作保持协调


文章图片


索尼数字人研究:画质超逼真,面部表情与身体动作保持协调


文章图片


近年来 , 3D动捕、数字虚拟人等技术受到越来越多关注 , 它不仅可以应用于电影场景 , 游戏、社交等领域也开始采用 。 相比于过去高成本、高门槛的全身动捕技术 , 现在制作基于动捕的虚拟人越来越容易 , 不需要过高的成本或是专业技术知识 , 一些简易、自动化的动捕方案就足够普通创作者使用 。
【索尼数字人研究:画质超逼真,面部表情与身体动作保持协调】


近期 , 索尼也公布了一项基于机器学习的3D虚拟人和动捕方案 , 该方案可逼真模拟人类面部表情和行为的3D建模技术 , 通过忠实重现人类特征 , 来推动虚拟社交 。
索尼指出 , 数字人是基于真人特征的3D模型 , 它在虚拟场景中可模拟人的自然外观和行为 。 近年来 , 越来越多的企业开始接触数字人技术 , 并将它用于广告、客服、游戏等场景 。 当然 , 并不是所有数字人都能完全还原人的特征 , 它们的还原程度取决于用途 , 比如在CG电影中 , 对于数字人的逼真度会要求更高 。 索尼认为 , 随着CG渲染技术不断提升 , 虚拟化身的质量越来越好 , 因此恐怖谷问题正在得到解决 。



索尼的目标 , 是开发一种仿佛真实存在的数字人 , 这种数字人具有存在感 , 让人感觉它仿佛就在身边 。 换句话说 , 就是利用数字技术来复制真人 。 结合AI算法后 , 它可以和真人互动 , 甚至和真人难以区分 。 其研发重点是突出数字人的个性表达 , 比如重现人脸皱纹和表情的特征变化 , 抓住人独一无二的特点 。 从自然交互的角度来看 , 索尼也注重数字人的眼神与用户的互动 , 数字人不会盯着用户 , 而是模仿人眼和头部自然动作 。
数字人核心技术构成数字人的核心技术包括:面部动捕、面部肌肉模拟、面部肌肉动作和身体协调性 。 基于人脸绑定的面部动画也需要这些步骤 , 模拟人脸表情变化是一个复杂的过程 , 要想忠实重现、绑定人脸面部动作 , 需要高端的面部动捕技术 。 而且 , 复杂的面部动捕难以控制 , 在制作动画时将需要高超的技术 。 为了简化基于动捕的人脸表情模拟过程 , 索尼研发了一种更加智能的工作流程 , 特点是无需传统的面部绑定方案 , 并降低了制作动画的工作量 。



据了解 , 面部动捕技术可准确追踪表演者脸部各部分运动 , 并驱动CG模型去模拟这种运动 。 捕捉面部变形数据需要详细的三位信息 , 才能准确呈现肌肉伸展、收缩 , 以及由此产生的皱纹等细微运动 。



而索尼的方案 , 简单来讲就是用动捕技术捕捉真人演员的表情 , 并根据捕捉到的数据生成人脸CG模型 , 以及面部动态变形效果 。 此外 , 还分析了各种面部表情模式 , 并提取了重现这些表情需要运动的面部区域 。 这些区域大约有100个 , 包括眼睛和嘴唇轮廓部位 , 在捕捉这些区域的3D信息后 , 索尼对它们的位置进行了标记 。



在捕捉人脸3D信息时 , 索尼使用了多台同步的摄像机从多角度拍摄 , 并推算3D运动信息 。 不过 , 部分面部表情变化可能会导致标记检测失败或遮挡 , 因此该系统还利用光流 , 以及不同的摄像头角度来提升信息获取的稳定性 。
接下来 , 索尼使用真人表演视频作为训练数据 , 培训了可精准检测眼睛、嘴唇运动的系统 。 索尼指出 , 每一帧动捕的准确性都决定了下一帧的准确性 , 因此该系统还需要不断完善 , 提高整体水平 。



索尼开始使用头戴式摄像头(HMC)来拍摄演员的面部表情 , 相比于传统的固定机位拍摄 , HMC的好处是可以追随演员 , 演员无需寻找摄像头 , 可以更加自由、灵活的运动 。 索尼表示:捕捉到自然运动的人体姿态后 , 才能渲染出完整的数字人 , 因此HMC是捕捉自然运动数据不可缺少的工具 。

推荐阅读