pod|谷歌公开裸眼3D全息视频聊天技术：8k屏幕、4块GPU和一堆摄像头( 三 )_照明|视频|系统|全息|屏幕|用户

对象捕获
谷歌的目标是渲染每个用户的新图像，这是因为它们应该出现在其他用户的左眼和右眼。显然，如果可以将相机精确地放置在这些眼睛位置，那么捕捉就变得微不足道了。
遗憾的是，这是不可行的。一方面，这些位置位于显示器的中心附近，因而会被遮挡；另一方面，用户将会在所有 3 个维度上自由运动。新兴的透视显示技术或许能够部分解决这个问题，但透明的自动立体显示器还不存在，并且无论如何都无法解决观看者的运动问题。
因此，谷歌将捕获传感器放置在显示器的外围。由于显示器对着本地用户的角度很大，因此捕获视角与需要渲染的眼睛位置相距甚远。为了解决这种大视差，谷歌使用可见光和近红外（NIR）全局快门图像传感器的组合来重建用户的几何近似值。
如上图 5 所示，传感器分布在三个捕获 pod 中，两个在显示器上方，一个位于其下方的中墙。上方的 pod 可以很好地观察手势以及头部和躯干的侧面，同时下方的 pod 又能很好地观察颈部、面部和下巴。 pod 的体积足够大，宽 1.4 m、高 1.0 m 和深 0.9 m ，用于捕捉坐着自然谈话和打手势的用户的头部、躯干、手臂和手。
3D 脸部追踪
谷歌采用了四个同步的 1280×1024 单色相机，它们以 120Hz 运行并配有过滤器来阻挡 NIR 光。对于每个捕获的图像，谷歌检测面部并定位 34 个面部标志 [FaceDetector 2019] 。此外，他们还将眼睛、嘴巴和耳朵的 2D 位置确定为邻近标志的加权组合。为了让四个追踪相机中至少有两个找出这些对象，谷歌使用三角测距法（triangulation）来获取它们的 3D 位置。
视频压缩以及传输
来自 RGBD 捕获 pod 的四种颜色和三种深度流在 GPU 上进行压缩，并使用 WebRTC 与追踪的 3D 面部点一起传输。
通过使用视频压缩技术，该研究能够利用现代 GPU 中高度优化的视频编码器和解码器。具体来说，他们使用四个 NVIDIA GPU 的 NVENC/NVDEC 单元。这样一来会有足够的吞吐量处理四种颜色和三种深度流在全分辨率和 60Hz 的帧率。颜色和深度流都使用带有 YUV420 chroma 子采样的 H.265 编解码器进行编码。颜色流每通道使用 8 位，深度流每通道使用 10 位，深度数据存储在 Y 亮度（luminance）通道中，而 UV chroma 通道设置为 512（灰色）。该研究通过省略双向编码 (B) 帧来减少编码和解码延迟。
渲染
在接收客户端上解压好 3 个深度图和 4 个彩色图像后，该研究从本地用户的眼睛位置渲染虚拟远程用户左右透视图。它由三个步骤组成：
对于每个 4 色相机，通过为每条射线找到与输入深度图融合的表面的第一个交点，使用光线投射计算阴影图；

pod|谷歌公开裸眼3D全息视频聊天技术：8k屏幕、4块GPU和一堆摄像头( 三 )

推荐阅读

如何找寻自我

缝纫机调线器怎么安装平车方法如何

强组词强字组词

火笋鸡翅的做法（增肥食谱）

闺女生日快乐祝福语朋友圈

LV请来潮牌设计师做艺术总监，看中的是啥

老虎豆怎么做好吃老虎豆图片怎样弄来吃

暖气有流水声是什么原因

皮球是什么体

手机怎样开通QQ空间

男生发mua说明 mua是什么意思

手指盖凹陷怎么回事

对自己的生活失去掌控咋调整

小米10s怎么没有月亮模式

我想找个偏僻的地方搞养殖！有没有推荐的地方？

南京养老金认证上门服务怎么申请南京市养老金认证

如何评价猪场阉割猪？

最后一个字是豹的成语

泰山散酒怎么样

猫发情的声音(猫发情的叫声)