scale|字节跳动利用单张图片做三维重建：将NeRF、MPI结合，提出MINE_

【scale|字节跳动利用单张图片做三维重建：将NeRF、MPI结合，提出MINE】机器之心专栏
字节跳动视觉技术团队

来自字节跳动视觉技术团队的研究者将 NeRF 和 Multiplane Image（MPI）结合，提出了一种新的三维空间表达方式 MINE 。该方法通过对单张图片做三维重建，实现新视角合成和深度估算。

字节跳动视觉技术团队结合 NeRF 和 Multiplane Image（MPI），提出了一种新的三维空间表达方式 MINE 。 MINE 通过对单张图片做三维重建，实现新视角合成和深度估算。通过引入隐式神经场（NeRF），研究者将 Multiplane Images （MPI）扩展成连续的深度平面。给定单个图片作为输入， MINE 能在相机视锥中的任意深度，预测出一个四通道的图像，四通道包括 RGB 颜色和空间密度。这种任意深度的四通道预测，实际上是对输入图片的视锥的三维重建，以及对被遮挡内容的填充（inpainting）。我们可以利用被重建和填充的视锥方便地渲染出新视角下的 RGB 图片和深度图，并且渲染过程是可导的。

scale|字节跳动利用单张图片做三维重建：将NeRF、MPI结合，提出MINE

文章图片

论文地址：https://arxiv.org/pdf/2103.14910.pdf
项目地址：https://github.com/vincentfung13/MINE

在 RealEstate10K ， KITTI 和 Flowers Light Fields 数据集上的实验表明， MINE 在新视角合成的性能上大幅超越了当前最前沿的方法。同时，在 iBims-1 和 NYU-v2 的实验表明，团队在没有使用真值深度做监督训练的情况下，获得了和前沿方法接近的深度估计性能。
该研究的训练代码与 pretrain model 已经开源。

文章图片

相关工作
近年来，在新视角合成这个领域里，最火爆的方法无疑是 ECCV 2020 的 NeRF [5] 。与传统的一些手工设计的显式三维表达（Light Fields ， LDI ， MPI 等）不同， NeRF 把整个三维空间的几何信息与 texture 信息全部用一个 MLP 的权重来表达，输入任意一个空间坐标以及观察角度， MLP 会预测一个 RGB 值和 volume density 。目标图片的渲染通过 ray tracing 和 volume rendering 的方式来完成。尽管 NeRF 的效果非常惊艳，但它的缺点也非常明显：