【scale|字节跳动利用单张图片做三维重建:将NeRF、MPI结合,提出MINE】机器之心专栏
字节跳动视觉技术团队
来自字节跳动视觉技术团队的研究者将 NeRF 和 Multiplane Image(MPI)结合 , 提出了一种新的三维空间表达方式 MINE 。 该方法通过对单张图片做三维重建 , 实现新视角合成和深度估算 。字节跳动视觉技术团队结合 NeRF 和 Multiplane Image(MPI) , 提出了一种新的三维空间表达方式 MINE 。 MINE 通过对单张图片做三维重建 , 实现新视角合成和深度估算 。 通过引入隐式神经场(NeRF) , 研究者将 Multiplane Images (MPI)扩展成连续的深度平面 。 给定单个图片作为输入 , MINE 能在相机视锥中的任意深度 , 预测出一个四通道的图像 , 四通道包括 RGB 颜色和空间密度 。 这种任意深度的四通道预测 , 实际上是对输入图片的视锥的三维重建 , 以及对被遮挡内容的填充(inpainting) 。 我们可以利用被重建和填充的视锥方便地渲染出新视角下的 RGB 图片和深度图 , 并且渲染过程是可导的 。

文章图片
- 论文地址:https://arxiv.org/pdf/2103.14910.pdf
- 项目地址:https://github.com/vincentfung13/MINE
该研究的训练代码与 pretrain model 已经开源 。

文章图片
相关工作
近年来 , 在新视角合成这个领域里 , 最火爆的方法无疑是 ECCV 2020 的 NeRF [5] 。 与传统的一些手工设计的显式三维表达(Light Fields , LDI , MPI 等)不同 , NeRF 把整个三维空间的几何信息与 texture 信息全部用一个 MLP 的权重来表达 , 输入任意一个空间坐标以及观察角度 , MLP 会预测一个 RGB 值和 volume density 。 目标图片的渲染通过 ray tracing 和 volume rendering 的方式来完成 。 尽管 NeRF 的效果非常惊艳 , 但它的缺点也非常明显:
- 一个模型只能表达一个场景 , 且优化一个场景耗时久;
- per-pixel 渲染较为低效;
- 泛化能力较差 , 一个场景需要较多的照片才能训练好 。

文章图片
推荐阅读
- bleu|字节跳动火山翻译上新 38 个稀有语种,翻译能力再升级
- Baidu|百度抢跑元宇宙 却默认“输给”字节?
- 字节跳动|抖音上线学习频道,为知识内容增加一级入口
- 字节跳动|抖音正测试“通讯录”功能:神似朋友圈
- 产品|字节入局音乐流媒体,“算法推荐”会带来新“鲶鱼效应”吗?
- 字节跳动|今日头条规范MCN运营 情节恶劣将被拉入黑名单
- 字节跳动|抖音盒子正式上线 盘一盘字节跳动的电商之路
- 字节跳动|新预测称TikTok有望在2022年成为全球第三大社交网络平台
- 最新消息|胡润发布《2021全球独角兽榜》,字节跳动2.3万亿估值跃升榜首
- 字节跳动|电商领域迎来头号玩家 抖音盒子App上线:主打时尚潮品