2D照片秒变3D,Adobe新方法让你只用一张图像轻松做特效( 四 )

基于单张图像合成逼真的移动镜头效果是一个非常难的问题,它需要解决两个基础难题:1)要想基于新摄像机位置合成新视图,就需要准确复原原始视图的场景几何;2)从预测场景几何中合成具备时间连贯性的新视图序列需要处理空洞难题。该研究解决了这两大难题,并提供了一个基于单张图像合成 3D Ken Burns 特效的完整系统。

首先,该系统基于输入图像估计景深图。近年来现有的景深预测方法迅速发展,但单目景深估计仍然是难解问题。研究者观察到,已有的景深预测方法并不是特别适合视图合成任务。具体而言,研究者发现要想使用这些方法进行 3D Ken Burns 特效合成需要解决三个关键问题:几何失真、语义失真和不准确的景深边界。

基于此,研究者设计了一个景深估计流程以及专门解决这些问题的训练框架。他们开发了语义感知景深估计神经网络,并在其最新创建的大规模合成数据集上进行模型训练,该数据集包含不同照片级真实感场景的真值景深。

这样,景深预测流程和新型视图合成方法结合起来形成一个完成的系统,可实现基于单张图像的 3D Ken Burns 特效生成。该系统提供全自动的解决方案,自动确定虚拟摄像机的开始视图和结束视图,从而最小化遮蔽物的数量。

推荐阅读