选自arXiv
作者:Mohamed Sayed等人
机心编译
编辑:陈平和周晓
来自Niantic和UCL的研究人员通过使用精心设计和训练的2D网络,实现了高质量的深度估计和三维重建。
由姿态图像重建三维室内场景通常分为两个阶段:图像深度估计、深度融合和表面重建。最近有多项研究提出了一系列直接在最终3D体特征空中重建的方法。虽然这些方法取得了令人印象深刻的重建结果,但它们依赖于昂贵的3D卷积层,这限制了它们在资源受限环境中的应用。
现在,来自Niantic和UCL的研究人员试图重用传统方法,并专注于高质量的多视图深度预测。最后,利用一种简单现成的深度融合方法实现高精度的三维重建。
论文地址:https://niantic labs . github . io/simple recon/resources/simple recon . pdf
GitHub地址:https://github.com/nianticlabs/simplerecon
主页:https://nianticlabs.github.io/simplerecon/
本研究利用强大的图像先验、平面扫描特征量和几何损失设计了一个2D CNN。提出的方法SimpleRecon在深度估计方面取得了显著的领先结果,并允许在线实时低内存重建。
如下图所示,SimpleRecon的重建速度非常快,每帧只需要70ms左右。
这项研究的关键是将现有的元数据与典型的深度图像特征一起注入到成本体中,以便允许网络访问有用的信息,如几何和相对相机姿态信息。图3详细示出了特征体积结构。通过整合这些以前未开发的信息,本研究的模型可以在深度预测方面明显优于以前的方法,而无需昂贵的4D成本体积成本、复杂的时间融合和高斯过程。
这项研究由PyTorch实现,使用EfficientNetV2 S作为主干,它有一个类似于UNet++的解码器。此外,他们还使用ResNet18的前两个块进行匹配特征提取,优化器是AdamW,在两个40GB的A100 GPU上需要36个小时才能完成。
网络架构设计
该网络基于2D卷积编码器-解码器架构。在构建这类网络时,发现有一些重要的设计选择可以显著提高深度预测的精度,主要包括:
基线成本体积融合:虽然基于RNN的时间融合方法经常使用,但它们大大增加了系统的复杂性。相反,本研究将成本体积融合做得尽可能简单,发现简单地将参考视图和每个源视图之间的点积匹配成本相加,就可以得到与SOTA深度估计竞争的结果。
图像编码器和特征匹配编码器:以往的研究表明,无论是单目还是多视图估计,图像编码器对于深度估计都是非常重要的。比如DeepVideoMVS使用MnasNet作为图像编码器,延迟相对较低。该研究建议使用一个较小但更强大的EfficientNetv2 S编码器,这大大提高了深度估计的准确性,尽管这样做的代价是增加参数的数量并降低10%的执行速度。
将多尺度图像特征融合到成本体编码器中:在基于2D CNN的深度立体和多视图立体中,图像特征通常与单一尺度上的成本体输出相结合。最近,DeepVideoMVS提出在多个尺度上拼接深度图像特征,并在所有分辨率下增加图像编码器和代价体编码器之间的跳转连接。这对基于LSTM的融合网络非常有帮助,研究发现这对他们的架构同样重要。
实验
在本研究中,所提出的方法在三维场景重建数据集ScanNetv2上进行训练和评估。1下表使用Eigen等人(2014)提出的指标来评估几种网络模型的深度预测性能。
令人惊讶的是,所提出的模型没有使用3D卷积,但它在深度预测指标上优于所有基线模型。此外,没有元数据编码的基线模型也比以前的方法表现得更好,这表明设计良好和训练良好的2D网络足以用于高质量的深度估计。下面的图4和图5显示了深度和法线的定性结果。
在本研究中,TransformerFusion建立的标准协议用于3D重建评估,结果如下表2所示。
对于在线和交互式3D重建应用,减少传感器延迟至关重要。下表显示了给定新RGB帧时每个帧的每个模型的综合计算时间。
为了验证所提出方法的每个组成部分的有效性,研究人员进行了消融实验,结果如下表4所示。
感兴趣的读者可以阅读原文,了解更多的研究细节。
剧终
授权请联系本微信官方账号。
投稿或寻求报道:content@jiqizhixin.com