论文简述 | Structure-SLAM：室内环境中的低漂移单目SLAM-技术圈

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

标题:Structure-SLAM: Low-Drift Monocular SLAM in Indoor Environments

作者:Yanyan Li、Nikolas Brasch、Yida Wang、Nassir Navab、Federico Tombari

来源: IEEE 2020

摘要

本文提出了一种针对室内场景的低漂移单目SLAM方法,其中单目SLAM经常由于缺乏纹理而失败.我们的方法将跟踪过程的旋转和平移估计解耦,以减少室内环境中的长期漂移.为了充分利用场景中可用的几何信息,利用卷积神经网络从每个输入的RGB图像中实时估计表面法向量.首先,利用曼哈顿世界假设,使用球形均值漂移聚类,基于线和表面法向量估计无漂移旋转.然后根据点和线特征计算平移.最后,用地图到帧的优化策略来优化估计的姿态.该方法的性能优于ICL-NUIM等.

论文地址:

https://arxiv.org/pdf/2008.01963.pdf

介绍

视觉同步定位和建图对自主机器人和增强现实非常重要,因为它们用于估计姿态和重建未知环境.在许多SLAM用例和应用中,单目摄像机是室内场景中最常见的相机.室内环境通常以缺乏纹理表面和不规则分布的特征点为特征.特别是低纹理的墙壁、地板和天花板很难用最先进的基于特征的方法和直接方法来处理.对于低纹理场景,结合点和线特征的SLAM系统也应用于低纹理场景.例如PL-SLAM、PLVO都将工作场景扩展到具有可见结构边缘的低纹理环境.由于该图是根据一系列输入帧构建的,因此误差会随着时间的推移而累积,从而导致漂移.从而影响稠密重建.

克服这些错误有两个主要策略:闭环检测,结合姿态图优化,检测以前看到的路标并优化基于新约束的位姿图,从而校正累积漂移.然而带来了额外的计算负担.并且只有在重新回到同一个地方时才能消除漂移.另一种策略是假设世界帧中有一个底层(全局)结构,然后每个跟踪帧可以直接与这个世界结构对齐,而不是与最后一帧或关键帧对齐.结构化场景最常见的表述是曼哈顿世界(MW),其中图1(a)中所示的环境由几何结构(平面和线)组成.它在室内环境中特别有用,在室内环境中,墙壁、地板和天花板等结构通常在多个房间中显示一致的对齐,从而实现全局对齐.

(图一)

该方法适应于低纹理的室内场景,基于dense normal预测和曼哈顿世界假设实现低漂移单目SLAM.

系统框架

下图是StructureSLAM框架,在前端,编码器-解码器网络预测密集的表面法线,同时从RGB图像中提取点和线特征.在后端,首先使用法线和直线形式的场景结构来估计摄像机的全局旋转.然后,使用点和线特征获得用于平移的剩余3个自由度.使用局部地图校正初始姿态估计,关键帧是根据点特征和线特征来选择的.

曼哈顿世界

在传统的基于特征的系统中,漂移的主要来源是旋转估计.即使曼哈顿假设是室内SLAM的一个很好的约束,但很难在单目方法中实施,因为只能获得有限的3D信息.

周等人[10]应用[24]将平行线段分类成不同的组,并从消失点估计主导方向.如果深度图可用,可以直接计算表面法线.

Joo等人[25]为曼哈顿框架估计提供了一个分支定界框架.

MVO[23]提出了一种单位球均值漂移方法来寻找曼哈顿世界和相机系统之间的旋转矩阵.对于平移部分,它们计算并对齐每个正交方向上点的密度分布,避免了昂贵的点匹配.

OPVO[26]使用平面来估计曼哈顿框架旋转,将其应用限制在至少有两个正交平面的环境中.

LPVO[12]为旋转估计增加了直线的消失点.两者都使用基于点的方法进行评估.

L-SLAM[13]在预测步骤中使用LPVO平移估计.用基于卡尔曼滤波器的SLAM更新代替了来自LPVO的基于图形的平移估计.与[12]、[13]相比,我们构建了一个基于点、线和预测法线的初始化模块.此外,在解耦初始化之后,添加细化模块来优化姿态.

文献10
StructSLAM:Visual SLAM with Building Structure Lines

文献24
Robust Multiple Structures Estimation with J-linkage

文献25
Globally Optimal Manhattan Frame Estimation in Real-time

文献23
 Divide and Conquer:
Efficient Density-based Tracking of 3D Sensors in Manhattan Worlds

文献26
 Visual Odometry with Drift-free Rotation Estimation Using Indoor Scene Regularities

文献12
Low-drift Visual Odometry in Structured Environments by Decoupling Rotational and Translational Motion

文献13
Linear RGB-D SLAM for Planar Environments

实验结果

图5给出了不同估计方法的未训练的图像的结果.在我们的方法中,我们屏蔽掉灯罩(first row)和小盒子(second row),因为这些区域被分类为非平面的.前两rows显示了室内环境的常见示例.两者都显示了良好的结果,GeoNet显示了较小的不准确性.对于最后两rows非常罕见的场景,我们的模型的平面区域检测和法线估计仍然产生合理的结果,而来自GeoNet的法线预测的质量严重下降.

(图五)

下图是StructureSLAM、ORB-SLAM和ICL NUIM数据集中“of-k3”序列的地面实况的轨迹分析

为了在不同的环境中评估我们的方法,我们从ICL-NUIM数据集和TUM RGB-D数据集中选择结构化图像序列.

表二显示了在几个序列上所有方法的RMSE,lr和of代表ICL-NUIM数据集中的客厅和办公室序列.s-t-near和s-not-near分别是TUM RGB-D数据集中structure-texture-near and structure-notexture-near序列.s-t-near和s-tfar显示了由多个纹理平面组成的相同环境,s-not-near和s-not-far由相似的结构组成,但没有纹理.

为了体现我们方法的鲁棒性，我们计算了这些序列的PRE,这些序列可以通过ORB-SLAM和我们的方法进行鲁棒处理.对于纹理化序列的s-t-far和s-t-near,ORB-SLAM和提出的方法具有相似的性能.对于ORB-SLAM,图6(左)中序列“of-kt3”的相对误差明显较大,这对应于图4中给出的结果.如图7所示,与ORB-SLAM方法相比,StructureSLAM方法在旋转估计方面更稳定.

我们还比较了不同方法跟踪的帧数,与ORB-SLAM相比,我们的方法检索相机姿态更加可靠,特别是在“lr-kt2”、“of-kt3”和“s-t-far”中.如图6右侧的序列“of-kt3”所示,我们的方法快速初始化并跟踪序列中的所有帧.对于图8中的HRBB4,可以发现类似的结果.与仅在第628帧后初始化的ORB-SLAM相比,我们的方法能够在第110帧左右更早地初始化.此外,所提出的方法在环境剧烈变化的走廊右上角显示更鲁棒.

结论

我们提出了一个基于点、线和表面法线的单目相机的SLAM系统.使用曼哈顿世界假设进行旋转估计,使用点和线特征进行窗口平移估计.效果挺不错的.