极市导读
本文提出了一种新的用于激光雷达定位的场景坐标回归框架LiSA。LiSA是第一个将语义信息集成到基于回归的激光雷达视觉定位中的工作,不简单地依赖分割模型生成的标签,而是应用基于扩散的知识提取,将相关语义知识从分割模型直接转移到SCR网络中。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
激光雷达定位根据每帧激光雷达点云数据估计传感器在全球中的绝对位置和方向,这是计算机视觉和机器人技术中的一项基本任务。
图1 激光雷达视觉定位的相关应用在隐表达的激光雷达视觉定位领域中,场景坐标点回归(SCR)的方法因为能够有效的利用一些场景几何约束,它在定位精度上对比绝对位姿回归(APR)的方法有很大的优势。SCR的方法为点云中的每一个点都预测其对应的世界坐标系下的对应坐标,然后迭代优化来求解激光雷达的位姿。这种方式平等的使用了所有的点,但这显然是不合理的,直观上,动态的(例如行人和车辆)或重复的(例如路面和树木)物体应该不如显著的和静态的物体重要。
针对这一点,本文提出了LiSA,引入了额外的语义信息来解决这个问题。LiSA在传统的SCR网络的框架上,额外增加了语义分支,通过知识蒸馏的方式让定位网络学习来自分割网络的知识。同时由于较小的网络天然就可能存在较多的噪声,本方法使用了额外的扩散模型(Diffusion Model)来为学生模型预测的语义特征去噪。在推理过程中,只使用LiSA的SCR模块,将冻结的分割模块和知识蒸馏模块丢弃,有效的避免了增加额外的时间和算力开销,满足定位任务最重要的实时性需求,如图2所示。
图2 LiSA网络结构表1、2和图3、4分别展示了LiSA和对比方法们在QEOxford和NCLT数据集上的定量结果和可视化定位轨迹。在QEOxford数据集上,LiSA在之前最好的定位方法SGLoc的基础上又提升了38%和29%的定位精度和定向精度;在NCLT数据集上,分别提升了17%和34%。可视化轨迹中,LiSA也展示出了最好的效果,几乎不存在离散点。
表1 LiSA和Baseline方法在QEOxford的定位定量结果
表2 LiSA和Baseline方法在NCLT上的定位定量结果
图3 LiSA和Baseline方法在QEOxford的定位可视化结果!图4 LiSA和Baseline方法在NCLT上的定位可视化结果由于定位常用的benchmark数据集通常不具有人工标注的语义标签,缺少语义分割的真值,本方法使用了现有的预训练好的分割模型来迁移使用。图5展示了使用不同分割方法的定性结果。
图5 不同语义分割方法在QEOxford上的分割定性结果本文进一步验证了LiSA在不同精度语义特征下的鲁棒性和使Diffusion Model去噪的优势。表3中可以很明显的看到,在语义分割效果较好的情况下,LiSA定位网络的精度也更高些,两者是正相关的。Diffusion Model对于精度也有一定的提升,特别是在语义特征质量相对较低的情况下。表3 分析实验
本方法将网络回归头之前的各个通道特征相加,并且映射到0-255区间,来考量各个点的激活值大小。从图6中可以看出,在引入了额外的语义信息之后,各个点的激活值分布区间更大,更均匀,这也说明了网络学会了为不同类别的点赋予不同的权重。图7具体展示了不同类别物体的激活值可视化结果。
图6 引入语义信息前后激活值分布图7 引入语义信息前后点云激活值可视化总结
本文提出了一种新的用于激光雷达定位的场景坐标回归框架LiSA。据我们所知,LiSA是第一个将语义信息集成到基于回归的激光雷达视觉定位中的工作,不简单地依赖分割模型生成的标签,而是应用基于扩散的知识提取,将相关语义知识从分割模型直接转移到SCR网络中。这使得能够网络自适应提取有助于定位的语义知识,同时将噪声分割的负面影响降至最低。同时,由于基于蒸馏的训练,所有额外的模块都可以在训练后丢弃,从而避免了在推理过程中产生额外计算或网络参数。LiSA在具有挑战性的LiDAR定位数据集上实现了最先进的性能。
公众号后台回复“ 数据集 ”获取100+深度学习各方向资源整理
极市干货
技术专栏: 多模态大模型超详细解读专栏 | 搞懂Tranformer系列 | ICCV2023论文解读 | 极市直播 极视角动态 :欢迎高校师生申报极视角2023年教育部产学合作协同育人项目|新视野+智慧脑,「无人机+AI」成为道路智能巡检好帮手! 技术综述: 四万字详解Neural ODE:用神经网络去刻画非离散的状态变化 | transformer的细节到底是怎么样的?Transformer 连环18问!
点击阅读原文进入CV社区
收获更多技术干货