点击上方“3D视觉工坊”,选择“星标”
干货第一时间送达
前言
今天介绍的文章是:3D-CVF: Generating Joint Camera and LiDAR Features Using Cross-View Spatial Feature Fusion for 3D Object Detection。
文章链接:https://arxiv.org/pdf/2004.12636.pdf
发表在ECCV20,作者是汉阳大学团队

1. 之前的多模态融合方法
为什么要采用多模态融合

前人研究

1. camera信息和Lidar信息融合需要考虑的问题
主要解决问题 view差异导致fusion工作很难

解决办法
本文提出的3D-CVF,使用跨视点空间特征融合策略结合相机和激光雷达特征。和前面的研究工作不同的是,本文并对Image信息做二维的特征提取后,并不是采用索引的方式将特征信息转为点的特征信息,而是将图像信息通过作者设计的auto-calibrated projection模块投影到点云场景的BEV视图上,可以大体理解为降视锥的前视图转化到点云的BEV上,如下图所示,(a)图表示不采用auto-calibrated projection模块投影到BEV上的可视化效果,(b)表示的是通过作者设计的auto-calibrated projection模块后的平滑对其特征。但是(b)并不能定位物体的局部特征。(c)表示的是应用了adaptive gated fusion network后,可以看出在feature -map上可以定位特征信息。

作者这里的可视化信息可以清晰的看出通过作者的auto-calibrated projection模块后可以使得前视图视锥信息到BEV特征更加的平滑,然后通过adaptive gated fusion network模块后可以看出网络在特征图上大致定位了哪些物体。
2 本文网络结构

2.1 Lidar backbone

2.2 RGB Pipeline
2.3 Cross-View Feature Mapping
2.4 Gated Camera-LiDAR Feature Fusion
2.5 3D RoI Fusion-based Refinement
3 网络细节设计
3.1 Dense Camera Voxel Structure
以下表示的Auto-Calibrated Projection Method的设计方案,前面提到的是该结构是将image转化到bev上的网络结构,具体的做法是:
(1)投影得到一个camera-plane,该plane是图像特征到bev视角的voxel-dense的表达。
(2)将lidar划分的voxel中心投影到camera-plane上(带有一个偏移量,不一定是坐标网格正中心)
(3)采用近邻插值,将最近的4个pixel的image特征插值个lidar-voxel。插值的方式采用的是距离为权重的插值方法。

这样,作者就得到了了image信息的feature-map在lidar-voxel上的表示,值得提到的是前面说的偏移值是为了更好的使camera和lidar对齐。
3.2 Gated Camera-LiDAR Feature Fusion

3.3 3D-RoI Fusion-based Refinement
这里作者的采用和MVF中一样的方法,如下图所示,对proposals的边界上采取一定的grid点,然后投影到camera-view上,然后采用pointnet将特征转化到grid上,最后做进一步的优化。

实验结果

以下内容是在test数据集上的实验结果,看的出来在easy上的表现非常好。

消融实验如下,看的出来,在kitti的val数据集上,再不做refine时,精度提升没那么大,说明做refine对moderate和hard类别的重要性。

笔者的思考
重磅!3DCVer-学术论文写作投稿 交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。 同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿 
▲长按关注公众号

▲长按关注公众号
3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近1000+星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款 
圈里有高质量教程资料、可答疑解惑、助你高效解决问题
