BEV感知中的Transformer算法-技术圈

作者丨东新村轱天乐@知乎

来源丨https://zhuanlan.zhihu.com/p/497434621

编辑丨CV技术指南

可以先看看这个大佬刘兰个川写的BEV Perception博客，里面总结了4种方案，但作者认为第4种基于Transformer的方案才是未来的方向。

博客链接：https%3A//towardsdatascience.com/monocular-bev-perception-with-transformers-in-autonomous-driving-c41e4a893944

我也认为Transformer也是未来，因此以后将只关注此类的方法。

1、Camera only

清华，DETR3D

https://arxiv.org/abs/2110.06922

主要思想：固定900个query个数，随机初始化query。每个query对应一个3D reference point，然后反投影到图片上sample对应像素的特征。

缺点：需要预训练模型，且因为是随机初始化，训练收敛较慢

BEV Former

https://arxiv.org/abs/2203.17270

主要思想：将BEV下的每个grid作为query，在高度上采样N个点，投影到图像中sample到对应像素的特征，且利用了空间和时间的信息。并且最终得到的是BEV featrue，在此featrue上做Det和Seg。

Spatial Cross-Attention：将BEV下的每个grid作为query，在高度上采样N个点，投影到图像中获取特征。

Temporal Self-Attention: 通过self-attention代替运动补偿，align上一帧的feature到当前帧的Q

旷视，PETR

https://arxiv.org/pdf/2203.05625.pdf

2、多模态

清华，FUTR3D

https://arxiv.org/pdf/2203.10642.pdf

在DETR的基础上，将3D reference point投影到Lidar voxel特征和radar point 特征上。

香港科技大学，Transfusion

https://arxiv.org/pdf/2203.11496.pdf

利用CenterPoint在heatmap上获取Top K个点作为Query（这K个点可以看做是通过lidar网络初始化了每个目标的位置，这比DETR用随机点作为Qurey收敛要快），先经过Lidar Transformer得到proposal，把这个proposal作为Query，再和image feature做cross attention。

Google，DeepFusion

https://arxiv.org/abs/2203.08195

直接将Lidar feature和Camera feature做cross attention，这个思路牛逼，我不看到这篇论文是绝对想不到还能这么搞的。

—END—

高效学习3D视觉三部曲

第一步加入行业交流群，保持技术的先进性

目前工坊已经建立了3D视觉方向多个社群，包括SLAM、工业3D视觉、自动驾驶方向，细分群包括：[工业方向]三维点云、结构光、机械臂、缺陷检测、三维测量、TOF、相机标定、综合群；[SLAM方向]多传感器融合、ORB-SLAM、激光SLAM、机器人导航、RTK|GPS|UWB等传感器交流群、SLAM综合讨论群；[自动驾驶方向]深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器讨论群、多传感器标定、自动驾驶综合群等。[三维重建方向]NeRF、colmap、OpenMVS等。除了这些，还有求职、硬件选型、视觉产品落地等交流群。大家可以添加小助理微信: dddvisiona，备注：加群+方向+学校|公司, 小助理会拉你入群。

第二步加入知识星球，问题及时得到解答

针对3D视觉领域的视频课程（三维重建、三维点云、结构光、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、源码分享、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答等进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业、项目对接为一体的铁杆粉丝聚集区，6000+星球成员为创造更好的AI世界共同进步，知识星球入口：「3D视觉从入门到精通」

学习3D视觉核心技术，扫描查看，3天内无条件退款