首页 文章详情

BEV感知中的Transformer算法

3D视觉工坊 | 5 2023-09-06 09:49 0 0 0
UniSMS (合一短信)
作者丨东新村轱天乐@知乎
来源丨https://zhuanlan.zhihu.com/p/497434621
编辑丨CV技术指南
可以先看看这个大佬刘兰个川写的BEV Perception博客,里面总结了4种方案,但作者认为第4种基于Transformer的方案才是未来的方向。
博客链接:https%3A//towardsdatascience.com/monocular-bev-perception-with-transformers-in-autonomous-driving-c41e4a893944

我也认为Transformer也是未来,因此以后将只关注此类的方法。

1、Camera only

清华,DETR3D

https://arxiv.org/abs/2110.06922

主要思想:固定900个query个数,随机初始化query。每个query对应一个3D reference point,然后反投影到图片上sample对应像素的特征。

缺点:需要预训练模型,且因为是随机初始化,训练收敛较慢

BEV Former

https://arxiv.org/abs/2203.17270

主要思想:将BEV下的每个grid作为query,在高度上采样N个点,投影到图像中sample到对应像素的特征,且利用了空间和时间的信息。并且最终得到的是BEV featrue,在此featrue上做Det和Seg。

Spatial Cross-Attention:将BEV下的每个grid作为query,在高度上采样N个点,投影到图像中获取特征。

Temporal Self-Attention: 通过self-attention代替运动补偿,align上一帧的feature到当前帧的Q

旷视,PETR

https://arxiv.org/pdf/2203.05625.pdf

2、多模态

清华,FUTR3D

https://arxiv.org/pdf/2203.10642.pdf

在DETR的基础上,将3D reference point投影到Lidar voxel特征和radar point 特征上。

香港科技大学,Transfusion

https://arxiv.org/pdf/2203.11496.pdf

利用CenterPoint在heatmap上获取Top K个点作为Query(这K个点可以看做是通过lidar网络初始化了每个目标的位置,这比DETR用随机点作为Qurey收敛要快),先经过Lidar Transformer得到proposal,把这个proposal作为Query,再和image feature做cross attention。

Google,DeepFusion

https://arxiv.org/abs/2203.08195

直接将Lidar feature和Camera feature做cross attention,这个思路牛逼,我不看到这篇论文是绝对想不到还能这么搞的。

—END—

高效学习3D视觉三部曲

第一步 加入行业交流群,保持技术的先进性

目前工坊已经建立了3D视觉方向多个社群,包括SLAM、工业3D视觉、自动驾驶方向,细分群包括:[工业方向]三维点云、结构光、机械臂、缺陷检测、三维测量、TOF、相机标定、综合群;[SLAM方向]多传感器融合、ORB-SLAM、激光SLAM、机器人导航、RTK|GPS|UWB等传感器交流群、SLAM综合讨论群;[自动驾驶方向]深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器讨论群、多传感器标定、自动驾驶综合群等。[三维重建方向]NeRF、colmap、OpenMVS等。除了这些,还有求职、硬件选型、视觉产品落地等交流群。大家可以添加小助理微信: dddvisiona,备注:加群+方向+学校|公司, 小助理会拉你入群。

添加小助理微信:cv3d007, 拉你入群

第二步 加入知识星球,问题及时得到解答

针对3D视觉领域的视频课程(三维重建、三维点云、结构光、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等)、源码分享、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答等进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业、项目对接为一体的铁杆粉丝聚集区,6000+星球成员为创造更好的AI世界共同进步,知识星球入口:「3D视觉从入门到精通」

学习3D视觉核心技术,扫描查看,3天内无条件退款
高质量教程资料、答疑解惑、助你高效解决问题

第三步 系统学习3D视觉,对模块知识体系,深刻理解并运行

如果大家对3D视觉某一个细分方向想系统学习[从理论、代码到实战],推荐3D视觉精品课程学习网址:www.3dcver.com

基础课程:

[1]面向三维视觉算法的C++重要模块精讲:从零基础入门到进阶

[2]面向三维视觉的Linux嵌入式系统教程[理论+代码+实战]

[3]如何学习相机模型与标定?(代码+实战)

[4]ROS2从入门到精通:理论与实战

[5]彻底理解dToF雷达系统设计[理论+代码+实战]

工业3D视觉方向课程:

[1](第二期)从零搭建一套结构光3D重建系统[理论+源码+实践]

[2]保姆级线结构光(单目&双目)三维重建系统教程

[3]机械臂抓取从入门到实战课程(理论+源码)

[4]三维点云处理:算法与实战汇总

[5]彻底搞懂基于Open3D的点云处理教程!

[6]3D视觉缺陷检测教程:理论与实战!

SLAM方向课程:

[1]深度剖析面向机器人领域的3D激光SLAM技术原理、代码与实战

[1]彻底剖析激光-视觉-IMU-GPS融合SLAM算法:理论推导、代码讲解和实战

[2](第二期)彻底搞懂基于LOAM框架的3D激光SLAM:源码剖析到算法优化

[3]彻底搞懂视觉-惯性SLAM:VINS-Fusion原理精讲与源码剖析

[4]彻底剖析室内、室外激光SLAM关键算法和实战(cartographer+LOAM+LIO-SAM)

[5](第二期)ORB-SLAM3理论讲解与代码精析

视觉三维重建

[1]彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进)

自动驾驶方向课程:

[1] 深度剖析面向自动驾驶领域的车载传感器空间同步(标定)

[2] 国内首个面向自动驾驶目标检测领域的Transformer原理与实战课程

[3]单目深度估计方法:算法梳理与代码实现

[4]面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)

[5]如何将深度学习模型部署到实际工程中?(分类+检测+分割)

最后

1、3D视觉文章投稿作者招募

2、3D视觉课程(自动驾驶、SLAM和工业3D视觉)主讲老师招募

3、顶会论文分享与3D视觉传感器行业直播邀请

good-icon 0
favorite-icon 0
收藏
回复数量: 0
    暂无评论~~
    Ctrl+Enter