不小心在paperwithcode看到,DETR系列的论文又屠榜了,在COCO test-dev达到创纪录的63.3AP,忍不住想写一下,2020年以来DETR系列的优势和历程(如何灌水的),虽然原作者也经常上知乎,班门弄斧只为抛砖引玉,更多的思想交流吧。
1 DETR干了啥?
DETR是2020年,由Facebook AI提出,开创性将Transformer引入Detection领域,去掉传统两阶段FasterRCNN和一阶段CenterNet的代表性小技巧(面试最容易考),如RoIpooling,NMS,anchor generation等。
Transformer中attention机制能够有效建模图像中的长程关系(long range dependency),真正实现end-to-end的目标检测新范式。
DETR将目标检测看作一种set prediction问题,并提出了一个十分简洁的目标检测pipeline:backbone CNN提特征,送入Transformer做关系建模,得到的输出通过二分图匹配算法与图片上的ground truth做匹配。
2 DINO能干啥?
最新屠榜的这篇DINO,是清华大学,香港科技大学等人提出来的,比较奇怪是论文相互引用,作者也几乎是同一套班底,DN-DETR发表在CVPR2022, DAB-DETR发表在ICLR2022,idea有很多相似的地方。
论文的说法是,解决三个问题:
a. Contrastive DeNoising Training
为了改善one-to-one匹配问题,训练的时候正样本和负样本同时加了噪声。添加smaller noise的作为正样本,其他作为负样本,主要目的是去重box。
b. Mixed Query Selection
类似于经典的two-stage模型,提出mixed query selection method,有助于改善queries的初始化。
c. Look Forward Twice
类似于经典的FPN,引入非临近层的特征,更像是增加感受一下,提高小目标的表达能力。
想了解DETR系列如何刷榜COCO的,可以看看Awesome Detection Transformer
https://github.com/IDEACVR/awesome-detection-transformer
3 为什么是COCO,objects365&openimages去哪里了?
去年的一个工作是用一个backbone,训练openimages& objects365&COCO 1000+目标,说的就是这篇论文Uninet,累的要命,objects365 64w图片,openimages 150w图片,而COCO只有12万,80类检测目标。训练objects365需要32G V100 8卡机一周,而训练COCO只需要32G V100 8卡机二小时,三个分支加一起就得1个月才能训练一遍。发论文需要千百次训练,哪有那么多时间,要是我也愿意在COCO做些文章,万一过拟合也能涨点不是。
4 Detection还要解决那些问题?
1. Transformer需要对特征图上每个位置都参与计算,高分辨率图像必然导致高计算量和空间复杂度,小目标检测一般,目前主要靠多尺度增强小目标的检测能力。
2. Transformer在初始化的时候,attention weights 几乎是平均的,迭代周期长,训练速度也会慢很多。
3D视觉精品课程推荐:
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)
重磅!3DCVer-学术论文写作投稿 交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。
一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号
▲长按关注公众号