极市沙龙回顾｜CVPR2021-戴志港：UP-DETR，针对目标检测的无监督预训练Transformer

共 9735字，需浏览 20分钟

·

2021-04-06 15:36

↑ 点击蓝字关注极市平台

作者丨戴志港

编辑丨极市平台

上周六，由极市平台与中国图象图形学学会联合举办的第三期极市CV开发者沙龙活动圆满结束。

本次线下沙龙的主题为CVPR2021论文研讨会。我们邀请了三位CVPR2021接收论文作者，他们分别是来自香港科技大学的李铎、来自悉尼大学的顾津锦以及来自华南理工大学的戴志港。

三位嘉宾在本次线下沙龙中完成了三场非常优质的分享，不仅为大家分享了他们发布于CVPR2021论文的工作细节与成果，还为大家讲述了CVPR2021论文工作成果和心得。同时，还与现场的同学针对多个延伸问题进行了讨论。沙龙结束后，大家纷纷表示收获颇丰。

为了让更多开发者了解本次三位分享嘉宾的优秀工作，极市对本次分享的三个报告内容进行了整理。

先前回顾：

李铎：通过反转卷积的内在性质进行视觉识别
顾津锦：使用局部归因图理解和可视化超分辨网络

本文是对本次沙龙第三位嘉宾戴志港的报告整理，他为我们分享的是他发布今年CVPR2021的工作：

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers (CVPR2021 Oral)

（UP-DETR：针对目标检测的无监督预训练Transformer）

（PS：文末还有本次沙龙的现场图片~）

作者信息

论文：
https://arxiv.org/pdf/2011.09094

代码：
https://github.com/dddzg/up-detr

PPT和视频可在极市平台公众号后台回复“戴志港”获取。

论文摘要：利用transformer做目标检测，DETR通过直截了当的编解码器架构，取得了引人注目的性能。受自然语言处理中预训练transformer语言模型的影响，我们提出了一个适用于目标检测的无监督预训练任务。具体而言，给定图片，我们随机的从其中裁剪下多个小补丁块输入解码器，将原来输入编码器，预训练任务要求模型从原图中找到随机裁剪的补丁块。在这个过程中，我们发现并解决了两个关键的问题：多任务学习和多个补丁块的定位。

（1）为了权衡预训练过程中，检测器对于分类和定位特征的偏好，我们固定了预训练的CNN特征并添加了一个特征重构的分支。

（2）为了同时支持多补丁定位，我们提出了注意力掩码和洗牌的机制。实验中，无监督预训练可以显著提升DETR在下游VOC和COCO上目标检测的性能。

完整报告

背景介绍

DETR：用于目标检测的Tranformer编码器-解码器架构
无监督预训练CNN与在Tranformer预训练的结合

无监督预训练的关键：设计pretext任务。由于现有的CNN与Transformer方法并不适用于目标检测任务

本文的方法

针对multi-task learning问题：

固定预训练好的CNN权重，新增patch feature reconstruction分支
使经过Transformer的特征能保持和经过CNN后的特征一致的分类判别性

针对multi-query localization问题：

随机设置M个query patch，并分配至100个embedding
提出了一个放在解码器上的attention mask，以确保query之间框的预测独立
提出了object query shuffle，以确保embedding和query patch的随机性

实验

在ImageNet上无监督预训练后，UP-DETR在VOC和COCO上都取得更快的收敛和更高的精度

可视化：无监督定位

可视化：目标检测

可视化：全景分割

现场照片

# 极市线下沙龙

CVPR2021论文研讨会

。

2021 · 3月27日

深圳是今年极市线下沙龙的第一站，但其他城市的小伙伴不要着急，可以在下方评论区留言你期待的极市沙龙举办地点，我们的下一站说不定就会在那儿哦~

推荐阅读

CVPR 2021 | Short-video Face Parsing Challenge 开赛，数据集已开放！

2021-03-31

为了提升在小数据集上的性能，有学者让神经网络像生物一样“进化”了｜CVPR2021 Oral

2021-03-27

最高10万奖励！不限选题！高通AI应用创新大赛应用赛道详解

2021-03-29

# 极市原创作者激励计划 #

极市平台深耕CV开发者领域近5年，拥有一大批优质CV开发者受众，覆盖微信、知乎、B站、微博等多个渠道。通过极市平台，您的文章的观点和看法能分享至更多CV开发者，既能体现文章的价值，又能让文章在视觉圈内得到更大程度上的推广。

对于优质内容开发者，极市可推荐至国内优秀出版社合作出书，同时为开发者引荐行业大牛，组织个人分享交流会，推荐名企就业机会，打造个人品牌 IP。

投稿须知：

1.作者保证投稿作品为自己的原创作品。

2.极市平台尊重原作者署名权，并支付相应稿费。文章发布后，版权仍属于原作者。

3.原作者可以将文章发在其他平台的个人账号，但需要在文章顶部标明首发于极市平台

投稿方式：

添加小编微信Fengcall（微信号：fengcall19），备注：姓名-投稿

△长按添加极市平台小编

△点击卡片关注极市平台，获取最新CV干货

觉得有用麻烦给个在看啦~

浏览 40

点赞

收藏

分享

举报

评论

图片

表情

预训练卷积超越预训练Transformer？

机器学习算法工程师

OpenAI：基于对比学习的无监督预训练

Python中文社区

CVPR 2021 Oral | Transformer再发力！华南理工和微信提出UP-DETR：无监督预训练检测器

CVPR 2021 Oral | Transformer又一新突破！华南理工和微信提出UP-DETR：无监督预训练检测器

AI算法与图像处理

DetCo：用于目标检测的无监督对比学习

AI算法与图像处理

预训练图像处理Transformer

新机器视觉

极市沙龙回顾｜CVPR2021-李铎：通过反转卷积的内在性质进行视觉识别

预训练图像处理Transformer

小白学视觉

最新 Transformer 预训练模型综述！

机器学习实验室

回顾目标检测中的Anchor机制