CVPR2023 Highlight | Side Adapter Network – 极致轻薄却性能强劲的开放词汇语义分割器-技术圈

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

要点：仅需要8M额外的训练参数，就可以利用冻结的CLIP模型实现15帧每秒的开放词汇语义分割，同时性能相较STOA大幅度提升。

Paper Link: https://arxiv.org/pdf/2302.12242

Project Page: https://mendelxu.github.io/SAN

Hugging Face: Hugging Face – The AI community building the future

Code: https://github.com/MendelXu/SAN

图1 SAN的可视化结果

识别并分割出任意类别的视觉元素是计算机视的最具挑战的问题之一。近期，来自华中科技大学和微软亚洲研究院的研究人员入选CVPR2023 Highlight的论文中提出了一种全新的开放语义词汇语义分割架构：Side Adapter Network，该架构可以赋予已有的VL预训练模型（CLIP）进行开放词汇语义分割的能力，在仅需8M额外的训练参数的条件下，在一系列数据集上相较于之前的SOTA模型取得了大幅的性能提升（表1所示），并实现15帧每秒的处理速度，比SimSeg[1]快19倍，比MaskCLIP[2]快3倍 (表2所示)。

表1与其他方法在多种数据集上的系统级比较。

表 2 推理速度与可训练参数量的比较。

开放词汇语义分割算法通常基于以CLIP为代表的VL预训练模型。然而，这些VL预训练模型通常是在图片级任务上训练的，因此不具备像素级识别能力。为了克服图片级识别与像素级识别的粒度鸿沟（Granularity Gap），此前的开放词汇语义分割算法[1,3]会采用以下策略：

1.对VL预训练模型进行微调，通过改变其网络权重，使其具备像素级识别能力。该策略的缺点在于：微调模型权重会导致VL预训练模型的开放词汇识别能力受到伤害。

2.将开放语义分割问题拆解为两个阶段：第一阶段提取Mask Proposals，第二阶段使用CLIP对每个Mask Proposals进行识别。该策略可以在一定程度上绕开粒度鸿沟的挑战，但其缺点在于CLIP需要对每个Mask Proposal单独提取特征，计算代价十分巨大，并且第一阶段提取的Mask Proposal并不一定适合CLIP的分类。

Side Adapter Network 提出了一种全新的端到端架构，在无需微调VL预训练模型的同时，生成的Mask Proposals也可以更好的适配CLIP模型。该工作的主要想法（图1）是在一个冻结的CLIP模型旁增加一个Side Adapter Network (SAN)，SAN用以预测掩码候选（Mask Proposals），并通过一组可以作用在CLIP的self-attention中的attention bias，引导CLIP仅关注Mask Proposals的相关区域，实现对Mask Proposals类别的准确预测。

图2 SAN的架构示意图

具体来说，Side Adapter Network包含以下几个关键技术：

1）Side Adapter Network是端到端(end-to-end)可训练的，因此网络预测的Mask Proposals可以更好的适应CLIP模型，如表3所示，相较于两阶段训练，Side Adapter Network的端到端训练带来了+4.5mIoU的性能提升。

表 3 端到端训练的有效性

2）SAN中无需微调（fine-tune）CLIP模型，因此可以最大程度的保持CLIP模型的开放词汇能力。如图3所示，当我们使用不同的学习率来微调CLIP模型的参数时，其开放词汇识别能力会随着学习率的提升而下降。

图3 微调（Fine-tune） CLIP模型的参数会伤害其开放词汇识别能力。

3）SAN采用的[SLS] token实现了仅需推理一次完整的CLIP模型就可以对所有Mask Proposals进行识别，从而极大的提高了推理速度，比基线方法快19倍。图4展示了[SLS] token的原理示意图，其通过修改Attention Bias改变原始[CLS] token的关注区域，从而实现对Mask Proposals的高效与精准识别。

图4 [SLS] Token通过修改Attention Bias实现对Mask Proposals的高效识别。

4）掩码（Mask）预测与类别(Category) 预测解耦带来更精准的分类能力。CLIP模型的开放识别能力不仅仅依赖于物体区域本身，也依赖于物体的上下文信息（Context Information）。这促使研究人员提出掩码预测与类别预测解耦的双头设计，表4显示该设计可以进一步提升模型的预测精度。

表 4 掩码预测与类别预测解耦的设计带来更好的性能。

5）充分复用CLIP模型的特征，大幅度降低所需的额外参数量的同时获得最佳性能。表5展示了复用CLIP特征带来的性能增益。

表5 复用CLIP模型的特征可以显著提升性能。

目前SAN的代码均已开源。

[1] A Simple Baseline for Open-Vocabulary Semantic Segmentation with Pre-trained Vision-language Model, ECCV,2022

[2] Open-Vocabulary Panoptic Segmentation with MaskCLIP, Arxiv, 2022

[3] Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP, CVPR2023

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2：Python视觉实战项目52讲

在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

下载3：OpenCV实战项目20讲

在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

CVPR2023 Highlight | Side Adapter Network – 极致轻薄却性能强劲的开放词汇语义分割器

添加附言

相关文章推荐