首页 文章详情

CNN可视化又添新作,南大开源Group-CAM:高效的显著图生成方法|CVPR2021

3D视觉工坊 | 374 2021-05-29 23:14 0 0 0
UniSMS (合一短信)

点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

作者丨孙裕道
审稿丨邓富城
编辑丨极市平台

导读

 

最近南京大学的一篇论文收录于CVPR2021,该论文提出了一种高效的Saliency Map生成方法,称为组分数加权类激活映射(Group-CAM)。

引言

当前解释深度卷积神经网络越来越引起了AI研究者的关注,因为它有助于理解深度神经网络的内部机制和做出特定决策的原因。在计算机视觉领域,可视化和理解深层网络最流行的方法之一是生成Saliency Map,突出与网络决策相关的显著区域。然而,现有方法生成的Saliency Map要么只反映网络预测的微小变化,要么计算显著图的计算过程的时间复杂度较高。最近南京大学的一篇论文收录于CVPR2021,该论文提出了一种高效的Saliency Map生成方法,称为组分数加权类激活映射(Group-CAM)。该论文作者提供了相应的代码,感兴趣的可以下载下来跑一跑。

论文链接:https://arxiv.org/abs/2103.13859
论文代码:https://github.com/wofmanaf/Group-CAM

Saliency Map介绍

在计算机视觉领域中,Saliency Map最先由Simonyan等人提出,它被用于图像分类模型的可视化。给定一个图像,类别,和类别预测分数函数,类别预测分数输入样本中像素点d的相关程度的计算公式可以表示为

Saliency Map的作用就是显示出样本中哪些特征对预测分数影响程度更大。

论文算法介绍

如下图所示为的模型流程图,首先用特征图和重要性权重的线性组合来提取激活。然后激活被分成组,并在去噪之前沿每个组中的通道维度求和,以生成初始掩模。输入图像按元素与相乘,然后用有意义的扰动进行变换。扰动的图像然后被馈送到网络。输出显著图可以被计算为所有的加权和,其中权重来自对应于各个扰动输入的目标类别的置信度得分。

初始化掩膜Masks

是一张输入图片,是深度神经网络,其中是输入图片在类中的预测分数。为了获得目标卷积层的类别区分初始组掩码,作者计算相对于第个特征图的梯度,这些梯度是高度和宽度维度上的全局平均值目的是为了获得神经元重要性权重:

其中表示的是特征图的像素点的数目。

假定是目标层特征图的通道个数,把所有的特征图和神经元重要性权重分成组。然后,每组中的初始掩码计算如下

其中,是每组特征图的个数。是特征图和梯度的组合,这意味着在视觉上可能有噪声,因为DNN的梯度由于ReLU中平坦的零梯度区域而趋于消失。所以不适合直接应用作为初始掩膜。为了解决这个问题,作者使用去噪函数来过滤,其中去噪函数可以表示为

与其将所有像素设置为二进制值,不如为激活图生成更平滑的Mask。作者通过利用最小最大归一化将的原始值缩放到中,

用双线性插值对进行上采样,达到相同的分辨率,以屏蔽输入。

Saliency Map生成

作者使用模糊信息替换未保留的区域(0值的像素),然后对该图像执行分类以测量初始屏蔽的重要性。模糊图像可以通过以下方式计算

其中,是与形状相同的图像。

保留区域的贡献值的计算公式为:

最终的Saliency Map是具有权重的初始掩模的线性组合,其计算公式为:

根据上述原理所述,Group-CAM的算法流程图重新整理成如下形式:

实验结果

作者定性地比较的方法包括基于梯度的方法如引导反向传播,

基于区域的方法如,和基于激活的方法如,以验证的有效性。


如下图所示,正确地给出了“类别的解释位置,结果表明,比基于区域的方法和基于激活的方法更有说服力,并且比基于梯度的方法包含更少的噪声。

作者通过进行删除和插入测试,以评估不同的Saliency Map方法。删除度量背后的直觉是,删除与类别最相关的像素/区域将导致分类分数显著下降。另一方面,插入度量从模糊的图像开始,逐渐重新引入内容,这产生了更真实的图像。如下图所示,根据删除和插入曲线为代表性图像生成Saliency Map。在插入曲线中,更好的解释是预计预测得分快速增加,而在删除曲线中,预计分类置信度下降更快。可以发现表现的更出色。

在ImageNet-1k上运行时间方面的比较评估中可以发现的平均运行时间都很少。

定位精度的计算公式可以表示为:

如果最显著的像素位于对象的带注释的边界框内,则被视为命中。从下表可知,的平均精度要高于其它的方法。

下图是微调后的ResNet-50生成的Saliency Map可视化。随着ResNet-50性能的提高,由生成的Saliency Map的噪声降低,并更多地关注重要区域。



本文亮点总结


1.在计算机视觉领域中,Saliency Map最先由Simonyan等人提出,它被用于图像分类模型的可视化。Saliency Map的作用就是显示出样本中哪些特征对预测分数影响程度更大。

本文仅做学术分享,如有侵权,请联系删文。
下载1
在「3D视觉工坊」公众号后台回复:3D视觉即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2
「3D视觉工坊」公众号后台回复:3D视觉github资源汇总即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3
「3D视觉工坊」公众号后台回复:相机标定即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配即可下载独家立体匹配学习课件与视频网址。

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。


一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列三维点云系列结构光系列手眼标定相机标定orb-slam3等视频课程)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
 圈里有高质量教程资料、可答疑解惑、助你高效解决问题
觉得有用,麻烦给个赞和在看~  

good-icon 0
favorite-icon 0
收藏
回复数量: 0
    暂无评论~~
    Ctrl+Enter