引言

当前解释深度卷积神经网络越来越引起了AI研究者的关注，因为它有助于理解深度神经网络的内部机制和做出特定决策的原因。在计算机视觉领域，可视化和理解深层网络最流行的方法之一是生成Saliency Map，突出与网络决策相关的显著区域。然而，现有方法生成的Saliency Map要么只反映网络预测的微小变化，要么计算显著图的计算过程的时间复杂度较高。最近南京大学的一篇论文收录于CVPR2021，该论文提出了一种高效的Saliency Map生成方法，称为组分数加权类激活映射(Group-CAM)。该论文作者提供了相应的代码，感兴趣的可以下载下来跑一跑。

论文链接：https://arxiv.org/abs/2103.13859
论文代码：https://github.com/wofmanaf/Group-CAM

Saliency Map介绍

在计算机视觉领域中，Saliency Map最先由Simonyan等人提出，它被用于图像分类模型的可视化。给定一个图像，类别，和类别预测分数函数，类别预测分数输入样本中像素点d的相关程度的计算公式可以表示为

Saliency Map的作用就是显示出样本中哪些特征对预测分数影响程度更大。

论文算法介绍

如下图所示为的模型流程图，首先用特征图和重要性权重的线性组合来提取激活。然后激活被分成组，并在去噪之前沿每个组中的通道维度求和，以生成初始掩模。输入图像按元素与相乘，然后用有意义的扰动进行变换。扰动的图像然后被馈送到网络。输出显著图可以被计算为所有的加权和，其中权重来自对应于各个扰动输入的目标类别的置信度得分。

初始化掩膜Masks

令是一张输入图片，是深度神经网络，其中是输入图片在类中的预测分数。为了获得目标卷积层的类别区分初始组掩码，作者计算相对于第个特征图的梯度，这些梯度是高度和宽度维度上的全局平均值目的是为了获得神经元重要性权重：

其中表示的是特征图的像素点的数目。

假定是目标层特征图的通道个数，把所有的特征图和神经元重要性权重分成组。然后，每组中的初始掩码计算如下

其中，，是每组特征图的个数。是特征图和梯度的组合，这意味着在视觉上可能有噪声，因为DNN的梯度由于ReLU中平坦的零梯度区域而趋于消失。所以不适合直接应用作为初始掩膜。为了解决这个问题，作者使用去噪函数来过滤，其中去噪函数可以表示为

与其将所有像素设置为二进制值，不如为激活图生成更平滑的Mask。作者通过利用最小最大归一化将的原始值缩放到中，

用双线性插值对进行上采样，达到相同的分辨率，以屏蔽输入。

Saliency Map生成

作者使用模糊信息替换未保留的区域(0值的像素)，然后对该图像执行分类以测量初始屏蔽的重要性。模糊图像可以通过以下方式计算

其中，是与形状相同的图像。

保留区域的贡献值的计算公式为：

最终的Saliency Map是具有权重的初始掩模的线性组合，其计算公式为：

根据上述原理所述，Group-CAM的算法流程图重新整理成如下形式：

实验结果

作者定性地比较的方法包括基于梯度的方法如引导反向传播，

，，基于区域的方法如，，和基于激活的方法如，，以验证的有效性。

如下图所示，正确地给出了“类别的解释位置，结果表明，比基于区域的方法和基于激活的方法更有说服力，并且比基于梯度的方法包含更少的噪声。

作者通过进行删除和插入测试，以评估不同的Saliency Map方法。删除度量背后的直觉是，删除与类别最相关的像素/区域将导致分类分数显著下降。另一方面，插入度量从模糊的图像开始，逐渐重新引入内容，这产生了更真实的图像。如下图所示，、和根据删除和插入曲线为代表性图像生成Saliency Map。在插入曲线中，更好的解释是预计预测得分快速增加，而在删除曲线中，预计分类置信度下降更快。可以发现表现的更出色。