Softmax与Sigmoid你还不知道存在这些联系？-技术圈

持续更新《百面计算机视觉第三版》面试题！欢迎私我微信！

Softmax与Sigmoid函数有哪些区别与联系？

1. Sigmoid函数

函数也叫函数，将输入值压缩到区间之中，其函数表达式为：

函数图像如图所示：

其求导之后的表达式为：

其梯度的导数图像如：

对于函数，其优点为：

函数的输出在之间，我们通常把它拿来作为一个二分类的方案。其输出范围有限，可以用作输出层,优化稳定。
函数是一个连续函数，方便后续求导。

其缺点为：

从函数的导函数可以得到，其值范围为(0, 0.25)，存在梯度消失的问题。
函数不是一个零均值的函数，导致后一层的神经元将得到上一层非均值的信号作为输入，从而会对梯度产生影响。
函数是一个指数函数的激活函数，我们把每次基本运算当作一次(Floating Point Operations Per Second)，则函数包括求负号，指数运算，加法与除法等4的运算量，预算量较大。而如，为。

对于非互斥的多标签分类任务，且我们需要输出多个类别。如一张图我们需要输出是否是男人，是否戴了眼镜，我们可以采用Sigmoid函数来输出最后的结果。如最后的输出为[0.01, 0.02, 0.41, 0.62, 0.3, 0.18, 0.5, 0.42, 0.06, 0.81]，我们通过设置一个概率阈值，比如，如果概率值大于，则判定类别符合，那么该输入样本则会被判定为类别、类别、类别、类别及类别，即一个样本具有多个标签。

2. Softmax函数

函数又称归一化指数函数，函数表达式为：

其中，。。如网络输出为，则经过层之后，输出为。

对于，往往我们会在面试的时候，需要手写函数，这里给出一个参考版本。

import numpy as np
def softmax(f):
    # 为了防止数值溢出，我们将数值进行下处理
    # f： 输入值
    f -= np.max(f) # f becomes [-666, -333, 0]
    return np.exp(f) / np.sum(np.exp(f))

针对函数的反向传播，这里给出手撕反传的推导过程，主要是分两种情况：

(1)当时

(2)当时

综上所述:

因此，不失一般性，扩展成矩阵形式则为：

当Y的shape为时)。后面在下一题中，我们会将与进行结合，再来推导前向与反向。

因此，当我们的任务是一个互斥的多类别分类任务（如imagenet分类），网络只能输出一个正确答案，我们可以用函数处理各个原始的输出值。从公式中，我们可以看到函数的分母是综合到了所有类别的信息。通常我们也会把函数的输出，这主要是由于函数先拉大了输入向量元素之间的差异（通过指数函数），然后才归一化为一个概率分布，在应用到分类问题时，它使得各个类别的概率差异比较显著，最大值产生的概率更接近，这样输出分布的形式更接近真实分布，从而当作网络的置信度。

对于函数而言，我们可以从不同的角度来理解它：

是一个暴力的找最大值的过程，最后的输出是以一个形式，将最大值的位置设置为，其余为。这样的话，则在网络训练中，是不可导的，我们采用看作是的平滑近似，从而可以使得网络可导。
将输入向量归一化映射到一个类别概率分布，即个类别上的概率分布，因此我们常将放到的最后一层。
从概率图角度，可以理解为一个概率无向图上的联合概率。