AI 面试高频问题: 为什么二分类不用 MSE 损失函数？-技术圈

由于微信改了推送规则，请加星标，多点赞和在看，以便第一时间收到推送。

〄机器学习与数学

对于二分类问题，损失函数不采用均方误差（Mean Squared Error，MSE）至少可以从两个角度来分析。

1从数据分布角度

首先，使用 MSE 意味着假设数据采样误差是遵循正态分布的。用贝叶斯门派的观点来看，意味着作了高斯先验的假设。实际上，可以分为两类（即二分类）的数据集是遵循伯努利分布。

如果假设误差遵循正态分布，并使用最大似然估计（Maximum Likelihood Estimation，MLE），我们将得出 MSE 正是用于优化模型的损失函数。

首先，正态/高斯分布由两个参数定义，

\mathcal{N}\left(x ; \mu, \sigma^{2}\right)=\sqrt{\frac{1}{2 \pi \sigma^{2}}} \times e^{-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}}

训练数据包括特征和实际观测值。简单来说，每当我们采样数据时，观测值有时会与真实值相匹配，有时观测值会因某些误差而失真。我们假设所有观测到的数据都带有一定的误差（即），并且误差遵循均值为，方差未知的正态分布。

我们可以这样来看，实际观测值通常围绕待预测的目标值呈正态分布。

因此，每个观测值可以由如下正态分布定义，

P(y \mid x)=\mathcal{N}\left(y; \hat{y}, \sigma^{2}\right)

假设数据是独立同分布的，因此使用最大似然估计时，只要最大化所有观测值误差正态分布的乘积。即似然函数为，

\begin{aligned} &\mathcal{L}\left(y^{(1)}, y^{(2)} \cdots y^{(m)} \mid x^{(1)}, x^{(2)} \cdots x^{(m)}\right) \\ &=\prod_{i=1}^{m} p\left(y^{(i)} \mid x^{(i)}\right) \\ &=\prod_{i=1}^{m} \mathcal{N}\left(y^{(i)} ; \mu=\hat{y}^{(i)}, \sigma^{2}\right) \\ &=\prod_{i=1}^{m} \sqrt{\frac{1}{2 \pi \sigma^{2}}} \times e^{-\frac{1}{2 \sigma^{2}}\left(y^{(i)}-\hat{y}^{(i)}\right)^{2}} \end{aligned}

为了简化公式，可以采用似然函数的自然对数，

\begin{aligned} & \log \left(\mathcal{L}\left(y^{(1)}, y^{(2)} \cdots y^{(m)} \mid x^{(1)}, x^{(2)} \cdots x^{(m)}\right)\right) \\ &=\log \left(\prod_{i=1}^{m} \sqrt{\frac{1}{2 \pi \sigma^{2}}} \times e^{-\frac{1}{2 \sigma^{2}}\left(y^{(i)}-{\hat{y}}^{(i)}\right)^{2}}\right) \\ &=\sum_{i=1}^{m} \log \left(\sqrt{\frac{1}{2 \pi \sigma^{2}}}\right)+\log \left(e^{-\frac{1}{2 \sigma^{2}}\left(y^{(i)}-\hat{y}^{(i)}\right)^{2}}\right) \\ &=\sum_{i=1}^{m} \log \left(\sqrt{\frac{1}{2 \pi \sigma^{2}}}\right)-\frac{1}{2 \sigma^{2}}\left(y^{(i)}-\hat{y}^{(i)}\right)^{2} \\ &=\sum_{i=1}^{m}-\frac{1}{2 \sigma^{2}}\left(y^{(i)}-{\hat{y}}^{(i)}\right)^{2} \end{aligned}

上式倒数第二行的第一项是独立于，因此可以直接省略掉。而最大化一个函数等价于最小化该函数的负值，可得，

\begin{aligned} &-\log \left(\mathcal{L}\left(y^{(1)}, y^{(2)} \ldots y^{(m)} \mid x^{(1)}, x^{(2)} \cdots x^{(m)}\right)\right) \\ &=-\sum_{i=1}^{m}-\frac{1}{2 \sigma^{2}}\left(y^{(i)}-\hat{y}^{(i)}\right)^{2} \\ &=\sum_{i=1}^{m} \frac{1}{2 \sigma^{2}}\left(y^{(i)}-\hat{y}^{(i)}\right)^{2} \end{aligned}

由于方差也不依赖于，因此可以忽略它，甚至也可以忽略，但是也可以保留它，因为它可以消除掉求导后多出来的 2。

\begin{aligned} &-\log \left(\mathcal{L}\left(y^{(1)}, y^{(2)} \cdots y^{(m)} \mid x^{(1)}, x^{(2)} \cdots x^{(m)}\right)\right) \\ &=\sum_{i=1}^{m} \frac{1}{2}\left(y^{(i)}-\hat{y}^{(i)}\right)^{2} \\ &=\frac{1}{2} \sum_{i=1}^{m}\left(y^{(i)}-\hat{y}^{(i)}\right)^{2} \end{aligned}

最后，我们可以通过（是样本数量）缩放负对数似然函数，以获得所谓的均方误差损失函数，

\begin{aligned} \text { MSE } &=-\frac{1}{m} \log \left(\mathcal{L}\left(y^{(1)}, y^{(2)} \cdots y^{(m)} \mid x^{(1)}, x^{(2)} \cdots x^{(m)}\right)\right) \\ &=\frac{1}{2 m} \sum_{i=1}^{m}\left(y^{(i)}-\hat{y}^{(i)}\right)^{2} \end{aligned}

以上是通过 MLE 得到 MSE 的推导过程。这是想说明，使用 MSE 损失函数的背景假设是数据误差遵循高斯分布。实际上，二分类问题并不符合这个假设。

2从优化角度

其次，MSE 函数对于二分类问题来说是非凸的。简而言之，如果使用 MSE 损失函数训练二分类模型，则不能保证将损失函数最小化。这是因为 MSE 函数期望实数输入在范围中，而二分类模型通过 Sigmoid 函数输出范围为的概率。

当将一个无界的值传递给 MSE 函数时，在目标值处有一个明确最小值的情况下，会形成一条漂亮的 U 形（凸）曲线。另一方面，当将来自 Sigmoid 等函数的有界值传递给 MSE 函数时，可能会导致结果并不是凸的。

看上面右边的图，函数的一侧是凹的，而另一侧是凸的，没有明确的最小值点。因此，如果在初始化二分类神经网络权重时，权值万一设置得很大，使其落在 MSE 凹的那一侧（如下图红色标记的点），由于梯度几乎为，损失函数梯度下降法将不起作用，因此网络权重可能得不到更新或改善得非常缓慢。这也是训练时应采用小值来初始化神经网络的原因之一。