理解Jacobian矩阵与行列式-技术圈

来源：知乎—gwave

地址：https://zhuanlan.zhihu.com/p/352438848

在数学、物理和工程领域，将问题通过坐标变换到一个更容易表达、分解和计算的坐标系统是个非常核心方法：SVD、谱分解、傅立叶变换和拉格朗日力学皆是如此，其重要程度远超一般的认知。深度学习这么火的重要原因也是通过表示学习把高维数据映射到了适当的低维特征空间中。

在映射过程中，描述不同函数变量间变化速度的导数非常重要，Jacobian矩阵提供了一种表达局部输出对于输入的敏感度的方法。神经网络BP反向传播依赖误差与权重的偏导数关系来训练权重的，神经网络的权重千千万，cost function对哪些权重的变化敏感，无疑那些权重是更重要的，Jacobian矩阵就提供了一个分析神经网络输入-输出行为的数学框架。当然，Jocobian的应用是极其广泛的，机器学习只不过是冰山一角。

坐标变换的原因之一是为了方便积分，当被积区域比较复杂时，变量替换往往能简化问题，如对圆形区域积分时，极坐标比笛卡尔坐标方便；有时被积对象较复杂，变量替换能降低复杂度。坐标变换的思想可以被进一步推广到任意自定义的变量替换的坐标系统中：

比如，对下面由四条直线围成的平行四边形区域进行积分，四条直线方程分别为：

y=1;y=2;y=x;y=x-1

。

引入新的变量：

u=x-y;v=y

，两条斜线分别变为了

u=0,u=1

，两条水平线变为

v=1,v=2

。显然，在矩形区域上积分比平行四边形上积分要方便。

1D 变量替换

先以一个trivial的1D U-Substitution toy case为例，温习下变量替换的过程。

推导：

\int_{1}^{2}\frac{1}{x}dx = \ln2

令：

u=\frac{1}{x}

，则

x=\frac{1}{u}=u^{-1}

，

\frac{dx}{du}=-u^{-2}

\int_{1}^{2}\frac{1}{x}dx = \int_{1}^{\frac{1}{2}}-\frac{u}{u^{2}}du=-\int_{1}^{\frac{1}{2}}\frac{1}{u^{}}du=\ln u\left.\right|_{\frac{1}{2}}^{1}=\ln2

然后，扩展到以

u

替代

x

的更一般情况：对于

x=x(u)

，

dx=\frac{dx}{du}du

表示当对

u

进行了一个很小的扰动

du

后，

x

的对应变化

dx

与

du

之间的线性关系。同时，定积分上下限也要进行相应调整：

\int_{a}^{b}f(x)dx=\int_{x^{-1}(a)}^{x^{-1}(b)}f(x(u)){\color{red} {\frac{dx}{du}}}du

，此处出现了一个比例因子

{\color{red} {\frac{dx}{du}}}

，即导数，这就是单变量下的Jacobian，可理解为

\frac{\Delta x}{\Delta u}

。

注意：这里

x=x(u)

与我们经常看到的

u=u(x)

的方向相反，是为了保持与多变量下形式的一致性，如上例中的

x=\frac{1}{u}

和

u=\frac{1}{x}

。

Jacobian矩阵

Jacobian矩阵可被视为是一种组织梯度向量的方法。
梯度向量可以被视为是一种组织偏导数的方法。
故，Jacobian矩阵可以被视为一个组织偏导数的矩阵。

多变量的情况下，坐标变换描述的是从

(x,y)

到

(u,v)

连续的1对1变换，注意此处

x,y

是自变量，与上面的

u,v

为自变量的函数互为反函数，可见Jacobian可以是双向的，一般从积分难度较大指向积分较容易的方向。

u=u(x,y);v=v(x,y)

\Delta u \approx \frac{\partial u}{\partial x}\Delta x+\frac{\partial u}{\partial y}\Delta y

\Delta v \approx \frac{\partial v}{\partial x}\Delta x+\frac{\partial v}{\partial y}\Delta y

以矩阵形式来表示：

，其中即为Jacobian矩阵。

假设在

f:\mathbb R^{n}\rightarrow\mathbb R^{m}

映射中，输入为

x\in\mathbb R^{n}

，输出

f(x)\in\mathbb R^{m}

。Jacobian矩阵告诉我们：如果是一个位移向量，那么则是其在对应的坐标变换后的空间中的位移向量的最佳一阶近似，这是一阶泰勒公式近似的思想在坐标变换中的体现。

下面从

uv\rightarrow xy

方向来看：

假设我们对

uv

坐标下位于

u_{0},v_{0}

的点进行扰动，分别增加

\Delta u,\Delta v

，得到一个小区域

S

，现在考察在

xy

坐标系统下，微扰对应的变化量分别是：

(\frac{\partial x}{\partial u}\Delta u,\frac{\partial y}{\partial u}\Delta u)

(\frac{\partial x}{\partial v}\Delta v,\frac{\partial y}{\partial v}\Delta v)

。

在

xy

坐标下，平行四边形

R

的面积为两个边向量的叉积的模长：

Jacobian行列式

当

m=n

时，Jacobine矩阵为方阵，对应的Jacobian行列式计算给定矩阵线性变换的比例因子，告诉我们变换是空间放大还是缩小，而且，对空间的任何区域，该因子都保持不变(行列式)。

\underset{R}\iint f(x,y)dydx=\underset{R^{"}} \iint f(x(u,v),y(u,v)){\color{red}{J(u,v)}}dudv

即雅可比行列式，简称"the Jacobian"。

上面平行四边形变矩形的例子中：

u=x-y;v=y

，即

y=v;x=u+v

这意味这在平行四边形和矩形上积分的比例缩放因子为1。

神经网络BP误差反向传播

在神经网络反向传播误差信号时，使用Jacobian矩阵来源：PRML

BP反向传播是最经典的神经网络权重训练方法，今天仍是最重要的方法。BP算法有个别名———“永远求偏导”，在将误差信号

E

一直向前传导直至输入层的过程中，对权重

w

进行调整/学习。上图中，红色模块对应要计算的Jacobian矩阵和下面公式中的

\frac{\partial y_k}{\partial z_j}

：

\frac{\partial E}{\partial w}=\sum_{k,j}\frac{\partial E}{\partial y_k}\frac{\partial y_k}{\partial z_j}\frac{\partial z_j}{\partial w}

，其中

E=\frac{1}{2}\Sigma(\hat y -y)^{2}

，

\hat y

为估计值。

前面我们提到行列式的值告诉我们空间是膨胀还是收缩，如果在输入空间的某个输入点，输出空间膨胀的很厉害，说明神经网络在该区域可能有些不稳定，任何输入的扰动，可能导致输出的巨大波动；相反，如何行列式比较小，则输入的变化对输出影响不大。

神经网络Jacobian矩阵的计算流程：将输入向量通过前向传递(Forward Propagate)在神经网络正向传播，获得所有输出层和隐藏层的激活值 (Activation)，对第

k

个输出单元进行反向传播，对应Jacobian 矩阵中的第

k

行，反向传播直至输入层。计算结果可通过数值方法进行验证：

\frac{\partial y_k}{\partial x_i}\approx\frac{y_k(x_i+\epsilon)-y_k(x_i-\epsilon)}{2\epsilon}

。

Jacobian Regularization

参考文献：Robust Learning with Jacobian Regularization

https://arxiv.org/pdf/1908.02729.pdf

近年来，Jacobian被应用与正则化(Regularization)，不同于

L_2

正则，Jacobian Regularization的重点是神经网络对输入波动的鲁棒性。大家对对抗样本(adversarial examples)可能并不陌生，对熊猫的图片(左)中混入极少量的长臂猿的梯度(中)，导致分类算法以99.3%的置信度将将图片错误的识别为长臂猿(右)。

Jacobian Regularization的想法很简单，Jacobian矩阵中的值越小，输入空间中小波动对输出空间的影响越小。具体来说就是取Jacobian矩阵的Frobenius norm，

||J(x)||_{F}^{2}

，即矩阵所有元素的平方和开根号。

Carl Jacob Jacobi简介

Jacobian矩阵与行列式由德国数学家Carl Gustav Jacob Jacobi(1804 – 1851)提出，他在椭圆函数、动力学、微分方程、行列式和数论等方面做出了重要贡献。他推动了偏微分符号

\partial

的广泛使用，只要看一眼Jacobian公式就知道原因了。不要和学术豪门的雅各布·伯努利(Jacob Bernoulli‎，1654－1705)搞混了。

理解Jacobian矩阵与行列式

目录

相关文章推荐

理解Jacobian矩阵与行列式

目录

添加附言

相关文章推荐