手推公式之“层归一化(LayerNorm)”梯度

极市平台

共 714字,需浏览 2分钟

 · 2022-05-28

↑ 点击蓝字 关注极市平台

作者丨godweiyang
来源丨算法码上来
编辑丨极市平台

极市导读

 

本文介绍了层归一化的推导过程。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

昨天推导了一下交叉熵的反向传播梯度,今天再来推导一下层归一化(LayerNorm),这是一种常见的归一化方法。

前向传播

假设待归一化的维向量为,均值和标准差分别是,LayerNorm的参数是,那么层归一化后的输出为:

这里的极小量是为了防止标准差为0导致溢出。为了简单起见,我们不加上这一项,原公式也就变成了:

反向传播

假设损失函数对输出的梯度是,那么这里需要求三个梯度:

,那么原公式就变成了:

两个参数的梯度非常简单:

对输入的梯度等于:

推导过程

对输入的梯度可以写成:

这里只需要计算最后一项就行了:

其中只有当的时候才会等于1,否则都等于0。这里只需要求出均值和标准差对的梯度就行了。直接给出结论,证明比较简单,放在了文末:

代入可以得到:

最后带入梯度中可以得到:

均值和标准差的梯度

均值的梯度为:

标准差的计算公式可以写成,所以梯度为:


公众号后台回复“CVPR 2022”获取论文合集打包下载~

△点击卡片关注极市平台,获取最新CV干货
极市干货
CVPR 2022:CVPR'22 最新132篇论文分方向整理CVPR'22 最新106篇论文分方向整理一文看尽 CVPR 2022 最新 20 篇 Oral 论文
极市动态:阿启视x卓见云x极视角签署战略合作协议,加快人工智能应用落地
最新竞赛:六大真实场景赛题!ECV2022极市计算机视觉开发者榜单大赛预报名开启

点击阅读原文进入CV社区

收获更多技术干货资源!


浏览 131
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报