手推公式之“层归一化(LayerNorm)”梯度
极市平台
共 714字,需浏览 2分钟
· 2022-05-28
极市导读
本文介绍了层归一化的推导过程。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
昨天推导了一下交叉熵的反向传播梯度,今天再来推导一下层归一化(LayerNorm),这是一种常见的归一化方法。
前向传播
假设待归一化的维向量为,均值和标准差分别是和,LayerNorm的参数是和,那么层归一化后的输出为:
这里的极小量是为了防止标准差为0导致溢出。为了简单起见,我们不加上这一项,原公式也就变成了:
反向传播
假设损失函数对输出的梯度是,那么这里需要求三个梯度:、和。
令,那么原公式就变成了:
两个参数的梯度非常简单:
对输入的梯度等于:
推导过程
对输入的梯度可以写成:
这里只需要计算最后一项就行了:
其中只有当的时候才会等于1,否则都等于0。这里只需要求出均值和标准差对的梯度就行了。直接给出结论,证明比较简单,放在了文末:
代入可以得到:
最后带入梯度中可以得到:
均值和标准差的梯度
均值的梯度为:
标准差的计算公式可以写成,所以梯度为:
公众号后台回复“CVPR 2022”获取论文合集打包下载~
“
点击阅读原文进入CV社区
收获更多技术干货资源!
评论
日常搬砖,Service层接口,就是多此一举!
今天我们要探讨的问题是:Service层需要接口?现在结合我参与的项目以及阅读的一些项目源码来看。如果「项目中使用了像Spring这样的依赖注入框架,那可以不用接口」!先来说说为什么使用了依赖注入框架以后,可以不使用接口!不需要接口的理由我整理了支持Service层和Dao层需要加上接口的理由,总结
java金融
0
人脑是怎么防止梯度消失和梯度爆炸的?
点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达编者荐语 神经网络,也称为人工神经网络 (ANN) 或模拟神经网络 (SNN),是机器学习的子集,并且是深度学习算法的核心。其名称和结构是受人类大脑的启发,模仿了生物神经元信号相互传递的方式。文 | 冒蓝火的加特林源 |
小白学视觉
194
带你玩转Linux系统之lscpu命令
链接:https://bbs.huaweicloud.com/blogs/422603一、lscpu命令介绍lscpu 是一个 Linux 命令,用于显示CPU架构的详细信息。它可以用来查看 CPU 的型号、主频、架构、虚拟化支持等。二、lscpu命令的使用帮助2.1 命令格式lscpu [选项]2
良许Linux
0
C语言基础之动态内存操作汇总
来源:机器之心1、堆区空间申请#include <stdlib.h> //头文件void *malloc(size_t size);//函数size表示申请的空间字节数函数的返回值:成功:返回值空间起始地址失败:NULL特点:分配指定大小的内存空间;分配的内存空间是连续的;需要手动释放
良许Linux
0
大模型并行训练指南:通俗理解Megatron-DeepSpeed之模型并行与数据并行(下)
文末《大模型项目开发线上营》秒杀倒计时↓↓↓接前文:(上)篇>>>大模型并行训练指南:通俗理解Megatron-DeepSpeed之模型并行与数据并行(上)(中)篇>>>大模型并行训练指南:通俗理解Megatron-DeepSpeed之模型并行与数据并行(中)06
七月在线实验室
10
以环境之“优”谋发展之“势”
好的营商环境是生产力、竞争力,更是吸引力。近年来,我县始终坚持“项目为王、环境是金”工作导向,践行101%服务理念,大力优化营商环境,厚植高质量发展沃土,为县域经济发展提供强大支撑。 紧盯重大项目,推动企业投产增效 江苏伟复能源有限公司主要生产铅酸动力蓄电池,产品直供
盱眙老妹
0
100种分析思维模型之:本质思维
你好,我是林骥。北京有个出租车司机,原来住在四合院,房改之后,他就把四合院卖了,买了一辆桑塔纳,当时感觉风光无限,现如今则是后悔不已。假如这个出租车司机当时具有本质思维,也许就不会做出卖房买车的决定。下面介绍 100 种分析思维模型的第 97 种:本质思维,它能帮助我们更好地看清事物的本质,进而做出
林骥
18
职业之思|设计师产品交付的 4 个阶段
点击"设计微日记"关注,和我一起成长 本文故事皆为个人职业发展经验之谈 如有雷同纯属巧合 大家好,我是益达,很高兴能够再次见到你,今天和大家聊一聊关于产品设计师的交付,通俗的说,就是设计师如何通过专业能力...
设计微日记
0