6节上海交大暑期学校硬核深度学习理论课（附PPT下载）

共 1991字，需浏览 4分钟

· 2020-08-17

导读：这个在线暑期学校旨在介绍近几年深度学习理论的进展，包括均值场理论、神经切核、函数空间理论、隐式正则化、频率原理等。不同观点之间的相互作用可能会对深度学习理论的发展有所启示。

来源：上海交通大学自然科学研究院、专知（ID：Quan_Zhuanzhi）

在线暑期学校主页：

https://ins.sjtu.edu.cn/schools/2020/07/16/online-summer-school-of-deep-learning-theory/1775

公众号后台对话框回复暑期学校，查看&下载以上PPT完整版。

01 均值场神经网络

神经网络的精确性和可训练性：近似和优化的均值场视角

最近，对于深度神经网络理论研究有了一定突破。其中一支就是平均场理论(mean-field theory)。通过理论角度研究网络的初始化，研究者发现了两个影响网络训练的因素，一个是前向传播时网络对于不同样本的表达性(expressivity)以及反向传播时梯度消失爆炸问题，我们用可训练性(trainability)一词来描述关于梯度是否出现消失爆炸问题。

表达性以及可训练性这两个因素确定了深度网络能够成功训练的超参数范围。关于这一论断，研究者已经在全连接网络(fully connected network)，卷积神经网络(CNN)，递归神经网络(RNN)，以及残差神经网络(Residual network)等等上面得到了实验验证。

在平均场理论基础上，研究者通过研究Input-output Jacobian矩阵的谱分布，发现网络初始化的另一个性质，dynamical isometry，即Jaconbian矩阵的奇异值分布集中在1附近时，网络的训练速度会特别快。利用这个结论，研究者成功训练了在没有batch normalization以及resnet结构帮助下的单纯一万层的卷积神经网络。

02 神经切内核-DNNs的收敛和推广

现代深度学习使得大型神经网络得到普遍使用，但研究这类网络的理论工具仍然缺乏。神经正切核(NTK)描述了输出神经元在训练期间是如何进化的。

在无限宽极限下(当隐藏神经元数增长到无穷大时)，NTK收敛到一个确定的、固定的极限，导致对无限宽DNN的动力学的简单描述。NTK受网络架构的影响，因此有助于理解架构的选择如何影响DNNs的收敛和泛化。

随着网络深度的增长，出现了两种机制。冻结状态下，NTK几乎是恒定的，收敛速度缓慢；混沌状态下，NTK接近 Chaotic regime，这会加快训练速度，但可能会损害泛化。增加初始化偏差的方差将网络推向冻结状态，而层归一化和批归一化等归一化方法将网络推向混沌状态。

在GANs中，冻结状态导致模态崩溃，其中产生器收敛于一个常数，并导致棋盘图案，即图像中的重复图案。当产生器处于混沌状态时，这两个问题都得到了很好的解决，这说明了批量归一化在GANs训练中的重要性。

03 神经网络模型的函数空间理论和泛化误差估计

我们建立了神经网络模型的函数空间理论，定义了两层神经网络的Barron空间和残差网络的流诱导函数空间
直接定理和逆定理表明，函数空间包含所有的函数，可以被表现良好的神经网络(没有维数的诅咒)近似，规范控制常量因素。范数还可以控制估计误差。
通过RKHS、Barron空间和合成空间的比较，可以看出残差网络优于两层网络，两层网络优于核方法。

04 对深度学习中隐式正则化的理解

对于神经网络模型，GD或SGD总能很好地找到可泛化的解决方案。与隐式正则化相比，显式正则化，例如权值衰减、退出等，只能略微提高泛化性能。明确的正则化在某些场景中可能是非常重要的，例如高噪声数据、无监督学习(GAN)等。

05 频率原理：线性模型和一般理论

06 神经正切核

公众号后台对话框回复暑期学校，查看&下载以上PPT完整版。

划重点?

干货直达?

监督学习、非监督学习、强化学习都是什么？终于有人讲明白了
一条SQL引发的“血案”：与SQL优化相关的4个案例
阿里巴巴B2B电商算法首次对外公开
长期豪赌人工智能，Alphabet是怎样一步一步偷偷改变世界的？

更多精彩?

在公众号对话框输入以下关键词

查看更多优质内容！

PPT | 读书 | 书单 | 硬核 | 干货 | 讲明白 | 神操作

大数据 | 云计算 | 数据库 | Python | 可视化

AI | 人工智能 | 机器学习 | 深度学习 | NLP

5G | 中台 | 用户画像 | 1024 | 数学 | 算法 | 数字孪生

据统计，99%的大咖都完成了这个神操作

?

浏览 53

点赞

收藏

分享

举报

评论

图片

表情

百事可乐创意推广方案.ppt

推荐视频分享、在看、点赞3连

面试官：MySQL 上亿大表，如何深度优化？

来源：cnblogs.com/YangJiaXin/p/10828244.html背景分析测试实施索引优化后delete大表优化为小批量删除总结前段时间刚入职一家公司，就遇上这事！背景XX实例（一主一从）xxx告警中每天凌晨在报SLA报警，该报警的意思是存在一定的主从延迟（若在此时发生主从切换，需要

超赞！这个ChatGPT提问教程，PDF免费下载

你好，我是郭震AI来袭，我们该如何学习？今天先分享给大家一份超好的GPT提问指南。教程的详细介绍参考下面视频：这个PDF资料旨在教我们更好的给GPT发送指令，让GPT更准确的回答我们的提问。一共有30页，内容包括7个小章节，按照逻辑展开。分别介绍文本回答，代码辅助，结构化结果输出，非结构化结构输出，

Python与算法社区

原来Matplotlib能画股票K线图！！附代码

之前在一篇文章中提到Matplotlib可视化，甚至可以用来画股票K线图，许多同学也在问代码，这次来发个文回应下。Python用matplotlib绘制K线图，需要配合talib、numpy、mpl_finance等第三方库来使用，效果展示如下：简单讲讲K线图的结构，我不搞股票，所以不太懂，特地查了

Python大数据分析

抖音运营方案.ppt

推荐视频分享、在看、点赞3连

文末送书 | 大模型时代下如何学习云原生

《containerd 原理剖析与实战》新书内购中，点击阅读原文，限时 69.9 元购买。文末免费赠书大模型与云原生近年来，大语言模型的热度可谓是愈发高涨，尤其是今年年初 Sora 的出现，更是让全球再次看到了AIGC 的巨大威力。Sora 生成实例视频---几头巨大的长毛猛犸踏着积雪的草地而来在当

云原生实验室

轻松学习C#：百度行驶证C++离线SDK接入详解

效果先看最终效果SDK 拿到完整包如图，687M解压后看看内容发现有个readme.txt，那就先看看内容1:用vs2015打开sln工程，最好用vs2015 comunity版本，可微软官网下载。2:sdk的doc目录有pdf接口文档。3:工程总入口main.cpp、请参考示例实现您的功能。4:

日语五十音图学习难吗？

学习日语的初学者们都知道，我们学习日语最初就必须要接触日语五十音图，虽然相对其他语言来说，五十音图挺不是很难学，但是很多初学者可能会记不住，别担心，老师为大家带来了学习经验分享，一起来看看吧！五十音图就是日语最基础的基础，也就是地基。由于日语的元音比较单调，只有a/i/u/e/o这五种，再和各种辅音

图解操作系统、网络、计算机组成PDF下载！

我去年去面试的时候发现字节跳动、腾讯这类大厂非常非常重视计算机基础，像计算机网络、操作系统都是它们的重点。我当时因为计算机基础知识准备的还可以才拿到了这些大厂的 Offer!今天就给大家分享一下我之前面试经常看的一些关于计算机基础的 PDF 资料!图解计算机系统《图解系统》主要是操作系统的内容比较多

【深度学习】一文看懂注意力机制

注意力是一种在广泛的神经结构中使用的越来越流行的机制。由于这一领域的快速发展，仍然缺乏对注意力的系统概述。在本文中，讨论了以往工作的不同方面，注意力机制的可能用途，并描述了该领域的主要研究工作和公开挑战。往期精彩回顾适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载机器学习及深

机器学习初学者

点赞

收藏

分享

举报