2022年4月中旬字节跳动机器学习AILab一面面试题分享-技术圈

🔈限时福利，价值千元【机器学习实战特训】限时1元拼团秒，仅剩37个名额，先到先得！

本期课程涵盖机器学习概念、项目流程、特征工程、特征选择、模型评估与参数调优等内容，从头开始介绍scikit-learn等机器学习工具库。逐步掌握用sklean进行建模与训练，通过实战项目加强己学习理论理解与动手能力，助力快速跨入人工智能门槛。

👇扫码查看课程详情👇

问题1、BN和LN区别。

Batch Normalization 是对这批样本的同一维度特征做归一化， Layer Normalization 是对这单个样本的所有维度特征做归一化。

区别：LN中同层神经元输入拥有相同的均值和方差，不同的输入样本有不同的均值和方差；

BN中则针对不同神经元输入计算均值和方差，同一个batch中的输入拥有相同的均值和方差。

所以，LN不依赖于batch的大小和输入sequence的长度，因此可以用于batchsize为1和RNN中sequence的normalize操作。

问题2：讲讲self attention。

Self Attention与传统的Attention机制非常的不同：传统的Attention是基于source端和target端的隐变量（hidden state）计算Attention的，得到的结果是源端的每个词与目标端每个词之间的依赖关系。

但Self Attention不同，它分别在source端和target端进行，仅与source input或者target input自身相关的Self Attention，捕捉source端或target端自身的词与词之间的依赖关系；

然后再把source端的得到的self Attention加入到target端得到的Attention中，捕捉source端和target端词与词之间的依赖关系。

因此，self Attention Attention比传统的Attention mechanism效果要好，主要原因之一是，传统的Attention机制忽略了源端或目标端句子中词与词之间的依赖关系，相对比，self Attention可以不仅可以得到源端与目标端词与词之间的依赖关系，同时还可以有效获取源端或目标端自身词与词之间的依赖关系。

问题3：Bert的预训练过程。

Bert的预训练主要包含两个任务，MLM和NSP，Masked Language Model任务可以理解为完形填空，随机mask每一个句子中15%的词，用其上下文来做预测；

Next Sentence Prediction任务选择一些句子对A与B，其中50%的数据B是A的下一条句子，剩余50%的数据B是语料库中随机选择的，学习其中的相关性。

BERT 预训练阶段实际上是将上述两个任务结合起来，同时进行，然后将所有的 Loss 相加。

问题4：Pre Norm与Post Norm的区别？

参考：https://kexue.fm/archives/9009

在同一设置下，Pre Norm（也就是Norm and add）的效果是要优于Post Norm（Add and Norm）的，但是单独调整的话，Post Norm的效果是更好的，Pre Norm结构无形地增加了模型的宽度而降低了模型的深度，Post Norm每Norm一次就削弱一次恒等分支的权重，所以Post Norm反而是更突出残差分支的。

参考：https://zhuanlan.zhihu.com/p/474988236

post-norm在残差之后做归一化，对参数正则化的效果更强，进而模型的鲁棒性也会更好；pre-norm相对于post-norm，因为有一部分参数直接加在了后面，不需要对这部分参数进行正则化，正好可以防止模型的梯度爆炸或者梯度消失，因此，如果层数少post-norm的效果其实要好一些，如果要把层数加大，为了保证模型的训练，pre-norm显然更好一些。

问题5：GPT与Bert的区别。

1） GPT是单向模型，无法利用上下文信息，只能利用上文；而BERT是双向模型。

2） GPT是基于自回归模型，可以应用在NLU和NLG两大任务，而原生的BERT采用的基于自编码模型，只能完成NLU任务，无法直接应用在文本生成上面。

问题6：如何加速Bert模型的训练。

BERT 基线模型的训练使用 Adam with weight decay（Adam优化器的变体）作为优化器，LAMB 是一款通用优化器，它适用于小批量和大批量，且除了学习率以外其他超参数均无需调整。

LAMB 优化器支持自适应元素级更新（adaptive element-wise updating）和准确的逐层修正（layer-wise correction）。LAMB 可将 BERT 预训练的批量大小扩展到 64K，且不会造成准确率损失，76分钟就可以完成BERT的训练。