2022年4月中旬字节跳动机器学习AILab一面面试题分享

七月在线实验室

共 2243字,需浏览 5分钟

 · 2022-04-26

🔈限时福利,价值千元【机器学习实战特训】限时1元拼团秒,仅剩37个名额,先到先得!


本期课程涵盖机器学习概念、项目流程、特征工程、特征选择、模型评估与参数调优等内容,从头开始介绍scikit-learn等机器学习工具库。逐步掌握用sklean进行建模与训练,通过实战项目加强己学习理论理解与动手能力,助力快速跨入人工智能门槛。


e4375b52a8650ca26b45d1c0cc29a053.webp


👇扫码查看课程详情👇



2c182a78b87ca8f5aaf95e9232191494.webp4725932365f89f2cdaf1f1da9b69d25c.webp2c182a78b87ca8f5aaf95e9232191494.webp


问题1、BN和LN区别。


Batch Normalization 是对这批样本的同一维度特征做归一化, Layer Normalization 是对这单个样本的所有维度特征做归一化。


区别:LN中同层神经元输入拥有相同的均值和方差,不同的输入样本有不同的均值和方差;


BN中则针对不同神经元输入计算均值和方差,同一个batch中的输入拥有相同的均值和方差。


所以,LN不依赖于batch的大小和输入sequence的长度,因此可以用于batchsize为1和RNN中sequence的normalize操作。


6c859e0f026a512abc1264d7119168e9.webp

 

问题2:讲讲self attention。


Self Attention与传统的Attention机制非常的不同:传统的Attention是基于source端和target端的隐变量(hidden state)计算Attention的,得到的结果是源端的每个词与目标端每个词之间的依赖关系。


但Self Attention不同,它分别在source端和target端进行,仅与source input或者target input自身相关的Self Attention,捕捉source端或target端自身的词与词之间的依赖关系;


然后再把source端的得到的self Attention加入到target端得到的Attention中,捕捉source端和target端词与词之间的依赖关系。


因此,self Attention Attention比传统的Attention mechanism效果要好,主要原因之一是,传统的Attention机制忽略了源端或目标端句子中词与词之间的依赖关系,相对比,self Attention可以不仅可以得到源端与目标端词与词之间的依赖关系,同时还可以有效获取源端或目标端自身词与词之间的依赖关系。


6c859e0f026a512abc1264d7119168e9.webp

 


问题3:Bert的预训练过程。


Bert的预训练主要包含两个任务,MLM和NSP,Masked Language Model任务可以理解为完形填空,随机mask每一个句子中15%的词,用其上下文来做预测;


Next Sentence Prediction任务选择一些句子对A与B,其中50%的数据B是A的下一条句子,剩余50%的数据B是语料库中随机选择的,学习其中的相关性。


BERT 预训练阶段实际上是将上述两个任务结合起来,同时进行,然后将所有的 Loss 相加。


6c859e0f026a512abc1264d7119168e9.webp

 

问题4:Pre Norm与Post Norm的区别?


参考:https://kexue.fm/archives/9009


在同一设置下,Pre Norm(也就是Norm and add)的效果是要优于Post Norm(Add and Norm)的,但是单独调整的话,Post Norm的效果是更好的,Pre Norm结构无形地增加了模型的宽度而降低了模型的深度,Post Norm每Norm一次就削弱一次恒等分支的权重,所以Post Norm反而是更突出残差分支的。


参考:https://zhuanlan.zhihu.com/p/474988236


post-norm在残差之后做归一化,对参数正则化的效果更强,进而模型的鲁棒性也会更好;pre-norm相对于post-norm,因为有一部分参数直接加在了后面,不需要对这部分参数进行正则化,正好可以防止模型的梯度爆炸或者梯度消失,因此,如果层数少post-norm的效果其实要好一些,如果要把层数加大,为了保证模型的训练,pre-norm显然更好一些。


6c859e0f026a512abc1264d7119168e9.webp

 

问题5:GPT与Bert的区别。


1) GPT是单向模型,无法利用上下文信息,只能利用上文;而BERT是双向模型。

2) GPT是基于自回归模型,可以应用在NLU和NLG两大任务,而原生的BERT采用的基于自编码模型,只能完成NLU任务,无法直接应用在文本生成上面。


6c859e0f026a512abc1264d7119168e9.webp

 

问题6:如何加速Bert模型的训练。


BERT 基线模型的训练使用 Adam with weight decay(Adam优化器的变体)作为优化器,LAMB 是一款通用优化器,它适用于小批量和大批量,且除了学习率以外其他超参数均无需调整。


LAMB 优化器支持自适应元素级更新(adaptive element-wise updating)和准确的逐层修正(layer-wise correction)。LAMB 可将 BERT 预训练的批量大小扩展到 64K,且不会造成准确率损失,76分钟就可以完成BERT的训练。



16623d5f557669e7c19cafd0692b3c36.webp


— 推荐课程 —


【机器学习实战特训】本期课程涵盖机器学习概念、项目流程、特征工程、特征选择、模型评估与参数调优等内容,从头开始介绍scikit-learn等机器学习工具库。


e4375b52a8650ca26b45d1c0cc29a053.webp


价值千元【机器学习实战特训】限时1元拼团秒,仅剩37个名额,先到先得!


👇扫码立即秒杀👇



课程逐步掌握用sklean进行建模与训练,通过实战项目加强己学习理论理解与动手能力,助力快速跨入人工智能门槛。


d4165889905ac2844870c9c92e272514.webp


学完本课你将收获


39dacabf169b54e362c0359260903c64.webp

7443653ee785d0a6af41d93b1d4b8645.webp

阅读原文”了解课程详情!

浏览 37
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报