NLP面试干货分享:从自考本科 在职硕士到BAT年薪80万

七月在线实验室

共 3084字,需浏览 7分钟

 · 2020-12-23

问题 

你的2021年秋招进展怎么样了


作为最典型的 AI 领域之一,NLP  (自然语言处理,Natural Language Processing) 被誉为“人工智能皇冠上的明珠”,近两年取得了显著突破。
随着 OpenAI 等技术的诞生、迁移学习等技术的成功应用,使得 NLP 技术在搜索、推荐、信息流、互联网金融、社交网络等领域不断发展壮大。与此同时,NLP 工程师也受到了广泛关注和追捧, 从各大招聘平台上,可以看到相关岗位的薪资随之水涨船高。那如何能斩获大厂NLP岗位offer呢?

下面是目前在BAT大厂,年薪80W的在职硕士的NLP面试干货分享

01


     自我介绍


软件工程硕士,10年工作经验,具备技术管理、产品带队经验。主要做过的系统包括:电商业务系统开发、新闻信息流推荐、图像等相关工作。6年Java开发和管理经验,4年大数据、新闻信息流等开发经验。针对学历问题呢?自考本科,在职硕士,总之学历上相比于全日制的话比较弱势,但自己更多的是工作经验吧。


接下来呢,针对面试过程中的知识进行整理,希望能对大家找相关的工作有帮助。


02


       过程


1.学习经历

由于自己是自考本科,基础较差相对比较弱势。从2017年左右就一直学习咱们七月在线的课程,学习过很多内容,包括:初级的机器学习、深度学习、中级的集训营、高级的NLP就业班。总之,无论理论还是实践对已经工作多年的我来说非常有用。让我收获的不仅是知识,更多的是人脉和系统化的学习思维。也是在这里提升了自己的能力,从而提升了信心。跨入了大厂的门槛。

面试的公司主要有:小的公司、美团、快手、新浪、soul、滴滴、BAT公司。强调一点:无论小公司还是大公司,重要的是简历和项目的匹配度、工作同学的忠诚度、面试人员软实力(沟通能力,管理能力等,话说就是顺眼不) 都是考核的因素。针对工作不久的同学来说,重点是项目和刷题。


最后,暂计划入职BAT中某一家吧(基本情况:5轮技术面试->然后后续的HR和经理相关的面试,前后7轮吧。关于背调只能说非常严格,故:大家简历真实,不能过度包哦。诚信才是工作第一要素。)


2.面试准备 

关于面试题目,从三个大的方面准备:数据结构,机器学习知识,NLP面试相关题目。


2.1 数据结构

必备知识,当然也不是说一定要刷200,甚至更多的题目再去面试。因为准备是永远都准备不好的,也就是说,大家随时准备去面试就可以来。

 

当然,如果大家时间不是很允许的话,我们也一定要把一些基础的题目刷下:

  • 字符串相关(字符串转整数,找出数组k大,有序数组合并,公共子串等)

  • 数组类 (排序相关、连续数组最大等)

  • 链表类型题目(反转、合并有序链表、判断有环 这类题目很多)

  • 二叉树操作(先序、中序、后序遍历这种题目)


总之,这一部分,一定要刷,刷刷刷刷刷刷刷刷!!!!!!


2.2 机器学习知识

LR,GBDT,xgboost,CRF、SVM这些常考即可。

上述涉及到的原理、公式推导、损失函数之类要掌握,面试的时候基本上就没什么大的问题。

建议:如果大家有时间,最终可以把上述提到的算法通过代码方式实现一篇(可以找些比赛的数据,例如:kaggle,或者github等),这样可以加深印象。

 

2.3 NLP面试题目

大家本身就是NLP岗位工作,故这方面的内容相对比较多。其实主要两个方面:工作项目+理论知识:

embedding 的一些知识(必须掌握,原理和区别)

word2vec-> elmo->bert

这部分内容非常的多,故我们针对每个模块掌握:原理、损失函数、模型数据输入和输出。

 

关于分类算法介绍(一般是针对你项目中,如果有文本分类的话)

textcnn-> fasttext->bilstm-> bert分类

由于上述算法都可以进行文本分类,针对原理和实现要掌握。同时这里也要掌握一些传统的机器学习文本分类的算法(lr,xgboost,svm,adaboost..),毕竟工作中有时并不是非要用深度学习,传统的机器学习也是必备的。


03


     经验心得


1.关于简历

一份好的简历,对你找工作来说已经成功了一半。所以,建议大家认真整理自己的简历内容。


第一点:针对简历项目内容

如果之前是从事于NLP或者数据相关的话,把自己的工作内容梳理好,然后把工作项目结合培训课程,归纳整理就可以了。

如果大家学习图像推荐系统相关,那么在找一些NLP岗位的话,也比较顺利的,因为很多理论是相通的,甚至有的项目NLP、推荐、图像都会存在,这种情况下更加顺利

如果大家之前没有AI相关的工作项目的话,那么假设就是一个Python数据基础了解或者之前从事Java等其它业务系统开发人员。这种情况属于转型的,针对NLP项目的话,我们在学习七月提供的项目的同时,最终可以结合一些比赛的项目来练手,尽可能把自己的培训内容在比赛中体现(因为比赛其实就是企业一个真实的项目案例)

 

总之,对简历项目部分还是多练习(自己工作项目、比赛项目、github类似项目等拿来学习),再次提醒:一定要自己亲自手写代码哦( 哪怕自己抄呢,总之写出来才能有更深的理解)

 

第二点:简历真实性

 

无论你是刚入社会的新人还是工作多年的同学。那么,我们在写简历的时候,不要过度包装,尽可能真实(因为你要进入大厂的话,这是必须的。除非你在一些小的公司徘徊)。当然,适当包装下还是可以的,但是一定谨记:无论何时,诚信是非常重要的。

 

关于面试公司,前前后后经历过很多,总之,建议大家首先找一些小公司-> 中型公司-> 大厂。每次面试完成,自己多总结归纳,修复简历中的不足。

 

2.面试常见问题总结


这里不包括数据结构的内容,把NLP和机器学习的相关题目总结归纳下,供大家参考。

 

建议:

针对每个问题,大家如何有条件和时间,最好可以通过代码方式实现或者查看下源码如何实现的。总之,想尽一切办法加深对每个算法的理解。


  • 常见激活函数

  • 不同优化器区别

  • word2vec原理、损失函数、两种模型架构区别和联系

  • word2vec和fasttext 区别

  • word2vec 和 bert区别

  • L1和L2区别(数学上、几何上等说明)

  • 传统机器学习算法原理(LR、GBDT、xgboost、SVM、CRF)

  • LSTM 几个重要的公式和画图

  • BiLSTM+CRF 在NER中的损失函数是什么

  • Attention、self-attention、transformer 理解

  • TF-IDF 和 TextRank关键字介绍

  • ResNet网络理解,在图像中应用,扩展相关网络结构介绍

  • ELMO和BERT区别

  • 机器学习评价指标

  • 样本不均衡处理问题

  • 最大似然了解吗?和 逻辑回归的关系

  • 距离和相似度算法介绍

  • 过拟合解决方案

  • 决策树和随机森里区别

  • GBDT原理、和RF区别、数据归一化问题

  • XGBoost原理、多分类问题、损失函数、正则化项

  • 介绍HMM和CRF

  • 文本聚类原理、概念、介绍集中聚类方法

  • 多分类和二分类损失函数是什么?区别和联系

  • 机器学习各种熵介绍(KL散度、信息熵、交叉熵、最大熵..)


3.个人感言

无论你是工作多年的人员,还是在校大学生,选择七月在线,选择自己美好的未来。

最后,感谢七月在线,感谢同学们,祝各位同学们学有所成,都能找到一份满意的工作。


关注公众号

获取更多资料干货

七月在线



完整面试经验,点击"阅读原文"跳转进入

浏览 26
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报