【关于Bert】 那些的你不知道的事(上)

DayNightStudy

共 2450字,需浏览 5分钟

 · 2022-01-21


作者简介




作者:杨夕

论文名称:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

论文链接:https://arxiv.org/pdf/1706.03762.pdf

代码链接:https://github.com/google-research/bert

推荐系统 百面百搭地址:

https://github.com/km1994/RES-Interview-Notes

NLP 百面百搭地址:

https://github.com/km1994/NLP-Interview-Notes

个人 NLP 笔记:

https://github.com/km1994/nlp_paper_study

个人介绍:大佬们好,我叫杨夕,该项目主要是本人在研读顶会论文和复现经典论文过程中,所见、所思、所想、所闻,可能存在一些理解错误,希望大佬们多多指正。







引言

本博客 主要 是本人在学习 Bert 时的所遇、所思、所解,通过以 十二连弹 的方式帮助大家更好的理解 该问题。

十二连弹

  1. 【演变史】one-hot 是什么及所存在问题?

  2. 【演变史】word2vec 是什么及所存在问题?

  3. 【演变史】fastText 是什么及所存在问题?

  4. 【演变史】elmo 是什么及所存在问题?

  5. 【BERT】Bert 是什么?

  6. 【BERT】Bert 三个关键点?

  7. 【BERT】Bert 输入表征长啥样?

  8. 【BERT】Bert 预训练任务?

  9. 【BERT】Bert 预训练任务 Masked LM 怎么做?

  10. 【BERT】Bert 预训练任务 Next Sentence Prediction 怎么做?

  11. 【BERT】如何 fine-turning?

  12. 【对比】多义词问题及解决方法?

问题解答

【演变史】one-hot 是什么及所存在问题?

  • one-hot:

    • 介绍:

      • 用一个很长的向量来表示一个词,向量长度为词典的大小N,每个向量只有一个维度为1,其余维度全部为0,为1的位置表示该词语在词典的位置。

    • 特点:

      • 维度长:向量的维度为 词典大小

      • 一一其零:每个向量只有一个维度为1,其余维度全部为0,为1的位置表示该词语在词典的位置

    • 问题:

      • 维度灾难:容易受维数灾难的困扰,每个词语的维度就是语料库字典的长度;

      • 离散、稀疏问题:因为 one-Hot 中,句子向量,如果词出现则为1,没出现则为0,但是由于维度远大于句子长度,所以句子中的1远小于0的个数;

      • 维度鸿沟问题:词语的编码往往是随机的,导致不能很好地刻画词与词之间的相似性。


【演变史】wordvec 是什么及所存在问题?

  • 双剑客

    • CBOW vs Skip-gram

  • CBOW

    • 思想:用周围词预测中心词

  • Skip-gram

    • 思想:用中心词预测周围词

  • CBOW vs Skip-gram 哪一个好?

    • CBOW 可以理解为 一个老师教多个学生;(高等教育)

    • Skip-gram 可以理解为 一个学生被多个老师教;(补习班)

    • 那问题来了?

      • 最后 哪个学生 成绩 会更好?

  • 存在问题:

    • 因为 word2vec 为静态方式,即训练好后,每个词表达固定;

    • 多义词问题

【演变史】fastText 是什么及所存在问题?

【演变史】elmo 是什么及所存在问题?

待续!!!

参考

  1. CS224n

  2. 关于BERT的若干问题整理记录

所有文章

五谷杂粮


NLP百面百搭


Rasa 对话系统


知识图谱入门


转载记录




    


浏览 62
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报