【关于Bert】那些的你不知道的事(上)-技术圈

作者简介

作者：杨夕

论文名称：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

论文链接：https://arxiv.org/pdf/1706.03762.pdf

代码链接：https://github.com/google-research/bert

推荐系统百面百搭地址：

https://github.com/km1994/RES-Interview-Notes

NLP 百面百搭地址：

https://github.com/km1994/NLP-Interview-Notes

个人 NLP 笔记：

https://github.com/km1994/nlp_paper_study

个人介绍：大佬们好，我叫杨夕，该项目主要是本人在研读顶会论文和复现经典论文过程中，所见、所思、所想、所闻，可能存在一些理解错误，希望大佬们多多指正。

引言

本博客主要是本人在学习 Bert 时的所遇、所思、所解，通过以十二连弹的方式帮助大家更好的理解该问题。

十二连弹

【演变史】one-hot 是什么及所存在问题?
【演变史】word2vec 是什么及所存在问题?
【演变史】fastText 是什么及所存在问题?
【演变史】elmo 是什么及所存在问题?
【BERT】Bert 是什么?
【BERT】Bert 三个关键点？
【BERT】Bert 输入表征长啥样？
【BERT】Bert 预训练任务？
【BERT】Bert 预训练任务 Masked LM 怎么做？
【BERT】Bert 预训练任务 Next Sentence Prediction 怎么做？
【BERT】如何 fine-turning？
【对比】多义词问题及解决方法？

问题解答

【演变史】one-hot 是什么及所存在问题?

one-hot:

介绍：

用一个很长的向量来表示一个词，向量长度为词典的大小N，每个向量只有一个维度为1，其余维度全部为0，为1的位置表示该词语在词典的位置。

特点：

维度长：向量的维度为词典大小；
一一其零：每个向量只有一个维度为1，其余维度全部为0，为1的位置表示该词语在词典的位置；

问题：

维度灾难：容易受维数灾难的困扰，每个词语的维度就是语料库字典的长度；
离散、稀疏问题：因为 one-Hot 中，句子向量，如果词出现则为1，没出现则为0，但是由于维度远大于句子长度，所以句子中的1远小于0的个数；
维度鸿沟问题：词语的编码往往是随机的，导致不能很好地刻画词与词之间的相似性。

【演变史】wordvec 是什么及所存在问题?

双剑客

CBOW vs Skip-gram

CBOW

思想：用周围词预测中心词

Skip-gram

思想：用中心词预测周围词

CBOW vs Skip-gram 哪一个好？

CBOW 可以理解为一个老师教多个学生；（高等教育）
Skip-gram 可以理解为一个学生被多个老师教；（补习班）
那问题来了？

最后哪个学生成绩会更好？

存在问题：

因为 word2vec 为静态方式，即训练好后，每个词表达固定；
多义词问题

【演变史】fastText 是什么及所存在问题?

【演变史】elmo 是什么及所存在问题?

待续！！！

参考

CS224n
关于BERT的若干问题整理记录

所有文章

五谷杂粮

《【社区说】一起来聊聊 Rasa 3.0》不完全笔记
超1900星标！自然语言处理论文学习笔记
超500星标！自然语言处理面经
超500星标！推荐系统面经
推广搜军火库【持续更新】

NLP百面百搭

【关于 TF-idf】那些你不知道的事
【关于 Word2vec】那些你不知道的事
【关于 fastText】那些你不知道的事
【关于 CNN】那些你不知道的事(上)
【关于 CNN】那些你不知道的事(下)
【关于Transformer】那些的你不知道的事（上）
【关于Transformer】那些的你不知道的事（中）

Rasa 对话系统

（一）对话机器人概述
（二）RASA开源引擎介绍
（三）RASA NLU语言模型
（四）RASA NLU分词器
（五）RASA NLU特征生成器
（六）RASA NLU意图分类器
（七）RASA NLU实体提取器
（九）RASA自定义pipeline组件
（十）RASA CORE Policy
（十一）RASA CORE Action
（十二）RASA Domain
（十三）RASA 训练数据
（十四）RASA story
（十五）Rasa Rules
（十六）RASA最佳实践
（十七）基于RASA开始中文机器人
（十八）基于RASA开始中文机器人实现机制
（十九）基于知识图谱的问答系统（KBQA）
（二十）基于阅读理解的问答系统
（二十一）RASA应用常见问题
（二十二）RASA的超参数优化
（二十三）机器人测试与评估
（二十四）利用Rasa Forms创建上下文对话助手
DIET：Dual Intent and Entity Transformer——RASA论文翻译

知识图谱入门

浙大图谱讲义 | 第一讲-知识图谱概论 — 第1节-语言与知识
浙大图谱讲义 | 第一讲-知识图谱概论 — 第2节-知识图谱的起源
图谱讲义 | 第一讲-第3节-知识图谱的价值

转载记录

Bert与TensorRT部署手册，享受丝滑的顺畅
句向量新方案CoSENT实践记录
CHIP2021|临床术语标准化第三名方案开源
CHIP2021 | 医学对话临床发现阴阳性判别任务第一名方案开源
破解transformer八股，快问快答
BERT可视化工具bertviz体验
PRGC：一种新的联合关系抽取模型
给神经网络加入先验知识！

【关于Bert】 那些的你不知道的事(上)

引言