【关于Bert】那些的你不知道的事(下)

共 3287字，需浏览 7分钟

·

2022-01-21 21:06

作者简介

作者：杨夕

论文名称：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

论文链接：https://arxiv.org/pdf/1706.03762.pdf

代码链接：https://github.com/google-research/bert

推荐系统百面百搭地址：

https://github.com/km1994/RES-Interview-Notes

NLP 百面百搭地址：

https://github.com/km1994/NLP-Interview-Notes

个人 NLP 笔记：

https://github.com/km1994/nlp_paper_study

个人介绍：大佬们好，我叫杨夕，该项目主要是本人在研读顶会论文和复现经典论文过程中，所见、所思、所想、所闻，可能存在一些理解错误，希望大佬们多多指正。

引言

本博客主要是本人在学习 Bert 时的所遇、所思、所解，通过以十二连弹的方式帮助大家更好的理解该问题。

十二连弹

【演变史】one-hot 是什么及所存在问题?
【演变史】word2vec 是什么及所存在问题?
【演变史】fastText 是什么及所存在问题?
【演变史】elmo 是什么及所存在问题?
【BERT】Bert 是什么?
【BERT】Bert 三个关键点？
【BERT】Bert 输入表征长啥样？
【BERT】Bert 预训练任务？
【BERT】Bert 预训练任务 Masked LM 怎么做？
【BERT】Bert 预训练任务 Next Sentence Prediction 怎么做？
【BERT】如何 fine-turning？
【对比】多义词问题及解决方法？

问题解答

【BERT】Bert 是什么?

BERT（Bidirectional Encoder Representations from Transformers）是一种Transformer的双向编码器，旨在通过在左右上下文中共有的条件计算来预先训练来自无标号文本的深度双向表示。因此，经过预先训练的BERT模型只需一个额外的输出层就可以进行微调，从而为各种自然语言处理任务生成最新模型。

这个也是我们常说的【预训练】+【微调】

【BERT】Bert 三个关键点？

基于 transformer 结构
大量语料预训练：

介绍：在包含整个维基百科的无标签号文本的大语料库中（足足有25亿字！）和图书语料库（有8亿字）中进行预训练；
优点：大语料能够覆盖更多的信息；

双向模型：

BERT是一个“深度双向”的模型。双向意味着BERT在训练阶段从所选文本的左右上下文中汲取信息
举例：

【BERT】Bert 输入输出表征长啥样？

input 组成：

Token embedding 字向量: BERT模型通过查询字向量表将文本中的每个字转换为一维向量，作为模型输入；
Segment embedding 文本向量: 该向量的取值在模型训练过程中自动学习，用于刻画文本的全局语义信息，并与单字/词的语义信息相融合；
Position embedding 位置向量：由于出现在文本不同位置的字/词所携带的语义信息存在差异（比如：“我爱你”和“你爱我”），因此，BERT模型对不同位置的字/词分别附加一个不同的向量以作区分

output 组成：输入各字对应的融合全文语义信息后的向量表示

【BERT】Bert 预训练任务？

预训练包含两个 Task:

Task 1：Masked LM
Task 2：Next Sentence Prediction

【BERT】Bert 预训练任务 Masked LM 怎么做？

动机：

双向模型由于可以分别从左到右和从右到左训练，使得每个词都能通过多层上下文 “看到自己”；

方法：Masked LM
做法：

s1：随机遮蔽输入词块的某些部分；
s2：仅预测那些被遮蔽词块；
s3：被遮盖的标记对应的最终的隐藏向量被当作softmax的关于该词的一个输出，和其他标准语言模型中相同

【BERT】Bert 预训练任务 Next Sentence Prediction 怎么做？

【BERT】如何 fine-turning？

【BERT】BERT的两个预训练任务对应的损失函数是什么(用公式形式展示)？

Bert 损失函数组成：

第一部分是来自 Mask-LM 的单词级别分类任务；
另一部分是句子级别的分类任务；

优点：通过这两个任务的联合学习，可以使得 BERT 学习到的表征既有 token 级别信息，同时也包含了句子级别的语义信息。
损失函数

注：θ：BERT 中 Encoder 部分的参数；θ1：是 Mask-LM 任务中在 Encoder 上所接的输出层中的参数；θ2：是句子预测任务中在 Encoder 接上的分类器参数；

在第一部分的损失函数中，如果被 mask 的词集合为 M，因为它是一个词典大小 |V| 上的多分类问题，所用的损失函数叫做负对数似然函数（且是最小化，等价于最大化对数似然函数），那么具体说来有：

在第二部分的损失函数中，在句子预测任务中，也是一个分类问题的损失函数：

两个任务联合学习的损失函数是：

【对比】多义词问题及解决方法？

参考

CS224n
关于BERT的若干问题整理记录

所有文章

五谷杂粮

《【社区说】一起来聊聊 Rasa 3.0》不完全笔记
超1900星标！自然语言处理论文学习笔记
超500星标！自然语言处理面经
超500星标！推荐系统面经
推广搜军火库【持续更新】

NLP百面百搭

【关于 TF-idf】那些你不知道的事
【关于 Word2vec】那些你不知道的事
【关于 fastText】那些你不知道的事
【关于 CNN】那些你不知道的事(上)
【关于 CNN】那些你不知道的事(下)
【关于Transformer】那些的你不知道的事（上）
【关于Transformer】那些的你不知道的事（中）

Rasa 对话系统

（一）对话机器人概述
（二）RASA开源引擎介绍
（三）RASA NLU语言模型
（四）RASA NLU分词器
（五）RASA NLU特征生成器
（六）RASA NLU意图分类器
（七）RASA NLU实体提取器
（九）RASA自定义pipeline组件
（十）RASA CORE Policy
（十一）RASA CORE Action
（十二）RASA Domain
（十三）RASA 训练数据
（十四）RASA story
（十五）Rasa Rules
（十六）RASA最佳实践
（十七）基于RASA开始中文机器人
（十八）基于RASA开始中文机器人实现机制
（十九）基于知识图谱的问答系统（KBQA）
（二十）基于阅读理解的问答系统
（二十一）RASA应用常见问题
（二十二）RASA的超参数优化
（二十三）机器人测试与评估
（二十四）利用Rasa Forms创建上下文对话助手
DIET：Dual Intent and Entity Transformer——RASA论文翻译

知识图谱入门

浙大图谱讲义 | 第一讲-知识图谱概论 — 第1节-语言与知识
浙大图谱讲义 | 第一讲-知识图谱概论 — 第2节-知识图谱的起源
图谱讲义 | 第一讲-第3节-知识图谱的价值

转载记录

Bert与TensorRT部署手册，享受丝滑的顺畅
句向量新方案CoSENT实践记录
CHIP2021|临床术语标准化第三名方案开源
CHIP2021 | 医学对话临床发现阴阳性判别任务第一名方案开源
破解transformer八股，快问快答
BERT可视化工具bertviz体验
PRGC：一种新的联合关系抽取模型
给神经网络加入先验知识！

浏览 180

点赞

收藏

分享

举报

评论

图片

表情

关于 Python 3.9，那些你不知道的事

Python网络爬虫与数据挖掘

关于 Python 3.9，那些你不知道的事

Python 知识大全

关于Python 3.9，那些你不知道的事

机器学习算法与Python实战

关于Python 3.9，那些你不知道的事

小詹学Python

关于Linux下的crontab，你不知道的那些知识点

Java技术江湖

关于Linux下的crontab,你不知道的那些知识点

杰哥的IT之旅

你不知道的 Java 注解那些事!

程序猿杂货铺

“亚马逊”最初不叫“Amazon”？关于亚马逊你不知道的那些事

大数据文摘

关于线程的那些事……

关于中台，你可能不知道的事

肉眼品世界