如何在脱敏数据中使用BERT等预训练模型

NLP从入门到放弃

共 681字，需浏览 2分钟

· 2021-03-06

前几天有朋友问了一下【小布助手短文本语义匹配竞赛】的问题，主要是两个；

如何在脱敏数据中使用BERT；
基于此语料如何使用NSP任务；

比赛我没咋做，因为我感觉即使认真做也打不过前排大佬[囧]，太菜了；不过我可以分享一下我自己的经验；

对于脱敏语料使用BERT，一般可以分为两种：

第一种就是直接从零开始基于语料训练一个新的BERT出来使用；

第二种就是按照词频，把脱敏数字对照到中文或者其他语言【假如我们使用中文】，使用中文BERT做初始化，然后基于新的中文语料训练BERT；

大家可以先看一下当时我的回复：

然后我发现很多朋友对于预训练模型其实理解的还是不深刻，很疑惑为什么在脱敏数据中也可以训练BERT等预训练模型；

其实这一点很容易理解，就像我截图中说到的：

最开始BERT是用英文语料训练出来的，然后有朋友基于中文语料开源了中文的BERT；

那么我的脱敏数字就是类似于中文的一种另外的语言，你可以看成是【X】语言，我们当然可以基于【X】语言的语料去训练一个新的BERT或者其他的预训练模型了；

有的朋友谈到了NSP任务如何去使用的问题；

很明显，在当前这个任务中是一个文本匹配的形式；

语料不是我们自己有主动的去获取的能力，所以构造一个NSP任务的格式比较困难；

但是NSP任务仅仅是一种任务形式，我们完全可以基于训练语料构造一个是否匹配的任务，可以称之为类NSP任务；

基于此，测试数据是使用不了的，因为测试数据没有label；

不过，我自己认为可以测试数据使用MLM任务，训练数据使用MLM+类NSP任务；

更加具体大家可以看我当时的回复：

浏览 23

点赞

收藏

分享

举报

评论

图片

表情

盘点一个使用超级鹰识别验证码并自动登录的案例

点击上方“Python共享之家”，进行关注回复“资源”即可获赠Python学习资料今日鸡汤江上几人在，天涯孤棹还。大家好，我是皮皮。一、前言前几天在Python钻石交流群【静惜】问了一个Python实现识别验证码并自动登录的问题，提问截图如下：验证码的截图如下所示：二、实现过程这里大家激烈的探讨，【

Langchain使用 | 模型、提示和解析器、存储

零、LangChain介绍为各种不同基础模型提供统一接口- 帮助管理提示的框架- 一套中心化接口，用于处理长期记忆（参见Memory）、外部数据（参见Indexes）、其他 LLM（参见Chains）以及 LLM 无法处理的任务的其他代理（例如，计算或搜索）。总的来说，有六大核心模块：Models：

【第127期】推荐常用的国内外AI大模型

概述多个国内外的AI大模型及其特点。以下是一些被提及的AI大模型和平台：全球大模型：ChatGPT：由OpenAI开发，支持多种语言，包括中文。Claude：由Anthropic开发，擅长深层次语言模式和复杂推理。Gemini：由Google Research开发，擅长自然语言理解和生成。Mis

前端微服务

Stability AI开放Stable Diffusion 3 API，在线免费使用

「Stability AI」宣布开放其最新文本到图像生成模型「Stable Diffusion 3」的API接口，供开发者和企业使用。该模型采用创新的多模态扩散转换器架构，在字体、细节还原、提示理解等方面表现优异，评测结果超越了业内其他顶尖系统。与DALL-E 3和Midjourney v6等最先进

为啥大模型还没完全取代你？

点击下方“JavaEdge”，选择“设为星标”第一时间关注技术干货！免责声明~任何文章不要过度深思！万事万物都经不起审视，因为世上没有同样的成长环境，也没有同样的认知水平，更「没有适用于所有人的解决方案」；不要急着评判文章列出的观点，只需代入其中，适度审视一番自己即可，能「跳脱出来从外人的角度看看现

3人运营，不用投流，年翻十倍...这些头部商家如何在得物获得确定性新增长

是新朋友吗？记得先点蓝字关注我哦～这场硬仗一定要打，也一定要打赢。文/靳舒乔珠宝品牌周大生2022年一季报数据显示，2021年周大生营收91.55亿元，门店突破4500家，遂加快线上渠道布局。一次跟得物官方交流，感觉这款App上的年轻人非常活跃，很契合线上发展需求。那时，得物App更名一年有余，正打

小美播报|3月IPTV数据排行榜发布！

小美播报3月IPTV数据排行榜:《与凤行》登顶连续剧榜榜首拥有4.05亿家庭用户的中国IPTV平台已经成为国内主流视听平台，IPTV平台数据对视听产业各环节都具有重要意义。截至2024年4月，全国已有29个省级IPTV加入“看中国”，覆盖全国超2.25亿户家庭、辐射近7亿人。点击查看详情湖南广电与马

分享几个前端中好玩且有用的开源工具,总有一个适合你！

点击上方前端Q，关注公众号回复加群，加入前端Q技术交流群正所谓差生文具多,作为前端的我们,拥有几个合适的工具和网站可以很有效的提高我们的工具效率,还会有一些很有趣的网站可以在我们敲 bug 累了的时候供我们娱乐,接下来我就和大嘎分析一下我在用的一些工具和网站。聚合API该网站提供了大量的

图解 transformer 中的自注意力机制

↓推荐关注↓本文将将介绍注意力的概念从何而来，它是如何工作的以及它的简单的实现。注意力机制在整个注意力过程中，模型会学习了三个权重:查询、键和值。查询、键和值的思想来源于信息检索系统。所以我们先理解数据库查询的思想。假设有一个数据库，里面有所有一些作家和他们的书籍信息。现在我想读一些Rabindra

Python学习与数据挖掘

一文读懂大模型发展过程！

点击下方“JavaEdge”，选择“设为星标”第一时间关注技术干货！免责声明~任何文章不要过度深思！万事万物都经不起审视，因为世上没有同样的成长环境，也没有同样的认知水平，更「没有适用于所有人的解决方案」；不要急着评判文章列出的观点，只需代入其中，适度审视一番自己即可，能「跳脱出来从外人的角度看看现

点赞

收藏

分享

举报