风控中一种非常高效的无序文本相似计算方法-技术圈

杰卡德相似是比较常见的文本相似计算方法，文本分词后的交集比上并集，公式如下：

但在风控的实际业务中，有很多场景存在大规模的重复文本片段，比如：

S1 = '模具硅胶翻模硅胶指纹签到手指摸指纹假膜模具硅胶液态硅胶半透明硅胶指模自制指纹识别硅胶打卡指纹透明膜指纹膜指纹胶膜手机指纹打卡假膜指纹打卡机指纹胶膜指纹识别贴打卡 diy硅胶模具材料指纹打卡指纹打卡道具指纹打卡假膜人脸指纹识别膜硅胶硅胶模具diy 模型制作材料指模液体硅胶考勤指纹胶指纹打卡假膜科密指纹打卡假膜硅橡胶指纹胶膜制作打卡翻模硅胶材料食品级硅胶打卡考勤指纹指模具考勤翻模硅胶 diy 指纹打卡膜指纹打卡假膜打卡机指纹识别膜指纹制作 diy液体材料指纹制作工具指模具手指打卡手办工具签到指纹胶膜制作模具硅胶翻模翻模硅胶指纹识别胶打卡硅胶硅胶打卡打卡指纹胶膜指纹识别膜套'

S2 = '指纹打卡假膜科密指纹签到手指摸指纹识别膜硅胶指模具手指打卡指纹打卡膜指纹打卡假膜人脸打卡考勤指纹指模具考勤指纹打卡机指纹胶膜指纹制作工具指纹打卡指纹识别套硅胶硅橡胶指模 diy硅胶模具材料指纹制作指纹识别硅胶指模自制打卡指纹胶膜指纹打卡假膜指纹打卡道具手机指纹打卡假膜指纹假膜指纹膜指纹打卡假膜硅橡胶打卡机指纹识别膜指纹识别模具硅胶指纹识别膜套硅胶模具diy 打卡指纹透明膜上班打卡指纹透明膜指纹识别胶打卡硅胶指纹识别打卡膜假手指硅胶考勤指纹胶硅胶打卡指纹胶膜制作打卡签到指纹胶膜制作指纹胶膜指纹识别贴打卡abcdedf'

使用杰卡德相似计算相似度：0.7647，在S2中加入'abcdedf'干扰字符串后，相似度 0.6964

使用新加权算法计算相似度：0.7305 在S2中加入'abcdedf'干扰字符串后，相似度 0.7252

可见第二种算法，针对这种无序的词组计算相似度，抗干扰能力要比传统的方法强很多，能够更稳点的计算类似的多来源文本的相似性。

具体的计算逻辑如下（只计算了top20）：

除了上面的案例，还有下面的各种场景，都存在大量重复的文本集合，我们需要有一种专门的方法来进行计算。

两个商家店铺所有商品名称集合，一般一个店铺商品都有差不多

百度推广者的竞价词集合，基本会穷举所有相关的搜索词

... ...

淘宝商家的推广词集合

我写了个函数实现，也不知道叫啥，就是一种加权的杰卡德相似。


S1 = '模具硅胶 翻模硅胶 指纹签到手指摸 指纹假膜 模具硅胶 液态硅胶 半透明硅胶 指模自制 指纹识别硅胶 打卡指纹透明膜 指纹膜 指纹 胶膜 手机指纹打卡假膜 指纹打卡机指纹胶膜 指纹识别贴打卡 diy硅胶模具材料 指纹打卡 指纹打卡道具 指纹打卡假膜人脸 指纹识别膜 硅胶 硅胶模具diy 模型制作材料 指模 液体硅胶 考勤指纹胶 指纹打卡假膜科密 指纹打卡假膜 硅橡胶 指纹胶膜制作 打卡 翻模硅胶材料 食品级硅胶 打卡考勤指纹 指模具考勤 翻模硅胶 diy 指纹打卡膜 指纹打卡假膜 打卡机指纹识别膜 指纹制作 diy液体材料 指纹制作工具 指模具 手指打卡 手办工具 签到指纹胶膜制作 模具硅胶翻模 翻模硅胶 指纹识别胶打卡 硅胶 硅胶打卡 打卡指纹胶膜 指纹识别膜套'S2 = '指纹打卡假膜科密 指纹签到手指摸 指纹识别膜 硅胶 指模具 手指打卡 指纹打卡膜 指纹打卡假膜人脸 打卡考勤指纹 指模具考勤 指纹打卡机指纹胶膜 指纹制作工具 指纹打卡 指纹识别套 硅胶 硅橡胶 指模 diy硅胶模具材料 指纹制作 指纹识别硅胶 指模自制 打卡指纹胶膜 指纹打卡假膜 指纹打卡道具 手机指纹打卡假膜 指纹假膜 指纹膜 指纹打卡假膜 硅橡胶 打卡机指纹识别膜 指纹识别模具 硅胶 指纹识别膜套 硅胶模具diy 打卡指纹透明膜 上班 打卡指纹透明膜 指纹识别胶打卡 硅胶 指纹识别打卡膜假手指 硅胶 考勤指纹胶 硅胶打卡 指纹胶膜制作 打卡 签到指纹胶膜制作 指纹 胶膜 指纹识别贴打卡 abcdedf'
from collections import Counter
class Similarty():    def __init__(self,S1,S2,topn):        self.S1 = S1        self.S2 = S2        self.topn = topn    ''' 标准杰卡德'''        def normal_jaccard(self):        return len(set(self.S1)&set(self.S2))/len(set(self.S1) | set(self.S2))        ''' 加权杰卡德'''          def weight_jaccard(self):               if self.S1 is not None and self.S2 is not None:            sim_0 = self.S1.replace(' ','')            sim_1 = self.S2.replace(' ','')            collect0 = Counter(dict(Counter(sim_0).most_common(self.topn)))            collect1 = Counter(dict(Counter(sim_1).most_common(self.topn)))                   jiao = collect0 & collect1            bing = collect0 | collect1                   sim = float(sum(jiao.values()))/float(sum(bing.values()))                    return(sim)                      else:             return 0.0         sim =   Similarty(S1,S2,50)#初始化         sim.normal_jaccard()0.6964285714285714sim.weight_jaccard()0.7252396166134185

我这里为了简单，仅仅分字进行的相似计算，大家也可以自然语言分词计算，也可以N-gram后计算，稳定性会进一步加强。

好了，本期内容分享到此了，希望对你有启发。

有什么需求，可以联系我。

下面是一些计算的案例

近期文章
视频专栏课 | Python网络爬虫与文本分析
读完本文你就了解什么是文本分析
综述:文本分析在市场营销研究中的应用
Pandas库 | 高速读取csv文件的方法
如何在DataFrame中使用If-Else条件语句创建新列
BERTopic 主题建模库 | 建议收藏
Top2Vec | 主题建模和语义搜索库
案例实战 | 企业信息数据采集
使用文本相似度可以识别变化的时间点
PNAS | 文本网络分析&文化桥梁Python代码实现
tomotopy | 速度最快的LDA主题模型
dvt | 视觉文化分析的Python工具包
Stargazer库 | 创建漂亮可发表的多元回归表
人文社科类Python免费教程列表
量化历史语言学-贝叶斯语言谱系分析
Python与文化分析入门
Backtrader库 | 均线买入卖出策略实现
在会计研究中使用Python进行文本分析
文本分析方法在《管理世界》（2021.5）中的应用
hiResearch 定义自己的科研首页
SciencePlots | 科研样式绘图库
Wow~70G上市公司定期报告数据集
漂亮~pandas可以无缝衔接Bokeh  
YelpDaset: 酒店管理类数据集10+G

风控中一种非常高效的无序文本相似计算方法

近期文章

添加附言

相关文章推荐