首页 文章详情

【关于 TF-idf】 那些你不知道的事

DayNightStudy | 310 2021-07-01 15:27 0 0 0
UniSMS (合一短信)

作者:杨夕

项目地址:https://github.com/km1994/NLP-Interview-Notes

个人论文读书笔记:https://github.com/km1994/nlp_paper_study

【注:手机阅读可能图片打不开!!!】



一、one-hot 篇

1.1 为什么有 one-hot ?

由于计算机无法识别 文本语言,所以需要将文本数字化,one-hot 方法最早的一种将 文本数字化的方法。

1.2 one-hot 是什么?

用一个很长的向量来表示一个词,向量长度为词典的大小N,每个向量只有一个维度为1,其余维度全部为0,为1的位置表示该词语在词典的位置。

1.3 one-hot 有什么特点?

  • 维度长:向量的维度为 词典大小

  • 一一其零:每个向量只有一个维度为1,其余维度全部为0,为1的位置表示该词语在词典的位置

1.4 one-hot 存在哪些问题?

  • 维度灾难:容易受维数灾难的困扰,每个词语的维度就是语料库字典的长度;

  • 离散、稀疏问题:因为 one-Hot 中,句子向量,如果词出现则为1,没出现则为0,但是由于维度远大于句子长度,所以句子中的1远小于0的个数;

  • 维度鸿沟问题:词语的编码往往是随机的,导致不能很好地刻画词与词之间的相似性。

二、TF-IDF 篇

2.1 什么是 TF-IDF?

TF-IDF 是一种统计方法,用以评估句子中的某一个词(字)对于整个文档的重要程度。

2.2 TF-IDF 如何评估词的重要程度?

  • 对于 句子中的某一个词(字)随着其在整个句子中的出现次数的增加,其重要性也随着增加;(正比关系)【体现词在句子中频繁性】

  • 对于 句子中的某一个词(字)随着其在整个文档中的出现频率的增加,其重要性也随着减少;(反比关系)【体现词在文档中的唯一性】

2.3 TF-IDF 的思想是什么?

如果某个单词在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类;

2.4 TF-IDF 的计算公式是什么?

2.5 TF-IDF 怎么描述?

某一特定句子内的高词语频率,以及该词语在整个文档集合中的低文档频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。

2.6 TF-IDF 的优点是什么?

  • 容易理解;

  • 容易实现;

2.7 TF-IDF 的缺点是什么?

其简单结构并没有考虑词语的语义信息,无法处理一词多义与一义多词的情况。

2.8 TF-IDF 的应用?

  • 搜索引擎;

  • 关键词提取;

  • 文本相似性;

  • 文本摘要

参考资料

  1. 神经网路语言模型(NNLM)的理解

  2. NLP 面试题(一)和答案,附



good-icon 0
favorite-icon 0
收藏
回复数量: 0
    暂无评论~~
    Ctrl+Enter