【关于 TF-idf】那些你不知道的事

DayNightStudy |

514

2021-07-01 15:27

0

0

0

UniSMS (合一短信)

作者：杨夕
项目地址：https://github.com/km1994/NLP-Interview-Notes
个人论文读书笔记：https://github.com/km1994/nlp_paper_study
【注：手机阅读可能图片打不开！！！】

一、one-hot 篇

1.1 为什么有 one-hot ？

由于计算机无法识别文本语言，所以需要将文本数字化，one-hot 方法最早的一种将文本数字化的方法。

1.2 one-hot 是什么?

用一个很长的向量来表示一个词，向量长度为词典的大小N，每个向量只有一个维度为1，其余维度全部为0，为1的位置表示该词语在词典的位置。

1.3 one-hot 有什么特点?

维度长：向量的维度为词典大小；
一一其零：每个向量只有一个维度为1，其余维度全部为0，为1的位置表示该词语在词典的位置；

1.4 one-hot 存在哪些问题?

维度灾难：容易受维数灾难的困扰，每个词语的维度就是语料库字典的长度；
离散、稀疏问题：因为 one-Hot 中，句子向量，如果词出现则为1，没出现则为0，但是由于维度远大于句子长度，所以句子中的1远小于0的个数；
维度鸿沟问题：词语的编码往往是随机的，导致不能很好地刻画词与词之间的相似性。

二、TF-IDF 篇

2.1 什么是 TF-IDF？

TF-IDF 是一种统计方法，用以评估句子中的某一个词（字）对于整个文档的重要程度。

2.2 TF-IDF 如何评估词的重要程度？

对于句子中的某一个词（字）随着其在整个句子中的出现次数的增加，其重要性也随着增加；（正比关系）【体现词在句子中频繁性】
对于句子中的某一个词（字）随着其在整个文档中的出现频率的增加，其重要性也随着减少；（反比关系）【体现词在文档中的唯一性】

2.3 TF-IDF 的思想是什么？

如果某个单词在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类；

2.4 TF-IDF 的计算公式是什么？

2.5 TF-IDF 怎么描述？

某一特定句子内的高词语频率，以及该词语在整个文档集合中的低文档频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语。

2.6 TF-IDF 的优点是什么？

容易理解；
容易实现；

2.7 TF-IDF 的缺点是什么？

其简单结构并没有考虑词语的语义信息，无法处理一词多义与一义多词的情况。

2.8 TF-IDF 的应用？

搜索引擎；
关键词提取；
文本相似性；
文本摘要

参考资料

神经网路语言模型(NNLM)的理解
NLP 面试题（一）和答案，附

0

赞

0

收藏

回复数量: 0

暂无评论~~

点击空白处退出提示