Inverted Document Index
Why Inverted Document Index work?
Observation:
1) 如果某个单词在某篇文章中的重要性非常高,就可以将其作为关键字,与这篇文章的关系比较密切。
2)如果某个单词在整个语料库(Corpus)中出现的频率比较高,那么用他来区分文档的精确度不会太高。
Inverted Document Index一定程度上可以理解为一种为Bag of Word模型中,为每一个单词分配权重的算法,该算法在分配权值时不仅考虑文档中的词频,而且考虑了倒排文档频率,综合考虑了上述两点观察,更加合理。
TF-IDF
假设一个单词表中有k个词,美一篇文档都被表示成一个k-向量Vd = (t1,t2,....tk),其中ti(i=1,2,...,k)为对应单词表中第i个单词的权重,ti的计算公式如下:
ti = (nid/nd)*(logN/ni)
nid:单词i在文档d中出现的频次
nd:在文档d中所有单词个数的总和。
N:所有文档的个数
ni:是单词i在整个数据库中出现的次数(在所有文档中出现的次数。)
其中,nid/nd = term frequency
ni/N = document frequency
N/ni = inverse document frequency
logN/ni 不改变函数的monotone(单调性),对原函数进行平滑,且在数学上好处里。
https://wap.sciencenet.cn/blog-613779-477092.html
上一篇:
视觉词袋模型(Bag of Visual Word)