博文

倒排文档索引(Inverted Document Index）

已有 4852 次阅读 2011-8-19 10:31 |个人分类:图像检索|系统分类:科研笔记

Inverted Document Index

Why Inverted Document Index work?

Observation:

1) 如果某个单词在某篇文章中的重要性非常高，就可以将其作为关键字，与这篇文章的关系比较密切。

2）如果某个单词在整个语料库(Corpus)中出现的频率比较高，那么用他来区分文档的精确度不会太高。

Inverted Document Index一定程度上可以理解为一种为Bag of Word模型中，为每一个单词分配权重的算法，该算法在分配权值时不仅考虑文档中的词频，而且考虑了倒排文档频率，综合考虑了上述两点观察，更加合理。

TF-IDF

假设一个单词表中有k个词，美一篇文档都被表示成一个k-向量Vd = (t₁,t₂,....t_k),其中t_i(i=1,2,...,k)为对应单词表中第i个单词的权重，ti的计算公式如下：

t_i = (n_id/n_d)*(logN/n_i)

n_id：单词i在文档d中出现的频次

n_d：在文档d中所有单词个数的总和。

N：所有文档的个数

n_i：是单词i在整个数据库中出现的次数（在所有文档中出现的次数。）

其中，n_id/n_{d = term frequency}

n_i/N = document frequency

N/n_{i = inverse document frequency}

_logN/n_{i 不改变函数的monotone(单调性)，对原函数进行平滑，且在数学上好处里。}

转载本文请联系原作者获取授权，同时请注明本文来自王方圆科学网博客。
链接地址：https://wap.sciencenet.cn/blog-613779-477092.html

上一篇：视觉词袋模型（Bag of Visual Word）

收藏 IP: 159.226.20.*| 热度|

数据加载中...

返回顶部

博文发布时间已经超过87600小时，评论已关闭。

扫一扫，分享此博文