Alooker的个人博客分享 http://blog.sciencenet.cn/u/Alooker

博文

倒排文档索引(Inverted Document Index)

已有 4852 次阅读 2011-8-19 10:31 |个人分类:图像检索|系统分类:科研笔记

Inverted Document Index

Why Inverted Document Index work?
Observation:
1) 如果某个单词在某篇文章中的重要性非常高,就可以将其作为关键字,与这篇文章的关系比较密切。
2)如果某个单词在整个语料库(Corpus)中出现的频率比较高,那么用他来区分文档的精确度不会太高。
Inverted Document Index一定程度上可以理解为一种为Bag of Word模型中,为每一个单词分配权重的算法,该算法在分配权值时不仅考虑文档中的词频,而且考虑了倒排文档频率,综合考虑了上述两点观察,更加合理。

TF-IDF
假设一个单词表中有k个词,美一篇文档都被表示成一个k-向量Vd = (t1,t2,....tk),其中ti(i=1,2,...,k)为对应单词表中第i个单词的权重,ti的计算公式如下:
ti = (nid/nd)*(logN/ni)
nid:单词i在文档d中出现的频次
 nd:在文档d中所有单词个数的总和。
        N:所有文档的个数
ni:是单词i在整个数据库中出现的次数(在所有文档中出现的次数。)
其中,nid/nd = term frequency
      ni/N = document frequency
      N/ni = inverse document frequency
                logN/ni 不改变函数的monotone(单调性),对原函数进行平滑,且在数学上好处里。



https://wap.sciencenet.cn/blog-613779-477092.html

上一篇:视觉词袋模型(Bag of Visual Word)
收藏 IP: 159.226.20.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-18 22:33

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部