我们将寻找相关文献的问题归纳为如下模型:给定某篇用户表示感兴趣的文献,系统的任务就是找到用户也会想要浏览(examine)的文献。因为这种活动往往发生在更为广泛的信息搜寻的行为之中,相关性可以作为感兴趣的指标,即,检索其他相关的文献。但是,我们用更宽泛的术语来描述这个问题:其他文献之所以成为感兴趣的文献可能因为它们讨论了相似的主题,有同样的引文,同样的背景,产生感兴趣的假说等等。
为了把这个问题限定在一定的范围内,在我们的理论模型中,我们设定感兴趣的文献就是在主题或者概念上相似的文献,对于MEDLINE中的记录而言,我们将自己限定在论文标题和摘要(在PubMed的扩展算法中也利用了MeSH主题词,这里我们不加以讨论)。按照信息检索的典型假设,我们希望按照用户愿意看这些文献的概率对文献进行排序。这样,我们的pmra检索模型就聚焦在估计P(c|d)上,即用户在表达出对文献d感兴趣的条件下,发现文献c也是感兴趣的文献的概率。
首先,把文献集合分解为互相排斥并且完备的“主题”(用集合{s1...sN}表示),假设文献的相关性通过主题来表示,我们得到下面公式:
(1)
【译注:P(c|d)为用户对文献d感兴趣的情况下,看文献c的概率,sj为各个主题(1-N),P(c|sj)为对主题sj感兴趣的情况下,用户要看文献c的概率,P(sj|d)是对文献d感兴趣的情况下,sj出现的概率】
用贝叶斯定理扩展P(sj|d),我们得到:
由于我们只关心文献的排序,分母可以安全地忽略掉,因为它独立于c。这样,我们获得下面给排序文献的标准:
重新描述一下,P(c|sj)是假定一个感兴趣的主题是sj的情况下,一个用户想要看文献c的概率。P(d|sj)也是同样的。这样,两篇文献相关的程度可以通过计算该主题的这两个概率与前置概率P(sj)的乘积,再对所有主题求和得到。
到目前为止,我们还没有表述主题准确的定义是什么这个重大问题。为了方便计算,我们简化了文献中的每个术语(term)都代表一个主题的假说(即每个术语承载着一个思想或者概念),这样,一篇文献的“关涉性”(aboutness:该文献讨论的话题)就通过文献中的术语来表达。和大多数检索模型一样,我们采用了单个单词的术语,而不是复杂的多单词的术语。这满足了我们关于主题集合要穷尽并互斥的要求。
从这儿开始,我们将借助以往基于泊松分布的概率检索模型所取得的成果。泊松分布的特点是描述在固定时间期间内,特定数量的事件发生的概率,如果这些事件以已知的平均率发生的话。核心假说是文献内容的生成模型:假设一个作者以恒定概率使用某个特定的术语,而文献则表现为一系列的术语。泊松分布指定了我们能够在一篇文献中观察到术语出现n次的概率。很明显,这并不准确地反映文献内容是如何产生的,尽管如此,这个简单的模型成为很多有效的检索算法的出发点。
本研究的内容模型还假设每个术语出现是独立的。尽管实际上术语出现是不独立的,例如,在文献中看到术语“breast”会使得看到“cancer”的可能性更大,可是这种简化做法可以使得问题在计算上易于操控。这一般被称作术语独立假设,并且在信息检索研究的早期就采用。最近有将术语独立性的方法引进到检索算法的研究(见文献11)。
基于这个观点,我们提出了“精华性”(eliteness),与概率IR模型关系密切。设定有文献d是关于特定主题si的,按照标准定义,我们说代表主题si的术语ti为文献d的精华。反过来,如果文献d不是关于特定主题si的,则代表主题si术语ti就不算作文献d的精华。【译注:判断某个术语是否是这篇文献的精华,根据这篇文献是否为关于某个主题的文献。】
进一步假设,精华术语和非精华的术语以不同的频率使用。即,如果作者想要在文献中表述一个主题si,作者会用某一种概率(精华)使用术语ti;如果文献不是关于si的,那么作者将以不同的概率(可能很小的概率)来使用该术语ti。我们可以利用泊松分布提取所观察的术语的频率特征,用单个的参数(平均数)来定义,但是与我们的模型中的精华和非精华情况不同。
这样,我们希望计算P(E|k):一篇文献是关于某个主题的概率,假设,我们观察到了相对应的术语k在文献中的次数,根据贝叶斯定理:
下面,我们计算两个概率P(k|E)和 P(k| ),如上所讨论的,我们构建了两个泊松分布模型,对于精华情况,其分布是用参数λ来定义,对于非精华情况,其参数为μ。
经过进一步的代数计算,我们获得了公式8,由于同一个文献集合中每篇文献的长度不同,我们有引入了l,用单词数目计算的文献长度。以往研究中已经显示出文献长度的规范化在检索效果中起到了重要作用(例如在文献12),较长的文献先天地更有可能有更多的查询词,最后,我们定义参数η = P( )/P(E)。
公式8如何与我们的检索模型有关呢?回忆公式3,我们需要计算P(c|sj) 和P (d|sj):假定一个对特定主题感兴趣的用户想要去看特定文献的概率,为此我们用P(E|k):我们假设用户想要看特定主题的文献中的精华集合,通过观察代表该主题的术语的出现频率。最后,我们用idf估计P(si),即,含有ti.的文献数目的倒数。把所有这些放到一起,我们推导出了下面术语权重和文献排序函数:
一个术语在特定一篇文献中的权重(wt)可以通过公式9来计算,推导自在我们概率主题相似模型中对精华性的估计。两篇论文的相似性可以通过术语权重的内积来计算,在最终结果中,文献按照它们与当前文献d的相似度排序。需要说明的是,这个推导利用了已有的概率检索模型。
PubMed related articles: a probabilistic topic-based model for content similarity
Jimmy Lin and W John Wilbur
BMC Bioinformatics. 2007; 8: 423. Published online 2007 October 30. doi: 10.1186/1471-2105-8-423.
PMCID: PMC2212667
转载本文请联系原作者获取授权,同时请注明本文来自崔雷科学网博客。
链接地址:https://wap.sciencenet.cn/blog-82196-413120.html?mobile=1
收藏