WHU Bruisefree分享 http://blog.sciencenet.cn/u/bruisefree Link together

博文

Indri的IndriBuildIndex索引命令

已有 6100 次阅读 2013-1-26 17:24 |个人分类:lemur Indri|系统分类:科研笔记| 索引

  参数文件: 
<parameters>
<memory>1024m</memory>
  <index>E:/index/x</index>
  <stemmer>
    <name>krovtz</name>
  </stemmer>
  <corpus>
       <path>D:/test/ohsumed</path>
       <class>xml</class>
  </corpus>
  <field><name>id</name></field>   <field><name>mesh</name></field>   <field><name>title</name></field>   <field><name>pub_type</name></field>   <field><name>abstract</name></field>   <field><name>author</name></field>   <field><name>source</name></field>
</parameters>
 
命令使用方式:
IndriBuildIndex E:indexindex_parameter.txt
 
参数说明:
Memory:内存大小
Index:索引文件位置
Stemmer:子标签name指示词干提取方式
Corpus:数据集参数,path表示数据集位置,class是指索引文件类型(xml,html等)。可以有多个corpus
Field:索引字段,使用name标示。
关于Corpus是否只能有一个,用下面的例子来看。在参数文件中加入两个path
<corpus>
       <path>D:/test/ohsumed</path>
       <class>xml</class>
  </corpus>
  <corpus>
       <path>D:/test/ohsumed2</path>
       <class>xml</class>
  </corpus>
 
命令结果如下:
C:UsersAdministrator>IndriBuildIndex E:indexindex_parameter.txt 0:00: Opened repository E:/index/x Adding id to xml as an indexed field Adding mesh to xml as an indexed field Adding title to xml as an indexed field Adding pub_type to xml as an indexed field Adding abstract to xml as an indexed field Adding author to xml as an indexed field Adding source to xml as an indexed field Adding docno to xml as a forward indexed metadata field 0:00: Opened D:/test/ohsumedohsumed.txt 0:00: Documents parsed: 1 Documents indexed: 0 0:00: Closed D:/test/ohsumedohsumed.txt 0:00: Opened D:/test/ohsumed2ohsumed.txt 0:00: Documents parsed: 2 Documents indexed: 0 0:00: Closed D:/test/ohsumed2ohsumed.txt 0:00: Closing index 0:00: Finished
从上面运行结果可以看到, D:/test/ohsumed、D:/test/ohsumed2都索引成功。由此表明可以有多个corpus
 
 
更多信息请查看:http://sourceforge.net/p/lemur/wiki/IndriBuildIndex%20Parameters/
 
 
 
 
 
 


https://wap.sciencenet.cn/blog-563898-656761.html

上一篇:Indri检索评价命令
下一篇:Indri的dumpdoc, dumpterm, and dumpindex命令
收藏 IP: 183.61.244.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-26 18:04

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部