钱建立-花开满地分享 http://blog.sciencenet.cn/u/paperopen 《电子设计工程》杂志社 西安知先信息

博文

开放存取期刊网站结构和页面分类研究

已有 6683 次阅读 2009-5-7 15:36 |个人分类:公开发表作品|系统分类:科研笔记| 开放存取, 网站结构, 页面分类, 主题蜘蛛

摘要:通过对国内外20种期刊网站结构和页面内容的分析,总结出期刊网站的Surface、聚类、树形、干扰4种特性,把期刊网站页面分为卷期索引、期目录、论文元数据、全文4类页面,分析了不同页面种类之间的组合变化,提出了基于页面分类的OA主题蜘蛛设计方案。
关键词:开放存取 网站结构 页面分类 主题蜘蛛

1 引言
  目前开放存取(Open Access,简称为OA)的主要来源包括:OA源期刊网站、OA机构仓储 (Institutional Repositories,简称IR)、学科或专业仓储(subject/discipline Archive)、单位仓储(Organization Archive)和作者个人自存档。OA发展的高级阶段就是OA集成仓储的出现。OA集成仓储的关键技术是用来爬取OA文献的OA主题蜘蛛(也简称为OA蜘蛛)。目前的主题蜘蛛都是建立在相关度基础上的,这样就造成这样一个事实:主题蜘蛛工作目标的不确定性,也就是说蜘蛛工作之前不知道要爬取那些页面,只是根据蜘蛛搜索算法和相关度算法去工作,收集到的页面就是最后的结果。但是并不是所有的主题蜘蛛对未来的结果浑然不知,如OA主题蜘蛛在工作之前就知道未来结果的范围,因为OA蜘蛛的目标是收集所有的论文中的OA论文,而所有论文的数据源及集合元素是可数的、确定的。
  OA主题蜘蛛的衡量指标主要是爬全率、效率、对源网站造成的负担,更注重系统性和时效性。系统性表现在两个方面:1)要包括尽可能多的OA数据库;2)要收集每个OA数据库中所有的OA文献。所谓时效性就是当没挂OA数据库有新的OA文献时要能及时发现。签于OA主题蜘蛛目标的特殊性,通用主题蜘蛛的工作机制就不能应用于OA主题蜘蛛,就需要对OA源网站结构和页面进行分类,进而设计出针对性工作机制。
  目前关于网站页面分类研究主要集中于自动通用分类方法的研究[1-3] [4-6] ,而对专用领域网站结构和页面分类的研究成果则不多见,文献[7] 对Blog的页面进行了分类,对Blog社区进行规律性研究和发现等,针对Blog网页的特点与规律,提出一种根据网页结构和关键字计算相似度的方法识别Blog网页。文献[8] 针对如何把面向桌面计算机的网页直接转换为面向手机等移动设备显示的网页的应用,提出了页面划分、自动定位等技术。本文通过对20种典型开放存取相关期刊网站的结构和页面进行抽象、统计、分析、归纳,进而总结出文献类网站的结构和页面分类,为OA蜘蛛工作奠定基础。

2 期刊网站样刊选择
  遴选了20家期刊网站进行分析,这些期刊大多是OA期刊,考虑到OA将来的发展,也选取了少量目前不是OA期刊的网站。表1给出了选择的20种期刊的主要属性。
  期刊遴选的原则包括:① 兼顾国内外期刊;② 兼顾不同的语种;③兼顾不同的收录数据库,如EI、SCI收录期刊、中文核心期刊、中国科技核心期刊、普通期刊。④兼顾不同的出版集团,选择了Springer、Elsevier、Narure、Taylor & Francis、IEEE的期刊。⑤兼顾不同学科。⑥兼顾不同的网站结构,有的期刊网站只有一种期刊,有的网站包括了多个期刊,⑦兼顾期刊网站开发单位。国内期刊网站目前大多采用ScholarOne、三才、马格泰克、勤云等公司提供的系统,少数网站为杂志社自行开发;国外则采用Scholar One公司的系统,一些大的出版集团则是自己开发。
  期刊选择无倾向性。在随机选择期刊后,不能再行剔除。



3 期刊网站结构分析

  通过对这20种期刊网站的分析,得出如图1所示的8种链接结构。



  不难发现,图1中8种网站结构存在以下特点:
  1) Surface Web:所有源期刊网站都是Surface网站,蜘蛛从期刊网站入口进去即可简单遍历所有论文。
  2) 聚类:20种期刊,只有8种网站结构。也就是说不同期刊网站的网站结构可能是相同的。随着调查范围的扩大,聚类现象将更加明显。聚类的另外一个表现就是页面种类都具有相似性,都包括期索引页面、目录页面、元数据页面、全文页面,而且只需爬取这些页面即可获得全部文献的所有信息。
  3) 树形结构:期刊网站都是树形结构,期刊论文入口唯一,论文内容仅是网站的一个分支的枝叶内容的集合,而且网站中一个枝节可以包括所有论文。
  4) 存在干扰。期刊网站除了论文内容外还有其它的非论文内容,如动态、杂志社简介等论文蜘蛛不关心、需要摒除的内容。

4 期刊网站网页分类
  4.1 期刊网站网页种类定义
  通过对所选20种期刊网站的页面结构分析,发现期刊论文网站页面可以分为索引页面、期目录页面、论文元数据页面和全文页面等4类形式。
  4.1.1 索引页面
  定义1:索引页面就是包括期刊出版年度和期数的页面。
  说明:索引页面不一定仅仅包括年度和期数相关内容。
  索引页面又分为年度索引和期索引页面。
  定义2:年度(卷)索引页面就是包括期刊出版年度(卷)的页面。
  定义3:期索引页面就是包括某个出版年度内所有出版期数列表的索引页面。
  关于年度索引和期数索引页面的组合,发现了2种组合方式。
  1)年度索引和所有期索引直接包含在一个页面中。大多数期刊网站采用此方式,如《宇航学报》、《西安电子科技大学学报》、《Journal of Zhe Jiang University Science》、《American Journal of Environmental Sciences》、《Demographic Research》,具体参见http://www.yhxb.org.cn/oa/dlistnum.aspx。
  2)年度索引和期数索引集成到一个页面,但是在页面显示时每次只能显示一年的期索引,通过点击页面的年度链接后才出现对应年度的期索引页面。如CNKI、Plos Medicine等。
在调查的20种期刊中,没有使用独立的年度索引页面的期刊网站。
  4.1.2 期目录页面
  定义2-4:期目录页面就是包括某期或者多期论文标题的页面。
  期目录页面又分为单期目录页面和多期目录页面。
  定义2-5:单期目录页面就是包括某期所有论文标题的页面。
  定义2-6:多期目录页面就是包括多期所有论文标题的页面。
  期目录页面根据是否分页显示又可分为不分页期目录页面和分页期目录页面两种。在不分页期目录页面中,某一期所有论文标题在一个页面全部显示出来。如《宇航学报》,参见http://www.yhxb.org.cn/oa/scriptlsit.aspx?kind=Issue&issnum=01期&year=2009年。分页期目录页面就是由于某期论文数目较多,把论文标题分为多页显示,通过“上一页”、“下一页”等链接实现论文遍历。如《针灸临床》杂志。每页显示的论文篇数由设计人员在设计时设定,也可由用户或读者来设置。
  单期目录页面中分页模式和不分页模式在被调查的20中期刊中都有样例。
  在期目录页面上,除了论文标题之外,可能还有作者、页码、等信息,仅仅包括论文标题的期目录页面在调查样刊中没有发现。
  多期目录页面大多采用分页模式,大多是按年组织的,因此也可称之为年度目录页面。如《软件学报》的目录是按年组织的,年度目录中把该年出版的所有期的文章目录列出来。
多期目录页面中采用不分页模式的在被调查期刊网站中没有发现样例。
  4.1.3 论文元数据页面
  定义7:论文元数据页面就是可用作抽取论文元数据的数据源的页面。
需要说明的是,一些期目录页面,也包括了论文标题、作者、页码、期数等多种元数据,但是由于在后续数据抽取中不是从该页面中抽取元数据的,因此这种情况下的期目录页面不被称为论文元数据页面。
  论文元数据页面又分为单论文元数据页面和多论文元数据页面。
  定义8:单论文元数据页面就是含有一篇论文也仅仅包括一篇论文元数据的页面。
不同网站提供的元数据种类不同,包括论文标题、作者、摘要、关键词等,有些网站还包括了参考文献、DOI、作者简介等。http://www.yhxb.org.cn/oa/DArticle.aspx?type=view&id=08401是《宇航学报》网站的论文“复杂流场下气动载荷的多样性”的元数据页面,是一种单论文元数据页面。
  定义9:多论文元数据页面就是包括多篇论文元数据的页面。
  一般来说,多论文元数据页面的篇数为该期论文数。
  在被调查的20中期刊网站样例中,多论文元数据页面全部采用期目录、论文元数据复合页面。
  定义10:期目录、论文元数据复合页面就是既包括某期论文目录又包括该期中所有论文元数据的页面。
  在期目录、论文元数据复合页面中,需要点击某篇论文标题,该篇论文的元数据才会显示。显示出来的论文元数据部分有的网站可以关闭,有的网站则不能关闭;有的网站需要把请求回送服务器,有的则采用客户端脚本实现。
通过对20种被调查期刊的统计发现,中文期刊网站都采用了单论文元数据页面,国外部分期刊网站采用了期目录和论文元数据复合多论文元数据页面。
  有的元数据页面把要提供的元数据全部集成在一个页面上显示,有的则是把必需元数据、重要元数据和部分扩展元数据集成在一个页面显示[9],而把参考文献等扩展元数据放在其它页面显示。
  4.1.4 全文页面
  定义2-11:全文页面就是包含某篇论文全文内容的页面。
  全文页面大多为PDF格式,个别提供HTML格式和PostScript格式。PDF格式能保持原来排版的样式,另外,排版文件转化为PDF文件花费时间少;HTML格式访问速度快,便于搜索引擎收录,但是其制作发布花费时间长。
  OA期刊论文页面大多可以直接点击全文链接即可打开。有些期刊出于各方面的考虑,需要注册登陆后才能打开;有些网站为了防止盗链采用了Java脚本,打开全文链接需要发送信息回传给服务器,服务器返回真正链接地址才可访问;有些网站为防止蜘蛛爬取造成的网站负载过重,规定每个IP每天只能下载规定篇数的全文,如中国科技论文在线。
  4.2 期刊网站网页特性
  通过对表1所列期刊网站各类页面链接的分析,发现源期刊论文页面存在以下特性:
  1)链接唯一性。每一类论文页面的链接都有明确的特征。如《宇航学报》的期索引页面链接地址都采用“oa/scriptlsit.aspx?kind=Issue&issnum= &year=”的格式,而论文元数据页面则全部采用“/OA/DArticle.aspx?type=view&id=”的格式。
  2)群聚性。同一种类型的页面链接会积聚在一起,可能是部分积聚在一起,也可能一个网站所有的同类页面链接积聚在一起。如期目录页面中一期论文的元数据页面链接是积聚在一起的,年度索引中可能会包括一个杂志的所有期目录链接。

5 结束语
  根据上面的分析,可以设计出满足要求的蜘蛛工作方案。针对大多数期刊网站设计一个通用OA蜘蛛,蜘蛛爬取不同期刊文献时,采用各自的配置文件。蜘蛛的工作可分为卷期索引获取阶段、期目录获取阶段、论文元数据获取阶段、全文爬取4个阶段。

参考文献:
[1] Sebastiani F. Machine Learning in Automated Text Categorization[J]. ACM Computing Surveys. 2002, Vol. 34(No. 1): 1-47.
[2] 汤亚玲,秦锋. Web使用挖掘下的Web页面层次分类技术研究[J]. 情报学报. 2008, 2008年27卷(3期): 351-356.
[3] 胡飞. 基于标记树的Web页面区域划分和搜索方法[J]. 计算机科学. 2005, 2005年32卷(8期): 182-185.
[4] Sudarshan Chawathe H G J H. The TSIMMIS project: Integration of heterogeneous information sources[C].proceedings of IPSJ Conference. 1994.P7-18
[5] S Dumais H C. Hierarchical classification of Web content[C].Proceedings of the 23rd annual international ACM SIGIR conference on Research and development in information retrieval. Athens, Greece , 2000.P256-263
[6] William W. Cohen Y S. Context-sensitive learning methods for text categorization [J]. ACM Transactions on Information Systems. 1999, Vol. 17(No. 2): 141-173.
[7] 郑德权,张迪. Blog网页分类与识别技术研究[J]. 通信学报. 2007, 2007年28卷(12期): 156-160.
[8] Yu Chen W M H Z. Detecting web page structure for adaptive viewing on small form factor devices[C].Proceedings of the 12th international conference on World Wide Web. Budapest, Hungary , 2003.P225-233
[9] 钱建立,吴广茂,张薇. 中文期刊论文元数据的选取和实现[J]. 情报杂志. 2008, 2008(10): 40-42.

注:本文将发表于《情报杂志》2009年第6期
作者为:钱建立,刘军兰,张薇。

  依据本文思想设计的网络蜘蛛已经在“开网”(http://www.paperopen.com)中得到了应用,目前已经爬取了180多万篇OA论文,其中有中国期刊近200家。







https://wap.sciencenet.cn/blog-65283-230471.html

上一篇:电子纸阅读器产品测试报告[转]
下一篇:送一程,卢武铉老兄  
收藏 IP: .*| 热度|

1 赵星

发表评论 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-21 15:58

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部