inforworld分享 http://blog.sciencenet.cn/u/rbwxy197301 教学和科研过程中的心得。

博文

h-b指数的应用研究

已有 4769 次阅读 2011-5-22 16:30 |个人分类:知识管理|系统分类:论文交流| h-b指数

 

h-b指数的应用研究

摘要:h-b指数是h指数系列指标中的一员。本文首先明确了研究h-b指数的内涵和确定方法。然后以中国学术期刊全文数据库为数据源,选择了图书情报学领域的20个主题词为研究对象,探讨了h-b指数的应用。研究发现,h-b指数在帮助研究人员定量判断学科研究主题的成熟度和选择高被引文献有一定的应用价值。

关键词:h-b指数 主题词  中国学术期刊全文数据库

1引言

美国加州大学圣迭哥分校的物理学家乔治•赫希(J.E.Hirsh)教授[1]2005年提出了一个新的评价指标——h指数。结合文献[2]研究结果,笔者认为国内外学者h指数的研究主要集中在两个方面,一是对h指数的形成机理、优缺点等进行理论上和实证分析,并根据它的不足进行改进。如叶鹰[3]研究了h指数和类h指数的形成机理,金碧辉和Rousseau[4]提出了h指数功能扩展的补充指标:R指数和AR指数。另一方面是通过h指数对研究人员、学术期刊、研究机构等对象进行应用研究。如邱均平[5]、张学梅[6]等利用h指数对图书情报领域的专家进行了评价研究,姜春林[7]h指数在学术期刊评价中进行了应用研究。

德国马普学会(Max Planck Institute)固态物理学的M. Banks2006年提出h-b指数 [8],他h指数拓展到度量科学主题,并提出了h-b指数。他通过对12种化合物和固体物理学领域的29个研究主题进行了实证分析,论证了h--b指数可以快速有效地确定一个学科中的重点领域, 指导研究者选择自己今后的研究主题和方向, 具有一定的学科普适性和广泛的适用人群, 值得进一步推广。JUDIT[9]则在Banks研究的基础上,详细说明了hb指数的计算过程,并以Google ScholarWeb of ScienceScopus为数据源,对web AND “link analysis”、“Web impact factor” OR “Web impact factors”等主题进行了实证分析。国内学者方慧和朱庆华[10]基于h-b指数验证了网络信息资源管理和知识管理等9个领域在国际上也处于热门研究状态。本文以国内图书情报学领域的20个研究主题为研究对象,对h-b指数的应用进行探索性研究。

2 h-b指数的概念及其确定方法

2.1 h-b指数的定义

文献[8]h-b指数定义为:在某一研究主题的文献集合中,有h篇论文每篇至少获得了h次的引文数, 其余的N-h篇论文中各篇论文的引文数都不大于h时,这个主题的h-b指数的值就是h

一个研究主题发文量较多,则表明它被研究人员关注的较多,但可能存在一些低质量的研究成果。被引次数是研究成果被学术同行关注的定量反映。尽管学者引用文献的行为非常复杂,但被引次数较多的文献通常是某研究领域影响力较大、质量较高的研究成果,这已经成为一种共识。h-b指数是从发文量和被引次数两个方面对某一研究主题进行综合衡量,它在研究主题成熟度的判定和高质量文献选择方面有一定的应用价值。

2.2 h-b指数确定

h-b指数的确定可以分为三个步骤。

首先是选择研究主题。目前主要有两种方式,一种方式是寻求学科专家的帮助,请他们帮助选择合适的主题;另一种方式是利用各种文献数据库或相关文献计量的研究成果,根据一定标准来确定需要研究的主题。如文献[10]就是根据赖茂生教授提出的我国情报学前沿领域进行实证研究。

第二是选择数据源。由于h-b指数的确定需要掌握成果被引的信息,因此引文数据库是最理想的数据源。国外学者经常使用的数据源是WoSGoogle ScholarScopus,国内学者经常使用的是中文社会科学引文索引(CSSCI)和中国引文数据库(CCD)。笔者在利用CCD检索过程中发现,其被引文献数据有时并不能完全按被引频次从高到低排序,而且不能一次性从特定的期刊集合中检索相关数据。本文中国学术期刊全文数据库作为数据源,检索结果表明其提供的数据更加准确和全面。

第三是在中国学术期刊全文数据库中利用专业检索得到符合研究目的的数据。

从主题的角度看,一个主题词出现在文章的题名、关键词、摘要和正文中都应该是检索目标,但从实际检索结果看,从题名中检索结果最为准确。因此本文的检索条件是检索词出现在论文的题名中。以信息检索为例,检索式为:

TI="信息检索" AND (JN="情报学报" or JN="情报理论与实践" or JN="大学图书馆学报" or JN="国家图书馆学刊" or JN="情报科学" or JN="情报杂志" or JN="情报资料工作" or JN="图书馆" or JN="图书馆工作与研究" or JN="图书馆建设" or JN="图书馆理论与实践"  or JN="图书馆论坛"  or JN="图书馆学研究"  or JN="图书馆杂志"  or JN="图书情报工作"  or JN="图书情报知识"  or JN="图书与情报"  or JN="现代图书情报技术"  or JN="中国图书馆学报" ) AND (YE=1999 or YE=2000 or YE=2001 or YE=2002 or YE=2003 or YE=2004 or YE=2005 or YE=2006 or YE=2007 or YE=2008)

1 “数据挖掘”被引文献排序结果

从图1看,系统共返回605条记录,将检索结果按被引频次排序后。根据前面h-b指数的定义可以发现,在这个数据集合当中,“信息检索”这个研究主题的h-b指数为26

3 h-b指数在研究主题成熟度判定的应用

3.1研究主题和数据源的选择

一个研究主题成熟的标志包括两个方面,一是有一定数量的研究成果,同时随着时间推移产生了一批有影响力的成果(本文将被引次数较多的文献界定为有影响力的成果)。结合h-b指数的概念,某主题的h-b指数越高,则其成熟度也较高。

本文以图书情报学作为研究领域,根据中国知网学术研究热点检索到图书情报与数字图书馆的303个热点主题的数据分析,选择了20个主题词作为具体的研究对象,并利用中国学术期刊全文数据库得到这些主题的h-b指数、发文量、被引文献数和文献总被引次数(见表1)。

1 研究主题及其h-b指数

序号

关键词

h-b

p1

c1

c2

序号

关键词

h-b

p1

c1

c2

1

数字图书馆

50

2241

1858

20021

11

信息构建

21

95

93

1279

2

信息资源

49

2435

2047

20839

12

信息组织

19

165

144

1432

3

信息服务

45

1417

1200

13480

13

信息管理

19

336

238

2041

4

知识管理

44

897

823

11000

14

知识共享

19

119

109

1159

5

知识服务

28

199

169

3156

15

信息共享

19

110

90

1167

6

搜索引擎

27

413

361

3714

16

信息咨询

18

186

152

1459

7

竞争情报

27

671

596

5092

17

信息技术

17

209

155

1095

8

信息检索

26

605

490

3778

18

信息集成

13

70

62

599

9

知识组织

21

150

139

1685

19

情报服务

13

83

63

413

10

数据挖掘

21

155

139

1530

20

情报检索

12

108

92

601

注:表1数据查询时间为2010730p1是发文量;c1是被引文献数;c2是被引文献被引的总次数。

3.2 数据分析

h-b指数与其它文献计量指标的相关性

从表1看,h-b指数与其它三个指标的相关性分别是0.910.920.95,这标明它们的相关性较强。整体上看,发文量、被引文献数和被引次数越多,则主题的h-b指数会越高。但具体到某些主题时,这个相关性不一定成立。如信息组织与信息管理的h-b指数均为19,但信息共享的发文量较少。这反映了h-b指数不仅与发文量有关,还与被引次数有较强关联性。信息构建与其它研究主题相比,虽然发文量较少,但是其被引文献数和总被引次数都相对较高,因此h-b指数也较高。

     ⑵基于h-b指数的主题成熟度划分

根据文献[8]的思路及图2所示,本文将研究对象分为三种类型。

2  20个主题词的h-b指数分布

第一类是“older topic”,本文指h-b指数大于40的主题。这类主题通常是学科领域内研究较早,且已经得到同行认可的研究内容。其表现为发文较多,且高被引文献较多(被引次数大于等于h次的文献)。这方面研究相对比较成熟,研究正在向更加细化和深入的层面发展。如数字图书馆、信息资源、信息服务、知识管理。

第二类是“hot topic”, 本文指h-b指数在2040之间的主题。这类主题应该是学科领域当前研究的热点问题,其表现为有一定发文量和高被引文献,在学科领域内的成熟度处于中等水平。如知识服务、搜索引擎、竞争情报、信息检索等。

第三类是“future hot topic”, 本文指h-b指数小于20的主题。这类主题的研究成果数量相对较少,其发展状态有两种情况。一种情况是指学科领域一些较新的研究内容,其研究还主要集中在一些少数的研究人员之间,如知识共享、信息集成等。另一种情况是由于主客观原因,研究内容有可能淡出研究人员的视野。如“情报检索”、“情报服务”是情报学领域的重要研究内容,但由于“情报”和“信息”界定上的模糊,许多研究人员在已经更多地使用“信息检索”、“信息服务”这样的主题词。

本文的检索时间范围确定在1999-2008年之间,每个主题的m值与其h-b指数正相关,因此在主题划分过程中没有使用这个指标。另外这种主题成熟度的划分结果是相对的,如果选择不同的主题词集合,其结果会有差异。利用h-b指数对主题成熟度进行判定时,要选择一定量的,而且是同一个概念层次的研究主题。

4 h-b指数在研究高被引文献选择中的应用

4.1引文、高被引文献及h-b指数

引文是作者、编者根据其认可的学术理念和规范对相关文献的阅读、筛选、取舍、利用的产物,是有利于表述、尤其是支撑其研究成果的他人文献或成果,是引用者自己认为“有用”的资料[9]。尽管利用引文数据来评价研究成果有一定局限,但是其客观性和准确性已经被学界认同。高被引文献则是指那些被引次数较多的文献。被引次数的多少可以有不同标准,本文将某一主题领域内,被引次数大于等于其h-b指数次的文献定义为高被引文献。通过一些提供文献被引频次的数据库,研究人员可以方便地确定某研究主题的高被引文献。

4.2数据分析

下面以“竞争情报”为例来探讨h-b指数在高被引文献选择中的应用。在中国学术期刊全文数据库中查询,18种图情学期刊上共发表题名包含“竞争情报”的论文671篇,其中被引用的文献有596篇,总被引5092次,被引率为89%。这反映出这些刊物上发表的“竞争情报”研究成果大部分都得到同行的关注和认可。根据h-b指数的定义,得到19992008年“竞争情报”的h-b指数为27,被引大于等于27次的共有31篇文献(见表2),共被引1299次。这些文献发文量占总体的5%,但被引却占总体的26%。笔者认为它们是国内“竞争情报”领域的高被引文献。

2 基于h-b指数的竞争情报领域的高被引文献(1999-2008年)

序号

被引文献

被引

1

邱均平,段宇锋. 论知识管理与竞争情报. 图书情报工作,2000,(4)

221

2

包昌火,赵刚,黄英,李艳. 略论竞争情报的发展走向. 情报学报,2004,(3)

66

3

李艳,赵新力,齐中英,. 技术竞争情报的现状分析. 情报学报,2006,(2)

53

4

包昌火,赵刚,李艳,黄英. 竞争情报的崛起——为纪念中国竞争情报专业组织成立10周年而作. 情报学报,2005,(1)

53

5

邱晓琳. 我国竞争情报研究综述. 情报理论与实践,1999,(3)

51

6

李正中,许蕾. 竞争情报行为的正当性与灰色信息收集方式的研究.情报学报,2000,(1)

49

7

岳剑波. 企业信息化与竞争情报系统. 情报理论与实践,1999,(2)

41

8

包昌火,黄英,赵刚. 发展中的竞争情报系统. 现代图书情报技术,2004,(1)

40

9

朱晓峰,许发见. 知识管理和竞争情报. 情报理论与实践,2000,(4)

40

10

张翠英. 我国竞争情报的发展策略. 情报学报,1999,(1)

39

11

陈峰. 论企业竞争情报系统的构建与运行——兼作企业竞争情报解决方案. 情报理论与实践,2002,(3)

38

12

侯颖锋. 企业反竞争情报研究. 情报理论与实践,2000,(6)

37

13

董新宇,吴贺新. 竞争情报的博弈论分析. 情报学报,2000,(4)

36

14

谢新洲,李娜,黄绍起. 我国企业信息化与竞争情报的实态调查(). 情报学报,2001,(3)

36

15

彭爱东. 一种重要竞争情报——专利情报的分析研究. 情报理论与实践,2000,(3)

35

16

谢新洲,包昌火,张燕. 企业竞争情报系统的功能. 图书情报工作,2002,(8)

34

17

邱均平,张蕊. 企业竞争情报系统效益评价分析.情报科学,2004,(6)

33

18

苗杰,倪波. 面向集成竞争情报系统的数据挖掘应用研究.情报学报,2001,(4)

32

19

陈峰,梁战平. 论定标比超方法在企业竞争情报实践中的应用.情报学报,2002,(2)

31

20

李国红,夏文正,秦鸿霞. 企业竞争情报与反竞争情报研究.情报科学,2001,(10)

31

21

陈峰,梁战平. 构建竞争优势:竞争情报与企业战略管理的互动与融合.情报学报,2003,(5)

30

22

秦铁辉,晏创业,王琳. 竞争情报与知识管理的互动关系.情报科学,2004,(7)

29

23

蒲群莹. 基于数据挖掘的竞争情报系统模型.情报杂志,2005,(1)

28

24

兰琼,卢达溶. 竞争情报与图书馆.情报科学,2003,(5)

27

25

秦铁辉,舒文芳,晏创业. 竞争情报与知识管理关系浅析.图书情报工作,2003,(11)

27

26

彭靖里,邓艺,刘建中,杨斯迈. 国内外竞争情报产业的发展与研究述评.情报理论与实践,2005,(4)

27

27

赵刚. 建立国家竞争情报体系:目标与原则.情报学报,2004,(3)

27

28

唐韬智. 竞争情报的SWOT分析法与竞争战略选择.情报杂志,2002,(3)

27

29

李娜. SWOT分析应用于竞争情报活动的实例研究——SWOT分析与“赛特”之成功.情报理论与实践,2000,(4)

27

30

范沈姗. 企业竞争情报──图书馆信息服务的新热点.图书馆理论与实践,2001,(1)

27

31

冯维扬. 竞争情报计算机系统模型分析.情报学报,2001,(1)

27

从表2还可以发现“竞争情报”领域这些高被引文献的以下特点:

⑴从发文时间看,这些文献集中在1999年到2006年,其中200020012004三年较多。这是由于论文被引往往有一个相对滞后和逐渐累积的过程,而且论文被引可能存在“马态效应”,即被引较多的文献被引的机率相对更大。从中也可以发现,h-b指数对于发文时间较长的文献在判定其影响力时比较适用。

⑵从发文期刊看,这31篇文献集中在《情报学报》(12篇)、《情报理论与实践》(8)、《情报科学》(4)、《图书情报工作》(3)、《情报杂志》(2篇)、《图书馆理论与实践》(1篇)、现代图书情报技术(1篇)。这反映出文献高被引与期刊的质量和学术期刊的专业取向有较高相关性。

⑶从作者来看,单个作者12篇,其它为合著文章,这个结果反映了合作成果相对更容易被引用。但由于数据量很小,这个规律不具有普遍意义。从表2还可以发现,包昌火、陈峰、邱均平、谢新洲、秦铁辉等人被引成果较多,他们都是“竞争情报”领域内有影响力的学者。这反映了文献被引过程中的“名人效应”,即主题领域有影响力的学者其成果相对更容易被研究人员引用。

5结束语

h-b指数是h指数研究领域的一个新指标,它是从研究主题的发文量和被引次数两个方面来考虑其影响力和成熟度。h-b指数与主题、数据源、数据质量等各方面因素都有较强的相关性,不同的数据源、不同的数据质量,其结果会有差异。另外,数据库都有一定的更新周期,利用它们确定某一研究主题的h-b指数时应该注意选择一个数据稳定的时间段,防止不同时间检索结果不同造成数据的不一致。它作为一个简单而易于理解的复合指标,其适用性还有待于更多的实证研究。

参考文献:

[1].J.E.Hirsc. An index to quantify an individual’s scientific research outpu[EB]t.http://xxx.arxiv.org/format/physics/050802

[2]魏瑞斌,宋歌. h指数研究综述与实证统计分析[J].中国科技期刊研究,2009.20(2):220-224

[3]叶鹰.h指数和类h指数的机理分析与实证研究导引[J].大学图书馆学报,2007(5)25

[4]金碧辉,Rousseau Ronald; R指数、AR指数:h指数功能扩展的补充指标[J].科学观察,2007(3):1-8

[5]邱均平,缪雯婷.h指数在人才评价中的应用——以图书情报学领域中国学者为例[J].科学观察,200731722

[6]张学梅.用h指数对我国图书情报学界作者进行评价[J].图书情报工作,200751(8)485079

[7]姜春林等.H指数和G指数-期刊学术影响力评价的新指标[J].图书情报工作,200750(12)6365104

[8]Michael G. Banks.An extension of the Hirsch index: Indexing scientific topics and compounds[J].Scientometrics, 2006,69 (1) : 161–168

[9]JUDIT BAR-ILAN. The h-index of h-index and of other informetric topics[J]. Scientometrics, 200875(3): 591–605

[10]方慧,朱庆华.基于h-b指数的情报学前沿领域的验证及探讨[J].情报理论与实践,200932(11) 13-16

注:本文发表在《情报理论与实践》2011年第3期




https://wap.sciencenet.cn/blog-113146-446794.html

上一篇:Journal of Knowledge Management
下一篇:Soopat专利检索体验
收藏 IP: 220.178.150.*| 热度|

6 武夷山 杨华磊 贺天伟 许培扬 章成志 胡泽文

发表评论 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-9 07:09

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部