集中度与均匀度 ——宏观层次的科学计量指标
||
博主按:下面是我2001年间校译的比利时鲁索教授的一篇文章,译者为周萍,她当时工作于中信所,现在是浙江大学教授。译文发表于某会议文集,大概是《科研评价与大学评价》,蒋国华主编,红旗出版社,2002。点击以下附件可看到文中的曲线图。
集中度与均匀度
——宏观层次的科学计量指标
Ronald Rousseau
KHBO-Department of Industrial Sciences and Technology
Zeedijk 101, B-8400 Oostende, Belgium
摘要
集中度和均匀度的计算方法各式各样,其共同特点是试图测度不均匀性。我们将只讨论描述项对源的分散性的集中度,这种集中度与所考虑的源的数量无关。集中度可用作区域间收敛或离散的指标。利用中国各行政区(省、自治区和直辖市)发表量的数据,本文讨论了作为科学计量指标的各种集中度测度方法的用途。
文章从三个方面对集中度进行了研究,每一方面得出不同的Lorenz 曲线,并导致不同的偏序。在每种情况下,我们提出了遵从相应偏序测度的方法。我们具体研究了以下方面:
l 经典Lorenz曲线与集中度度量
l 与内标准或外标准进行比较
l 源不变,对项进行比较
集中度的不同形式与相应的计算方法是研发体系动态状况的重要指标。我们认为这个问题过去被过度忽略了。
引言
在1998年12月举行的大学研究开发定量评估北京国际研讨会暨全国科学计量学与情报计量学第五届年会上,我荣幸地就大学与科研机构研究评估作了发言(Rousseau, 2000a)。本文讨论的主题在应用上更普遍,然而却与科学计量指标的构建有关。我们将探讨集中度与均匀度的研究,并将说明这种研究如何与许多重要问题如生物多样性研究、地区间经济不平等以及研究评估等相关。
作为引言,让我们考虑以下陈述是否正确:
l 科学的一个特征是,科学系统的参与者之间有严重的分布不均状况:作为作者的科学家人数,作为文章来源的期刊数,作为引用来源的文章数,作为科学知识的生产者的研究机构数与国家数。
l 所有搜索引擎在互联网上所能覆盖的网站网页占总数的比利是大致相同的。
l 中国不同地区的收入水平正在相互趋近。
l 世界上的收入不平等在增加,即在世界范围内富人与穷人之间的收入差距越来越大。
l 生物多样性在热带地区正以惊人的速率在减少。
只有很好的理论和适当的衡量不均度或集中度的方法,才能回答这些问题。然而,研究不均度并非易事。有不同的集中度度量,其共同点是都试图度量不均匀性。而关于集中度却没有一个唯一的数学定义,也可以说这是一个定义很不严谨的概念。但我们在许多领域也能碰到“松散”的定义,即使最常用的统计参数,如平均值,就有几种定义方法:算术平均值、几何平均值以及调和平均值。本文将解释不同集中度概念之间的区别。
集中度基本上可以描述为:
项在源之间的相对分配。
我们将只讨论描述项对源的离散性的集中度,这种集中度与所考虑的源的数目无关。与这种集中度相反的概念是“平均度”。在生态学研究中,平均度具有很重要的意义(Nijssen et al., 1998; Rousseau & Van Hecke, 1999)。我们将自己的很多研究结果用集中度来表述,其实,这些结果也可用平均度很好地表述。把源数考虑在内的集中度度量称为第二种集中度(Rousseau, 1992a)。在生态学上与之相反的概念是多样性或异种性度量(Rousseau & Van Hecke, 1999),本文对此不作讨论。
集中度度量不是质量指标,至少不是直接的质量指标。然而,如果科学政策措施的目的在于减少国家、地区或研究机构之间的不均度,那么这些度量可用作衡量政策计划成功与否的指标。的确,这种度量首先可用作所研究的体系中实体之间离散或收敛的指标。它们一般可用来对个人、研究群体、机构、地区、国家以及学科进行比较。
本文中我们从交叉分类数据结构(按两种方式分类)开始:行类有M行,列类有N列,M,N ³ 2。对这种矩阵的分析得出了不同形式的Lorenz曲线,这些构成了偏序的基础并最终得出集中度度量。用基于中国科学引文数据库(CSCD)的中国各行政区的发表量来说明作为科学计量学指标的各种集中度测度(Jin & Wang, 1999)。
本文是在第六届科技指标国际会议(2000年5月24-27日,荷兰莱顿)上的墙报论文的扩展版(Rousseau, 2000b)。
方法
假设有一个(M´N)矩阵,即二维表A,如表A所示。
表A
一个说明性例子。表中列表示每一种期刊上发表的文章数(J),行表示第一作者所在国发表的文章数(C)。
国家 | 国家1 | 国家2 | 国家3 | 国家4 | 总数:J |
期刊 | |||||
期刊1 | 10 | 20 | 100 | 70 | 200 |
期刊2 | 40 | 60 | 60 | 340 | 500 |
期刊3 | 50 | 20 | 40 | 190 | 300 |
总数:C | 100 | 100 | 200 | 600 | 1000 |
基于此表中的原始数据,我们衍生出其他数据和表格。表的最后一行是描述每个国家的文章分布的矢量:C=(100,100,200,600)。同样,描述每种期刊的文章分布的矢量则是最后一列:J=(200,500,300)。
从每一个国家,也就是每一列,可以得到一个分布矢量。对于国家1,该矢量为:(10/100,40/100,50/100)。用此方法对每一列进行运算可以得到分布(列)矢量表B。
表B
国家1 | 国家2 | 国家3 | 国家4 | |
期刊1 | 0.1 | 0.2 | 0.5 | 0.12 |
期刊2 | 0.4 | 0.6 | 0.3 | 0.57 |
期刊3 | 0.5 | 0.2 | 0.2 | 0.32 |
用类似的方法可以得到每种期刊的分布矢量(即每一行)。期刊1的分布矢量为:(10/200/,20/200,100/200,70/200)。由此可以得到分布(行)矢量表,即表C。
表C
国家1 | 国家2 | 国家3 | 国家4 | |
期刊1 | 0.05 | 0.10 | 0.50 | 0.35 |
期刊2 | 0.08 | 0.12 | 0.12 | 0.68 |
期刊3 | 0.17 | 0.07 | 0.13 | 0.63 |
最后,我们可考虑作为总体的表A的相对值,亦即每一矩阵元对整个矩阵的贡献,那么,所有矩阵元的总和为1。对表A实行这一程序,则得到表D。
表D
国家1 | 国家2 | 国家3 | 国家4 | 总相对分布 | |
期刊1 | 0.01 | 0.02 | 0.10 | 0.07 | 0.20 |
期刊2 | 0.04 | 0.06 | 0.06 | 0.34 | 0.50 |
期刊3 | 0.05 | 0.02 | 0.04 | 0.19 | 0.30 |
总相对分布 | 0.10 | 0.10 | 0.20 | 0.60 | 1.00 |
注意,表D单元(i,j)中的数值不等于表B和表C中相应的数值乘积,只有统计上独立的变量才会如此。
现在,我们可以分别分析每个国家的论文对期刊的集中度,亦即我们将集中度测度值与表B中的每一列矢量相关联。同样,我们也可分别研究每种期刊的论文对国家的集中度。那么,将集中度测度值与表C中的每一行矢量相关联。由此得出的集中度用经典Lorenz曲线(Lorenz,1905)表示,将在本文下一节讨论。
经典Lorenz曲线与集中度度量
假设有N个源,令X=(x1, x2,¼, xN)为丰度矢量,即xi表示由第i个源产生的项数量,i=1, ¼, N。回忆一下经典Lorenz曲线是如何构成造的。首先,将源按其丰度大小(从高到低)排序,然后以源的累计比例为横坐标,以同样从高到低排序的项的累计比例为纵坐标画图。注意比例的用途:仅仅比例因子不同的N-数组其Lorenz曲线相同。同样地,仅仅分矢量顺序不同的矢量也由同一条Lorenz曲线表示。这些矢量是等价的,一般而言,具有相同Lorenz曲线的矢量(源的数量可能不同)是等价的。因此,矢量(1,2,3,4),(2,4,3,1),(1,1,2,2,3,3,4,4)和(9,12,6,3)均等价。图1中有3条曲线,对角直线D是一条理想均匀度(最低集中度)的Lorenz曲线,用作参考线。如果有任何变化,Lorenz曲线就会移到理想均匀度曲线的上方。曲线B和C代表(4,3,2,1)和(7,1,1,1,0)的Lorenz曲线。Lorenz曲线决定了一个偏序,在矢量集中用-<<表示。当然,如果矢量X的Lorenz曲线在矢量Y的Lorenz曲线之下(更确切地说,X的Lorenz曲线没有任何部分严格位于Y的Lorenz曲线之上),那么,X-<<Y。与理想均匀度曲线相应的矢量是该偏序集中的最小矢量。这种有序只是局部的,其含义是,对应于相交的Lorenz曲线的矢量不可比较。
图1 (4,3,2,1)(曲线B)和(7,1,1,1,0)(曲线C)的“正常”Lorenz曲线,D表示对角线(即理想均匀度线)
![]() |
遵从这种偏序的函数称为集中度度量。例如:修正Simpson(或Herfindahl)指数(lm)、变差系数(V)、熵值(H)、Gini指数(G)以及Lorenz曲线长度(LOR)。这些指数的定义如下(Nijssen et all, 1998):
矢量X的修正Simpson或Herfindahl指数用lm(X)表示,定义如下:
变分系数的定义如下:
V(X) = s/m, (2)
其中,s表示标准偏差,m表示矢量X的平均值。
熵集中度H定义如下:
Gini指数G:该集中度度量的定义如下:
其中xi从大到小排列,m代表集合{xi}的平均值。很容易看出,G(X)等于Lorenz曲线与完美均匀度对角线之间的面积的两倍。因此,Gini指数之值在平等情况下等于零。例如,由于中国(不均衡的)经济发展,家庭收入的Gini指数已从1988年的0.382增加到1995年的0.452 (Khan & Riskin, 1998),由此可以回答引言中提到的一个问题。
最后,矢量X的Lorenz曲线的长度为 (Dagum, 1980; Rousseau, 1992a):
当然,也可研究表A或表D中的总集中度。除非能根据不同国家(或期刊)对集中度的分布将总集中度进行分解,这样做可能意义不大。而熵度量最适于这种情况。的确,如果将具有N个源的矢量X的熵度量表示为H(X,N),并且这些源可以再分为d个亚群,每个亚群有ng个源,那么,亚群g的集中度矢量可以表示为:
用mg表示其平均值:
因此,很容易证明:
公式(7)中,第一项为亚群集中度的加权和,也称为群内集中度。第二项表示群(亚群)之间的集中度,亦即所谓的群间贡献。如果所有群的平均值相同,该项为零。
最后需要说明的是,源的数目不是固定的,我们所提议的测度方法均满足所谓的重复公理,也就是说,矢量如(1,2,3),(1,1,2,2,3,3)和(1,1,1,2,2,2,3,3,3)的集中度或均匀度完全一样,这很明显,因为所有这些矢量具有相同的Lorenz曲线。
相对于表A、B、C和D中的数据的集中度度量值见附录。
处理集中度的第二种方法:与标准矢量比较
有时人们可能对项对源的集中度不感兴趣,而只想知道集中度与某一标准的差异。这种标准可以是内标准或外标准。如果数据以表格形式给出如表A或D,那么内标准可以是表的最后一行(代表国家的矢量C)或最后一列(代表期刊的矢量J)。外标准可以是不同国家的人口分布,用来与发表量相比较。
在第一种情况下,人们关心的是,论文对国家的集中度相对于一种特定期刊是否与相对所有期刊的集中度一样;或期刊对国家的分布是否与这些期刊的全球(发表)利用状况相同。在Viles—French文章中有一个使用内标准的例子,作者通过对有关主题t的文献的分布与系统中文献的总分布进行比较,探讨了主题t对分布体系的定域性。在外标准的情况下,人们关心的是该标准是否能“解释”观察到的不均匀性。如果观察数据的(相对)矢量与标准相符,说明所有不均匀性均可用此标准解释,例如不同国家间的发表量差异可用其人口差异来解释。以上两种情况都导致采用加权Lorenz曲线以及遵从这些曲线的度量。
加权Lorenz曲线的构造方法如下(Theil, 1967; Patil and Taillie, 1982; Rousseau, 1992a),令S=(S1, S2, …, SN)表示标准矢量,而X=(x1, x2, …, xN)表示需要与标准矢量进行比较的分布矢量。注意,此时指数必须对应。如果X表示发表数量,S表示人口数量,那么,xi和si必须针对同一国家Ci。进一步假设,S的任何分矢量不等于零,为了构建用作与标准比较的Lorenz曲线,将两个矢量的分矢量进行如下排序:
下一步,将矢量X和S归一化,得到矢量Ax和W,其中
注意,归一化并不改变顺序。最后,Lorenz曲线被定义为连接原点(0,0)和分矢量为以下数值的点的折线
对确定的标准而言,这些Lorenz曲线又一次在N个矢量的集合中引入了偏序。
图2 加权Lorenz曲线:X=(0.2, 0.1, 0.3, 0.4)相对于(0.1, 0.1,0.3, 0.5)的加权
遵从这种偏序的函数被称作不对称相对集中度的度量(Egghe & Rousseau,2001a)。“相对”这个词是指与标准比较,而“不对称”则强调标准的角色与所研究的矢量不能互换。这类度量的例子如下:
1) 不对称(或加权)熵度量:
2a) 不对称(或加权)变差系数的平方:
2b)另一种加权变差系数平方,与Simpson度量(或Herfindahl 指数)更相似:
3) 不对称(或加权)Gini指数:
该指数的解释与(未加权的)Gini指数一样,为Lorenz曲线与对角线之间面积的两倍。该度量(用内标准以及外标准)用于产业定域化的研究,定名为“定域Gini系数”(Krugman,1991;Zitt et al.,1999)。Krugman 采用了内标准,而Zitt et al. 采用了外标准(人口)。
4) 加权Lorenz曲线的长度:
关于这些函数遵从由加权Lorenz曲线导出的偏序的证明见(Egghe,2000;Egghe 与Rousseau,2001a)。
注意,所研究的矢量和“标准”自然具有相同的源数。
第三种方法:同源的项比较:绝对差
这种方法是直接比较相对矢量。通过取差来比较相同源(但处于不同时段)的相对贡献。这些差可以是正或负,并与零-矢量相比较。这就意味着在相对分布中,绝对差变得很重要了。
这里,也可构建一种Lorenz曲线。由于Egghe教授首先提出这种曲线,我们将之称为Egghe-Lorenz曲线。其做法如下:令X=(xi)i=1, 。。。N , 而Y=(yI)i=1, …, N是两个N-矢量,并且A=(ai)i=1, …, N ;B=(bi)i=1,…., N 表示其相对矢量(所有分矢量的和等于1),然后将差矢量的分矢量D=(di)i=1,…., N (其中di=ai-bI)从大到小排列。最后代入
将原点同具有以下坐标值的点连起来,就获得Egghe-Lorenz曲线
图3 (B,A)的Egghe-Lorenz曲线,B=(0.6, 0.2, 0, 0.1, 0.1);A=(0.1, 0.2, 0, 0.2, 0.5)
注意,此曲线终点始终为(1, 0)。与其它Lorenz曲线相似,该曲线也会引出偏序,遵从此偏序的函数便是我们所感兴趣的。这种函数叫做对称相对集中度的Egghe度量(Egghe,1988,1990;Egghe — Rousseau,2001a)。这里“相对”也是指与标准比较。的确,人们将差矢量与所有零矢量相比较。这类度量的例子如下:
其中,di从大到小排列,这正是Egghe-Lorenz曲线以下的面积。另一个例子是
这是相对差矢量的修正的Simpson或Herfindahl指数。
同样,可以用Egghe-Lorenz曲线的长度:
在同源的项比较中,采用相对差也是可以的,但在此不作讨论。
我们想提一下,不同形式的Lorenz曲线之间的确切关系以及适当的测度,均来自Egghe研究的一种广义数学理论。
应用
作为一种应用,我们研究了中国各行政区(省、自治区、直辖市)1989-1998年发表量的不均度。数据来源于中国科学引文数据库(CSCD)和中国科学计量指标(Jin & Wang, 1999; Jin, 2000)。由于种种原因,香港、台湾省和澳门未包括在内。由于重庆1997年才成为直辖市,在我们的数据中,重庆被视为四川的一部分(因此,我们总共有30个地区)。在这第一个例子中,我们仅限于计算变差系数。我们注意到,不同的可接受的不均度度量的差异在于对特定转换的敏感度不同。表1是中国各行政区发表量数据的变差系数。
表1 各地区发表年与发表量不均度,用变差系数表示
年份 | 变差系数 |
1989 | 1.479 |
1990 | 1.436 |
1991 | 1.415 |
1992 | 1.407 |
1993 | 1.389 |
1994 | 1.394 |
1995 | 1.408 |
1996 | 1.215 |
1997 | 1.232 |
1998 | 1.232 |
显然,在中国各行政区之间存在很大的不均度,图4显示的是1989-1998年间发表不均度的变化。一般而言,中国不同地区发表量的不均度在缓慢下降。1996年的中国科学引文数据库更新版显著地加快了这一进程。我们还根据SCI和中国科技论文与引文(CSTPC)数据库,计算了1998年中国地区的发表量的变差系数,分别为1.680和1.003。同年Gini指数是0.642 (SCI),0.551 (CSCD)和0.494 (CSTPC),这些差异非常显著。
发表量不均度
图4 由变差系数度量的发表量不均度(CSCD数据)
由变差系数测度出的同期人口分布不均度大约为0.68,该数据比发表量不均度小很多。但这一结果并不令人吃惊。人们多次(Allison,1980;Rousseau,1992b)发现如下现象:即“使用”的不均度通常大于“可用”的不均度。可用-使用配对的例子有:发表量与引用量、公共图书馆的馆藏CD量与借出量,还有我们这里讨论的人口数与发表量。有人提出(Rousseau,1992b),这种现象的深层机理就是一种正强化。受奖励的行为继续进行,而未获奖的行为将停下来。表2是各行政区历年的不均度。
表2 用变差系数表示的历年来发表量(每一地区)不均度
地区 | 变差系数 | 排名 |
安徽 | 0.401 | 24 |
北京 | 0.320 | 25 |
福建 | 0.435 | 17 |
甘肃 | 0.228 | 30 |
广东 | 0.608 | 4 |
广西 | 0.669 | 3 |
贵州 | 0.477 | 13 |
海南 | 0.411 | 21 |
河北 | 0.503 | 11 |
黑龙江 | 0.557 | 6 |
河南 | 0.502 | 12 |
湖北 | 0.449 | 15 |
湖南 | 0.677 | 2 |
内蒙古 | 0.768 | 1 |
江苏 | 0.431 | 18 |
江西 | 0.530 | 9 |
吉林 | 0.278 | 29 |
辽林 | 0.316 | 26 |
宁夏 | 0.560 | 7 |
青海 | 0.316 | 27 |
陕西 | 0.417 | 20 |
山东 | 0.541 | 8 |
上海 | 0.304 | 28 |
山西 | 0.601 | 5 |
四川 | 0.404 | 23 |
天津 | 0.420 | 19 |
西藏 | 0.458 | 14 |
新疆 | 0.405 | 22 |
云南 | 0.515 | 10 |
浙江 | 0.443 | 16 |
内蒙古历年的发表量的不均度最大,而甘肃和吉林是最稳定的地区。大城市北京和上海的历年发表量也很稳定,无可惊奇的是,我们看到由于广东发表量的相对增加,其便差系数排在第四位。
作为外标准应用的例子,我们依据人口(外标准)计算了1998年的V2w,由CSCD得出V2w=5.59,CSTPC得出的V2w=3.39,由SCI得出的V2w=11.19。
表3 反映对称相对集中度的V2r值,与相邻年份发表量的比较(CSCD数据)
年份 | V2r | 排名 |
89-90 | 0.0068 | 2 |
90-91 | 0.0021 | 6 |
91-92 | 0.0052 | 3 |
92-93 | 0.0021 | 6 |
93-94 | 0.0033 | 5 |
94-95 | 0.0046 | 4 |
95-96 | 0.0685 | 1 |
96-97 | 0.0021 | 6 |
97-98 | 0.0015 | 9 |
表4清楚显示了1996年CSCD最新数据的作用,进一步说明最近的相对变化已经缩小。95-96年的对称相对集中度度量值显示出其敏感性。我们认为,这种观测支持这种度量的应用。
我们注意到,均匀度度量可以用来以精确的数学方式来定义核心的概念(Egghe & Rousseau, 2001b)。
结论
准确说明集中度和均匀度度量的目的是很重要的。往往需要测度集中度的不同侧面。不同形式的集中度(及其相反的均匀度)是过去被忽略得太多的重要指标。这种指标对从事科学管理者以及对研究科学界的社会结构的人都有用。
计算发表量只是评估过程的第一步,而计算引文量则是第二步。显然,每种发表物的影响或引文量是一种更高水平的评价。采用集中度或多样性测度,可对基金分配和因此而导致的产出提供一个客观的视角 。假设许多研究群体获得相同的投入,那么,因此而导致的对其产出的不均度度量是系统总体不平衡的有效指标。另一方面,假设起始位置便不平衡,研究群体或机构具有不同的起始条件,那么,比较投入与产出的不均度又将产生一个有关系统整体业绩的有效指标。我在以前一篇论文中说过(Rousseau,2000a),数据包络分析(DEA)是另一种研究投入-产出关系的方法。
致谢
在此感谢比利时LUC 的Leo Egghe教授和中国科学院文献情报中心的金碧辉给与的帮助与支持,还要感谢中国科技信息所的王艳博士为我提供1998年CSTPC数据。
(中国科技信息研究所 周萍 译,武夷山 校)
参考文献
P.D. Allison (1978). Measures of inequality. American Sociological Review, 43, 865-880.
C. Dagum (1980). The generation and distribution of income, the Lorenz curve and the Gini ratio. Economie Appliquée, 33, 327-367.
L. Egghe (1988). The relative concentration of a journal with respect to a subject and the use of online services in calculating it. Journal of the American Society for Information Science 39, 281-284.
L. Egghe (1990). A new method for information retrieval based on the theory of relative concentration. Proceedings of the 13th International Conference on Research and Development in Information Retrieval (SIGIR) (Vidick, ed.), Brussels, 469-493.
L. Egghe (2000). Construction of concentration measures for general Lorenz curves using Riemann-Stieltjes integrals. Preprint.
L. Egghe and R. Rousseau (2001a). Symmetric and asymmetric theory of relative concentration and applications. Scientometrics (to appear).
L. Egghe and R. Rousseau (2001b). The core of a scientific subject: an exact definition using fuzzy set theory (work in progress).
B. Jin (2000). The development of Chinese Scientometric Indicators. Paper presented at the Second Berlin Workshop on Scientometrics and Informetrics/ Collaboration in Science and Technology, 1-4 September 2000.
B. Jin and B. Wang (1999). Chinese Science Citation Database: its construction and application. Scientometrics, 45, 325-332.
A.R. Khan and C. Riskin, C. (1998). Income and inequality in China: composition, distribution and growth of household income, 1988 to 1995. China Quarterly, 154, 221 - 253.
P. Krugman (1991). Geography and Trade. Leuven: University Press.
M.O. Lorenz (1905). Methods of measuring concentration of wealth. Journal of the American Statistical Association 9, 209-219.
D. Nijssen, R. Rousseau and P. Van Hecke (1998). The Lorenz curve: a graphical representation of evenness. Coenoses 13, 33-38.
G.P. Patil and C. Taillie (1982). Diversity as a concept and its measurement. Journal of the American Statistical Society, 77, 548-561.
R. Rousseau (1992a). Concentration and diversity in informetric research. Ph.D. thesis, University of Antwerp (UIA).
R. Rousseau (1992b). Concentration and diversity of availability and use in information systems: a positive reinforcement model. Journal of the American Society for Information Science, 43, 391-395.
R. Rousseau (1998). Evenness as a descriptive parameter for department or faculty evaluation studies. In: Informatiewetenschap 1998 (De Smet, ed.). Antwerpen: Werkgemeenschap Informatiewetenschap, 135-145.
R. Rousseau (2000a). Bibliometric and econometric indicators for the evaluation of scientific institutes (in Chinese). In: R&D Evaluation and Indicators, (Jiang Guo-Hua, ed.), Beijing: Red Flag Publishing House, 16-37.
R. Rousseau (2000b). Concentration measures as scientometric indicators. Book of Abstracts. Sixth International Conference on Science and Technology Indicators (Leiden, 24-27 May 2000), p. 92-93.
R. Rousseau and P. Van Hecke (1999). Measuring biodiversity. Acta Biotheoretica 47, 1-5.
Shorrocks, A.F. (1980). The class of additively decomposable inequality measures. Econometrica, 48, 613-625.
Theil, H. (1967). Economics and information theory. Amsterdam: North-Holland.
C.L. Viles and J.C. French (1999). Content locality in distributed digital libraries. Information Processing and Management 35, 317-336.
M. Zitt, R. Barré, A. Sigogneau and F. Laville (1999). Territorial concentration and evolution of science and technology activities in the European Union: a descriptive analysis. Research Policy, 28, 545-562.
附录
表A中的集中度度量值
总体
Gini | 0.495 |
Theil | 0.439 |
修正的Simpson | 2.160 |
变差 | 1.079 |
Lorenz曲线长度 | 1.539 |
每行(期刊)
度量 | 期刊1 | 期刊2 | 期刊3 |
Gini | 0.400 | 0.450 | 0.433 |
Theil | 0.292 | 0.413 | 0.349 |
修正的Simpson | 1.540 | 1.922 | 1.804 |
变差 | 0.735 | 0.995 | 0.897 |
Lorenz曲线长度 | 1.513 | 1.542 | 1.522 |
每列(国家)
度量 | C1 | C2 | C3 | C4 |
Gini | 0.267 | 0.267 | 0.200 | 0.300 |
Theil | 0.155 | 0.148 | 0.069 | 0.162 |
修正的Simpson | 1.260 | 1.320 | 1.140 | 1.305 |
变差 | 0.510 | 0.566 | 0.374 | 0.552 |
Lorenz曲线长度 | 1.470 | 1.464 | 1.438 | 1.477 |
注意,根据Gini、Lorenz曲线长度和Theil所作排序与根据Simpson和变差系数进行的排序是不同的。这可以用对应的Lorenz曲线发生了相交来解释。
转载本文请联系原作者获取授权,同时请注明本文来自武夷山科学网博客。
链接地址:https://wap.sciencenet.cn/blog-1557-1408913.html?mobile=1
收藏