崔雷的窗口分享 http://blog.sciencenet.cn/u/zilu85 我在专业领域里的感受

博文

不能用SPSS分析共现矩阵

已有 25391 次阅读 2010-5-26 11:39 |个人分类:生物医学文本挖掘|系统分类:科研笔记| SPSS, 聚类分析, 共现矩阵, 数据矩阵

共现分析中矩阵的种类:无论是同被引聚类分析,还是词共现聚类分析,都要把相应的矩阵输入到聚类分析软件中,比如SPSS,我们给软件输进去的是什么?多数的研究输入的都是共现矩阵,就是行和列都是相同的元素,比如高被引论文或者高频主题词:

SMALL H, 1973

WHITE HD, 1981

SMALL H, 1974

KESSLER MM, 1963

MCCAIN KW, 1990

WHITE HD, 1998

CALLON M, 1986

CALLON M, 1983

CALLON M, 1991

PRICE DJD, 1965

CULNAN MJ, 1986

SMALL H, 1973

134

36

50

46

18

17

12

16

6

18

10

WHITE HD, 1981

36

84

20

8

45

29

4

4

4

6

17

SMALL H, 1974

50

20

80

21

11

14

8

8

4

20

4

KESSLER MM, 1963

46

8

21

71

5

7

1

2

2

11

1

MCCAIN KW, 1990

18

45

11

5

62

28

1

1

3

7

9

WHITE HD, 1998

17

29

14

7

28

59

4

1

2

10

5

CALLON M, 1986

12

4

8

1

1

4

57

17

20

5

0

CALLON M, 1983

16

4

8

2

1

1

17

50

18

6

0

CALLON M, 1991

6

4

4

2

3

2

20

18

43

2

1

PRICE DJD, 1965

18

6

20

11

7

10

5

6

2

43

1

CULNAN MJ, 1986

10

17

4

1

9

5

0

0

1

1

40

比如上图中,第一列是11篇高被引论文,对应的第一行也是这11篇高被引论文,格子中的数字是它们同被引的次数,比如第一篇论文和第二篇论文同被引了36次,而对角线上的数字(134,84等)是该论文总的被引次数。
我看到很多的论文中都使用这种矩阵进行分析。猜想可能是这样的矩阵容易获得。在SCI或者其他文献数据库中,同时输入两个引文或者两个主题词,就可以得到它们在含有这两个引文或者高频词的文献数目,也就是它们的共现次数。因此,可以说直接生成共现矩阵是一条比较便利的途径。那么,从数据库中文献空间的角度深入的想一下,共现矩阵是如何得来的呢?其实,在共现矩阵之前,还有一个更加基础的矩阵,就是数据矩阵。
比如上面的同被引矩阵,实际上是来自于下面的矩阵。第一列还是11篇高被引论文,而第一行的其他各列则是引用这些文献的来源文献,其中的“1”代表着该来源文献的引文中出现了对应的被引文献,而“0”则表示没有出现。
 
被引文献
来源文献1
来源文献2
来源文献3
来源文献4
来源文献5
来源文献6
来源文献7
来源文献8
来源文献9
SMALL H, 1973, J AM SOC INFORM SCI, V24, P265  
0
0
1
0
0
0
0
0
0
WHITE HD, 1981, J AM SOC INFORM SCI, V32, P163 
0
0
1
0
0
0
0
1
0
SMALL H, 1974, SCI STUD, V4, P17               
0
0
1
0
1
0
0
0
0
KESSLER MM, 1963, AM DOC, V14, P10             
0
0
0
0
0
0
0
0
0
MCCAIN KW, 1990, J AM SOC INFORM SCI, V41, P433
0
0
1
0
0
0
0
1
0
WHITE HD, 1998, J AM SOC INFORM SCI, V49, P327 
0
0
1
0
0
0
0
0
0
CALLON M, 1986, MAPPING DYNAMICS SCI           
1
0
0
0
0
1
0
0
0
CALLON M, 1983, SOC SCI INFORM, V22, P191      
0
0
0
0
0
0
1
0
0
CALLON M, 1991, SCIENTOMETRICS, V22, P155      
1
1
0
0
0
1
1
0
1
PRICE DJD, 1965, SCIENCE, V149, P510           
0
0
0
0
0
0
0
0
0
CULNAN MJ, 1986, MANAGE SCI, V32, P156         
0
0
1
1
0
0
0
0
0
 
实际上,在SPSS中,准许输入的应该是这种矩阵,聚类选项中数据类型选择是“binary”,相似系数我们选择的是“Ochiai”系数。下面是通过高被引论文-引文矩阵(数据矩阵)生成的聚类图:
  
如果把共现矩阵输入当做数据矩阵输入到SPSS中的话,实际上SPSS把二者的共现数据当做分类样本的一个属性值了,这样做似乎也有一定的道理,因为一篇文献(A)与其他文献(B,C等)的共现次数也可以被当作该文献(A)的属性,但是严格说来这样做是不合适的。下面是通过共现矩阵生成的聚类图:
 
仔细观察二者的差异,虽然在局部有相同的聚类结果,但是越到后来,分类的差异就越大,这就是很多研究中经常遇到的问题:虽然聚类了,但是实际上结果判读起来很别扭。所以,你在研究中一旦出现这种情况,你就不要强行去解释错误的结果了,应该检查数据和聚类方法是不是有错误了。
那么,如果手头只有共现矩阵该怎么办?其实可以输入共现矩阵的聚类分析软件还是很多的,比如SAS,还有很多免费的小软件,都具有生物信息学的特色,需要费心学习,一旦上了手,你会发现各具特色,其实也很好用的。
1.CLUTO - Software for Clustering High-Dimensional Datasets
2.Cluster Analysis and Visualization from Eisen Lab

 







https://wap.sciencenet.cn/blog-82196-328819.html

上一篇:为什么要引用(续2)
下一篇:路上联翩
收藏 IP: 218.60.51.*| 热度|

4 赵迎光 赵星 王继华 金小伟

发表评论 评论 (7 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-22 09:30

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部