崔雷的窗口分享 http://blog.sciencenet.cn/u/zilu85 我在专业领域里的感受

博文

共现分析的7个瓶颈(1)

已有 1561 次阅读 2022-2-18 09:52 |个人分类:生物医学文本挖掘|系统分类:科研笔记

1、共词聚类分析样本的收集

分析样本的收集是开展后续研究的基础。显然,对于特定的领域研究状况的分析,如果样本采集出现错误,或者收集不全,或者误检率过高,那么无论其后的分析过程多么严谨,所得到的结论都是不可信的。

对于书目信息的共现分析,涉及到的主要问题就是在文献数据库中如何制定检索策略的问题。目前普遍使用的检索策略有三种:

(1)字面检索(lexical queries):以纳米科技(Nanoscience and technology)为例,简单字面检索可以采用纳米的前缀进行检索[111213]

nano*

这种检索策略有可能带来较高的误检率,如NaNO3(硝酸钠),nanoliter(纳升)和nanoplankton(微型浮游生物)等;同时,很多相关的纳米技术的关键词很少采用nano*作为前缀(如生物技术领域),这又造成了检全率的降低。因此,有学者将所有与纳米相关的关键词组合起来,形成如下的检索式[14]

(monolayer* or (mono-layer*) or film* or quantum* or multilayer* or (multi-layer*) or array* or molecul* or polymer* or (co-polymer*) or copolymer* or mater* or biolog* or supramolecul*)

虽然这种做法实施起来很方便,但是误检不可预估,需要在检索后手工去掉不相关的记录,同时还要兼顾到由于学科发展,相关的关键词不断变化并迅速增加的情况,有学者发现核心相关关键词的增长要比纳米文献库的增长还要快[15]

即使邀请专家参与检索策略的制定,也存在着专家所采用的关键词集合也带有主观性的问题,查询结果不可避免地偏向于所邀请专家比较了解的领域。

(2)字面检索增强版(evolutionary lexical queries):在字面检索的基础上,对检索到的文献进行处理后形成更精确的检索策略。具体做法是先获取一个相关文献的核心集合,如纳米相关专业的核心期刊或者用nano*检索获得的相关文献集合,抽取这些文献的关键词,按照出现频次排序,判定高频关键词与该领域相关程度后,用相关的专业词检索获得文献集合,再对这些文献抽取关键词,反复迭代,直至关键词的数量和种类变化不大为止。也可以不进行迭代,直接请专家评价高频词。该方法通过反复迭代的方法自动获得关键词,减少专家投入,但是在确定检索策略开始最终检索前,应该请专家参与。【在医学领域,经常用到的两个文献数据库是pubmed和wos,pubmed提供规范化的主题词,而wos则仅仅提供关键词,给检索来来一定的麻烦。可以先在pubmed用主题词检索,下载文献记录后,抽词,统计频次,找到高频相关词】

(3)引文分析(citation analysis):首先找到几篇“种子”文献,将被“种子”文献引用的高被引文献定义为“核心”文献;进一步再检索引用“核心”文献较多的文献,作为最终文献集合。从原理上看,其实是检索“种子”文献的引文耦合文献,只不过是加上了被引次数的限制。

这种做法过程中涉及到阈值设定的问题,在实施过程中需要通过调整阈值来控制核心文献和最终文献的数量,由此来平衡专指性和覆盖面,控制漏检和误检,因此这种方法依然存在着主观性,但是与字面检索相比其人为干预少。最终文献集合中文献的综合性强,“噪音”也会多一些。另外,需要反复使用引文数据库查找引文,花费大量人力[1617]

(4)核心期刊(core journal):Leydesdorff等将期刊作为分析单位,通过期刊间相互引用数据构建期刊引用网络,然后利用“中间中心度”(测量科学期刊学科交叉程度的指标)定义出核心期刊和相关期刊,从核心期刊中抽取文献[18-19]

与使用词法检索和引文分析的方法相比,从数量有限的本领域专刊收集纳米技术文献是一个相对直接的做法。但是在核心期刊发表的论文只是覆盖了整个纳米科学和技术相关文献集合中的很小一部分。如果使用字面检索,每一个策略都能检索到500多种发表纳米技术文献的期刊,检索到的文献总数是Leydesdorff等所划定的10种核心期刊中的文献数的5-10倍;而且,随着技术的涌现和发展,发表纳米技术相关论文的期刊群也在改变,因此,基于十分有限数量的核心期刊进行分析其结果不会很一直可靠。

(5)分类体系:利用数据库中预置的分类代码获取文献,如中国知网(CNKI)和中国生物医学文献数据库(CBM)的可检索字段都包括了《中图法》的检索入口,同样对于专利文献也可以采用专利分类法来收集某个类目下的全部文献。这种方式检索到的论文检准率高,检全率会较低,同时会受到分类中类目设置和标引的人为因素的影响,但是对于一些要求侧重检准的分析任务可以考虑采用分类号检索。

(6)推荐的方法

根据所调查分析的范围大小,来选择样本采集的基本途径。

如果是较大的范围,如对学科专业(如“管理科学”、“情报学”和“文献计量学”等)的分析,我们采用Leydesdorff倡导的利用核心期刊分析整个学科专业的研究热点,整批的从本专业核心期刊下载论文,理由是可以利用期刊杂志的“杂”的属性,力求覆盖该学科专业的大部分内容,同时期刊中各个主题文献量的构成比也反映了当时该学科专业中各个主题的热度和研究人员感兴趣的程度;同时,对于一个学科而言,直接通过学科名字作为关键词检索则存在着更大的漏检率,如通过关键词检索“医学信息学”只能得到论述该学科专业的文献,而不是学科专业中的具体研究主题,如“医院信息系统”等。但是从实际操作角度出发,我们没有如Leydesdorff那样构建期刊引用网络,而是通过影响因子选取该学科专业的核心期刊,即根据期刊引用报告(JCR)中的分类,选取对应学科专业中IF值比较高的刊物,兼顾覆盖面广的综合性刊物,尽量避免特别专深和狭窄的刊物,注意到学科内各分支的均衡性。同时,听取专业人员有关期刊的内容和特点的意见。例如,如果分析医学信息学的研究热点,在期刊引用报告(JCR)选择医学信息学类期刊,其IF值排序的期刊列表如表1,这时我们选择2(JAMIA)、6(MIM)等综合性医学信息学期刊,而不将其他分支学科专业(如3医学互联网)或者侧重于其他专业(如1统计学)的期刊纳入分析。

对于覆盖面比较小的主题,如“糖尿病”,“同被引”等,则采用字面检索,广泛搜索到隐含在核心与非核心期刊中的相关文献记录。具体做法:在数据库中用主题词、关键词等途径检索到相关文献记录。如关于“引用研究”可以采用如下检索策略在WOS中检索:

(TI=(cite*) OR TI=(citing) OR TI=(citation) OR TI=(cited)) NOT TI=(Cited2)

未来的发展方向也许应该探索改进的字面检索(迭代算法)。对于样本采集的评价建议结合共现分析的实际目标和效果进行评价,而不仅仅是召回率等指标。

 






https://wap.sciencenet.cn/blog-82196-1325823.html

上一篇:Bicomb又有一个bug“非有效整数值”
下一篇:共现分析的7个瓶颈(2)
收藏 IP: 59.46.65.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-19 19:33

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部