linzhang1117的个人博客分享 http://blog.sciencenet.cn/u/linzhang1117

博文

消失的它:揭秘OpenAlex数据平台的机构信息缺失现象

已有 786 次阅读 2024-2-17 21:35 |系统分类:论文交流

自20世纪末以来,科学界发起了一系列体现“参与、包容、分享、合作、公开、透明”理念的开放科学运动;2021年,联合国教科文组织发布《开放科学建议书》,强调开放科学应满足科学界与广大公众的需求。在此背景下,科学计量领域的学者也享受到开放科学时代的红利。伴随着越来越多的开放数据资源涌现,科研人员逐渐摆脱“付费订阅”的束缚,拥有了更多数据获取的途径。可是,越开放,真的越好吗?

2022年1月,大型免费学术资源索引OpenAlex上线,该平台集成了Microsoft Academic Graph, ORCID, Crossref, Unpaywall等数据源,构建起科研成果、作者、机构等不同主体之间的关联,现已成为最受欢迎的开放科研信息数据平台之一,甚至最近被直接作为主要数据源支撑荷兰莱顿大学科学技术研究中心(CWTS)编制的最新版世界大学排名。OpenAlex平台具备数据规模庞大、免费公开等优势,但同时也有学者发现该平台存在一定的作者机构信息缺失问题。机构信息作为科学计量研究和科研评价的基础性数据,向上可以支撑国际合作和跨国比较等国家层面的研究,向下可以支撑科研人员流动等个体层面的研究,机构信息本身更是机构排名和机构评估等最重要的数据来源。可见,OpenAlex平台的机构信息缺失现象是一种值得关注且亟待解决的数据质量问题。

武汉大学张琳教授的团队注意到这一现象,围绕机构信息缺失的原因与潜在影响,以及相关利益主体的应对方案,展开了深入的分析和讨论。该研究于2024年2月在线发表于Scientometrics期刊后,当天即引起了OpenAlex运营团队的关注与积极回应。本期推送将为读者介绍该研究,探寻OpenAlex平台中“消失的它”。

图片

图1 推特平台上OpenAlex官方账号在作者发推当天与作者的即时互动

一、研究内容

本文致力于探讨以下三方面问题:

(1)OpenAlex平台的机构信息缺失现象有多普遍?

(2)有哪些原因导致了机构信息的缺失?

(3)机构信息缺失是否会使相关研究结果产生偏差?

在此基础上,面向数据平台、出版商/期刊、科研人员等不同主体提出建议,以期促进在定量科学研究和更广泛的背景下“负责任”地使用开放数据。

图片

图2 研究框架

二、分析结果

本文以单篇论文为分析单元,聚焦于学术论文中的机构信息展开研究。根据OpenAlex的数据结构,学术论文中的机构信息有五个字段,据此定义了三种类型的机构信息——机构信息完整(FII)、机构信息部分缺失(PMII)和机构信息完全缺失(CMII)。考虑到一篇论文有一位或多位作者,每位作者有一个或多个机构,可以进一步将论文分为两类——机构信息完整的论文,即每位作者的每条机构信息均是FII类型(articles with FII);机构信息不完整的论文,即存在某个作者的某条机构信息为PMII或CMII类型(articles with missing institutions)。有关数据结构和类型划分的具体说明详见原文。

1. OpenAlex平台的机构信息缺失现象有多普遍?

根据于2022年10月下载的OpenAlex全库数据,在121,872,819篇论文中,约38.43%的论文机构信息完整,机构信息不完整的论文占比高达61.57%。

由图3可知,随时间推移,机构信息完整的论文占比有所提升;相较于材料科学、化学、数学等领域,艺术、历史等领域的机构信息缺失现象更为普遍。

图片

图3 两类论文在不同年份和研究领域中的分布

由图4可知,相较于Elsevier和Springer Nature等出版商,SAGE和Cambridge University Press等出版商发表论文的机构信息缺失现象较严重,这可能与出版商聚焦的学科领域及其商业化、集团化程度有一定关联。机构信息缺失现象的普遍性在不同期刊之间也存在差异,机构信息完整论文占比较高的期刊包括PLOS ONE和Scientific Reports等,机构信息完整论文占比较低的期刊包括Lancet和Reactions Weekly等。

图片

图4 两类论文在不同出版商和期刊中的分布

2. 有哪些原因导致了机构信息的缺失?

本文针对PMII和CMII两种类型的机构信息,通过小样本分析,总结出如图5所示的机构信息缺失原因,具体分析过程与原因解释详见原文。在此列举三种较为典型的原因:

(1)机构名称不规范:主要指一级机构、二级机构、机构所属城市和国家等信息分割不清或拼写有误,难以从中提取出规范化的机构名称,因而未能匹配平台索引的机构唯一标识符以补全信息。

(2)平台功能性缺陷:例如,机构信息爬取算法难以适应论文信息来源网站(如期刊官网)的页面组织方式,导致未能获取来源网站原本提供的作者机构信息;又如,因网络原因导致的爬取过程中机构信息丢失。

(3)团体作者现象:部分论文(尤其是在医学相关领域)由团体作者完成,论文仅标注部分作者、其他作者省略,或是仅将某个组织标注为作者,导致对应的机构信息不明。

20240217-5.png

图5 机构信息缺失的可能原因

3. 机构信息缺失是否会使相关研究结果产生偏差?

本文设计了两种方案来探究机构信息缺失可能引发的负面影响:(1)从OpenAlex全库数据中抽取随机样本,通过补全部分机构信息发现,机构信息缺失使中国、俄罗斯等国家及其相关科研机构的发文贡献具有被低估的风险。(2)部分复现一项已发表的研究,该研究设计了一项表征机构声望的指标,并据此遴选“精英机构”,本文发现机构信息补全前后,机构声望指标和精英机构列表均发生了较明显的变化。两种方案均表明机构信息缺失可能会使实证分析结果出现偏差,具体实施过程和分析结果详见原文。

三、对策讨论

本文在洞悉现象、寻求原因、揭示后果的基础上,进一步面向参与数据产生、整合、使用等全过程的相关主体提出了建议。

20240217-6.png

图6 参与数据生命周期的利益相关主体

1. 数据平台

数据平台是用户与数据交互的媒介,其如何收集、处理、存储和呈现数据直接影响科研人员使用数据的效果。本文在分析OpenAlex数据的基础上,进一步将其与传统订阅式数据库Web of Science(WoS)进行对比,发现差异与共性并存。              20240217-7.png

图7 Web of Science和OpenAlex中不同学科领域各年份机构信息不完整的论文占比

一方面,由图7可知,机构信息缺失现象在 OpenAlex 中比在 WoS 中更为普遍。事实上,以OpenAlex为代表的开放数据平台和WoS、Scopus等订阅数据平台具有不同的运作逻辑。前者运用算法从网络公开资源中选定数据源并收集数据,后者基于选定的期刊通过与出版商合作来获取数据。因此,开放数据平台能够突破传统数据平台在数据收集范围方面的局限,提供更为多元和丰富的数据,但同时也面临数据质量良莠不齐等诸多挑战。因此,开放数据平台需对数据缺失等问题给予更多关注,制定更为完善的数据收集和维护策略。

另一方面,可以看到在两个平台中,随时间推移,机构信息不完整的论文占比均有所降低;相较于自然科学领域,人文社科领域面临更严重的机构信息缺失问题。

2. 出版商和期刊

出版商和期刊向作者收集数据并向公众提供经初步组织加工的信息,是把控数据质量的第一道关,也是进一步数据整合的基础。本文对比了代表性期刊在WoS和OpenAlex中机构信息不完整的论文占比(如图8所示),针对两平台上机构信息缺失比例均较高的期刊,分析与期刊或出版商相关的导致机构信息缺失的原因。

一类典型的原因是文献类型界定不清晰。例如,Chemical & Engineering期刊主要发布新闻类文献,Lancet期刊发表世界报告(World Report)等多种类型的文献。对于这些文章体裁,写作目标、目标读者、撰写风格,甚至作者信息的标注,均与研究型论文有很大不同。而上述类型的文献在WoS和OpenAlex中均被标注为研究型论文,且大多数缺失机构信息。如何对文献进行精准分类并在数据库中索引,需要出版方和数据平台方更多的关注。

另一类典型的原因是团体作者现象。本文关注到WHO Solidarity Trial Consortium 和COVIDSurg Collaborative等组织联盟在Lancet期刊以作者身份发表论文的现象,这种做法在生命科学和其它依赖大型基础设施和跨国合作的领域尤为常见。然而,这类论文在数据库中并没有单独的分类或特殊的标注,如何理解团体作者所隶属的不同机构的贡献并合理区分不同类型的机构信息仍需要进一步探索。

20240217-8.png

图8 Web of Science和OpenAlex同时收录的12本期刊中机构信息不完整的论文占比

3. 科研人员

为了帮助科研人员合理使用开放数据平台以使其研究结果更加可靠,本文提出如下三步策略:

首先,本文结果表明不同年份、学科领域、期刊和出版商的论文具有不同程度的机构信息缺失问题。根据研究需求合理选择研究样本,能够在一定程度上避免机构信息缺失较严重的数据集。

其次,应当认识到,任何数据源都不是完美的,传统数据平台和开放数据平台各有优劣。综合运用多源数据,并设计适宜的数据预处理方案来补全信息,有助于获得更加全面准确的研究数据。

最后,在结果解读阶段,需要对数据存在的局限及其可能引发的后果进行说明,使读者充分了解数据细节,批判性地理解研究结论。

事实上,科研人员不仅是数据的使用者,也是数据的生产者,在论文投稿和发表时应当注意机构信息标注的精确性。此外,科研人员和科研机构也可以通过加强与开放数据平台的互动并提供改进策略,促进数据质量的提升。

结语

开放科学势不可挡,对高质量开放数据资源的需求也愈发强烈。本文聚焦于OpenAlex数据平台的机构信息缺失现象展开研究,围绕其可能原因、潜在负面影响及应对方案进行了深入探讨。需要说明的是,OpenAlex运营团队持续对数据平台进行着更新和完善。如今,机构信息缺失现象相较于作者开展研究时已有一定的改善。本文并非针对某一平台的某一类数据问题,而是以小切口、深挖掘的方式,揭示在开放资源中广泛存在的数据质量问题,旨在引导科研人员、科研管理部门在学术研究和科研评价中恰当使用开放数据,期望数据平台不断提升数据质量及其可用性,多主体共同推动“负责任”的数据开放。

Zhang, L., Cao, Z., Shang, Y. et al. Missing institutions in OpenAlex: possible reasons, implications, and solutions. Scientometrics (2024). https://doi.org/10.1007/s11192-023-04923-y



https://wap.sciencenet.cn/blog-1166809-1421976.html

上一篇:负负得正?存在误差的数据能否用于科学研究?
收藏 IP: 111.193.8.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-28 07:59

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部