||
原文作者:姜璐璐 张泽钰 李宗闻(中国科学院计算机网络信息中心);下文节选自《中国开放数据白皮书2023》,完整内容,请查看白皮书原文。
《中国开放数据白皮书2023》由中国科学院计算机网络信息中心(下称“网络中心”)、施普林格·自然(Springer Nature)、Digital Science(数字科研)公司和Figshare知识库首次联合发布。
《中国开放数据白皮书》
点击查看下载 《中国开放数据白皮书》
白皮书情况介绍
2023年,是施普林格·自然与Figshare连续面向全球科学家发放《开放数据状况调查问卷》的第八年。此次调查中,中国受访者占参与人数的11%,位列全球第二。网络中心以收到的中国学者的问卷数据为依据,对中国科研群体在开放数据的动机、存在的挑战、看法和实践行为等方面展开调查分析。根据对中国受访者的数据分析,得出以下要点:
有78%的受访者赞成将公开研究数据作为常规惯例;
56%的受访者认为其在共享数据的学术认可上“获得太少”,20%回答“不知道”;
74%的受访者表示不清楚“数据管理计划”的概念,49%的人表达需要相关培训支持;
49%的受访者重复使用过他人或团队公开共享的数据;
已发表的论文是最主要的数据获取方式(69%)。
主要发现
1. 数据共享的驱动与阻碍
中国科研群体对于开放科学有比较高的接受度和支持度。有78%的受访者赞成将公开研究数据作为学术研究惯例。其中,73%的受访者认为开放数据可促进合作,70%认为“有助于验证我的研究发现”,63%认为“可避免重复劳动”,57%认为“可补充现有数据”,仅1%的受访者从未从数据共享中获益。
数据共享依旧存在诸多阻碍因素。在问及关于数据共享的潜在问题或担忧时,57%的受访者担心数据“包含敏感信息或数据共享前须获研究参与者许可”,医学领域的受访者对此的担忧尤为突出(31.96%)。中国受访者担忧的其他问题还包括“数据滥用(39%)”,“其他实验室抢发研究成果(36%)”以及“不确定数据版权和数据许可(36%)”等;只有约10%的受访者表示对数据共享没有顾虑。
提升学术认可与影响力是最重要的数据共享驱动因素。调查发现,科研群体最关注的仍是研究成果是否获得认可,及产生的学术影响力。获得“完整的数据引用(69%)”“研究论文被引用(62%)”“提高研究的影响力和知名度(51%)”是中国受访者数据共享的最主要驱动因素。此外,政策要求也发挥着重要的驱动作用,有48%的受访者会因“期刊/出版商的要求”共享数据,38%和36%的人会应资金资助方或所属机构的要求共享数据。
但数据共享尚未获得足够的学术认可。当被问及研究人员目前是否因共享数据而获得足够的承认或认可时,超半数的受访者(56%)选择了“不,他们获得的承认太少”,值得注意的是,较上一年度相比这一比例正在降低。24%的受访者认为数据共享者已获得足够的认可(18%)或过多认可(6%)且这一比例正在上升。
2. 科学数据管理的实践
中国受访者关于数据管理计划(Data Management Plan,DMP)的认知、实践能力及实施支持上普遍需要提升。调查显示,有72%的中国受访者不清楚或者不知道DMP的概念。涉及DMP的制定能力评估,近半(49%)的中国受访者表示自己不具备制定可实施的DMP能力,需要更多培训和信息,仅51%的受访者在不同程度上表示能够胜任。
在数据管理计划的实施上,80%的中国受访者有过创建数据管理计划的经历,但实施过程面临诸多挑战。40%的受访者认为缺乏接受相关训练的专业人员,39%的人认为实施数据管理计划过于耗时,31%的人认为过于耗资。此外,技术上的挑战诸如数据存储、数据组织等问题也较为突出(37%)。
相比于全球其他国家和地区,中国受访者在项目进行阶段尤其倾向将数据存储在个人计算机上(88%),40%的人选择使用个人云存储。选择使用机构服务的人群比例明显较低(机构云存储16%,机构存储库12%,机构网络6%)。此外,约有36%的人选择使用物理方式(如纸质笔记本等)保存数据。
较多数中国受访者(56%)倾向在研究发表后再公开自己的数据。此外,14%的学者会选择在提交研究论文时公开数据,只有3%的受访者会在数据收集的当下立即公开数据。另有9%的受访者表示在他人提出要求后才会公开数据,8%的受访者表示不会和主要合作学者以外的人进行数据分享。在共享方式上,大多数中国受访者倾向使用机构存储库(60%)来共享数据,次之是以论文补充材料的形式(46%)共享数据。关于资金来源,36%的受访者共享数据的资金支持来自所属机构,35%的人表示不清楚,27%的人表示更支持有明确数据共享预算的项目。
已发表的学术论文是最主要的开放数据获取途径(69%)。其次分别是通过数据存储库获得数据(62%)和通过数据论文获得数据(46%)。在谈及数据质量的决定因素时,53%的中国学者认为“数据是新的(如最近一年内发布的数据)”是重要的决定因素(26%认为“格外重要”,27%认为“十分重要”);此外,“可视化的数据反应了原始数据的真实其情况(45%)”、“数据与已发表的研究结论一致(45%)”以及“具备完整的相关元数据(45%)”也是“格外重要”或“有些重要”的因素。
3. 数据管理的基础支撑需求
大多受访者希望得到同事或导师、数据存储库、机构图书馆和开放数据软件提供商的帮助。关于科研人员管理和共享数据,过半受访者希望得到同事或导师(58%)、数据存储库(53%)、机构图书馆(52%)和开放数据软件提供商(52%)的帮助。
对于科研人员已得到的帮助支持,有三成左右的受访者认为机构或组织(29%)、资助方(37%)、出版商(32%)提供了很好的帮助,20%左右的受访者得到了一般的帮助。在帮助内容上,超六成受访者希望了解数据版权和数据许可协议的相关知识(63%),以及他们如何规划管理数据的时间(60%)。还有近半受访者表示需要了解如何寻找合适的数据存储库(49%)、理解适于自己的数据管理政策(47%)。
多数受访者认为中国在数据开放共享上给予了较强力度支持,并希望机构(67%)、资助方(58%)、校方(54%)和出版商(52%)指导他们了解对应的数据政策,以使研究数据开放可用。
此外,调查数据还显示,较多的中国数据受访者已在使用人工智能工具辅助他们进行数据收集(62%)、数据处理(55%)和元数据创建(53%)工作。
主要结论和建议
完善国家政策法规体系为研究人员提供规范指引
优化科研评价体系激励研究人员共享数据
科研机构和高校应在数据管理实践中有效发挥指导作用
鼓励数据共享的最佳实践
拓展阅读:
施普林格·自然积极参与科研领域的合作,率先采用新的数据共享方法,并致力于支持科研人员使数据共享成为新常态。点击此处了解施普林格·自然更多有关开放数据的信息。
点击此处查看或下载《中国开放数据白皮书2023》,浏览详细内容
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-9 07:23
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社