赵斌
Nature将推出数据杂志开源期刊——Scientific Data 精选
2013-10-16 20:29
阅读:42608
标签:科学数据, 数据杂志

大多科研人员从参与科学研究开始,就在不断产生数据,但随之而来的问题是,许多研究人员在改换研究方向或者作为学生毕业后,大多数据也就消失了,即使保留在实验室,也因为缺乏很好的数据管理规范而名存实亡,因为他人可能无法看懂这些数据,更不用说重复利用了。我在这方面的体会颇深,从1995年开始,曾经参与了中国科学院生物多样性数据库方面的开发工作,之后(2003年)在崇明东滩建立了碳通量观测站,开始接触了海量的微气象学和环境数据,也一度为众多的数据形式一筹莫展。特别在自己作为课题负责人领导一个团体一起工作的时候,更为数据的集成、归档和继承问题费尽了心思,一直渴望有一个标准的管理形式或地盘能很好地保存这些数据让他人能方便地利用。虽然从参与FLUXNET,Ameriflux和Asiaflux等国际通量网络中获得了一些认识,但一直并未从根本上解决众多生态学数据管理的问题。直到有一些数据杂志(Data Journal)相继推出,我才慢慢明白这种新型的数据管理方式与我曾经的渴望是那么一致。

谷歌的Peter Norvig说,“科学是收集事实和发展理论的结合,二者都不可能自己进步。在科学史上,费尽各种周折去积累事实是主要的模式,并非有什么新奇的”。每个人都希望用更好的方法来产生和研究现有数据,也希望能合法地使用他人产生的数据。但是要让数据得到广泛的重利用,科学家们需要知道数据是如何产生的,以及进行了何种针对数据质量控制的实验。他们需要访问有关数据输出、文件格式、样品标识和实验重复规范等方面的详细说明。实话说,这是一项极其艰苦的工作,一般也得不到什么回报,因此许多潜在有价值的数据并没有发表出来,或者没有完全向公众公布,或者没有足够的细节来描述如何对数据进行重新利用。

Wiley集团的副主席Mike Davis表示:“目前,有一种活动愈来愈受重视——支撑关键发现的数据被更多的人访问,从而使数据的进一步分析和结果的解释得到促进。与此同时,不论是研究者创建和获取大型新数据集的能力,还是他们在更大范围的数据仓库中存储和检索数据的能力,都在迅速增强。因此,为了响应这一重要发展趋势,Wiley推出了新期刊Geoscience Data Journal(GDJ)。”该刊于2012年7月16日问世,是Wiley开放获取出版计划的一部分,其仅以在线方式发行,主要发表短篇的地球科学数据论文,这些论文则与存放在经认可的数据中心的数据集,并与数字对象识别(DOI)关联起来。具体而言,GDJ的数据文章需要对数据集进行描述,并详细给出数据来源、处理过程、使用的软件和数据文件类型等,其将涵盖从天气到气候、到海洋学、大气化学、地质学的多个主题。我还看到了 Biodiversity Data Journal  (BDJ) 的出版。这份杂志在首页,以大字体显示旨在“解决生物多样性出版的瓶颈”。之后,有更多的数据杂志发行(参见网页:http://proj.badc.rl.ac.uk/preparde/blog/DataJournalsList)。

上周Nature周刊发布通告说,自然出版集团将于2014年5月推出在线出版的开放获取杂志“科学数据”(Scientific Data,本文简称SD)

这个杂志要求作者针对数据集进行详细描述,旨在帮助科研人员发布、发现和重用研究数据,并对这个杂志提出了六个关键原则:(1)信用(Credit):通过一个可被引用的出版物,储备和分享研究数据;(2)重用(Reuse):完整、组织化(curated)和标准化的描述,保证数据可被重用;(3)质量(Quality):严格以学术团体为基础的同行评审;(4)发现(Discovery):找到与研究相关的数据集;(5)开放(Open):在数据使用、重用和分布上促进和支持开放的科学原则,通过知识共享许可协议获取;(6)服务(Service):数据描述进行内部管理和快速同行评审。SD杂志中一个新的重要文章类型是“数据描述”(Data Descriptor,本文简称DD)旨在描述有科学价值的数据集,文章将被收录到一些重要的索引服务中,从而让作者愿意与别人分享他们的数据。对广大观测人员来说,这个通告无疑是一个福音。可喜的是,SD已经开始征集稿件了(go.nature.com/1gnd1j)。

DD的文章将采用非常成熟的同行评议,专注于数据收集过程的技术严谨性、数据完整性以及与现有共同标准的匹配度。他们将检查数据是否确实值得共享,并特别要求审稿者不要以自己的感受,或者比较其他相关数据集的新颖性来进行评价。据称SD的编辑已经在小范围内对示范DD稿件进行了同行评议,发现科学家们能很快适应这不同视角的同行评议。

所有的DD将遵守创作共用许可制度(Creative Commons licence),允许研究人员重用,重新分配以及混合文章的内容等。DD的格式包括“技术验证”(Technical Validation)和“用法说明”(Usage Notes)部分。这要求作者描述数据的质量,并对数据的重用提供有价值的信息,显然这样的介绍并不适合传统的研究论文格式。再者,与其他Nature子刊一样,方法(Methods)部分是没有长度限制的,给作者留足空间让他们提供详细的实验数据可重用性的描述。DD将链接到相关的期刊文章和数据存储库中的数据文件,帮助读者轻松地在研究、数据描述和实际的数据之间遨游。每个DD文章支持机器可读实验元数据,这有助于高级用户挖掘和查找SD的内容。元数据记录将由内部员工组织,这样确保一致性以及可提供有用的注释,并以目前流行的ISA-Tab格式发布。

DD定位是一个发布数据集的论坛,但不会成为一个原始数据集(primary dataset)存储库。原始数据及其相关的数据描述将存储在一个或多个外部数据存储库中。这种策略有助于杂志理出一个清晰的线索,来帮助作者出版有科学价值和可重用性的数据集,而不是控制对数据的访问。这是一个循序渐进的策略,要促进和配合现有的基础存储库,促进协作和数据整合,而不是碎片化(fragmentation)。

Nature-SD将与figshare和Dryad两个储存库合作,接受广泛的研究数据类型。figshare目前并非一个保存期刊数据的储存库,只是一个让科研人员进行自由分享的平台。其理念是可发现(discoverable),可共享(shareable)和可引用(citable)。其中一个特色是鼓励发布阴性数据(negative data)和图。这是非常有用的,一方面可避免其他研究者无谓地重复这些工作,另一方面这些数据可能在别人的研究中得到佐证,或者进行合理解释,也可能这些阴性结果也被正式发表出来了,说不定还是非常有意义的重大源头发现呢。Dryad则是建立在开源DSpace软件上的一个数据储存库管理系统。其数据格式灵活,同时也鼓励研究人员开发新的标准,通过管理确保文件和元数据的有效性。放在这个系统上的数据具有很强的可见性,数据内容可以通过人机接口进行索引、搜索和检索。内容可以自由下载,在重用中也没有法律障碍。至少还有下面三个方面的特性,让Dryad已经为期刊投稿的工作奠定了基础:1)提供期刊选择在同行评审期间的数据访问权限,数据与相应的出版物进行相互链接,也可在适当的时候链接到类似GenBank等专业数据存储库;2)为数据分配数字对象标识(DOI),使得研究者在数据分享总获得专业信誉;(3)发表文章的数据是需要长期保存的,但是投稿者也许在之后的研究中发现数据处理中的问题要进行更正,或者有新的数据需要添加到库中,如何同时更新和维护储存库中的数据文件呢?这显然不是简单地覆盖原始数据文件,因为那些数据集可能被其他文章链接,因此更新数据应提供新版本的数据文件。过时的老版本数据之后转化为常见的文件格式,通过与“受控多备份资源保存”(CLOCKSS)的合作来保证对其内容的访问是无限期的。目前,对DD稿件来说,整合的数据已经可以上传到figshare中,作者在提交稿件时,可将数据保存在这个存储库中。编辑和审稿人将通过figshare网站安全地获得一定权限访问数据文件,当DD论文发表时,数据将被公开。

与其他Nature子刊不同,Nature-SD不是一个发表新结论或假说分析的地方辑还会特别要求作者在文中删除所有超出DD要求之外的内容。无疑,这将有助于DD出版能与研究类文章出版并行存在,DD只是研究类文章的补充。当然,作者也可发布还未在其他出版物中出现的数据集(称为独立DD),或者发布在其他杂志已经出版的数据集,但需要进行更深入的描述。考虑到潜在的发表和版权冲突问题,现在出版社编辑已经同意,DD的优先出版,并不会影响作者研究类论文的发表,但这些研究类文章应该超越对数据的描述性分析,并需要报道了更重要的科学发现。

公开可用的科学数据分布在众多不同的存储库中,这使得我们在找一些相关数据中碰到了许多麻烦(也就是常说的“数据竖井”的问题)。DD将提供一个可搜索的出版平台,研究人员可藉此在许多不同的数据存储库中找到高质量的数据集。DD的出版物将与自然出版集团期刊和外部出版商的相关研究出版物连结起来,让科学家更容易在研究发现、丰富的数据描述和实际数据之间轻松驾驭探索的航船。已有的科学数据存储库在定义标准和促进数据共享中发挥着主导作用。对于许多数据类型、模式生物、疾病,或者研究领域来说,都建立了自己的学术团体存储库。特定杂志的数据存储库并非解决开放数据共享的好方案。研究类期刊其实已经在“补充材料”部分存储了各种范围广泛的数据集,这显然比不发布数据要好得多,但大家都认为在这些地方储存原始数据是非常可怕的。即使这些特定的存储库已经有了完善的数据类型,Nature也希望建立figshare和Dryad这两个存储库,并称之为“后备库”,至少有两个方面的好处:(1)其他的一些存储库可能不支持保密的同行评审,(2)其他存储库在维护时无法对外提供服务。其实,之前的自然子刊其实在这方面已经有相对比较好的政策了,这些杂志要求将数据放到标准的完善存储库中。

总之,按照这种策略,DD就是为了在期刊研究类文章和数据存储库之间补充信息。DD将提供产生重要数据集的详细实验和过程描述,包括可让科学家评估数据技术质量的基本信息、数据再利用的关键方法或分析流程,以及最终重利用数据解决重要的研究问题。在SD上发表的每个出版物将由描述实验关键性能的元数据和结果数据来支持,这些元数据有助于数据挖掘,并将帮助科学家们找到和重用存储在多个数据存储库的高质量数据。

DD最初将关注生命、生物医学和环境科学等领域的数据,可能在适当的时候扩展到更多的学科。


参考资料:
[1] Nature 502, 142 (10 October 2013) doi:10.1038/502142a
[2]
http://nature.com/scientificdata

 

 

转载本文请联系原作者获取授权,同时请注明本文来自赵斌科学网博客。

链接地址:https://wap.sciencenet.cn/blog-502444-733516.html?mobile=1

收藏

分享到:

当前推荐数:24
推荐到博客首页
网友评论18 条评论
确定删除指定的回复吗?
确定删除本博文吗?