数字科学交流团队分享 http://blog.sciencenet.cn/u/dsc70 武大

博文

“超越PDF”(编译)

已有 3941 次阅读 2011-5-26 10:33 |系统分类:海外观察| pdf, 科学交流

超越PDF

2011119-21日,在美国圣地亚哥举行了一场关于“科学交流的未来”为期三天的研讨会,Jodi Schneider对此作了报道。

介绍

“超越PDF”引来80位专家学者到加州圣地亚哥大学讨论科学交流。会议的主题:我们如何利用新兴技术来提高科研成果的传递效率和理解程度。会议的参与者包括产业专家、研究者、软件开发者、图书馆员、赞助者、出版商和期刊编辑。会议组织者Phil Bourne被描述成科研成果的预见者、开发者、客户和传递者。这次研讨会的目标是确认实现科研成果有效传播必须克服的关键问题,从而满足客户需求、创建计划(责任方、时间表、交付成果),并保持发展的势头。

会议架构

会议分为两个部分:陈述报告与工作会议。根据会前Email上的讨论与上传的摘要情况,组织者将陈述报告分为六大主题,分别为:标记、数据、内容出处、新模式、写作,以及评议和影响。

陈述会议由4-6个简短的对话开始,紧接着是30分钟的讨论。尽管报告时间限制在10分钟,加上4分钟的提问,但让我惊讶的是讨论相当深入。同时,我为组织者的灵活调整能力感到佩服,他们会针对小组讨论的情况,临时增设部分议题。在研讨会的第二部分,参会者分别参与到各个分会的讨论,分会安排在第二天和第三天上午。小组讨论最终形成可交付的成果。

讨论、联络渠道和存档

在整个会议中,借助Twitter等渠道,一些场外人员也参与到讨论中来。Jason Priem没有从北卡罗来纳大学赶来,但却是这次会议的活跃参与者。大部分会议材料都可以通过会议网站获取,包括视频存档。

 

 

1: 参会者在圣地亚哥会议期间享用室外午餐

第一日:2011119

介绍性会话

研讨会由Phil Bourne设定方向,各分会主持人介绍主题。

标记:Ed Hovy, ISI

Ed Hovy讨论了“标记”中未解决的问题,从抽取和系统化组织信息的角度看,标记是未来学术交流的核心:《未来的生活将充满海量数据与标记,有关作者的社会网络和相关论文的社会网络》(The paper of the future lives within a cocoon of data, annotations by various people, a social network of authors, another social network of relevant papers

他希望出版商花大力气去管理和组织这样一个世界,而不是仅仅抓住写有版权保护的PDF不放。

数据:Gully Burns, ISI

Gully Burns举了一个例子说明PDF在大量补充数据的使用上存在的问题。他为我们展示了一张PDF页面上的基因表达数据,页面中的字体非常小,以至于图片要放大1200倍才能看清楚;为了使数据“超越PDF”,他说我们需要增强数据和术语之间互动的有效标准,更好地将数据与出版流程相结合,实现自动化的数据处理和分享。

内容出处:Paul Groth, VU University of Amsterdam

Paul Groth提出一个问题,我们究竟能在多大程度上实现出版物的完全再现,通过工作流程和可计算论文将实验与出版物整合起来,此外还关注了再现性与再用性之间的区别。最近,他表示,我们的工作流程系统已经可以获取内容出处,展示出处,并将数据整合进论文中。但目前我们仍然需要确定链接数据和文章出处的最佳途径。他还指出最近W3C报告中将内容出处作为未来科学交流的驱动力。

新模式:Anita de Waard, Elsevier

Anita de Waard从一个历史视角审视了新的出版模式,回顾1991年至今的发展,我们可以发现尽管科学出版取得明显的进步,但仍有很多要做。

 

主题

1991

2001

2011

文章格式

模块化论文

语义论文

模块化/语义

商业模式

任何东西都将免费吗?

作者支付模式

作者支付模式

研究数据

基本在天文学领域得到解决

在天文学领域得到解决

在天文学领域得到解决

数据库

图书馆员需要帮助

图书馆员需要帮助

图书馆员还需要帮助

写作工具

需要WordWordPerfect以外的工具

需要Word以外的工具

需要Word以外的工具

注释工具

将要到来

将要到来

PDF?

评议工具

开放同行评议即将到来

开放同行评议试验不断

让我们试试Wiki

搜索

个性化科学搜索环境到来

语义桌面到来

Google

互动数学标记

LaTeX

数学标记语言——待执行

数学标记语言——待执行

化学

基本解决(PMR

已解决(PMR

已解决

2:过去和今天的新模式

 

写作:Phil Bourne, UCSD

关于写作,Phil提出了三个问题:我们的写作是否应当具有可再生性?我们文章的结构应该怎样?未来写作应该采用的工具?

评议和影响:Cameron Neylon, Science and Technology Facilities Council

Cameron提出了一个具有挑战性的议题,即虽然我们知道当前同行评议的过程存在诸多问题,但仍然坚持“科学成果是建立在同行评议基础上的”。他指责人为造成的稀缺性,举出一系列反例证明同行评议并不能保证论文质量,不能评价一项成果的重要性和影响,同样也不能支持成果的发现。取代传统的预出版条件下的同行评议,Cameron支持后出版的同行评议。

 

会议

注释、数据和内容出处是第一天会议的主要议题。在“注释”会议中,我印象最深的是Maryann Martone关于“人机资源的智能处理”的报告,这份报告主要根据他在神经信息框架(NIF)领域中的工作经历,关注了整合与元搜索的实际问题。尽管关注学术交流的发展超过三四年,但我还是经常碰到一些激动人心的新项目;因此我为专业人士们高兴,因为他们可以不断接受新东西。Maryann表示即便经历了四年的密集搜索,但NIF管理人员仍然发现很多他们没有意识到的工具。

 

3: Barend Mons所展示的基因“毛团”图

在数据会议中,Barend Mons提出问题,“纸计算机具有理解力吗?”针对他的作品,我们有许多文章得去读:大概有90篇,其中每篇文章包括用“毛团”图像表现的200种基因。他希望利用语义维基,也就是每个概念都有通用标识符(UUIDs),而不是一种“大无知驱动的研究”(bignorance-driven research)。这些概念被认为是一种包含主谓宾的纳米出版物,每个出版物被数千次放到网上。他们利用通用标识符简化了对纳米出版物的描述,计算了支持和反对这个概念的证据因素。John Kunze作了题为“数据出版物的一小步”(baby steps to data publication),将数据文件的新的标准化格式想象为包含与存档文物链接的封页(题名、数据、作者、摘要与持久的标识符)。这将把数据集提供给现有的索引引擎与谷歌学术,促进数据的引用,将机密信息嵌入到数据标识中(因为它们得到元数据支持)。随着额外的工作进行,同行评议和非同行评议期刊可以发布数据文件到分布数据库中的公开数据中。

在有关文献出处的会议中,Juliana Freire支持采用丰富文献出处的可执行文件,这样有助于提升出版物质量。她以一篇arXiv文章为例,这篇文章含有丰富的题注,可将结果链接到可视化工具中的实验细节。Yolanda Gil谈论了带有语义工作流程和软件流水线式文献出处的增强再生性。虽然有可获得的数据,而且也有人愿意投入精力,但要实现论文再生产仍然难以很困难。Nick Encina在演示会议中吸引了众多关注,他介绍了一个基于云计算的启动应用,可以将科学工作流程和在线协作编辑展现出来。

第二日:2011120

会议

第二天会议的主题是新模式、写作、评议与影响。

有关新模式的讨论是我最关注的,其中有David提出的下一代采用了MVC模式理念的论文格式原型,来自乌托邦的Steve Pettifer的有趣的预告片“超越PDF——恐怖电影”,此外还有一场不可错过的报告,来自Peter Murray-Rust的基于试验性设计的知识工程,以及“发展中国家的开放存取情况”。

特别打动我的是Michael Kurtz的报告,他介绍了美国国家航空和宇航局(NASA)的天文数据系统(ADS),该系统专注于近三十年的天文学变化,以及天文学领域的科学交流。由于ADS提供相关文献的免费获取,在控制各种服务的成本上具有很大的吸引力。我期待更多学科领域的研究能够与出版商、资助者一起合作,采取上述可行的方法。

写作会议上,Martin FennerCameron Neylon讨论的话题是“博客超越借助参考文献的PDF或拷贝文档”,主张HTML是最佳的工具,尤其强调了WordPress及其插件架构,HTML5新的可能性。Michael Reich描述了作品再生产所面临的挑战,鼓励创造出可再生的平台环境GenePattern。目前,GenePattern工作流程已经嵌入Word文件中,创造出可再生文件,允许读者重新载入运行文件内置的GenePattern分析软件。

在评议和影响会议中,Anita de Waard做了一场非常有信服力的讲话,内容主要是借助套期保值的思想,以事实的方式对待观点。套期保值表示一种不确定性,通常以“建议”或“暗示”的方式出现,引用去除了这一不确定性,将主张固化为标准意义上的常理。她建议我们应该开发一种系统,通过“法定解除”的方式,保证实验环境、参数与主张结合在一起。Paul Groth则提出一种集成式的可选择指标来显示影响力,如下载量、幻灯片重复使用量,数据引用量和Youtube浏览量。他展示了Jason Priem的过滤系统模型,而从日益增长的社交网络服务中获取数据并不困难。

午宴

NASA负责人参观了加州电信与信息技术学会大楼,我们受邀观看了一段视频演示。借助强大的网络带宽与视频技术,他们播放的内容可以让人们看清楚非常细节的信息,比如从大报告厅里的人群中辨认出某个人的面部表情。

分组讨论1

午宴之后,分组讨论开始。我们关注四个主要领域:未来的研究对象,写作与阅读,商业权利与知识产权,分配、评价与存档。

 

第三日:2011121

分会2

四个分会中,三个分会有相应的成果存档。这里,我主要介绍写作与阅读分会的情况,该分会讨论了收集并处理科研数据及文件的系统,他们的计划是集合各种存储程序,找来一些原型测试员,最终希望这一系统可以帮助存储组织知识。

 

4: 太阳西下时,会场附近的游泳池

 

结果与未来计划

这次研讨会成功地将分散在世界各地的研究人员集中到一起,围绕学术交流各抒己见。其中一些讨论将在Email和社交网站上继续进行,另一些小组则采取面对面的交流方式。尽管只有对这次会议一些不完全的记录,但我坚信这次会议已经产生了巨大的影响力。

这个小组将形成“拉霍亚宣言”共识,一个国际性的学术HTML标准将在今年3月产生。同时,EPUB作为学术交流的标准格式被广泛讨论。W3C医疗护理生命科学组已经着手未来研究主题的讨论。

许多人关注脊髓性肌萎缩症(SMA)的讨论。一个国际团队正在开发一款原型系统,用以帮助SMA基金会通过文本挖掘等方式,更好更快地获取科技与医疗知识。

此外,一些标准社区也参与讨论,昨天就有人建议一种新的标准PDF/E,应用于工程与科技领域。

结论

“超越PDF”对于推动科学交流方式的进步有着重要意义。我非常高兴能够直接接触到网上结识的好友,研讨会充满着有趣的话题,我强烈建议到Youtube上观看整个会议视频。

 

 

参考文献

  1. Beyond the PDF Web site http://sites.google.com/site/beyondthepdf/
  2. Beyond the PDF Video Proceedings at YouTube Web site http://www.youtube.com/view_play_list?p=BE627F48A0DB94FD
  3. W3C Incubator Group, Provenance XG Final Report, 8 December 2010
    http://www.w3.org/2005/Incubator/prov/XGR-prov-20101214/
  4. David Argue, Next-generation-paper demo http://www.zfishbook.org/NGP/
  5. Phil Bourne, 'Beyond the PDF' Draft Report, 30 January 2011
    https://docs.google.com/document/d/1ZPkFvUxC94o4ekLvJwTIpingYm-7mBjnfoh89q-2vSI/edit?hl=en&authkey=CKGC5JML
  6. Resources and tools http://neurolex.org/wiki/Category:Beyond_the_pdf

出处:

Article Title: "Beyond the PDF"
Author: Jodi Schneider
Publication Date: 30-January-2011 Publication: Ariadne Issue 66
Originating URL: http://www.ariadne.ac.uk/issue66/beyond-pdf-rpt/
Copyright and citation information File last modified: Wednesday, 02-Mar-2011 17:09:21 UTC

 

 


https://wap.sciencenet.cn/blog-521339-448106.html

上一篇:关于《第四范式:数据密集型的科学发现》
下一篇:科学出版将面临大崩溃? (II)
收藏 IP: 58.19.69.*| 热度|

4 刘洋 陈辉 何学锋 强涛

发表评论 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-9 16:24

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部