||
2016年,《图书情报工作》创刊60年,在国内图情界具有一定的知名度,受到业界专家、学者的认可。然而随着数字化网络化技术发展,《图书情报工作》60年的学术积淀正面临数字出版之瓶颈,其学术内容的进一步传播、共享,从而实现价值增值是我们正在考虑的问题。
努力使这本跨图书馆学、情报学、信息科学、认知科学、计量学、数据学等的学术刊真正从源头上实现数字出版。所谓生而数字。
传统期刊的数字化目前基本处理半数字化状态或后数字化状态:
传统编辑部期刊生产加工流程:
• 稿件录用——稿件初步的编辑加工(查缺补漏)
• 排版——专业的适合纸质印刷,版面安排与调整的方正排版、indesign等。
• 进一步深加工——语言文字错别字等的进一步核对
• 校对——一校,二校,三校
• 整版,统版
• 通读
• 对蓝样——对胶片——付印。
付印后进行后数字化:
• 1 题录数字化,参考文献数字化,引文关联
• 2 全文数字化——目前多数为PDF
这种数字化方式可实现基于题目数据,此文关联,篇名、关键词主题相关的检索,以及基于引文的参考文献的检索。但较难在发布上平台实现基于全文的检索,图表的检索,以及基于全文内容单元的传播。
全数字出版流程:
• 稿件录用后:
• 第一步:对稿件进行结构化处理,如格式规范、主题提取。
• 第二步:对参考文献进行校验和规范。
• 以上两步完成后,由编辑和作者进行核对,并返回符合规范的稿件。
• 第三步:XML排版:生成标准化的XML文件。
• 第四步:输出:PDF,用于打印。输出:html,用于全文网络展示。
这种数字化方式的每篇论文从录用后即生成结构化文档,平台内容可用于关联出版和与其他数据库的关联检索,甚至实现基于知识单元的服务。
实现全数字出版需要做的工作:论文内容结构化;参考文献自动处理;xml排版;网页展示。
1、论文结构化:
• 本流程主要是对录用的word版稿件进行内容结构化处理。包括:自动识别题名,作者,作者机构,关键词等元数据信息;自动提取主题词(多个);自动识别图表主题;自动识别作者单据,建立作者标签;自动识别项目信息,建立项目标签。段落下的标签。段落内强调,多媒体元素等。这是最为重要的部分。这一部分规定了哪些内容是需要抽取出来作为主题,哪些内容是作为检索点。
• 未来期刊,可以说都要依赖于全文内容结构化。结构化规范的制定这部分工作只做一次,做好后可以说某个学科的中文刊都可以使用。即结构化规范的制定。
• 本部分也可称作碎片化出版,它是语义出版,可视化出版,知识出版,关联出版的前提。另外,这部分还要根据规范设计word模板和相关的程序,由word程序自动执行这个规范的操作,不需要人工做。
2、参考文献自动处理
• 本流程主要是对中英文参考文献根据国家参考文献标准进行自动校对。外文期刊和会议论文两种类型的参考文献可使用CROSSREFF的数据进行校对;中文部分可调用三才公司的参考文献自动校对系统进行。
3、XML排版
• 本流程主要是实现XML排版。需要根据中文刊论文形式开发固定模板,然后对以上两个流程处理后的论文进行排版,输出XML文件及打印文件。
4、网页展示
• 本部分主要实现经过最终处理的XML文件在网页上的展示。展示平台应既是一个数字化出版平台,又是一个知识关联平台。应不仅可可实现按卷、期、栏目进行论文集结展示,也可以实现结构化标引内容的检索、查询、关联等功能。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-5-1 17:31
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社