|
《物理学报》“数据论文” 栏目发表物理学领域具有高科学价值、可重复使用的数据和数据集。主要报道物理学最新研究成果的数据或数据集,或者对重要数据库的详细分析和使用说明。数据论文的写作结构与普通研究论文相似,其重点是给出的数据或数据集,需要在方法部分更详细地描述研究方法、获取的数据内容、数据使用说明(如URL链接、使用的软件、日期文件类型)等,并阐明其对物理学研究的意义。数据论文经审稿录用在《物理学报》出版后,相关数据将在国际化通用数据储存库正式发表并有独立的数据DOI。热诚欢迎各位学者和研究团队投稿。
文章信息
A high-quality dataset construction method for text mining in materials science
刘悦,刘大晖,葛献远,杨正伟,马舒畅,邹喆乂,施思齐
物理学报, 2023, 72(7): 070701.
doi: 10.7498/aps.72.20222316
原文链接 PDF
文本挖掘因其能高效地探索并利用被存储在海量科学出版物中的数据与知识而被逐渐应用于材料科学研究。尽管研究人员已经意识到数据构建对材料文本挖掘建模的重要性,但仍然缺乏对数据质量内涵的深入理解和高质量文本数据集构建的有效策略。本文作者团队通过厘清数据构建全流程中“质”与“量”的关联,提出一种有监督材料文本挖掘数据集构建方法,旨在以管道方式为材料科学文本挖掘数据集的高质量获取提供有效解决方案,降低大规模文本数据在获取、处理、标注和扩充过程中的高昂开销。
文章导读
本文从品质和数量双视角剖析了材料领域的文本数据质量问题及其相关研究工作, 提出高质量的材料科学文本挖掘数据集构建方法。如图1所示,该管道包含可溯源的文献自动获取、下游任务驱动的文献预处理、标签定义与数据标注以及文本数据增强四个步骤。文章详细介绍了这四个步骤所涉及的技术工具、创新方法及其应用指南。
前三步在材料领域知识介入下确保构建过程与专家经验的一致性,从而提高文本数据的“质”。可溯源的文献数据获取与处理阶段通过建立数据之间以及数据与加工操作之间的关联,从而实现模型的数据和过程可追溯;基于从多个维度对化学与材料科学中常用的自然语言处理工具的分析与比较,下游任务驱动的文献预处理阶段对PDF格式文献进行解析以提取出可自由访问的纯文本信息,并借助标记化工具对所得的纯文本内容进行处理得到干净的文本序列;标签定义与数据标注阶段以加工工艺-结构-成分-性能四面体为准则,定义了8个通用的材料实体类型及其关系类型,并梳理了标签注释流程,藉此实现对大规模材料文本语料的手工标注。该标注方案允许对特定材料类别进行细粒度优化,以满足特殊场景下的挖掘需求。
第四步则聚焦材料文本数据“量”的扩增问题,提出融合材料领域知识的有条件文本数据增强模型cDA-DK。它将材料领域知识嵌入预训练语言模型中,通过微调使其学习材料领域词汇特征,从而动态生成高质量的材料文本数据。在NASICON和Matscholar两份数据集上的实验结果表明,cDA-DK凭借少量训练样本即可超过在原始训练样本规模下的预测精度。其中,在NASICON实体识别任务上的F1值可达84%。该方法降低了大规模有监督材料科学文本数据集在构建过程中的高昂开销,还能有效提高下游文本挖掘模型的预测精度,对进一步提升材料文本挖掘的普适性、准确性和实用价值具有十分重要的意义。
文章融合领域知识对材料科学文本数据进行构建约束和样本增强,有助于提升文本数据的“质”并扩增建模所用数据的“量”,从而实现高质量材料科学文本挖掘数据集的获取。最后,以NASICON型固态电解质材料为例对材料科学文本挖掘的潜在应用和未来发展趋势进行了分析与展望。该文为利用文本挖掘技术进行材料科学研究的读者提供一个集方法、流程和工具于一体的参考,希望吸引更多的国内研究人员了解并进入材料科学文本挖掘这个充满活力的新兴领域。
图1 高质量材料文本挖掘数据集构建管道
Fig. 1. The pipeline for constructing high-quality datasets for materials text mining.
作者简介
施思齐
教授,博士生导师,现任职于上海大学材料科学与工程学院和材料基因组工程研究院,国家优秀青年科学基金获得者(2016年)。
2004年7月博士毕业于中国科学院物理研究所,师从陈立泉院士和王鼎盛院士。2004年8月至2013年5月先后在日本产业技术综合研究所、美国内布拉斯加州-林肯大学和美国布朗大学做博士后或访问学者。主要研究方向为电化学储能材料的计算与设计、材料数据库与机器学习,致力于推动人工智能赋能材料研发。2001年率先在国内应用第一性原理计算研究锂离子电池材料。已在Nat. Catal., Chem. Rev., Prog. Mater. Sci., Natl. Sci. Rev., Adv. Mater. 等期刊发表论文180余篇。出版《电化学储能中的计算、建模与仿真》专著一本。创建具有独立自主知识产权的电化学储能材料计算与数据平台。承担国家自然科学基金、国家重点研发计划等项目12项。目前是中国硅酸盐学会固态离子学分会理事、中国材料研究学会计算材料学分会委员。担任Computational Materials Science、Journal of Materials Informatics、《储能科学与技术》、《硅酸盐学报》、中国物理学会和中国科学院主办“四刊”及《中国科学:技术科学》等期刊(青年)编委。
《物理学报》2020—2023年电子期刊,点击下图即可阅读。
专题精选
(上下滑动浏览)
特邀综述精选
(上下滑动浏览)
基于聚焦离子束纳米剪纸/折纸形变的三维微纳制造技术及其光学应用
观点和展望精选
青年科学评述精选
(上下滑动浏览)
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-5-9 00:26
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社