WuLiXueBao的个人博客分享 http://blog.sciencenet.cn/u/WuLiXueBao

博文

高质量的材料科学文本挖掘数据集构建方法 数据论文

已有 547 次阅读 2023-6-1 21:10 |系统分类:论文交流

微信图片_20230601210534.jpg

《物理学报》“数据论文” 栏目发表物理学领域具有高科学价值、可重复使用的数据和数据集。主要报道物理学最新研究成果的数据或数据集,或者对重要数据库的详细分析和使用说明。数据论文的写作结构与普通研究论文相似,其重点是给出的数据或数据集,需要在方法部分更详细地描述研究方法、获取的数据内容、数据使用说明(如URL链接、使用的软件、日期文件类型)等,阐明其对物理学研究的意义数据论文经审稿录用在《物理学报》出版后,相关数据将在国际化通用数据储存库正式发表并有独立的数据DOI。热诚欢迎各位学者和研究团队投稿。


文章信息

高质量的材料科学文本挖掘数据集构建方法

A high-quality dataset construction method for text mining in materials science

刘悦,刘大晖,葛献远,杨正伟,马舒畅,邹喆乂,施思齐

物理学报, 2023, 72(7): 070701.

doi: 10.7498/aps.72.20222316

原文链接    PDF


文本挖掘因其能高效地探索并利用被存储在海量科学出版物中的数据与知识而被逐渐应用于材料科学研究。尽管研究人员已经意识到数据构建对材料文本挖掘建模的重要性,但仍然缺乏对数据质量内涵的深入理解和高质量文本数据集构建的有效策略。本文作者团队通过厘清数据构建全流程中“质”与“量”的关联,提出一种有监督材料文本挖掘数据集构建方法,旨在以管道方式为材料科学文本挖掘数据集的高质量获取提供有效解决方案,降低大规模文本数据在获取、处理、标注和扩充过程中的高昂开销。


文章导读

本文从品质和数量双视角剖析了材料领域的文本数据质量问题及其相关研究工作提出高质量的材料科学文本挖掘数据集构建方法。如图1所示,该管道包含可溯源的文献自动获取、下游任务驱动的文献预处理、标签定义与数据标注以及文本数据增强四个步骤。文章详细介绍了这四个步骤所涉及的技术工具、创新方法及其应用指南。


前三步在材料领域知识介入下确保构建过程与专家经验的一致性,从而提高文本数据的。可溯源的文献数据获取与处理阶段通过建立数据之间以及数据与加工操作之间的关联,从而实现模型的数据和过程可追溯;基于从多个维度对化学与材料科学中常用的自然语言处理工具的分析与比较,下游任务驱动的文献预处理阶段对PDF格式文献进行解析以提取出可自由访问的纯文本信息,并借助标记化工具对所得的纯文本内容进行处理得到干净的文本序列;标签定义与数据标注阶段以加工工艺-结构-成分-性能四面体为准则,定义了8个通用的材料实体类型及其关系类型,并梳理了标签注释流程,藉此实现对大规模材料文本语料的手工标注。该标注方案允许对特定材料类别进行细粒度优化,以满足特殊场景下的挖掘需求。

第四步则聚焦材料文本数据的扩增问题,提出融合材料领域知识的有条件文本数据增强模型cDA-DK。它将材料领域知识嵌入预训练语言模型中,通过微调使其学习材料领域词汇特征,从而动态生成高质量的材料文本数据。在NASICONMatscholar两份数据集上的实验结果表明,cDA-DK凭借少量训练样本即可超过在原始训练样本规模下的预测精度。其中,在NASICON实体识别任务上的F1值可达84%。该方法降低了大规模有监督材料科学文本数据集在构建过程中的高昂开销,还能有效提高下游文本挖掘模型的预测精度,对进一步提升材料文本挖掘的普适性、准确性和实用价值具有十分重要的意义。

文章融合领域知识对材料科学文本数据进行构建约束和样本增强,有助于提升文本数据的“质”并扩增建模所用数据的“量”,从而实现高质量材料科学文本挖掘数据集的获取。最后,以NASICON型固态电解质材料为例对材料科学文本挖掘的潜在应用和未来发展趋势进行了分析与展望。该文为利用文本挖掘技术进行材料科学研究的读者提供一个集方法、流程和工具于一体的参考,希望吸引更多的国内研究人员了解并进入材料科学文本挖掘这个充满活力的新兴领域。


微信图片_20230601210548.png

图1  高质量材料文本挖掘数据集构建管道

Fig. 1. The pipeline for constructing high-quality datasets for materials text mining.



作者简介


施思齐

教授,博士生导师,现任职于上海大学材料科学与工程学院和材料基因组工程研究院,国家优秀青年科学基金获得者(2016年)。

微信图片_20230601210607.jpg

2004年7月博士毕业于中国科学院物理研究所,师从陈立泉院士和王鼎盛院士。2004年8月至2013年5月先后在日本产业技术综合研究所、美国内布拉斯加州-林肯大学和美国布朗大学做博士后或访问学者。主要研究方向为电化学储能材料的计算与设计、材料数据库与机器学习,致力于推动人工智能赋能材料研发。2001年率先在国内应用第一性原理计算研究锂离子电池材料。已在Nat. Catal., Chem. Rev., Prog. Mater. Sci., Natl. Sci. Rev., Adv. Mater. 等期刊发表论文180余篇。出版《电化学储能中的计算、建模与仿真》专著一本。创建具有独立自主知识产权的电化学储能材料计算与数据平台。承担国家自然科学基金、国家重点研发计划等项目12项。目前是中国硅酸盐学会固态离子学分会理事、中国材料研究学会计算材料学分会委员。担任Computational Materials ScienceJournal of Materials Informatics、《储能科学与技术》、《硅酸盐学报》、中国物理学会和中国科学院主办“四刊”及《中国科学:技术科学》等期刊(青年)编委。

图片

《物理学报》2020—2023年电子期刊,点击下图即可阅读。


微信图片_20230601204103.jpg



专题精选

(上下滑动浏览)

拓扑量子输运和器件(I)

高能重离子碰撞过程的自旋与手征效应( I ) 

二维转角莫尔超晶格(I)

阿秒物理(II)

量子计算新进展:硬件、算法和软件(II)

阿秒物理(I)

低维材料的新奇物性(II) 

非厄米物理前沿(II)

面向类脑计算的物理电子学 (I)

非厄米物理前沿 (I) 

低维材料的新奇物性 (I) 

二维材料的宏观制备

固态单量子体系的调控与应用 

纳米工程和热物理(II)

微纳光电子与激光

太赫兹生物物理

非平衡量子多体系统(I)

纳米工程和热物理(I)

量子计算与量子信息

热电材料及应用物理

原子制造: 基础研究与前沿探索(III)

等离子体物理及其材料处理
超短超强激光等离子体物理
原子制造: 基础研究与前沿探索(II)
原子制造: 基础研究与前沿探索(I)
超导及其应用
固态电池中的物理问题
百岁铁电: 新材料、新应用
太赫兹自旋光电子
低维材料非线性光学与器件
柔性电子
光学超构材料
电介质材料和物理
超材料
探索凝聚态中的马约拉纳粒子
载能离子束技术
统计物理和复杂系统
非线性物理
拓扑物理前沿与应用
纪念黄昆先生诞辰百年
拓扑经典波动
磁斯格明子专题

多铁性:物理,材料及器件专题

精密测量物理专题

铁基高温超导发现十周年

软物质研究进展
水科学重大关切问题研究
量子相干和量子存储研究进展
冷原子-分子物理
等离激元增强光与物质相互作用
钙钛矿光电器件与物理
超导和关联体系研究进展
新型太阳能电池
太赫兹物理
软物质研究进展
超快强激光驱动的原子分子过程
拓扑绝缘体
高压下物质的新结构与新性质研究进展
光纤传感
电磁波衍射极限
非晶物理研究进展
与硅技术融合的石墨烯类材料及其器件研究
硅基光电子物理和器件
计算物理的近期发展和应用
量子精密计量与操控
液晶光学及应用
庆祝南京大学物理学科成立100周年
表面低维结构的电子态调控
癌症生物物理


特邀综述精选

(上下滑动浏览)

聚偏氟乙烯基复合材料储能特性优化策略 

理论先行四十载 新篇再作八旬后——记杨振宁先生和冷原子物理

稳态微聚束加速器光源

钠离子层状氧化物材料相变及其对性能的影响

人工微纳结构增强长波及甚长波红外探测器

后摩尔时代的碳基电子技术:进展、应用与挑战

凝聚态体系中激发态载流子动力学研究

基于石英增强光声光谱的气体传感技术研究进展

齿鲸生物声呐目标探测研究综述

褶皱状蜂窝结构的单层二维材料研究进展

从“魔角”石墨烯到摩尔超晶格量子模拟器

石墨烯在金属表面防腐中的应用

从高质量半导体/超导体纳米线到马约拉纳零能模

霍尔天平材料的多场调控

飞秒光纤激光相干合成技术最新进展

磁场中拓扑物态的量子输运

转录机器: 绳上舞者

论材料非晶形成中的焓与熵: 竞争亦或协同?

二维材料热传导研究进展

齿鲸生物声呐发射特性与波束调控研究

自组织结构的控制: 从平衡过程到非平衡过程

层状手性拓扑磁材料Cr1/3NbS2的磁学特性

膜间相互作用、开弦对产生和增强效应及其可能的实验探测

基于深紫外激光-光发射电子显微技术的高分辨率磁畴成像研究

非晶态物质原子局域连接度与弛豫动力学

Verwey相变处Fe3O4的结构、磁性和电输运特性

纳米光学辐射传热: 从热辐射增强理论到辐射制冷应用

拓扑材料中的超导

基于聚焦离子束纳米剪纸/折纸形变的三维微纳制造技术及其光学应用

腔自旋波混合系统的研究进展

微纳尺度体点导热的拓扑优化

声学超构材料及其物理效应的研究进展

基于二维纳米材料的超快脉冲激光器

重费米子材料与物理

在人工拓扑超导体磁通涡旋中寻找Majorana零能模

具有变革性特征的红外光电探测器

二维极化激元学近场研究进展

化学气相沉积石墨烯薄膜的洁净转移

复杂声学环境中人耳附近空间有源降噪研究

利用光谱和质谱成像技术实现指纹痕量检测

类KBe2BO3F2结构硼酸盐深紫外非线性光学材料的研究进展

中远红外非线性光学晶体研究进展

二维有机拓扑绝缘体的研究进展

核壳结构磁性复合纳米材料的可控合成与性能

高温压电材料、器件与应用

无衍射光束的产生及其应用

基于光量子态避错及容错传输的量子通信

双连续型乳液凝胶(Bijel)的研究进展

基于第一性原理的新型非线性光学晶体探索


观点和展望精选


  量子计算纠错取得突破性进展

  硅基半导体量子计算研究进展
  相互作用费米子的量子模拟
  钒基笼目超导体
  当代理论物理发展趋势之我见


青年科学评述精选

(上下滑动浏览)

面向先进光源线站等大科学装置的低温X射线能谱仪原理及应用进展

基于过渡金属硫族化合物同质结的光电探测器

里德堡原子多体相互作用的研究进展

液相外延层层浸渍组装金属-有机框架薄膜及其物理性能

自旋轨道耦合量子气体中的一些新进展

过渡金属硫族化合物柔性基底体系的模型与应用

新型助熔剂助力铁基超导1111体系单晶生长和物理研究

《物理学报》在淘宝店和微店上线,扫码即可购买过刊和现刊。


微信图片_20230601204110.jpg       微信图片_20230601204129.jpg


微信图片_20230601204133.jpg




https://wap.sciencenet.cn/blog-3427348-1390214.html

上一篇:亮点文章 《物理学报》2023年第9期
下一篇:非线性系统理论及其前沿应用(I)| 《物理学报》专题
收藏 IP: 159.226.35.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-9 00:26

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部