|
【文章创新点】
本文系统综述了面向聚合物信息学的小数据机器学习策略。在数据准备方面,介绍了通过理论计算与模拟、生成模型和自然语言处理等技术实现数据增强的策略,以及涵盖描述符、指纹、图表示与序列表示的结构化表征方法。在建模算法方面,分析了支持向量机、随机森林等经典算法在数据稀缺条件下的优势,并阐述了物理信息神经网络等融合物理原理的建模方法。在学习策略方面,介绍了迁移学习、多任务学习、主动学习等高效学习框架,这些方法通过知识迁移、数据融合和智能采样显著提升了数据利用效率。本文为研究者提供了方法选择参考和技术实施路径,推动了机器学习在聚合物材料开发中应用。
【文章概述】
聚合物在能源、航空航天、电子信息、生物医药等领域的广泛应用,推动了对新型高性能聚合物材料快速设计与精准开发的迫切需求。然而,聚合物体系本身具有复杂的层级结构、丰富的化学多样性和对加工历史高度敏感的特性,再加上合成与表征成本高、实验标准不统一,导致可用于建模的高质量数据稀缺且异质。这种“小数据”情形使得传统依赖大数据和深度学习的方法在聚合物信息学中常常面临过拟合、泛化差和可解释性不足等问题,因此亟需发展适合低样本条件下仍能保持稳健性能的数据高效机器学习策略,以支撑材料发现与逆向设计的实际需求。
针对这一问题,本文系统总结了面向数据高效学习的机器学习方法在聚合物信息学中的最新进展,如图1所示。在数据准备方面,研究者采用分子模拟、生成模型和自然语言处理等技术手段有效扩充数据集规模,并发展了多种结构表示方法,以更全面捕捉聚合物从分子链到聚集态的多尺度特征。在建模方法上,经典机器学习算法在小样本环境下表现出良好的泛化能力与稳定性;同时,融合物理原理和领域知识的混合建模方法,进一步增强了模型的可靠性与可解释性。为进一步提升数据利用效率,多种先进学习策略被引入该领域。例如,通过迁移学习复用小分子数据中预训练的特征表示,借助多任务学习同时拟合多个相关性能指标,利用多保真度学习融合实验与模拟数据,采用自监督学习从无标注数据中提取有效特征,以及通过主动学习指导实验设计、减少盲目试验。这些策略共同推动了在有限数据条件下聚合物性能预测与新材料开发的效率。
图1. 小数据场景下的机器学习策略
文章最后展望了聚合物信息学未来的发展方向,包括建立跨尺度的统一表征框架、发展面向聚合物的基础大模型,以及推进可解释性强、融合物理机制的机器学习方法,从而在数据受限条件下实现更高效、可靠的材料研发。本综述旨在为相关领域的研究人员提供系统参考,并促进聚合物智能设计方向的进一步发展。
本综述为"AI for polymers"专题特约稿件,题为“Data-efficient Machine Learning for Polymer Informatics”,即将在Chinese Journal of Polymer Science 第10期印刷出版。欢迎关注!
许鑫垚博士与胡骁博士研究生是该论文的共同第一作者,王立权教授与蒋滢教授为通讯作者。
Citation:
Xu, X. Y.; Hu, X.; Wang, L. Q.; Jiang, Y. Data-efficient machine learning for polymer informatics. Chinese J. Polym. Sci. 2025DOI:10.1007/s10118-025-3401-z
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-9-30 06:54
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社