|
创新点
本文构建了一个开放、标准化的实验数据库OpenPoly,通过系统化的文献挖掘与人工校验,最终汇聚3985组“聚合物—性质”数据,覆盖 26 类关键性质,并统一提供可供机器学习的PSMILES结构与属性对,改善了现有数据库中数据稀疏、结构—性质对齐不严以及可获取性差的问题。在此基础上,研究团队提出了统一的多任务基准框架,在相同协议下比较了4种结构表征方法(Morgan指纹、二维图、三维图与 PolyBERT嵌入)和8个代表性模型(XGBoost、MLP、GCN、GAT、Spherenet、UniMol2、PolyBERT、TabPFN)形成评测范式。在数据量≥150的八个代表性性质任务中,XGBoost 与 TabPFN 整体排名领先,尤其XGBoost模型在介电常数、玻璃化转变温度(Tg)、拉伸强度和杨氏模量等任务上取得R²≈0.65–0.87的测试集表现,显著优于其他深度学习模型。此外,论文进一步展示了数据库在能源相关场景中的应用潜力,面向高温聚合物介电材料与燃料电池质子交换膜给出了候选高分子材料与筛选阈值,证明了 OpenPoly 在性能导向的结构设计中的实用性。最后,研究团队将数据及在线预测入口全面开放(https://cleanenergymaterials.cn/polymer/),为后续算法对比与工程应用提供了坚实的资源支撑。
文章概述
AI+polymer的发展依赖高质量、结构标准化且可获取的数据。然而现有数据库普遍存在实验数据稀疏且分布不均、结构—性质标签对齐不足(例如缺少PSMILES等统一表示)、访问权限限制等问题,导致聚合物数据获取困难,可用性差等问题。
基于上述背景,复旦大学高分子科学系汪莹课题组研究团队整合了已有数据库、手册、商业技术手册以及大语言模型(LLM)的文献检索结果,对搜集到的数据进行人工核验与结构规范,仅保留重复单元明确的均聚物以确保结构一致性。初始抓取数据约2.85×10⁵条,涵盖约745个聚合物与26个性质;经标准化与去重后,保留3985 条结构—性质对(图1)。


图1 OpenPoly 数据库的构建与整理流程。(a)从文献、数据库及试剂平台资料中提取并标准化聚合物性质数据的工作流;(b)多来源数据整合与异常值剔除流程;(c)不同来源下聚合物 Tg 的分布;(d)数据处理前后条目数对比,原始数据约28.5万条,最终保留3985条标准化结果;(e)数据量超过150的性质分布情况。
文章采用R²、NRMSE、NMAE三个指标,对数据数据量≥150的八个性质系统评测(图2)。在整体模型排名上,XGBoost ≈ TabPFN > UniMol2 ≈ PolyBERT > GCN ≈ GAT > Spherenet ≈ MLP)。其中,XGBoost 结合Morgan分子指纹编码在各类基准测试中表现最佳,并对训练数据中的噪声具有更强的鲁棒性。此外,研究还比较了不同重复单元数量的 PSMILES 编码对模型性能的影响,结果表明使用2个重复单元(N=2)相较于1个重复单元(N=1)在多数性质预测任务中展现出更高的稳定性,并在保证精度的同时降低了计算开销。

图2 聚合物性质预测的基准测试框架与性能评估。(a)基准流程示意,涵盖4种聚合物编码方式和八个代表性模型;(b)不同聚合度(N=1,2,4)对模型性能的Bland–Altman分析;(c)各模型在R²、NRMSE和NMAE下的平均排序热图,颜色越深表示排名越高;(d)各模型在三种指标下的平均排名柱状图;(e) 8种性质任务中不同模型性能分布的箱线图。
在预测准确性方面,研究给出了四个表现最优的性质结果,并选择Tg与介电常数 作为代表任务系统评估不同训练集规模下的模型表现(图3)。结果显示,XGBoost在四个性质的预测中均取得最佳性能:介电常数(R²≈0.87)、玻璃化转变温度 Tg(R²≈0.82)、拉伸强度(R²≈0.78)和杨氏模量(R²≈0.65),显著优于其他模型。在数据效率上,XGBoost在小样本条件下优势突出,仅使用25%的数据即可达到R²≈0.5,并随训练数据增加持续提升,在完整数据集上保持领先。相比之下,深度学习模型虽在大规模数据下具备潜力,但在稀疏数据和高维特征条件下增益有限,且对噪声与异常点更为敏感,性能提升相对缓慢。

图3 机器学习模型在关键性质预测中的表现与数据效率。(a–d) 模型预测值与实验值对比图:介电常数(a)、Tg (b)、拉伸强度(c)、杨氏模量(d);(e–f) 训练集规模对 Tg (e) 和介电常数(f) 预测性能的影响,8个模型在 25%、50%、75% 和 100% 训练数据下进行评估。
研究团队进一步利用OpenPoly数据库结合机器学习模型开展应用导向的聚合物筛选与结构设计,重点聚焦于高温聚合物介电材料(HTPDs)和质子交换膜燃料电池(PEMs)两类能源相关体系。通过模型对缺失实验数据进行补全,实现了全数据库范围的高通量筛选。在HTPDs筛选任务中,以介电常数、Tg与拉伸强度为核心指标,筛选出三类候选聚合物,其Tg高于 500 K、介电常数约 6.2‐7.2、拉伸强度超过 600 MPa,展现出优异的热稳定性和机械强度,具有高温介电应用潜力;在 PEMs 任务中,以氢氧总渗透率、Tg与杨氏模量为标准,获得壳聚糖、纤维素和 PPO 三类候选材料,兼具低气体渗透率、适中Tg与较高模量,能够满足燃料电池运行环境对膜材料的综合要求。这两类案例充分说明,OpenPoly 不仅支持聚合物性质预测,还能推动面向应用的材料发现与结构设计。

图4 高性能聚合物在高温介电材料与燃料电池膜中的筛选。(a) 以介电常数和Tg为指标筛选高温聚合物介电材料候选;(b) 以氢氧气体总渗透率和Tg为指标筛选燃料电池膜候选。下方展示了对应的重复单元结构及关键性质,仅保留满足应用需求的平衡候选,蓝框表示筛选阈值。
OpenPoly 构建了多源聚合物实验数据集,并建立了多任务机器学习模型的统一基准框架。在小样本与噪声条件下,XGBoost 展现出显著优势。通过能源相关的两类应用案例,研究表明该数据库不仅能够支撑聚合物性质预测,还可拓展至面向应用的候选材料筛选与功能反向设计。同时,作者也指出现有建模框架仍存在局限,主要源于聚合物表示与数据预处理的简化,未能纳入聚合度及实验条件等关键上下文信息,从而限制了对某些强依赖测试条件的性质预测精度。
数据可用性
OpenPoly 数据库可通过以下平台访问(需注册并登录后使用,无需授权):
https://cleanenergymaterials.cn/polymer/polymer_database/experiment_polymer_database
为支持实际应用,研究团队提供了在线预测服务,用户可在以下页面上传表格化的输入数据并调用模型预测聚合物性质(同样需注册并登录,无需授权):
https://cleanenergymaterials.cn/polymer/polymer_predict_page
本文为Chinese Journal of Polymer Science “AI for Polymers”专题特约稿件,题为“OpenPoly: A Polymer Database Empowering Benchmarking and Multi-property Predictions”。王纪峰博士研究生是该论文的第一作者,汪莹青年研究员为通讯作者。
Citation
OpenPoly: a polymer database empowering benchmarking andmulti-property predictions. Chinese J. Polym. Sci. 2025, 43, 1749–1760.DOI:10.1007/s10118-025-3402-y
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-11-4 08:29
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社