绿色化学工程(GreenChE)分享 http://blog.sciencenet.cn/u/GreenChE IF=9.1,Q1区,CiteScore=11.6

博文

[转载]「好文分享」清华大学王笑楠团队:大语言模型助力探索低共熔溶剂领域知识

已有 146 次阅读 2025-7-7 16:36 |个人分类:精选文章|系统分类:论文交流|文章来源:转载

e3cda77e06b24f566424a6d028d59e7.png

01文章导读

人工智能(AI)在推动绿色化学工程发展中发挥着重要作用,而数据匮乏仍是许多领域面临的主要挑战。低共熔溶剂(DES)以其可生物降解、低毒性、低挥发性和可回收性等优点,被视为传统有机溶剂的有力替代品。同时其高度可调的性质使其被誉为“设计师溶剂”。然而,DES相关信息分散于不同文献版块,缺乏统一结构化的知识体系。全面、易于获取的领域知识的匮乏和基于试错法的研究范式,使DES研究往往偏好于熟悉配方,限制了研究人员在广阔的设计空间中对新DES配方的探索。

清华大学王笑楠副教授课题组通过基于大型语言模型(LLMs)的框架,构建了一套可以精准高效地挖掘DES领域数据的流程,以加速知识发现。该框架以较高的准确性自动化地从DES领域文章中提取信息,从而构建了一个全面的领域知识库。此外,基于LLM的交互式Agent已部署于在线平台,进一步方便了对数据的访问,使研究人员能够克服数据限制并加速新DES配方的发现。文章发表在Green Chemical Engineering(GreenChE),题为“Unlocking deep eutectic solvent knowledge through a large language model-driven framework and an interactive AI agent”。

02. 研究亮点

  1. 开发了一个 LLM 驱动的框架,用于自动提取 DES 相关数据。

  2. 从 14,602 篇文章中提取 34,027 条记录和 9,215 个独特DES配方,准确率超过 90%。

  3. AI Agent与基于图形的检索系统集成,以实现交互式查询。

  4. 构建了结构化的 DES 知识库,以加速绿色化学中的配方发现。

03. 内容概述

本研究首先构建了一套基于LLM的文献信息提取流程(图1)。该流程通过将LLM(绿色框表示)与规则化流程(黄色和红色框表示)结合,使其兼顾全面性、准确性与效率。该流程主要分为三个部分:文章选择与获取、DES信息提取,以及数据库内容扩展与清洗。提取的数据库随后用于构建交互式问答Agent系统,使该领域的研究人员能够快速获取目标DES知识数据。

1.jpg

图1. 基于LLM的文献信息提取流程及交互式问答Agent的整体工作流程。

交互式问答Agent系统基于图检索增强生成(Graph RAG)技术,由多个Agent模块组成(图2)。监督Agent会评估用户的查询,以决定仅使用语言模型响应,还是需要进行知识图谱查询。若查询需要专业DES知识,Cypher查询Agent将构建并执行针对数据库的Cypher语句,并自动验证和修复错误。获取到的信息将和原始的查询问题一起被输入到问答Agent中,以生成上下文丰富且基于知识的响应。

2.jpg

图2. 交互式问答Agent的详细框架。

通过上述提取流程,从主要来自七家出版商的文献中共提取出了46,548条数据(图3a)。经过清洗后的数据库包含34,027条互不相同的数据信息、9215种DES配方数量和7534条熔点信息,均远超其他手动提取数据集的水平(图3b)。

3.jpg

图3. 提取的DES数据库总览: (a) 数据库信息概述; (b) 本工作与其他DES数据集的对比。

为了对提取的数据有清晰的理解并为DES领域当前状态提供定量分析,本研究还对数据库进行了四个维度的统计分析:DES的组成成分、DES配方、研究频率以及混合物的性质(图4)。总体而言,数据库的分析结果基本符合领域常识,印证了数据提取结果的合理性,同时为领域现状提供了定量化的见解。

4.jpg

图4. 对DES数据库的统计分析: (a) 物质类别,(b) HBA数量,(c) HBD数量,(d) 组分的TPSA, (e) 组分的XLogP,(f) DES体系类型, (g) DES体系亲水性分布,(h) 常用DES体系, (i) 常用物质, (j) 混合物的平均XLogP和TPSA,(k) 混合物的熔点和工作温度。

04. 总结与展望

本研究提出了一个利用大型语言模型(LLMs)提取和检索DES知识的框架。该框架结合了自动数据提取、内容整理和交互式查询,显著提升了DES知识的可获取性。通过利用该框架,我们创建了一个包含34,027条数据、涵盖多种配方和性质的综合性DES数据库。基于Graph RAG的人工智能Agent使数据检索更加高效,帮助研究人员快速获取相关信息并克服知识分散的挑战。

这项工作提供了一种更系统、自动化和可访问的方式来探索DES的性质、配方及其潜在应用,旨在推动DES研究范式的转变。未来,这种方法可以扩展到绿色化学的其他领域,助力更多可持续材料的开发。

05. 作者简介

a0241744a667ba61d88cf2911b01bf9.png

王笑楠 副教授

王笑楠,清华大学化工系长聘副教授、博导,智能化工研究中心主任,新加坡国立大学荣誉副教授,新一代人工智能国家科技重大专项首席科学家、项目负责人。国家高层次青年人才计划入选者。带领团队从事AI+能源化工材料的研究。在Nat. Mach. Intell.、Nat. Synth.等期刊发表学术论文180余篇,包括15篇ESI高被引论文,被引11600次,H-index 63。担任Applied Energy等十本国际期刊副主编和编委,获美国化学会可持续化学与工程讲席奖、Cell Press中国女科学家奖、青年北京学者、侯德榜化工科学技术奖“青年奖”,入选全球学者终身学术影响力榜,2024全球高被引学者,连续四年被Elsevier评为全球前2% 顶尖科学家。

3a576795f2f28ca88fe815ce3ef050c.jpg

彭茜婷

彭茜婷,清华大学化学工程系在读直博生。研究方向为人工智能启发的新型低共熔溶剂的发现。以第一/共同第一作者在Green Chem. Eng.、MRS Bull.等期刊发表SCI文章3篇。

abce0b1639392b7d1493c4dc4e3c983.jpg

张义晟

张义晟,清华大学化学工程系在读硕士生。研究方向为面向材料领域的文献信息提取、大语言模型智能体搭建与知识图谱构建。

图片3.jpg

赵凯

赵凯,清华大学化学工程系在读直博生。研究方向包括中国塑料助剂生命周期可持续性评估、人工智能在产业生态学中的应用、基于低共熔溶剂的新材料设计。以第一/共同第一作者发表SCI文章8篇,包括Environ. Sci. Technol.、Resour. Conserv. Recycl.、J. Mater. Chem. A、Green Chem. Eng.等期刊。

撰稿:原文作者

编辑:GreenChE编辑部

微信图片_20250623164418.png

bb50a3c69bca48cf1904048fb56a29d.jpg



https://wap.sciencenet.cn/blog-3464012-1492722.html

上一篇:[转载]「好文分享」双功能基团杂化氧化硅气凝胶实现低浓度CO2捕集和宽温域隔热
收藏 IP: 45.124.21.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-7-9 14:09

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部