zjxu的个人博客分享 http://blog.sciencenet.cn/u/zjxu

博文

2024年(1):利用深度学习方法生成大规模类药/类天然产物库—环结构识别新方法发展与应用

已有 1565 次阅读 2024-4-10 20:28 |个人分类:数据平台开发|系统分类:论文交流

                                              clip_image001.png

环状化合物在药物研发中占据极其重要地位。在2021年销售额排名前200的药品中,有113种药物为小分子药物,而其中有112种小分子药物为环状化合物。由此可见,在药物设计中需要重点关注环状化合物。天然产物是药物开发的宝库,在1981年至2014年批准上市的1211个小分子化学实体药物中,约有51%的药物其结构基础来源于天然产物。但天然产物的结构往往含有复杂的环结构,而目前尚未有研究对天然产物或类天然产物中的环结构进行无环、简单环、复杂环(螺环、稠环、桥环和笼状)与大环的分类、识别与讨论。因此发展准确可靠的环状化合物结构识别新方法具有重要的现实意义。

相对于人工合成的小分子化合物数目,天然产物的数目十分有限,为了更好地开展基于天然产物结构的新药发现研究,人们十分有必要拓展类天然产物分子的结构空间。近年来,随着化学大数据的发展和人工智能的进步,深度生成模型在加速药物发现和化学空间探索方面显示出巨大的潜力1-3,有望以不直接依赖结构相似性的方式生成结构新颖的分子4。因此,利用深度生成模型可以拓展类药化合物的化学空间,增加环状化合物结构的多样性,有望构建出结构更加新颖的类天然产物库5

中国科学院上海药物研究所药物发现与设计中心朱维良/徐志建研究团队重点关注了类药和类天然产物环状化合物。首先,研究人员开发了一种快速、准确的环系统识别与分类方法D3Ringshttp://www.d3pharma.com/D3Rings/),成功对数据库中的环状化合物的系统分类。随后,研究人员采用了三种深度生成模型,包括变分自编码器(VAE)、对抗自编码器(AAE)以及字符级循环神经网络(CharRNN),构建了大规模的类天然产物和类药物分子数据集。最后,通过对数百万个化合物的虚拟筛选,研究人员从药物-靶标相互作用的角度阐明了扩大分子数据库的规模有助于发现结构多样、亲和力高的类药物化合物。相关研究成果发表在专业学术期刊Journal of Chemical Information and Modeling上(https://doi.org/10.1021/acs.jcim.3c016576

研究人员将分子分为无环化合物、简单环化合物、复杂环化合物(包括螺环化合物、稠环化合物、桥环化合物和笼状化合物)与大环化合物(图1),并通过程序D3Rings自动识别出来。D3Rings 的分子分类流程如图2A所示。程序首先根据 SSSR 方法识别分子中的环结构,并检查环系统中是否有直接相连的原子。随后,程序根据每种环状化合物的独特性质进行进一步识别。特别地,在稠环或桥环化合物中,程序进一步根据分子中直接相连的环状结构的数目(最大并环数)进行分类,如图2B所示。

clip_image002.png

1.A)无环结构、(B)简单环结构、(C)复杂环结构和(D)大环结构示意图

clip_image003.png

2. D3Rings程序流程示意图。(A)分子分类流程图,(B)最大并环数的计算方法

利用新开发的 D3Rings 方法,研究人员从类药生物活性化合物数据库 ChEMBL30、药物分子数据库DrugBank5.1.9和天然产物数据库COCONUT20221月)中分别筛选出无环化合物、简单环化合物、复杂环化合物(螺环化合物、稠环或桥环化合物、笼状化合物)以及大环化合物。相关结果如图3所示,研究人员发现 COCONUT 中化合物的化学结构比 ChEMBL DrugBank 中的化合物更为复杂,富含螺环、稠环、桥环、大环等特征结构。

clip_image004.png

3. ChEMBLDrugBankCOCONUT数据库中分子的分类识别与统计结果

随后,研究人员使用了三种深度生成模型——VAEAAE以及CharRNN来构建新分子数据库。研究人员以DrugBank为训练集训练深度生成模型,建立了一个包含 119,381个分子的类药物分子数据集,分子数约为DrugBank数据集的分子数目的10倍。同样地,以COCONUT为训练集来训练模型,建立了一个包含4,185,929个分子的类天然产物分子数据集,分子数约为COCONUT数据集的分子数目的10倍。

clip_image005.png

4. A)变分自编码器(VAE),(B)对抗自编码器(AAE)以及(C)字符级循环神经网络(CharRNN)架构

        随着虚拟筛选库的规模扩张,是否能从中发现更多的高活性化合物,将决定构建大规模分子结构数据库的必要性和重要性。类COCONUT分子数据集共包含4,185,929个分子,研究人员从中依次提取了4,186个(0.1%)、41,859个(1%)、418,593个(10%)和4,185,929个(100%)分子,并分别与SARS-CoV-2中的蛋白质3CLproRdRpnsp13三种重要的靶标蛋白进行了分子对接(图5)。结果表明对大规模分子库进行虚拟筛选有利于找到与靶标有良好亲和力的配体,说明对富含环状化合物的大规模分子数据集进行筛选具有明显的实用价值。

clip_image006.png

5. 分子数据库规模对与SARS-CoV-2 3CLproRdRpnsp13的对接性能的影响。(A) 随着化合物库规模的扩张,对接得分小于-6.0 kcal/mol的分子数量的变化。(B) 随着化合物库规模的扩张,最佳对接得分的变化。(C) 随着化合物库规模的扩张,排名前100的分子的平均对接得分的变化。

本研究论文第一作者为中国科学院上海药物研究所硕士研究生马敏斐,通讯作者为朱维良研究员和徐志建研究员。

 

原文链接:https://doi.org/10.1021/acs.jcim.3c01657

 

参考文献:

[1] Lavecchia, A. Deep Learning in Drug Discovery: Opportunities, Challenges and Future Prospects. Drug Discov. Today. 2019, 24 (10), 2017–2032. DOI: 10.1016/j.drudis.2019.07.006.

[2] Öztürk, H.; Özgür, A.; Schwaller, P.; Laino, T.; Ozkirimli, E. Exploring Chemical Space Using Natural Language Processing Methodologies for Drug Discovery. Drug Discov. Today. 2020, 25 (4), 689–705. DOI: 10.1016/j.drudis.2020.01.020.

[3]  Skalic, M.; Sabbadin, D.; Sattarov, B.; Sciabola, S.; De Fabritiis, G. From Target to Drug: Generative Modeling for the Multimodal Structure-Based Ligand Design. Mol. Pharm. 2019, 16 (10), 4282–4291. DOI: 10.1021/acs.molpharmaceut.9b00634.

[4]  Vogt, M. Exploring Chemical Space — Generative Models and Their Evaluation. Artif. Intell. Life Sci. 2023, 3, 100064. DOI: 10.1016/j.ailsci.2023.100064.

[5]  Bian, Y.; Xie, X. Q. Generative Chemistry: Drug Discovery with Deep Learning Generative Models. J. Mol. Model. 2021, 27 (3), 71. DOI: 10.1007/s00894-021-04674-8.

[6] M. Ma; X. Zhang; L. Zhou; Z, Han; Y. Shi, J. Li; L. Wu; Z. Xu; W. Zhu. D3Rings: A fast and accurate method for ring system identification and deep generation of drug-like cyclic compounds. J. Chem. Inf. Model. 2024, DOI: 10.1021/acs.jcim.3c01657.



https://wap.sciencenet.cn/blog-2877557-1429082.html

上一篇:[转载]2023年(4):中药复方治疗新冠病毒感染研究成果在《美国科学院院刊》发表
下一篇:[转载]2024年(2):卤键对蛋白质结构稳定性及其与多肽结合影响的计算研究
收藏 IP: 114.84.243.*| 热度|

1 宁利中

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-22 00:50

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部