jhsbj的个人博客分享 http://blog.sciencenet.cn/u/jhsbj

博文

大型语言模型GeneAgent预测基因集功能

已有 389 次阅读 2025-8-4 07:55 |个人分类:生物科技|系统分类:科研笔记

     近日,NIH的国立医学图书馆(NLM)的研究人员开发了一款名为 GeneAgent 的人工智能工具。该工具借助大型语言模型(LLM)代理分析并预测基因集功能,同时融入自我验证步骤,以减少 LLM 可能产生的不准确 “幻觉”。 

     NLM 高级研究员卢志勇表示:“GeneAgent 与传统方法的不同之处在于,它利用尖端的大型语言模型预测基因集功能,并提供具有解释性的见解。” 他还提到,这款工具 “独特的设计特点是内置了一个人工智能代理,能依据专家策划的数据库进行自我验证,从而最大限度地减少 LLM 的幻觉问题。” 

    相关研究成果发表在 2025 年 7 月 28 日的《自然方法》杂志上,论文题为《GeneAgent: self-verification language agent for gene-set analysis using domain databases》。卢志勇团队开发了一个基于 GPT-4 的四阶段流程,用于注释基因集功能,随后通过与专家策划的特定领域数据库进行自主交互,对这些注释进行自我验证和修改。根据团队的质量评估,在准确预测 1106 个已知基因集的功能方面,该方法的表现优于单独使用 GPT-4。 

     研究人员进一步将 GeneAgent 应用于 7 个 B2905 小鼠黑色素瘤细胞系的基因集分析,这些基因集来自基于肿瘤亚克隆进化的单细胞基因表达研究。结果显示,新工具生成的过程名称和信息解释比 GPT-4 生成的更准确。作者认为:“与 GPT-4 相比,GeneAgent 不仅性能更优,还为新的基因功能提供了有价值的见解,促进了知识发现。” 小鼠黑色素瘤的应用案例 “表明 GeneAgent 在多个物种中都具有稳健性”。 

     此外,研究人员邀请两名人类专家,从 “肿瘤内嵌套系统”(NeST)蛋白质组学分析中随机选择的 10 个基因集中,手动评估了 132 项 GeneAgent 预测结果。结果显示,这款具备自我验证功能的人工智能工具得出了 122 项正确判断,占对这些基因集预测总数的 92% 以上。 

     GeneAgent 是一系列基于人工智能模型的基因组学工具中最新的一款。近年来,这类工具的应用范围不断扩大,从单细胞多组学延伸到虚拟细胞研究。从目前的发现来看,GeneAgent 的开发人员预计,该基因集分析工具将帮助研究人员解读大规模转录组学、蛋白质组学及其他组学数据,进而解开疾病机制、发现和验证潜在生物标志物、开发改进的治疗策略等。

     尽管 GeneAgent 的当前版本依赖于 GPT-4,但基于该骨干模型目前的性能和受欢迎程度,使用其他 LLM 可能也能实现类似策略。不过研究人员也提醒:“虽然自我验证步骤有效,但 GeneAgent 仍可能产生与事实存在较大差异的生物过程名称。” 

     目前的研究结果表明,该工具 “在不同物种的基因集上表现出显著的稳健性,并通过与特定领域数据库的自动交互,有效减轻了幻觉问题。” 卢志勇表示,GeneAgent 工具免费向研究界其他成员及公众开放,他的团队 “通过允许将研究目标、实验条件等额外上下文信息作为模型输入的一部分,进一步完善了这种方法。”“通过这样做,” 他补充道,“未来的研究将能更好地预测具有生物学意义的功能 / 过程,同时最大限度降低产生幻觉的可能性。” 

什么是基因集功能,有什么作用? 

基因集功能指的是一组存在关联的基因(即 “基因集”)共同参与的生物学过程、分子功能或在细胞中发挥的协同作用。简单来说,就是多个基因 “协同合作” 完成的具体生理活动或特定功能。其核心价值在于通过解析 “一组关联基因的集体作用”,解决单基因分析无法回答的系统性问题。 

具体作用及应用场景: 

在癌症研究中,癌细胞常出现多个基因的异常表达(如突变、过量激活等)。通过分析这些异常基因组成的 “基因集”,能发现它们共同参与的功能(如 “细胞无限增殖”“血管新生” 等),进而锁定癌症发展的关键通路(如 PI3K/Akt 信号通路)。例如,对黑色素瘤细胞的基因集进行分析,可能发现某组基因共同推动了肿瘤转移,为靶向治疗提供明确方向。

对于糖尿病、阿尔茨海默病等复杂疾病,其发病并非由单一基因导致,而是多个基因协同作用的结果。基因集功能分析能揭示这些基因共同参与的代谢过程(如 “胰岛素分泌调节”)或神经机制(如 “淀粉样蛋白清除”),帮助研究者理解疾病的深层原因,从而探索潜在的解决途径



https://wap.sciencenet.cn/blog-3302154-1496374.html

上一篇:ESCAPE-seq 技术:大规模平行筛选HLA-I肽抗原呈递的创新方法
下一篇:miBd人工合成的类似迷你TCR
收藏 IP: 27.47.131.*| 热度|

1 宁利中

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-8-4 18:08

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部