||
GEARS:预测多基因扰动的转录结果
细胞对遗传扰动的转录反应揭示了细胞如何运作的基本见解。转录反应可以描述多种功能,从基因调控机制如何帮助维持细胞身份到调节基因表达如何逆转疾病表型。这对生物医学研究,特别是在开发个性化治疗方面具有重要意义。例如,通过基因扰动研究来验证药物靶点,增加了临床试验成功的可能性。此外,确定协同基因对可以提高联合治疗的有效性。由于已知复杂的细胞表型是由小组基因之间的遗传相互作用产生的,确定这种相互作用可以促进精确的细胞工程。虽然最近的进展使科学家能够更快地在实验中取样扰动结果,但由于潜在的多基因组合的组合爆炸,预测扰动效应的计算方法对于确定实验扰动的优先级是必不可少的。
然而,现有的预测微扰结果的计算方法有其自身的局限性。单基因扰动结果预测的主要方法依赖于以基因调控网络的形式推断基因之间的转录关系。这一方面受到从基因表达数据集准确推断网络的困难,另一方面也受到来自公共数据库的网络不完整的限制。此外,使用这种网络建立的现有预测模型线性地结合了个体扰动的影响,这使得它们无法预测多基因扰动的非加性效应,如协同效应。最近的研究使用深度神经网络对来自大型扰动筛选的数据进行训练,跳过网络推理步骤,直接将遗传关系映射到扰动结果预测的潜在空间。然而,这些方法仍然需要对组合中的每个基因进行实验干扰,然后才能预测干扰组合的影响。
在这里,Roohani等人最近提出了图形增强的基因激活和抑制模拟器(GEARS,图1),这是一种集成了深度学习和基因-基因关系知识图的计算方法,以模拟遗传扰动的影响。生物知识的结合使GEARS能够预测没有先前实验扰动数据的单个基因或基因组合干扰结果。GEARS在预测单基因和双基因扰动的结果方面优于现有的方法,这些扰动来自七个不同的数据集。GEARS还可以检测到五种不同的遗传相互作用亚型,并通过预测与训练期间不同的表型,将其推广到新的扰动空间区域。因此,GEARS可以直接影响未来扰动实验的设计。
图1 GEARS结合了先验知识和深度学习来预测扰动后的基因表达。a、问题表述:给定未受干扰的基因表达(绿色)和施加干扰的基因表达(红色),预测基因表达结果(紫色)。每个盒子对应一个单独的基因。箭头表示表达的变化。b、GEARS模型架构。(i)对于每个处于无扰动状态的基因,GEARS初始化一个基因嵌入向量(绿色)和一个基因扰动嵌入向量(红色)(ii)。这些嵌入向量被分配为基因关系图和扰动关系图(iii)中的节点特征。使用GNN来组合每个图中邻居之间的信息。每个结果的基因嵌入与扰动集(iv)中每个扰动的扰动嵌入求和。使用跨基因层将所有基因的输出组合并输入到基因特异性输出层(v)。最终结果是扰动后的基因表达。MLP为多层感知器
GEARS实现代码为Python,可以从https://github.com/snap-stanford/GEARS中获取。
参考文献
[1] Roohani Y, Huang K, Leskovec J. Predicting transcriptional outcomes of novel multigene perturbations with GEARS. Nat Biotechnol. 2023 Aug 17. doi: 10.1038/s41587-023-01905-6.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-7-28 00:34
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社