YangLiBMBL的个人博客分享 http://blog.sciencenet.cn/u/YangLiBMBL

博文

关于深度学习和单细胞数据分析的一点笔记

已有 1978 次阅读 2021-12-6 05:42 |个人分类:观点总结|系统分类:科研笔记

    首先,深度学习(Deep Learning,DL)的最大优势就是通过一连串分层次的基本运算挖掘单细胞数据内部的复杂关系。在这一点,两者是非常“般配”的。最基础的例子包括:降噪、降维和特征提取。然后,这些输出可以作为输入直接进行细胞聚类。另外,DL还可用于数据融合和消除批次效应(Batch Effect)。以上是深度学习工具的共同特征,近些年流行起来的图神经网络(Graph Neural Network,GNN)和注意力机制(Attention Mechanism,AT)使得模型更具解释性(Interpretability)。

    

    那么设计好的DL模型需要遵守什么规则?

    第一,核心模型要尽可能的是无假设的(Hypothesis-Free)。所谓“核心模型”,指的是不局限于某一个特定领域或者某一类特殊数据的;要想应用到某一类特殊数据,我们需要通过利用先验信息(例如:Pathways和Atlas)给模型增加限制条件。

    第二,根据数据结构(例如:表格、序列、时序和图,等等)、数据可得性、计算资源和目标选择合适的核心模型。具体来说,表格数据是高维数据,深度神经网络(Deep Neural Network,DNN)就是最合适的;序列数据上通常隐藏有局部特征要被挖掘,因此卷积神经网络(Convolutional Neural Network,CNN)最擅长挖掘此类特征;时序数据前后存在某些依赖性,因此循环神经网络(Recurrent Neural Network,RNN)是最适合的;至于图结构,毫无疑问,GNN和AT是最擅长的。如果某类数据可得性差,我们需要先在另一类数据上训练好模型,然后迁移到该数据上。这就需要迁移学习(Transfer Learning)。如果我们有多个任务需要完成,而完成这些任务需要在某几个阶段调用同样的算法,那么多任务学习(Multi-task Learning)架构就能极大的节省计算资源。在生物领域,往往需要整合单细胞多组学(Single-cell Multi-Omics,scMulti-omics)来先完成一些整合分析(例如:细胞聚类、异质网络构造和转录调控预测,等等),然后下降到每一个模态(Modality)分别分析。这就是多模态学习(Multi-Modal Learning)架构产生的原因。对于目标清晰的问题,我们可以直截了当地选择。例如:自编码器(Autoencoder,AE)用于降维和聚类,联邦学习(Federated Learning)用于保护隐私、避免终端之间过多的数据交互。

    第三,消除scMulti-omics数据中的非生物因素的影响。当前不同的测序技术产生的数据会在测序时间、操作者、批次、设备和测序平台上有差别,因此我们亟需减轻这些噪音在DL模型中的传播。所以,数据协调(Harmonization)是运用DL模型之前必需的步骤。


    用DL模型做单细胞数据分析需要注意什么?单细胞测序数据中,只有极少数具有真实的标签(Label)。在这少量数据上做训练,很容易出现过拟合(Overfitting)。举个例子,GNN倾向于把相邻的点之间的差异抹平(Smooth),使得顶点的嵌入(Embedding)非常相似。这就进一步降低了模型的性能。


    在DL设计领域,我们最急需的是什么?除了单独的模型设计之外,如何快速地利用现有DL模型组装适用于不同场景的框架对于将DL推广开来具有极大的意义。一些常规的、重复性的分析可以通过公开的模型沉淀下来,再配以严格的开发和使用规范,能够更容易地让生物工作者上手DL工具。这些规范可以包括:数据格式、预处理、训练、编程、教程、参数调整和架构,确保可重复性(Reproducibility)。最后,为了避免对开发环境的依赖,一个公开的源代码学习平台很有必要。


    虽然DL模型在单细胞数据分析领域已经证明了良好的性能,但在不远的未来它仍然有潜能待开发

    第一,带有注释的单细胞数据非常稀缺,导致训练样本不足。因此,主动学习(Active Learning)和对比学习(Contrative Learning)有巨大的发展空间。主动学习也叫查询学习,它通过设计合理的查询函数,不断从未标注的数据中挑选出数据加入标注后放入训练集;对比学习在训练过程中不断精进区分相似样本和不同样本的能力。

    第二,端到端(End-to-End)模型会越来越多。这会直接导致使用DL模型的生物工作者越来越多。反过来,由于生物工作者逐渐上手DL模型,将来会有更多的可解释模型出现。这些模型会把可用的拓扑、物理、结构和生物信息融合进去。

    第三,DL模型对操作者编程技能的门槛会越来越低。将来的DL模型会更多地采用网页工具或者Docker来执行,避免了书写过多的代码。这会培养出一批能够独立使用DL模型的生物和医学工作者。


    总之,DL模型的预测性(Predictible)已经发挥出来了,目前正在尽力增强可解释性,下一步的发展目标就是增强模型的可执行性(Actionability)。



https://wap.sciencenet.cn/blog-3447504-1315331.html

上一篇:scATAC-Seq数据预处理和基础分析流程
下一篇:生物信息学中的统计检验大起底
收藏 IP: 144.121.166.*| 热度|

1 许培扬

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-28 19:26

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部