YangLiBMBL的个人博客分享 http://blog.sciencenet.cn/u/YangLiBMBL

博文

STREME:MEME Suite再添模体识别新工具

已有 5817 次阅读 2021-5-16 00:54 |个人分类:论文交流|系统分类:论文交流

    2021年3月23日,MEME Suite创始人——Timothy L. Bailey以独立作者身份在期刊《Bioinformatics》上发布了最新的转录因子结合位点预测(模体识别)的新工具——STREME(STREME: accurate and versatile sequence motif discovery)。这是该团队继MEME、DREME和GLAM2之后开发的第四个模体识别核心算法。它直接占据了DREME在MEME Suite中的生态位,因此MEME Suite团队宣称从此不再维护DREME的代码。在这篇论文中,作者除了介绍算法的方法论和结果评估之外,还详细讨论了我开发的ProSampler算法,并提供了客观公正的评价。

    模体识别问题是指:给定一组蕴含转录因子结合位点的序列(例如:ChIP-Seq 的峰),不借助任何参考信息找到其中转录因子结合位点的集合。这个集合被称为模体。自1994年Timothy L. Bailey在会议《Proceedings of the Second International Conference on Intelligent Systems for Molecular Biology》上发表MEME Suite的第一个算法——MEME以来,该领域长期被MEME Suite团队垄断。之后的几次突破主要凭借新技术的产生(例如:基于ChIP-chip技术的MDscan)。直到2015年,模体识别的第一个深度学习算法——DeepBind发表在《Nature Biotechnology》上,大量深度学习算法脱颖而出,例如:Bassat和DESSO,等等。从此,模体识别的方法论基础转移到深度学习模型。因此,在目前这个深度学习盛行的时期,基于经典算法的STREME能够发表,必然具备其特有的性能优势。

    STREME的算法优势包括四个方面:1)类似于Weeder和STEME,STREME采用了后缀树(Suffix Tree)来存储序列,进而提高算法运行速度。与前者不同的是,STREME并不是利用后缀树记录每个字符串出现的位置,而是直接统计位置权重矩阵(Position Weight Matrix,PWM)的位置。鉴于PWM的数量远小于字符串,这近一步加快了后缀树的使用效率。2)类似于DREME和HOMER,STREME也采用统计检验来衡量字符串的显著性,但是它根据输入数据和背景数据的特征分别采用Fisher准确检验和二项分布检验。具体地,如果输入数据和背景数据的序列长度分布类似,就用Fisher检验;否则,就用二项分布检验。3)基于如何准确地把输入序列和输出序列分为两类,STREME采用了新型的统计分数衡量模体的显著性。4)除了从DNA、RNA和蛋白质序列上识别特定的位点,STREME还允许用户自行决定序列的字母表,这就为STREME的大规模推广提供了可能。最后,我尝试回答下上一段末尾提出的问题:基于经典算法的STREME之所以能够现在发表,原因在于深度学习模型本身的局限——数据规模大。数据规模太小,导致深度学习模型无法彻底训练,进而降低其性能。

    当然,这篇论文对我印象最深的还是对我的算法——ProSampler的讨论。每一条都值得认真对待:1)ProSampler并没有采用统计分数衡量模体的显著性。统计学可以说是任何自然科学都认可的方法,其中最流行的就是p-value、e-value和q-value。虽然ProSampler采用z-score衡量模体,但是与p-value等指标不同,由于z-score的取值没有上限,这就使得用户很难直观估计模体的显著性。2)ProSampler无法让用户自行定义字母表。这是目前大部分模体识别算法的共性。虽然ProSampler是只针对DNA序列的,但作者也在CLIP数据上测试了它识别RNA模体的性能。在准确性比较上,它与STREME和Weeder居于榜首。3)ProSampler具有碾压性的优势就是效率,它比STREME快100倍。4)尽管ProSampler与STREME、MEME和HOMER具有相近的准确度,但是当我们采用更高的阈值对预测的模体和真实模体进行比较时,它的准确度会急速下降。也就是说,ProSampler能准确识别模体,但是并没有对模体进行足够的优化。总之,作者指出尽管ProSampler存在模体优化上的缺陷,但是由于它具备极高的运行速度,将来具有很大的提升空间。



https://wap.sciencenet.cn/blog-3447504-1286746.html

上一篇:关于AlphaFold的几点感受
下一篇:肿瘤微环境基础知识汇总
收藏 IP: 144.121.166.*| 热度|

1 许培扬

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 15:43

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部