matzlx的个人博客分享 http://blog.sciencenet.cn/u/matzlx

博文

赢得百万美元大奖的蛋白序列数据库搜索算法

已有 4160 次阅读 2015-3-3 22:27 |个人分类:教学|系统分类:论文交流


Daniel Huson ( http://ab.inf.uni-tuebingen.de/people/huson/  )是生物信息学领域一名知名学者, 任职于德国 Tubingen大学。 该大学历史悠久, 具有500 多年历史, 早期培养了七八位诺奖得主。 它也是DNA分子首次发现地。 2013年的下半年,他的团队由于其发明的蛋白质序列数据库搜索程序 Diamond 的优异表现赢得了100万美元的现金大奖。 这里是得奖的新闻报到链接:http://www.innocentive.com/1-million-prize-awarded-new-algorithm-rapid-characterization-pathogens早在去年就知道这一消息,今天,终于看到了 Diamond (Nature Methods, 17 Nov., page 1-4,  2014) 的庐山真面目。  

   如果使用Diamond 确定由高通量测序产生的超过百万DNA序列片段来自哪些微生物的基因,它比BLASTX可以快上2万倍。后者是美国NCBI数据库网站上运行得同源序列查询程序。 在短短两个半小时以内,Diamond 可以把在一个巨型机上80万 CPU小时的工作在一个单一工作站上完成 (参见上述引用的论文)。 这无疑又是生物序列数据库搜索的又一个重大突破。

    这项工作主要有他的学生,文章的第一作者,本杰明完成。 小本是一怪人。智力超群,但生活古怪。Huson讲大学生对他主持的讨论课的常见评语是:当我们提出问题时,他只会傻笑。 小本到底在Diamond程序里使用什么怪招呢?

    第一, 对上百万的序列片段和数据库同时建立核匹配的索引(index)。 和BLASTX以及其它查询软件所不同的, 通过对双方的索引排序,使用线性时间便可以确定每个核匹配在查询片段以及数据库序列中的对应位置。这应该是合并排序(Merge sorting)算法中合并的步骤, 每个上过算法数据结构的计算机系的学生都懂。   那么, 为什么已有的程序没有使用这个技巧呢? 我的理解是不需要。 因为一般的数据库查询只涉及到一个查询短序列。对它建立索引不划算。这项应该对提速贡献很大。“小技巧, 大飞跃!”  

     第二, Diamond 使用了散核(Spaced seed)的概念(Ma, Tromp, Li,Bioinformatics, 18: 440-445, 2002). 散核的概念已经在同行中众所周知, 可参见《生物信息学基础教程》(http://www.math.nus.edu.sg/~matzlx/BioTextbook/index.html)。 但出乎意料的是Diamond使用了4个长度介于15到24,有多达14个检验匹配位置的散核。 在业界大家的共识是在蛋白质序列数据库查询时, 散核的检验匹配位置的数目要远远小于10,别说14。

    第三, 将20个氨基酸压缩成 11个代表。 我认为 这项技巧贡献不是太大。 但它给了使用超长散核的一个合理的解释。

    这百万奖金如何分配呢? 我所知道是德国政府收走了40%的税,本文的主角也和一个合作伙伴SS分道扬镳了。




 






https://wap.sciencenet.cn/blog-2451626-871692.html

上一篇:生物信息学基础教程出版了
下一篇:科学家跑得太快了吗? 著名癌症学家Weinberg又撤销两篇文章
收藏 IP: 137.132.3.*| 热度|

3 黄健 rosejump gaoshannankai

该博文允许注册用户评论 请点击登录 评论 (4 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-28 05:52

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部