龙五?龙舞!分享 http://blog.sciencenet.cn/u/DaCaiNiao 行踪常在云霄外,天下英豪我第一

博文

[生信经典教材推荐]:生物序列分析 精选

已有 15214 次阅读 2013-10-15 19:13 |系统分类:教学心得| 经典

   其实很久很久以前就非常想推荐这本书,王俊在微博上说过:这是生信最好的一本教材,没有之一。我坚决同意这个观点。这本书王俊专门组织华大基因的人翻译成了中文,我也认真读过,但因为生信这个领域本身就是一本烂帐,各种名词的中文意思没有统一,也很难在短期内统一,所以我对这个中译本持谨慎的态度。因此我的建议是,英文原版必须看,中译本可以结合起来一起看。这两本书在当当有可以搜到:英文版是《生物序列分析Biological Sequence Analysis 》,中译本是《生物序列分析》。

   这本书我最喜欢的部分,不是内容,而是前言,我认为所有正在或者有志于从事生信研究的学者或学生,都应当读读这个故事。这个故事是我最喜欢的关于科研奋斗的故事之一。话说很久很久以前,1992年,某个地方举行了个叫"snowbird"的会议,主要讨论神经网络。可以想象,学术会议一般大多专业而枯燥,大牛们在台上眉飞色舞,学生们认真听讲,或者思想开小差,爱干啥干啥。有这么四个在当时可以称为“绝对屌丝”的年轻人,分别是R. Durbin (RD), S. Eddy (SE), A. Krough (AK)和G. Mithcison (GM),在会议上听了一个报告。很平淡无奇的报告,David Haussler (DH) 如同其他大牛一样,忽悠了一个看起来仅有纸上谈兵意义的算法:HMM (隐马尔科夫模型)。这个算法在当时可以说没有任何前景,没有任何希望,DH也只是说这玩意儿大概或许好像有可能可以解决多序列比对的故事。还没等他讲完报告,听众们已经不耐烦的打瞌睡,或者纷纷退场。是的,这个世界上有太多的算法,都说自己是最好的,但究竟是不是忽悠,连忽悠的人自己都未必当真。科学前沿嘛,领域的一个前辈谷迅教授说的好,啥叫科学前沿?科学前沿就是一帮人在那里胡说八道。

   所以,我认为有些人可以成功,有些人则肯定不可能成功,这是命中注定的。因为你需要耐心的倾听,你要能够听见并且听清楚命运之神向你呼唤的声音,听见,或者听不见,就决定了你的命运。这种非凡的听力,可以是天生,自然也可以通过后天的努力来获得。举个我最喜欢讲的例子之一,孙悟空上课不认真听讲,老板须菩提大怒,上去在他头上敲了三下,然后背着手走人。师兄弟们纷纷谴责猴子搞乱,猴子自己却明白老师这是啥意思。后来的事情大家都知道,半夜三更,手提马灯,匆匆慢慢,来到卧房,抬头一看,屁股朝外:老板呼呼大睡。睡醒老板说,猴子你为啥来啊?猴子说你叫我来的。得,从此学成72般变化,下山大闹天宫去也。这就是悟性,这也就是命运。关于悟性修炼的方法我以前的博客有详细教程,这里不赘述。

   当一帮人纷纷退场并吐槽这开的啥会时,这四位“屌丝”们不约而同的听到了命运之神的呼唤。所以在报告结束后,这四位很偶然或者也许是必然的聚到了一起,大家一边八卦着领域里的各种花边,一边喝着啤酒吃着难以下咽的硬皮面包。当时的情况是,RD和GM刚从计算转生物,所以对生物学应该是一窍不通。SE是科班出身的实验学家,方向是遗传,做博后不久,在剑桥的MRC实验室打酱油,后来AK也跑到这地方呆了一年。因此,当年的形式是:两个对生物有着满腔热血但是完全没有任何背景的计算方向的“屌丝”,与两个对计算保持有限兴趣的实验方向的“屌丝”,居然发了疯在一起讨论未来生信这个领域的发展方向!博客上有人说,你小子精神不正常,怎么不把你送精神病院啊。不带这么鄙视我的,我承认跟这四位前辈相比,我的疯狂程度远远不及,当然,这就是我距离顶级学者的差距。精神正常的学者不适合做学术,嗯。也许是酒精的作用,四位“屌丝”们彻底陷入了疯狂的境地,并且在七嘴八舌中总结了三点精神:第一,HMM要滴;第二,搞起;第三,谁不搞谁就是孙子!

   于是,对生信发展具有划时代意义的一个算法应用研究,就在这四位“屌丝”的一致决定中拉开了序幕。在生信领域,从事一个新算法的研究之困难,是远远超乎想象的。有无数的算法,有无数的生物学问题,用谁来解决谁呢?并且,生信有个非常无厘头的特点:那就是,看上去非常相似的问题,必须选择不同的算法。例如,双序列比对和多序列比对,仅仅一个双和多的区别,这两者的算法那就大不一样。当然喽,在那个时候,这四位年轻人并没有意识到问题的复杂性。所以,在自信满满的喝完啤酒之后,四位决定拿这个算法来做双序列比对。用HMM做双序列比对,呵呵,这是在讲笑话啦。双序列比对的最优算法是Needleman-Wunsch和Smith-Waterman算法,因为速度慢,所以被绝对经典和主流的算法BLAST给取代了。因此,四位小伙伴们首战成功的告负。好,失败没有关系,从新开始就是了。所以他们又开始准备解决新的问题:多序列比对。很显然,多序列比对里基于Heuristic算法的ClustalW/X的地位不可动摇,所以,继续失败。如果你觉得这就是全部,那你就错了。他们又开始做新的问题:分子进化树构建。之前的博文里我介绍过了,NJ, MP, ML是分子进化树构建的三大算法,MEGA则是这个领域的绝对主流工具,所以,失败。经历了这么多失败,如果是精神正常的人话,那也该知难而退了。就在这时,有个大牛受不了了,说你们这帮年轻人怎么这么呆呢?好好一个算法给你们用成这样,看叔给你们玩一个。说完GGenScan就发出来了(97年发表于JMB)。这个软件由Chris Burge和Samuel Karlin (数学超级强,领域内的地位高于Michael)合作发表。现在看这篇文章其实不复杂,就是拿HMM预测真核生物的基因,非常成功。当时Chris还是默默无闻的小人物,就靠着这篇论文几乎是一夜成名。这个软件的模型做的非常好,以至于很多年之后也很少有其他工具敢明确表示比GenScan更精确。

   得,这下小伙伴们真的彻底惊呆了,一边抱怨说老先生你不回家带孙子还跑出来抢年轻人饭碗,一边垂头丧气说弟兄们要不咱散伙得了?所以,生死存亡的时候,总得有人站出来。这时,HMM特别小分队的队长RD站出来,说,吾利用生信的软件已经算过了,咱弟兄们成功的概率高达98.7%,所以只需要再努努力,肯定能出好成果。得,搞生信的成算命先生了。另外三个说,那做啥呢?RD胸有成竹的吐出一个单词:domain (功能结构域)。当时的实验证据发现,蛋白质序列并不是所有的氨基酸都有功能,最小的、具有完整三级结构的并且具有功能的部分,就称之为domain。利用domain,就可以将蛋白质按照功能进行分类;找到某种domain,也就意味着蛋白质具有某种功能。奇迹发生了:HMM成功摆平domain预测的问题。并且,在解决这个问题的过程中,一个在当时看起来很弱的年轻人脱颖而出,那就是Alex Bateman (应该是SE的博后),自2005年起一直担任Bioinformatics这个杂志的主编,其成名作就是Pfam数据库。好,故事进行到这里,接下来就顺利成章了,既然小兄弟AB都成大牛了,那四位小伙伴们必须都是更大的牛。

   以上就是HMM算法如何在生信这个领域应用的故事。就这本书来说,第四、六、七、八章是纯粹的忽悠。第一章必读,可以与第十一章结合起来看,讲的是基本的概率统计模型,极其有用,这部分不看,这本书你就别看了。第二章的双序列比较可以看看,但我觉得不如我上课讲的清楚。第三章隐马模型有点儿难,可看可不看;第四章用HMM做双序列比对可看可不看;第五章讲的就是Pfam的思想,这个其实可以不看;第六章多序列比对、第七章分子进化建树、第八章进化树的概率论方法可看可不看;第九、十章讲RNA的二级结构预测,相当的难,可以简单地看看。所以,这本书其他章节你看不看影响不太大,但第一章必须非常非常认真地看。我很老实的承认,这本书做学生的时候我认真看的也就第一章,当时理解起来很困难。几年之后终于明白了第一张的内容,再往后看就发现其实并没有那么复杂。当然RNA结构预测部分我还是没看明白。

   第一章讲什么呢?就讲一个概率模型。你得能理解,整个序列分析的基础,是建立在概率统计上的,你需要估算前景(foreground),估算背景(background),然后这么一除就就结束了。这个基本的概念我花了很久很久才琢磨清楚,并且在我的很多研究工作中发挥了关键的作用。因此,这本书应当是生信专业的必读书,最经典,没有之一。

   最后,引用RD在中译本序里的一句话:sound fundamental concepts never out of date (基础的概念永不过时)。

 



https://wap.sciencenet.cn/blog-404304-733231.html

上一篇:补充个说明:化学奖
下一篇:评:《Should Computational Biologists do Experiments? 》

10 苏光松 高大海 崔晓龙 王静 王春艳 张成岗 李万峰 唐君 谢懿楠 loujinshan

该博文允许注册用户评论 请点击登录 评论 (27 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-5-9 03:23

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部