闵应骅的博客分享 http://blog.sciencenet.cn/u/ymin 一位IEEE终身Fellow对信息科学及其发展的看法

博文

数学,为什么搞这么抽象?(120414) 精选

已有 7162 次阅读 2012-4-14 15:30 |个人分类:做学问|系统分类:观点评述| 数学模型, 抽象, 基因序列

数学,为什么搞这么抽象?(120414)
闵应骅

    大约在20年前,也许不到20年,郭永怀院士的夫人李佩教授常常在中关村的院士俱乐部举办报告会,请名人演讲。大概没什么报酬,全凭李佩教授的面子。我记得,我听过邹承鲁院士讲科技管理,王梓坤院士讲数学的应用。王梓坤院士是我国在概率论和随机过程方面著名数学家,因为我也是学概率论出身的,属于学生辈,所以对他特别崇敬。我记得,他讲人类基因组计划,应该说,他作为一个数学家,对生物、遗传是外行,我就更是一个一窍不通的外行了。但是,他说:人类基因组计划就是要读懂一本书,这本书仅仅由4个字母构成,这4个字母分别是A、T、C、G,但是它很长,有几十亿个字符,没有标点、没有段落。如果读懂了这本书,我们就知道人类生长发育的信息,人类生老病死的规律。分析基因组序列,可以识别特殊的序列功能位点、分析序列的组成特征来识别基因,发现与基因表达调控相关的信息。
    这种抽象很有趣,使我想起了甲骨文。甲骨文刚出土的时候,大家都看不懂,考古学家争相研究甲骨文。据说郭沫若研究出来了。我想那一定是对许多甲骨文样本,用他的认字法去读,都能解释得通,才不会是胡说八道。可甲骨文的样本究竟不太多,而基因序列却多得很,而且,不断有新的基因序列出现。这也许是关于基因研究的文章特别多,而且影响因子也特别高的原因之一,因为别人已经搞过的,自己就没必要再做一遍了。引用就好了。
    搞数学和计算机的人一看,基因序列其实无非是一个字符串。字符只有4个,但特别长。但是,要识别这个序列,首先必须有起点和终点。起点和终点的识别,在提取基因序列的时候,可能也‍不是一件容易的事情。其次,基因序列对于一个人是不是唯一确定的。如果不是,截取某一段,是不是唯一确定的。这就是数学里的不变量原理。如果不是,可以说分析基因序列就没有意义。再次,发现基因序列的某一个特性是否对应人的某些特征,例如疾病、血缘、性格等等信息。这种规律性是必然性规律,还是随机性规律。我一直很担心亲子鉴定出差错。基因组DNA的序列千差万别,即使经过各种处理,也只能以也许99.9%的概率来判定是否为亲子。可放到法律上,就是板上钉钉。难道没有非亲子判为亲子,亲子判为非亲子的例子吗?那可就是冤假错案了。把人工分离和修饰过的基因导入到生物体基因组中就是所谓转基因技术。现在发现,转基因制品有许多副作用,因而存在很大争议,可能是我们对基因序列还没有完全读懂。
    数学的思维其所以抽象,就是要简化问题的描述,把最本质、最重要的因素提出来,使得问题清晰可见,而不是混杂在一片混乱之中。如果抽象得有错误,那也是明显可见。工程问题中引入数学模型,也许是为了优化,也许是为了局限一些漫无边际的思维领域,也许是考虑某个变量的上下界,如此等等。没有数学模型,许多客观现象得不到精确的描述,对策也就常常不能有的放矢。网络流量模型就是至今没有很好解决的一个数学模型。没有它,我们不能模拟产生逼真的网络流量,不能很好地控制流量,不能保证很好的服务质量。所以,数学的抽象是科研人员重要的本事,其本身也是科研成果。



http://wap.sciencenet.cn/blog-290937-559191.html

上一篇:数学,还重要吗?(120409)
下一篇:科学网,大有希望了(120418)

29 朱新亮 陈安 金勇 徐雁龙 李毅伟 黄富强 程智 陈明 王涛 曾杰 李天成 陈宁 王哲 刘全慧 王志杰 李土荣 刘钢 张利华 高建国 禹荣明 尤志强 彭思龙 程光伟 孙媛媛 赵凤光 appleson166 matiasma zzjtcm Weater1

发表评论 评论 (52 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-5-8 12:08

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部