彭勇的个人博客分享 http://blog.sciencenet.cn/u/bigdataage Only Focus on Complex Systems Science & Data Science in Life Science.

博文

细胞中的组合爆炸(combinatorial explosion)

已有 4283 次阅读 2012-12-19 20:25 |系统分类:科研笔记| RNA, DNA, Protein, 修饰, 组合模式

细胞中的组合爆炸(combinatorial explosion)

(第3次修改, Final Version

从3个水平考虑细胞中的多样性:

1.  DNA and mRNA

2.  Protein and ncRNA

3.  other molecules


除了DNA, RNA, Protein 序列的种数是个天文数字以外,DNA修饰、RNA修饰、稀有碱基的存在以及蛋白质的翻译后修饰使得这3种生物大分子在序列水平上的多样性就大的惊人,更不用说在结构上了。


非编码RNA已经被广泛发现,多数是起调控作用。 现在可以毫无疑问地下这样一个结论: DNA, RNA, Protein三者同样重要。

一、 DNA
          假设一条DNA序列的长度是1000万bp (在生物体中这是很短的DNA): 种类数为4^10000000 (4的1000 0000 次方),等于16的500万次方,从而大于10的500万次方,真大!

          假设DNA的修饰有5种(如一甲基化、二甲基化、三甲基化、乙酰化、泛素化等,实际远不只5种),假设平均每个DNA有10000个位点被修饰,这修饰模式的组合数为5的10000次方,等于25的5000次方,大于10的5000次方。

          把这条DNA平均分成20000段,每一段可能被核小体占据也可能不被核小体占据,核小体占据的模式数为2的20000次方,等于16的5000次方,大于10的5000次方。
 
        在核小体分布一定的情况下,每一个核小体自身还可以有很多种状态,即组蛋白修饰。

          三者相乘,大的让你无法想象! 相对于第一种情况,第2、3种只是一个很小的数, 但第2、3种很重要。同种生物个体之间,DNA序列差别很小,主要有后二者来表现差异,调控基因表达的时空特异性。



二、RNA

     同DNA,不过要把核小体的分布换位稀有碱基的分布。而且RNA长短更不均一,从几十nt到几千nt都很有可能,都不是小概率事件。



三、蛋白质
      Release 2014_05 of 14-May-14 of UniProtKB/Swiss-Prot contains 545388 sequence entries,comprising 193948795 amino acids abstracted from 228536 references.

Number of fragments: 9096

而:

193948795/545388 = 355.6162


即在数据库Swiss-Prot里面,蛋白质序列平均长度为355, 考虑到有9096条序列是片段,而且有的蛋白质序列的信号序列已经被切除了,实际平均长度应该比355大一点。


假设平均每一条序列有50个氨基酸残基存在翻译后修饰(PTM), 又设修饰种类数为20(其实不止,请见PTM Statistics Curator), 氨基酸种类数为22。从而蛋白质的种类数应该大于:

(355^22)*(50^20)


四、小分子和其它大分子

       脂类、糖类、有机和无机小分子,种类更多。不过,若两个细胞的DNA, RNA (mRNA and ncRNA), Protein是一样的,应该可以认为这两个细胞没有区别了。


       这涉及到细胞全同性(identical cells, cell identity)的定义,能否把DNA, RNA (mRNA and ncRNA), Protein都分别一样的2个细胞定义为identical cells?  若可以,应当允许多大程度的差异? cell type 与cell identity的差异?


  细胞中的各种分子都是相互关联的,以分子为节点,分子之间的相互作用为边,形成了一个复杂网络或图, 这个图应当是连通的。也就是细胞的自由度应当远远小于细胞中的分子种类数,所有的DNA, RNA (mRNA and ncRNA), Protein的种类数大于细胞的自由度么? 细胞的control nodes可以只是DNA, RNA (mRNA and ncRNA), Protein; 而不包含其它分子么? 若可以,那就可以用DNA, RNA (mRNA and ncRNA), Protein的活性、浓度和亚细胞定位(在细胞中的位置分布)来完全表示一个细胞了。


所以说,以下几个问题是等价的:

1.   细胞完全表示问题?

2.   细胞的control nodes?

3.   细胞的最小自由度? (当然,没必要也没可能找到最小,小到一定程度就可以了!)

4.   identical cells 或 cell identity 的定义,若定义恰当了,就可以考虑细胞的全同性原理(identity principle of cells),就像量子力学中的微观粒子的全同性原理(identity principle of microparticles)。





https://wap.sciencenet.cn/blog-830496-644365.html

上一篇:数据分析师与数据科学家
下一篇:推荐的博客和网站
收藏 IP: 124.205.76.*| 热度|

1 苏光松

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-23 21:08

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部