科学网

 找回密码
  注册
转座元件初探
沈文龙 2017-12-21 21:19
不知何所往,不知何所归 转座元件存在于几乎所有的生物体内,它们像幽灵一样出现,又随意在基因组内复制、迁移,是自私的入侵者,还是孤独的流浪者? Barbara McClintock默默发表着自己关于转座元件的论文,苦苦等待了学界二十余年才获得诺贝尔奖。然而这么多年过去,我们仅仅只是认识到转座元件的存在,看到并不等于 ...
6135 次阅读|没有评论
测序技术
沈文龙 2017-8-22 09:48
NGS:Next Generation Sequencing。一般地,习惯把454、Solexa、SOLiD为主的测序称为二代,基于单分子或者半导体芯片的称为三代。 1953年4月,Watson和Crick关于DNA双螺旋结构的文章发表于Nature,成为生物学研究的里程碑。此后,生命科学进入了DNA解密的时代。道德经所言“道生一,一生二,二生三,三生万物”,这“三 ...
2949 次阅读|没有评论
Circos基础(4)
沈文龙 2017-3-29 08:52
延续上一章,本章接着介绍heatmaps、scatter、histogram数据作图。 Heatmaps 热图能够直观地显示不同样本、位点之间的差异及聚类情况,是一个展示基因组不同区域不同特性的有效手段,常用于基因表达差异、表观遗传修饰差异等多种分析中。Circos通过type = heatmap的plot子模块来实现热图,其基本数据格式除了要求 ...
8193 次阅读|没有评论
Circos基础(3)
沈文龙 2017-3-29 08:50
基本配置做好,接下来就是将各种各样的数据整合进circos环图里了,本章主要介绍links、highlights、text数据作图。 Links Links主要试图利用连线关系,表明染色体上不同位置之间的联系。这在实际生物学问题中很常用,因为基因组往往在功能调控、空间结构上存在相互作用关系,而网络图就是最佳的展示方式之一。 我们可以利 ...
4775 次阅读|没有评论
Circos基础(2)
沈文龙 2017-3-29 08:49
本章主要对circos环图中最基本的元素进行设置,包括karyotype、ideogram、ticks等模块。 Karyotype Karyotype的信息就如同坐标轴一般,其大小、顺序、位置等直接决定了后续数据的展示。这里我们新建一个karyotype.conf文件用来设置karyotype的相关信息,主要设置的参数包括数据文件来源、是否使用特定染色体、染色体显示的 ...
4304 次阅读|没有评论
Circos基础(1)
沈文龙 2017-3-29 08:48
由 Martin Krzywinski 等人开发的Circos,一出现便引起轰动,它打破了常规基因组学数据可视化的思路,通过对差异化交互数据的多维度展示,可以从不同层次全方位描述组学信息,让组学数据展示变成了艺术品。由于其实用性、美观性,Circos如今也广泛应用于社交网络、交通运输等领域。 下面,我们就一步一步做出这张图(Circo ...
6443 次阅读|没有评论
Multiple Testing Correction
沈文龙 2017-3-13 18:47
这么多年了,被p值折磨得死去活来… 检验,多重检验 组学研究,实际把生命科学带入了大数据时代,对统计学的要求越来越高。面对一个又一个的样本,一个接一个的实验,万一科学假设太离谱,或者手抖做的糙,怎么能知道数据结果是不是碰巧成功的?为此,p值频频出现在各种组学数据分析中,RNA-seq、ChIP、GWAS等等等等, ...
8381 次阅读|没有评论
Single Nucleotide Polymorphisms
沈文龙 2017-3-6 09:20
一样又不一样,不一样的也不一样,人与人之间因微妙的DNA差异而变得不同… 变异 DNA是生命的设计书,几乎所有表型的基础都隐藏在DNA中。也许有人会提出表观遗传等观点,但我还是认为甲基化、组蛋白修饰等等都是依据local DNA的特性特点而决定的,或者具有一定的相关性。人与人之间存在的诸如身材、智力、健康等大量表型 ...
3362 次阅读|没有评论
Expectation Maximization Algorithm
热度 1 沈文龙 2017-2-27 09:40
掐指一算,概率最大的模型最有可能出现… 最大似然 建立模型,求得其中各个参数、分布,是对生物学问题的数学解决之道。然而如何做参数估计?“最大似然(maximum likelihood)”给出了这样一种理论,即从模型总体随机抽取n组样本观测值后,最合理的参数估计应该使得从模型中抽取该n组样本观测值的概率最大。为此,我 ...
2051 次阅读|2 个评论 热度 1
Principal Component Analysis
沈文龙 2017-2-20 16:27
抽丝剥茧,去粗取精… 要降维,不要降信息量 测序技术带来了基因组数据爆炸式的增长,每个样本会观测到N个指标,带来N维矩阵,庞大的信息量往往让生物学家无所适从。科学探索追求一个最简单的准则:所见即所得。如何将N维数据更好地呈现出来,是生物信息学家迫切需要做到的。于是乎,“降维”几乎成了数据预处理的必备 ...
2325 次阅读|没有评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-30 02:18

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部