科学网

 找回密码
  注册
关于人类基因组的一些说明
沈文龙 2020-4-21 09:00
GRC 人类基因组计划之初,曾试图勾勒出一套完整的、一致性的基因组序列图谱,但无论是测序技术、组装算法还是基因组本身的多样性问题,都让这套“纯粹的”参考基因组无法实现。目前的人类参考基因组由Wellcome Sanger Institute、EBI、NCBI等多家研究机构成员组成的 Genome Reference Consortium (GRC)负责更新和维护 ...
4243 次阅读|没有评论
宏基因组常用分析流程简介
沈文龙 2020-4-14 14:55
比对鉴定,拼接组装,功能分析 我们简要介绍两个常用的宏基因组数据分析工具包。 bioBakery workflows bioBakery来自于 The Huttenhower Lab ,开发者们提供了 多种多样的宏基因组数据分析工具 ,特别地,搭建了一套 workflow 以用于处理16S、宏基因组、宏转录组等相关数据,完成序列质控、宿主去除、谱系鉴定、丰度 ...
8796 次阅读|没有评论
宏基因组分析方法初探
沈文龙 2020-4-2 15:47
探究微生物组,解构身边熟悉的陌生环境 随着测序通量越来越高,价格成本越来越低,痕量微生物也难逃深度测序的挖掘。在高通量测序技术的辅助下,宏基因组学研究飞速发展,十多年来,在环境微生物鉴定、共生菌研究、营养学研究、肠道微生物对人体生理影响等方面取得了诸多进展。 一个标准的分析流程通常包括以下五个部 ...
3272 次阅读|没有评论
搭建基于Docker的Tensorflow+Cuda环境
沈文龙 2020-3-23 09:23
机器学习已是大数据分析的必备手段,我们尝试在Linux(Ubuntu 18.04)下搭建一个基于Docker的Tensorflow+Cuda环境,以用于学习、试验等。 关于Docker的安装和使用请参考 我以前的博客内容 。我们这里使用的是Tensorflow 1.12,使用前还需查看其对GPU的 相关要求 。 Nvidia驱动安装配置 可以 lspci | grep -i nvidia 查 ...
3782 次阅读|没有评论
Kaggle之路:Titanic
沈文龙 2018-12-28 08:43
Overview Titanic可谓是Kaggler的必经之路。我们以其为例,走一个完整的机器学习分析流程。 Step 1: 问题分析 关于Titanic的相关描述可参考官网,这是一个二分类的基本问题。 The sinking of the RMS Titanic is one of the most infamous shipwrecks in history. On April 15, 1912, during her maiden voyage, the T ...
3159 次阅读|没有评论
Feature Importance
沈文龙 2018-12-28 08:41
当我们训练完一个模型,得到理想的预测结果之后,或许我们还应该问问:哪个特征最为重要,它对模型有什么样的贡献? Permutation Importance Permutation的策略是考虑在模型训练完之后,将单个特征的数据值随机洗牌,破坏原有的对应关系后,再考察模型预测效果的变化情况。 importnumpyasnp import& ...
6498 次阅读|没有评论
生物信息分析流程(2) WDL入门
沈文龙 2018-10-29 16:46
The Workflow Description Language (WDL) makes it straightforward to define analysis tasks, chain them together in workflows, and parallelize their execution. 对于不同性质的数据,我们面临着不同流程、不同工具、不同参数的选择,一套合适的流程化数据处理框架至关重要。Broad Institute可谓业内之 ...
7491 次阅读|没有评论
生物信息分析流程(1) docker入门
沈文龙 2018-10-11 10:33
Build, Manage and Secure Your Apps Anywhere. Your Way. 流程化是工业进步的标志,生物学科尚处于基因组学大发现时代,面临着庞杂数据的处理,相应的分析流程必不可少( 我早应开发自己的流程工具集,错过第一波的最佳时机,sigh… )。最近被人强行安利docker,作为一个开源的应用容器引擎,小巧、可移植、 ...
6631 次阅读|没有评论
关于RPKM/FPKM和TPM
沈文龙 2018-8-31 08:53
These three metrics attempt to normalize for sequencing depth and gene length. 测序数据的标准化/归一化是生物信息学分析的必要步骤,可根据生物问题或是技术手段的不同而采取不同的策略进行。对于RNA-seq,常见的标准化手段有RPKM (Reads Per Kilobase per Million mapped reads) / FPKM (Fragments Per ...
7393 次阅读|没有评论
系统发生树
沈文龙 2018-8-31 08:50
一灯长夜佛前明,庭树枝多宿鸟争 生物的起源与进化,种群的分布与扩散,一直是领域内的研究热点。但是如何描述、评价多物种或基因之间的远近亲疏关系?“树”的思想很好地解决了这一问题,同时也催生了系统发生学分析方法。而对于我们来说,利用该分析方法进行基因组不同元件之间历史进化关系的鉴定和识别,是 ...
3439 次阅读|没有评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-16 17:03

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部