科学网

 找回密码
  注册
人类基因组数目增长好快!
彭友松 2010-10-28 21:34
今天看到Naturenews给出的报道说现在已经测定的人类基因组序列竟然有几千个了,而且这个数目正在飞速增加,明年可能就有几万个了,真不可思议!看来以后我们每个人都能够测全基因组了,个性化医疗时代可能很快会改变普通人的生活,很期待。。。。 Naturenews原文第一段如下: (全文见http://www.nature. ...
个人分类: 生物信息学与计算生物学|4118 次阅读|没有评论
机器学习中的数据不平衡问题
热度 1 彭友松 2010-10-25 22:49
最近碰到一个问题,其中的阳性数据比阴性数据少很多,这样的数据集在进行机器学习的时候会使得学习到的模型更偏向于预测结果为阴性。查找了相关的一些文献,了解了一些解决这个问题的一些方法和技术。 首先,数据集不平衡会造成怎样的问题呢。一般的学习器都有下面的两个假设:一个是使得学习器的准确率最高,另外一个是 ...
个人分类: 统计学与R语言学习|21531 次阅读|1 个评论 热度 1
偏相关系数
热度 5 彭友松 2010-10-21 21:52
在多元相关分析中,简单相关系数可能不能够真实的反映出变量X和Y之间的相关性,因为变量之间的关系很复杂,它们可能受到不止一个变量的影响。这个时候偏相关系数是一个更好的选择。 偏相关系数是在排除了其他变量的影响下计算变量间的相关系数。假设我们需要计算X和Y之间的相关性,Z代表其他所有的变量,X和Y的偏相关系 ...
个人分类: 统计学与R语言学习|31452 次阅读|6 个评论 热度 5
ridge regression
热度 2 彭友松 2010-10-20 23:02
ridgeregression可以用来处理下面两类问题:一是数据点少于变量个数;二是变量间存在共线性。 当变量间存在共线性的时候,最小二乘回归得到的系数不稳定,方差很大。这是因为系数矩阵X与它的转置矩阵相乘得到的矩阵不能求得其逆矩阵,而ridgeregression通过引入参数lambda,使得该问题得到解决。在R语言中,M ...
个人分类: 统计学与R语言学习|21879 次阅读|1 个评论 热度 2
学习笔记-主成分分析和主成分回归
彭友松 2010-10-20 22:41
主成份分析是对数据降维的方法,通过从数据中抽提少数的主成份来近似代表数据。选择主成份是根据数据的方差来进行的,每次选择的主成份都是数据中方差最大的方向,并且主成份之间不相关。 求主成份的两种方法: 1从变量构成的矩阵X出发,先求出t(X)X的特征值和特征向量,然后用X乘以特征向量就得到了主成份 ...
个人分类: 统计学与R语言学习|13255 次阅读|没有评论
Muscle,ClustalW和T-coffee的简单比较
彭友松 2010-4-20 23:40
ClustalW是现在用的最广和最经典的多序列比对软件, Muscle是速度最快的多序列比对之一,T-coffee是越来越受到欢迎的软件.它们各自有什么优点和缺点呢? ClustalW不仅可以用来做多序列比对,也能做Profile-profile比对,以及基于Neighbor-joining方法构建进化树.但是最常用的是多序列比对.从速度上来说,它有两种运行模式:accurat ...
个人分类: 生物信息学与计算生物学|19521 次阅读|没有评论
期刊的卷和期
彭友松 2010-4-7 15:14
一直搞不清楚期刊的卷和期有什么区别,在引用参考文献的时候也不知道是引用哪个. 一般来说,期刊是有卷号和期号的, 但也有些期刊只有期号而没有卷号,是以其出版年作为卷号。以Nature和PNAS为例,Nature是两个月为一卷,每周为一期;PNAS是一年为一卷,每周为一期.我们在引用的时候一般列出卷和文章的页码或者起始页码,期号一般 ...
个人分类: Linux|17976 次阅读|没有评论

本页有 3 篇博文因作者的隐私设置或未通过审核而隐藏

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-17 21:57

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部