shenwl的个人博客分享 http://blog.sciencenet.cn/u/shenwl

博文

Principal Component Analysis

已有 2504 次阅读 2017-2-20 16:27 |系统分类:科研笔记

抽丝剥茧,去粗取精…

要降维,不要降信息量

测序技术带来了基因组数据爆炸式的增长,每个样本会观测到N个指标,带来N维矩阵,庞大的信息量往往让生物学家无所适从。科学探索追求一个最简单的准则:所见即所得。如何将N维数据更好地呈现出来,是生物信息学家迫切需要做到的。于是乎,“降维”几乎成了数据预处理的必备步骤,将高维数据映射至二维或者三维图像中,从而更好地分辨各个样本,为科学假设提供线索。

PCA是一种经典的降维算法,通过正交变换,将可能存在线性相关的变量映射为线性不相关的变量。而其中,为了保证最大限度地保留原始数据中的信息,PCA所找到的正交基,要求映射后的数据方差最大化(方差代表着数据的差异,也就是隐含在数据中的信息),或者误差最小化(这两种理解在最终数学形式表达中是一致的)。为此,我们首先计算原始数据的协方差矩阵,再计算该矩阵的特征向量和特征值,特征值即表征了该特征向量的“贡献”。

目的是降维

降维除了达到方便可视化的目的之外,还能够减少存储、降低计算、用于特征提取等,因而是数据处理的重要研究方法。关于降维的算法有很多,下图是从网上转来的,总结得很好:

pca

其中少了关于t-SNE的介绍,这是近年比较火的一个算法,在很多数据集上都有优异表现。

原文链接https://wenlongshen.github.io/2017/02/19/PCA/



https://wap.sciencenet.cn/blog-543513-1034866.html

上一篇:Support Vector Machine
下一篇:Expectation Maximization Algorithm
收藏 IP: 103.19.64.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-27 21:08

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部