博文

基因型数据012及-1,0,1计算基因频率

已有 8074 次阅读 2018-12-17 20:30 |个人分类:数量遗传学|系统分类:科研笔记

G矩阵计算时, 有不同的编码形式, 我们看一下计算的区别.

第一种方法按照012, 即AA是0, 表示major基因, 1 表示杂合, 2表示aa(minor).

第二种方法按照-1, 0, 1, 即-1是AA, 表示major基因型, 0表示杂合, 1表示aa(minor).

下面我们模拟一下数据, 看一下两者计算的区别.

数据

dat = data.frame(snpid = paste0("snp",1:7),type = c("GG","GG","AG","GG","AG","GG","AA"))

dat

snpid	type
snp1	GG
snp2	GG
snp3	AG
snp4	GG
snp5	AG
snp6	GG
snp7	AA

上面是7个SNP的基因型, 可以看出GG是major, AA为minor.

1, 手动计算

GG个数: 4
AG个数: 2
AA个数: 1

计算方法, 所有G的个数, 除以总配子的个数, 即为G的基因频率

p_g = (4*2+2*1)/(7*2);p_g

0.714285714285714

p_a = (2*1+1*2)/(7*2);p_a

0.285714285714286

2, 转化为012

如何计算基因频率(major为0, minor为2)

 dat$type012 = 0 dat[dat$type=="GG",]$type012 =0 dat[dat$type %in% c("AG","GA"),]$type012 =1 dat[dat$type=="AA",]$type012 =2

dat

snpid	type	type012
snp1	GG	0
snp2	GG	0
snp3	AG	1
snp4	GG	0
snp5	AG	1
snp6	GG	0
snp7	AA	2

计算方法:

将type012所有列之和相加, 为minor的基因个数, 除以2*n, 即为minor的基因频率

sum(dat$type012)/(length(dat$type012)*2)

0.285714285714286

3, 转化为-1,0,1

计算方法(-1为major, 0为杂合,1为minor)

dat$type_101 = dat$type012 -1

dat

snpid	type	type012	type_101
snp1	GG	0	-1
snp2	GG	0	-1
snp3	AG	1	0
snp4	GG	0	-1
snp5	AG	1	0
snp6	GG	0	-1
snp7	AA	2	1

计算方法:

分子为: 列之和 + 行数

分母为: 行数 * 2

(sum(dat$type_101) + length(dat$type_101))/(2*length(dat$type_101))

0.285714285714286

结论:

1, 如果转化为0, 1, 2, 那么他们之和即为minor的个数, 除以2n即为minor的频率. 因为major的值为0, 1为杂合, 同时表示有一个minor, 2为纯合, 表示2个minor, 计算比较方便.

2, 如果基因型转化为-1, 0, 1的话, 那么将其进行求和, -1和1抵消. 推断过程如下:

假设A的频率为(1-q), a的频率为q, n为个数.

AA的个数为x

Aa的个数为y

aa的个数为z

x + y + z =n

q = (2*z + y)/(2*n)

-1*x +0*y + 1*z = z-x

2*z +y = 2*z + (n - x -z) = n + z - x #分子

因此:

q = (n + z -x)/(2*n)

这种方法, 计算量比较小, 因为-1 和1 进行了抵消.

这种方法不太直观, 需要用笔画一下即可理解.

所以, 我们计算G矩阵时, 将SNP分型转化为-1, 0, 1的形式.

公众号.png

转载本文请联系原作者获取授权，同时请注明本文来自邓飞科学网博客。
链接地址：https://wap.sciencenet.cn/blog-2577109-1152078.html

上一篇：2-数量遗传学课程介绍
下一篇：人际交往能力远比你想象的重要

收藏 IP: 106.39.56.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

邓飞

扫一扫，分享此博文

育种数据分析之放飞自我分享 http://blog.sciencenet.cn/u/yijiaobai 关注：生物统计，数量遗传，混合线性模型，生物信息，R，Perl，Python，GWAS，GS相关方法，文章及代码

博文

基因型数据012及-1,0,1计算基因频率

G矩阵计算时, 有不同的编码形式, 我们看一下计算的区别.

第一种方法按照012, 即AA是0, 表示major基因, 1 表示杂合, 2表示aa(minor).

数据

上面是7个SNP的基因型, 可以看出GG是major, AA为minor.

1, 手动计算

2, 转化为012

如何计算基因频率(major为0, minor为2)

3, 转化为-1,0,1

计算方法(-1为major, 0为杂合,1为minor)

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

邓飞

全部作者的其他最新博文

全部精选博文导读

相关博文

育种数据分析之放飞自我分享 http://blog.sciencenet.cn/u/yijiaobai 关注：生物统计，数量遗传，混合线性模型，生物信息，R，Perl，Python，GWAS，GS相关方法，文章及代码

博文

基因型数据012及-1,0,1计算基因频率

G矩阵计算时, 有不同的编码形式, 我们看一下计算的区别.

第一种方法按照012, 即AA是0, 表示major基因, 1 表示杂合, 2表示aa(minor).

数据

上面是7个SNP的基因型, 可以看出GG是major, AA为minor.

1, 手动计算

2, 转化为012

如何计算基因频率(major为0, minor为2)

3, 转化为-1,0,1

计算方法(-1为major, 0为杂合,1为minor)

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

邓飞

全部作者的其他最新博文

全部精选博文导读

相关博文

该博文允许注册用户评论请点击登录评论 (0 个评论)