||
参考
https://stackoverflow.com/questions/12478943/how-to-group-data-table-by-multiple-columns
实际工作中,我们需要对数据进行平均值计算,这里我比较了aggregate
和data.table
的方法,测试主要包括:
1,对数据yield计算平均值
2,计算N不同水平的平均值
3, 计算N和P不同水平的平均值
1. 常规方法aggregate
代码:
data(npk)
head(npk)
aggregate(yield~N,data=npk,FUN = mean)
aggregate(yield~N+P,data=npk,FUN = mean)
结果
> aggregate(yield~N,data=npk,FUN = mean)
N yield
1 0 52.06667
2 1 57.68333
> aggregate(yield~N+P,data=npk,FUN = mean)
N P yield
1 0 0 51.71667
2 1 0 59.21667
3 0 1 52.41667
4 1 1 56.15000
2. 使用data.table方法
代码:
data(npk)
head(npk)
library(data.table)
setDT(npk)
# 单个变量
npk[,mean(yield),by=N]
# 两个变量
npk[,mean(yield),by=c("N","P")]
# 两个变量的另一种写法
npk[,mean(yield),by=list(N,P)]
npk[,mean(yield),by=.(N,P)]
结果:
> # 单个变量
> npk[,mean(yield),by=N]
N V1
1: 0 52.06667
2: 1 57.68333
>
> # 两个变量
> npk[,mean(yield),by=c("N","P")]
N P V1
1: 0 1 52.41667
2: 1 1 56.15000
3: 0 0 51.71667
4: 1 0 59.21667
>
>
> # 两个变量的另一种写法
> npk[,mean(yield),by=list(N,P)]
N P V1
1: 0 1 52.41667
2: 1 1 56.15000
3: 0 0 51.71667
4: 1 0 59.21667
> npk[,mean(yield),by=.(N,P)]
N P V1
1: 0 1 52.41667
2: 1 1 56.15000
3: 0 0 51.71667
4: 1 0 59.21667
要点:
data.table速度更快,语法更简单。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-10-20 02:08
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社