||
在数据分析过程中,你可能会经常遇到一个问题,比如你统计了上个月和这个月的活跃度平均值,你发现这个月的平均值比上个月有增长,但是这个增长是足够大,是本质的变化呢,或者只是随机的波动呢?你应该不应该向领导和同事报喜呢?是沾沾自喜还是真的有了重大突破,值得发奖金呢?这个时候就需要用到统计检验。下面就介绍几组适合不同数据的统计检验方法。
一 T检验,用于正态分布的参数检验
检验两组独立样本平均值是否相同,只用于连续变量
主要用于样本含量较小(例如n < 30),总体标准差σ未知的正态分布。
只适用于连续变量,在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,相邻两个数值可作无限分割。简单粗暴的说,就是某个变量可以保留小数点后几位。比如,高考成绩。
一般我们接触数值都是连续变量,而且正态分布,因此T检验是非常常用的一种参数检验的方法。
1.独立样本T检验(Independent Sample T Test)
检测两个对象或者两种事务在同一时间的平均收入、平均得分、平均工资、平均利润、平均奖金等异同。
比如,有一组男生高考成绩,36个样本;有一组女生高考成绩,42个样本。
这两组数据是不同对象(不同性别组),在同一个时间高考成绩。我们想了解男生女生的平均成绩是否相同。
此时可采用独立样本T检验来分辨两组数据(视为两个子总体)的均值是否相同。
2.配对样本T-test(配对样本T检验)
检测同一对象或者同一事务在两种条件的平均收入、平均得分、平均工资、平均利润、平均奖金等异同。
比如,我们开头提出的问题。我们有某个APP上个月每天的日活跃度,还有某个APP这个月每天的日活跃度。我们想知道这两个月APP平均日活跃度是否相同。这样的情况就可以用配对样本T检验
如果通过统计检验,发现平均日活跃度下降了,但是平均值和上个月没有明显的不同,就没有必要太沮丧,说明这个波动还在比较正常的范围。如果这个月日活跃度平均值和上个月有明显的差异,而且低于上个月,那么就需要特别注意运营或者产品设计了。如果有明显差异,而且还是高于上个月的,就可以向领导同事报喜了。
二 非参数检验,检验两组或者多组样本分布是否相同,适用于所有类型变量
非参数检验是不必假设样本呈现何种分布。如果已知道样本呈现何种分布就用对应的参数检验;如果不确定样本是否正态分布,也可以采用参数检验。
非参数检验适用于以下所有类型的变量。
(1)定类数据,或称类别数据,如性别、材料类型和付款方式,非黑即白;(2)定序数值,数据有几个离散值,1,2,3,这些值大小是有意义的,但是大小差距是没有意义;(3)定距数据,从非正太分布的数据重抽取的区间数据,也就是连续性变量。
比较常用的比较两组独立样本之间的非参数检验有:
(1)检验两个相关样本(两组抽样)分布没有差异(来自同一个总体)
注意检验的样本之间有相关关系或者
A. Wilcoxon Signed Ranks检验
以秩检验为主,检验差异的方向和大小,比较全面,优先推荐这种检验。
B. Sign检验,检验正负差异次数
C. McNemar,侧重检验是否有差异
(2)检验k个相关样本(两组抽样)分布没有差异(来自同一个总体)
A.Friedman检验,秩检验,同时计算卡方,tie
B.Kendall检验,秩检验
C.Cochran的Q检验,只适用于二分变量,即k组样本都是0和1两种编码
(3)检验两组独立样本(两组抽样)是否来自同一个总体
推荐K-S(Kolmogorov Smirnov)检验
(4)检验k个独立样本是否来自统一整体
推荐Kruskal-WAllis检验
三 简而言之
如果你的两组或者多组变量是定距连续变量,那采用T检验就可以。
如果你变量不是定距变量,或者,定距变量明显不符合正态分布,才考虑使用非参数检验。
作者:Liping7
链接:https://www.jianshu.com/p/1a2480462f11
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-15 16:45
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社