||
1、方差分析的意义
前述的t检验和u检验适用于两个样本均数的比较,对于k个样本均数的比较,如果仍用t检验或u检验,需比较次,如四个样本均数需比较次。假设每次比较所确定的检验水准=0.05,则每次检验拒绝H0不犯第一类错误的概率为1-0.05=0.95;那么6次检验都不犯第一类错误的概率为(1-0.05)6=0.7351,而犯第一类错误的概率为0.2649,因而t检验和u检验不适用于多个样本均数的比较。用方差分析比较多个样本均数,可有效地控制第一类错误。方差分析(analysis of variance,ANOVA)由英国统计学家R.A.Fisher首先提出,以F命名其统计量,故方差分析又称F检验。
2、方差分析的基本思想
下面通过表5.1资料介绍方差分析的基本思想。
例如,有4组进食高脂饮食的家兔,接受不同处理后,测定其血清肾素血管紧张素转化酶(ACE)浓度(表5.1),试比较四组家兔的血清ACE浓度。
表5.1对照组及各实验组家兔血清ACE浓度(u/ml)
对照组 |
实验组 |
||||||
A降脂药 |
B降脂药 |
C降脂药 |
|||||
61.24 |
82.35 |
26.23 |
25.46 |
||||
58.65 |
56.47 |
46.87 |
38.79 |
||||
46.79 |
61.57 |
24.36 |
13.55 |
||||
37.43 |
48.79 |
38.54 |
19.45 |
||||
66.54 |
62.54 |
42.16 |
34.56 |
||||
59.27 |
60.87 |
30.33 |
10.96 |
||||
20.68 |
48.23 |
||||||
329.92 |
372.59 |
229.17 |
191.00 |
1122.68 |
() |
||
6 |
6 |
7 |
7 |
26 |
(N ) |
||
54.99 |
62.10 |
32.74 |
27.29 |
43.18 |
() |
||
18720.97 |
23758.12 |
8088.59 |
6355.43 |
56923.11 |
() |
由 表5.1可见,26只家兔的血清ACE浓度各不相同,称为总变异;四组家兔的血清ACE浓度均数也各不相同,称为组间变异;即使同一组内部的家兔血清 ACE浓度相互间也不相同,称为组内变异。该例的总变异包括组间变异和组内变异两部分,或者说可把总变异分解为组间变异和组内变异。组内变异是由于家兔间 的个体差异所致。组间变异可能由两种原因所致,一是抽样误差;二是由于各组家兔所接受的处理不同。正如第四章所述,在抽样研究中抽样误差是不可避免的,故 导致组间变异的第一种原因肯定存在;第二种原因是否存在,需通过假设检验作出推断。假设检验的方法很多,由于该例为多个样本均数的比较,应选用方差分析。
方差分析的检验假设H0为各样本来自均数相等的总体,H1为各总体均数不等或不全相等。若不拒绝H0时,可认为各样本均数间的差异是由于抽样误差所致,而不是由于处理因素的作用所致。理论上,此时的组间变异与组内变异应相等,两者的比值即统计量F为1;由于存在抽样误差,两者往往不恰好相等,但相差不会太大,统计量F应接近于1。若拒绝H0,接受H1时,可认为各样本均数间的差异,不仅是由抽样误差所致,还有处理因素的作用。此时的组间变异远大于组内变异,两者的比值即统计量F明显大于1。在实际应用中,当统计量F值远大于1且大于某界值时,拒绝H0,接受H1,即意味着各样本均数间的差异,不仅是由抽样误差所致,还有处理因素的作用。
(5.1)
方差分析的基本思想是根据研究目的和设计类型,将总变异中的离均差平方和SS及其自由度分别分解成相应的若干部分,然后求各相应部分的变异;再用各部分的变异与组内(或误差)变异进行比较,得出统计量F值;最后根据F值的大小确定P值,作出统计推断。
例如,完全随机设计的方差分析,是将总变异中的离均差平方和SS及其自由度分别分解成组间和组内两部分,SS组间/组间和SS组内/组内分别为组间变异(MS组间)和组内变异(MS组内),两者之比即为统计量F(MS组间/MS组内)。
又如,随机区组设计的方差分析,是将总变异中的离均差平方和SS及其自由度分别分解成处理间、区组间和误差3部分,然后分别求得以上各部分的变异(MS处理、MS区组和MS误差),进而得出统计量F值(MS处理/MS误差、MS区组/MS误差)。
3、方差分析的计算方法
下面以完全随机设计资料为例,说明各部分变异的计算方法。将N个受试对象随机分为k组,分别接受不同的处理。归纳整理数据的格式、符号见下表:
处理组(i) |
|||||
1 |
2 |
3 |
… |
k |
|
… |
|||||
… |
|||||
… |
… |
… |
… |
… |
|
… |
|||||
合计 |
… |
||||
… |
1)总离均差平方和(sum of squares,SS)及自由度(freedom,ν)
总变异的离均差平方和为各变量值与总均数()差值的平方和,离均差平方和和自由度分别为:
(5.2)
=N-1(5.3)
2)组间离均差平方和、自由度和均方
组间离均差平方和为各组样本均数()与总均数()差值的平方和
(5.4)
(5.5)
(5.6)
3)组内离均差平方和、自由度和均方
组内离均差平方和为各处理组内部观察值与其均数()差值的平方和之和,。数理统计证明,总离均差平方和等于各部分离均差平方和之和,因此,
(5.7)
(5.8)
(5.9)
4)三种变异的关系:
= N-1= (k-1)+(N-k) =
可见,完全随机设计的单因素方差分析时,总的离均差平方和(SS总)可分解为组间离均差平方和(SS组间)与组内离均差平方和(SS组内)两部分;相应的总自由度()也分解为组间自由度()和组内自由度()两部分。
5)方差分析的统计量:
(5.10)
4、方差分析的应用条件与用途
方差分析的应用条件为①各样本须是相互独立的随机样本;②各样本来自正态分布总体;③各总体方差相等,即方差齐。
方差分析的用途①两个或多个样本均数间的比较;②分析两个或多个因素间的交互作用;③回归方程的线性假设检验;④多元线性回归分析中偏回归系数的假设检验;⑤两样本的方差齐性检验等。1、用途:用于完全随机设计的多个样本均数间的比较,其统计推断是推断各样本所代表的各总体均数是否相等。
完 全随机设计(completely random design)不考虑个体差异的影响,仅涉及一个处理因素,但可以有两个或多个水平,所以亦称单因素实验设计。在实验研究中按随机化原则将受试对象随机分 配到一个处理因素的多个水平中去,然后观察各组的试验效应;在观察研究(调查)中按某个研究因素的不同水平分组,比较该因素的效应。
2、计算公式:完全随机设计的单因素方差分析是把总变异的离均差平方和SS及自由度分别分解为组间和组内两部分,其计算公式如下。
表5.2单因素方差分析的计算公式
变异来源 |
离均差平方和(SS) |
自由度() |
均方(MS) |
F |
|||
总变异 |
N-1 |
||||||
组间变异 |
k-1 |
||||||
组内变异 |
N-k |
||||||
* C为校正数 |
3、分析步骤(以例说明):
例 5.1某军区总医院欲研究A、B、C三种降血脂药物对家兔血清肾素血管紧张素转化酶(ACE)的影响,将26只家兔随机分为四组,均喂以高脂饮食,其中三 个试验组,分别给予不同的降血脂药物,对照组不给药。一定时间后测定家兔血清ACE浓度(u/ml),如表5.1,问四组家兔血清ACE浓度是否相同?
本例的初步计算结果见表5.1下部,方差分析的计算步骤为
1)建立检验假设,确定检验水准
H0:四组家兔的血清ACE浓度总体均数相等,μ1=μ2=μ3=μ4
H1:四组家兔的血清ACE浓度总体均数不等或不全相等,各μi不等或不全相等
α=0.05
2)计算统计量F值
按表5.2所列公式计算有关统计量和F值
=5515.3665
ν总=N-1=26-1=25
ν组间=k-1= 4-1=3
ν组内=N-K=26-4=22
表5.3例5.1的方差分析表
变异来源 |
||||
总变异 |
8445.7876 |
25 |
||
组间变异 |
5515.3665 |
3 |
1838.4555 |
13.80 |
组内变异 |
2930.4211 |
22 |
133.2010 |
3)确定P值,并作出统计推断
以= 3和= 22查F界值表(方差分析用),得P <0.01,按0.05水准拒绝H0,接受H1,可认为四总体均数不同或不全相同。
注意:根据方差分析的这一结果,还不能推断四个总体均数两两之间是否相等。如果要进一步推断任两个总体均数是否相同,应作两两比较,见本章第四节。1、用途:用于随机区组设计的多个样本均数比较,其统计推断是推断各样本所代表的各总体均数是否相等。
随 机区组设计考虑了个体差异的影响,可分析处理因素和个体差异对实验效应的影响,所以又称两因素实验设计,比完全随机设计的检验效率高。该设计是将受试对象 先按配比条件配成配伍组(如动物实验时,可按同窝别、同性别、体重相近进行配伍),每个配伍组有三个或三个以上受试对象,再按随机化原则分别将各配伍组中 的受试对象分配到各个处理组。
值得注意的是,同一受试对象不同时间(或部位)重复多次测量所得到的资料称为重复测量数据(repeated measurement data),对该类资料不能应用随机区组设计的两因素方差分析进行处理,需用重复测量数据的方差分析。
2、计算公式:随机区组设计的两因素方差分析是把总变异中的离均差平方和SS与自由度分别分解成处理间、区组间和误差三部分,其计算公式见表5.4。
表5.4两因素方差分析的计算公式
变异来源 |
离均差平方和 |
自由度 |
均方 |
|
总 |
N-1 |
|||
处理间 |
k-1 |
|||
区组间 |
b-1 |
|||
误差 |
||||
* |
# b区组数 |
例 5.2某医师研究A、B和C三种药物治疗肝炎的效果,将32只大白鼠感染肝炎后,按性别相同、体重接近的条件配成8个配伍组,然后将各配伍组中4只大白鼠 随机分配到各组:对照组不给药物,其余三组分别给予A、B和C药物治疗。一定时间后,测定大白鼠血清谷丙转氨酶浓度(IU/L),如表5.5。问四组大白 鼠的血清谷丙转氨酶是否相同。
表5.5 四组大白鼠血清谷丙转氨酶浓度(IU/L)
区组 |
对照组 |
试验组 |
合计 |
||
A药组 |
B药组 |
C药组 |
|||
1 |
845.1 |
652.4 |
624.3 |
445.1 |
2566.9 |
2 |
834.7 |
741.3 |
772.3 |
432.5 |
2780.8 |
3 |
826.5 |
675.6 |
632.5 |
362.7 |
2497.3 |
4 |
812.8 |
582.8 |
473.6 |
348.7 |
2217.9 |
5 |
782.8 |
491.8 |
462.8 |
345.9 |
2083.3 |
6 |
745.6 |
412.2 |
431.8 |
312.8 |
1902.4 |
7 |
730.4 |
494.6 |
484.9 |
296.3 |
2006.2 |
8 |
684.3 |
379.5 |
380.7 |
228.4 |
1672.9 |
6262.2 |
4430.2 |
4262.9 |
2772.4 |
17727.7 () |
|
782.78 |
553.78 |
532.86 |
346.55 |
553.99() |
|
4925110.04 |
2571668.14 |
2391246.57 |
995764.14 |
10883788.89 () |
本研究的主要目的在于比较不同治疗方法的效果,同时还可以比较不同区组间大鼠血清谷丙转氨酶浓度是否相同。计算步骤为
1)建立检验假设,确定检验水准
H0:四组大白鼠的血清谷丙转氨酶浓度含量相同,μ1=μ2=μ3=μ4
H1:各处理组的血清谷丙转氨酶浓度含量不同或不全相同,各μi不等或不全相等
H0:各区组的血清谷丙氨酶含量相同
H1:各区组的血清谷丙氨酶含量不同或不全相同
均等于0.05
2)计算统计量F值
按表5.4中公式计算各统计量。本例的初步计算结果见表5.5下半部。
ν总=N-1=32-1=31
ν处理=k-1=4-1=3
ν区组=b-1=8-1=7
ν误差=(k-1)(b-1)=(4-1)(8-1)=21
列方差分析表,见表5.6。
表5.6例5.2的方差分析表
变异来源 |
||||
总变异 |
1062809.2870 |
31 |
||
处理间变异 |
766562.7784 |
3 |
255520.9261 |
102.798 |
区组间变异 |
244047.7597 |
7 |
34863.9657 |
14.026 |
误差 |
52198.7489 |
21 |
2485.6547 |
3)确定P值并作出统计推断
以=3,=21查F界值表,得F 0.01(3,21)=4.87。本例F =102.798> F 0.01(3,21), P <0.01,按=0.05水准拒绝H0,接受H1,可认为各处理组大白鼠的血清谷丙转氨酶含量不同或不全相同。如果要进一步推断任两个总体均数是否相同,应作两两比较,见本章第四节。
以=7,=21查F界值表,得F 0.01(7,21)=3.65。本例F =14.026> F 0.01(7,21), P<0.01,按=0.05水准拒绝H0,接受H1,可认为各区组大白鼠的血清谷丙转氨酶含量不同或不全相同。
当方差分析的推断结果为拒绝H0,接受H1, 各总体均数不同或不全相同时,不能说明各总体均数两两之间是否不同,为此,可在方差分析的基础上,利用方差分析得到的信息,对均数进一步作两两比较,也称 多重比较(multiple comparisons)。均数间两两比较的方法有多种,本节仅介绍Newman-Keuls检验和最小显著差(LSD)t检验。
1、Newman-Keuls检验
亦称Student-Newman-Keuls(SNK)检验,简称q检验。q统计量计算公式为
(5.12)
式中、分别为两对比组的样本均数;为两对比组样本均数差值的标准误,若两对比组样本含量相同,即nA=nB=n,其计算公式为式5.13,否则计算公式为式5.14
(5.13)
(5.14)
式中为方差分析的组内均方,若为两因素或两因素以上的方差分析,则为误差项均方;nA、nB分别为两样本的样本含量。以实例介绍q检验的步骤。
例5.4用q检验对表5.1资料中四组家兔的血清ACE浓度作两两间比较。
1.建立检验假设,确立检验水准。
H0:两对比组家兔血清ACE含量总体均数相同,即
H1:两对比组家兔血清ACE含量总体均数不同,即
2.计算统计量q值。
(1)将各组按样本均数从大到小排序:依次为、、、。并将各对比组列入表11第(1)栏,栏中数字为各组的序号。
序号 |
均数 |
样本含量 |
原组别 |
1 |
=62.10 |
6 |
A降脂药组 |
2 |
=54.99 |
6 |
对照组 |
3 |
=32.74 |
7 |
B降脂药组 |
4 |
=27.29 |
7 |
C降脂药组 |
表5.11 四组家兔血清ACE均数的两两比较(q检验)
对比组 (1) |
(2) |
(3) |
q值 (4)=(2)/(3) |
组数a (5) |
q界值 |
P值 (8) |
|
q0.05 (6) |
q0.01 (7) |
||||||
1与2 |
7.11 |
4.712 |
1.51 |
2 |
2.95 |
4.02 |
>0.05 |
1与3 |
29.36 |
4.540 |
6.47 |
3 |
3.58 |
4.64 |
<0.01 |
1与4 |
34.81 |
4.540 |
7.67 |
4 |
3.96 |
5.02 |
<0.01 |
2与3 |
22.25 |
4.540 |
4.90 |
2 |
2.95 |
4.02 |
<0.01 |
2与4 |
27.70 |
4.540 |
6.10 |
3 |
3.58 |
4.64 |
<0.01 |
3与4 |
5.45 |
4.362 |
1.25 |
2 |
2.95 |
2.95 |
>0.05 |
(2)计算各对比组均数的差值,如,余类推。将各对比组均数差值列入第(2)栏。
(3)计算各对比组均数差值的标准误,按式5.13或式5.14计算各对比组均数差值的标准误,并列入第(3)栏。如
=4.712=4.540
(4)计算统计量q。两对比组的样本均数之差除以其标准误得统计量q,即第(2)与第(3)栏数据的比值。如第1组与第2组:7.11/4.712=1.51。余见第(4)栏。
(5)确定组数a。组数是指两对比组间所包含的组数(包括两对比组本身),如第1组与第2组比较,组数a=2;第2组与第4组之间比较组数a=3。余类推,见第(5)栏。
(6)查q界值。根据组数a及自由度(方差分析中组内或误差自由度)查q界值表。本例=22,查得=2.95。余见第(6)和第(7)栏。
3.确定P值,并作出统计推断
本例第1组与第2组、第3组与第4组比较的q统计量均小于q0.05,P>0.05,不拒绝H0,故尚不能认为A药组与对照组、B药组与C药组家兔的血清ACE浓度不同;其余各对比组的q统计量均大于q0.01,P<0.01,拒绝H0接受H1,可认为A药组与B药组、A药组与C药组、对照组与B药组、对照组与C药组的家兔血清ACE浓度不同。
2、最小显著差(LSD)t检验
q检验对k个均数的两两比较需k(k-1)/2次。若k=8,则需比较28最小显著差(the least significant difference,LSD)法可以简化两两比较的计算步骤。其检验假设也为:H0:,H1:。方法为:首先计算拒绝H0,接受H1所需样本均数差值的最小值,即LSD。然后各对比组的与相应的LSD比较,只要对比组的大于或等于LSD,即拒绝H0,接受H1;否则,得到相反的推断结论。
LSD-t检验通过计算各对比组的与其标准误之比值是否达到t检验的界值
(5.15)
由此推算出最小显著差LSD,而不必计算每一对比组的t值
(5.16)
式中、和、分别为对比组中两样本的均数及样本含量,和为方差分析中组内(或误差)的离均差平方和与自由度。如果两对比组的样本含量相同,即时,则
(5.17)
例5.5用LSD- t检验对例5.1中四组家兔血清ACE浓度作两两比较。
本例=133.2010,=22,查t界值表,得,
1.建立检验假设,确定检验水准
H0:两对比组家兔血清ACE含量总体均数相同,即
H1:两对比组家兔血清ACE含量总体均数不同,即
2.计算统计量
(1)计算各对比组均数的差值,见表5.11第(2)列。
(2)计算各对比组的最小显著差,并列入表5.11第(3)、第(4)列。如6时,据式5.17
=13.82
=18.78
余类推。
表5.11 四组家兔血清ACE均数的两两比较(LSD-t检验)
对比组 |
LSD0.05 |
LSD0.01 |
P值 |
|
A药组与对照组 |
7.11 |
13.82 |
18.78 |
>0.05 |
A药组与B药组 |
29.36 |
13.32 |
18.10 |
<0.01 |
A药组与C药组 |
34.81 |
13.32 |
18.10 |
<0.01 |
对照组与B药组 |
22.25 |
13.32 |
18.10 |
<0.01 |
对照组与C药组 |
27.70 |
13.32 |
18.10 |
<0.01 |
B药组与C药组 |
5.45 |
12.79 |
17.39 |
>0.05 |
3.确定P值,并作出推断结论。当相互对比的两组大于或等于界值时,P小于或等于相应的概率;反之,P大于相应的概率。本例对照组与A药组、B药组与C药组的均小于LSD0.05,P大于0.05,不拒绝H0;其余对比组的均大于LSD0.01,P<0.01,拒绝H0,接受H1。可见,LSD-t检验的结论与q检验一致。
方 差分析的条件之一为方差齐,即各总体方差相等。因此在方差分析之前,应首先检验各样本的方差是否具有齐性。常用方差齐性检验(test for homogeneity of variance)推断各总体方差是否相等。本节将介绍多个样本的方差齐性检验,本法由Bartlett于1937年提出,称Bartlett法。该检验 方法所计算的统计量服从分布。所用公式如下:
(5.18)
(5.19)
或,(5.20)
(5.21)
式中为第i组的样本含量;为第i组的样本方差;k为样本个数;C为校正数。
用自由度查界值表,若值大于等于界值,则P值小于等于相应的概率,反之,P值大于相应的概率。如果未经校正的值小于界值,则校正后的值更小,可不必再计算校正值。
例 5.7对照组、A降脂药组、B降脂药组和C降脂药组家兔的血清胆固醇含量(mmol/L)的均数分别为5.845、2.853、2.972和1.768, 方差分别为5.941、2.370、0.517和0.581,样本含量分别为6、6、6和7,问四样本的方差是否齐同?
1.建立检验假设和确定检验水准
H0:H1:各总体方差不同或不全相同=0.05
2.计算统计量值初步计算结果如表5.12。表5.12 四样本方差齐性检验的计算
分组 |
|||||
1 |
5.941 |
5 |
29.705 |
1.78188 |
8.90939 |
2 |
2.370 |
5 |
11.850 |
0.86289 |
4.31445 |
3 |
0.517 |
5 |
2.585 |
-0.65971 |
-3.29856 |
4 |
0.581 |
6 |
3.486 |
-0.54300 |
-3.25803 |
合计 |
— |
21 |
47.626 |
— |
6.66725 |
=2.268
=17.19687
C=1+=1.090
=9.663
3.确定P值,作出统计推断结论。
本例自由度为,查界值表,得0.025>P>0.01,按=0.05水准拒绝H0,接受H1,可以认为四总体方差不同或不全相同。
常用的变量变换方法有
1.对数变换(transformation of logarithm)将原始数据X取对数,以其对数值作为分析变量
(5.22)
还可根据需要用(5.23)
或(5.24)
式中K为常数,须经尝试得到。若原始数据中有小值或零时,可用下式:
(5.25)
对数变换的用途:①使服从对数正态分布的资料正态化;②使方差不齐且各组的接近的资料达到方差齐的要求;③使曲线直线化,常用于曲线拟合。
2.平方根变换(square root transformation)将原始数据X的平方根作为分析变量
(5.26)
或(5.27)或(5.28)
式中K为常数,须经尝试得到。当有小值或零时,可用
(5.29)
或(5.30)
平方根变换的用途:①使服从Poisson分布的计数资料,或轻度偏态资料正态化;②使方差不齐且各样本的方差与均数间呈正相关的资料达到方差齐的要求。
3.平方根反正弦变换(arcsine trasformation of square root)将原始数据X的平方根反正弦作为分析变量
(5.31)
平方根反正弦变换的用途:使总体率较小(<30%)或总体率较大(>70%)的二项分布资料达到正态或方差齐的要求。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-4-24 11:48
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社