NJU1healer的个人博客分享 http://blog.sciencenet.cn/u/NJU1healer

博文

拟合优度检验(自由度)

已有 33495 次阅读 2020-7-14 10:05 |个人分类:机器学习|系统分类:科研笔记

介绍拟合优度检验前,先说明一下自由度的概念,便于后期统计模型中自由度选择的理解。

(一)自由度

概念

      自由度(degree of freedom, df)指的是计算某一统计量时,取值不受限制的变量个数。通常df=n-k。其中n为样本数量,为被限制的条件数或变量个数,或计算某一统计量时用到其它独立统计量的个数。自由度通常用于抽样分布中。

      统计学上,自由度是指当以样本的统计量来估计总体参数时,样本中独立或能自由变化的数据的个数,称为该统计量的自由度。一般来说,自由度等于独立变量减掉其衍生量数。举例来说,变异数的定义是样本减平均值(一个由样本决定的衍生量),因此对N个随机样本而言,其自由度为N-1。

具体应用说明

image.png

范例

image.png

(二)拟合优度检验

      实际问题中,可能遇到这样的情形,即总体服从何种分布并不知道,要求我们直接对总体分布提出假设,然后根据样本所提供的信息,检验假设是否成立。解决这类问题的工具是英国统计学家卡尔皮尔逊于1900年提出的χ2检验法

      是在总体X的分布未知时,根据来自总体的样本,检验关于总体分布的假设的一种检验方法。具体进行检验时,我们先提出原假设:

      H0 :总体X的分布函数为F(X)

然后根据样本的经验分布和所假设理论分布之间的吻合程度来决定是否接受原假设。这种检验法通常称作拟合优度检验。又因采用的检验统计量的极限分布是χ2分布,故称其为拟合优度χ2检验法

      下面我们通过一个例子来具体了解拟合优度检验的分析过程,理论介绍可自查询(《概率论与数理统计》),这里不再赘述,这里只说明其思想、用途和案例。

实例演示

      某家啤酒厂生产三种类型的啤酒分别是淡啤酒、普通啤酒和黑啤酒。在一次对三种啤酒的市场份额的分析中,公司市场研究小组提出了一个问题:男性与女性饮酒者对于三种啤酒的偏好是否存在差异?请对下表的调查数据,进行分析后回答问题。

性别

淡啤酒

普通啤酒

黑啤酒

合计

男性

20

40

20

80

女性

30

30

10

70

合计

50

70

30

150

步骤1:

      提出假设H0:性别与啤酒偏好相互独立,即image.png ,其中i代表性别(1:男,2:女),j代表啤酒偏好(1:淡啤酒,2:普通啤酒,3:黑啤酒),image.png ,image.png ,image.png为实际对应的i行j列的抽样数据,r为抽样的总数在此为150。

步骤2:

计算实际统计量与假设的理论值差量,运用公式image.png ,其中image.png为实测频数,image.png为假设的理论频数,针对此题的假设image.png公式可以变形为image.png ,通过计算可以得到以下数据:

性别

实际频数(image.png)

期望频数(image.png)

image.png

男性

淡啤酒

20

26.67

1.67

普通啤酒

40

37.33

0.19

黑啤酒

20

16

1.00

女性

淡啤酒

30

23.33

1.91

普通啤酒

30

32.67

0.22

黑啤酒

10

14

1.14

合计

150

150

image.png

上表中数据来源的过程是:

image.png

image.png

image.png

步骤3:

      确定自由度和显著水平并进行最终决策。自由度的选择是当假设的理论分布F(X)中有r个未知参数时,则自由度应为(k-r-1),此题的假设理论分布为二维分布且无未知参数,故自由度=(n-1)(m-1)。通常取定显著水平 image.png,进而通过查表得知临界值 image.png,对image.pngimage.png进行比较若image.png假设成立,反之则假设不成立,另外image.png还可视为相关性,其值越大则说明相关性越高。此题存在image.png=6.13>5.99 ,因此假设不成立并得出结论性别和啤酒偏好之间存在依赖关系。

常用参数的image.png分布表如下

n\image.png

0.1

0.05

0.02

0.01

1

2.70554

3.84146

5.41189

6.63490

2

4.60517

5.99146

7.82405

9.21034

3

6.25139

7.81473

9.83741

11.34487

4

7.77944

9.48773

11.66784

13.27670

5

9.23636

11.07050

13.38822

15.08627

6

10.64464

12.59159

15.03321

16.81189

7

12.01704

14.06714

16.62242

18.47531

【参考】

http://blog.sina.com.cn/s/blog_4909aecd0102v5ul.html

https://baike.baidu.com/item/%E8%87%AA%E7%94%B1%E5%BA%A6/5936984#1

https://www.cnblogs.com/zm-pop-pk/p/11424957.html

点滴分享,福泽你我!Add oil!



https://wap.sciencenet.cn/blog-3428464-1241961.html

上一篇:[转载]时间转换和星期推算
下一篇:python面向对象中的__init__方法理解
收藏 IP: 211.162.81.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

全部作者的其他最新博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-26 05:45

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部