9512.net
甜梦文库
当前位置:首页 >> 高二数学 >>

选修1-2 1.2 独立性检验的基本思想及其初步应用



3.2 独立性检验的基本思想及其初步应用

问题: 数学家庞加莱每天都从一家面包店
买一块1000g 的面包,并记录下买回的面 包的实际质量。一年后,这位数学家发 现,所记录数据的均值为 950g 。于是庞 加莱推断这家面包店的面包分量不足。 ? 假设“面包份量足”,则一年购买面包的质量数据 的平均值应该不少于1000g ; ? “这个平均值不大于950g”是一个与假设“面包份量 足”矛盾的小概率事件; ? 这个小概率事件的发生使庞加莱得出推断结果。

二:求解假设检验问题
考虑假设检验问题: H0:面包分量足 ←→ H1:面包分量不足 求解思路:

1. 在H0成立的条件下,构造与H0矛盾的小概 率事件; 2. 如果样本使得这个小概率事件发生,就能 以一定把握断言H1成立;否则,断言没有 发现样本数据与H0相矛盾的证据。

两种变量:
?定量变量:体重、身高、温度、考试成绩等等。 ? 变量 ?分类变量:性别、是否吸烟、是否患肺癌、 ? 宗教信仰、国籍等等。 ?
在日常生活中,我们常常关心分类变量之间是否有关系: 例如,吸烟是否与患肺癌有关系? 性别是否对于喜欢数学课程有影响等等?

研究两个变量的相关关系:
?定量变量——回归分析(画散点图、相关系数r、 ? 变量 ? 相关指数R 2、残差分析) ?分类变量—— 独立性检验 ?

本节研究的是两个分类变量的独立性检验问题。

探究

列联表

为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机 地调查了9965人,得到如下结果(单位:人)
吸烟与肺癌列联表
不患肺癌 患肺癌 总计

不吸烟
吸烟 总计

7775
2099 9874

42
49 91

7817
2148 9965

在不吸烟者中患肺癌的比重是 0.54% 在吸烟者中患肺癌的比重是 2.28%
说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患 肺癌的可能性大。

通过图形直观判断两个分类变量是否相关: 1、列联表 2、三维柱形图
不吸烟 吸烟 总计 不患肺癌 7775 2099 9874 患肺癌 42 49 91 总计 7817 2148 9965

3、二维条形图
8000 7000 6000 5000 4000 3000 不患肺癌 患肺癌

不吸烟 不 患 肺 癌 患肺癌

2000 1000

吸烟

从三维柱形图能清晰看出 各个频数的相对大小。

0 不吸烟 吸烟 从二维条形图能看出,吸烟者中 患肺癌的比例高于不患肺癌的比例。

4、等高条形图
1 0.9

0.8

患肺癌 比例

0.7

0.6

0.5

0.4

0.3

0.2

不患肺癌 比例
不吸烟
不吸烟

0.1

0

吸烟

吸烟

等高条形图更清晰地表达了两种情况下患肺癌的比例。

上面我们通过分析数据和图形,得到的直观印象是吸烟和 患肺癌有关,那么事实是否真的如此呢?这需要用统计观点 来考察这个问题。 现在想要知道能够以多大的把握认为“吸烟与患肺癌有关”, 为此先假设

H0:吸烟与患肺癌没有关系.
用A表示不吸烟,B表示不患肺癌,则“吸烟与患肺癌没有关系” 等价于“吸烟与患肺癌独立”,即假设H0等价于 P(AB)=P(A)P(B). 把表中的数字用字母代替,得到如下用字母表示的列联表 不吸烟 吸烟 总计 不患肺癌 a c a+c 患肺癌 b d b+d 总计 a+b c+d a+b+c+d

不吸烟 吸烟 总计

不患肺癌 a c a+c

患肺癌 b d b+d

总计 a+b c+d a+b+c+d

a a+b a+c ? ≈ × 其中n = a + b + c + d为样本容量,即 n n n

在表中,a恰好为事件AB发生的频数;a+b和a+c恰好分别为事 件A和B发生的频数。由于频率接近于概率,所以在H0成立的条 件下应该有 P(A) ? a + b , P(B) ? a + c , P(AB) ? a . n n n

(a+b+c+d)a ?(a+b)(a+c), ?

即ad ? bc
因此|ad-bc|越小,说明吸烟与患肺癌之间关系越弱; |ad-bc|越大,说明吸烟与患肺癌之间关系越强。

独立性检验
为了使不同样本容量的数据有统一的评判标准,基于上述分 析,我们构造一个随机变量-----卡方统计量

n(ad ? bc) K ? , (1) (a ? b)(c ? d )(a ? c)(b ? d )
2 2

其中n ? a ? b ? c ? d为样本容量。
根据表3-7中的数据,利用公式(1)计算得到K2的观测值为:

若 H0成立,即“吸烟与患肺癌没有关系”,则K2应很小。

9965(7775 ? 49 ? 42 ? 2099) k? ? 56.632 7817 ? 2148 ? 9874 ? 91
2

( 2)

那么这个值到底能告诉我们什么呢?

在H0成立的情况下,统计学家估算出如下的概率

即在 H0 成立的情况下, K2 的值大于 6.635 的概率非常小,近似 于0.01。

P( K 2 ? 6.635) ? 0.01.

(2)

也就是说,在H0成立的情况下,对随机变量 K2进行多次观 测,观测值超过6.635的频率约为0.01。

思考
如果K 2 ? 6.635,就断定H0不成立,这种判断出错的可能性有多大 ?

答:判断出错的概率为0.01

9965(7775 ? 49 ? 42 ? 2099 )2 现在观测值k ? ? 56.632太大了, 7817 ? 2148 ? 9874 ? 91 在H 0成立的情况下能够出现这样的观测值的概率不超过0.01, 因此我们有99%的把握认为H 0不成立,即有99%的把握认为“吸烟 与患肺癌有关系”。

判断 H 0是否成立的规则
如果 k ? 6.635 ,就判断 H 0 不成立,即认为吸烟与 患肺癌没有关系;否则,就判断 H 0成立,即认为吸 烟与患肺癌有关系。 在该规则下,把结论“H 0 成立”错判成“ H 0 不 P( K 2 ? 6.635) ? 0.01, 成立”的概率不会差过 即有99%的把握认为 H 0不成立。

独立性检验的定义
上面这种利用随机变量K2来确定在多大程度上 可以认为“两个分类变量有关系”的方法,称为两 个分类变量的独立性检验。

独立性检验的基本思想(类似反证法)
(1)假设结论不成立,即 H0 : “两个分类变量没有关系”. (2)在此假设下我们所构造的随机变量 K2 应该很小,如果由 观测数据计算得到K2的观测值k很大,则在一定可信程度上 说明 H 0 不成立.即在一定可信程度上认为“两个分类变量 有关系”;如果k的值很小,则说明由样本观测数据没有发现 反对 H 0 的充分证据。
(3)根据随机变量K2的含义,可以通过评价该假设不合理的 程度,由实际计算出的,说明假设合理的程度为99%,即“两 个分类变量有关系”这一结论成立的可信度为约为99%.

具体作法是: (1)根据实际问题需要的可信程度确定临界值 k0; (2)利用公式(1),由观测数据计算得到随机变量 K 2 的观测值; (3)如果 k ? k0 ,就以 (1 ? P( K ? k0 )) ?100%的把握认为“X 与Y有关系”;否则就说样本观测数据没有提供“X与Y有关系” 的充分证据。
2

在实际应用中,要在获取样本数据之前通过下表确定临界值:
P(K2 ? k0 ) 0.50

k0 k0

0.40 0.25 0.15 0.455 0.708 1.323 2.072 0.025 0.010 0.005 3.841 5.024 6.636 7.879

0.10 2.706 0.001 10.828

P(K2 ? k0 ) 0.05

P( K 2 ? k )

0.50 0.455

0.40 0.708

0.25 1.323

0.15 2.072

0.10 2.706

0.05 3.841

0.025 5.024

0.010 6.635

0.005 7.879

0.001 10.828

k

(1)如果k ? 10.828, 就有99.9%的把握认为" X 与Y 有关系" (2)如果k ? 7.879, 就有99.5%的把握认为" X 与Y 有关系" (3)如果k ? 6.635, 就有99%的把握认为" X 与Y 有关系" (4)如果k ? 5.024, 就有97.5%的把握认为" X 与Y 有关系" (5)如果k ? 3.841, 就有95%的把握认为" X 与Y 有关系" (6)如果k ? 2.706, 就有90%的把握认为" X 与Y 有关系" (7)如果k ? 2.706, 就认为没有充分的证据显示 " X 与Y
有关系"

上面这种利用随机变量K2来确定在多大程度上 可以认为”两个分类变量有关系”的方法称为两个 分类变量的独立性检验
独立性检验的基本思想类似于数学上的反证法.要确 认”两个分类变量有关系”这一结论成立的可信程度, 首先假设该结论不成立,即假设结论”两个分类变量 没有关系”成立.在该假设下我们构造的随机变量K2应 该很小,如果由观测数据计算得到的K2的观测值k很大, 则在一定程度上说明假设不合理.

例.为考察高中生的性别与是否喜欢数学课程之间的 关系,在某城市的某校高中生中随机抽取300名学生, 得到如下列联表:
性别与喜欢数学课程列联表: 男 女 总计 喜欢数学课程 37 35 72 不喜欢数学课程 85 143 228 总计 122 178 300

由表中数字计算K2的观测值,在多大程度上可以认为 高中生的性别与是否喜欢数学课程之间有关系? 为什么? k≈4.513

有95%的把握认为”性别与是否喜欢数学课程之间有关系”

一般地, 假设有两个分类变量X 和Y , 它们的值域分别为 {x1 , x2 }和{ y1 , y2 }, 其样本频数列联表(称为2 ? 2列联表)为 : y2 y1 总计 x1 a b a+b x2 c d c+d
总计 a+c b+d a+b+c+d

若要推断的结论为H1:”X与Y有关系”,可如下操作:

1.通过三维柱形图和二维条形图,可以粗略地判断两个 变量是否有关系,但是这种判断不精确.

x1 x2
总计

y1
a c a+c

y2
b d b+d

总计 a+b c+d a+b+c+d 不吸烟 吸烟 总计

不患肺癌
a c a+c

患肺癌
b d b+d

总计
a+b c+d a+b+c+d

8000 7000 6000

a
主对角线

5000 4000 副对角线 3000 2000 1000 0 不患肺癌

c

d
患肺癌

b

不吸烟 吸烟

(1)在三维柱形图中,主对角线上两个柱形高度的乘积ad与 副对角线上两个柱形高度的乘积bc相差越大,H1成立的 可能性就越大

2.利用独立性检验来考察两个分类变量是否有关系, 并且能较精确地给出这种判断的可靠程度. 具体做法是: 根据观测数据计算由

n ? ad ? bc ? K ? ? a ? b ?? c ? d ?? a ? c ?? b ? d ?
2 2

其中n ? a ? b ? c ? d为样本容量

给出的随机变量K2的值k,其值越大,说明”X与Y有关系” 成立的可能性越大.当得到的观测数据a,b,c,d都不小于 5时,可以通过查表来断言”X与Y有关系”的可信程度

例2:学习雷锋精神前半年内某单位餐厅的固定餐椅经常有 损 坏,学习雷锋精神时全好;单位对学习雷锋精神前后各 半年内餐椅的损坏情况作了一个大致统计,具体数据如下:
损坏餐椅数 学习雷锋精神前 学习雷锋精神后 总计 50 30 80 未损坏餐椅数 150 170 320 总计 200 200 400

(1)求:学习雷锋精神前后餐椅损坏的百分比分别是多少? 并初步判断损毁餐椅数量与学习雷锋精神是否有关? (2)请说明是否有97.5%以上的把握认为损毁餐椅数量与学习 雷锋精神有关?

50 ? 25% 200

解: (1) 学习雷锋精神前的损坏的百分比是: 学习雷锋精神后的损坏的百分比是: 因为二者有明显的差异,所以初步判断损毁座椅减 少与学习雷锋精神是否有关. (2)根据题中的数据计算: 因为6.25>5.024所以有97.5%的把我认为损毁座椅 数减少与学习雷锋精神有关。

例2.在研究某种新药对小白兔的防治效果时,得到下表 数据:
未用新药 用新药

总计

存活数 101 129 230

死亡数 38 20 58

总计 139 149 288

试分析新药对防治小白兔是否有效?

288 ? ?101? 20 ? 38 ?129 ? k? ? 8.658 ? 7.879 139 ?149 ? 230 ? 58
2

99.5%的把握判定新药对防治小白兔是有效的.

课堂练习 1:通过随机询问 110 名性别不同的大学生是否爱好某项运动,得到 如下的列联表: 男 女 总计 爱好 40 20 60 不爱好 20 30 50 总计 60 50 110 2 2 110 ? (40 ? 30 ? 20 ? 20) 2 n ( ad ? bc ) ? 7.8 由 K2 ? 算得, K ? 60 ? 50 ? 60 ? 50 (a ? d )(c ? d )(a ? c)(b ? d ) 附表: p( K 2 ? k ) 0.050 0.010 0.001 k 3.841 6.635 10.828 参照附表,得到的正确结论是( A ) A.有 99%以上的把握认为“爱好该项运动与性别有关” B.有 99%以上的把握认为“爱好该项运动与性别无关” C.在犯错误的概率不超过 0.1%的前提下,认为 “爱好该项运动与性别有 关” D.在犯错误的概率不超过 0.1%的前提下,认为 “爱好该项运动与性别无 关”

课堂练习 2.某研究小组为了研究中学生的身体发育情况,在某学校随 机抽出 20 名 15 至 16 周岁的男生, 将他们的身高和体重制成 2×2 的列 联表,根据列联表的数据,可以有 %的把握认为该学校 15 至 16 周岁的男生的身高和体重之间有关系。 超重 不超重 合计 4 1 5 偏高 3 12 15 不偏高 7 13 20 合计 独立性检验临界值表: P(K2≥k0) k0 0.025 5.024 0.010 6.635 0.005 7.879
2

0.001 10.828

n(ad ? bc)2 2 K ? 独立性检验随机变量 K 值的计算公式: (a ? b)(c ? d )(a ? c)(b ? d )

偏高 不偏高 合计

超重 不超重 4 1 3 12 7 13

合计 5 15 20

独立性检验临界值表: P(K2≥k0) k0 0.025 5.024 0.010 6.635 0.005 7.879 0.001 10.828

由独立性检验随机变量 K 2 值的计算公式得:
n ? ad ? bc ? 2 K ? ? a ? b ?? c ? d ?? a ? c ?? b ? d ?
2

20 ? ? 4 ?12 ? 1? 3? ? 5.934 ? 5 ?15 ? 7 ?13
2

所以根据列联表的数据,可以有 97.5%的把握认为该学校15至16周 岁的男生的身高和体重之间有关系。

课堂练习 3:为了解某班学生喜爱打篮球是否与性别有关,对本班 50 人进行了问卷调查得到了如下的列联表: 喜爱打篮球 不喜爱打篮球 合计 5 男生 10 女生 50 合计 3 已知在全部 50 人中随机抽取 1 人抽到喜爱打篮球的学生的概率为 5 (1)请将上面的列联表补充完整(不用写计算过程); ( 2) 能否在犯错误的概率不超过 0.005 的前提下认为喜爱打篮球 与性别有关?说明你的理由; (3)现从女生中抽取 2 人进一步调查,设其中喜爱打篮球的女生 人数为 ? ,求 ? 的分布列与期望.

解:(1) 列联表补充如下:----------------------------------------3 分 喜爱打篮 不喜爱打 合计 球 篮球 20 5 25 男生 10 15 25 女生 30 20 50 合计

50 ? (20 ?15 ? 10 ? 5)2 (2)∵ K ? 30 ? 20 ? 25 ? 25 ? 8.333 ? 7.879 ------------------------5 分 ∴在犯错误的概率不超过 0.005 的前提下, 认为喜爱打篮球与性别有关.----- 6 分 (3)喜爱打篮球的女生人数 ? 的可能取值为 0,1, 2 .-------------------------7 分
2
0 2 C10C15 1 C10C15 3 C10 C15 7 P ( ? ? 1) ? ? P ( ? ? 2) ? ? ----10 分 P ( ? ? 0) ? ? 2 2 其概率分别为 , , 2 C 2 C 20 C25 20 25 25

1

1

2

0

故 ? 的分布列为:
?
P

0 7 20

1 1 2

2 3 20

? 的期望值为: E? ? 0 ?

7 1 3 4 ? 1? ? 2 ? ? 20 2 20 5

---------------------12 分

某车间为了规定工时定额,需要确定加工零件所花费的时间, 为此进行了 5 次试验. 根据收集到的数据(如下表) ,由最小 二乘法求得回归方程


现发现表中有一个数据模糊看不清,请你推断出该数据的值 为

68





更多相关文章:
...选修1-2)2、1-2独立性检验的基本思想及其初步应用_...
(数学选修1-2)2、1-2独立性检验的基本思想及其初步应用(数学选修1-2)2、1-2独立性检验的基本思想及其初步应用隐藏>> 1.2 独立性检验的基本思想及其初步应用...
...A版选修1-2 独立性检验的基本思想及其初步应用 学案...
2017-2018学年人教A版选修1-2 独立性检验的基本思想及其初步应用 学案_高二数学_数学_高中教育_教育专区。1.2 独立性检验的基本思想及其初步应用 独立性检验的有...
...2教师用书:独立性检验的基本思想及其初步应用
【课堂新坐标】数学选修1-2教师用书:独立性检验的基本思想及其初步应用_数学_高中教育_教育专区。【课堂新坐标】数学选修1-2教师用书 ...
1.2独立性检验的基本思想及其初步应用
1.2独立性检验的基本思想及其初步应用》_高三数学_数学_高中教育_教育专区。...3.某高校“统计初步”课程的教师随机调查了选修该课程的一 些学生情况,具体数据...
数学:1.2独立性检验的基本思想及其初步应用》教案(新...
数学:1.2独立性检验的基本思想及其初步应用》教案(新人教A版选修1-2)_理学_高等教育_教育专区。第一课时 1.2 独立性检验的基本思想及其初步应用(一) (共 ...
...1.2独立性检验的基本思想及其初步应用
高中数学(新人教A版选修1-1)典型例题:第1章 1.2独立性检验的基本思想及其初步应用_数学_高中教育_教育专区。高中数学(新人教A版选修1-1)典型例题 ...
...章统计案例1.2独立性检验的基本思想及其初步应用课...
高中数学第一章统计案例1.2独立性检验的基本思想及其初步应用课堂探究新人教A版选修1-2资料_其它课程_高中教育_教育专区。高中数学 第一章 统计案例 1.2 独立性...
...数学选修1-2 1.2 独立检验的基本思想及其初步应用
2016新课标创新人教A版数学选修1-2 1.2 独立检验的基本思想及其初步应用_高二数学_数学_高中教育_教育专区。2016新课标创新人教A版数学选修1-2 1.2 独立检验的...
...章统计案例1.2独立性检验的基本思想及其初步应用自...
高中数学第一章统计案例1.2独立性检验的基本思想及其初步应用自我小测新人教A版选修1-2讲义_高考_高中教育_教育专区。高中数学 第一章 统计案例 1.2 独立性...
...选修1-21.2 独立性检验的基本思想及其初步应用》...
高中新课程数学(新课标人教A版)选修1-21.2 独立性检验的基本思想及其初步应用》评估训练_数学_高中教育_教育专区。1.2 独立性检验的基本思想及其初步应用双基...
更多相关标签:

All rights reserved Powered by 甜梦文库 9512.net

copyright ©right 2010-2021。
甜梦文库内容来自网络,如有侵犯请联系客服。zhit325@126.com|网站地图