高二数学选修 1---2 统计教材教案
学习目标:1、了解分类变量的定义以及 2 ? 2 列联表的构成形式. 2、了解随机变量 k 2 的含义及其应用. 3、通过对典型案例分析,了解独立性检验的基本思想和方法. 重、难点:根据所给数据列 2 ? 2 列联表及由公式求 k 2 (重点) ;独立性检验的基本思想和 方法(难点). 学习过程: 一、课前准备: 预习课本 P---P 找出疑惑之处,并填写下列知识要点 (1)与列联表有关的概念. 1、分类变量与定量变量. 分类变量也称为属性变量或定性变量,它们的取值一定是离散的,而且不同的取值 仅表示个体所属的 类别 ,像这样的变量称作分类变量. 如性别变量,只取男、女两 个值,商品的等级变量只取一级、二级、三级,等等.有时也可以把分类变量的不同取值 用数字来表示,但这些数字除了分类以外没有其他的含义,大小也没有意义. 例如用 0 表示“男” ,1 表示“女” ,性别变量就变成取值为 0 和 1 的随机变量. 定量变量的取值一定是实数,它们的取值大小有特定的含义,不同取值之间的运算 也有特定的含义.例如身高、体重、考试成绩等,小张的身高是 180cm,小李的身高是 175cm,说明小张比小李高 180 ? 175 ? 5(cm). 2、2 ? 2 列联表 两个分类变量的频数表,称为列联表. 一般地,假设有两个分类变量 X 和 Y ,它们的取值分别为 {x1,x2 } 和 { y1,y2 } ,其 样本频数列联表(称为 2 ? 2 列联表)为:
y1 y2
§1.2
独立性检验的基本思想及其初步应用
总 计
a?b
x1
a c
a?c
b d
b?d
x2 总 计
c?d
a ?b?c ?d
3、等高条形图. 等高条形图用来展示列联表数据的 频率特征 ,能够更清晰地表达出两个分类变 量是否相关. 在等高条形图中,可以估计满足条件 X ? x1 的个体中具有 Y ? y1 的个体所
a c ,也可以估计满足条件 X ? x2 的个体中具有 Y ? y2 的个体所占比 , a?b c?d 两个比值相差很大,就判断两个分类变量之间有关系. 通过列联表或观察等高条形图判 断两个分类变量之间有关系,属于直观判断,不足之处是不能给出推断“两个分类变量有关 系”犯错误的概率,而独立性检验可以弥补这个不足. (2)独立性检验的基本思想. 1、独立性检验.
占的比例 利用随机变量 k 2 ( k 2 ?
n(ad ? bc) 2 ,其中 n ? a ? b ? c ? d 为样本 (a ? b)(c ? d )( a ? c)(b ? d )
容量)来判断“两个分类变量有关系”的方法称为独立性检验 . 2、独立性检验的基本思想 独立性检验的基本思想类似于反证法. 要判断“两个分类变量有关系” ,首先假设该 结论不成立,即假设结论“两个分类变量没有关系”成立. 在假设下我们所构造的随机 变量 k 2 应该很小,若由观测数据计算得到的 k 2 的观测值 k 很大,则说明假设不成立,即 认为“两个分类变量有关系” ;若观测值 k 很小,则说明在样本数据中没有发现足够证据
1
高二数学选修 1---2 统计教材教案
拒绝假设. 3、独立性检验的做法 ① 根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界 ? ,然后查表
P ( k 2 ≥ k0 )
0.50
0.455
0.40
0.708
0.25
1.323
0.15
2.072
0.10
2.706
0.05
3.841
0.025
5.024
0.010
6.635
0.005
7.879
0.001
10.828
k0
确定临界值 k 0 . ② 利用公式 k 2 ?
n(ad ? bc) 2 ,计算随机变量 K 2 的观测值 k . (a ? b)(c ? d )( a ? c)(b ? d )
③ 如果 k ≥ k 0 ,就推断“ X 与 Y 有关系” ,这种推断犯错误的概率不超过 ? ;否则,就认 为在犯错误的概率不超过 ? 的前提下不能推断“ X 与 Y 有关系” ,或者在样本数据中没 有发现足够证据支持结论“ X 与 Y 有关系”. 二、新课导学 学习探究一、列联表和等高条形图的应用 【例 1】 某学校对高三学生做了一项调查,发现:在平时的模拟考试中,性格内向的学 生 426 人中有 332 人在考试前心情紧张,性格外向的学生 594 人中有 213 人在考 试前心情紧张. 作出等高条形图,利用图形判断考前心情紧张与性格类别是否有 关系. 【解析】作列联表如下:
考前心情紧张 考前心情不紧张
总 计
性格内向 332 94 426
y
性格内向 213 381 594
1.0 ? 0.9 ? 0.8 ? 0.7 ? 0.6 ? 0.5 ? 0.4 ? 0.3 ? 0.2 ? 0.1 ? O
总 计 545 475 1020
相 高条形图如图所示: 图中阴影部分表示考前心情紧张与 考前心情不紧张中性格内向的比例. 从图中可以看出考前紧张的样本中 性格内向占的比例比考前心情不紧 张样本中性格内向占的比例高,可 以认为考前紧张与性格类型有关. 【跟踪训练】 为了研究子女吸 烟与父母吸烟的 关系,调查了一 千多名青少年及 其家长,数据如 下:
应的等
性格外向 性格内向
考前心 情紧张
考前心 情不紧张
x
父母吸烟 子女吸烟 子女不吸烟
总 计 237 678 915
父母不吸烟
83 522 605
总 计 320 1200 1520
2
高二数学选修 1---2 统计教材教案
利用等高条形图判断父母吸烟对子女吸烟是否有影响? 学习探究二、独立性检验的原理 【例 2】 打鼾不仅影响别人休息, 而且可能与患某种疾病有关. 下表是一次调查所得的数据:
每晚都打鼾 没晚不打鼾
总 计
患心脏病 30 24 54
未患心脏病 224 1355 1579
总 计 254 1379 1633
根据列 性检验,能否在犯错误的概率不超过 0.001 的前提下认为每晚都 打鼾与患心脏病有关系? 【解析】由列联表中的数据,得 K 的观测值为
2
联表的独立
k?
2 1633 ? (30 ?1355 ? 224 ? 24) ? 68.033 ? 10.828 . 254 ?1379 ? 54 ?1579
因此, 在犯错误的概率不超过 0.001 的前提下, 认为每晚都打鼾与患心脏病有关系. 【例 3 贴近高考】 某工厂有工人 1000 名, 其中 250 名工人参加过短期培训 (称为 A 类工人) , 另外 750 名工人参加过长期培训(称为 B 类工人).现用分层抽样的方法 (按 A 类、B 类分两层)从该工厂的工人中抽取 100 名工人,调查他们的生产 能力(此处生产能力指一天加工的零件数) ,结果如下表: 表 1:A 类工人生产能力的频数分布表
生产能力分组 人 数 [110,120) 8 [120,130) [130,140) 3 [140,150) 2
x
表 2:B 类工人生产能力的频数分布表
生产能力分组 人 数 [110,120) 6 [120,130) [130,140) 27 [140,150) 18
y
(1)确定 x , y 的值; (2)完成下面 2×2 的列联表,并回答能否在犯错误的概率不超过 0.001 的前提下认为工人的生产能力与工人的类别有关系?
工人类别
生产能力分组
[110,130) [130,150)
总 计
A 类工人 B 类工人 总 计
附: k 2 ?
n(ad ? bc) 2 , (a ? b)(c ? d )( a ? c)(b ? d )
P ( k 2 ≥ k0 )
0.050 0.010 0.005 0.001
3
高二数学选修 1---2 统计教材教案
k0
3.841
6.635
7.879
10.828
【规范解答】 (1)∵从该工厂的工人中抽取 100 名工人,且该工厂中有 250 名 A 类工人, 750 名 B 类工人, ∴要从 A 类工人中抽取 25 名,从 B 类工人中抽取 75 名.....................................2 分 ∴ x ? 25 ? 8 ? 3 ? 2 ? 12 , y ? 75 ? 6 ? 27 ? 18 ? 24 .............................................4 分 (2)根据所给的数据可以完成列联表,如下表所示:
工人类别
生产能力分组
[110,130) [130,150)
总 计
A 类工人 B 类工人 总 计
20 30 50
5 45 50
25 75 100 ............6 分 由列联表
中的数据,得 K 的观测值为
2 100 ? (20 ? 45 ? 5 ? 30) ? 12 ? 10.828 . .......................................................................10 分 25 ? 75 ? 50 ? 50 因此, 在犯错误的概率不超过 0.001 的前提下认为工人的生产能力与工人的类别有关系.
2
k?
......................................................................12 分。 三、当堂检测 1、关于独立性检验的叙述不正确的是 ( C ) A. 独立性检验就是检验两个分类变量是否有关系的一种统计方法 B. 独立性检验的思想来自统计上的检验思想,与反证法类似 C. 独立性检验和反证法都是假设结论不成立,再根据是否能够推出“矛盾”来判断结 论是否成立,二者“矛盾”含义相同 D. 独立性检验思想中的“矛盾”是指在假设结论不成立的前提下,推出有利于结论成 立的小概率事件的发生 【解析】独立性检验和反证法中的“矛盾”不同:前者是指不合逻辑的小概率事件的发生, 后者是指不合逻辑的事件发生. 2、独立性检验所采用的思路是:要研究 A、B 两类变量彼此相关,首先假设这两类变量彼 此 . 在此假设下构造随机变量 K 的观测值,如果 K 的观测值较大,那
2 2
么在一定程度上说明假设 . 【解析】无关 不成立 3、在吸烟与患肺病是否相关的判断中,有下面的说法: ① 若 K 的观测值 k ? 6.635 ,在犯错误的概率不超过 0.01 的前提下,认为吸烟与患肺
2
病有关系,那么在 100 个吸烟人中必有 99 人患肺病; ② 从独立性检验可知,在犯错误的概率不超过 0.01 的前提下,认为吸烟与患肺病有关 系时,若某人吸烟,则他有 99 0 0 的可能患有肺病; ③ 从独立性检验可知,在犯错误的概率不超过 0.05 的前提下,认为吸烟与患肺病有关
4
高二数学选修 1---2 统计教材教案
系时,是指有 5 0 0 的可能性使得推断错误. 其中说法正确的是
2
.
【解析】 K 是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有 关和无关的概率,故说法①不正确;说法②中对“确定容许推断犯错误概率的上界”理解错 误;说法 ③正确. 4、在一次天气恶劣的飞机航行中,调查了男女乘客在飞机上晕机的情况:男乘客晕机的有 24 人,不晕机的有 31 人;女乘客晕机的有 8 人,不晕机的有 26 人. 能否在犯错误的概 率不超过 0.10 的前提下推断:在天气恶劣的飞机航行中,男乘客比女乘客更容易晕机? 【解析】由已知条件得出下列 2×2 的列联表: 晕机 男乘客 女乘客
总 计 24 8 32
不晕机
31 26 57
总 计 55 34 89
由公式 k 2 ?
2 n(ad ? bc) 2 89 ? (24 ? 26 ? 31 ? 8) ? ? 3.6 8 9? 2.7 0 6 . (a ? b)(c ? d )( a ? c)(b ? d ) 55 ? 34 ? 32 ? 57
故在犯错误的概率不超过 0.10 的前提下,认为“在天气恶劣的飞机航行中,男乘客 比女乘客更容易晕机”.
5