9512.net
甜梦文库
当前位置:首页 >> 工学 >>

选修1-2:1.2独立性检验的基本思想及其初步应用



温故夯基
1.上节学习了回归分析的基本方法.线性回归模型y=bx 随机误差e +a+e不同于一次函数y=bx+a,含有__________,其中 解释变量 预报变量 x为_________,y为__________.
2.回归直线一定过点( x , y ),此为______________. ^ 3.R 表达式中的 ? (yi- y ) 为确定的数, ? (yi-y i)2
2 2 i= 1 i= 1 n n

样本点的中心

称为____________.
相关指数R 2 来刻画回归的效果, 公式是 : R 2 ? 1 ?

残差平方和

? ? ? yi ? yi ?

n

2

?? y
i ?1

i ?1 n

i

? y?

.
2

地调学校数学教研组

1、两个相关的概念

(1)分类变量:
对于性别变量,其取值为男和女两种,这种变量的 不同“值”表示个体所属的不同类别,像这样的变量称 为 分类变量,也称为属性变量或定性变量,它们的取值一 定是离散的,而且不同的取值仅表示个体所属的类别。

(2)定量变量:

定量变量的取值一定是实数,它们的取值大小有 特定的含义,不同取值之间的运算也有特定的含义。
例如身高、体重、考试成绩等,张明的身高是180cm,李立的 身高是175cm,说明张明比李立高180-175=5(cm)。

两种变量:
?定量变量:体重、身高、温度、考试成绩等等。 ? 变量 ?分类变量:性别、是否吸烟、是否患肺癌、 ? 宗教信仰、国籍等等。 ?
在日常生活中,我们常常关心分类变量的之间是否有关系

研究两个变量的相关关系:
?定量变量——回归分析(画散点图、相关系数r、 ? 变量 ? 相关指数R 2、残差分析) ?分类变量—— 独立性检验 独立性检验 ?

本节研究的是两个分类变量的独立性检验问题。

列联表
为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机 地调查了9965人,得到如下结果(单位:人)

不吸烟 吸烟
总计

吸烟与肺癌列联表 不患肺癌 患肺癌 7775 42

总计 7817 2148
9965

2099
9874

49
91

在不吸烟者中患肺癌的比重是 0.54% 与表格相比,三维柱形图和二维条 2.28% 在吸烟者中患肺癌的比重是 形图能更直观地反映出相关数据的总体 说明:吸烟者和不吸烟者患肺癌的可能性存在差异, 吸烟者患肺癌的可能性大 状况。

1)通过图形直观判断两个分类变量是否相关:
三维柱 状图

8000 7000 6000 5000 4000 3000 2000 1000 0 不患肺癌 患肺癌

不吸烟 吸烟 吸烟 不吸烟

2) 通过图形直观判断两个分类变量是否相关:
9000 8000 7000 6000 5000 4000 3000 2000 1000 0 不吸烟 吸烟 患肺癌 不患肺癌

二维条 形图

3)通过图形直观判断两个分类变量是否相关:
等高条 形图
100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 不吸烟 吸烟

患肺癌 比例
患肺癌 不患肺癌

不患肺癌 比例

独立性检验

通过数据和图表分析,得到 结论是:吸烟与患肺癌有关

H0: 吸烟和患肺癌之间没有关系 ←→H1:吸烟和患肺癌之间有关系
吸烟与肺癌列联表 不吸烟 吸烟

总计

不患肺癌 a c a+c

患肺癌 b d b+d

结论的可靠 程度如何?
总计 a+b c+d a+b+c+d

用A表示不吸烟, B表示不患肺癌, 则 " 吸烟与患 肺 癌没有关系 ? " 吸烟与患肺癌独立 ", 即H 0等价于P ? AB ? ? P ? A? P ? B ? .

吸烟与肺癌列联表 不吸烟 吸烟

总计

不患肺癌 a c a+c

患肺癌 b d b+d

总计 a+b c+d a+b+c+d

c 吸烟者中不患肺癌的比 : c ? d 例

不吸烟者中不患肺癌的 : 比例

a a?b

a c ? ≈ , a+b c+d

? a ?c+d ?≈c ?a + b? ,

ad ? bc

在上表中, a 恰好为事件AB 发生的频数;a ? b 和a ? c 恰恰好分别为事件A 和 B发生的频数 .由 于频率近似于概率, 所以在H 0成立的条件下应有

吸烟与患肺癌的列联表: 不吸烟 吸烟 总计 不患肺癌 a c a+c 患肺癌 b d b+d 总计 a+b c+d a+b+c+d

如果“吸烟与患肺癌没有关系”,则在吸烟者中不患肺

癌的比例应该与6中相应的比例应差不多,即

|ad-bc|越小,说明吸烟与患肺癌之间关系越弱; |ad-bc|越大,说明吸烟与患肺癌之间关系越强.

引入一个随机变量

n(ad - bc) K = (a + b)(c + d)(a + c)(b + d)
2

2

作为检验在多大程度上可以认为“两个

变量有关系”的标准
P( K ? k0 )
2


0.25 0.15 0.10

0.50

0.40

k0
P( K 2 ? k0 )

0.455 0.708 1.323 2.072 2.706 0.05 0.025 0.010 0.005 0.001

k0

3.841

5.024

6.635

7.879

10.828

独立性检验
不吸烟 吸烟 总计 通过公式计算 吸烟与肺癌列联表 不患肺癌 患肺癌 7775 42 2099 49 9874 91

总计 7817 2148 9965

9965(7775 ? 49 ? 42 ? 2099) K ? ? 56.632 7817 ? 2148? 9874? 91
2 2

在H0成立的情况下,统计学家估算出如下的概率:

P( K ? 6.635) ? 0.01
2

也就是说,在H0成立的情况下,对随机变量K2进行多次
k ? 56.632

观测,观测值超过6.635的频率约为0.01,是一个小概 率事件.现在K2的观测值为56.632,远远大于6.635,所

以有理由断定H0不成立,即认为“吸烟与患肺癌有关系” 但这种判断会犯错误,犯错误的概率不会超过0.01, 即我们有99%的把握认为“吸烟与患肺癌有关系”.

独立性检验:
利用随机变量 K2 来确定在 多大程度上 可以认为 “两个分类变量有关系”的方法称为两个分类变量的

独立性检验.
如果 k ? 6.635 ,就判断H0不成立; 否则,就判断H0成立.

即在 H 0 成立的情况下,K2 大于6.635概率非常 小,近似为0.01

P ( k ? 6.635) ? 0.01

( 独立性检验的基本思想:类 似 于 数 学 上 的 反 证 法 , 对 “两个分类变量有关系”这一结论成立可信程度的判断): (1)假设该结论不成立,即假设结论“两个分类变量 没有关系”成立. (2)在假设条件下,计算构造的随机变量K2,如果由 观测数据计算得到的K2 很大,则在一定程度上说明假 设不合理. (3)根据随机变量K2的含义,可以通过(2)式评价假 设不合理的程度,由实际计算出的k>6.635,说明假设 不合理的程度约为99%,即“两个分类有关系”这一结 论成立的可信程度约为99%.

利用独立性检验来考察两个分类变量是否有关系, 能较精确地给出这种判断的可靠程度. 具体作法是:

(1)根据实际问题需要的可信程度确定临界值k0;
(2)由观测数据计算得到随机变量K2的观测值k;

(3)如果k>6.635,就以 1-P(K2≥6.635)×100%的 把握认为“X与Y有关系”;否则就说样本观测数据没 有提供“X与Y有关系”的充分证据.

独立性检验的一般步骤:
2x2列联表 x1 x2 总计 y1 a c a+c y2 b d b+d 总计 a+b c+d a+b+c+d

设要判断的结论为:H1 :“X与Y有关系” 1、通过三维柱形图和二维条形图,可以粗略地判断两个变量是 否有关系。 (1)在三维柱形图中, 主对角线上两个柱形高度的 乘积ad与副 对角线上的乘积bc相差越大,H1成 立的可能性就越大。 (2)在二维条形图中,(x1,y1)个体所占的比例与(x2,y1) 个体所占 a 的比例 ,两个比例相差越大,H1成立的可能性就越大。 a?b
c c?d

2、可以利用独立性检验来考察两个分类变量是否有关系,并 且能较精确地给出这种判断的可靠程度。

临界值
P( K 2 ? k ) 0.50

0.40

0.5

0.15

0.10

0.05 0.025 0.010 0.005 0.001

k

0.445 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828

(1)如果k>10.828,就有99.9%的把握认为“X与Y有关系” (2)如果k>7.879,就有99.5%的把握认为“X与Y有关系”; (3)如果k>6.635,就有99%的把握认为“X与Y有关系”; (4)如果k>5.024,就有97.5%的把握认为“X与Y有关系”; (5)如果k>3.841,就有95%的把握认为“X与Y有关系”; (6)如果k>2.706,就有90%的把握认为“X与Y有关系”; (7)如果k<=2.706,就认为没有充分的证据显示 “X与Y有关系”.

背景分析

条形图

柱形图

列联表

分类变量之间关系

独立性检验

例1.秃头与患心脏病
在某医院,因为患心脏病而住院的665名男性病人中,有214 人秃顶;而 另外772名不是因为患心脏病而住院的男性病人中有 175人秃顶。分别利用 图形和独立性检验方法判断秃顶与患心脏 病是否有关系?你所得的结论在 什么范围内有效?
解:根据题目所给数据得到如下列联表1-13:
秃顶 患心脏病 214 不患心脏病 175 总计 389

不秃顶 总计

451 665

597 772

1048 1437

根据联表1-13中的数据,得到

1437 ? (214 ? 597 ? 175 ? 451) 2 K2 ? ? 16.373 ? 6.635. 389 ? 1048 ? 665 ? 772

所以有99%的把握认为“秃顶患心脏病有关”。

例2.性别与喜欢数学课
为考察高中生的性别与是否喜欢数学课程之间的 关系,在某城市的某校高中生中随机抽取300名学生, 得到如下联表:
男 女 总计

喜欢数学课程 37
35 72

不喜欢数学课程 85
143 228

总计 122
178 300

由表中数据计算K2的观测值k ? 4.513。在多大程度上可以认 为高中生的性别与是否喜欢数学课程之间有关系?为什么? 解:在假设“性别与是否喜欢数学课程之间没有关系”的前提 下K2应该很小,并且 P( K 2 ? 3.841) ? 0.05, 而我们所得到的K2的观测值k ? 4.513超过3.841,这就意味着 “性别与是否喜欢数学课程之间有关系”这一结论错误的可能 性约为0.05,即有95%的把握认为“性别与是否喜欢数学课程 之间有关系”。

思考:例1、2的结论是否适用于普通的对象?
例1这组数据来自住院的病人,因此所得到的结论适合住院 的病人群体.例2的结论只适合被调查的学校。 大家要注意统计结果的适用范围(这由样本的代表性所决定)

在掌握了两个分类变量的独立性检验方法 之后,就可以模仿例1中的计算解决实际问 题,而没有必要画相应的图形。

图形可帮助向非专业人士解释所得结果; 也可以帮助我们判断所得结果是否合理

独立性检验基本的思想类似反证法
(1)假设结论不成立,即“两个分类变量没有关系”.
(2)在此假设下随机变量 K2 应该很能小,如果由观测数据
计算得到K2的观测值k很大,则在一定程度上说明假设

不合理.
(3)根据随机变量K2的含义,可以通过 评价该假设不合理的程度,由实际计算出的, 说明假设合理的程度为99.9%,即“两个分类变量有关 系”这一结论成立的可信度为约为99.9%.

知新益能
1.2×2列联表与等高条形图 (1)分类变量的定义 不同类别 变量的不同“值”表示个体所属的_________,像这 样的变量称为分类变量. (2)2×2列联表的定义 一般地,假设有两个分类变量X和Y,它们的取值 {x1,x2} {y1,y2} 分别为________和_________,其样本频数列联表 (称为2×2列联表)为:

x1 x2 总计

y1 a c a+c

y2 b d b+d

总计 a+b c+d a+b+c+d

(3)与表格相比,图形更能直观地反映出两个 等高条形图 分类变量间是否相互影响,常用____________展
示列联表数据的频率特征.

2.独立性检验 为了使不同样本容量的数据有统一的评判标准,我 n?ad-bc?2 们构造一个随机变量 K2= , ?a+b??c+d??a+c??b+d? a+b+c+d 其中 n=______________为样本容量. 先假设两个分类变量 X 与 Y 无关系,利用上述公式根 据观测数据求出 K2 的观测值 k,再得出 X 与 Y 有关系 的程度.

打鼾不仅影响别人休息,而且还可能与患某种疾病有关,在某一 例1 图中两个深色的高分别表示每一晚都打鼾和不 次调查中,其中每一晚都打鼾的254人中,患心脏病的有30人,未患心脏

打鼾的人中患心脏病的频率,从图中可以看出,每一 病的有224人;在不打鼾的1379人中,患心脏病的有24人,未患心脏病
的有1355人,利用图形判断打鼾与患心脏病有关吗?

晚都打鼾样本中患心脏病的频率明显高于不打鼾
【解】根据题目所给的数据得到如下2×2列联表: 患心脏病 未患心脏病 224 每一晚都打鼾 脏病有关系. 30 24 1355 不打鼾 54 1579 总计 相应的等高条形图如图: 总计 254 1379 1633

样本中患心脏病的频率,因此可以认为打鼾与患心

【题后点评】在等高条形图中展示列联表数据的 频率特征,比较图中两个深色条的高可以发现两者 频率不一样而得出结论.这种直观判断的不足之处 在于不能给出推断“两个分类变量有关系”犯错

误的概率.

题型二

随机变量K2的求法及应用

n?ad-bc?2 此类题是利用 K2= ,求出 K2 ?a+b??c+d??a+c??b+d? 的观测值 k,再利用 k 与临界值的大小关系来判断假 设是否成立,解题时应注意准确代数与计算,正确使 用公式,从而准确进行比较与判断.

例2 在一次天气恶劣的飞行航程中,调查了男女乘客在飞机上晕 【题后点评】解决一般的独立性检验问题的步骤: 机的情况:男乘客晕机的有24人,不晕机的有31人;女乘客晕机的有8 (1)通过所给列联表确定a,b,c,d,n的值. 人,不晕机的有26人.请你根据所给数据判定:在天气恶劣的飞行航程 (2)利用K2=求随机变量K2 中,男乘客是否比女乘客更容易晕机? 的观测值k. (3)得出两个变量X与Y是否有关系. 【解】 根据题意,列出 2×2 列联表如下:

晕 机 不晕机 总 计 男乘客 24 31 55 女乘客 8 26 34 总 计 32 57 89 假设在天气恶劣的飞行航程中, 男乘客不比女乘客更容 易晕机. 89×?24×26-31×8? 2 由 公 式 可 得 K2 的 观 测 值 k= 55×34×32×57 ≈3.689>2.706,故有 90%的把握认为“在天气恶劣的 飞行航程中,男乘客比女乘客更容易晕机”.

变式训练

某单位餐厅的固定餐椅经常有损坏,于是该单位领

导决定在餐厅墙壁上张贴文明标语,并对文明标语张贴前后餐椅的 损坏情况作了一个统计,具体数据如下: 损坏餐 椅数 39 29 68 未损坏餐 椅数 157 167 324 总计

文明标语张贴前
文明标语张贴后 总计

196
196 392

解:根据题中的数据计算: 392×?39×167-157×29? 2 k= ≈1.78. 196×196×68×324 因为 1.78<2.706,所以我们没有理由说:在餐厅墙壁 上张贴文明标语对减少餐椅损坏数有效果,即效果不 明显.



更多相关文章:
...数学选修1-2 1.2 独立检验的基本思想及其初步应用
2016新课标创新人教A版数学选修1-2 1.2 独立检验的基本思想及其初步应用_高二数学_数学_高中教育_教育专区。2016新课标创新人教A版数学选修1-2 1.2 独立检验的...
数学:1.2独立性检验的基本思想及其初步应用》教案(新...
数学:1.2《独立性检验的基本思想及其初步应用》教案(新人教A版选修1-2)_理学_高等教育_教育专区。第一课时 1.2 独立性检验的基本思想及其初步应用(一) (共 ...
...1.2独立性检验的基本思想及其初步应用练习 新人教A...
2015-2016高中数学 1.2独立性检验的基本思想及其初步应用练习 新人教A版选修1-2_数学_高中教育_教育专区。1 .2 基础梳理 独立性检验的基本思想及其初步应用 1....
...选修1-21.2 独立性检验的基本思想及其初步应用》...
高中新课程数学(新课标人教A版)选修1-21.2 独立性检验的基本思想及其初步应用》评估训练_数学_高中教育_教育专区。1.2 独立性检验的基本思想及其初步应用双基...
...章统计案例1.2独立性检验的基本思想及其初步应用课...
高中数学第一章统计案例1.2独立性检验的基本思想及其初步应用课堂探究新人教A版选修1-2资料_其它课程_高中教育_教育专区。高中数学 第一章 统计案例 1.2 独立性...
...章统计案例1.2独立性检验的基本思想及其初步应用自...
高中数学第一章统计案例1.2独立性检验的基本思想及其初步应用自我小测新人教A版选修1-2讲义_高考_高中教育_教育专区。高中数学 第一章 统计案例 1.2 独立性...
1.2 独立性检验的基本思想及其初步应用 学案(人教A版选...
1.2 独立性检验的基本思想及其初步应用 【课标要求】 1.了解独立性检验的基本思想、方法及其简单应用; 2.理解判断两个分类变量是否有关系的常用方法、独立性检验...
...章统计案例1.2独立性检验的基本思想及其初步应用教...
高中数学第一章统计案例1.2独立性检验的基本思想及其初步应用教材习题点拨新人教A选修1-2创新_高考_高中教育_教育专区。高中数学 第一章 统计案例 1.2 独立性...
...章统计案例1.2独立性检验的基本思想及其初步应用预...
高中数学第一章统计案例1.2独立性检验的基本思想及其初步应用预习导航新人教A版选修1-2资料_其它课程_高中教育_教育专区。高中数学 第一章 统计案例 1.2 独立性...
...章统计案例1.2独立性检验的基本思想及其初步应用高...
2016-2017学年高中数学第一章统计案例1.2独立性检验的基本思想及其初步应用高效测评新人教A版选修1-2资料_其它课程_高中教育_教育专区。2016-2017 学年高中数学 ...
更多相关标签:

All rights reserved Powered by 甜梦文库 9512.net

copyright ©right 2010-2021。
甜梦文库内容来自网络,如有侵犯请联系客服。zhit325@126.com|网站地图