9512.net
甜梦文库
当前位置:首页 >> 数学 >>

3.2 独立性检验



? 【课本要求】 ? 1.了解独立性检验的基本思想、方法及 其简单应用; ? 2.理解判断两个分类变量是否有关系的 常用方法、独立性 检验中K2的含义及其实施 步骤. ? 【核心】 ? 1.能够根据题目所给数据列出列联表及 求K2.(重点) ? 2.独立性检验的基本思想和方法.(难点)

自学导引
? 1.分类变量和列联表 ? (1)分类变量 ?

变量的不同“值”表示个体所属的 不同类别 , 像这样的变量称为分类变量.

?(2)列联表 频数表 ?①定义:列出的两个分类变量的 ,称 为列联表. ?②2×2列联表 ?一般地,假设两个分类变量X和Y,它们的取 值分别为{x1,x2}和{y1,y2},其样本频数列 联表(称2×2列联表)为 y1 y2 总计 x1 a b a +b x2 c d c +d a+c b+d a+b+c+d 总计

? ?

想一想:如何理解分类变量?

提示 (1)这里的“变量”和“值”都应作为“广义”的 变量和值来理解.例如:对于性别变量,其取值有“男”和 “女”两种,这里的“变量”指的是“性别”,这里的“值” 指的是“男”或“女”.因此,这里说的“变量”和“值” 不一定是取具体的数值. ? (2)分类变量是大量存在的.例如:吸烟变量有吸烟与不 吸烟两种类别,而国籍变量则有多种类别.

? 2.独立性检验
利用随机变量K2来判断“两个分类变量有关系”的 定义 方法称为独立性检验

n?ad-bc?2 a+b+c+d 公式 K2=____________________ ?a+b??c+d??a+c??b+d? ,其中n= ___________ ①根据实际问题的需要,确定容许推断“两个分类 变量有关系”犯错误概率的上界α .然后查表确定 临界值k0 __________ 具 观测值k ②利用公式计算随机变量K2的___________

体 步 骤

③如果k≥k0,就推断“X与Y有关系”,这种推断 犯错误的概率 不超过α ,否则就
认为在犯错误的概率不超过α 的前提下不能推断“X 与Y有关系”,或者在样本数据中没有发现足够证据 支持结论“X与Y有关系”

? 3.独立性检验临界值表
P(K2 0. ≥k0) 50 k0 0. 40 0. 25 0. 15 0. 10 0. 05 0. 025 0. 010 0. 005 0. 001

0. 455

0. 708

1. 323

2. 072

2. 706

3. 841

5. 024

6. 635

7. 10. 879 828

?

想一想:在K2运算时,在判断变量相关时, 若K2的观测值k=56.632,则 P(K2≥6.635)≈0.01和P(K2≥10.828) ≈0.001,哪种说法是正确的? ? 提示 两种说法均正确. ? P(K2≥6.635)≈0.01的含义是在犯错误 的概率不超过0.01的前提下,认为两变量相 关; ? 而P(K2≥10.828)≈0.001的含义是在犯 错误的概率不超过0.001的前提下,认为两 变量相关.

? 1.在2×2列联表中,如果两个分类变量没有 关系,则应满足ad-bc≈0,因此|ad-bc|越小, 关系越弱;|ad-bc|越大,关系越强.

? 2.独立性检验的基本思想 ? (1)独立性检验的基本思想类似于反证法,要确认“两个
分类变量有关系”这一结论成立的可信程度,首先假设该结 论不成立,即假设结论“两个分类变量没有关系”成立,在 该假设下我们构造的随机变量K2应该很小,如果由观测数据 计算得到的K2的观测值很大,则在一定程度上说明假设不合 理,根据随机变量K2的含义,可以通过P(K2≥6.635)≈0.01 来评价假设不合理的程度,由实际计算出k≥6.635,说明假 设不合理的程度约为99%,即“两个分类变量有关系”这一 结论成立的可信程度约为99%.

?(2)在实际问题中要记住以下几个常用值: ?①k>6.635有99%的把握认为“X与Y有关系”; ?②k>3.841有95%的把握认为“X与Y有关系”; ?③k>2.706有90%的把握认为“X与Y有关系”; ?④k≤2.706就认为没有充分证据显示“X与Y有关系”. ?(3)反证法原理与独立性检验原理的比较 ?反证法原理:在假设H0下,如果推出一个矛盾,就证明了H0 不成立. ?独立性检验原理:在假设H0下,如果出现一个与H0相矛盾的 小概率事件,就推断H0不成立,且该推断犯错误的概率不超 过这个小概率.

? 3.两个分类变量相关性检验方法
? 利用独立性检验来考察两个分类变量是否有关系,能较 精确地给出这种判断的可靠程度,具体的做法是:①根据实 际问题的需要确定容许推断“两个分类变量有关系”犯错误 概率的上界α ,然后查表确定临界值k0.②计算随机变量K2 的观测值k.③如果k≥k0,就推断“X与Y”有关系,这种推 断犯错误的概率不超过α ,否则就认为在犯错误的概率不超 过α 的前提下不能推断“X与Y有关系”,或者在样本数据中 没有发现足够证据支持结论“X与Y有关系”.

? 题型一 有关“相关的检验” ? 【例1】 某校对学生课外活动进行调查,结果整理成下表: ? 试用你所学过的知识进行分析,能否在犯错误的概率不 超过0.005的前提下,认为“喜欢体育还是文娱与性别有关 系”?
男生 体育 21 文娱 23 总计 44

女生 总计

6 27

29 52

35 79

?

[思路探索] 可用数据计算K2,再确定其中的具体关系.

解 判断方法如下: 假设 H0“喜欢体育还是喜欢文娱与性别没有关系”,若 H0 成立,则 K2 应该很小. ∵a=21,b=23,c=6,d=29,n=79, n?ad-bc?2 ∴k= ?a+b??c+d??a+c??b+d? 79×?21×29-23×6?2 = ≈8.106. ?21+23?×?6+29?×?21+6?×?23+29?

?

且P(K2≥7.879)≈0.005即我们得到的K2的 观测值k≈8.106超过7.879,这就意味着: “喜欢体育还是文娱与性别没有关系”这一 结论成立的可能性小于0.005,即在犯错误 的概率不超过0.005的前提下认为“喜欢体 育还是喜欢文娱与性别有关”.

[规律方法]

2 n ? ad - bc ? (1)利用 K2= 求出 K2 的 ?a+b??c+d??a+c??b+d?

观测值 k 的值.再利用临界值的大小来判断假设是否成立. (2)解题时应注意准确代数与计算,不可错用公式,准确进行 比较与判断.

? 【变式1】 为研究学生的数学成绩与对学习数 学的兴趣是否有关,对某年级学生作调查得 到如下数据: 兴趣浓厚的 兴趣不浓厚的 总计 ?

成绩优秀 64 22 86

成绩较差 30 73 103

总计 94 95 189

判断学生的数学成绩好坏与对学习数学的 兴趣是否有关?



由公式得 K2 的观测值

189×?64×73-22×30?2 k= ≈38.459. 86×103×95×94 ∵38.459>10.828, ∴有 99.9%的把握说学生学习数学的兴趣与数学成绩是有 关的.

? 题型二 有关“无关的检验” ? 【例2】 为了探究学生选报文、理科是否与对 外语的兴趣有关,某同学调查了361名高二在 校学生,调查结果如下:理科对外语有兴趣 的有138人,无兴趣的有98人,文科对外语有 兴趣的有73人,无兴趣的有52人.试分析学 生选报文、理科与对外语的兴趣是否有关? ? [思路探索] 要在选报文、理科与对外语有 无兴趣之间有无关系作出判断,可以运用独 立性检验的方法进行判断.

? 解 列出2×2列联表
理 有兴趣 无兴趣 总计 138 98 236 文 73 52 125 总计 211 150 361

代入公式得 K2 的观测值 361×?138×52-73×98?2 k= ≈1.871×10-4. 236×125×211×150 ∵1.871×10-4<2.706,∴可以认为学生选报文、理科与 对外语的兴趣无关.

? ?

[规律方法] 运用独立性检验的方法: (1)列出2×2列联表,根据公式计算K2的观 测值k. ? (2)比较k与k0的大小作出结论.

? 【变式2】 某教育机构为了研究人具有大学专科以上学历 (包括大学专科)和对待教育改革态度的关系,随机抽取了 392名成年人进行调查,所得数据如下表所示:

支持教育改革情况 积极支持 教育改革 学历

不太赞成 教育改革 157
167 324

总计 196
196 392

大学专科以上学历
大学专科以下学历 总计

39
29 68

? 对于教育机构的研究项目,根据上述数据能得出什么结论.

解 根据列联表给出的数据,可计算出 K2 的观测值 392×?39×167-29×157?2 k= ≈1.78, 196×196×68×324 因为 1.78<2.706,所以我们没有充分理由说“人具有大 学专科以上学历 ( 包括大学专科 ) 和对待教育改革的态度有 关”.

? 题型三 独立性检验的基本思想
? 【例3】 某企业有两个分厂生产某种零件,按规定内径尺寸 (单位:mm)的值落在(29.94,30.06)的零件为优质品.从 两个分厂生产的零件中各抽出500件,量其内径尺寸,结果 如下表: ? 甲厂
[30.06, [30.10, 分 [29.86, [29.90, [29.94, [29.98, [30.02, 组 29.90) 29.94) 29.98) 30.02) 30.06) 30.10) 30.14) 频 数 12 63 86 182 92 61 4

?
频数

乙厂
29 71 85 159 76 62 18

[29.86,[29.90,[29.94, [29.98, [30.02, [30.06, [30.10, 分组 29.90) 29.94) 29.98) 30.02) 30.06) 30.10) 30.14)

?
?

(1)试分别估计两个分厂生产的零件的优质品率; (2)由以上统计数据填下面2×2列联表,并问是否有99% 的把握认为“两个分厂生产的零件的质量有差异”. 甲厂 优质品 非优质品 总 计 乙厂 总计

2 n ? ad - bc ? 附:K2= , ?a+b??c+d??a+c??b+d?

P(K2≥k0) k0

0.05 3.841

0.01 6.635

?

审题指导 (1)分别计算甲、乙两厂优质品 的频数与500的比值即为所求. ? (2)根据已知数据填充2×2列联表,进行独 立性检验.

[规范解答] (1)甲厂抽查的产品中有 360 件优质品,从而甲厂 360 生产的零件的优质品率估计为 =72%; 500 乙厂抽查的产品中有 320 件优质品,从而乙厂生产的零件的 320 优质品率估计为 =64%. 500

(2) 甲厂 优质品 非优质品 总计 360 140 500 乙厂 320 180 500 总计 680 320 1 000

1 000×?360×180-320×140?2 k= ≈7.353>6.635, 500×500×680×320 所以有 99% 的把握认为“两个分厂生产的零件的质量有差 异”.

【题后反思】 (1) 解答此类题目的关键在于正确利用 K2 = n?ad-bc?2 计算 k 的值, 再用它与临界值的大小 ?a+b??c+d??a+c??b+d? 作比较来判断假设检验是否成立,从而使问题得到解决. (2)此类题目规律性强,解题比较格式化,填表计算分析比较 即可,要熟悉其计算流程,不难理解掌握.

? 【变式3】 下表是某地区的一种传染病与饮用水的调查表: 得病 52 94 146 不得病 466 218 684 总计 518 312 830

干净水 不干净水

?

总计

? (1)这种传染病是否与饮用水的卫生程度有关, 请说明理由; ? (2)若饮用干净水得病5人,不得病50人,饮用不干净水 得病9人,不得病22人.按此样本数据分析这种疾病是否与 饮用水有关,并比较两种样本在反映总体时的差异.



(1)假设 H0: 传染病与饮用水无关. 把表中数据代入公式

2 830 × ? 52 × 218 - 466 × 94 ? 得:K2 的观测值 k= ≈54.21,∵ 146×684×518×312

54.21>10.828,所以拒绝 H0. 因此我们有 99.9%的把握认为该地区这种传染病与饮用不 干净水有关. (2)依题意得 2×2 列联表:

得病

不得病

总计

干净水 不干净水 总计

5 9 14

50 22 72

55 31 86

2 86 × ? 5 × 22 - 50 × 9 ? 此时,K2 的观测值 k= ≈5.785. 14×72×55×31

由于 5.785>5.024 所以我们有 97.5%的把握认为该种疾病与饮用不干净水有 关. 两个样本都能统计得到传染病与饮用不干净水有关这一相同 结论,但(1)中我们有 99.9%的把握肯定结论的正确性,(2) 中我们只有 97.5%的把握肯定.

? 误区警示 因未理解P(K2≥k0)的含义而致错 ? 【示例】 某小学对232名小学生调查中发现: 180名男生中有98名有多动症,另外82名没有 多动症,52名女生中有2名有多动症,另外50 名没有多动症,用独立性检验方法判断多动 症与性别是否有关系?

?

[错解] 由题目数据列出如下列联表:
多动症 男生 女生 总计 98 2 100 无多动症 82 50 132 总计 180 52 232

232×?98×50-2×82?2 k= ≈42.117>10.828. 100×132×180×52 所以有 0.1%的把握认为多动症与性别有关系.

应该是有(1-P(K2≥10.828))×100% =(1-0.001)×100%的把握,而不是 P(K2≥10.828)×100%=0.001×100%的把 握.

?

[正解] 由题目数据列出如下列联表: 多动症 98 无多动症 82 总计 180

男生

女生 总计

2 100

50 132

52 232

由表中数据可得到: 232×?98×50-2×82?2 k= ≈42.117>10.828. 100×132×180×52 所以有 99.9%的把握认为多动症与性别有关系.

本题的错误之处在于不能正确 理解独立性检验步骤的含义,当计算的K2的 观测值k大于临界值k0时,就可推断在犯错误 的概率不超过α的前提下说X与Y有关系,这一 点需牢记.



更多相关文章:
世纪金榜课后巩固·提能 3.2独立性检验
相关还是相互独立的问题,在常用的方法中,最为 精确的方法是( (A)残差图 (C)等高条形图 ) (B)散点图 (D)利用 K2 值判断 2.利用独立性检验来考察两个...
福建省漳州市芗城中学高中数学 3.2 独立性检验(2)教案 新人教A版选修2-3
福建省漳州市芗城中学高中数学 3.2 独立性检验(2)教案 新人教A版选修2-3_数学_高中教育_教育专区。福建省漳州市芗城中学高中数学 3.2 独立性检验(2)教案 新...
湖北省恩施巴东县第一高级中学高中数学 3.2独立性检验的基本思想及其应用(第2课时)教案 新人教版选修2-3
湖北省恩施巴东县第一高级中学高中数学 3.2独立性检验的基本思想及其应用(第2课时)教案 新人教版选修2-3_数学_高中教育_教育专区。§3.2 独立性检验的基本思想...
湖北省恩施巴东县第一高级中学高中数学 3.2独立性检验的基本思想及其应用(第1课时)教案 新人教版选修2-3
湖北省恩施巴东县第一高级中学高中数学 3.2独立性检验的基本思想及其应用(第1课时)教案 新人教版选修2-3_数学_高中教育_教育专区。§3.2 独立性检验的基本思想...
3.2独立性检验的基本思想及其初步应用
3.2 独立性检验的基本思想及其初步应用(共计 3 课时) 授课类型:新授课 一、教学内容与教学对象分析 通过典型案例,学习下列一些常用的统计方法,并能初步应用这些...
第三章3.2独立性检验的基本思想及其初步应用习题
C.2 D.3 3. 观察下列各图, 其中两个分类变量之间关系最 强的是( ) 4.(2014· 温州高二检测)对于独立性检验,下列说 法正确的是( ) A.K2>3.841 时,...
3.2独立性检验的基本思想及其应用(B卷)
其中拟合效果最好的是( ) A.模型 1 B.模型 2 C.模型 3 D.模型 4 2.★★在独立性相关检验中,两个分类变量 “X 与 Y 有关系”的可信度为 99%,由随...
3.2独立性检验的基本思想及其初步应用(学案)
2 列联表 y1 y2 总计 § 独立性检验的基本思想及其初步应用 (第 5 页共 12 页) 3.2 x1 a c b d a?b c?d a?b?c?d x2 总计 a?c b?d 若...
选修2-3A版_第3章统计案例_3.2独立性检验的基本思想及其初步应用_教案3
3.2 独立性检验的基本思想及其初步应用(共计 3 课时) 授课类型:新授课 一、教学内容与教学对象分析 通过典型案例,学习下列一些常用的统计方法,并能初步应用这些方...
更多相关标签:
独立性检验    卡方独立性检验    spss独立性检验    列联表独立性检验    列联表的独立性检验    残差独立性检验    独立性检验的基本思想    r语言独立性检验    

All rights reserved Powered by 甜梦文库 9512.net

copyright ©right 2010-2021。
甜梦文库内容来自网络,如有侵犯请联系客服。zhit325@126.com|网站地图