9512.net
甜梦文库
当前位置:首页 >> 数学 >>

知识讲解 独立性检验的基本思想及其初步应用(文、理)



独立性检验的基本思想及其初步应用 编稿:赵雷 【学习目标】 1. 了解独立性检验(只要求 2×2 列联表)的基本思想、方法及初步应用 2. 通过典型案例的探究,了解实际推断原理和假设检验的基本思想、方法及初步应用. 【要点梳理】 要点一、分类变量 有一种变量,这种变量所取不同的“值”表示的是个体所属不同类别,称这种变量为分类变量。 要点诠释: (1)对分类变量的理解。 这里的“变

量”和“值”都应作为广义的“变量”和“值”进行理解。例如: “性别变量”有“男”和 “女”两种类别,这里的变量指的是性别,同样这里的“值”指的是“男”和“女” 。因此,这里所说的 “变量”和“值”取的不一定是具体的数值。 (2)分类变量可以有多种类别。例如:吸烟变量有“吸烟”与“不吸烟”两种类别,而国籍变量则有 多种类别。 要点二、2×2 列联表 1. 列联表 审稿:李霞

用表格列出的分类变量的频数表,叫做列联表。 2. 2×2 列联表

对于两个事件 A,B,列出两个事件在两种状态下的数据,如下表所示: 事件 B 事件 A 事件 A 合计 a c a+c 事件 B b d b +d 合计 a+b c+d a+b+c+d

这样的表格称为 2×2 列联表。 要点三:卡方统计量公式 为了研究分类变量 X 与 Y 的关系,经调查得到一张 2×2 列联表,如下表所示 Y1 X1 X2 合计 a c a+c Y2 b d b+d 合计 a+b c+d n=a+b+c+d

统计中有一个有用的(读做“卡方” )统计量,它的表达式是:

K2 ?

n(ad ? bc)2 ( n ? a ? b ? c ? d 为样本容量) 。 (a ? b)(c ? d )(a ? c)(b ? d )

要点四、独立性检验

第1页

共 10 页

1. 独立性检验 通过 2×2 列联表,再通过卡方统计量公式计算 K 的值,利用随机变量 K 来确定在多大程度上可 以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。 2. 变量独立性的判断 通过对 K 统计量分布的研究,已经得到两个临界值:3.841 和 6.635。当数据量较大时,在统计中, 用以下结果对变量的独立性进行判断: ①如果 K ≤3.841 时,认为事件 A 与 B 是无关的。 ②如果 K >3.841 时,有 95%的把握说事件 A 与事件 B 有关; ③如果 K >6.635 时,有 99%的把握说事件 A 与事件 B 有关; 要点诠释: (1)独立性检验一般是指通过计算 K 统计量的大小对两个事件是否有关进行判断; (2)独立性检验的基本思想类似于反证法。即在 H0:事件 A 与 B 无关的统计假设下,利用 K 统计量 的大小来决定在多大程度上拒绝原来的统计假设 H0,即拒绝“事件 A 与 B 无关” ,从而认为事件 A 与 B 有 关。独立性检验为假设检验的特例。 (3)利用独立性检验可以考察两个分类变量是否有关,并且能较精确地给出这种判断的把握程度。 3.独立性检验的基本步骤及简单应用 独立性检验的步骤: 要推断“A 与 B 是否有关” ,可按下面步骤进行: (1)提出统计假设 H0:事件 A 与 B 无关(相互独立) ; (2)抽取样本(样本容量不要太小,每个数据都要大于 5) ; (3)列出 2×2 列联表; (4)根据 2×2 列联表,利用公式: K ?
2
2 2 2 2 2 2 2 2 2

n(ad ? bc)2 2 ,计算出 K 的值; (a ? c)(b ? d )(a ? b)(c ? d )

(5)统计推断:当 K >3.841 时,有 95%的把握说事件 A 与 B 有关; 当 K >6.635 时,有 99%的把握说事件 A 与 B 有关; 当 K >10.828 时,有 99.9%的把握说事件 A 与 B 有关; 当 K ≤3.841 时,认为事件 A 与 B 是无关的. 要点诠释: ① 使用 K 统计量作 2×2 列联表的独立性检验时,要求表中的 4 个数据都要大于 5.
2 2 2 2

第2页

共 10 页

② 一定要弄清 K 的表达式 ? 2 ?
2

n(ad ? bc)2 中各个量的含义. (a ? c)(b ? d )(a ? b)(c ? d )

③ 独立性检验的基本思想类似于反证法.要确认“两个分类变量有关系”这一结论成立的可信程度, 首先假设结论不成立, 即假设结论 “两个分类变量没有关系” 成立, 在该假设下构造的随机变量 K
2 2

应该很小,如果由观测数据计算得到的 K 的观测值很大,则在一定程度上说明假设不合理.根据 随机变量 K 的含义,由实际计算的 K >6.635,说明假设不合理的程度约为 99%,即“两个分 类变量有关系”这一结论成立的可信程度约为 99%.当 K ≤3.841 时,认为两个分类变量是无关 的. 【典型例题】 类型一、利用 2×2 列联表计算卡方 例 1. 为了考察中学生的性别与是否喜欢数学课程之间的关系, 在某校学生中随机地抽取了 50 名学生, 得到如下列联表: 喜欢数学 男 女 合计 根据表中的数据,计算 K
2 2 2 2 2

不喜欢数学 10 20 30

合计 23 27 50

13 7 20

【思路点拨】利用 K 公式计算 【解析】得到 K ?
2

50 ? (13 ? 20 ?10 ? 7) 2 ? 4.844 23 ? 27 ? 20 ? 30

【思路点拨】在利用 2 ? 2 列联表计算 ? 2 统计量作独立性检验时,要求表中的 4 个数据大于等于 5,为此, 在选取样本的容量时一定要注意这一点。 举一反三: 【变式 1】研究两个事件 A,B 之间的关系时,根据数据信息列出如下的 2×2 列联表: B A n11 n21 n+1 ) B. ? ?
2

B
n12 n22 n+2

合计 n1+ n2+ n

A
合计
2

则以下 ? 计算公式正确的是( A. ? ?
2

n(n11n22 ? n12 n21 )2 n?1n?2 n1? n2?

n(n1? n?1 ? n2? n?2 )2 n11n12 n21n22

第3页

共 10 页

C. ? 2 ?

n(n11n12 ? n21n22 )2 n?1n?2 n1? n2?

D. ? 2 ?

n(n11n21 ? n12 n22 )2 n?1n?2 n1? n2?

【答案】A 【变式 2】由列联表

y1 x1 x2
合计 则随机变量 ? 2 ? 【答案】由 K 公式计算得:7.469 类型二、独立性检验
2

y2
162 121 283

合计 205 134 339

43 13 56

。 (精确到 0.001)

例 2. 近年来,随着我国经济的飞速发展,在生产车间中,由于保护不当,对生产工人造成伤害的事件也 越来越多.某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎(注:检查为阳性则 为患皮肤炎) ,在生产季节开始时,随机抽取 75 名车间工人穿上新防护服,其余仍穿原用的防护服,生产 进行一个月后,检查两组工人的皮肤炎患病人数的结果如下: 阳性例数 新 旧 合计 5 10 15 阴性例数 70 18 88 合计 75 28 103

问这种新防护服对预防工人患职业性皮肤炎是否有效?并说明你的理由. 【思路点拨】 这是一个 2 ? 2 列联表的独立性检验问题,根据列联表的数据求解判断。 【解析】 提出假设 H0:新防护服对预防工人患职业性皮肤炎无效.

n(ad ? bc)2 2 2 将表中数据代入 K ? ,得 K ? 13.826 ,查表可知:P( K ≥10.828) (a ? c)(b ? d )(a ? b)(c ? d )
2

≈0.001,而 13.826>10.828,故有 99.9%的把握认为新防护服对预防这种职业性皮肤炎有效. 【总结升华】 在掌握了独立性检验的基本思想后我们一般通过计算 K 的值,然后比较 K 的值与临界 值的大小来精确地给出“两个分类变量”的相关程度. 举一反三: 【变式 1】某企业为了更好地了解设备改造前后与生产合格品的关系,随机抽取了 180 件产品进行分析。 其中设备改造前生产的合格品有 36 件,不合格品有 49 件;设备改造后生产的合格品有 65 件,不合格品 有 30 件。根据上面的数据,你能得出什么结论? 【答案】由已知数据得到下表
第4页 共 10 页
2 2

合格品 设备改造后 设备改造前 合计
2

不合格品 30 49 79
2

合计 95 85 180

65 36 101

n(n11n22 ? n12 n21 )2 180?65 ? 49 ? 36 ? 30? 根据公式 ? ? 得 ≈12.38。 95 ? 85 ? 101? 79 n?1n?2 n1? n2?
由于 12.38>6.635,可以得出产品是否合格与设备改造是有关的。 【变式 2】考察黄烟经过培养液处理与否跟发生青花病的关系。调查了 457 株黄烟,得到下表中数据,请 根据数据作统计分析。 培养液处理 青花病 无青花病 合计 25 80 105 未处理 210 142 352 合计 235 222 457

分析:计算 ? 2 的值与临界值的大小关系。 【答案】根据公式 ? 2 =

457?25? 142 ? 80 ? 210? ≈41.61。 235? 222? 105? 352
2

由于 41.61>6.635,说明经过培养液处理的黄烟跟发生青花病是有关的。 【变式 3】为了研究色盲与性别的关系,调查了 1000 人,调查结果如下表所示: 男 正常 色盲 442 38 女 514 6

根据上述数据试问色盲与性别是否是相互独立的? 【答案】由已知条件可得下表 男 正常 色盲 合计 442 38 480 女 514 6 520 合计 956 44 1000
2

依据公式 ? ?
2

?442? 6 ? 38? 514? =27.139。 1000 n(n11n22 ? n12 n21 )2 2 得? = 956? 44 ? 480? 520 n?1n?2 n1? n2?

由于 27.139>6.635,所以有 99%的把握认为色盲与性别是有关的,从而拒绝原假设,可以认为色盲与性 别不是相互独立的。

第5页

共 10 页

【高清课堂:独立性检验的基本思想及其初步应用 406875 例题 1】 例 3. 对 196 个接受心脏搭桥手术的病人和 196 个接受血管清障手术的病人进行 3 年的跟踪研究,调查他 们是否又发作过心脏病,调查结果如下表所示: 又发作过心脏病 心脏搭桥手术 血管清障手术 合计 39 29 68 未发作过心脏病 157 167 324 合计 196 196 392

试根据上述数据比较这两种手术对病人又发作过心脏病的影响有没有差别. 【思路点拨】先提出假设,然后根据 K 的大小做出准确估计判断。 【解析】 假设病人又发作过心脏病与做过心脏搭桥手术还是血管清障手术没有关系. 由于 a=39,b=157,c=29,d=167,a+b=196,c+d=196,a+c=68,b+d=324,n=392,
2

n(ad ? bc)2 所以 K ? (a ? c)(b ? d )(a ? b)(c ? d )
2

?
2

392 ? (39 ?167 ? 157 ? 29)2 ? 1.779 。 196 ?196 ? 68 ? 324

因为 K ≈1.779<<2.706, 所以不能作出病人又发作过心脏病与做过心脏搭桥手术还是血管清障手术 有关系的结论.即这两种手术对病人又发作过心脏病的影响没有差别. 【总结升华】此类问题的一般解法是利用 K 2 ?

n(ad ? bc)2 2 ,求出 K 的值,再利用与临 (a ? c)(b ? d )(a ? b)(c ? d )

界值的大小关系来判断假设是否成立.在解题时应注意准确代数与计算. 举一反三: 【变式 1】对男女大学生在购买食品时是否看营养说明进行了调查,得到的数据如下表所示: 看营养说明 不看营养说 明 男大学生 女大学生 合 计 23 9 32 32 25 57 55 34 89 ) 合计

利用 2×2 列联表的独立性检验估计看营养说明与性别的关系中准确的是( A.二者一定无关 B.有 95%的把握说二者有关 C.有 99%的把握说二者有关 D.没有理由说二者有关 【答案】D;

89 ? (23 ? 25 ? 32 ? 9)2 ? 2.149 , 由公式得: ? ? 55 ? 34 ? 32 ? 57
2

第6页

共 10 页

因为 2.149<3.841,所以我们没有理由说看营养说明与性别有关。故选 D。 【变式 2】在大连—烟台的某次航运中,出现了恶劣气候。随机调查男、女乘客在船上晕船的情况如 下表所示: 晕船 男人 女人 合计 32 8 40 不晕船 51 24 75 合计 83 32 115

据此资料,你能否认为在恶劣气候中航行时,男人比女人更容易晕船? 【答案】由卡方公式得: ? ?
2

115 ? (32 ? 24 ? 51? 8)2 ? 1.870 。 83 ? 32 ? 40 ? 75

因为 1.870<3.841,所以我们没有理由说晕船跟性别有关。 因此不能认为在恶劣气候中航行时,男人比女人更容易晕船。 注意:解决本题主要运用卡方公式来判断,尽管这次航行中男人晕船比例 但我们不能就此认为在恶劣气候中航行时男人比女人更容易晕船。 类型三、独立性检验的应用 例 4.甲乙两个班级进行一门考试,按照学生考试成绩优秀和不优秀统计成绩后,得到如下的列联表: 班级与成绩列联表 优秀 甲班 乙班 总计 10 7 17 不优秀 35 38 73 总计 45 45 90

32 8 比女人晕船比例 高, 83 32

画出列联表的条形图, 并通过图形判断成绩与班级是否有关; 利用列联表的独立性检验估计, 认为“成 绩与班级有关系”犯错误的概率是多少。 【解析】列联表的条形图如图所示:

第7页

共 10 页

由图及表直观判断,好像“成绩优秀与班级有关系”;由表中数据计算得 K 的观察值为 K ≈0.653>0.455。 由下表中数据 P(K ≥k) k
2 2 2

2

0.50

0.40

0.25

0.15

0.10

0.05

0.025 0.010 0.005

0.001 10.828

0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879

得:P(K ≥0.455)≈0.50, 从而有 50%的把握认为“成绩与班级有关系”,即断言“成绩优秀与班级有关系”犯错误的概率为 0.5。 【总结升华】 (1)画出条形图后,从图形上判断两个分类变量之间是否有关系。这里通过图形的直观感觉的结果 可能会出错。 (2)计算得到 K 的观测值比较小,所以没有理由说明“成绩优秀与班级有关系”。这与反证法也有 类似的地方,在使用反证法证明结论时,假设结论不成立的条件下如果没有推出矛盾,并不能说明结论成 立也不能说明结论不成立。在独立性检验中,在假设“成绩优秀与班级没有关系”的情况下,计算得到的 K 的值比较小,且 P(K ≥0.653)≈0.42,说明事件(K ≥0.653)不是一个小概率事件,这个事件的发生不足 以说明“成绩优秀与班级没有关系”,即没有理由说明“成绩优秀与班级有关系”。这里没有推出小概率 事件发生类似于反证法中没有推出矛盾。 举一反三: 【变式 1】 在调查的 480 名男人中有 38 名患有色盲,520 名女人中有 6 名患有色盲,分别利用图形和独 立性检验的方法来判断色盲与性别是否有关.你所得到的结论在什么范围内有效? 【答案】 根据题目所给的数据作出如下的列联表: 色盲 男 女 合计 38 6 44 不色盲 442 514 956 合计 480 520 1000
2 2 2 2

作出相应的二维条形图,如图所示.由二维条形图可知在男人中患色盲的比例要比在女人中患色盲的比 例

6 38 6 大,其差值 ? ? 0.068 比较大,因而我们可以认为性别与患色盲是有关的; 520 480 520
根据列联表中所给的数据可知: a=38,b=442,c=6,d=514,a+b=480,c+d=520,a+c=44,b+d=956,n=1000, 代入公式 ? ?
2

n(ad ? bc)2 (a ? c)(b ? d )(a ? b)(c ? d )

得? ?
2

1000 ? (38 ? 514 ? 6 ? 442)2 ? 27.1 ,因为 ? 2 ≈27.1>10.828,所以我们有 99.9%的把握认 480 ? 520 ? 44 ? 965
第8页 共 10 页

为性别与患色盲有关系.这个结论只对所调查的 480 名男人和 520 名女人有效. 【变式 2】 某年高考后,某市教育主管部门对该市一重点中学高考上线情况进行统计,随机抽查 244 名学 生,得到如下表格: 语文 上线 总分上线 201 人 总分不上线 43 人 总计 174 30 204 不上线 27 13 40 上线 178 23 201 数学 不上线 23 20 43 上线 176 24 200 英语 不上线 25 19 44 综合科目 上线 175 26 201 不上线 26 17 43

试求各科上线与总分上线之间的关系,并求出哪一科目与总分上线关系最大?
2 2 2 【答案】对于上述四个科目,分别构造四个随机变量 K12 , K 2 , K3 , K4 ,

由表中数据可以得到: 语文: K1 ?
2

244 ? (174 ?13 ? 27 ? 30) 2 ? 7.294 ? 6.635 , 201? 43 ? 204 ? 40

244 ? (178 ? 20 ? 23 ? 23)2 ? 30.008 ? 10.828 , 数学: K ? 201? 43 ? 201? 43
2 2

英语: K3 ?
2

244 ? (176 ?19 ? 25 ? 24)2 ? 24.155 ? 10.828 , 201? 43 ? 200 ? 44
2

综合科目: K 4 ?

244 ? (175 ?17 ? 26 ? 26)2 ? 17.264 ? 10.828 . 201? 43 ? 201? 43

所以,有 99%的把握认为语文上线与总分上线有关系,有 99.9%的把握认为数学、英语、综合科目 上线与总分上线有关系,数学上线与总分上线关系最大. 【变式 3】有甲、乙两个班级进行数学考试,按照大于等于 85 分为优秀,85 分以下为非优秀统计成 绩后,得到如下的列联表. 优秀 甲班 乙班 合计 已知在全部 105 人中随机抽取 1 人为优秀的概率为 (1)请完成上面的列联表; (2)根据列联表的数据,若按 95%的可靠性要求,能否认为“成绩与班级有关系”; (3)若按下面的方法从甲班优秀的学生抽取一人:把甲班优秀的 10 名学生从 2 到 11 进行编号,先后 两次抛掷一枚均匀的骰子,出现的点数之和为被抽取人的序号,试求抽到 6 或 10 号的概率. 【答案】(1) 优秀 甲班 10 非优秀 45 合计 55 10 30 105 非优秀 合计

2 . 7

第9页

共 10 页

乙班 合计 (2)根据列联表中的数据,得到

20 30

30 75

50 105

K2 ?

105 ? (10 ? 30 ? 20 ? 45) 2 ? 6.109 ? 3.841 , 55 ? 50 ? 30 ? 75

因此有 95%的把握认为“成绩与班级有关系”. (3)设“抽到 6 或 10 号”为事件 A,先后两次抛掷一枚均匀的骰子,出现的点数为(x,y). 所有的基本事件有(1,1)、(1,2)、(1,3)、?、(6,6),共 36 个. 事件 A 包含的基本事件有:(1,5)、(2,4)、(3,3)、(4,2)、(5,1)、(4,6)、(5,5)、(6,4),共 8 个, ∴P(A)=

8 2 = . 36 9

第 10 页

共 10 页



更多相关文章:
独立检验的基本思想及其初步应用
教学目标重点:理解独立性检验的基本思想及实施步骤. 难点:独立性检验的基本思想和随机变量 K 的含义. 知识点: 了解独立性检验的基本思想、 方法及初步应用; 会从...
独立性检验的基本思想及其初步应用测试题
独立性检验的基本思想及其初步应用测试题_数学_高中教育_教育专区。独立性检验的...2、B 解析:因为利用独立性原理检验时与样本的选取有关,所以得到的结论可能有...
第三章3.2独立性检验的基本思想及其初步应用习题
第三章3.2独立性检验的基本思想及其初步应用习题_数学...4 解析:选 B.由独立性检验的知识知:K2>3.841 ...同理 不打鼾人群中未患心脏病的比例为 0.98,即...
独立性检验的基本思想及其初步应用教学设计
独立性检验的基本思想及其初步应用教学设计_其它课程_高中教育_教育专区。2014 年...知识与技能:通过对典型案例的探究,了解独立性检验的基本思想,会对两个分类变 ...
1.2.2独立性检验的基本思想及其初步应用(二)(定稿)
1.2 独立性检验的基本思想及其初步应用(二)【学习目标】 1.理解独立性检验的...合计 44 35 79 试用你学过的知识进行分析,能否在犯错误的概率不超过 0.005 ...
1.2 独立性检验的基本思想及其初步应用 教学设计 教案
1.2 独立性检验的基本思想及其初步应用 教学设计 教案。教学准备 1. 教学目标 1、结合生活中的实例了解分类变量的概念,了解列联表和等高条形图的特点 2、通过...
独立性检验的基本思想及其初步应用(第三课时)教案1
独立性检验的基本思想及其初步应用。 (第三课时) 教学目标:1、会用所学知识对具体案例进行检验。 2、从实例中发现问题,提高学习兴趣,激发学习积极性和主动性,不...
3.2独立性检验的基本思想及其初步应用
了解回归的基本思想、 方法及其初步应用. 二. 学习目标 1、知识与技能 通过本节知识的学习, 了解独立性检验的基本思想和初步应用, 能对两个分类变量是否有关 做...
3.2.1独立性检验的基本思想及其初步应用 学案(选修2-3)
3.2.1 《独立性检验的基本思想及其初步应用》学案【学习目标】 1.了解利用列联表、等高条形图来判断两个分类变量之间是否有关系。 2.了解独立性检验的基本思想...
更多相关标签:
独立性检验的基本思想    独立性检验的思想    毛泽东思想初步形成于    毛泽东思想初步形成    毛泽东思想的初步形成    毛泽东思想初步形成在    毛泽东思想的初步形    mmm核心思想讲解    

All rights reserved Powered by 甜梦文库 9512.net

copyright ©right 2010-2021。
甜梦文库内容来自网络,如有侵犯请联系客服。zhit325@126.com|网站地图