9512.net
甜梦文库
当前位置:首页 >> 数学 >>

1.2独立性检验的思想及应用(一)



1.2独立性检验的 基本思想及其初 步应用(一)

2014-2-21

郑平正

制作

两种变量:
?定量变量:体重、身高、温度、考试成绩等等。 ? 变量 ?分类变量:性别、是否吸烟、是否患肺癌、 ? 宗教信仰、国籍等等。 ?
在日常生活中,我们常常关心分类变量之间是否有关系

: 例如,吸烟是否与患肺癌有关系? 性别是否对于喜欢数学课程有影响?等等。

研究两个变量的相关关系:
?定量变量——回归分析(画散点图、相关系数r、 ? 变量 ? 相关指数R 2、残差分析) ?分类变量—— 独立性检验 ?

本节研究的是两个分类变量的独立性检验问题。
2014-2-21 郑平正 制作

探究

列联表

为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机 地调查了9965人,得到如下结果(单位:人)
吸烟与肺癌列联表
不患肺癌 患肺癌 总计

不吸烟
吸烟 总计

7775
2099 9874

42
49 91

7817
2148 9965

在不吸烟者中患肺癌的比重是 0.54% 在吸烟者中患肺癌的比重是 2.28%
说明:吸烟者和不吸烟者患肺癌的可能性存在差异, 吸烟者患肺癌的可能性大。

通过图形直观判断两个分类变量是否相关:

等高条形图
1 0.9

0.8

0.7

不患肺癌 比例

0.6

0.5

0.4

0.3

0.2

0.1

患肺癌 比例 不吸烟
不吸烟

0

吸烟

吸烟

等高条形图更清晰地表达了两种情况下患肺癌的比例。

上面我们通过分析数据和图形,得到的直观印象是吸 烟和患肺癌有关,那么事实是否真的如此呢?这需要用 统计观点来考察这个问题。
现在想要知道能够以多大的把握认为“吸烟与患肺癌有关”, 为此先假设

H0:吸烟与患肺癌没有关系.
用A表示不吸烟,B表示不患肺癌,则“吸烟与患肺癌没有关系” 等价于“吸烟与患肺癌独立”,即假设H0等价于 P(AB)=P(A)P(B). 把表中的数字用字母代替,得到如下用字母表示的列联表 不吸烟 吸烟 总计
2014-2-21

不患肺癌 a c a+c

患肺癌 b d b+d
郑平正 制作

总计 a+b c+d a+b+c+d

不吸烟 吸烟 总计

不患肺癌 a c a+c

患肺癌 b d b+d

总计 a+b c+d a+b+c+d

a a+b a+c ? ≈ × 其中n = a + b + c + d为样本容量,即 n n n

在表中,a恰好为事件AB发生的频数;a+b和a+c恰好分别为事 件A和B发生的频数。由于频率接近于概率,所以在H0成立的条 件下应该有 P(A) ? a + b , P(B) ? a + c , P(AB) ? a . n n n

(a+b+c+d)a ?(a+b)(a+c), ?

即ad ? bc
因此|ad-bc|越小,说明吸烟与患肺癌之间关系越弱; |ad-bc|越大,说明吸烟与患肺癌之间关系越强。
2014-2-21 郑平正 制作

独立性检验
为了使不同样本容量的数据有统一的评判标准,基于上述分 析,我们构造一个随机变量-----卡方统计量

n(ad ? bc) K ? , (1) (a ? b)(c ? d )(a ? c)(b ? d )
2 2

其中n ? a ? b ? c ? d 为样本容量。
根据表3-7中的数据,利用公式(1)计算得到K2的观测值为:

若 H0成立,即“吸烟与患肺癌没有关系”,则K2应很小。

9965(7775 ? 49 ? 42 ? 2099) k? ? 56.632 7817 ? 2148 ? 9874 ? 91
2
2014-2-21 郑平正 制作 那么这个值到底能告诉我们什么呢?

( 2)

在H0成立的情况下,统计学家估算出如下的概率

即在 H0 成立的情况下, K2 的值大于 6.635 的概率非常小,近似 于0.01。

P( K 2 ? 6.635) ? 0.01.

(2)

也就是说,在H0成立的情况下,对随机变量 K2进行多次观 测,观测值超过6.635的频率约为0.01。

思考
如果K 2 ? 6.635,就断定H 0不成立,这种判断出错的可能性有多大 ?

答:判断出错的概率为0.01。

9965(7775 ? 49 ? 42 ? 2099)2 现在观测值k ? ? 56.632太大了, 7817 ? 2148 ? 9874 ? 91 在H 0成立的情况下能够出现这样的观测值的概率不超过0.01, 因此我们有99%的把握认为H 0不成立,即有99%的把握认为“吸烟
2014-2-21 与患肺癌有关系”。 郑平正 制作

判断 H 0是否成立的规则
如果 k ? 6.635 ,就判断 H 0 不成立,即认为吸烟与 患肺癌有关系;否则,就判断 H 0 成立,即认为吸烟 与患肺癌有关系。
H0 在该规则下,把结论“H 0 成立”错判成“ 2 P( K ? 6.635) ? 0.01, 成立”的概率不会差过 即有99%的把握认为 H 0不成立。



独立性检验的定义
上面这种利用随机变量K2来确定在多大程度上 可以认为“两个分类变量有关系”的方法,称为两 个分类变量的独立性检验。
2014-2-21 郑平正 制作

独立性检验的基本思想(类似反证法)
(1)假设结论不成立,即 H 0 :“两个分类变量没有关系”. (2)在此假设下我们所构造的随机变量 K2 应该很小,如果由 观测数据计算得到K2的观测值k很大,则在一定可信程度上 说明 H 0 不成立.即在一定可信程度上认为“两个分类变量 有关系”;如果k的值很小,则说明由样本观测数据没有发现 反对 H 0 的充分证据。
(3)根据随机变量K2的含义,可以通过评价该假设不合理的 程度,由实际计算出的,说明假设合理的程度为99%,即“两 个分类变量有关系”这一结论成立的可信度为约为99%.

怎样判断K2的观测值k是大还是小呢?
这仅需要确定一个正数 k 0 ,当 k ? k0 时就认为K2的观测 值 k大。此时相应于 k 0 的判断规则为: 如果 k ? k0 ,就认为“两个分类变量之间有关系”;否则 就认为“两个分类变量之间没有关系”。 k ----临界值
0

按照上述规则,把“两个分类变量之间有没关系”错误的判断 2 为“两个分类变量之间有关系”的概率为 ). KP( ?k
0

在实际应用中,我们把 k ? k0解释为有(1 ? P( K 2 ? k )) ?100% 的把握认为“两个分类变量之间有关系”;把 k ? k0 解释为 不能以 (1 ? P( K 2 ? k )) ?100% 的把握认为“两个分类变量 之间有关系”,或者样本观测数据没有提供“两个分类变量 之间有关系”的充分证据。
2014-2-21 郑平正 制作

思考:
利用上面的结论,你能从列联表的三维柱形图中 看出两个分类变量是否相关呢? 一般地,假设有两个分类变量 X 和 Y ,它们的值域 分别为 {x1,x2} 和 {y1,y2},其样本频数列联表(称为 2x2 列 联表)为: 表1-11 2x2联表
x1 x2 总计
2014-2-21

y1 a c a+c
郑平正

y2 b d b+d
制作

总计 a+b c+d a+b+c+d

若要判断的结论为: H1 :“ X 与 Y 有关系”,可以 按如下步骤判断H1成立的可能性: 1、通过三维柱形图和二维条形图,可以粗略地判断两个变
量是否有关系,但是这种判断无法精确地给出所得结论的可靠 程度。 (1)在三维柱形图中, 主对角线上两个柱形高度的乘积 ad与副对角线上两个柱形高度的乘积 bc相差越大,H1成立的 可能性就越大。 a a?b c (2)在二维条形图中 ,可以估计满足条件 X=x1的个体中具 a c?d 有Y=y1的个体所占的比例 ,也可以估计满足条件X=x2 a?b c 的个体中具有Y=y1的个体所占的比例c ? d 。两个比例相差越 大,H1成立的可能性就越大。

2、可以利用独立性检验来考察两个分类变量是否有关系,并
且能较精确地给出这种判断的可靠程度。
2014-2-21 郑平正 制作

具体作法是: (1)根据实际问题需要的可信程度确定临界值 k 0; (2)利用公式(1),由观测数据计算得到随机变量 K 2 的观测值; (3)如果 k ? k0 ,就以 (1 ? P( K ? k0 )) ?100%的把握认为“X 与Y有关系”;否则就说样本观测数据没有提供“X与Y有关系” 的充分证据。
2

在实际应用中,要在获取样本数据之前通过下表确定临界值:
P(K 2 ? k0 )

k0
P(K 2 ? k0 )

0.50 0.40 0.25 0.15 0.455 0.708 1.323 2.072 0.05 0.025 0.010 0.005 3.841 5.024 6.636 7.879
郑平正 制作

0.10 2.706 0.001 10.828

k0
2014-2-21

例1.在500人身上试验某种血清预防感冒作用,把他们一年中 的感冒记录与另外500名未用血清的人的感冒记录作比较,结 果如表所示。
未感冒 使用血清 未使用血清 合计 252 224 476 感冒 248 276 524 合计 500 500 1000

试画出列联表的条形图,并通过图形判断这种血清能否起到预 防感冒的作用?并进行独立性检验。

2014-2-21

郑平正

制作



更多相关文章:
1.2独立性检验的基本思想及其应用第2课时
巴东一中高二年级数学组 §1.2 独立性检验的基本思想及其应用(二)【学情分析】 :在实际的问题中,经常会面临需要推断的问题,比如研制一种新药,需要推断此药是否...
(教案)1.2独立性检验的基本思想及其初步应用
(教案)1.2独立性检验的基本思想及其初步应用_高二数学_数学_高中教育_教育专区...教学难点 教学过程: 教学过程 教学过程: 教学过程 复习准备: 一、复习准备 ...
1.2独立性检验的基本思想及其应用54
1.2独立性检验的基本思想及其应用54_数学_高中教育_教育专区。※高二文科班数学课堂学习单 54※ 班级 姓名 小组 1.2 独立性检验的基本思想及其应用 54 一,学习...
1.2独立性检验的基本思想及其应用1课时
1.2独立性检验的基本思想及其应用第1课时_数学_高中教育_教育专区。巴东一中高二年级数学组 §1.2 独立性检验的基本思想及其应用(一)【学情分析】 :在实际的问...
1.2 独立性检验的基本思想及其初步应用(1)
1.2 独立性检验的基本思想及其初步应用(1)_其它课程_高中教育_教育专区。高效...准备课上讨论质疑.探究案和训练案留在课中完成. 预习案一、问题导学 1.什么...
1.2 独立性检验的基本思想及其初步应用
高二数学导学案 编制: 审核: 审批: 班级: 小组: 姓名: 等级: 1.2 独立性检验的基本思想及其初步应用【学习目标】 1.了解独立性检验(只要求 2×2 列联表)...
1.2独立性检验的基本思想及其初步应用
覃振宇 审稿人:高二数学科组 定稿日:2013 年 02 月 20 日 课题:1.2 独立性检验的基本思想及其初步应用(人教 A 版数学新课标教材选修 1-2 第一章 1.2)...
1.2 独立性检验的基本思想及其初步应用(2)
1.2 独立性检验的基本思想及其初步应用(2)_其它课程_高中教育_教育专区。高效....三、预习自测 1.如果由一个 2× 2 列联表中的数据计算得犯错概率不超过 ...
1.2独立性检验的基本思想及其初步应用
1.2 独立性检验的基本思想及其初步应用 P(k ≥k0) k0 2 达标训练: 1、甲乙两个班级进行一门课程的考试,按照学生考试成绩优秀和不优秀统计成绩后,得到如下 的...
1.2独立性检验的基本思想及其初步应用学案
1.2独立性检验的基本思想及其初步应用学案_其它课程_高中教育_教育专区 暂无评价|0人阅读|0次下载 1.2独立性检验的基本思想及其初步应用学案_其它课程_高中教育_...
更多相关标签:
独立性检验的基本思想    独立性检验 基本思想    1 2独立性检验    1.1独立性检验    独立性检验    卡方独立性检验    独立性检验高考题    列联表独立性检验    

All rights reserved Powered by 甜梦文库 9512.net

copyright ©right 2010-2021。
甜梦文库内容来自网络,如有侵犯请联系客服。zhit325@126.com|网站地图