9512.net
甜梦文库
当前位置:首页 >> 数学 >>

1.2独立性检验的思想及应用(一)



1.2独立性检验的 基本思想及其初 步应用(一)

2014-2-21

郑平正

制作

两种变量:
?定量变量:体重、身高、温度、考试成绩等等。 ? 变量 ?分类变量:性别、是否吸烟、是否患肺癌、 ? 宗教信仰、国籍等等。 ?
在日常生活中,我们常常关心分类变量之间是否有关系

: 例如,吸烟是否与患肺癌有关系? 性别是否对于喜欢数学课程有影响?等等。

研究两个变量的相关关系:
?定量变量——回归分析(画散点图、相关系数r、 ? 变量 ? 相关指数R 2、残差分析) ?分类变量—— 独立性检验 ?

本节研究的是两个分类变量的独立性检验问题。
2014-2-21 郑平正 制作

探究

列联表

为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机 地调查了9965人,得到如下结果(单位:人)
吸烟与肺癌列联表
不患肺癌 患肺癌 总计

不吸烟
吸烟 总计

7775
2099 9874

42
49 91

7817
2148 9965

在不吸烟者中患肺癌的比重是 0.54% 在吸烟者中患肺癌的比重是 2.28%
说明:吸烟者和不吸烟者患肺癌的可能性存在差异, 吸烟者患肺癌的可能性大。

通过图形直观判断两个分类变量是否相关:

等高条形图
1 0.9

0.8

0.7

不患肺癌 比例

0.6

0.5

0.4

0.3

0.2

0.1

患肺癌 比例 不吸烟
不吸烟

0

吸烟

吸烟

等高条形图更清晰地表达了两种情况下患肺癌的比例。

上面我们通过分析数据和图形,得到的直观印象是吸 烟和患肺癌有关,那么事实是否真的如此呢?这需要用 统计观点来考察这个问题。
现在想要知道能够以多大的把握认为“吸烟与患肺癌有关”, 为此先假设

H0:吸烟与患肺癌没有关系.
用A表示不吸烟,B表示不患肺癌,则“吸烟与患肺癌没有关系” 等价于“吸烟与患肺癌独立”,即假设H0等价于 P(AB)=P(A)P(B). 把表中的数字用字母代替,得到如下用字母表示的列联表 不吸烟 吸烟 总计
2014-2-21

不患肺癌 a c a+c

患肺癌 b d b+d
郑平正 制作

总计 a+b c+d a+b+c+d

不吸烟 吸烟 总计

不患肺癌 a c a+c

患肺癌 b d b+d

总计 a+b c+d a+b+c+d

a a+b a+c ? ≈ × 其中n = a + b + c + d为样本容量,即 n n n

在表中,a恰好为事件AB发生的频数;a+b和a+c恰好分别为事 件A和B发生的频数。由于频率接近于概率,所以在H0成立的条 件下应该有 P(A) ? a + b , P(B) ? a + c , P(AB) ? a . n n n

(a+b+c+d)a ?(a+b)(a+c), ?

即ad ? bc
因此|ad-bc|越小,说明吸烟与患肺癌之间关系越弱; |ad-bc|越大,说明吸烟与患肺癌之间关系越强。
2014-2-21 郑平正 制作

独立性检验
为了使不同样本容量的数据有统一的评判标准,基于上述分 析,我们构造一个随机变量-----卡方统计量

n(ad ? bc) K ? , (1) (a ? b)(c ? d )(a ? c)(b ? d )
2 2

其中n ? a ? b ? c ? d 为样本容量。
根据表3-7中的数据,利用公式(1)计算得到K2的观测值为:

若 H0成立,即“吸烟与患肺癌没有关系”,则K2应很小。

9965(7775 ? 49 ? 42 ? 2099) k? ? 56.632 7817 ? 2148 ? 9874 ? 91
2
2014-2-21 郑平正 制作 那么这个值到底能告诉我们什么呢?

( 2)

在H0成立的情况下,统计学家估算出如下的概率

即在 H0 成立的情况下, K2 的值大于 6.635 的概率非常小,近似 于0.01。

P( K 2 ? 6.635) ? 0.01.

(2)

也就是说,在H0成立的情况下,对随机变量 K2进行多次观 测,观测值超过6.635的频率约为0.01。

思考
如果K 2 ? 6.635,就断定H 0不成立,这种判断出错的可能性有多大 ?

答:判断出错的概率为0.01。

9965(7775 ? 49 ? 42 ? 2099)2 现在观测值k ? ? 56.632太大了, 7817 ? 2148 ? 9874 ? 91 在H 0成立的情况下能够出现这样的观测值的概率不超过0.01, 因此我们有99%的把握认为H 0不成立,即有99%的把握认为“吸烟
2014-2-21 与患肺癌有关系”。 郑平正 制作

判断 H 0是否成立的规则
如果 k ? 6.635 ,就判断 H 0 不成立,即认为吸烟与 患肺癌有关系;否则,就判断 H 0 成立,即认为吸烟 与患肺癌有关系。
H0 在该规则下,把结论“H 0 成立”错判成“ 2 P( K ? 6.635) ? 0.01, 成立”的概率不会差过 即有99%的把握认为 H 0不成立。



独立性检验的定义
上面这种利用随机变量K2来确定在多大程度上 可以认为“两个分类变量有关系”的方法,称为两 个分类变量的独立性检验。
2014-2-21 郑平正 制作

独立性检验的基本思想(类似反证法)
(1)假设结论不成立,即 H 0 :“两个分类变量没有关系”. (2)在此假设下我们所构造的随机变量 K2 应该很小,如果由 观测数据计算得到K2的观测值k很大,则在一定可信程度上 说明 H 0 不成立.即在一定可信程度上认为“两个分类变量 有关系”;如果k的值很小,则说明由样本观测数据没有发现 反对 H 0 的充分证据。
(3)根据随机变量K2的含义,可以通过评价该假设不合理的 程度,由实际计算出的,说明假设合理的程度为99%,即“两 个分类变量有关系”这一结论成立的可信度为约为99%.

怎样判断K2的观测值k是大还是小呢?
这仅需要确定一个正数 k 0 ,当 k ? k0 时就认为K2的观测 值 k大。此时相应于 k 0 的判断规则为: 如果 k ? k0 ,就认为“两个分类变量之间有关系”;否则 就认为“两个分类变量之间没有关系”。 k ----临界值
0

按照上述规则,把“两个分类变量之间有没关系”错误的判断 2 为“两个分类变量之间有关系”的概率为 ). KP( ?k
0

在实际应用中,我们把 k ? k0解释为有(1 ? P( K 2 ? k )) ?100% 的把握认为“两个分类变量之间有关系”;把 k ? k0 解释为 不能以 (1 ? P( K 2 ? k )) ?100% 的把握认为“两个分类变量 之间有关系”,或者样本观测数据没有提供“两个分类变量 之间有关系”的充分证据。
2014-2-21 郑平正 制作

思考:
利用上面的结论,你能从列联表的三维柱形图中 看出两个分类变量是否相关呢? 一般地,假设有两个分类变量 X 和 Y ,它们的值域 分别为 {x1,x2} 和 {y1,y2},其样本频数列联表(称为 2x2 列 联表)为: 表1-11 2x2联表
x1 x2 总计
2014-2-21

y1 a c a+c
郑平正

y2 b d b+d
制作

总计 a+b c+d a+b+c+d

若要判断的结论为: H1 :“ X 与 Y 有关系”,可以 按如下步骤判断H1成立的可能性: 1、通过三维柱形图和二维条形图,可以粗略地判断两个变
量是否有关系,但是这种判断无法精确地给出所得结论的可靠 程度。 (1)在三维柱形图中, 主对角线上两个柱形高度的乘积 ad与副对角线上两个柱形高度的乘积 bc相差越大,H1成立的 可能性就越大。 a a?b c (2)在二维条形图中 ,可以估计满足条件 X=x1的个体中具 a c?d 有Y=y1的个体所占的比例 ,也可以估计满足条件X=x2 a?b c 的个体中具有Y=y1的个体所占的比例c ? d 。两个比例相差越 大,H1成立的可能性就越大。

2、可以利用独立性检验来考察两个分类变量是否有关系,并
且能较精确地给出这种判断的可靠程度。
2014-2-21 郑平正 制作

具体作法是: (1)根据实际问题需要的可信程度确定临界值 k 0; (2)利用公式(1),由观测数据计算得到随机变量 K 2 的观测值; (3)如果 k ? k0 ,就以 (1 ? P( K ? k0 )) ?100%的把握认为“X 与Y有关系”;否则就说样本观测数据没有提供“X与Y有关系” 的充分证据。
2

在实际应用中,要在获取样本数据之前通过下表确定临界值:
P(K 2 ? k0 )

k0
P(K 2 ? k0 )

0.50 0.40 0.25 0.15 0.455 0.708 1.323 2.072 0.05 0.025 0.010 0.005 3.841 5.024 6.636 7.879
郑平正 制作

0.10 2.706 0.001 10.828

k0
2014-2-21

例1.在500人身上试验某种血清预防感冒作用,把他们一年中 的感冒记录与另外500名未用血清的人的感冒记录作比较,结 果如表所示。
未感冒 使用血清 未使用血清 合计 252 224 476 感冒 248 276 524 合计 500 500 1000

试画出列联表的条形图,并通过图形判断这种血清能否起到预 防感冒的作用?并进行独立性检验。

2014-2-21

郑平正

制作



更多相关文章:
1.2独立性检验的基本思想及其应用54
1.2独立性检验的基本思想及其应用54_数学_高中教育_教育专区。※高二文科班数学课堂学习单 54※ 班级 姓名 小组 1.2 独立性检验的基本思想及其应用 54 一,学习...
1.2独立性检验的基本思想及其应用1课时
1.2独立性检验的基本思想及其应用第1课时_数学_高中教育_教育专区。巴东一中高二年级数学组 §1.2 独立性检验的基本思想及其应用(一)【学情分析】 :在实际的问...
1.2独立性检验的基本思想及其初步应用
覃振宇 审稿人:高二数学科组 定稿日:2013 年 02 月 20 日 课题:1.2 独立性检验的基本思想及其初步应用(人教 A 版数学新课标教材选修 1-2 第一章 1.2)...
1.2独立性检验的基本思想及其初步应用
1.2《独立性检验的基本思想及其初步应用》_高三数学_数学_高中教育_教育专区。1.2 独立性检验的基本思想及其初步应用 基础梳理 1.分类变量的定义. 如果某种变量...
(教案)1.2独立性检验的基本思想及其初步应用
(教案)1.2独立性检验的基本思想及其初步应用_高二数学_数学_高中教育_教育专区。1.2 独立性检验的基本思想及其初步应用例题: 1.三维柱形图中柱的高度表示的是(...
1.2 独立性检验的基本思想及其初步应用
高二数学导学案 编制: 审核: 审批: 班级: 小组: 姓名: 等级: 1.2 独立性检验的基本思想及其初步应用【学习目标】 1.了解独立性检验(只要求 2×2 列联表)...
1.2 独立性检验的基本思想及其初步应用(1)
1.2 独立性检验的基本思想及其初步应用(1)_其它课程_高中教育_教育专区。高效课堂导学案(包含预习案、探究案和训练案)高二导学案 班级 【学习目标】 学科:数学 ...
1.2独立性检验的基本思想及其初步应用(两节)_图文
1.2独立性检验的基本思想及其初步应用(两节)_高二数学_数学_高中教育_教育专区。2016-2017 学年第二学期高二年级数学学科教案 主备人:齐曼古丽.亚库甫阿吉所在...
1.2 独立性检验的基本思想及其初步应用 教学设计 教案
[2] 新知应用 【师】为了深刻的理解独立性检验思想和在生活中的应用,我们来看下列一个 问题 【板书/PPT】 例 2 在某医院,因为患心脏病而住院的 665 名男性...
1.2.1独立性检验的基本思想及其初步应用(一)(定稿)
编写:郭道俊 审核: 编号:04 教师评价: 1.2 独立性检验的基本思想及其初步应用(一)【学习目标】 1.先直观感知然后计算“独立性检验参数”随机变量K2(=k)。 2...
更多相关标签:

All rights reserved Powered by 甜梦文库 9512.net

copyright ©right 2010-2021。
甜梦文库内容来自网络,如有侵犯请联系客服。zhit325@126.com|网站地图