9512.net
甜梦文库
当前位置:首页 >> 数学 >>

1.2独立性检验的基本思想及其初步应用(选修1-2.)(第一课时).ppt03


学习目标
1.会列2×2列联表,会画等高条形图 2.会从2×2列联表,等高条形图中直观 的判断出两个分类变量之间是否有关?

3.了解独立性检验的基本思想和步骤

两种变量:
?定量变量:体重、身高、温度、考试成绩等等。 ? 变量 ?分类变量:性别、是否吸烟、是否患肺癌、 ? 宗教信仰、国籍等等。 ?
在日常生活中,我们常常关心分类变量的之间是否有关系

研究两个变量的相关关系:
?定量变量——回归分析(画散点图、相关系数r、 ? 变量 ? 相关指数R 2、残差分析) ?分类变量—— 独立性检验 ?

本节研究的是两个分类变量的独立性检验问题。

对于性别变量, 其取值为男和女两种. 这种变量的不同" 值" 表示个体所属的不同 类 别 , 像这类变量称为 分类变量 .在现实 生活中 , 分类变量是大量存在的 , 例如 是 否吸烟, 宗教信仰,国籍, 等等.
在日常生活中, 我们常常关心两个分类变 量之间是否有关系.例如, 吸烟与肺癌是否 有关系? 性 别对于是否喜欢 数学课 程 有 影响 ? 等等.

探究 为调查吸烟是否对患肺癌有影响 ,某 肿瘤研究所随机地调查了9 965人, 得到如下 结果 (单位 : 人 ) :
表1? 7吸烟与患肺癌列联表

不患肺癌 患肺癌 不吸烟 吸烟 总计 7775 2099 9874 42 49 91

总计 7817 2148 9965

那么吸烟是否对患肺癌有影响?

像表 1 ? 7 这 样列出的两个分类变量的 频数表 , 称为列联表.由吸烟情况和患肺 癌情况的列联 表可以粗略 估计出 : 在不 吸烟者中, 有0.54%患有肺癌; 在吸烟者中, 有2.28 % 患有肺癌.因此, 直观上可以得出 结论 : 吸烟者和不吸 烟者患 肺癌可能存 在差异.

? 列联表 ? ①定义:列出的两个分类变量的 频数表 称 为 列 联表. ? ②2×2列联表 ? 一般地,假设两个分类变量X和Y,它们的取值 分别为 {x1,x2} 和 {y1,y2} ,其样本频数列联表 (也称为2×2列联表)为下表.

与表格相比, 三维柱形图和二维条形图 能更直观地 反映出相关数据的总体状 况.

8000 7000 6000 5000 4000 3000 2000 1000 0

吸烟
患肺癌

不患肺癌

不吸烟

图1.2 ? 1

图1.2 ? 1是列联表的三维柱形图 从中能清晰 , 地看出各个频数的相对大小. 作三维柱形图要注意选择恰当的视角,以使每 个柱体都能看到.

9000 8000 7000 6000 5000 4000 3000 2000 1000 0

不患肺癌

患肺癌

不吸烟

吸烟

图1.2 ? 2

图 1.2 ? 2 是叠在一起的二维条形图 , 其中绿色 条高表示不患肺癌的人数, 黑色条高表示患肺 癌的人数.从图中可以看出, 吸烟者中患肺癌的 比例高于不吸烟者中患肺癌的比例.

1.00 0.90 0.80 0.70 0.60 0.50 0.40 0.30 0.20 0.10 0.00

不吸烟

吸烟

图1.2 ? 3

为了更清晰地表达这个特征, 我们还可用如下的等 高条形图表示两种情况下患肺癌的比例.如图1.2 ? 3 所示 , 在等高条形图中, 绿色的条高表示不患肺癌 的百分比; 黑色的条高表示患肺癌的百分比.

在三维柱形图中,主对角线上两个柱形高度的乘积与 副对角线上两个柱形高度的乘积相差越大, 两个分类变量有关系的可能性就越大.
.等高条形图

等高条形图与表格相比,更能直观地反映出两个 分类变量间是否互相影响 常用等高条形图展示列联表数据的频率特征.

? 1.2×2列联表是传统的调查研究中最常 用的方法之一,用于研究两个变量之间相 互独立还是存在某种关联性,它适用于分 析两个变量之间的关系. ? 2.在实际问题中,判断两个分类变量的 关系的可靠性时,一般利用随机变量K2来 确定,而不利用三维柱形图和二维条形 图.

某企业为了考察同一种产品在甲、乙两条生产线的 产品合格率,同时各抽取100件产品,其中甲线中 合格产品的个数为97,乙线中合格产品的个数为95。 请做出列联表,三维柱形图与二维条形图。

合格
甲生产线 乙生产线 总计 97 95 192

不合格
3 5 8

总计
100 100 200

100 90 80 70 60 50 40 30 20 10 0

甲生产线 乙生产线

合格

不合格

不合格 甲生产线 乙生产线 合格

0

100

200

300

假设H 0:吸烟与患肺癌没有关系
不患肺癌
不吸烟 吸烟 总计

患肺癌

总计

a c a+c

b d b+d

a+b c+d a+b+c+d

假设吸烟与患肺癌没有关系,那么吸烟者中不患肺癌 的比例应该与不吸烟者中相应的比例差不多即

a c ? a?b c?d ad ? bc ? 0

即 a (c ? d ) ? c ( a ? b)

因此 ad ? bc 越小说明吸烟与患肺癌之间关系越弱; 因此 ad ? bc 越大说明吸烟与患肺癌之间关系越强。

独立性检验
首先,假设结论不成立,即 H :两个分类变量没有关系
(在这种假设下k应该很小)

其次,由观测数据计算K 的观测值k, (如果
k很大,则在一定可信程度上说明H 不成立,即两个 分类变量之间有关系)
0

2

最后,根据k的值判断假设是否成立

临界值表:
P ( K 2 ? k0 )

0.10 2.706

0.05 3.841

0.025 5.024

0.010 6.635

0.005 7.879

0.001 10.828

k0

解:假设H 0 : 吸烟与患肺癌没有关系 K 的观测值为
2

9965(7775 ? 49 ? 42 ? 2099) 2 k? ? 56.632 7817 ? 2148 ? 9874 ? 91 根据临界值表可知P ( K 2 ? 10.828) ? 0.001 56.631远大于10.828,所以有理由判断H 0不成立, 所以吸烟与患癌症有关系。
这种判断可能有错误,但是犯错误的不会超过 0.001,这是个小概率时间,我们有99.9%的把 握认为“吸烟与患癌症有关系”

为了是不同样本容量的数据有一个统一的标准, 构造一个随即变量(a,b,c,d均必须大于5) n(ad ? bc)2 K2 ? ,其中n=a+b+c+d为样本容量 (a ? b)(c ? d )(a ? c)(b ? d )

在假设H 0成立的前提下,K 2的观测值k 应该比较小 因此,当k 很小时,说明在一定的可信程度上H 0成立; k 很大时,说明没有充分的证据说明H 0成立。

k大小的标准是什么呢?

临界值k0

当k ? k 0时,含义是有(1-P(K 2 >k0 )) 100%的把握 ? 说明H 0不成立,而这种判断可能出错,出错的概率 不会超过P(K 2 >k 0 ) 当k<k0时,含义是样本数据没有充分的理由证明H 0 不成立

独立性检验基本的思想类似反证法 (1)假设结论不成立,即“两个分类变量没有关系”.
(2)在此假设下随机变量 K2 应该很能小,如果由观测数据
计算得到K2的观测值k很大,则在一定程度上说明假设

不合理.
(3)根据随机变量K2的含义,可以通过 评价该假设不合理的程度,由实际计算出的, 说明假设合理的程度为99.9%,即“两个分类变量有关 系”这一结论成立的可信度为约为99.9%.

在吸烟与患肺病这两个分类变量的计算中,下列说法正确
的是(

c



A、若K的观测值为k=6.635,我们有99%的把握认为吸烟与患 肺病有关系,那么在100个吸烟的人中必有99个患肺病 B、从独立性检验可知有99%的把握认为吸烟与患肺病有关 系时,我们说某人吸烟,那么他有99%的可能患肺病 C、若从统计量中求出有95%的把握认为吸烟与患肺病有关

系,是指有5%的可能性使得推理出现错误
D、以上三种说法都不对

1、理解分类变量,会作列联表及三 维柱形图与二维条形图 2、了解独立性检验的思想


赞助商链接

更多相关文章:
更多相关标签:

All rights reserved Powered by 甜梦文库 9512.net

copyright ©right 2010-2021。
甜梦文库内容来自网络,如有侵犯请联系客服。zhit325@126.com|网站地图