9512.net
甜梦文库
当前位置:首页 >> 高二数学 >>

3.2独立性检验的基本思想及其初步应用(一)1



3.2独立性检验的 独立性检验的 基本思想及其初 步应用( 步应用(一)
高二数学 选修2-3

第三章

统计案例

两种变量:
定量变量:体重、身高、温度、考试成绩等等。 ?定量变量:体重、身高、温度、考试成绩等等。 ? 分类变量:性别、是否吸烟、是否患肺癌、 变量 ?分类变量:性别、是否吸烟、是否患肺癌、 ? 宗教信仰、国籍等等。 宗教信仰、国籍等等。 ?
在日常生活中,我们常常关心分类变量之间是否有关系: 在日常生活中,我们常常关心分类变量之间是否有关系: 分类变量之间是否有关系 例如,吸烟是否与患肺癌有关系? 例如,吸烟是否与患肺癌有关系? 性别是否对于喜欢数学课程有影响?等等。 性别是否对于喜欢数学课程有影响?等等。

研究两个变量的相关关系:
定量变量——回归分析(画散点图、相关系数r ——回归分析 ?定量变量——回归分析(画散点图、相关系数r、 ? 相关指数R 残差分析) 变量 ? 相关指数R 2、残差分析) ?分类变量—— 独立性检验 ?分类变量——

本节研究的是两个分类变量的独立性检验问题。

探究

列联表

为了调查吸烟是否对肺癌有影响, 为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机 地调查了9965 9965人 得到如下结果(单位: 地调查了9965人,得到如下结果(单位:人)
吸烟与肺癌列联表 不患肺癌 不吸烟 吸烟 总计 7775 2099 9874 患肺癌 42 49 91 总计 7817 2148 9965

在不吸烟者中患肺癌的比重是 在吸烟者中患肺癌的比重是

0.54% 2.28%

说明:吸烟者和不吸烟者患肺癌的可能性存在差异, 说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患 肺癌的可能性大。 肺癌的可能性大。

通过图形直观判断两个分类变量是否相关: 1、列联表 2、三维柱形图
不吸烟 吸烟 总计 不患肺癌 7775 2099 9874 患肺癌 42 49 91 总计 7817 2148 9965

3、二维条形图
8000 7000 6000 5000 4000 不患肺癌 患肺癌

不吸烟 吸烟 不患肺癌 患肺癌

3000 2000 1000

0 从三维柱形图能清晰看出 各个频数的相对大小。 各个频数的相对大小。

不吸烟

吸烟

从二维条形图能看出, 从二维条形图能看出,吸烟者中 患肺癌的比例高于不患肺癌的比例。 患肺癌的比例高于不患肺癌的比例。

4、等高条形图
1 0.9

0.8

患肺癌 比例

0.7

0.6

0.5

0.4

0.3

0.2

不患肺癌 比例
不不不 不不

0.1

0

不吸烟

吸烟

等高条形图更清晰地表达了两种情况下患肺癌的比例。

上面我们通过分析数据和图形, 上面我们通过分析数据和图形,得到的直观印象是吸烟和 患肺癌有关,那么事实是否真的如此呢? 患肺癌有关 , 那么事实是否真的如此呢 ? 这需要用统计观点 来考察这个问题。 来考察这个问题。 现在想要知道能够以多大的把握认为“吸烟与患肺癌有关” 现在想要知道能够以多大的把握认为“吸烟与患肺癌有关”, 为此先假设

H0:吸烟与患肺癌没有关系 吸烟与患肺癌没有关系.
表示不吸烟, 表示不患肺癌 表示不患肺癌, 吸烟与患肺癌没有关系” 用A表示不吸烟,B表示不患肺癌,则“吸烟与患肺癌没有关系” 表示不吸烟 等价于“吸烟与患肺癌独立” 等价于“吸烟与患肺癌独立”,即假设H0等价于 P(AB)=P(A)P(B). 把表中的数字用字母代替, 把表中的数字用字母代替,得到如下用字母表示的列联表 不患肺癌 a c a+c 患肺癌 b d b+d 总计 a+b c+d a+b+c+d

不吸烟 吸烟 总计

不吸烟 吸烟 总计

不患肺癌 a c a+c

患肺癌 b d b+d

总计 a+b c+d a+b+c+d

在表中, 恰好为事件 发生的频数; 恰好为事件AB发生的频数 在表中,a恰好为事件 发生的频数;a+b和a+c恰好分别为事 和 恰好分别为事 发生的频数。 件A和B发生的频数。由于频率接近于概率,所以在 0成立的条 和 发生的频数 由于频率接近于概率,所以在H 件下应该有 P(A) ≈ a + b , P(B) ≈ a + c , P(AB) ≈ a . n n n

a a+b a+c ∴ ≈ × 其中n = a + b + c + d为样本容量,即 n n n

(a+b+c+d)a ≈(a+b)?(a+c),

即ad ≈ bc
因此|ad-bc|越小,说明吸烟与患肺癌之间关系越弱; 越小,说明吸烟与患肺癌之间关系越弱; 因此 越小 |ad-bc|越大,说明吸烟与患肺癌之间关系越强。 越大,说明吸烟与患肺癌之间关系越强。 越大

独立性检验
为了使不同样本容量的数据有统一的评判标准, 为了使不同样本容量的数据有统一的评判标准,基于上述分 我们构造一个随机变量-----卡方统计量 析,我们构造一个随机变量

n(ad ? bc) , (1) K = ) (a + b)(c + d)(a + c)(b + d)
2 2

其中n = a + b + c + d为样本容量。
成立, 吸烟与患肺癌没有关系” 应很小。 若 H0成立,即“吸烟与患肺癌没有关系”,则K2应很小。
根据表3-7中的数据,利用公式( )计算得到K 的观测值为: 根据表 中的数据,利用公式(1)计算得到 2的观测值为: 中的数据

9965(7775×49 ? 42× 2099) k= ≈ 56.632 7817× 2148×9874×91
2

(2) )

那么这个值到底能告诉我们什么呢? 那么这个值到底能告诉我们什么呢?

成立的情况下, 在H0成立的情况下,统计学家估算出如下的概率 即在H 成立的情况下, 的值大于6.635的概率非常小, 近似 的概率非常小, 即在 0 成立的情况下 , K2 的值大于 的概率非常小 于0.01。 。 也就是说, 成立的情况下,对随机变量K 也就是说,在H0成立的情况下,对随机变量 2进行多次观 观测值超过6.635的频率约为 的频率约为0.01。 测,观测值超过 的频率约为 。

P(K2 ≥ 6.635) ≈ 0.01.

(2)

思考
如果K 2 ≥ 6.635,就断定H 0不成立,这种判断出错的可能性有多大 ?

答:判断出错的概率为0.01。
9965(7775× 49 ? 42× 2099)2 ≈ 56.632太大了, 太大了, 现在观测值k = 7817× 2148×9874×91 成立的情况下能够出现这样的观测值的概率不超过0 01, 在H0成立的情况下能够出现这样的观测值的概率不超过0.01, 因此我们有99% 不成立,即有99 的把握认为“ 99% 因此我们有99%的把握认为H0不成立,即有99%的把握认为“吸烟 99 与患肺癌有关系” 与患肺癌有关系”。

判断 H0是否成立的规则
不成立, 如果 k ≥ 6.635 ,就判断 H 0 不成立,即认为吸烟与 患肺癌有关系;否则, 成立, 患肺癌有关系;否则,就判断 H 0 成立,即认为吸烟 与患肺癌有关系。 与患肺癌有关系。

H0 在该规则下,把结论“ 成立”错判成“ 在该规则下,把结论“H 0 成立”错判成“ 2 P( 成立” 成立”的概率不会差过K ≥ 6.635) ≈ 0.01, 即有99%的把握认为 H 0不成立。 即有 的把握认为 不成立。



独立性检验的定义
上面这种利用随机变量K 上面这种利用随机变量 2来确定在多大程度上 可以认为“两个分类变量有关系”的方法, 可以认为“两个分类变量有关系”的方法,称为两 个分类变量的独立性检验 独立性检验。 个分类变量的独立性检验。

独立性检验的基本思想(类似反证法) 独立性检验的基本思想(类似反证法) 反证法
(1)假设结论不成立, (1)假设结论不成立,即 H 0 : “两个分类变量没有关系”. 假设结论不成立 (2)在此假设下我们所构造的随机变量 应该很小, (2)在此假设下我们所构造的随机变量 K2 应该很小,如果由 的观测值k很大, 观测数据计算得到K2的观测值k很大,则在一定可信程度上 不成立.即在一定可信程度上认为“ 说明 H 0 不成立.即在一定可信程度上认为“两个分类变量 有关系” 如果k的值很小, 有关系”;如果k的值很小,则说明由样本观测数据没有发现 反对 0 的充分证据。 H 的充分证据。 (3)根据随机变量K 的含义, (3)根据随机变量K2的含义,可以通过评价该假设不合理的 根据随机变量 程度,由实际计算出的,说明假设不合理的程度为1%, 1%,即 程度,由实际计算出的,说明假设不合理的程度为1%,即“两 个分类变量有关系”这一结论成立的可信度为约为99%. 个分类变量有关系”这一结论成立的可信度为约为99%.

的观测值k是大还是小呢 是大还是小呢? 怎样判断K2的观测值 是大还是小呢?
这仅需要确定一个正数 k0 ,当 k ≥ k0 时就认为K2的观测 的判断规则为: 值 k大。此时相应于 k0 的判断规则为: 大
0

就认为“两个分类变量之间有关系” 如果 k ≥ k0 ,就认为“两个分类变量之间有关系”;否则 就认为“两个分类变量之间没有关系” ----临界值 就认为“两个分类变量之间没有关系”。 临界值 k

按照上述规则,把“两个分类变量之间没有关系”错误的判断 按照上述规则, 两个分类变量之间没有关系” 两个分类变量之间有关系”的概率为P( ). 为“两个分类变量之间有关系”的概率为 2 ≥ k K
0

在实际应用中, 在实际应用中,我们把 k ≥ k0解释为有(1 ? P( K 2 ≥ k )) × 100% 的把握认为“两个分类变量之间有关系”;把 < k0 解释为 的把握认为“两个分类变量之间有关系” k 的把握认为“ 不能以 ? P( K 2 ≥ k )) ×100% 的把握认为“两个分类变量 (1 之间有关系” 或者样本观测数据没有提供“ 之间有关系”,或者样本观测数据没有提供“两个分类变量 之间有关系”的充分证据。 之间有关系”的充分证据。

思考: 思考:
利用上面的结论, 利用上面的结论,你能从列联表的三维柱形图中 看出两个分类变量是否相关呢? 看出两个分类变量是否相关呢? 一般地, 假设有两个分类变量X和 , 一般地 , 假设有两个分类变量 和 Y, 它们的值域 分别为{x 其样本频数列联表( 分别为 1,x2}和{y1,y2},其样本频数列联表 ( 称为 和 其样本频数列联表 称为2x2列 列 联表) 联表)为: 表1-11 2x2联表 联表
x1 x2 总计 y1 a c a+c y2 b d b+d 总计 a+b c+d a+b+c+d

若要判断的结论为:H1 :“X与Y有关系”,可以 按如下步骤判断H1成立的可能性: 1、 通过三维柱形图和二维条形图 , 可以粗略地判断两个变 通过三维柱形图和二维条形图,
量是否有关系,但是这种判断无法精确地给出所得结论的可靠 量是否有关系 但是这种判断无法精确地给出所得结论的可靠 程度。 程度。 (1)在三维柱形图中, 主对角线上两个柱形高度的乘积 )在三维柱形图中, ad与副对角线上两个柱形高度的乘积 相差越大,H1成立的 与副对角线上两个柱形高度的乘积bc相差越大 与副对角线上两个柱形高度的乘积 相差越大, 可能性就越大。 可能性就越大。 a a+b c 可以估计满足条件X=x1的个体中具 (2)在二维条形图中 可以估计满足条件 )在二维条形图中,可以估计满足条件 a c+d 也可以估计满足条件X=x2 有Y=y1的个体所占的比例 a + b ,也可以估计满足条件 c 的个体中具有Y=y1的个体所占的比例c + d 。两个比例相差越 的个体中具有 成立的可能性就越大。 大,H1成立的可能性就越大。

2、可以利用独立性检验来考察两个分类变量是否有关系 ,并 可以利用独立性检验来考察两个分类变量是否有关系,
且能较精确地给出这种判断的可靠程度。 且能较精确地给出这种判断的可靠程度。

具体作法是: 具体作法是: (1)根据实际问题需要的可信程度确定临界值 k0; 根据实际问题需要的可信程度确定临界值 (2)利用公式 ,由观测数据计算得到随机变量 K 2 的观测值; 利用公式(1), 的观测值; 利用公式 (3)如果 k > k0 ,就以 (1 ? P ( K ≥ k0 )) × 100%的把握认为“X 如果 的把握认为“ 有关系” 否则就说样本观测数据没有提供“ 与 有关系 有关系” 与Y有关系”;否则就说样本观测数据没有提供“X与Y有关系” 有关系 的充分证据。 的充分证据。
2

在实际应用中,要在获取样本数据之前通过下表确定临界值: 在实际应用中,要在获取样本数据之前通过下表确定临界值:
P(K 2 ≥ k0 )

k0
P(K 2 ≥ k0 )

0.50 0.40 0.25 0.15 0.455 0.708 1.323 2.072 0.05 0.025 0.010 0.005 3.841 5.024 6.636 7.879

0.10 2.706 0.001 10.828

k0



更多相关文章:
1.2独立性检验的基本思想及其初步应用
1.2独立性检验的基本思想及其初步应用》_高三数学_数学_高中教育_教育专区。...3.某高校“统计初步”课程的教师随机调查了选修该课程的一 些学生情况,具体数据...
1.2 独立性检验的基本思想及其初步应用 教学设计 教案
教学目标 1、结合生活中的实例了解分类变量的概念,了解列联表和等高条形图的特点 2、通过实例,让学生了解独立性性检验的基本思想及其初步应用 3、理解独立性检验...
3.2 独立性检验的基本思想及其初步应用 学案(人教A版选...
3.2 独立性检验的基本思想及其初步应用 学案(人教A版选修2-3) (1)_数学_高中教育_教育专区。数学基础模块 上册 1.1.1 集合的概念【教学目标】 1. 初步...
独立性检验的基本思想及其初步应用测试题
独立性检验的基本思想及其初步应用河北乐亭一中 李金泉 邮编:063600 练习一一、选择题 1.下面是一个 2×2 列联表 y1 x1 x2 总计 a 2 b y2 21 25 46 ...
(教案)1.2独立性检验的基本思想及其初步应用
第一课时 1.2 独立性检验的基本思想及其初步应用(一) (共 2 课时) 教学...第三步:查表得出结论 P(k2>k) 0.50 0.40 0.25 0.15 0.10 0.05 0....
2016_2017学年高中数学3.2独立性检验的基本思想及其初步应用学案_...
2016_2017学年高中数学3.2独立性检验的基本思想及其初步应用学案_数学_高中教育_教育专区。3.2 独立性检验的基本思想及其初步应用 1.了解分类变量、2×2 列联表...
...三章3.2独立性检验的基本思想及其初步应用
高中数学必修2-3第三章3.2独立性检验的基本思想及其初步应用_数学_高中教育_教育专区。3.2 独立性检验的基本思想及其初步应用 1.问题导航 (1)分类变量的概念是...
《1.2独立性检验的基本思想及其初步应用(一)》教学案2
《1.2独立性检验的基本思想及其初步应用(一)》教学案2_高二数学_数学_高中教育_教育专区。《1.2独立性检验的基本思想及其初步应用(一)》教学案2 教学目标 通过...
3.2 独立性检验的基本思想及其初步应用 学案(人教A版选...
3.2 独立性检验的基本思想及其初步应用 问题导学 一、用列联表和等高条形图分析两变量间的关系 活动与探究 1 某生产线上,质量监督员甲在生产现场时,990 件...
...3.2独立性检验的基本思想及其初步应用
2016新课标创新人教A版数学选修2-3 3.2独立性检验的基本思想及其初步应用_高三...; 4.独立性检验的内容是什么? . ?讲一讲 1.在对人们饮食习惯的一次调查中...
更多相关标签:

All rights reserved Powered by 甜梦文库 9512.net

copyright ©right 2010-2021。
甜梦文库内容来自网络,如有侵犯请联系客服。zhit325@126.com|网站地图