9512.net
甜梦文库
当前位置:首页 >> 数学 >>

独立性检验的基本思想及其初步应用(1)



问题 : 数学家庞加莱每天都从一家
面包店买一块 1000g 的面包,并记 录下买回的面包的实际质量。一年 后,这位数学家发现,所记录数据 的均值为 950g 。于是庞加莱推断这 家面包店的面包分量不足。

? 假设“面包分量足”,则一年购买面包的质量 数据的平均值应该不少于1000g ; ? “这个平均值不大于950g”是一个与假设“面包 分量足

”矛盾的小概率事件; ? 这个小概率事件的发生使庞加莱得出推断结果。

一:假设检验问题的原理
假设检验问题由两个互斥的假设构成,其中一个 叫做原假设,用 H0 表示;另一个叫做备择假设, 用H1表示。 例如,在前面的例子中, 原假设为: H0:面包分量足, 备择假设为 H1:面包分量不足。 这个假设检验问题可以表达为: H0:面包分量足 ←→ H1:面包分量不足

二:求解假设检验问题
考虑假设检验问题: H0:面包分量足 ←→ H1:面包分量不足

求解思路:
1. 在H0成立的条件下,构造与H0矛盾的小概 率事件; 2. 如果样本使得这个小概率事件发生,就能 以一定把握断言H1成立;否则,断言没有 发现样本数据与H0相矛盾的证据。

1.分类变量

三:二个概念

对于性别变量,取值为:男、女 这种变量的不同取“值”表示个体所属的不 同类别,这类变量称为分类变量 分类变量在现实生活中是大量存在的,如是 否吸烟,是否患肺癌,宗教信仰,国籍,年龄, 出生月份等等。

利用随机变量K2来确定在多大程度上可以认为” 两个分类变量有关系”的方法称为两个分类变 量的独立性检验.(为假设检验的特例)

为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机 地调查了9965人,得到如下结果(单位:人)

2×2频数列 联表

不吸烟 吸烟
总计

吸烟与肺癌列联表 不患肺癌 患肺癌 7775 42

总计 7817 2148
9965

2099
9874

49
91

在不吸烟者中患肺癌的比重是 0.54% 2.28% 在吸烟者中患肺癌的比重是 说明:吸烟者和不吸烟者患肺癌的可能性存在差异, 吸烟者患肺癌的可能性大

1)通过频率等高条形图 直观判断两个分类变量是否相关:
100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 不吸烟 吸烟

患肺癌 比例
患肺癌 不患肺癌

不患肺癌 比例

独立性检验

通过数据和图表分析,得到 结论是:吸烟与患肺癌有关

假设 H0:吸烟和患肺癌之间没有关系
等价于 “吸烟”与“患肺癌”独立,

结论的可靠 程度如何?

吸烟与肺癌列联表 不患肺癌
不吸烟 a

患肺癌
b

总计
a+b

吸烟
总计

c
a+c

d
b+d

c+d
a+b+c+d

独立性检验

ad ? bc ? 0.
ad - bc 越小,说明吸烟与患肺癌之间的关系越弱, ad - bc 越大,说明吸烟与患肺癌之间的关系越强
引入一个随机变量

n(ad - bc) K = (a + b)(c + d)(a + c)(b + d)
2

2

作为检验在多大程度上可以认为“两个变量 有关系”的标准 。

独立性检验
不吸烟 吸烟 总计 通过公式计算 吸烟与肺癌列联表 不患肺癌 患肺癌 7775 42 2099 49 9874 91

总计 7817 2148 9965

9965(7775 ? 49 ? 42 ? 2099) K ? ? 56.632 7817 ? 2148 ? 9874 ? 91
2 2

独立性检验
已知在 H 0成立的情况下,

P( K ? 6.635) ? 0.01
2

即在 H 0 成立的情况下,“K2 ≥6.635”的概率 非常小,近似为0.01(即:“K2 ≥6.635”是小 概率事件) 现在的K2=56.632的观测值远大于6.635 所以H0不成立,即:吸烟与患肺癌有关 系。检验结论犯错误的概率是0.01。 有0.99的把握认为吸烟与患肺癌有关系。

设有两个分类变量X和Y它们的值域分别为{x1,x2}和 {y1,y2}其样本频数列表(称为2×2列联表) 为: H0:变量X和Y没有关系 总计 y1 y2 2 ( n ad ? bc) 2 a b a+b x1 K ? (a ? b)(c ? d )(a ? c)(b ? d ) c d c+d x2

P(k ? k 0)
2
P(k 2 ? k 0) 0.50

总计

a+c

b+d

a+b+c+d

0.40 0.5

0.15 0.10 0.05 0.025 0.010 0.005 0.001

k0

0.445 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828

例如:(1)如果k>10.828,就有99.9%的把握认为“X与Y有关系”

(2)如果k>6.635,就有99%的把握认为“X与Y有关系”; (3)如果k>2.706,就有90%的把握认为“X与Y有关系”; (4)如果k<=2.706,就认为没有充分的证据显示“X与Y有关系”

根据观测数据计算随机变量K2 的值k,其值越大,说明“X与Y有关系”成立的可能性越大。

背景分析

条形图

列联表

分类变量之间关系

独立性检验

.在某医院,因为患心脏病而住院的 665名男
性病人中 , 有 214 人秃顶 , 而另外 772 名不是 因为患心脏病而住院的男性病人中有 175人 秃顶 . 利用图形判断秃顶与患心脏病是否 有关系 ? 能否在犯错误不超过 0.010 的前提 下认为秃顶与患心脏病有关系?

例2.为考察高中生性别与是否喜欢数学课程之 间的关系 , 在某城市的某校高中生中随机抽取 300名学生,得到如下列联表:
性别与喜欢数学课程列联表 喜欢数学课程 不喜欢数学课程 总计

男 女
总计

37 35
72 a c b d

85 143
228 n

122 178
300

高中生的性别与是否喜欢数学课程之间是否有 关系? K2 ≈4.513
P(k 2 ? k 0) 0.50

0.40 0.5

0.15 0.10 0.05 0.025 0.010 0.005 0.001

k0

0.445 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828

独立性检验基本的思想类似反证法
(1)假设结论不成立,即“两个分类变量没有关系”.
(2)在此假设下随机变量 K2 应该很能小,如果由观测数据
计算得到K2的观测值k很大,则在一定程度上说明假设

不合理.
(3)根据随机变量K2的含义,可以通过 评价该假设不合理的程度,由实际计算出的, 说明假设合理的程度为99.9%,即“两个分类变量有关 系”这一结论成立的可信度为约为99.9%.

设有两个分类变量X和Y它们的取值分别为{x1,x2}和 {y1,y2}其样本频数列表(称为2×2列联表) 为: H1:X与Y有关系 总计 y1 y2 2 ( n ad ? bc) 2 a b a+b x1 K ? (a ? b)(c ? d )(a ? c)(b ? d ) c d c+d x2

P(k ? k 0)
2
P(k 2 ? k 0) 0.50

总计

a+c

b+d

a+b+c+d

0.40 0.5

0.15 0.10 0.05 0.025 0.010 0.005 0.001

k0

0.445 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828

例如(1)如果k2>10.828,H0不成立,
犯错误的概率不超过0.010

就有99.9%的把握认为“X与Y有关系”;犯错误的概率不超过0.001 (2)如果k2>6.635,H0不成立,就有99%的把握认为“X与Y有关系”

(4)如果k2<=2.706,就认为没有充分的证据显示“X与Y有关系”

根据观测数据计算随机变量K2 的值k,其值越大,说明“X与Y有关系”成立的可能性越大。

设有两个分类变量X和Y它们的取值分别为{x1,x2}和 {y1,y2}其样本频数列表(称为2×2列联表) 为: 判断:X与Y有关系 总计 y1 y2 法一:等高条形图相差小,X与Y关系越弱 a b a+b x1 等高条形图相差大,X与Y关系越强 c d c+d x2
法二:︱ad-bc︱越小,X与Y关系越弱

︱ad-bc︱越大,X与Y关系越强 法三: (1)根据实际问题的需要,确定容许推断“X与Y有关系”犯错误概率的上界α, 查表确定临界值k0.
P(k 2 ? k 0) 0.50

总计

a+c

b+d

a+b+c+d

0.40 0.5

0.15 0.10 0.05 0.025 0.010 0.005 0.001
有1- α的把握 认为“X与Y 有关系”

k0

0.445 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
2

2 ( n ad ? bc ) (2)计算随机变量 K ? 的观测值k (a ? b)(c ? d )(a ? c)(b ? d )

(3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α ; 否则,就认为在犯错误概率不超过的前提下不能推断“X与Y有关系”,或者在样本数 据中没有足够证据支持结论“X与Y有关系”。

. 例 1 : 在某医院 , 因为患心脏病而住院的
665名男性病人中,有214人秃顶,而另外772 名不是因为患心脏病而住院的男性病人中 有175人秃顶. 利用图形判断秃顶与患心脏 病是否有关系 ? 能否在犯错误不超过 0.010 的前提下认为秃顶与患心脏病有关系?

P15 练习:甲乙两个班级进行一门课程的考试, 按照学生考试成绩优秀和不优秀统计成绩后,得 到如下的列联表:
班级与成绩列联表 优秀 不优秀 总计 10 35 45 7 38 45 17 73 90

甲班 乙班 总计

画出列联表的等高条形图,并通过图形判断成绩 与班级是否有关,根据列联表的独立性检验,能 否在犯错误不超过0.01的前提下认为成绩与班级 有关系?

P16 1. 为考察某种药物预防疾病的效果,进行动 物试验,得到如下列联表:
药物效果与动物试验列联表 患病 未患病 总计 服用药 10 45 55 没服用药 20 30 50

总计

30

75

105

画出列联表的等高条形图,并通过图形判断服药 与患病是否有关,根据列联表的独立性检验,能 否在犯错误不超过 0.025 的前提下认为药物有效?



更多相关文章:
2《独立性检验的基本思想及其初步应用》(第2课时) 教案 1
2《独立性检验的基本思想及其初步应用》(第2课时) 教案 1 隐藏>> 第二课时 1.2 独立性检验的基本思想及其初步应用(二) 教学要求:通过探究“吸烟是否与患肺癌...
1.2 独立性检验的基本思想及其初步应用 学案(人教A版选修1-2) (1)
1.2 独立性检验的基本思想及其初步应用 课标解读 1.了解独立性检验的基本思想、方法及其简单应用.(重点) 2.通过收集数据,并依据独立性检验的原理作出合理推断,...
3.2.1独立性检验的基本思想及其初步应用 学案(选修2-3)
3.2.1 《独立性检验的基本思想及其初步应用》学案【学习目标】 1.了解利用列联表、等高条形图来判断两个分类变量之间是否有关系。 2.了解独立性检验的基本思想...
1.2 独立性检验的基本思想及其初步应用 教案(新人教A版 选修1-2)[1]
1.2 独立性检验的基本思想及其初步应用 教案(新人教A版 选修1-2)[1]_高二数学_数学_高中教育_教育专区。独立性检验的基本思想及其初步应用(共 5 课时)授课类...
1.2.2独立性检验的基本思想及其初步应用(二)(定稿)
统计案例 使用时间: 编写:郭道俊 审核: 编号:05 教师评价: 1.2 独立性检验的基本思想及其初步应用(二)【学习目标】 1.理解独立性检验的基本思想及实施步骤。 ...
1.2 独立性检验的基本思想及其初步应用 教学设计 教案
1.2 独立性检验的基本思想及其初步应用 教学设计 教案。教学准备 1. 教学目标 1、结合生活中的实例了解分类变量的概念,了解列联表和等高条形图的特点 2、通过...
2015-2016高中数学 1.2独立性检验的基本思想及其初步应用练习 新人教A版选修1-2
2015-2016高中数学 1.2独立性检验的基本思想及其初步应用练习 新人教A版选修1-2_数学_高中教育_教育专区。1 .2 基础梳理 独立性检验的基本思想及其初步应用 1....
【创新设计】2015-2016学年高中数学 第一章 统计案例 1.2独立性检验的基本思想及其初步应用课时作业
【创新设计】2015-2016学年高中数学 第一章 统计案例 1.2独立性检验的基本思想及其初步应用课时作业_数学_高中教育_教育专区。第一章 统计案例 1.2 独立性检验...
高二新人教A版数学选修1-2同步练习1-2独立性检验的基本思想及其初步应用 Word版含答案]
高二新人教A版数学选修1-2同步练习1-2独立性检验的基本思想及其初步应用 Word版含答案]_高中教育_教育专区。高二新人教A版数学选修1-2同步练习1-2独立性检验的...
更多相关标签:
独立性检验的基本思想    独立性检验的思想    毛泽东思想初步形成于    毛泽东思想初步形成    毛泽东思想的初步形成    毛泽东思想初步形成在    初步学开车的基本知识    初步广场舞的基本步骤    

All rights reserved Powered by 甜梦文库 9512.net

copyright ©right 2010-2021。
甜梦文库内容来自网络,如有侵犯请联系客服。zhit325@126.com|网站地图