9512.net
甜梦文库
当前位置:首页 >> 数学 >>

2.2.1用样本频率分布估计总体分布(周军)


2.2.1 用样本的频率分 布估计总体分布
1、用样本去估计总体,是研究统计问题的一个基本思想

2、前面我们学过的抽样方法有:简单随机抽样、系统抽样、 分层抽样。要注意这几种抽样方法的联系与区别。

3、 初中时我们学习过样本的频率分布,包括频数、 频率的概念,频数分布表和频数分布直方图的制作。

频率分布
样本中所有数据(或数据组)的频数和 样本容量的比,叫做该数据的频率。 所有数据(或数据组)的频数的分布 变化规律叫做样本的频率分布。

频率分布的表示形式有:
①样本频率分布表 ②样本频率分布图 样本频率分布条形图 样本频率分布直方图 ③样本频率分布折线图

1、抛掷硬币的大量重复试验的结果: 频率分布表: 样本容量为72 088
实验结果 正面向上 反面向上 频数 36 124 35 964 频率 0.501 1 0.498 9

频率分布条形图
0.7 0.6

0.5 0.4
0.3 0.2 0.1

结论:当试验次数 频率 “正面向上”记 无限增大时,两种试验 为0 “反面向上”记为1 结果的频率大致相等。 注意: ① 各长方形长条的宽度要相同。 ②相邻长条的间距要适当。 试验结果 ③长方形长条的高度 表示取各值的频率。 0 1

归纳1:当总体中的个体所取的不同数值较少 时,其随机变量是离散型。则样本的频率分布表 示形式有: (1)样本频率分布表
试验结果 频数 频率

(2)频率分布条形图
0.7 0.6 0.5 0.4 0.3 0.2 0.1

频率

试验结果 0 1

例1. 为检测某种产品的质量,抽取了一个容量为30的样本, 检测结果为一级品5件,二级品8件,三级品13件,次品4件. (1) 列出样本的频率分布表; (2) 画出表示样本频率分布的条形图; (3)根据上述结果,估计此种产品为二级品或三级品的概率 约是多少.
产品 频数 0.5 5 一级品 0.4 (1)样本的频率分布表为: 二级品 8 (2)样本频率分布 0.3 三级品 13 的条形图为: 0.2 0.1 4 次品
0.6

解: 解:

0.7

频率

频率 0.17 0.27 0.43 0.13 产品

一级品 二级品 三级品 次品

(3)此种产品为二级品或三级品的概率约为 0.27+0.43=0.7.

知识探究(一):频率分布表 【问题】 我国是世界上严重缺水的国
家之一,城市缺水问题较为突出,某市 政府为了节约生活用水,计划在本市试 行居民生活用水定额管理,即确定一个 居民月用水量标准a,用水量不超过a的 部分按平价收费,超出a的部分按议价 收费.通过抽样调查,获得100位居民 2007年的月均用水量如下表(单位: t):

3.1 3.4 3.2 3.3 3.2 3.0 2.5 2.6 2.5 2.8

2.5 2.6 2.7 2.8 2.9 2.9 2.8 2.7 2.6 2.5

2.0 2.2 2.3 2.3 2.4 2.4 2.3 2.4 2.3 2.2

2.0 2.2 2.1 2.2 2.3 2.4 2.3 2.1 2.1 2.0

1.5 1.5 1.6 1.7 1.8 1.9 1.8 1.7 1.6 1.5

1.0 1.2 1.2 1.3 1.4 1.3 1.3 1.4 1.0 1.0

1.6 0.2 3.7 3.6 3.5 1.4 1.3 1.2 1.0 1.2

1.8 0.4 1.5 1.7 1.9 1.8 1.6 1.5 1.7 1.8

1.9 0.3 0.5 0.6 0.8 0.7 0.9 0.5 0.8 0.6

1.6 0.4 3.8 4.1 4.3 2.0 2.3 2.4 2.4 2.2

显然:这个例子与前面抛掷硬币的问题是不同的,这 里的总体可以在一个实数区间取值,称为连续型总体。 样本的频率分布表示形式有: 频率分布表和频率分布直方图

1.极差:样本数据中的最大值和最小 值的差称为极差 0.2~4.3
2.确定组距,组数:.如果将上述 100个数据按组距为0.5进行分组, 那么这些数据共分为多少组? (4.3-0.2)÷0.5=8.2

3 将数据分组,决定分点:以组距为 0.5进行分组,上述100个数据共分为9组, 各组数据的取值范围可以如何设定? [0,0.5),[0.5,1),[1,1.5), ?,[4,4.5]. 4 画频率分布表:如何统计上述100个数 据在各组中的频数?如何计算样本数据 在各组中的频率?你能将这些数据用表 格反映出来吗?

分 组 [0,0.5) [0.5,1) [1,1.5) [1.5,2) [2,2.5) [2.5,3) [3,3.5) [3.5,4) [4,4.5] 合计

频数 4 正 8 正 正 正 15 正 正 正 正 22 正 正 正 正 正 25 正 正 14 正 一 6 4 2 100

频数累计

频率 0.04 0.08 0.15 0.22 0.25 0.14 0.06 0.04 0.02 1.00

知识探究(二):频率分布直方图
5 画频率分布直方图 为了直观反映样本 数据在各组中的分布情况,我们将上述 频率分布表中的有关信息用下面的图形 表示: 频率
组距

0.5 0.4 0.3 0.2 0.1
O

0.5 1 1.5 2 2.5 3 3.5 4 4.5

月均用水量/t

频率 组距
0.5 0.4 0.3 0.2 0.1
O

宽度:组距
高度:
频率 组距

0.5 1 1.5 2 2.5 3 3.5 4 4.5

月均用水量/t

上图称为频率分布直方图,其中横轴 表示月均用水量,纵轴表示频率/组距. 频率分布直方图中各小长方形的宽度 和高度在数量上有何特点?

图形的意义:频率分布直方图中各小长 方形的面积表示什么?各小长方形的面 积之和为多少? 频率 宽度:组距 组距
0.5 0.4 0.3 0.2 0.1
O

高度:
0.5 1 1.5 2 2.5 3 3.5 4 4.5

频率 组距

月均用水量/t

各小长方形的面积=频率 各小长方形的面积之和=1

3 分析例题:频率分布直方图非常直观 地表明了样本数据的分布情况,使我们 能够看到频率分布表中看不太清楚的数 据模式,但原始数据不能在图中表示出 来.你能根据上述频率分布直方图指出居 民月均用水量的一些数据特点吗? 频率
组距 0.5 0.4 0.3 0.2 0.1
O

0.5 1 1.5 2 2.5 3 3.5 4 4.5

月均用水量/t

频率 组距
0.5 0.4 0.3 0.2 0.1
O

0.5 1 1.5 2 2.5 3 3.5 4 4.5

月均用水量/t

(1)居民月均用水量的分布是“山峰”状的,而 且是“单峰”的;
(2)大部分居民的月均用水量集中在一个中间值 附近,只有少数居民的月均用水量很多或很少; (3)居民月均用水量的分布有一定的对称性等.

思考:对一组给定的样本数据,频率分 布直方图的外观形状与哪些因素有关? 在居民月均用水量样本中,你能以1为组 距画频率分布直方图吗?

与分组数(或组距)及坐标系的单位长 度有关. 频率
0.4 0.3 0.2 0.1
O

组距

1

2

3

4

5 月均用水量/t

小结

画频率分布直方图的步骤

1、求极差(即一组数据中最大值与最小值的差) 知道这组数据的变动范围4.3-0.2=4.1 2、决定组距与组数(将数据分组) 组距:指每个小组的两个端点的距离,组距 组数:将数据分组,当数据在100个以内时, 按数据多少常分5-12组。 组数= 极差 ? 4.1 ? 8.2 3、 将数据分组(8.2取整,分为9组)

组距

0.5

4、列出频率分布表.(填写频率/组距一栏) 5、画出频率分布直方图。

思考: 频率分布条形图和频率分布直方图是两个 相同的概念吗? 有什么区别?
频率分布的条形图和频率分布直方图的区别

两者是不同的概念; 横轴:两者表示内容相同 纵轴:两者表示的内容不相同 频率分布条形图的纵轴(长方形的高)表示频率 频率分布直方图的纵轴(长方形的高)表示 频率与组距的比值, 其相应组距上的频率等于该组距上长方形的面积。
频率 ?长方形的面积= ? 组距 ? 频率 组距

理论迁移
例 某地区为了了解知识分子的年龄结构, 随机抽样50名,其年龄分别如下: 42,38,29,36,41,43,54,43,34,44, 40,59,39,42,44,50,37,44,45,29, 48,45,53,48,37,28,46,50,37,44, 42,39,51,52,62,47,59,46,45,67, 53,49,65,47,54,63,57,43,46,58. (1)列出样本频率分布表; (2)画出频率分布直方图; (3)估计年龄在32~52岁的知识分子所占的比例 约是多少.

(1)极差为67-28=39,取组距为5,分为8组.
样本频率分布表: 分 组 [27,32) [32,37) [37,42) [42,47) [47,52) [52,57) [57,62) [62,67) 合 计 频数 3 3 9 16 7 5 4 3 50 频率 0.06 0.06 0.18 0.32 0.14 0.10 0.08 0.06 1.00

(2)样本频率分布直方图:
频率 组距

0.06 0.05 0.04 0.03 0.02 0.01
O 27 32 37 42 47 52 57 62 67 年龄

(3)因为0.06+0.18+0.32+0.14=0.7, 故年龄在32~52岁的知识分子约占70%.

频率/组距

0.036 0.032 0.028 0.024 0.020 0.016 0.012 0.008 0.004

〖例2〗:为了了解高一学生的体能 情况,某校抽取部分学生进行一分钟 跳绳次数次测试,将所得数据整理 后,画出频率分布直方图(如图), 图中从左到右各小长方形面积之比 为2:4:17:15:9:3,第二小组 频数为12. (1)第二小组的频率是多少?样本容 量是多少? (2)若次数在110以上(含110次)为 达标,试估计该学校全体高一学生 的达标率是多少?

o

90

100

110

120

130

140

150

次数

频率分布直方图如下:
频率

组距

连接频率分布直方图 中各小长方形上端的 中点,得到频率分布折 线图

0.50 0.40 0.30 0.20 0.10 月均用水量 /t 4.5

0.5

1 1.5 2 2.5 3

3.5 4

利用样本频分布对总体分布进行相应估计

(1)上例的样本容量为100,如果增至1000, 其频率分布直方图的情况会有什么变化?假如增

至10000呢?

(2)样本容量越大,这种估计越精确。

总体密度曲线
当样本容量无限增大,分组的组距无限缩小,那么 频率分布折线图就会无限接近一条光滑曲线——总体密 度曲线. 总体密度曲线
频率 组距

月均用 水量/t

a

b

(图中阴影部分的面积,表示总体在 某个区间 (a, b) 内取值的百分比)。

总体密度曲线
总体密度曲线反映了总体在各个范围内取值的
百分比,精确地反映了总体的分布规律。是研究总

体分布的工具.
用样本分布直方图去估计相应的总体分布时, 一般样本容量越大,频率分布直方图就会无限接 近总体密度曲线,就越精确地反映了总体的分布

规律,即越精确地反映了总体在各个范围内取值
百分比。

茎叶图
某赛季甲、乙两名篮球运动员每场比赛得分的

原始记录如下:

(1)甲运动员得分:
13, 51, 23, 8, 26, 38, 16, 33, 14, 28, 39

(2)乙运动员得分: 49,24,12,31,50,
31,44,36,15,37,25,36,39





8
4 6 3 3 6 8 3 8 9

0
1 2 3 4 2 5 1 4 5 4 6 1 6 7 9 9

1

5

0

注:中间的数字表示得分的十位数字。 旁边的数字分别表示两个人得分的 个位数。

茎叶图
当样本数据较少时,用茎叶 图表示数据的效果较好,它不但 可以保留所有的信息,而且 可以 随时记录,给数据的记录和表示 都方便。

练习:某中学高一(2)班甲,乙两 名同学自高中以来每场数学考试成 绩情况如下: 甲的得分:95,81,75,91,86, 89,71,65,76,88,94 乙的得分:83,86,93,99,88, 96,98,98,79,85,97 画出两人数学成绩茎叶图,请根据 茎叶图对两人的成绩进行比较。

小 结
图形 优点 缺点

频率分布
直方图

1)易表示大量数据

丢失一些

2)直观地表明分布地 情况 1)无信息损失 茎页图

信息 只能处理样本

2)随时记录方便记录和表示 容量较小数据

课堂小结
表示样本分布的方法:

(1)频率分布表
(2)频率分布图(包括直方图和条形图) (3)频率分布折线图 (4)茎叶图

表示样本的分布的方法: 3.频率分布折线图 1.频率分布表 样本频率分布中, 分组 个数累计 频数 频率 当样本容量无限增 大,组距无限缩小
2.频率分布直方图
频率/组距

样本频率分布直方图接近 于一条光滑曲线——总体 密度曲线,反映了总体分 布。
产品尺寸(mm)

小结
1.总体分布指的是总体取值的频率分布规律,
由于总体分布不易知道,因此我们往往用样本

的频率分布去估计总体的分布。
2.总体的分布分两种情况:当总体中的个体取

值很少时,用茎叶图估计总体的分布;当总体
中的个体取值较多时,将样本数据恰当分组, 用各组的频率分布描述总体的分布,方法是用 频率分布表或频率分布直方图。


赞助商链接

更多相关文章:
更多相关标签:

All rights reserved Powered by 甜梦文库 9512.net

copyright ©right 2010-2021。
甜梦文库内容来自网络,如有侵犯请联系客服。zhit325@126.com|网站地图