9512.net
甜梦文库
当前位置:首页 >> 数学 >>

2015解步步高大一轮讲义(理)11.3


§ 11.3

变量间的相关关系、统计案例

1.两个变量的线性相关 (1)正相关 在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将 它称为正相关. (2)负相关 在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)线性相关关系、回归直线 如果散点图中点的分布从整体上看大致在一条直线附近, 就称这两个变量之间具有线性相 关关系,这条直线叫做回归直线. 2.回归方程 (1)最小二乘法 求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法. (2)回归方程
^ ^ ^ ^ ^

方程y =b x+a 是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),?,(xn, yn)的回归方程,其中a ,b 是待定参数.

?b = ∑ ?x - x ? ? ?a = y -b x
^ i 1 n i=1 i ^ ^

∑ ?xi- x ??yi- y ? =
2

n

n



i 1

∑ xiyi-n x =
i=1

y
2

∑xi2-n x

n

.

3.回归分析 (1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心 对于一组具有线性相关关系的数据(x1,y1),(x2,y2),?,(xn,yn)中( x , y )称为样本点 的中心. (3)相关系数 当 r>0 时,表明两个变量正相关; 当 r<0 时,表明两个变量负相关.

r 的绝对值越接近于 1,表明两个变量的线性相关性越强.r 的绝对值越接近于 0,表明两 个变量之间几乎不存在线性相关关系.通常|r|大于 0.75 时,认为两个变量有很强的线性 相关性. 4.独立性检验 (1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量. (2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量 X 和 Y,它 们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为 2×2 列联表)为 2×2 列联表 y1 x1 x2 总计 a c y2 b d 总计 a+b c+d

a+c b+d a+b+c+d 2 n?ad-bc? 构造一个随机变量 K2= ,其中 n=a+b+c+d 为样本容量. ?a+b??c+d??a+c??b+d? (3)独立性检验 利用随机变量 K2 来判断“两个分类变量有关系”的方法称为独立性检验.

1.判断下面结论是否正确(请在括号中打“√”或“×”) (1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系. (2)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系. (3)只有两个变量有相关关系,所得到的回归模型才有预测价值.
^

( × ( √ ( √

) ) )

(4) 某同学研究卖出的热饮杯数 y 与气温 x(℃) 之间的关系,得回归方程 y =-2.352x+ 147.767,则气温为 2℃时,一定可卖出 143 杯热饮. (5)事件 X,Y 关系越密切,则由观测数据计算得到的 K2 的观测值越大. ( × ( √ ) )

(6)由独立性检验可知,有 99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩 优秀,则他有 99%的可能物理优秀. 2.下面哪些变量是相关关系 A.出租车车费与行驶的里程 B.房屋面积与房屋价格 C.身高与体重 D.铁块的大小与质量 答案 C 3.两个变量 y 与 x 的回归模型中,分别选择了 4 个不同模型,它们的相关指数 R2 如下,其 中拟合效果最好的模型是 ( ) ( × ( ) )

A.模型 1 的相关指数 R2 为 0.98 B.模型 2 的相关指数 R2 为 0.80 C.模型 3 的相关指数 R2 为 0.50 D.模型 4 的相关指数 R2 为 0.25 答案 A 4.在一项打鼾与患心脏病的调查中,共调查了 1 671 人,经过计算 K2 的观测值 k=27.63, 根据这一数据分析,我们有理由认为打鼾与患心脏病是 ________ 的 (填“有关”或“无 关”). 答案 有关 5. 为了评价某个电视栏目的改革效果, 在改革前后分别从居民点抽取了 100 位居民进行调查, 经过计算 K2≈0.99,根据这一数据分析,下列说法正确的是 A.有 99%的人认为该电视栏目优秀 B.有 99%的人认为该电视栏目是否优秀与改革有关系 C.有 99%的把握认为该电视栏目是否优秀与改革有关系 D.没有理由认为该电视栏目是否优秀与改革有关系 答案 D 解析 只有 K2≥6.635 才能有 99%的把握认为该电视栏目是否优秀与改革有关系, 而既使 K2≥6.635 也只是对“该电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的 结论,与是否有 99%的人等无关.故只有 D 正确. ( )

题型一 相关关系的判断 例1 x 和 y 的散点图如图所示,则下列说法中所有正确命题的序号为________.

①x,y 是负相关关系;
2 ②在该相关关系中, 若用 y=c1ec2x 拟合时的相关指数为 R1 , 用 y=bx+a 拟合时的相关指 2 2 数为 R2 2,则 R1>R2;

③x、y 之间不能建立回归直线方程. 思维启迪 本题散点图对应的曲线类似于指数型曲线,因此, 用 y=bx+a 拟合的效果差, 所以 R2 2小. 答案 ①②

解析 ①显然正确; 由散点图知, 用 y=c1ec2x 拟合的效果比用 y=bx+a 拟合的效果要好, 故②正确;x,y 之间能建立回归直线方程,只不过预报精度不高,故③不正确. 思维升华 判断变量之间有无相关关系, 一种简便可行的方法就是绘制散点图, 根据散点 图很容易看出两个变量之间是否具有相关性, 是不是存在线性相关关系, 是正相关还是负 相关,相关关系是强还是弱. (1)对变量 x,y 有观测数据(xi,yi)(i=1,2,?,10),得散点图①;对变量 u,v 有观测数据(ui,vi)(i=1,2,?,10),得散点图②,由这两个散点图可以判断( )

A.变量 x 与 y 正相关,u 与 v 正相关 B.变量 x 与 y 正相关,u 与 v 负相关 C.变量 x 与 y 负相关,u 与 v 正相关 D.变量 x 与 y 负相关,u 与 v 负相关 答案 C (2)(2012· 课标全国)在一组样本数据(x1,y1),(x2,y2),?,(xn,yn)(n≥2,x1,x2,?,xn 1 不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,?,n)都在直线 y= x+1 上,则这 2 组样本数据的样本相关系数为 A.-1 答案 D 解析 利用相关系数的意义直接作出判断.
^

( D.1

)

B.0

1 C. 2

样本点都在直线上时,其数据的估计值与真实值是相等的,即 yi=yi,代入相关系数公式

i=1

? ?yi-yi?2
=1.
2

n

^

r=

1-

i=1

? ?yi- y ?

n

题型二 线性回归分析 例2 某车间为了制定工时定额,需要确定加工零件所花费的时间,为此做了四次试验,得

到的数据如下: 零件的个数 x(个) 加工的时间 y(小时) 2 2.5 3 3 4 4 5 4.5

(1)在给定的坐标系中画出表中数据的散点图;

^

^

^

(2)求出 y 关于 x 的线性回归方程y=bx+a,并在坐标系中画出回归直线; (3)试预测加工 10 个零件需要多少小时?
i=1

?xiyi-n x ?x2 i -n x
n 2

n

y
^ ^

^

(注:b=

,a= y -b x )

i=1

^

思维启迪 求线性回归方程的系数b时,为防止出错,应分别求出公式中的几个量,再代 入公式. 解 (1)散点图如图.

(2)由表中数据得: ?xiyi=52.5,
i=1

4

x =3.5, y =3.5, ?x2 i =54,
i=1 ^ ^ ^

4

∴b =0.7,∴a =1.05, ∴y =0.7x+1.05,回归直线如图所示.

^

(3)将 x=10 代入回归直线方程,得y =0.7×10+1.05=8.05, 故预测加工 10 个零件约需要 8.05 小时.
^ ^ ^

思维升华 (1)回归直线y =bx+a必过样本点的中心( x , y ). (2)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否 具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值. 为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小 李某月 1 号到 5 号每天打篮球时间 x(单位:小时)与当天投篮命中率 y 之间的关系: 时间 x 1 2 3 4 5

命中率 y

0.4

0.5

0.6

0.6

0.4

小李这 5 天的平均投篮命中率为________; 用线性回归分析的方法, 预测小李该月 6 号打 6 小时篮球的投篮命中率为________. 答案 0.5 0.53 解析 小李这 5 天的平均投篮命中率 0.4+0.5+0.6+0.6+0.4 y= =0.5,可求得小李这 5 天的平均打篮球时间 x =3.根据表中 5
^ ^ ^

数据可求得b =0.01,a =0.47,故线性回归方程为y =0.47+0.01x,将 x=6 代入得 6 号 打 6 小时篮球的投篮命中率约为 0.53. 题型三 独立性检验 例3 为调查某地区老年人是否需要志愿者提供帮助, 用简单随机抽样方法从该地区调查了

500 位老年人,结果如下: 性别 是否需要志愿者 需要 不需要 男 40 160 女 30 270

(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例. (2)能否有 99.5%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关? (3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供 帮助的老年人的比例?说明理由. 思维启迪 直接计算 K2 的值,然后利用表格下结论. 解 (1)调查的 500 位老年人中有 70 位需要志愿者提供帮助,因此该地区老年人中,需要 70 志愿者提供帮助的老年人的比例的估计值为 ×100%=14%. 500 500×?40×270-30×160?2 (2)K2= ≈9.967. 200×300×70×430 由于 9.967>7.879,所以有 99.5%的把握认为该地区的老年人是否需要帮助与性别有关. (3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地 区男性老年人与女性老年人中需要帮助的比例有明显差异, 因此在调查时, 先确定该地区 老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法,比采用简单随 机抽样方法更好. 思维升华 (1)根据样本估计总体是抽样分析的一个重要内容.要使估计的结论更加准确, 抽样取得的样本很关键. (2)根据独立性检验知,需要提供服务的老人与性别有关,因此在调查时,采取男、女分 层抽样的方法更好,从而看出独立性检验的作用. 某中学对“学生性别和是否喜欢看 NBA 比赛”作了一次调查, 其中男生人数是

5 女生人数的 2 倍,男生喜欢看 NBA 的人数占男生人数的 ,女生喜欢看 NBA 的人数占女 6 1 生人数的 . 3 (1)若被调查的男生人数为 n,根据题意建立一个 2×2 列联表; (2)若有 95%的把握认为是否喜欢看 NBA 和性别有关,求男生至少有多少人? ?a+b+c+d??ad-bc?2 2 附:K = , ?a+b??c+d??a+c??b+d? P(K2≥k) K 解 (1)由已知得: 喜欢看 NBA 5n 6 n 6 n 不喜欢看 NBA n 6 n 3 n 2 总计 n n 2 3n 2 0.100 2.706 0.050 3.841 0.010 6.635

男生 女生 总计 3n 5n n n n 2 ? ·- ·? 2 6 3 66 3 (2)K2= = n. nn 8 n··· n 22

若有 95%的把握认为是否喜欢看 NBA 和性别有关, 3 则 K2>3.841,即 n>3.841,n>10.24. 8 n n ∵ , 为整数,∴n 最小值为 12. 2 6 即:男生至少 12 人.

统计中的数形结合思想

典例:(12 分)某地 10 户家庭的年收入和年饮食支出的统计资料如表所示: 年收入 x(万元) 年饮食支出 y(万元) 2 0.9 4 1.4 4 1.6 6 2.0 6 2.1 6 1.9 7 1.8 7 2.1 8 2.2 10 2.3

(1)根据表中数据,确定家庭的年收入和年饮食支出的相关关系; (2)如果某家庭年收入为 9 万元,预测其年饮食支出. 思维启迪 可以画出散点图, 根据图中点的分布判断家庭年收入和年饮食支出的线性相关 性. 规范解答



(1)由题意,知年收入 x 为解释变量,年饮食支出 y 为预报变量,作散点图如图所示.

[3 分] 从图中可以看出,样本点呈条状分布,年收入和年饮食支出有比较好的线性相关关系,因 此可以用线性回归方程刻画它们之间的关系.[4 分]
2 因为 x =6, y =1.83, ?x2 i =406, ?yi =35.13, i=1 i=1 10 10

i=1

?xiyi=117.7, ?xiyi-10 x
x2 i -10 i=1
10

10

y ≈0.172, x
2

^

i=1

所以b=

?

10

^

^ ^

a= y -b x ≈1.83-0.172×6=0.798. 从而得到线性回归方程为y=0.172x+0.798.[8 分]
^

(2)y=0.172×9+0.798=2.346(万元). 所以家庭年收入为 9 万元时,可以预测年饮食支出为 2.346 万元.[12 分] 温馨提醒 (1)在统计中,用样本的频率分布表、频率分布直方图、统计图表中的茎叶图、 折线图、条形图,去估计总体的相关问题,以及用散点图判断相关变量的相关性等都体现 了数与形的完美结合.借助于形的直观,去统计数据,分析数据,无不体现了数形结合的 思想. (2)本题利用散点图分析两变量间的相关关系,充分体现了数形结合思想的应用. (3)本题易错点为散点图画的不准确,导致判断错误.

方法与技巧
^ ^ ^ ^ ^ ^

1.求回归方程,关键在于正确求出系数a ,b ,由于a ,b 的计算量大,计算时应仔细谨慎, 分层进行,避免因计算而产生错误.(注意线性回归方程中一次项系数为b ,常数项为a , 这与一次函数的习惯表示不同.) 2.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相

关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取 值及判断变量取值的变化趋势;(3)求出线性回归方程. 3.根据 K2 的值可以判断两个分类变量有关的可信程度. 失误与防范 1.相关关系与函数关系的区别 相关关系与函数关系不同. 函数关系中的两个变量间是一种确定性关系. 例如正方形面积 S 与边长 x 之间的关系 S=x2 就是函数关系.相关关系是一种非确定性关系,即相关关系 是非随机变量与随机变量之间的关系. 例如商品的销售额与广告费是相关关系. 两个变量 具有相关关系是回归分析的前提. 2. 回归分析是对具有相关关系的两个变量进行统计分析的方法, 只有在散点图大致呈线性时, 求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程 进行预报,仅是一个预报值,而不是真实发生的值.

A 组 专项基础训练 一、选择题
^

1.某地区调查了 2~9 岁的儿童的身高, 由此建立的身高 y(cm)与年龄 x(岁)的回归模型为y= 8.25x+60.13,下列叙述正确的是 A.该地区一个 10 岁儿童的身高为 142.63 cm B.该地区 2~9 岁的儿童每年身高约增加 8.25 cm C.该地区 9 岁儿童的平均身高是 134.38 cm D.利用这个模型可以准确地预算该地区每个 2~9 岁儿童的身高 答案 B 2. 设(x1,y1),(x2,y2),?,(xn,yn)是变量 x 和 y 的 n 个样本点,直线 l 是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论 中正确的是 A.直线 l 过点( x , y ) B.x 和 y 的相关系数为直线 l 的斜率 C.x 和 y 的相关系数在 0 到 1 之间 D.当 n 为偶数时,分布在 l 两侧的样本点的个数一定相同 答案 A 解析 因为相关系数是表示两个变量是否具有线性相关关系的一个值, 它的绝对值越接近 1,两个变量的线性相关程度越强,所以 B、C 错误.D 中 n 为偶数时,分布在 l 两侧的 样本点的个数可以不相同,所以 D 错误.根据线性回归直线一定经过样本点中心可知 A ( ) ( )

正确. 3.(2012· 湖南)设某大学的女生体重 y(单位:kg)与身高 x(单位:cm)具有线性相关关系,根据
^

一组样本数据(xi,yi)(i=1,2,?,n),用最小二乘法建立的回归方程为y=0.85x-85.71, 则下列结论中不正确 的是 ... A.y 与 x 具有正的线性相关关系 B.回归直线过样本点的中心( x , y ) C.若该大学某女生身高增加 1 cm,则其体重约增加 0.85 kg D.若该大学某女生身高为 170 cm,则可断定其体重必为 58.79 kg 答案 D 解析 由于线性回归方程中 x 的系数为 0.85, 因此 y 与 x 具有正的线性相关关系,故 A 正确. 又线性回归方程必过样本点中心( x , y ),因此 B 正确. 由线性回归方程中系数的意义知,x 每增加 1 cm,其体重约增加 0.85 kg,故 C 正确. 当某女生的身高为 170 cm 时,其体重估计值是 58.79 kg,而不是具体值,因此 D 不正确. 4.通过随机询问 110 名性别不同的大学生是否爱好某项运动,得到如下的列联表: 男 爱好 不爱好 总计 以下结论正确的是 A.有 99%以上的把握认为“爱好该项运动与性别有关” B.有 99%以上的把握认为“爱好该项运动与性别无关” C.在犯错误的概率不超过 0.1%的前提下,认为“爱好该项运动与性别有关” D.在犯错误的概率不超过 0.1%的前提下,认为“爱好该项运动与性别无关” 答案 A 解析 根据独立性检验的定义,由 K2≈7.8>6.635 可知我们有 99%以上的把握认为“爱好 该项运动与性别有关”,故选 A. 5.某产品的广告费用 x 与销售额 y 的统计数据如下表: 广告费用 x(万元) 销售额 y(万元)
^ ^ ^

(

)

女 20 30 50

总计 60 50 110 ( )

40 20 60

4 49
^

2 26

3 39

5 54

根据上表可得线性回归方程y =b x+a 中的b 为 9.4, 据此模型预报广告费用为 6 万元时 销售额为 A.63.6 万元 C.67.7 万元 B.65.5 万元 D.72.0 万元 ( )

答案 B 解析 ∵ x =
^ ^ ^

4+2+3+5 7 49+26+39+54 = ,y= =42, 4 2 4

又y =b x+a 必过( x , y ), ^ ^ 7 ∴42= ×9.4+a ,∴a =9.1. 2
^

∴线性回归方程为y =9.4x+9.1.
^

∴当 x=6 时,y =9.4×6+9.1=65.5(万元). 二、填空题 6.以下四个命题,其中正确的序号是________. ①从匀速传递的产品生产流水线上,质检员每 20 分钟从中抽取一件产品进行某项指标检 测,这样的抽样是分层抽样; ②两个随机变量相关性越强,则相关系数的绝对值越接近于 1 ;
^ ^

③在线性回归方程y =0.2x+12 中,当解释变量 x 每增加一个单位时,预报变量y 平均增 加 0.2 个单位; ④对分类变量 X 与 Y,它们的随机变量 K2 的观测值 k 来说,k 越小,“X 与 Y 有关系”的 把握程度越大. 答案 ②③ 解析 ①是系统抽样;对于④,随机变量 K2 的观测值 k 越小,说明两个相关变量有关系 的把握程度越小.
^

7.已知回归方程y=4.4x+838.19,则可估计 x 与 y 的增长速度之比约为________. 答案 5∶22 解析 x 每增长 1 个单位,y 增长 4.4 个单位,故增长的速度之比约为 1∶4.4=5∶22. 事实上所求的比值为回归直线方程斜率的倒数. 8.某数学老师身高 176 cm,他爷爷、父亲和儿子的身高分别是 173 cm、170 cm 和 182 cm. 因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为 ________ cm. 答案 185 解析 儿子和父亲的身高可列表如下: 父亲身高 儿子身高
^ ^ ^ ^

173 170

170 176

176 182
^ ^ ^

设线性回归方程为y =a +b x,由表中的三组数据可求得b =1,故a = y -b x =176 -173=3,故线性回归方程为y =3+x,将 x=182 代入得孙子的身高为 185 cm. 三、解答题 9.某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零 件为优质品.从两个分厂生产的零件中各抽出了 500 件,量其内径尺寸,得结果如下表:

甲厂: 分组 频数 乙厂: 分组 频数 [29.86, 29.90) 29 [29.90, 29.94) 71 [29.94, [29.98, 29.98) 85 30.02) 159 [30.02, 30.06) 76 [30.06, 30.10) 62 [30.10, 30.14) 18 [29.86, 29.90) 12 [29.90, [29.94, [29.98, [30.02, [30.06, [30.10, 29.94) 63 29.98) 86 30.02) 182 30.06) 92 30.10) 61 30.14) 4

(1)试分别估计两个分厂生产的零件的优质品率; (2)由以上统计数据填下面 2×2 列联表, 问是否有 99%的把握认为“两个分厂生产的零件 的质量有差异”? 甲厂 优质品 非优质品 合计 附 乙厂 合计



(1)甲厂抽查的 500 件产品中有 360 件优质品,从而估计甲厂生产的零件的优质品率 360 为 =72%; 500 320 乙厂抽查的 500 件产品中有 320 件优质品,从而估计乙厂生产的零件的优质品率为 = 500 64%. (2)完成的 2×2 列联表如下: 甲厂 优质品 非优质品 合计 360 140 500 乙厂 320 180 500 合计 680 320 1 000

由表中数据计算得 K2 的观测值 1 000×?360×180-320×140?2 k= ≈7.35>6.635, 500×500×680×320 所以有 99%的把握认为“两个分厂生产的零件的质量有差异”. 10.(2013· 重庆)从某居民区随机抽取 10 个家庭,获得第 i 个家庭的月收入 xi(单位:千元)与 月储蓄 yi(单位:千元)的数据资料,算得 ?xi=80, ?yi=20, ?xiyi=184, ?x2 i =720.
i=1 i=1 i=1 i=1 10 10 10 10

^

^

^

^

(1)求家庭的月储蓄y 对月收入 x 的线性回归方程y =b x+a ; (2)判断变量 x 与 y 之间是正相关还是负相关; (3)若该居民区某家庭月收入为 7 千元,预测该家庭的月储蓄. 解 1n 80 (1)由题意知 n=10, x = ?xi= =8, ni=1 10

1n 20 y = ?yi= =2, ni=1 10
2 2 又 lxx= ?x2 i -n x =720-10×8 =80, i=1 n

lxy= ?xiyi-n x
i=1

n

y =184-10×8×2=24,

^ lxy 24 由此得b = = =0.3, lxx 80 ^ ^

a = y -b

x =2-0.3×8=-0.4,
^ ^

故所求线性回归方程为y =0.3x-0.4. (2)由于变量 y 的值随 x 值的增加而增加(b =0.3>0),故 x 与 y 之间是正相关.
^

(3)将 x=7 代入回归方程可以预测该家庭的月储蓄为y =0.3×7-0.4=1.7(千元). B 组 专项能力提升 1.下列说法: ①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;
^

②设有一个回归方程y =3-5x,变量 x 增加一个单位时,y 平均增加 5 个单位;
^ ^ ^

③回归方程y =b x+a 必过( x , y ); ④有一个 2×2 列联表中,由计算得 K2=13.079,则有 99.9%的把握确认这两个变量间有 关系. 其中错误的个数是 A.0 B.1 C.2 D.3 答案 B 解析
^

(

)

一组数据都加上或减去同一个常数,数据的平均数有变化,方差不变(方差是反映

数据的波动程度的量),①正确;回归方程中 x 的系数具备直线斜率的功能,对于回归方 程y =3-5x,当 x 增加一个单位时,y 平均减少 5 个单位,②错误;由线性回归方程的 定义知,线性回归方程y =b x+a 必过点( x , y ),③正确;因为 K2=13.079>10.828, 故有 99.9%的把握确认这两个变量有关系,④正确.故选 B. 2.(2013· 福建)已知 x 与 y 之间的几组数据如下表: x y 1 0 2 2 3 1 4 3 5 3 6 4
^ ^ ^

^

^

^

假设根据上表数据所得线性回归直线方程y =b x+a ,若某同学根据上表中的前两组数 据(1,0)和(2,2)求得的直线方程为 y=b′x+a′,则以下结论正确的是
^ ^ ^ ^ ^ ^ ^ ^

(

)

A.b >b′,a >a′ C.b <b′,a >a′ 答案 C

B.b >b′,a <a′ D.b <b′,a <a′

^

i=1

? ?xi- x ??yi- y ?
求得.
i=1

6

解析 b′=2,a′=-2,由公式b =

? ?xi- x ?2

6

^ ^ 5 ^ 13 5 7 1 b = ,a = y -b x = - × =- , 7 6 7 2 3 ^ ^

∴b <b′,a >a′.选 C. 3.有甲、乙两个班级进行数学考试,按照大于等于 85 分为优秀,85 分以下非优秀统计成绩, 得到如下所示的列联表: 优秀 甲班 乙班 合计 2 已知在全部 105 人中随机抽取 1 人,成绩优秀的概率为 ,则下列说法正确的是( 7 A.列联表中 c 的值为 30,b 的值为 35 B.列联表中 c 的值为 15,b 的值为 50 C.根据列联表中的数据,若按 97.5%的可靠性要求,能认为“成绩与班级有关系” D.根据列联表中的数据,若按 97.5%的可靠性要求,不能认为“成绩与班级有关系” 答案 C 解析 由题意知,成绩优秀的学生数是 30,成绩非优秀的学生数是 75, 所以 c=20,b=45,选项 A、B 错误. 105×?10×30-20×45?2 根据列联表中的数据,得到 K2= ≈6.6>5.024, 55×50×30×75 因此有 97.5%的把握认为“成绩与班级有关系”. 4.为了解某班学生喜爱打篮球是否与性别有关,对该班 50 名学生进行了问卷调查,得到了 如下的 2×2 列联表: 喜爱打篮球 男生 女生 总计 20 10 30 不喜爱打篮球 5 15 20 总计 25 25 50 ) 10 c 非优秀 b 30 总计

则在犯错误的概率不超过 ________ 的前提下认为喜爱打篮球与性别有关 (请用百分数表 示). 答案 0.5% n?ad-bc?2 解析 K2= ?a+b??c+d??a+c??b+d? 50×?20×15-5×10?2 = ≈8.333>7.879, 25×25×30×20 所以在犯错误的概率不超过 0.005 的前提下认为喜爱打篮球与性别有关. 5.(2013· 福建)某工厂有 25 周岁以上(含 25 周岁)工人 300 名,25 周岁以下工人 200 名.为研 究工人的日平均生产量是否与年龄有关, 现采用分层抽样的方法, 从中抽取了 100 名工人, 先统计了他们某月的日平均生产件数,然后按工人年龄在“25 周岁以上(含 25 周岁)”和 “25 周岁以下”分为两组,再将两组工人的日平均生产件数分成 5 组:[50,60),[60,70), [70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.

(1)从样本中日平均生产件数不足 60 件的工人中随机抽取 2 人, 求至少抽到一名“25 周岁 以下组”工人的概率; (2)规定日平均生产件数不少于 80 件者为“生产能手”,请你根据已知条件完成 2×2 列 联表,并判断是否有 90%的把握认为“生产能手与工人所在的年龄组有关”? 解 (1)由已知得,样本中有 25 周岁以上组工人 60 名,25 周岁以下组工人 40 名.

所以, 样本中日平均生产件数不足 60 件的工人中, 25 周岁以上组工人有 60×0.05=3(人), 记为 A1,A2,A3; 25 周岁以下组工人有 40×0.05=2(人),记为 B1,B2. 从中随机抽取 2 名工人,所有的可能结果共有 10 种,它们是(A1,A2),(A1,A3),(A2,A3), (A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2). 其中,至少有 1 名“25 周岁以下组”工人的可能结果共有 7 种,它们是(A1,B1),(A1, B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2). 7 故所求的概率 P= . 10 (2)由频率分布直方图可知,在抽取的 100 名工人中,“25 周岁以上组”中的生产能手 60×0.25=15(人),“25 周岁以下组”中的生产能手 40×0.375=15(人),据此可得 2×2 列联表如下: 生产能手 非生产能手 合计

25 周岁以上组 25 周岁以下组

15 15

45 25 70

60 40 100

合计 30 2 n?ad-bc? 所以得 K2= ?a+b??c+d??a+c??b+d? 100×?15×25-15×45?2 25 = = ≈1.79. 14 60×40×30×70 因为 1.79<2.706.

所以没有 90%的把握认为“生产能手与工人所在的年龄组有关”.

创新题目技能练——统计、统计案例
A 组 专项基础训练 一、选择题 1.从 2 012 名学生中选取 50 名学生参加数学竞赛,若采用下面的方法选取:先用简单随机 抽样从 2 012 人中剔除 12 人, 剩下的 2 000 人再按系统抽样的方法抽取 50 人, 则在 2 012 人中,每人入选的概率 A.不全相等 25 C.都相等,且为 1 006 答案 C 解析 在各种抽样中,不管是否剔除个体,也不管抽取的先后顺序,每个个体被抽到的可 能性都是相等的,这是各种抽样的一个特点,也说明了抽样的公平性.故本题包括被剔除 50 25 的 12 人在内,每人入选的概率是相等的,都是 = . 2 012 1 006 2. 右图是根据某校 10 位高一同学的身高(单位:cm)画出的茎叶图,其中左边的数字从左到 右分别表示学生身高的百位数字和十位数字,右边的数字表示学生身高 的个位数字,从图中可以得到这 10 位同学身高的中位数是 A.161 cm 答案 B 161+163 解析 由给定的茎叶图可知,这 10 位同学身高的中位数为 =162(cm). 2
^ ^ ^

( B.均不相等 D.都相等,且为 1 40

)

(

)

B.162 cm

C.163 cm

D.164 cm

3.已知数组(x1,y1),(x2,y2),?,(x10,y10)满足线性回归方程y=bx+a,则“(x0,y0)满足 ^ ^ ^ x1+x2+?+x10 y1+y2+?+y10 线性回归方程y=bx+a”是“x0= ,y0= ”的 ( ) 10 10 A.充分不必要条件 C.充要条件 答案 B 解析 x0,y0 为这 10 组数据的平均值,
^ ^ ^ ^ ^ ^ ^

B.必要不充分条件 D.既不充分也不必要条件

根据公式计算线性回归方程y=bx+a的b以后,

再根据a= y -b x ( x , y 为样本平均值)求得a. 因此( x , y )一定满足线性回归方程,但满足线性回归方程的除了( x , y )外,可能还 有其他样本点. 4.在样本频率分布直方图中,共有 11 个小长方形,若中间一个小长方形的面积等于其他 10 1 个小长方形面积和的 ,且样本容量为 160,则中间一组的频数为 ( ) 4 A.32 B.0.2

C.40 答案 A

D.0.25

解析 由频率分布直方图的性质,可设中间一组的频率为 x,则 x+4x=1, ∴x=0.2,故中间一组的频数为 160×0.2=32,选 A. 5. 若某校高一年级 8 个班参加合唱比赛的得分茎叶图如图所示, 则这组数据的中位数和平均 数分别是 A.91.5 和 91.5 C.91 和 91.5 答案 A 1 解析 中位数为 ×(91+92)=91.5. 2 1 平均数为 ×(87+89+90+91+92+93+94+96) 8 =91.5. 二、填空题 6. 某校开展“爱我海西、爱我家乡”摄影比赛,9 位评委为参赛作品 A 给出的分数如茎叶图所示.记分员在去掉一个最高分和一个最 低分后,算得平均分为 91,复核员在复核时,发现有一个数字(茎 叶图中的 x)无法看清,若记分员计算无误,则数字 x 应该是________. 答案 1 解析 当 x≥4 时, 89+89+92+93+92+91+94 640 = ≠91,∴x<4, 7 7 89+89+92+93+92+91+x+90 则 =91,∴x=1. 7 7.甲、乙两人在 10 天中每天加工零件的个数用茎叶图表示如下图,中间一列的数字表示零 件个数的十位数,两边的数字表示零件个数的个位数,则这 10 天甲、乙两人日加工零件 的平均数分别为________和________. B.91.5 和 92 D.92 和 92 ( )

答案 24 23 1 解析 x 甲= ×(19+18+20+21+23+22+20+31+31+35)=24. 10 1 x 乙= ×(19+17+11+21+24+22+24+30+32+30)=23. 10 8. 如图所示是某公司(员工总人数 300 人)2012 年员工年薪情况的频率分布直方图, 由此可知, 员工中年薪在 2.4 万元~2.6 万元之间的共有________人.

答案 72 解析 由所给图形,可知员工中年薪在 2.4 万元~2.6 万元之间的频率为 1-(0.02+0.08 +0.08+0.10+0.10)×2=0.24, 所以员工中年薪在 2.4 万元~2.6 万元之间的共有 300×0.24=72(人). 三、解答题 9.某个体服装店经营某种服装,一周内获纯利 y(元)与该周每天销售这种服装的件数 x 之间 的一组数据如下: x
7

3
7

4 69
7

5 73

6 81

7 89

8 90

9 91

y

66

已知:∑ x2 y2 xiyi=3 487. i =280,∑ i =45 309,∑ = = =
i 1 i 1 i 1

(1)求 x , y ; (2)判断纯利润 y 与每天销售件数 x 之间是否线性相关,如果线性相关,求出线性回归方 程. 解 1 (1) x = (3+4+5+6+7+8+9)=6, 7 1 y = (66+69+73+81+89+90+91)≈79.86. 7
7 7 i 1 i 1

(2)根据已知∑ x2 y2 i =280,∑ i =45 309, = =
7 i=1

∑xiyi=3 487,得相关系数 ≈0.973. ?280-7×62??45 309-7×79.862?
^

r=

3 487-7×6×79.86

由于 0.973>0.75,所以纯利润 y 与每天销售件数 x 之间具有显著的线性相关关系. 利用已知数据可求得线性回归方程为y=4.75x+51.36. 10.某初级中学共有学生 2 000 名,各年级男、女生人数如表: 初一年级 女生 男生 373 377 初二年级 x 370 初三年级 y z

已知在全校学生中随机抽取 1 名,抽到初二年级女生的概率是 0.19. (1)求 x 的值; (2)现用分层抽样的方法在全校抽取 48 名学生,问应在初三年级抽取多少名? (3)已知 y≥245,z≥245,求初三年级中女生比男生多的概率.



x (1)因为 =0.19,所以 x=380. 2 000

(2)初三年级人数为 y+z=2 000-(373+377+380+370)=500, 48 现用分层抽样的方法在全校抽取 48 名学生, 应在初三年级抽取的人数为 500× =12. 2 000 (3)设“初三年级中女生比男生多”的事件为 A,初三年级中女生、男生人数记为(y,z); 由(2),知 y+z=500,且 y,z∈N,基本事件空间包含的基本事件有 (245,255)、(246,254)、(247,253)、?、(255,245)共 11 个, 事件 A 包含的基本事件有(251,249)、(252,248)、(253,247)、(254,246)、(255,245)共 5 个, 5 所以 P(A)= . 11 B 组 专项能力提升 1.某地区选出 600 名消防官兵参与灾区救援,将其编号为 001,002,?,600.为打通生命通 道,先采用系统抽样方法抽出 50 名为先遣部队,且随机抽得的号码为 003.这 600 名官兵 来源于不同的县市,从 001 到 300 来自 A 市,从 301 到 495 来自 B 市,从 496 到 600 来 自 C 市,则三个市被抽中的人数依次为 A.26,16,8 C.25,16,9 答案 B 解析 依题意可知,在随机抽样中,首次抽到 003 号,以后每隔 12 个号抽到一个人,则 分别是 003、015、027、039、051、063、075、?,容易知道抽到的编号构成以 3 为首项, 12 为公差的等差数列, 故被抽到的第 n 名消防官兵的编号为 an=3+(n-1)×12=12n-9, 由 1≤12nA-9≤300,则 1≤nA≤25,因此抽取到的 A 市的人数为 25 人. 同理可知其他两市的人数为 17 和 8.故选 B. 2. 在 2012 年 3 月 15 日那天, 南昌市物价部门对本市 5 家商场某商品的一天销售量及其价格 进行了调查,5 家商场的售价 x 元和销售量 y 件之间的一组数据如表所示: 价格 x 销售量 y
^ ^

(

)

B.25,17,8 D.24,17,9

9 11

9.5 10

10 8

10.5 6

11 5
^

通过散点图, 可知销售量 y 与价格 x 之间有较好的线性相关关系, 其回归直线的方程是y= -3.2x+a,则a等于 A.-24 答案 D 1 解析 由题意,得 x = ×(9+9.5+10+10.5+11)=10, 5 1 y = ×(11+10+8+6+5)=8, 5 且回归直线必经过点( x , y )即点(10,8),
^ ^

( C.40.5 D.40

)

B.35.6

则有 8=-3.2×10+a ,解得a=40.

3.已知某商场新进 3 000 袋奶粉,为检查其三聚氰胺是否达标,现采用系统抽样的方法从中 抽取 150 袋进行检查,若第一组抽出的号码是 11,则第六十一组抽出的号码为________. 答案 1211 3 000 解析 每组袋数 d= =20,由题意知抽出的这些号码是以 11 为首项,20 为公差的等 150 差数列,故第六十一组抽出的号码为 11+60×20=1211. 4.有同学在用电子邮件时发现了一个有趣的现象,中国人的邮箱名称里含有数字的比较多, 而外国人邮箱名称里含有数字的比较少. 为了研究国籍与邮箱名称是否含有数字有关, 于 是我们共收集了 124 个邮箱名称,其中中国人的 64 个,外国人的 60 个,中国人的邮箱中 有 43 个含数字, 外国人的邮箱中有 27 个含数字. 那么认为“国籍和邮箱名称里是否含有 数字有关”的把握性为________.(用百分数表示) n?ad-bc?2 K2= ?a+b??c+d??a+c??b+d? P(K2≥k0) k0 答案 97.5% 解析 中国人 有数字 无数字 43 21 外国人 27 33 总计 70 54 124 0.25 1.323 0.15 2.072 0.10 2.706 0.05 3.841 0.025 5.024 0.010 6.635

总计 64 60 2 124×?43×33-27×21? 由表中数据,得 K2= ≈6.201, 70×54×64×60

∵K2≥5.024,∴有 97.5%的把握认为“国籍和邮箱名称里是否含有数字有关”. 5.某校高三数学竞赛初赛后,对考生成绩进行统计(考生成绩均不低于 90 分,满分 150 分), 将成绩按如下方式分成六组, 第一组[90,100), 第二组[100,110), ……, 第六组[140,150]. 如 图所示为其频率分布直方图的一部分,第四组,第五组,第六组的人数依次成等差数列, 且第六组有 4 人.

(1)请补充完整频率分布直方图,并估计这组数据的平均数 M;(计算时可以用组中值代替 各组数据的平均值) (2)现根据初赛成绩从第四组和第六组中任意选 2 人,记他们的成绩分别为 x,y,若|x-

y|≥10,则称此 2 人为“黄金帮扶组”,试求选出的 2 人为“黄金帮扶组”的概率. 解 (1)设第四组,第五组的频率分别为 m,n,

则 2n=m+0.005×10,① m+n=1-(0.005+0.015+0.020+0.035)×10,② 由①②解得 m=0.15,n=0.1, 从而得出频率分布直方图(如图所示).

M=95×0.2+105×0.15+115×0.35+125×0.15+135×0.1+145×0.05=114.5. 0.015 (2)依题意,知第四组人数为 4× =12,而第六组有 4 人,所以第四组和第六组一共 0.005 有 16 人,从中任选 2 人,一共有 C2 16=120(种)选法,若满足|x-y|≥10,则一定是分别从
1 两个小组中各选 1 人,因此有 C1 12C4=48(种)选法, 48 2 所以选出的 2 人为“黄金帮扶组”的概率 P= = . 120 5


赞助商链接

更多相关文章:
步步高2015高三物理(新课标)一轮讲义:11.3热力学定律
步步高2015高三物理(新课标)一轮讲义:11.3热力学定律...理过程的方向性,了解热力学第二定律.3.掌握能量...由理想气体状态方程有 = ,代入数据解得 V=2.8×...
...数学大一轮总复习(人教新课标文科)配套文档 11.3 几...
2016届《步步高》高考数学大一轮总复习(人教新课标文科)配套文档 11.3 几何概...无法找出准确的几何度量来计算概率. 规范解答 解设 x、y 表示三段长度中的任意...
章 第4讲 【2016化学大一轮步步高答案】
章 第4讲 【2016化学大一轮步步高答案】_高考...讲义详解、答案全解学习资料,教材详解,答案,全解,...题组二 合金的性能特点及应用 3.2015 年底将在...
步步高2015高三物理(新课标)一轮讲义:11.2固体、液体和...
步步高2015高三物理(新课标)一轮讲义:11.2固体、液体...同理体积增大时,温度不变、降低、 升高都可能使...由①至⑤式及题给数据解得 Δl=15.0 cm 3.(...
步步高2015高考数学(人教A理)轮讲义:11.1随机抽样
步步高2015高考数学(人教A理)轮讲义:11.1随机抽样_高三数学_数学_高中教育_...(x+300)人, 学校共有 4x+300=3 500(人), 1 1 解得 x=800(人), ...
【苏教版(理)】【步步高】2014届高三数学大一轮复习讲...
(理)】【步步高】2014届高三数学大一轮复习讲义【Word版导学案】第11章 学案65...2 1 变式迁移 1 解 (1)P(X=0)= 3= ; A3 3 C1 1 1 1 3 P(X=...
步步高】2017版高考地理大一轮复习 第3章 自然环境中...
步步高】2017版高考地理大一轮复习 第3章 自然环境中的物质运动和能量交换 第11讲 水循环和洋流讲义_政史地_高中教育_教育专区。第 11 讲 水循环和洋流 考点...
步步高】2014届高三数学大一轮复习 11.2用样本估计总...
步步高】2014届高三数学大一轮复习 11.2用样本估计总体教案 理 新人教A版_数学...5 5 2. (2011·浙江)某中学为了解学生数学课程的学习情况,在 3 000 名学...
更多相关标签:

All rights reserved Powered by 甜梦文库 9512.net

copyright ©right 2010-2021。
甜梦文库内容来自网络,如有侵犯请联系客服。zhit325@126.com|网站地图