2.3 2.3.1 2.3.2
变量间的相关关系 变量之间的相关关系 两个变量的线性相关
第二课时
问题提出
? 1 ? 5730 p?? ? ?2?
t
1. 两个变量之间的相关关系的含义如 何?成正相关和负相关的两个相关变量 的散点图分别有什么特点? 自变量取值一定时,因变量的取值带有 一定随机性的两个变量之间的关系. 正相关的散点图中的点散布在从左下角 到右上角的区域,负相关的散点图中的 点散布在从左上角到右下角的区域
2.观察人体的脂肪含量百分比和年龄的样本 数据的散点图,这两个相关变量成正相关. 我们需要进一步考虑的问题是,当人的年龄 增加时,体内脂肪含量到底是以什么方式增 加呢?对此,我们从理论上作些研究.
脂肪含量
40 35 30 25 20 15 10 5 0 20 25 30 35 40 45 50 55 60 65 年龄
知识探究(一):回归直线
思考1:一组样本数据的平均数是样本数 据的中心,那么散点图中样本点的中心 如何确定?它一定是散点图中的点吗?
脂肪含量
40 35 30 25 20 15 10 5 0 20 25 30 35 40 45 50 55 60 65 年龄
(x , y )
思考2:在各种各样的散点图中,有些散点图 中的点是杂乱分布的,有些散点图中的点的 分布有一定的规律性,年龄和人体脂肪含量 的样本数据的散点图中的点的分布有什么特 点?
脂肪含量
40 35 30 25 20 15 10 5 0 20 25 30 35 40 45 50 55 60 65 年龄
这些点大致分布在一条直线附近.
脂肪含量
思考3:如果散点图中的点的分布,从整 体上看大致在一条直线附近,则称这两 个变量之间具有线性相关关系,这条直 线叫做回归直线.对具有线性相关关系的 两个变量,其回归直线一定通过样本点 的中心吗?
40 35 30 25 20 15 10 5 0 20 25 30 35 40 45 50 55 60 65 年龄
思考4:对一组具有线性相关关系的样本 数据,你认为其回归直线是一条还是几 条?
脂肪含量
40 35 30 25 20 15 10 5 0 20 25 30 35 40 45 50 55 60 65 年龄
思考5:在样本数据的散点图中,能否 用直尺准确画出回归直线?借助计算机 怎样画出回归直线?
脂肪含量
40 35 30 25 20 15 10 5 0 20 25 30 35 40 45 50 55 60 65 年龄
知识探究(二):回归方程
在直角坐标系中,任何一条直线都有相 应的方程,回归直线的方程称为回归方 程.对一组具有线性相关关系的样本数 据,如果能够求出它的回归方程,那么 我们就可以比较具体、清楚地了解两个 相关变量的内在联系,并根据回归方程 对总体进行估计.
思考1:回归直线与散点图中各点的位置 应具有怎样的关系?
脂肪含量
40 35 30 25 20 15 10 5 0 20 25 30 35 40 45 50 55 60 65 年龄
整体上最接近
思考2:对于求回归直线方程,你有哪 些想法?
脂肪含量
40 35 30 25 20 15 10 5 0 20 25 30 35 40 45 50 55 60 65 年龄
思考3:对一组具有线性相关关系的样 本数据:(x1,y1),(x2,y2),…,(xn, ? y = bx +a yn),设其回归方程为 可以 用哪些数量关系来刻画各样本点与回 归直线的接近程度?
(xi,yi)
(x1, y1)
(x2,y2)
(xn,yn)
可以用 |
其中
?
y i - y i | 或 (y i - y )
?
? 2 , i
y i = bx i + a .
思考4:为了从整体上反映n个样本数 据与回归直线的接近程度,你认为选 用哪个数量关系来刻画比较合适?
(xi,yi) (x1, y1) (x2,y2) (xn,yn)
?i ) Q ? ? ( yi ? y
i ?1
n
2
? ( y1 ? bx1 ? a) ? ( y2 ? bx2 ? a) ?
2 2
? ( yn ? bxn ? a)
2
思考5:根据有关数学原理分析,当
b?
? (x
i ?1 n
n
i
? x )( yi ? y )
2 ( x ? x ) ? i i ?1
?
n
?x y
i ?1 n i i ?1
n
i
? nx y , a ? y ? bx
2 2 x ? nx ? i
?i )2 为最小,这样 时,总体偏差 Q ? ? (yi ? y
i ?1
就得到了回归方程,这种求回归方程的 ? 方法叫做最小二乘法.回归方程 y = bx + a 中,a,b的几何意义分别是什么?
思考6:利用计算器或计算机可求得年龄和 人体脂肪含量的样本数据的回归方程为 ? y = 0.577x - 0.448 ,由此我们可以根据 一个人个年龄预测其体内脂肪含量的百分 比的回归值.若某人37岁,则其体内脂肪含 量的百分比约为多少?
脂肪含量
40 35 30 25 20 15 10 5 0 20 25 30 35 40 45 50 55 60 65 年龄
20.9%
理论迁移
例 有一个同学家开了一个小卖部, 他为了研究气温对热饮销售的影响,经 过统计,得到一个卖出的饮料杯数与当 天气温的对比表:
摄氏温 度(℃) -5 0 4 7 12
热饮杯 数 15
116
156 19
104
150 23
89
132 27
93
128 31
76
130 36
54
摄氏温 度(℃)
热饮杯 数 15
-5
156 19
0
150 23
4
132 27
7
128 31
12
130 36
116
104
89
93
76
54
(1)画出散点图; (2)从散点图中发现气温与热饮杯数之 间关系的一般规律; (3)求回归方程; (4)如果某天的气温是2℃,预测这天卖 出的热饮杯数.
180 160 140 120 100 80 60 40 20 0 -10 0 10 20 30 y = -2.3517x + 147.77 40 温度
热饮杯数
当x=2时,y=143.063.
小结作业 1.求样本数据的线性回归方程,可按 下列步骤进行: 第一步,计算平均数 x , y
第二步,求和
第三步,计算 b ? i?1
?x y , ?x ? ( x ? x )( y ? y ) ? x y ? nx y
2
n
n
i ?1 n
i
i
i ?1
i
n
i
i
2 ( x ? x ) ? i i ?1
n
?
i ?1 n
i i
2 2 x ? nx ?i i ?1
, a ? y ? bx
第四步,写出回归方程 y
?
= bx + a
2.回归方程被样本数据惟一确定,各样本点 大致分布在回归直线附近.对同一个总体, 不同的样本数据对应不同的回归直线,所以 回归直线也具有随机性.
3.对于任意一组样本数据,利用上述公式都 可以求得“回归方程”,如果这组数据不具 有线性相关关系,即不存在回归直线,那么 所得的“回归方程”是没有实际意义的.因此, 对一组样本数据,应先作散点图,在具有线 性相关关系的前提下再求回归方程.
作业: P94习题2.3 A组:2,3. B组:1.