9512.net
甜梦文库
当前位置:首页 >> 数学 >>

1.1回归分析的基本思想及其初步应用



1.1回归分析的基本 思想及其初步应用
第一课时

必修3(第二章 统计)知识结构
收集数据
(随机抽样)
整理、分析数据估 计、推断 用样本估计总体 变量间的相关关系

简 单 随 机 抽

分 层 抽 样

系 统 抽 样

用样本 的

频率 分布估 计总体 分布

用样本 数字特 征估计 总体数 字特征

线 性 回 归 分 析

问题1:现实生活中两个变量间的关系有哪些呢? 不相关 1、两个变量的关系

函数关系 相关关 系
线性相关 非线性相关

相关关系:对于两个变量,当自变量取值一定时, 因变量的取值带有一定随机性的两个变量之间的关 系。

思考:相关关系与函数关系有怎样的不同?
函数关系中的两个变量间是一种确定性关系 相关关系是一种非确定性关系 函数关系是一种理想的关系模型 相关关系在现实生活中大量存在,是更一般 的情况

问题2:对于线性相关的两个变量用什么方法来刻 划之间的关系呢? 2、最小二乘估计 最小二乘估计下的线性回归方程:
?? b

? ( x ? X )( y
i ?1 i n i ?1

n

i

?Y )

? ?a ? ? bx ? y

2 ( X ? X ) ? i

? ? ? Y ? bX a

b?

?

?x y ?nx y
i ?1 n i i

n

? ?

? ?a ? ? bx ? y
?

?x
i ?1

2

i

?nx

?2

a ? y? b x
1 n x ? ? xi n i ?1
?

?

? ?

回归直线必过样本点的中心

( x, y )

?

?

1 n y ? ? yi n i ?1
?

2、回归直线方程: ? +a 1、所求直线方程 y ? 叫做回归直 ? = bx --线方程;其中

?

?= b

?(x
i=1

n

i

- x)(yi - y) = - x)
2 i

?x y
i i=1 n

n

i

- nxy
2

?(x
i=1

n

?x
i=1

,

2 i

- nx

? ? = y - bx a

2.相应的直线叫做回归直线。 3、对两个变量进行的线性分析叫做线性回 归分析。

3、回归分析的基本步骤:
画散点图

求回归方程
预报、决策
这种方法称为回归分析.

回归分析是对具有相关关系的两个变量进行统计 分析的一种常用方法.

比《数学3》中“回归”增加的内容
数学3——统计 1. 画散点图 2. 了解最小二乘法的 思想 3. 求回归直线方程 y=bx+a 4. 用回归直线方程解 决应用问题 选修1-2——统计案例 5. 引入线性回归模型 y=bx+a+e 6. 了解模型中随机误差项e产生 的原因 7. 了解相关指数 R2 和模型拟合 的效果之间的关系 8. 了解残差图的作用 9. 利用线性回归模型解决一类非 线性回归问题 10. 正确理解分析方法与结果

问题一:结合例1得出线性回归模型及随机误差。并且区 分函数模型和回归模型。
例1 从某大学中随机选取8名女大学生,其身高和体重数据如表1-1所示。 编号 身高/cm 体重/kg 1 165 48 2 165 57 3 157 50 4 170 54 5 175 64 6 165 61 7 155 43 8 170 59

求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为 172cm的女大学生的体重。 解:1、选取身高为自变量x,体重为因变量y,作散点图:

2.回归方程:

?? b
?

?? x
i ?1 n

n

i

? x ?? yi ? y ?
i

? ? 0.849x ? 85.172 y

?? x
i ?1

? x?

? 0.849

2

a ? y ? bx ? ?85.712

身高172cm女大学生体重 ? = 0.849×172 - 85.712 = 60.316(kg) y
探究:身高为172cm的女大学生的体重一定是60.316kg吗?如果 不是,你能解析一下原因吗?

答:用这个回归方程不能给出每个身高为172cm的女大学生的体重的预测值, 只能给出她们平均体重的估计值。

由于所有的样本点不共线,而只是散布在某一直线的附近,所 以身高和体重的关系可以用线性回归模型来表示:

y ? bx ? a ? e
其中a和b为模型的未知参数,e称为随机误差.

函数模型与“回归模型”的关系

函数模型:因变量y完全由自变量x确定
回归模型: 预报变量y完全由解释变量x和随机误差e确定

思考:产生随机误差项e的原因
是什么?
注:e 产生的主要原因: (1)所用确定性函数不恰当; (2)忽略了某些因素的影响; (3)观测误差。

问题二:在线性回归模型中,e是用bx+a预报真实值y的随机误差,

它是一个不可观测的量,那么应如何研究随机误差呢?
e=y-(bx+a)

残差:一般的对于样本点(x1 ,y1),(x2 ,y2 ),...,(xn ,yn ),它们的随机误差为 ei ? yi ? bxi ? a, i ? 1, 2,...n, 其估计值为ei ? yi ? y i ? yi ? b xi ? a, i ? 1, 2,...n ei 称为相应于点(xi ,yi )的残差。
? ? ? ? ?

结合例1除了身高影响体重外的其他因素是不可测量的,不能希望有某种方法获 取随机误差的值以提高预报变量的估计精度,但却可以估计预报变量观测值中所包 含的随机误差,这对我们查找样本数据中的错误和模型的评价极为有用,因此在此 我们引入残差概念。

? 随机误差 e ? y ? y
相应的随机误差为:

e的估计量

?? y? y ? e

样本点: ( x1 , y1 ),( x2 , y2 ), ... ,( xn , yn )

? i ? yi ? bxi ? a, i ? 1,2,..., n ei ? yi ? y
随机误差的估计值为:

? i 称为相应于点 ( xi , yi ) 的残差. e

? ?a ?i ? yi ? y ? i ? yi ? bx ? , i ? 1,2,..., n e i

n 1 1 2 2 ? )( n ? 2) 为 ? 2 的估计量 ? ? ? ? ? e ? Q ( a , b ? i n ? 2 i ?1 n?2 ? ) 称为残差平方和. ?,b Q( a

问题三:如何发现数据中的错误?如何衡量随机模型的拟合效果?
(1)我们可以通过分析发现原始数据中的可疑数据,判断建立模型的拟合效果。

? ? ? ? ? ? ? 1)计算 ei ? y ? b x ? a ( (i=1,2,...n) i i ? ? 残差分析( ? 2)画残差图 ? ( 1 )查找异常样本数据 ? ? ? ? (3)分析残差图( ? 2)残差点分布在以O为中心的水平带状区域,并沿 ? ?水平方向散点的分布规律相同。 ? ? ?

残差图的制作和作用:
制作:坐标纵轴为残差变量,横轴可以有不同的选择.

横轴为编号:可以考察残差与编号次序之间的关系, 用于调查数据错误.



横轴为解释变量:可以考察残差与解释变量的关系,常用 于研究模型是否有改进的余地.

作用:判断模型的适用性若模型选择的正确,残差图中的点应 该分布在以横轴为中心的带形区域.

下面表格列出了女大学生身高和体重的原始数据以及相应的残差数据。

编号 身高/cm 体重/kg 残差

1 165 48
-6.373

2 165 57
2.627

3 157 50
2.419

4 170 54
-4.618

5 175 64
1.137

6 165 61
6.627

7 155 43
-2.883

8 170 59
0.382

残差图的制作及作用。 ?几点说明: 坐标纵轴为残差变量,横轴可以有不同的选择; 第一个样本点和第6个样本点的残差比较大,需要确认在采集过程中是否有人为的错误。 ? 若模型选择的正确,残差图中的点应该分布在以横轴 如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数据;如果数据采 集没有错误,则需要寻找其他的原因。 为心的带形区域; 另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型计较合适,这样的带 ? 对于远离横轴的点,要特别注意。 状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高。

身 高 与 体 重 残 差 图

异 常 点
? 错误数据 ? 模型问题

误差与残差,这两个概念在某程度上具有很大的相似性, 都是衡量不确定性的指标,可是两者又存在区别。 误差与测量有关,误差大小可以衡量测量的准确性,误差 越大则表示测量越不准确。误差分为两类:系统误差与 随机误差。其中,系统误差与测量方案有关,通过改进测 量方案可以避免系统误差。随机误差与观测者,测量工具, 被观测物体的性质有关,只能尽量减小,却不能避免。 残差――与预测有关,残差大小可以衡量预测的准确性。 残差越大表示预测越不准确。残差与数据本身的分布特性, 回归方程的选择有关。

1.1回归分析的基本 思想及其初步应用
第二课时

我们可以用相关指数R2来刻画回归的效果,其计算公式是
2 ? ( y ? y ) ? i i 2 ( y ? y ) ? i i ?1 i ?1 n n

R ? 1?
2

残差平方和 ? 1? 。 总偏差平方和

显然,R2的值越大,说明残差平方和越小,也就是说模型拟合效果越好。

在线性回归模型中,R2表示解析变量对预报变量变化的贡献率。
R2越接近1,表示回归的效果越好(因为R2越接近1,表示解析变量和预报变量的 线性相关性越强)。 如果某组数据可能采取几种不同回归方程进行回归分析,则可以通过比较R2的值 来做出选择,即选取R2较大的模型作为这组数据的模型。

总的来说: 相关指数R2是度量模型拟合效果的一种指标。 在线性模型中,它代表自变量刻画预报变量的能力。

负相关

正相关

相关关系的测度
(相关系数取值及其意义)
完全负相关 无线性相关 完全正相关

-1.0

-0.5

0

+0.5
正相关程度增加

+1.0

r
负相关程度增加

相关系数
r=

?(x
i=1

n

i

- x)(yi - y)
2

?(x
i=1

n

i

- x)

?(y
i=1

n

?
i

?x y
i?1

n

i i

?nxy

_ _

- y)

2

? n 2 ? _ ?2 ?? n 2 ? _ ?2 ? ? ? xi ? n? x ? ?? ? yi ? n? y ? ? ? i?1 ?? i?1 ? ? ? ? ? ? ?? ?

相关系数的性质 (1)|r|≤1. (2)|r|越接近于1,相关程度越强;|r|越接近于0,相关 程度越弱. ? 注:b 与 r 同号 ? 问题:达到怎样程度,x、y线性相关呢?它们的相关程 度怎样呢?

相关系数

r?

?(x
i=1 n i=1

n

i

- x)(yi - y)
n

2 2 (x x) × (y y) ? i ? i i=1

r>0正相关;r<0负相关.通常:

r∈[-1,-0.75]--负相关很强;
r∈[0.75,1]—正相关很强; 对r进行显 著性检验

r∈[-0.75,-0.3]--负相关一般; r∈[0.3, 0.75]—正相关一般;
r∈[-0.25, 0.25]--相关性较弱;

?

我们可以用相关指数R2来刻画回归的效果,其计算公式是
2 ? ( y ? y ) ? i i 2 ( y ? y ) ? i i ?1 i ?1 n n

R ? 1?
2

残差平方和 ? 1? 。 总偏差平方和

R ?
2

2 ? ( y ? y ) ? ( y ? y ) ? i ? i i 2 i ?1 i ?1 2 ( y ? y ) ? i i ?1 n

n

n

总偏差平方和 ? 残差平方和 回归平方和 ? ? 总偏差平方和 总偏差平方和

下面我们用相关指数分析一下例1:

来源 回归变量 残差变量 总计


平方和 225.639 128.361 354

比例 0.64 0.36 1

预报变量的变化程度可以分解为由解释变量引起的变化程度与残差 变量的变化程度之和,即 n n n 2 2 ? yi ? y ) 2 ? ( yi ? y) ? ? ( yi ? yi ) ? ? ( ?
i ?1 i ?1 i ?1

从上中可以看出,解析变量对总效应约贡献了64%,即 R2 ?0.64,可以叙述为“身高解析了64%的体重变化”,而随机误 差贡献了剩余的36%。 所以,身高对体重的效应比随机误差的效应大得多。

问题四:结合例1思考:用回归方程预报体重时应注意什么?

1.回归方程只适用于我们所研究的样本的总体。 2.我们建立的回归方程一般都有时间性。 3.样本取值的范围会影响回归方程的适用范围。 4.不能期望回归方程得到的预报值就是预报变量的精确值。 涉及到统计的一些思想: 模型适用的总体;模型的时间性; 样本的取值范围对模型的影响;模型预报结果的正确理解。

问题五:归纳建立回归模型的基本步骤
一般地,建立回归模型的基本步骤为:

(1)确定研究对象,明确哪个变量是解析变量,哪个变量是预报变量。
(2)画出确定好的解析变量和预报变量的散点图,观察它们之间的关系 (如是否存在线性关系等)。

(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线 性回归方程y=bx+a).
(4)按一定规则估计回归方程中的参数(如最小二乘法)。 (5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现 不随机的规律性,等等),过存在异常,则检查数据是否有误,或模型是否合 适等。

问题六:若两个变量呈现非线性关系,如何解决? (分析例2)
例2 一只红铃虫的产卵数y和温度x有关。现收集了7组观测数据列于表中:

温度xoC 产卵数y/个

21 7

23 11

25 21

27 24

29 66

32 115

35 325

(1)试建立产卵数y与温度x之间的回归方程;并预测温度为28oC时产卵数目。

(2)你所建立的模型中温度在多大程度上解释了产卵数的变化?

方 法 一 : 一 元 函 数 模 型

选变量

350 300 250

解:选取气温为解释变量x,产卵数 为预报变量y。

画散点图

200 150 100

选模型

50

0
0 3 6 9 12 15 18 21 24 27 30 33 36 39

估计参数

假设线性回归方程为 :?=bx+a 由计算器得:线性回归方程为y=19.87x-463.73

分析和预测

相关指数R2=r2≈0.8642=0.7464
当 x =28 时, =19.87 28463.73≈ 当 x =28 时, yy =19.87 ×× 28463.73≈ 93 93
所以,一次函数模型中温度解释了74.64%的产卵数变化。

问题1

选用y=c1x2+c2 ,还是y=c1x2+cx+c2 ? 如何求c1、c2?
y= c1 x2+c2 非线性关系 产卵数 变换
t=x2

方 法 二 , 二 元 函 数 模 型

问题2

问题3

y= c1 t+c2 线性关系

400 300 200 100

-40

-30

-20

0 -10 0 -100 -200

气 温
10 20 30 40

平方变换:令t=x2,产卵数y和温度x之间二次函数模型y=bx2+a就转化 为产卵数y和温度的平方t之间线性回归模型y=bt+a
温度 温度的平方t 产卵数y/个 21 441 7 23 529 11 25 625 21 27 729 24 29 841 66 32 1024 115 35 1225 325

作散点图,并由计算器得:y和t之间的线性回归方程为 y=0.367t-202.54,相关指数R2=r2≈0.8962=0.802 将t=x2代入线性回归方程得: y=0.367x2 -202.54 当x=28时,y=0.367×282202.54≈85,且R2=0.802, 所以,二次函数模型中温度解 释了80.2%的产卵数变化。
产卵数y/个 350 300 250 200 150 100 50 0 0 150 300 450 600 750 900 1050 1200 1350

t

方 法 三 : 指 数 函 数 模 型

-10

产卵数 450 400 350 300 250 200 150 100 50 0 -5 -50 0

气 温

5

10

15

20

25

30

35

40

y ? c3ec4 x
非线性关系

变换 对数

y=bx+a

线性关系

ln y ? ln c3 ? ln e

c4 x

? ln c3 ? c4 x ln e ? ln c3 ? c4 x

令 ln c3 ? a, c4 ? b, ln y ? z, 则有z ? bx ? a
温度x/
?

21 23 25 27 29
c
1.94 2.39 3.40 3.17 4.19 6 8 5 8 0

32

35

Z=lny

4.745 5.784
115 325

产卵数y/个

7

11 21 24 66
^

由计算器得:z关于x的线性回归方程
2 R ? 0.98 相关指数

z ? 0.272 x ? 3.489

因此y关于x的非线性回

归方程为
当x=28
?

y ? e 0.272 x ?3.489
C 时,y ≈44 ,指数回归模型中温度解释了98%的产卵数的变化

^

最好的模型是哪个?

函数模型 线性回归模型 二次函数模型 指数函数模型

相关指数R2 0.7464 0.802 0.98
显然,指数函数模型最好!

利用残差计算公式:

? y

(1)
(1)

?e

0.272 x ? 3.849
(1)

(2) 2 ? y ? 0.367 x ? 202.543

?i e
X

?i ? yi ? y
23

? yi ? e
25

0.272 xi ? 3.849

, i ? 1,2,?,7
32 35

?i (2) ? yi ? y ? i (2) ? yi ? 0.367 xi 2 ? 202.543, i ? 1,2,?,7 e
21 27 29

Y

7

11

21

24 -8.950 -41.000

66 9.230 -40.104

115 -13.381 -58.265

325 34.675 77.968

?i(1) 0.557 -0.101 1.875 e ?i( 2) 47.696 19.400 -5.832 e
n

2 (1) (2) ? ? ? ? Q ? e 由残差平方和: Q ? 1550.538, Q ? 15448.431. ? i

或由条件R2分别为0.98和0.80,同样可得它们的效果. 故指数函数模型的拟合效果比二次函数的模拟效果好.

i ?1

在散点图中,样本点没有分布在某个带状区域内,因 此两个变量不呈现线性相关关系,所以不能直接利用 线性回归方程来建立两个变量之间的关系. 根据已有的函数知识,可以发现样本点分布在某一条指 数函数曲线 y ? c e c2 x的周围,其中c1和c2是待定参数.
1

令z=lny,则变换后样本点应该分布在直线z=bx+a (a=lnc1,b=c2)的周围.

利用线性回归模型建立y和x之间的非线性回归方程. 当回归方程不是形如y=bx+a时,我们称之为非线性回归方 程.

课堂知识延伸
我们知道,刑警如果能在案发现场提取到罪犯的脚印,即将获得一条重要的破 案线索,其原因之一是人类的脚掌长度和身高存在着相关关系,可以根据一个人的 脚掌长度来来预测他的身高…… 我们还知道,在统计史上,很早就有人收集过人们的身高、前臂长度等数据, 试图寻找这些数据之间的规律…… 在上述两个小故事的启发下,全班同学请分成一些小组,每组4-6名同学,在老 师的指导下,开展一次数学建模活动,来亲自体验回归分析的思想方法,提高自己的 实践能力。 数学建模的题目是:收集一些周围人们的脚掌长度、前臂长度中的一个数据及其 身高,来作为两个变量画散点图,如果这两个变量之间具有线性相关关系,就求出回 归直线方程,另选一个人的这两个变量的数据,作一次预测,并分析预测结果。 最后以小组写出数学建模报告,报告要求过程清晰,结论明确,有关数学论述准 确,以下两个问题需要注意: (1)如果脚掌长度不方便,可改量脚印的长度。 (2)数据尽量取得分散一些。

回归分析的基本思想及其初步应用

探索无止境

探索无止境

探索无止境

探索无止境



更多相关文章:
1、1回归分析的基本思想及其初步应用
新课标 数学 选修 1-2 1.1 回归分析的基本思想及其初步应用 (教师用书独具) ●三维目标 1.知识与技能 通过典型案例的探究, 了解回归分析的基本思想,会对两个...
1.1回归分析的基本思想及其初步应用
阿尔山市一中高二年级数学学科导学案主备人 课题 代丽艳 课时 1 时间 45 分钟 1.1 回归分析的基本思想及其初步应用 学习目标 1.知识与技能:回忆线性回归模型与...
1.1回归分析的基本思想及其初步应用 教学设计 教案
1.1回归分析的基本思想及其初步应用 教学设计 教案。教学准备 1. 教学目标 1、能根据散点分布特点,建立不同的回归模型;了解有些非线性模型通过转化可以 转化为...
1.1回归分析的基本思想及其初步应用(第1课时)教案说明
1.1 回归分析的基本思想及其初步应用(第 1 课时)教案说明 . 回归分析的基本思想及其初步应用( 课时) 教材: 授课教师: 人民教育出版社 A 版选修 1-2 第 2 ...
1.1回归分析的基本思想及其初步应用第2课时
1.1回归分析的基本思想及其初步应用第2课时_数学_高中教育_教育专区。巴东一中高二年级数学组 §1.1 【学情分析】 : 回归分析的基本思想及其初步(二) 教学对象...
1.1回归分析的基本思想及其初步应用53
※高二文科班数学课堂学习单 53※ 班级 姓名 小组 1.1 回归分析的基本思想及其初步应用 一,学习目标: 1、 理解回归分析的基本思想 2、 能用线性回归思想分析...
选修1-2 1.1 回归分析的基本思想及其初步应用
高中数学新课标选修 1-2 课时计划 东升高中高二备课组 授课时间: 2007 年月日(星期 )第节 总第 课时 第一课时 1.1 回归分析的基本思想及其初步应用(一) ...
1.1.1_回归分析的基本思想及其初步应用教案
高中数学新课标选修 1-2 课时计划 授课时间: 2012 年月日(星期 )第节 总第 课时 第一课时 1.1 回归分析的基本思想及其初步应用(一) 教学要求:通过典型案例...
1.1.1回归分析的基本思想及其初步应用
1.1.1回归分析的基本思想及其初步应用_数学_高中教育_教育专区。2015——2016 学年度下学期高二(文)数学组教学案(1-2) 主备人: 审核人: 本学期第 课时 本...
更多相关标签:
回归分析的基本思想    logistic回归基本思想    逐步回归的基本思想    逐步回归法的基本思想    毛泽东思想初步形成于    毛泽东思想初步形成    毛泽东思想的初步形成    毛泽东思想初步形成在    

All rights reserved Powered by 甜梦文库 9512.net

copyright ©right 2010-2021。
甜梦文库内容来自网络,如有侵犯请联系客服。zhit325@126.com|网站地图