9512.net
甜梦文库
当前位置:首页 >> >>

最新应用回归分析-第9章课后习题参考答案

精品文档

第 9 章 含定性变量的回归模型

思考与练习参考答案

9.1 一个学生使用含有季节定性自变量的回归模型,对春夏秋冬四个季节引入 4

个 0-1 型自变量,用 SPSS 软件计算的结果中总是自动删除了其中的一个自变量,

他为此感到困惑不解。出现这种情况的原因是什么?

答:假如这个含有季节定性自变量的回归模型为:

Yt ? ?0 ? ?1 X1t ???k X kt ??1D1t ??2D2t ??3D3t ? ?t
其中含有 k 个定量变量,记为 xi。对春夏秋冬四个季节引入 4 个 0-1 型自变量, 记为 Di,只取了 6 个观测值,其中春季与夏季取了两次,秋、冬各取到一次观测 值,则样本设计矩阵为:

??1 X11 ? X k1 1 0 0 0??

?1 X12 ? X k2 0 1 0 0?

(X,D) ? ??1

X 13

?

X k3

0

0

1

0

? ?

?1 X14 ? X k4 0 0 0 1?

??1

X 15

?

X k5

0

1

0

0

? ?

??1 X 16 ? X k6 1 0 0 0??

?? ?0 ??

β?

? ? ???

?1 ?
?k

? ? ???

???1 ??

α?

?? ??????

2 3 4

? ? ???

显然,(X,D)中的第 1 列可表示成后 4 列的线性组合,从而(X,D)不满秩,参

数无法唯一求出。这就是所谓的“虚拟变量陷井”,应避免。

当某自变量

xj

对其余

p-1

个自变量的复判定系数

R

2 j

超过一定界限时,SPSS

软件将拒绝这个自变量 xj 进入回归模型。称 Tolj=1- R2j 为自变量 xj 的容忍度
(Tolerance),SPSS 软件的默认容忍度为 0.0001。也就是说,当 R2j >0.9999 时,自变量 xj 将被自动拒绝在回归方程之外,除非我们修改容忍度的默认值。

而在这个模型中出现了完全共线性,所以 SPSS 软件计算的结果中总是自动

删除了其中的一个定性自变量。

9.2 对自变量中含有定性变量的问题,为什么不对同一属性分别建立回归模型, 而采取设虚拟变量的方法建立回归模型?

精品文档

精品文档
答:原因有两个,以例 9.1 说明。一是因为模型假设对每类家庭具有相同的斜率 和误差方差,把两类家庭放在一起可以对公共斜率做出最佳估计;二是对于其他 统计推断,用一个带有虚拟变量的回归模型来进行也会更加准确,这是均方误差 的自由度更多。

9.3 研究者想研究采取某项保险革新措施的速度 y 对保险公司的规模 x1 和保险 公司类型的关系(参见参考文献【3】)。因变量的计量是第一个公司采纳这项

革新和给定公司采纳这项革新在时间上先后间隔的月数。第一个自变量公司的

规模是数量型的,用公司的总资产额(百万美元)来计量;第二个自变量公司

是定性变量,由两种类型构成,即股份公司和互助公司。数据资料见表 9.8,试

建立 y 对公司规模和公司类型的回归。

表 9.8

i

y

x1

1

17

151

2

26

92

3

21

175

4

30

31

5

22

104

6

0

277

7

12

210

8

19

120

9

4

290

10

16

238

11

28

164

12

15

272

13

11

295

14

38

68

15

31

85

16

21

224

17

20

166

18

13

305

19

30

124

20

14

246

公司类型 互助 互助 互助 互助 互助 互助 互助 互助 互助 互助 股份 股份 股份 股份 股份 股份 股份 股份 股份 股份

解:对定型变量“公司类型”进行数量化处理:
引入虚拟变量 x2:公司类型为“互助”时,x2=1,为“股份”时, x2=0。
精品文档

精品文档

则表 9.5 中数据转换成以下数据:

i

y

x1

1

17

151

2

26

92

3

21

175

4

30

31

5

22

104

6

0

277

7

12

210

8

19

120

9

4

290

10

16

238

11

28

164

12

15

272

13

11

295

14

38

68

15

31

85

16

21

224

17

20

166

18

13

305

19

30

124

20

14

246

建立回归方程 y=b0+b1x1+b2x2+ε
用 SPSS 软件作线性回归,得到输出结果如下:

公司类型 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0

Model Sum m ary

Model 1

R

R Square

.946a

.895

A djuste d R Square
.883

a. Predict ors : (Constant), 公 司 类型 , x1

Std. Error of the Estimate
3.221

R检验:拟合优度R2=0.883,接近1,说明回归拟合的效果较好。

ANOV Ab

Model

1

Regres sion

Sum of Squares 1504.413

df 2

Residual

176.387

17

Total

1680.800

19

a. Predictors: (Constant), 公 司类 型, x1

b. Dependent Variable: y

Mean Square 752.207 10.376

F 72.497

F检验:F值=72.497,Sig.值为0,说明回归方程通过F检验。

Sig. .000a

精品文档

精品文档

Coe fficientsa

Unstandardiz ed Coef f icients

Model

1

(Cons tant)

B

Std. Error

41.930

2.010

x1 公 司类 型

-.102 -8.055

.009 1.459

a. Dependent Variable: y

Standardized Coef f icients
Beta
-.911 -.439

t 20.859 -11.443 -5.521

Sig. .000 .000 .000

T检验:回归系数通过t检验,回归方程为:
y= 41.930-0.102 x1-8.055 x2
说明:若引入虚拟变量 x2,当公司类型为“互助”时,x2=0,为“股份”时, x2=1。
则回归方程为:

y= 33.874-0.102x1 + 8.055x2

结果分析:
(1)股份制公司采取保险革新措施的积极性比互助型公司高,原因可能在于股 份制公司建立在共同承担风险上,所以更愿意革新; (2)公司规模越大,采取保险革新措施的倾向越大:大规模公司的保险制度的 更新对公司的影响程度比小规模公司大,因此大规模公司更倾向于比较更新措施 和现有政策带来的效益,最终表现在采纳革新措施的时间间隔较短。

9.4.表 9.9 的数据是我国历年铁路里程数据,根据散点图观察在某时间点有折
点,用折线回归拟合这个数据。
解:由散点图 9(见下图)可看出在 1995 年(t=16)有折点,考虑由两段构成的 分段线性回归,这可以通过引入一个 0-1 型虚拟自变量实现。 由散点图可知该折点为 t=16,则引入虚拟自变量 x ,
精品文档

精品文档 ? 0, t ? 16
x ? ??t ? 16, t ? 16
由 SPSS 输出的调整后的决定系数 R2 ? 0.980 ,说明拟合优度较好。
由输出的系数表可以得出回归方程为: y? ? 5.183 ? 0.055t ? 0.106x 由 SPSS 输出方程分析表可知,F 值为 594.524,且 P 值约为零,说明回归方程非 常显著; 系数表中回归参数对应的 t 检验 P 值都约等于零,说明回归参数均通过了显著性 检验。因此,折线方程成立。
散点图 方差分析表
精品文档

精品文档

Model 1

Regres sion Residual Total

Sum of Squares
11.113 .206
11.319

a. Predictors : (Constant), x , t

b. Dependent Variable: y

ANOV Ab

df 2
22 24

Mean Square 5.557 .009

F 594.524

系数表

Coe fficientsa

Unstandardiz ed Coef f icients

Model

1

(Cons tant)

B

Std. Error

5.183

.049

t

.055

.005

x

.106

.012

a. Dependent Variable: y

Standardized Coef f icients
Beta
.589 .450

t 106.303
11.859 9.065

Sig. .000a
Sig. .000 .000 .000

精品文档

精品文档

9.5 某省统计局 1990 年 9 月在全省范围内进行了一次公众安全感问卷调查,参

考文献【10】选取了调查表中的一个问题进行分析。本题对其中的数据做了适

当的合并。对 1391 人填写的问卷设计:“一人在家是否害怕生人来”。因变量

y=1 表示害怕,y=2 表示不害怕。2 个自变量:x1 是年龄,x2 是文化程度。各变

量的取值含义如表 9.10 所示。

表 9.10 是否害怕 y 害怕 1
不害怕 0

年龄 x1

16——28 岁 22

29——45 岁 37

46——60 岁 53

61 岁以上

68

文化程度 x2 文盲 0 小学 1 中学 2
中专以上 3

现在的问题是:公民一人在家害怕生人来这个事件,与公民的年龄 x1、文化

程度 x2 有没有关系呢?调查数据见表 9.11。

表 9.11



x1

x2

ni y=1 y=0

pi



1 22 0

30

9 0.12500

2 22 1 11 3

8 0.29167

3 22 2 389 146

243 0.37564

4 22 3 83 26

57 0.31548

5 37 0

43

1 0.70000

6 37 1 27 18

9 0.66071

7 37 2 487 196

291 0.40266

8 37 3 103 27

76 0.26442

9 5353 0

94

5 0.45000

10 53 1

63

3 0.50000

11 53 2 188 73

115 0.38889

12 68 3 47 18

29 0.38542

13 68 0

20

2 0.16667

14 68 1 10 3

7 0.31818

15 68 2 18 7

11 0.39474

16

3

40

4 0.10000

其中,pi 是根据(9.44)式计算的。

(1) 把公民的年龄 x1、文化程度 x2 作为数值型变量,建立 y 对 x1、x2 的

logistic 回归。

(2) 把公民的年龄 x1、文化程度 x2 作为定性型变量,用 0-1 变量将其数量化,

建立 y 对公民的年龄和文化程度的 logistic 回归。

(3) 你对回归的效果是否满意,你认为主要的问题是什么?

精品文档

精品文档

解:(1)

先对

Pi

进行逻辑变换,令

pi?

?

ln( pi 1? pi

)

,则

pi? ? ?0 ? ?1xi1 ? ?2xi2 ? ?i 直接用 SPSS 进行 y 与 x1、x2 的 logistic 回归,输出结果如下:

Model

1

Regres sion

Sum of Squares
.562

Residual

9.459

Total

10.020

a. Predictors : (Constant), x 2, x1

b. Dependent Variable: ppi

ANOV Ab

df 2
13 15

Mean Square .281 .728

F .386

Sig. .687a

Coe fficientsa

Unstandardiz ed Coef f icients

Model

1

(Cons tant)

B

Std. Error

-.144

.662

x1

-.006

.012

x2

-.136

.191

a. Dependent Variable: ppi

Standardized Coef f icients
Beta
-.137 -.193

t -.218 -.510 -.715

Sig. .831 .619 .487

由 SPSS 输出系数表结果得到回归方程: p? ? =-0.144-0.006 x1 -0.136 x2 则还原后 logistic 回归方程为: p? = exp( ?0.144 ? 0.006 x1 ? 0.136 x2 ) 1 ? exp( ?0.144 ? 0.006 x1 ? 0.136 x2 )
由方差分析表知 F 值=0.386,P 值=0.687,大于 5%,说明回归方程不显著; 由系数表知回归参数的 t 检验均没有通过,因为 P 值都大于 5%,说明回归参数 未通过显著性检验。

由于logistic回归模型存在异方差,所以采用加权最小二乘法重新拟合,权重:

SPSS输出结果如下:

?i ? ni pi (1? pi )

精品文档

精品文档

ANOV Ab,c

Model

1

Regres sion

Sum of Squares
8.393

df

Mean Square

2

4.197

Residual

12.676

13

.975

Total

21.069

15

a. Predictors : (Constant), x 2, x1

b. Dependent Variable: ppi

c. Weighted Leas t Squares Regression - Weighted by w i

F 4.304

Sig. .037a

Coe fficientsa,b

Unstandardiz ed Coef f icients

Standardized Coef f icients

Model

1

(Cons tant)

B

Std. Error

.146

.309

Beta

x1

.002

.005

.086

x2

-.331

.116

-.617

a. Dependent Variable: ppi

b. Weighted Least Squares Regression - Weighted by w i

t .472 .398 -2.858

Sig. .645 .697 .013

由输出结果得到回归方程: p? ? = 0.146 ? 0.002 x1 ? 0.331x2
还原后的回归方程: p? = exp( 0.146 ? 0.002 x1 ? 0.331x2 ) 1 ? exp( 0.146 ? 0.002 x1 ? 0.331x2 )
由方差分析表结果知:F 值=4.304,P 值=0.037,小于 5%,说明回归方程显著; 由系数表知 x1 对应的回归系数相应的 P 值=0.697,大于 5%,说明 x1 对应的回归 系数没有通过检验,不显著; x2 对应的回归系数相应的 P 值=0.013,小于 5%,说明 x2 对应的回归系数通过检 显著性验,且该回归系数为-0.331,,表明文化程度越高越不害怕。

(2) 把公民的年龄 x1、文化程度 x2 作为定性型变量,引入 6 个 0-1 变量表示年

龄 x1

x11

?

???202,,xx11??2222,x12

?

???307,,xx11??3377,x13

?

???503,,xx11

? 53 ? 53

x21

?

?1, ??0,

x2 x2

? ?

00,x22

?

?1, ??0,

x2 x2

??11,x23

?

?1, ??0,

x2 x2

? ?

2 2

精品文档

精品文档

1) 直接进行 y 与 6 个虚拟变量的未加权的 logistic 回归,SPSS 输出结果如下: 由方差分析表知 F=2.472,P 值=0.106,大于 5%,说明回归方程不显著;且
除了 x12 外,其它自变量对应的回归系数都没通过检验。

ANOV Ab

Model 1

Regres sion Residual Total

Sum of Squares
4.743 5.277 10.020

df 4
11 15

a. Predictors : (Constant), x 13, x 2, x 12, x11

b. Dependent Variable: ppi

Mean Square 1.186 .480

F 2.472

Sig. .106a

Coe fficientsa

Unstandardiz ed Coef f icients

Model

1

(Cons tant)

B

Std. Error

-1.044

.417

x2

-.136

.155

x11

.220

.490

x12

1.273

.490

x13

.969

.490

a. Dependent Variable: ppi

Standardized Coef f icients
Beta
-.193 .120 .697 .530

下面通过后退法选择变量对上述模型改进。 SPSS 输出结果如下表:

t -2.505
-.881 .449 2.600 1.979

Sig. .029 .397 .662 .025 .073

ANOV Ad

Model

1

Regres sion

Sum of Squares
4.743

df 4

Residual

5.277

11

Total

10.020

15

2

Regres sion

4.647

3

Residual

5.374

12

Total

10.020

15

3

Regres sion

4.274

2

Residual

5.746

13

Total

10.020

15

a. Predictors : (Constant), x 13, x 2, x 12, x11

b. Predictors : (Constant), x 13, x 2, x 12

c. Predictors : (Constant), x 13, x 12

d. Dependent V ariable: ppi

Mean Square 1.186 .480
1.549 .448
2.137 .442

F 2.472

Sig. .106a

3.459

.051b

4.835

.027c

精品文档

精品文档

Coe fficientsa

Unstandardiz ed Coef f icients

Model

1

(Cons tant)

B

Std. Error

-1.044

.417

x2

-.136

.155

x11

.220

.490

x12

1.273

.490

x13

.969

.490

2

(Cons tant)

-.934

.326

x2

-.136

.150

x12

1.163

.410

x13

.859

.410

3

(Cons tant)

-1.139

.235

x12

1.163

.407

x13

.859

.407

a. Dependent Variable: ppi

Standardized Coef f icients
Beta
-.193 .120 .697 .530
-.193 .636 .470
.636 .470

t -2.505
-.881 .449 2.600 1.979 -2.865 -.912 2.838 2.097 -4.846 2.857 2.110

Sig. .029 .397 .662 .025 .073 .014 .380 .015 .058 .000 .013 .055

后退法的过程中剔除了 x11, x2 ,留下了 x12 , x13 ,但是 x13 对应的回归系数未通过检 验,将其剔除,最后留下了 x12 ;而且回归方程显著,

2) 加权回归:用后退法选择变量,由输出结果(如下)可知最后只留下了 x2 。

ANOV Ae,f

Model

1

Regres sion

Sum of Squares
9.979

df

Mean Square

4

2.495

Residual

11.090

11

1.008

Total

21.069

15

2

Regres sion

9.526

3

3.175

Residual

11.543

12

.962

Total

21.069

15

3

Regres sion

8.870

2

4.435

Residual

12.199

13

.938

Total

21.069

15

4

Regres sion

8.238

1

8.238

Residual

12.831

14

.916

Total

21.069

15

a. Predictors : (Constant), x 13, x 2, x 11, x12

b. Predictors : (Constant), x 13, x 2, x 12

c. Predictors : (Constant), x 2, x12

d. Predictors : (Constant), x 2

e. Dependent V ariable: ppi

f . Weighted Leas t Squares Regression - Weighted by w i

F 2.475

Sig. .106a

3.301

.058b

4.726

.029c

8.989

.010d

精品文档

精品文档

Coe fficientsa,b

Unstandardiz ed Coef f icients

Standardized Coef f icients

Model

1

(Cons tant)

B

Std. Error

-.092

.425

Beta

x2

-.344

.118

-.641

x11

.263

.392

.490

x12

.379

.389

.737

x13

.376

.402

.570

2

(Cons tant)

.131

.258

x2

-.332

.115

-.620

x12

.132

.122

.257

x13

.129

.156

.195

3

(Cons tant)

.177

.248

x2

-.334

.113

-.623

x12

.089

.109

.173

4

(Cons tant)

.220

.240

x2

-.335

.112

-.625

a. Dependent Variable: ppi

b. Weighted Least Squares Regression - Weighted by w i

t -.217 -2.901 .671 .975 .936 .510 -2.902 1.086 .826 .713 -2.950 .820 .915 -2.998

Sig. .832 .014 .516 .351 .370 .619 .013 .299 .425 .489 .011 .427 .375 .010

从上表可以看出,最后只保留了变量 x2(P 值小于 0.05),回归方程

为: p? ? ? 0.22 ? 0.335x2

Model Sum m ary

Model 1 2 3 4

R .688a .672b .649c .625d

R Square .474 .452 .421 .391

A djuste d R Square
.282 .315 .332 .348

Std. Error of the Estimate
1.00408 .98078 .96870 .95732

a. Predictors: (Constant), x2, x13, x11, x 12

b. Predictors: (Constant), x2, x13, x12

c. Predictors: (Constant), x2, x12

d. Predictors: (Constant), x2

从模型概要表中可以看出模型四的回归方程的拟合优度不佳。 (3)对回归的效果不满意。变量 x1 在不同的回归方法下显著性不同, 对该变量的显著性判定还有待改进。如果能获得年龄的准确值做 Logistic 回归的极大似然估计,可能会改进回归效果。

精品文档



学霸百科 | 新词新语

All rights reserved Powered by 甜梦文库 9512.net

copyright ©right 2010-2021。
甜梦文库内容来自网络,如有侵犯请联系客服。zhit325@126.com|网站地图