您好,欢迎来到年旅网。
搜索
您的当前位置:首页第二章 多元线性回归

第二章 多元线性回归

来源:年旅网
第二章 多元线性回归

§2.1 基本概述

一、回归的任务

多元线性回归(MLR)(multiple linear regression)是分析一个随机变量与多个变量之间线性关系的统计方法。

回归(Regression)起源于19世纪生物学家F·高尔顿进行的遗传学研究。其核心是“普通最小平方法”(Ordinary Least Squares)OLS。

多元回归将所研究的变量分为:

(或因变量dependent variable)用Y表示 “被解释变量”(或自变量,independent variable)。分别和X1,X2…表示. “解释变量”

确定自变量和因变量的关系是回归分析的主要任务:

(1) 根据实测数据求解某一模型的各个参数; (2) 评价回归模型是否较好地拟合实例数据; (3)利用模型进行预测。 需要注意的是:

(1) 因变量必须是间距测度等级以上的变量(有时也包含定性变量。见《应用回归分析》)

(也称为连续变量)。自变量可以是任意等级的变量。

(2)既使模型正确通过检验,也不能确定X、Y之间的因果关系,而只能确认存在着统计关系。

[例] 不同地区的人均食品支出与人均收入的关系(图2–1);汽车重量与每加仑燃料行驶英里值的关系;(图2–2)。

1

1200食品支出100080060015002000250030003500人均收入 图2–1

60005000Vehicle Weight (lbs.)400030002000100001020304050Miles per Gallon

图2–2

二、一元线性回归的回顾

1. 模型

Yi01xii (2.1)

当获得n组样本观测值(x1 , y1),(x2 , y2),…(xn ,yn)的数据时,如果符合2.1式,则有

2

YXi01iii1,2,,n (2.2)

2.1式称为理论回归模型;2.2式称为样本回归模型。有时不加以区分地将两者称为一元线性回归模型。

ˆ,ˆ,则称 通过n组观测值,用OLS法对0,1进行估计,得01ˆˆXˆYi01i

为Y关于X的一元线性方程。

其中: 1 回归系数,说明X与Y之间的变化关系。

2.普通最小二乘法估计的统计性质(OLSE Estimation) (1)残差:eiˆ,用来说明拟合效果,可以看作误差项ε的估计值。YiY i iei0  xe0iiˆ(XX),所以 ˆY因为 Ynˆ(XX)0 ˆ)(YY)e(YY但|ei|很麻烦,经常用ei2来说明。

i12ˆ(YY)min (2)ˆ的平均值等于Y的平均值Y (3)Y1ˆ Yn (4)X与e相互

1Cov(xi,ei)(XiX)(ei)0

nˆ与e相互 (5)Y1ˆˆY)(e)0 Cov(Yi,ei)(Yin (6)直线通过n个散点的重心(X,Y)点

3

3.模型的假设条件(assumption)

(1) 高斯假设条件 (C.F.Gauss)德国数学家 ①零均值性

E(i)0;i1,2,n

即在自变量取一定估计Xi的条件下,其总体各误差项的条件平均值为0。 ②等方差性 (为一常数)

D(i)Var(i)2, ③误差项之间相互,(即不相关)

i1,2,,n i,j1,2n

Cov(i,j)0;ij, ④误差项与自变量之间相互性。

Cov(i,Xi)0

上述假设称为标准古典假设条件。符合条件的回归模型称为普通线性回归模型(general linear regression model)。

ˆ,ˆ,Yˆ分别是0,1和Y的无偏估计量; 如果仅为点估计则由OLSE计算的01如果需要进行区间估计,需要以下假设: (2)正态误差假定

i~N(0,)i1,2,,n 同时,

2Yi~N(01Xi,)i1,2,,n

4

2另外,还可推出

22ˆ(e)(YY)i22E(Se)EE n2n222E(S)即 是无偏估计量 e2ˆ(YY)且

2~2(np1)

其中:Se:估计标准误差

SYˆSe0(X0X)21n(XX)2

S(Y0ˆ)Y01(X0X)2Se1n(XX)2 其中:X0 是给定值。

S0Se1X2n(XX)2 S1Se12(XX)

§2.2 多元线性回归模型

一、多元线性回归方程及其假设

设模型为:

5

Yi01X12X2pXpi 将n组观察的样本数据

(y,x,x,,x) i1,2,,n

ii1i2ip 代入方程:

ybbxbxbxe

i01i12i2pipi2(e)根据OLS,使imin。求0,,p的估计值 b0,,bp,

可得回归方程:

ˆib0b1xi1b2xi2bpxip y称为多元线性回归方程。

上述模型用矩阵形式来表示,即:

yxβε

其中:

1xy11y2yx ynn11x11x12xn2n1xxxx1p2pijnp

n(p1) 6

β01p1ε2

nn1(p1)1

假定3:正态分布。 假定2:随机误差项具有0均值和等方差。 假定1:自变量是确定性变量,且x是一个n×(p+1)的矩阵。称x为回归设计矩阵或资料矩阵。矩阵x的秩 rank(x)=p+1是一个满秩矩阵。即p+1≤n,表明自变量列之间不相关。 E(i)0 Cov(,)0ij2ijiji,j1,2,,n ε~N(0,2In) 根据上述假设即多元正态分布的性质可知,随机向量遵从n维正态分布。则

有 E(y)Xβ , var(y)In

2

2y~N(xβ,In) 因此:

7

二、回归平面和回归系数的意义

估计回归方程:

ˆybbxbxbxi01i12i2pip 是一个超平面。

其中:b0,b1,,bp分别称为超平面的回归系数。 b0为截距; 例:以二元线性回归方程为例,如图2-3

bj表示其他变量xi(ij)固定时,xj每变化一个单位, yi的平均变化。

1为负值 2为正值

Y X2

X1 图2-3

8

[例] 由1991年我国分地区家庭年人均食品支出(Y)和年人均收入(X1)及粮食

单价(X2)数据可得:

ˆ87.380.35x206.xY12

Coefficients(a)

Unstandardized Model 1 (Constant) 人均收入 粮食单价 Coefficients B -87.378 .3 206.538 Std. Error 62.452 .039 75.212 Standardized Coefficients Beta .773 .234 t -1.399 9.081 2.746 Sig. .173 .000 .011

a Dependent Variable: 食品支出

表明:当价格固定时,收入每上升1元,食品支出上升0.35元;

当人均收入固定时,价格每上升1元,食品支出上升206.元。

[例] 用1998年世界若干国家的粗死亡率(Y)对其65岁以上人口占总人口的比

例(x1)和人均国民生产总值(x2)做回归,得到:

ˆ11.9320.152x0.00043xY12

即x1对Y有提高作用,x2对Y有降低作用。

特别是当多项式模型(以二元为例)

9

Y01X12X23X125X1X2

X1变化一个单位,Y的平均变化为:

这种情况难以解释!

13(2X11)5X2

3.多元回归模型的估计

(1)回归系数的估计

ˆ 将 y0bbxbxbx01122p12p 代入p2ˆ(YY)中,分别对 b,b,b,,b求偏导数,得到正规方程组。用矩阵表示如下:

x(yxb)0 移项得: 当

xxbxy

b(xx)xy

xx存在时,即xx是一个非奇异矩阵,xx0,则有:

1[例]一元方程时,

y11x1y1x122 已知:y x xx1y1xnnn1n211 x2xn2n1xx则

x111x2xn2n1x11xn2x1xnn2xx2

22 10

2xxx)(x 有伴随阵: nx1xx1逆阵:(xx)nn(xx)xxx212xx xn2x2nSxxxnSXXnSXX1SXXx 221xyx111x2xn2n

y1y2yxy21

ynn12yxxxynS1xxb(xx)xynxyxy nSxx21其中: Sxx(xix)2i1n (2)因变量的估计

已知 E(y)Xβ

ˆxbx(xx)xy, y11

11Hx(xx)x 令

1x1x21x2nSxxx(xx)1xx1xnnSXXxnSXX1SXX1x111

x2xn则 Hyˆxbx(xx)xyHy

1x(xx)x是n阶对称阵,形象地称为帽子矩阵。

1该矩阵的诸对角线元素记为hii(杠杆率)。

杠杆率:观测第i个观测值离其余n-1个观测值的距离有多远。 对一元回归来说,其杠杆率为:

(xix)21hiinn(xx)2 i1i三、方程的解释能力

1.决定系数 R(coefficient of determination)(拟合优度)

图2-4

2

12

YSST(YY)Y222n 2ˆSSR(YY) 2ˆ SSE(YY)

矩阵形式表示如下:

11SSTYYYJYY(IJ)Y

nn11SSRbXYYJYY(HJ)Y

nnSSEeeYYbXYY(IH)Y

其中: I 为n阶单位阵;

J 表示元素全为1的n阶方阵。

222ˆˆ(YY)(YY)(YY)可得:   如图

2-4

R说明:(1)R2——[0,1]之间; (2)是选择不同模型的标准;

22ˆ(YY)(YY)2 (3)R2=0,X Y不存在相关关系!

但是R2的数值大小并不表示模型选择是否正确。应再结合其它指标(工具)进一步判断。如:1973年安斯库姆(Anscombe)构造了四组数据如表:

13

第一组 x 4 5 6 7 8 9 10 11 12 13 14

y 4.26 5.68 7.24 4.82 6.95 8.81 8.04 8.33 10.84 7.58 9.96 x 4 5 6 7 8 9 10 11 12 13 14 第二组 y 3.10 4.74 6.13 7.26 8.14 8.77 9.14 9.26 9.13 8.74 8.10 x 4 5 6 7 8 9 10 11 12 13 14 第三组 y 5.39 5.73 6.08 6.44 6.77 7.11 7.46 7.81 8.15 12.74 8.84 x 8 8 8 8 8 8 8 8 8 8 19 第四组 y 6.58 5.76 7.71 8.84 8.47 7.04 5.25 5.56 7.91 6. 12.5 2R0.667 四组计算结果得:

ˆ3.000.500x Y如图2-5所示

(a) (b)

(c) (d)

14

图2-5

在图2–5中,可以看出:

(a)图是规范的回归;

(b)图应通过变换可以得到更好的拟合;

(c)图应剔除异常值 ( 剔除后 Yˆ4.000.34x R2≈1 ) (d)图应进一步搜集数据(实际只有,8,19这二点)。

2.调整的决定系数 R2

adj (Adjusted multiple coefficient of determination)

当增加自变量个数时,SSE逐渐减少。R2则随之增长。

即R2受自变量个数与样本规模之比(p:n)的影响。一般的常规是1:10以上为好;当这个比值小于1:5时,R2会倾向高估拟合优度。因此用R2adj代替R2。

(YˆY)2R2adjp(YY)2 n1(YYˆ)2 1np1(YYˆ)2

n1 1n12np1(1R)

从公式中可以看出: p增加时,R2adj变得更小。当p接近n时,R2adj<当n>>p时,R2adj≈R2

15 3.多元相关系数R (multiple correlation)

对R2开方,即得R,称为复相关系数。因为各自变量与Y的相关方向不一定相同,因此在多元线性回归中,R只求R2的正方根。R是总体多元相关函数的估计。

4.偏决定系数 (partial coefficient of determination)

方程中某一个变量xi对减少剩余平方和(SSE)的边际贡献,它表示xi对y的边际解释能力。

公式:以二元回归为例,

R2y2.1SSR(1,2)SSR(1)Ry.12R2SSE(1)1Ry.122y.1 也可表示为:

R2y2.1SSE(1)SSE(1,2) SSE(1)(《应用回归分析》)

值域:[0,1]

其中:Ry2.1 是指x2对y的边际影响。

SSR(1,2):含有两个自变量的回归平方和 SSR(1):含有x1的回归平方和 SSE(1):只含有x1的剩余平方和

前式是用绝对误差表示的百分比,后式是用相对误差表示的百分比。但反映的都是新加入回归的变量所解释的百分比!但是这一百分比是以前一步回归(即变量较少的回归)所未能解释的部分为整体。而不是以Y的总变化为整体!如图2-6所示:

16

X1,X2对Y的单独和共同的影响 X2对Y的边际影响

(a) (b)

图2-6

偏决定系数作用:

(1) 可以判断自变量的重要性:

在已有p-1个变量的回归方程中,新增第p个变量,对y的边际影响是

公式: R2yp•1,2,,p1SSR(1,2,,p)SSR(1,2,,p1) SSE(1,2,,p1)R2y1,2,p R1R22y1,2,,p1 y1,2,,p1(2)用于一个变量组(不是单个变量)的(partial multiple determination

coefficient)边际贡献的评价。 偏多元决定系数 例:在p-1个自变量的基础上,新增p、q、r三个变量对Y的边际贡献为:

SSR(1,2,,p1,p,q,r)SSR(1,2,,p1)Ry(pqr)•1,2,,p1 SSE(1,2,p1)2

R2y1,2,,p1,p,q,rR22y1,2,,p11R17

y1,2,,p1公式(2)在分析一个不可分割或研究人员不愿的变量组时是非常有用的。如遇到表示多个不同类别的虚拟变量时,虽然它们是多个,但其实代表的是一个多分类的名义测度变量,因此单个计算偏度确定系数实际意义不大。

[例]:R2支出·收入,价格=0.884,

R2支出·收入=0.852

R2支出·价格=0.531

2R则(1)支出,收入•价格22R支出R0.8840.531•收入,价格支出•价格0.753 21R支出•价格10.5312R支出,价格•收入 (2)

2R2支•收,价R支0.8840.852•收0.219 21R支•收0.852从而可以说明人均收入和价格对食品支出的边际贡献分别为0.753和0.219,即人均收入对食品支出的总影响大于价格。

5.偏相关系数r

偏决定系数开方,即得到偏相关系数。表示控制其他变量条件下的两个变量之

间的相关程度指标。

(1)偏相关系数有正负之分,符号与偏回归系数i一致。

(2) 按控制变量个数的多少,分别称为零级、一级、二级…偏相关系数(zero-,

first-,second-, third-order)

如 rab.c 是一级偏相关系数,表示在控制xc的条件下,xa与xb的相关程度。

rab.crabracrbc221rac1rbc rac.bracrabrbc1r1r2ab2 bc 作用:偏相关系数可以判断哪些自变量对因变量的影响较大,而选择作为必需考

18

虑的自变量,这样可以减少自变量个数,减少方程中的共线性。

6.方差分析

222ˆˆ (YY)(YY)(YY)SST = SSE + SSR SSR/pF~F(p,np1) SSE/np1 当总体决定系数20时,F~F(p,n-p-1)分布。从而用于方程的显著性检验。

四、回归方程和回归系数的检验

1.回归方程的显著性检验

原假设(null hypothesis)零假设

H:0;

012p备择假设(alternative hypothesis)

H1:至少有一个j不为零 , 判别原则:

接受H0,则Y与X1…Xp的线性关系不显著。或者说和2与0无显著差别。 计算出一个显著水平用P表示。(signifinence level) 给定一个显著水平用表示。

当P<α时,拒绝H0,接受H1,当P>α时,接受H0,拒绝H1

j1,2,,p

P

图2-7

19

2.回归系数的显著性检验 已知bj~N(j,cjj)

2cjj是矩阵C(XX) H0:j0

1中第j行第j列的元素。

H1:j0 在假设条件成立时:

j1,2,,p

bt~t(np1) 统计量:Sjjj其中 Sj 是bj的标准误.

在SPSS中,提供t。相应的P值,标签为SigT。

常数项不是分析的重点,即使不显著,一般也保留在方程中。 通过系数检验可以保留最重要的变量,删除不显著的变量。

Unstandardized Standardized Coefficients Beta .773 .234 t -1.399 9.081 2.746 Sig. .173 .000 .011

Model 1 (Constant) 人均收入 粮食单价 Coefficients B -87.378 .3 206.538 Std. Error 62.452 .039 75.212 3、标准化回归系数(standardized regression coefficient)。

在多元回归中,经常要比较哪一个变量是影响Y的主要因素,哪些是次要因素。

ˆ的绝对值进行比较。但是不能直接通过因为它们值的大小与它们所取的单位有关! j这就需要计算标准化回归系数(standardized regression coefficient)。通过标准化回归系数比较每个变量对Y的相对重要性。

20

其计算方法有两种:

(1)建立标准化回归方程

分别对Xj和y进行标准化,然后再进行回归,便得到标准化回归方程,其回归系数就是标准化回归系数。Bj

zjxjxjsj ZyYY得 SyZYB1Z1B2Z2BKZK

注意,在标准回归方程中,常数项已经不存在,因为回归平面通过了Zy轴上的截距。 当自变量相关时,Bj的大小也会受影响。 (2)直接计算Bj

其中:Bj表示xj变化一个标准差单位,Y平均变化几个标准差单位。 BjbjSjSy 其中:Sy和Sj分别为原因变量y和原自变量xj的标准差。

ˆ标签B (统计软件可以输出Bj)j

Bj标签Beta4、回归系数的置信区间

P(bjtSjjbjtSj)1 22 t的自由度(df)为n–p–1

其中:Sj

21

Secjj,

五、预测

ˆ的区间估计(特定条件下,平均的预测区间) 1.Y0ˆ,2ˆ的无偏估计,且yˆ0是总体Yˆ0服从N(Y yˆ)其中: .0Y0ˆXXY00101p0p

ˆyˆY~t(np1) S,

Snp12ˆ)(yyˆy200eˆ0Yˆ的置信区间为:由此Y00ˆ0t/2Syt/2Syˆ0,yˆ0nn0ii

jij1(XX)(X_X)c

N22ˆ0Yi1j10j 当用Se2代替2时

1ˆSS(xx)(xx)c n222nnˆ0Yˆ0Yei1j10iiojjijmm(x0ixi)(xojxj)cij可以间接计算, i1j1Vijcij其中 MSResidualMSResidual:回归方程残差平方和

22

Vij:回归系数方差协方差矩阵(选择Covariance matrix)

2.Y0的预测

影响预测区间的大小(精度)的因素: (1)样本容量 n; (2)自变量方差; (3)X0离X的距离; (4)X的离散程度。 ˆ,2) Y0的预测区间。(即特定条件下单独案例)这里Y0~N(Y0Y0 其中:

1ˆS1(XX)(XX)c

N222nnˆ0Yei1j10iiojjij1ˆSS1(xx)(xx)c

nyˆY~t(np1) S222nnˆ0Yy0ei1j10iiojjij00y0

ˆ0tSy0) 即:Y0的置信区间为:(y2六、多重共性线及其解决办法

1.含义及影响

多重共线性:当自变量之间高度相关时,回归方程中的自变量就会互相削弱各自对y的边际影响,使本身的回归系数的数值下降而其标准误扩大,于是方程虽然整体显著,但各个自变量都不显著的现象,这种现象就称为多重共线性。

ˆˆxx ˆ[例] y01122如果 x2c0c1x1 (c0,c1为任意常数)

23

ˆ就会有许多解,从而用OLS无法求出唯一j值。即:x1,x2完全相关。回归方程y

即(X’X)对角元素很小→(X’X)–1对角元素很大→cjj很大→Sj=Secjj很大→

ˆ不显著! t值很小→j 影响:

ˆ差别很大→由 (1)回归系数的置信区间变宽,系数变得不稳定→不同样本→j样本推断总体是不可靠的。

(2)回归系数不能反映自变量的作用。 (3)用于预测时,对预测精度有很大影响。 2.多重共线性的检验

(1)方程的决定系数很高,且y与各自变量的相关系数也很高,但自变量的回归系数均不显著。(即使y与自变量相关程度不高,也可能存在共线性)。 (2)多个自变量中,某一自变量可以被其他自变量线性表示出来。方法是用每一个自变量,对其余自变量进行线性回归,当回归方程的确定系数较高,且F检验也显著时,就可以认为这一变量可以被其他变量线性表示。当它们都为自变量时,就会产生共线性(二元线性回归时,只要比较r12即可)

(3)分别构造不含某一自变量的p–1个回归模型,将它们与包含全部自变量的回归方程进行比较,若某个模型与含所有变量的模型R2很接近,就表示没有包含的那个变量是多余的,它对于y的贡献可以由其它变量表示。

(4)方程的R2很高,但每一自变量的偏确定系数很小,说明变量之间可能存在高度的线性关系。

SPSS中提供检验多重共线性指标和信息输出。 (选择collinearity diagnostics)

24

容限度(tolerance)

1-R2j ≤0.1, 说明自变量间有严重的多重共线性。 方差膨胀因子(Variance inflation factor)VIF

1 hjj21Rj。

特征值:(Eigenvalue)

λ≈0 X的列向量必存在多重共线性。

条件数 (Condition indexes)

ki当VIF≥10时,说明自变量间有严重的多重共线性 m λm 是 X’X的最大特征根。 i

通常认为: 0<k<10 没有多重共线性 10≤k<100 较强多重共线性 k≥100 严重多重共线性

25

3.补救多重共线性影响的办法

(1)去掉与y相关程度较低,而与其他自变量高度相关的变量; (2)去掉可以被其余自变量线性表示的变量; (3)增加样本规模; (4)采用新的样本数据; (5)利用先验信息组合变量; (6)用因子分析方法保留重要的变量; (7)将截面数据与时序相结合。

时序数据往往线性相关,为此可先用截面数据做回归,通过对比时序数据,

说明变量是否线性相关。

(8)变量变换。通过对变量进行变换,也可以减弱变量间的多重共线性。如倒

数、对数变换等, 如时间序列回归方程

ˆib0b1xi1b2xi2 yˆiyˆi1b1(xi1xi1,1)b2(xi2xi1,2) i1,2,n 用y七.最优回归方程的选择

1.选择标准

a. 从拟合的角度考虑的准则;

22ˆ2R,R例如,adi计算或者残差(YY)达到最小。

b. 从极大似然估计方法考虑的准则——赤池信息量AIC达到最大;

赤池(Akaike)日本统计学家,1974年提出模型的选择标准AIC(Akaike Information Criterion).回归分析中选择自变量的AIC标准为:

26

2ˆ(YY))2mc AICnlog(n其中,c=nlog(2π)+n,是与m无关的常数。

对每一个回归子集计算AIC,最小者的模型即为最优。 c. 从预测的角度考虑的准则——Cp统计量

19年马洛斯(Mallows)从预测的角度提出。

QkCp2n2kSe

其中,Qk是去掉k个自变量后的残差。

对每一个回归子集计算Cp,最小者的模型即为最优。

2.SPSS程序提供五种方法

(1)全部纳入法(Enter)默认状态

不选择其它方法,将默认定义本组的所用变量一次全部纳入回 特点:不加区别全部吸收。 (2)删除法(Remove)

将本组自变量全部无条件地一次从回归方程中删除。前提:之前本组变量已纳入回归方程,否则,无变量可删除。特别地,如果在建立回归方程时,第一组自变量就使用Remove方法,则系统默认,要先将第一组自变量全部纳入回归方程(Enter)然后将其再全部删除!

(3) 向前回归法(Forward)本组自变量将先根据比较,选择其中最好的(离差

平方和最小)一个加入直至所有符合标准者全部进入回归。

(4)向后回归法(Backward) 本组自变量一次纳入回归,然后根据标准删除一个最不显著的,再做一次回归判断其余的取舍,直至保留的变量都达到要求。

27

特点:不显著的自变量不多时可以使用。如果自变量较多且不显著,则计算量也很大。缺点是:变量一旦被剔除就不能再回到方程中。实际中,有时剔除了某些变量后,另一变量可能会变得非常显著,但这种方法已经不给机会了。

(5)逐步回归法(Stepwise) 从第一个变量开始,按向前法的原则,选择一个最好的变量进入回归模型。然后,用向后法的原则,选择一个最不好的变量删除。

注意:SPSS程序中(1)、(2)种是无条件的,后三种需要一定的判断标准执行。默认标准是:

F值 =Fα(p,n-p-r-1) r:可以进入模型的变量数 进入时 删除时

F=3.84 F=2.71

概率标准 0.05 0.10

如用其它标准,可以在Options键中进行标准修改。

§2.3 虚拟自变量 (Dummy Variable)

在社会科学研究中,有许多的分类变量,如地区、单位名称、性别、文化程度、职业等等。我们可以用它的信息对因变量进行回归,以解释y的变化。这就需要将分类变量转换为虚拟变量,然后才能引入归方程。

一、虚拟变量的建立

(1)分别对K个虚拟变量(dummy variable)取0和1的值。当属于这一类别

时,就赋值为1,否则为0。

(2)虚拟变量平均值的意义是,赋值为1的该类案例占全部案例的比例。 (3)需设定一个参照类。因为K个类别中存在着线性相关。因此只设k–1个

类别变量。当这k–1个变量取值都为0时,即为参照类别。

例:文化程度变量有5个类别:①文盲或半文盲;②小学;③初中;④高中;⑤大

学。取文盲或半文盲为参照类,用DE2、DE3、DE4、DE5分别表示其它类别。则:

28

原变量编码值 虚拟变量赋值的操作

EDU=1 文盲半文盲 所有DEi=0 EDU=2 小学 DE2=1 其他DEi=0 EDU=3 初中 DE3=1 其他DEi=0 EDU=4 高中 DE4=1 其他DEi=0 EDU=5 大学 DE5=1 其他DEi=0

即yb0b2DE2b3DE3b4DE4b5DE5

y1.411.13DE21.31DE31.58DE41.57DE5(生育子女数)

二、虚拟变量回归系数的意义

1 回归系数bj表示该类别与参照类均值之差,又称为差别截距。例:方程y=b0或

y=b0+b2是两条平行线,只是多了一个b2,即小学程度。因此bj说明的是该类与参照类的相比,对Y的影响的差值数。模型中小学、初中、高中、大学文化程度妇女分别比文盲妇女平均少生1.13、1.31、1.58和1.57个子女。 2 如果是序次变量,如“文化程度”还可用bi–bi–1表示序次变量各相邻分类的边际

效应。如b3–b2=–1.31–(–1.13)=–0.18是初中的边际效应;小学、高中、大学的分别是–1.13(本身–0)–0.27和0.01。

由此可知“小学”对降低妇女单生子女数边际效应最大,其次为高中和初中。

(实际经验中,初中通常边际效应最大)。

3 选择哪一类作为参照类,对回归结果没有实质性的影响。尽管回归系数会有所不

同,但这只是因为换了参照类的原因,而使每个系数意义不同。但是所计算的各类平均值及它们之间的差不会发生任何变化。统计检验的结果也不会有任何变化。所以参照类的选择只是研究者根据解释实际意义时的方便来选择。

29

三.虚拟变量的回归检验

虚拟变量的检验与一般回归分析完全没有区别。 (1)整体模型检验的假设为:

H0:12k0

H1:1,2,,k中至少有一个不为零。

(2)单个回归系数的检验假设为:

H0:j0

H1:j0

这里由于变量只取0和1值,所以检验的意义是,该变量取1时的平均值与参照类(所有变量取值为0时)的平均值有显著差异。

上述对单个回归系数的检验,只能对比各变量与参照类的差异是否显著,不能提供各类之间的两两比较。为此,

(1)可以通过改换参照类来进行各变量之间的比较。但这需要重新编码。 (2)可以直接对任意两个回归系数之差的检验来完成。同属一个因素的两类平

ˆiyˆj(b0bi)(b0bj)bibj。所以均值之差,就是两个虚拟变量回归系数之差:y建立假设:

H0:ij; H1:ij

tbibjS(bibj)~t(np1) 22S(bibj)SiiS2jj2Sij

Sii2,S2jj是bi,bj的方差。 Sij2是bi和bj之间的协方差。

这些系数可以在SPSS回归程度中输出,在协方差矩阵V中。

30

(3)通过方程中各个变量(组)偏确定系数来比较它们作用的大小。分别做不含有某一变量的回归,得到回归方程的确定系数表,通过该表确定方程中各变量作用大小的顺序。

结论:因素较少、各类别较少且可以忽略交互效应时,较适宜用回 归方法进行方差分析;但是当因素较多,类别较多且交互影响不容 忽略时,就应直接进行方差分析更方便。

四.其他形式的分类变量编码和应用

分类变量的编码: 虚拟编码、

效应编码(effect coding)、 正交编码(orthogonal coding) 非正交编码(nonorthogonal coding)

效应编码方法是:一个因素包括K类变量,就设置K–1个效应变量,设立的变量习

惯上选择第一或最后一类。前K–1类变量的取值属于该类别时,取值为1,不属于时,效应变量为0,这与虚拟编码相同,但案例属于没有设定的变量的类别时,所有的效应变量取值为–1,这是不同于虚拟编码的方法。

回归方程的常数项的意义是样本整体的平均值; 各回归系数的意义是相应类别平均值与整体平均值之差。

原变量编码值

效应变量赋值的操作

31

EDU=1 文盲半文盲 DE2=1 其他DEi=0 EDU=2 小学 DE3=1 其他DEi=0 EDU=3 初中 DE4=1 其他DEi=0 EDU=4 高中 DE5=1 其他DEi=0 EDU=5 大学 所有DEi=-1

在统计实践中,虚拟编码和效应编码往往用于事后比较(post hoc comparison)的研究,即根据来自抽样的数据进行分析;而正交和非正交编码往往用于事先统计好的方案(priori or planned comparison)即数据是通过可控制的试验取得的。这一方法一般多用于科学研究中。通过效应编码,可以对整体有一个全面描述,了解是否存在特别类,是哪一类。这是与虚拟编码相比的优点。

采用何种编码只是改变回归结果的解释,而不改变回归分析的实际结果。

§2.4 系统建模过程

1数据的收集和准备 2回归方程的选取 3模型的精细分析 4模型的确认

32

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- oldu.cn 版权所有 浙ICP备2024123271号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务