您的当前位置：首页第二章多元线性回归

第二章多元线性回归

来源：年旅网

第二章多元线性回归

§2.1 基本概述

一、回归的任务

多元线性回归（MLR）（multiple linear regression）是分析一个随机变量与多个变量之间线性关系的统计方法。

回归（Regression）起源于19世纪生物学家F·高尔顿进行的遗传学研究。其核心是“普通最小平方法”（Ordinary Least Squares）OLS。

多元回归将所研究的变量分为:

（或因变量dependent variable）用Y表示 “被解释变量”（或自变量，independent variable）。分别和X1，X2…表示. “解释变量”

确定自变量和因变量的关系是回归分析的主要任务：

（1）根据实测数据求解某一模型的各个参数；（2）评价回归模型是否较好地拟合实例数据；（3）利用模型进行预测。需要注意的是:

(1) 因变量必须是间距测度等级以上的变量（有时也包含定性变量。见《应用回归分析》）

（也称为连续变量）。自变量可以是任意等级的变量。

(2)既使模型正确通过检验，也不能确定X、Y之间的因果关系，而只能确认存在着统计关系。

[例] 不同地区的人均食品支出与人均收入的关系（图2–1）；汽车重量与每加仑燃料行驶英里值的关系；（图2–2）。

1200食品支出100080060015002000250030003500人均收入图2–1

60005000Vehicle Weight (lbs.)400030002000100001020304050Miles per Gallon

图2–2

二、一元线性回归的回顾

1．模型

Yi01xii （2.1）

当获得n组样本观测值（x1 , y1），（x2 , y2），…（xn ，yn）的数据时，如果符合2.1式，则有

YXi01iii1,2,,n （2.2）

2.1式称为理论回归模型；2.2式称为样本回归模型。有时不加以区分地将两者称为一元线性回归模型。

ˆ,ˆ，则称通过n组观测值，用OLS法对0,1进行估计，得01ˆˆXˆYi01i

为Y关于X的一元线性方程。

其中： 1 回归系数，说明X与Y之间的变化关系。

2．普通最小二乘法估计的统计性质（OLSE Estimation）（1）残差：eiˆ，用来说明拟合效果，可以看作误差项ε的估计值。YiY i iei0  xe0iiˆ(XX)，所以 ˆY因为 Ynˆ(XX)0 ˆ)(YY)e(YY但|ei|很麻烦，经常用ei2来说明。

i12ˆ(YY)min （2）ˆ的平均值等于Y的平均值Y （3）Y1ˆ Yn （4）X与e相互

1Cov(xi,ei)(XiX)(ei)0

nˆ与e相互（5）Y1ˆˆY)(e)0 Cov(Yi,ei)(Yin （6）直线通过n个散点的重心（X,Y）点

3．模型的假设条件（assumption）

(1) 高斯假设条件（C.F.Gauss）德国数学家 ①零均值性

E(i)0；i1,2,n

即在自变量取一定估计Xi的条件下，其总体各误差项的条件平均值为0。 ②等方差性（为一常数）

D(i)Var(i)2, ③误差项之间相互，（即不相关）

i1,2,,n i,j1,2n

Cov(i,j)0;ij, ④误差项与自变量之间相互性。

Cov(i,Xi)0

上述假设称为标准古典假设条件。符合条件的回归模型称为普通线性回归模型（general linear regression model）。

ˆ,ˆ,Yˆ分别是0,1和Y的无偏估计量；如果仅为点估计则由OLSE计算的01如果需要进行区间估计，需要以下假设： (2)正态误差假定

i~N(0,)i1,2,,n 同时，

2Yi~N(01Xi,)i1,2,,n

2另外，还可推出

22ˆ(e)(YY)i22E(Se)EE n2n222E(S)即是无偏估计量 e2ˆ(YY)且

2~2(np1)

其中：Se：估计标准误差

SYˆSe0(X0X)21n(XX)2

S(Y0ˆ)Y01(X0X)2Se1n(XX)2 其中：X0 是给定值。

则

S0Se1X2n(XX)2 S1Se12(XX)

§2.2 多元线性回归模型

一、多元线性回归方程及其假设

设模型为：

Yi01X12X2pXpi 将n组观察的样本数据

(y,x,x,,x) i1,2,,n

ii1i2ip 代入方程：

ybbxbxbxe

i01i12i2pipi2(e)根据OLS，使imin。求0,,p的估计值 b0,,bp，

可得回归方程：

ˆib0b1xi1b2xi2bpxip y称为多元线性回归方程。

上述模型用矩阵形式来表示，即：

yxβε

其中：

1xy11y2yx ynn11x11x12xn2n1xxxx1p2pijnp

n(p1) 6

β01p1ε2

nn1(p1)1

假定3：正态分布。假定2：随机误差项具有0均值和等方差。假定1：自变量是确定性变量，且x是一个n×(p+1)的矩阵。称x为回归设计矩阵或资料矩阵。矩阵x的秩 rank(x)=p+1是一个满秩矩阵。即p+1≤n，表明自变量列之间不相关。 E(i)0 Cov(,)0ij2ijiji,j1,2,,n ε~N(0,2In) 根据上述假设即多元正态分布的性质可知，随机向量遵从n维正态分布。则

有 E(y)Xβ ， var(y)In

2y~N(xβ,In) 因此：

二、回归平面和回归系数的意义

估计回归方程:

ˆybbxbxbxi01i12i2pip 是一个超平面。

其中：b0,b1,,bp分别称为超平面的回归系数。 b0为截距；例：以二元线性回归方程为例，如图2-3

bj表示其他变量xi(ij)固定时，xj每变化一个单位， yi的平均变化。

1为负值 2为正值

Y X2

X1 图2-3

［例］由1991年我国分地区家庭年人均食品支出（Y）和年人均收入（X1）及粮食

单价（X2）数据可得：

ˆ87.380.35x206.xY12

Coefficients(a)

Unstandardized Model 1 (Constant) 人均收入粮食单价 Coefficients B -87.378 .3 206.538 Std. Error 62.452 .039 75.212 Standardized Coefficients Beta .773 .234 t -1.399 9.081 2.746 Sig. .173 .000 .011

a Dependent Variable: 食品支出

表明：当价格固定时，收入每上升1元，食品支出上升0.35元；

当人均收入固定时，价格每上升1元，食品支出上升206.元。

［例］用1998年世界若干国家的粗死亡率（Y）对其65岁以上人口占总人口的比

例（x1）和人均国民生产总值（x2）做回归,得到：

ˆ11.9320.152x0.00043xY12

即x1对Y有提高作用，x2对Y有降低作用。

特别是当多项式模型（以二元为例）

Y01X12X23X125X1X2

X1变化一个单位，Y的平均变化为：

这种情况难以解释!

13(2X11)5X2

3．多元回归模型的估计

（1）回归系数的估计

ˆ 将 y0bbxbxbx01122p12p 代入p2ˆ(YY)中，分别对 b,b,b,,b求偏导数，得到正规方程组。用矩阵表示如下：

x(yxb)0 移项得：当

xxbxy

b(xx)xy

xx存在时，即xx是一个非奇异矩阵，xx0，则有：

1［例］一元方程时，

y11x1y1x122 已知：y x xx1y1xnnn1n211 x2xn2n1xx则

x111x2xn2n1x11xn2x1xnn2xx2

22 10

2xxx)(x 有伴随阵： nx1xx1逆阵：(xx)nn(xx)xxx212xx xn2x2nSxxxnSXXnSXX1SXXx 221xyx111x2xn2n

y1y2yxy21

ynn12yxxxynS1xxb(xx)xynxyxy nSxx21其中： Sxx(xix)2i1n （2）因变量的估计

已知 E(y)Xβ

有

ˆxbx(xx)xy， y11

11Hx(xx)x 令

1x1x21x2nSxxx(xx)1xx1xnnSXXxnSXX1SXX1x111

x2xn则 Hyˆxbx(xx)xyHy

1x(xx)x是n阶对称阵，形象地称为帽子矩阵。

1该矩阵的诸对角线元素记为hii（杠杆率）。

杠杆率：观测第i个观测值离其余n－1个观测值的距离有多远。对一元回归来说，其杠杆率为：

(xix)21hiinn(xx)2 i1i三、方程的解释能力

1．决定系数 R（coefficient of determination）（拟合优度）

图2-4

YSST(YY)Y222n 2ˆSSR(YY) 2ˆ SSE(YY)

矩阵形式表示如下：

11SSTYYYJYY(IJ)Y

nn11SSRbXYYJYY(HJ)Y

nnSSEeeYYbXYY(IH)Y

其中： I 为n阶单位阵；

J 表示元素全为1的n阶方阵。

222ˆˆ(YY)(YY)(YY)可得：   如图

2-4

R说明：（1）R2——[0，1]之间；（2）是选择不同模型的标准；

22ˆ(YY)(YY)2 （3）R2=0，X Y不存在相关关系！

但是R2的数值大小并不表示模型选择是否正确。应再结合其它指标（工具）进一步判断。如：1973年安斯库姆（Anscombe）构造了四组数据如表：

第一组 x 4 5 6 7 8 9 10 11 12 13 14

y 4.26 5.68 7.24 4.82 6.95 8.81 8.04 8.33 10.84 7.58 9.96 x 4 5 6 7 8 9 10 11 12 13 14 第二组 y 3.10 4.74 6.13 7.26 8.14 8.77 9.14 9.26 9.13 8.74 8.10 x 4 5 6 7 8 9 10 11 12 13 14 第三组 y 5.39 5.73 6.08 6.44 6.77 7.11 7.46 7.81 8.15 12.74 8.84 x 8 8 8 8 8 8 8 8 8 8 19 第四组 y 6.58 5.76 7.71 8.84 8.47 7.04 5.25 5.56 7.91 6. 12.5 2R0.667 四组计算结果得：

ˆ3.000.500x Y如图2-5所示

(a) (b)

图2-5

在图2–5中，可以看出：

（a）图是规范的回归；

（b）图应通过变换可以得到更好的拟合；

（c）图应剔除异常值（剔除后 Yˆ4.000.34x R2≈1 ）（d）图应进一步搜集数据（实际只有，8，19这二点）。

2．调整的决定系数 R2

adj (Adjusted multiple coefficient of determination)

当增加自变量个数时，SSE逐渐减少。R2则随之增长。

即R2受自变量个数与样本规模之比(p:n)的影响。一般的常规是1:10以上为好；当这个比值小于1:5时，R2会倾向高估拟合优度。因此用R2adj代替R2。

(YˆY)2R2adjp(YY)2 n1(YYˆ)2 1np1(YYˆ)2

n1 1n12np1(1R)

从公式中可以看出： p增加时，R2adj变得更小。当p接近n时，R2adj<当n>>p时，R2adj≈R2

15 3．多元相关系数R (multiple correlation)

对R2开方，即得R，称为复相关系数。因为各自变量与Y的相关方向不一定相同，因此在多元线性回归中，R只求R2的正方根。R是总体多元相关函数的估计。

4．偏决定系数（partial coefficient of determination）

方程中某一个变量xi对减少剩余平方和（SSE）的边际贡献，它表示xi对y的边际解释能力。

公式：以二元回归为例，

R2y2.1SSR(1,2)SSR(1)Ry.12R2SSE(1)1Ry.122y.1 也可表示为：

R2y2.1SSE(1)SSE(1，2) SSE(1)（《应用回归分析》）

值域：[0，1]

其中：Ry2.1 是指x2对y的边际影响。

SSR（1，2）：含有两个自变量的回归平方和 SSR（1）：含有x1的回归平方和 SSE（1）：只含有x1的剩余平方和

前式是用绝对误差表示的百分比，后式是用相对误差表示的百分比。但反映的都是新加入回归的变量所解释的百分比！但是这一百分比是以前一步回归（即变量较少的回归）所未能解释的部分为整体。而不是以Y的总变化为整体！如图2-6所示：

X1，X2对Y的单独和共同的影响 X2对Y的边际影响

（a）（b）

图2-6

偏决定系数作用：

（1）可以判断自变量的重要性:

在已有p-1个变量的回归方程中，新增第p个变量，对y的边际影响是

公式： R2yp•1,2,,p1SSR(1,2,,p)SSR(1,2,,p1) SSE(1,2,,p1)R2y1,2,p R1R22y1,2,,p1 y1,2,,p1（2）用于一个变量组（不是单个变量）的（partial multiple determination

coefficient）边际贡献的评价。偏多元决定系数例：在p－1个自变量的基础上，新增p、q、r三个变量对Y的边际贡献为:

SSR(1,2,,p1,p,q,r)SSR(1,2,,p1)Ry(pqr)•1,2,,p1 SSE(1,2,p1)2

R2y1,2,,p1,p,q,rR22y1,2,,p11R17

y1,2,,p1公式（2）在分析一个不可分割或研究人员不愿的变量组时是非常有用的。如遇到表示多个不同类别的虚拟变量时，虽然它们是多个，但其实代表的是一个多分类的名义测度变量，因此单个计算偏度确定系数实际意义不大。

[例]：R2支出·收入，价格=0.884，

R2支出·收入=0.852

R2支出·价格=0.531

2R则（1）支出,收入•价格22R支出R0.8840.531•收入，价格支出•价格0.753 21R支出•价格10.5312R支出,价格•收入（2）

2R2支•收,价R支0.8840.852•收0.219 21R支•收0.852从而可以说明人均收入和价格对食品支出的边际贡献分别为0.753和0.219，即人均收入对食品支出的总影响大于价格。

5．偏相关系数r

偏决定系数开方，即得到偏相关系数。表示控制其他变量条件下的两个变量之

间的相关程度指标。

（1）偏相关系数有正负之分，符号与偏回归系数i一致。

（2）按控制变量个数的多少，分别称为零级、一级、二级…偏相关系数（zero-,

first-,second-, third-order）

如 rab.c 是一级偏相关系数，表示在控制xc的条件下，xa与xb的相关程度。

rab.crabracrbc221rac1rbc rac.bracrabrbc1r1r2ab2 bc 作用：偏相关系数可以判断哪些自变量对因变量的影响较大，而选择作为必需考

虑的自变量，这样可以减少自变量个数，减少方程中的共线性。

6．方差分析

222ˆˆ (YY)(YY)(YY)SST = SSE + SSR SSR/pF~F(p,np1) SSE/np1 当总体决定系数20时，F～F（p,n-p-1）分布。从而用于方程的显著性检验。

四、回归方程和回归系数的检验

1．回归方程的显著性检验

原假设（null hypothesis）零假设

H:0；

012p备择假设（alternative hypothesis）

H1：至少有一个j不为零，判别原则：

接受H0，则Y与X1…Xp的线性关系不显著。或者说和2与0无显著差别。计算出一个显著水平用P表示。（signifinence level）给定一个显著水平用表示。

当P<α时，拒绝H0，接受H1，当P>α时，接受H0，拒绝H1

j1,2,,p

图2-7

2．回归系数的显著性检验已知bj~N(j,cjj)

2cjj是矩阵C(XX) H0:j0

1中第j行第j列的元素。

H1:j0 在假设条件成立时：

j1,2,,p

bt~t(np1) 统计量：Sjjj其中 Sj 是bj的标准误.

在SPSS中，提供t。相应的P值，标签为SigT。

常数项不是分析的重点，即使不显著，一般也保留在方程中。通过系数检验可以保留最重要的变量，删除不显著的变量。

Unstandardized Standardized Coefficients Beta .773 .234 t -1.399 9.081 2.746 Sig. .173 .000 .011

Model 1 (Constant) 人均收入粮食单价 Coefficients B -87.378 .3 206.538 Std. Error 62.452 .039 75.212 3、标准化回归系数（standardized regression coefficient）。

在多元回归中，经常要比较哪一个变量是影响Y的主要因素，哪些是次要因素。

ˆ的绝对值进行比较。但是不能直接通过因为它们值的大小与它们所取的单位有关！ j这就需要计算标准化回归系数（standardized regression coefficient）。通过标准化回归系数比较每个变量对Y的相对重要性。

其计算方法有两种：

（1）建立标准化回归方程

分别对Xj和y进行标准化，然后再进行回归，便得到标准化回归方程，其回归系数就是标准化回归系数。Bj

zjxjxjsj ZyYY得 SyZYB1Z1B2Z2BKZK

注意，在标准回归方程中，常数项已经不存在，因为回归平面通过了Zy轴上的截距。当自变量相关时，Bj的大小也会受影响。（2）直接计算Bj

其中：Bj表示xj变化一个标准差单位，Y平均变化几个标准差单位。 BjbjSjSy 其中：Sy和Sj分别为原因变量y和原自变量xj的标准差。

ˆ标签B （统计软件可以输出Bj）j

Bj标签Beta4、回归系数的置信区间

P(bjtSjjbjtSj)1 22 t的自由度(df)为n–p–1

其中：Sj

Secjj，

五、预测

ˆ的区间估计（特定条件下，平均的预测区间） 1．Y0ˆ,2ˆ的无偏估计，且yˆ0是总体Yˆ0服从N(Y yˆ)其中： .0Y0ˆXXY00101p0p

ˆyˆY~t(np1) S，

Snp12ˆ)(yyˆy200eˆ0Yˆ的置信区间为：由此Y00ˆ0t/2Syt/2Syˆ0,yˆ0nn0ii

jij1(XX)(X_X)c

N22ˆ0Yi1j10j 当用Se2代替2时

1ˆSS(xx)(xx)c n222nnˆ0Yˆ0Yei1j10iiojjijmm(x0ixi)(xojxj)cij可以间接计算， i1j1Vijcij其中 MSResidualMSResidual:回归方程残差平方和

Vij:回归系数方差协方差矩阵（选择Covariance matrix）

2．Y0的预测

影响预测区间的大小（精度）的因素：（1）样本容量 n；（2）自变量方差；（3）X0离X的距离；（4）X的离散程度。 ˆ,2) Y0的预测区间。（即特定条件下单独案例）这里Y0~N(Y0Y0 其中：

1ˆS1(XX)(XX)c

N222nnˆ0Yei1j10iiojjij1ˆSS1(xx)(xx)c

nyˆY~t(np1) S222nnˆ0Yy0ei1j10iiojjij00y0

ˆ0tSy0) 即：Y0的置信区间为:(y2六、多重共性线及其解决办法

1．含义及影响

多重共线性：当自变量之间高度相关时，回归方程中的自变量就会互相削弱各自对y的边际影响，使本身的回归系数的数值下降而其标准误扩大，于是方程虽然整体显著，但各个自变量都不显著的现象，这种现象就称为多重共线性。

ˆˆxx ˆ[例] y01122如果 x2c0c1x1 （c0，c1为任意常数）

ˆ就会有许多解，从而用OLS无法求出唯一j值。即：x1，x2完全相关。回归方程y

即（X’X）对角元素很小→（X’X）–1对角元素很大→cjj很大→Sj=Secjj很大→

ˆ不显著！ t值很小→j 影响：

ˆ差别很大→由（1）回归系数的置信区间变宽，系数变得不稳定→不同样本→j样本推断总体是不可靠的。

（2）回归系数不能反映自变量的作用。（3）用于预测时，对预测精度有很大影响。 2．多重共线性的检验

（1）方程的决定系数很高，且y与各自变量的相关系数也很高，但自变量的回归系数均不显著。（即使y与自变量相关程度不高，也可能存在共线性）。（2）多个自变量中，某一自变量可以被其他自变量线性表示出来。方法是用每一个自变量，对其余自变量进行线性回归，当回归方程的确定系数较高，且F检验也显著时，就可以认为这一变量可以被其他变量线性表示。当它们都为自变量时，就会产生共线性（二元线性回归时，只要比较r12即可）

（3）分别构造不含某一自变量的p–1个回归模型，将它们与包含全部自变量的回归方程进行比较，若某个模型与含所有变量的模型R2很接近，就表示没有包含的那个变量是多余的，它对于y的贡献可以由其它变量表示。

（4）方程的R2很高，但每一自变量的偏确定系数很小，说明变量之间可能存在高度的线性关系。

SPSS中提供检验多重共线性指标和信息输出。 (选择collinearity diagnostics)

容限度（tolerance）

1-R2j ≤0.1, 说明自变量间有严重的多重共线性。方差膨胀因子（Variance inflation factor）VIF

1 hjj21Rj。

特征值：（Eigenvalue）

λ≈0 X的列向量必存在多重共线性。

条件数（Condition indexes）

ki当VIF≥10时，说明自变量间有严重的多重共线性 m λm 是 X’X的最大特征根。 i

通常认为： 0＜k＜10 没有多重共线性 10≤k＜100 较强多重共线性 k≥100 严重多重共线性

3．补救多重共线性影响的办法

（1）去掉与y相关程度较低，而与其他自变量高度相关的变量；（2）去掉可以被其余自变量线性表示的变量；（3）增加样本规模；（4）采用新的样本数据；（5）利用先验信息组合变量；（6）用因子分析方法保留重要的变量；（7）将截面数据与时序相结合。

时序数据往往线性相关，为此可先用截面数据做回归，通过对比时序数据，

说明变量是否线性相关。

（8）变量变换。通过对变量进行变换，也可以减弱变量间的多重共线性。如倒

数、对数变换等，如时间序列回归方程

ˆib0b1xi1b2xi2 yˆiyˆi1b1(xi1xi1,1)b2(xi2xi1,2) i1,2,n 用y七．最优回归方程的选择

1．选择标准

a. 从拟合的角度考虑的准则；

22ˆ2R,R例如，adi计算或者残差(YY)达到最小。

b. 从极大似然估计方法考虑的准则——赤池信息量AIC达到最大；

赤池（Akaike）日本统计学家，1974年提出模型的选择标准AIC(Akaike Information Criterion).回归分析中选择自变量的AIC标准为：

2ˆ(YY))2mc AICnlog(n其中，c=nlog(2π)+n,是与m无关的常数。

对每一个回归子集计算AIC，最小者的模型即为最优。 c. 从预测的角度考虑的准则——Cp统计量

19年马洛斯（Mallows）从预测的角度提出。

QkCp2n2kSe

其中，Qk是去掉k个自变量后的残差。

对每一个回归子集计算Cp，最小者的模型即为最优。

2.SPSS程序提供五种方法

（1）全部纳入法（Enter）默认状态

不选择其它方法，将默认定义本组的所用变量一次全部纳入回特点：不加区别全部吸收。（2）删除法（Remove）

将本组自变量全部无条件地一次从回归方程中删除。前提：之前本组变量已纳入回归方程，否则，无变量可删除。特别地，如果在建立回归方程时，第一组自变量就使用Remove方法，则系统默认，要先将第一组自变量全部纳入回归方程（Enter）然后将其再全部删除！

（3）向前回归法（Forward）本组自变量将先根据比较，选择其中最好的(离差

平方和最小)一个加入直至所有符合标准者全部进入回归。

（4）向后回归法（Backward）本组自变量一次纳入回归，然后根据标准删除一个最不显著的，再做一次回归判断其余的取舍，直至保留的变量都达到要求。

特点：不显著的自变量不多时可以使用。如果自变量较多且不显著，则计算量也很大。缺点是：变量一旦被剔除就不能再回到方程中。实际中，有时剔除了某些变量后，另一变量可能会变得非常显著，但这种方法已经不给机会了。

（5）逐步回归法（Stepwise）从第一个变量开始，按向前法的原则，选择一个最好的变量进入回归模型。然后，用向后法的原则，选择一个最不好的变量删除。

注意：SPSS程序中（1）、（2）种是无条件的，后三种需要一定的判断标准执行。默认标准是：

F值 =Fα（p，n-p-r-1） r：可以进入模型的变量数进入时删除时

F=3.84 F=2.71

概率标准 0.05 0.10

如用其它标准，可以在Options键中进行标准修改。

§2.3 虚拟自变量（Dummy Variable）

在社会科学研究中，有许多的分类变量，如地区、单位名称、性别、文化程度、职业等等。我们可以用它的信息对因变量进行回归，以解释y的变化。这就需要将分类变量转换为虚拟变量，然后才能引入归方程。

一、虚拟变量的建立

（1）分别对K个虚拟变量（dummy variable）取0和1的值。当属于这一类别

时，就赋值为1，否则为0。

（2）虚拟变量平均值的意义是，赋值为1的该类案例占全部案例的比例。（3）需设定一个参照类。因为K个类别中存在着线性相关。因此只设k–1个

类别变量。当这k–1个变量取值都为0时，即为参照类别。

例：文化程度变量有5个类别：①文盲或半文盲；②小学；③初中；④高中；⑤大

学。取文盲或半文盲为参照类，用DE2、DE3、DE4、DE5分别表示其它类别。则：

原变量编码值虚拟变量赋值的操作

EDU=1 文盲半文盲所有DEi=0 EDU=2 小学 DE2=1 其他DEi=0 EDU=3 初中 DE3=1 其他DEi=0 EDU=4 高中 DE4=1 其他DEi=0 EDU=5 大学 DE5=1 其他DEi=0

即yb0b2DE2b3DE3b4DE4b5DE5

y1.411.13DE21.31DE31.58DE41.57DE5（生育子女数）

二、虚拟变量回归系数的意义

1 回归系数bj表示该类别与参照类均值之差，又称为差别截距。例：方程y=b0或

y=b0+b2是两条平行线，只是多了一个b2，即小学程度。因此bj说明的是该类与参照类的相比，对Y的影响的差值数。模型中小学、初中、高中、大学文化程度妇女分别比文盲妇女平均少生1.13、1.31、1.58和1.57个子女。 2 如果是序次变量，如“文化程度”还可用bi–bi–1表示序次变量各相邻分类的边际

效应。如b3–b2=–1.31–(–1.13)=–0.18是初中的边际效应；小学、高中、大学的分别是–1.13（本身–0）–0.27和0.01。

由此可知“小学”对降低妇女单生子女数边际效应最大，其次为高中和初中。

（实际经验中，初中通常边际效应最大）。

3 选择哪一类作为参照类，对回归结果没有实质性的影响。尽管回归系数会有所不

同，但这只是因为换了参照类的原因，而使每个系数意义不同。但是所计算的各类平均值及它们之间的差不会发生任何变化。统计检验的结果也不会有任何变化。所以参照类的选择只是研究者根据解释实际意义时的方便来选择。

三．虚拟变量的回归检验

虚拟变量的检验与一般回归分析完全没有区别。（1）整体模型检验的假设为：

H0:12k0

H1:1,2,,k中至少有一个不为零。

（2）单个回归系数的检验假设为：

H0:j0

H1:j0

这里由于变量只取0和1值，所以检验的意义是，该变量取1时的平均值与参照类（所有变量取值为0时）的平均值有显著差异。

上述对单个回归系数的检验，只能对比各变量与参照类的差异是否显著，不能提供各类之间的两两比较。为此，

（1）可以通过改换参照类来进行各变量之间的比较。但这需要重新编码。（2）可以直接对任意两个回归系数之差的检验来完成。同属一个因素的两类平

ˆiyˆj(b0bi)(b0bj)bibj。所以均值之差，就是两个虚拟变量回归系数之差：y建立假设：

H0:ij； H1:ij

tbibjS(bibj)~t(np1) 22S(bibj)SiiS2jj2Sij

Sii2，S2jj是bi,bj的方差。 Sij2是bi和bj之间的协方差。

这些系数可以在SPSS回归程度中输出，在协方差矩阵V中。

（3）通过方程中各个变量（组）偏确定系数来比较它们作用的大小。分别做不含有某一变量的回归，得到回归方程的确定系数表，通过该表确定方程中各变量作用大小的顺序。

结论：因素较少、各类别较少且可以忽略交互效应时，较适宜用回归方法进行方差分析；但是当因素较多，类别较多且交互影响不容忽略时，就应直接进行方差分析更方便。

四．其他形式的分类变量编码和应用

分类变量的编码：虚拟编码、

效应编码（effect coding）、正交编码（orthogonal coding）非正交编码（nonorthogonal coding）

效应编码方法是：一个因素包括K类变量，就设置K–1个效应变量，设立的变量习

惯上选择第一或最后一类。前K–1类变量的取值属于该类别时，取值为1，不属于时，效应变量为0，这与虚拟编码相同，但案例属于没有设定的变量的类别时，所有的效应变量取值为–1，这是不同于虚拟编码的方法。

回归方程的常数项的意义是样本整体的平均值；各回归系数的意义是相应类别平均值与整体平均值之差。

原变量编码值

效应变量赋值的操作

EDU=1 文盲半文盲 DE2=1 其他DEi=0 EDU=2 小学 DE3=1 其他DEi=0 EDU=3 初中 DE4=1 其他DEi=0 EDU=4 高中 DE5=1 其他DEi=0 EDU=5 大学所有DEi=-1

在统计实践中，虚拟编码和效应编码往往用于事后比较（post hoc comparison）的研究，即根据来自抽样的数据进行分析；而正交和非正交编码往往用于事先统计好的方案（priori or planned comparison）即数据是通过可控制的试验取得的。这一方法一般多用于科学研究中。通过效应编码，可以对整体有一个全面描述，了解是否存在特别类，是哪一类。这是与虚拟编码相比的优点。

采用何种编码只是改变回归结果的解释，而不改变回归分析的实际结果。

§2.4 系统建模过程

1数据的收集和准备 2回归方程的选取 3模型的精细分析 4模型的确认

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

第二章 多元线性回归

第二章多元线性回归