§2.1 基本概述
一、回归的任务
多元线性回归(MLR)(multiple linear regression)是分析一个随机变量与多个变量之间线性关系的统计方法。
回归(Regression)起源于19世纪生物学家F·高尔顿进行的遗传学研究。其核心是“普通最小平方法”(Ordinary Least Squares)OLS。
多元回归将所研究的变量分为:
(或因变量dependent variable)用Y表示 “被解释变量”(或自变量,independent variable)。分别和X1,X2…表示. “解释变量”
确定自变量和因变量的关系是回归分析的主要任务:
(1) 根据实测数据求解某一模型的各个参数; (2) 评价回归模型是否较好地拟合实例数据; (3)利用模型进行预测。 需要注意的是:
(1) 因变量必须是间距测度等级以上的变量(有时也包含定性变量。见《应用回归分析》)
(也称为连续变量)。自变量可以是任意等级的变量。
(2)既使模型正确通过检验,也不能确定X、Y之间的因果关系,而只能确认存在着统计关系。
[例] 不同地区的人均食品支出与人均收入的关系(图2–1);汽车重量与每加仑燃料行驶英里值的关系;(图2–2)。
1
1200食品支出100080060015002000250030003500人均收入 图2–1
60005000Vehicle Weight (lbs.)400030002000100001020304050Miles per Gallon
图2–2
二、一元线性回归的回顾
1. 模型
Yi01xii (2.1)
当获得n组样本观测值(x1 , y1),(x2 , y2),…(xn ,yn)的数据时,如果符合2.1式,则有
2
YXi01iii1,2,,n (2.2)
2.1式称为理论回归模型;2.2式称为样本回归模型。有时不加以区分地将两者称为一元线性回归模型。
ˆ,ˆ,则称 通过n组观测值,用OLS法对0,1进行估计,得01ˆˆXˆYi01i
为Y关于X的一元线性方程。
其中: 1 回归系数,说明X与Y之间的变化关系。
2.普通最小二乘法估计的统计性质(OLSE Estimation) (1)残差:eiˆ,用来说明拟合效果,可以看作误差项ε的估计值。YiY i iei0 xe0iiˆ(XX),所以 ˆY因为 Ynˆ(XX)0 ˆ)(YY)e(YY但|ei|很麻烦,经常用ei2来说明。
i12ˆ(YY)min (2)ˆ的平均值等于Y的平均值Y (3)Y1ˆ Yn (4)X与e相互
1Cov(xi,ei)(XiX)(ei)0
nˆ与e相互 (5)Y1ˆˆY)(e)0 Cov(Yi,ei)(Yin (6)直线通过n个散点的重心(X,Y)点
3
3.模型的假设条件(assumption)
(1) 高斯假设条件 (C.F.Gauss)德国数学家 ①零均值性
E(i)0;i1,2,n
即在自变量取一定估计Xi的条件下,其总体各误差项的条件平均值为0。 ②等方差性 (为一常数)
D(i)Var(i)2, ③误差项之间相互,(即不相关)
i1,2,,n i,j1,2n
Cov(i,j)0;ij, ④误差项与自变量之间相互性。
Cov(i,Xi)0
上述假设称为标准古典假设条件。符合条件的回归模型称为普通线性回归模型(general linear regression model)。
ˆ,ˆ,Yˆ分别是0,1和Y的无偏估计量; 如果仅为点估计则由OLSE计算的01如果需要进行区间估计,需要以下假设: (2)正态误差假定
i~N(0,)i1,2,,n 同时,
2Yi~N(01Xi,)i1,2,,n
4
2另外,还可推出
22ˆ(e)(YY)i22E(Se)EE n2n222E(S)即 是无偏估计量 e2ˆ(YY)且
2~2(np1)
其中:Se:估计标准误差
SYˆSe0(X0X)21n(XX)2
S(Y0ˆ)Y01(X0X)2Se1n(XX)2 其中:X0 是给定值。
则
S0Se1X2n(XX)2 S1Se12(XX)
§2.2 多元线性回归模型
一、多元线性回归方程及其假设
设模型为:
5
Yi01X12X2pXpi 将n组观察的样本数据
(y,x,x,,x) i1,2,,n
ii1i2ip 代入方程:
ybbxbxbxe
i01i12i2pipi2(e)根据OLS,使imin。求0,,p的估计值 b0,,bp,
可得回归方程:
ˆib0b1xi1b2xi2bpxip y称为多元线性回归方程。
上述模型用矩阵形式来表示,即:
yxβε
其中:
1xy11y2yx ynn11x11x12xn2n1xxxx1p2pijnp
n(p1) 6
β01p1ε2
nn1(p1)1
假定3:正态分布。 假定2:随机误差项具有0均值和等方差。 假定1:自变量是确定性变量,且x是一个n×(p+1)的矩阵。称x为回归设计矩阵或资料矩阵。矩阵x的秩 rank(x)=p+1是一个满秩矩阵。即p+1≤n,表明自变量列之间不相关。 E(i)0 Cov(,)0ij2ijiji,j1,2,,n ε~N(0,2In) 根据上述假设即多元正态分布的性质可知,随机向量遵从n维正态分布。则
有 E(y)Xβ , var(y)In
2
2y~N(xβ,In) 因此:
7
二、回归平面和回归系数的意义
估计回归方程:
ˆybbxbxbxi01i12i2pip 是一个超平面。
其中:b0,b1,,bp分别称为超平面的回归系数。 b0为截距; 例:以二元线性回归方程为例,如图2-3
bj表示其他变量xi(ij)固定时,xj每变化一个单位, yi的平均变化。
1为负值 2为正值
Y X2
X1 图2-3
8
[例] 由1991年我国分地区家庭年人均食品支出(Y)和年人均收入(X1)及粮食
单价(X2)数据可得:
ˆ87.380.35x206.xY12
Coefficients(a)
Unstandardized Model 1 (Constant) 人均收入 粮食单价 Coefficients B -87.378 .3 206.538 Std. Error 62.452 .039 75.212 Standardized Coefficients Beta .773 .234 t -1.399 9.081 2.746 Sig. .173 .000 .011
a Dependent Variable: 食品支出
表明:当价格固定时,收入每上升1元,食品支出上升0.35元;
当人均收入固定时,价格每上升1元,食品支出上升206.元。
[例] 用1998年世界若干国家的粗死亡率(Y)对其65岁以上人口占总人口的比
例(x1)和人均国民生产总值(x2)做回归,得到:
ˆ11.9320.152x0.00043xY12
即x1对Y有提高作用,x2对Y有降低作用。
特别是当多项式模型(以二元为例)
9
Y01X12X23X125X1X2
X1变化一个单位,Y的平均变化为:
这种情况难以解释!
13(2X11)5X2
3.多元回归模型的估计
(1)回归系数的估计
ˆ 将 y0bbxbxbx01122p12p 代入p2ˆ(YY)中,分别对 b,b,b,,b求偏导数,得到正规方程组。用矩阵表示如下:
x(yxb)0 移项得: 当
xxbxy
b(xx)xy
xx存在时,即xx是一个非奇异矩阵,xx0,则有:
1[例]一元方程时,
y11x1y1x122 已知:y x xx1y1xnnn1n211 x2xn2n1xx则
x111x2xn2n1x11xn2x1xnn2xx2
22 10
2xxx)(x 有伴随阵: nx1xx1逆阵:(xx)nn(xx)xxx212xx xn2x2nSxxxnSXXnSXX1SXXx 221xyx111x2xn2n
y1y2yxy21
ynn12yxxxynS1xxb(xx)xynxyxy nSxx21其中: Sxx(xix)2i1n (2)因变量的估计
已知 E(y)Xβ
有
ˆxbx(xx)xy, y11
11Hx(xx)x 令
1x1x21x2nSxxx(xx)1xx1xnnSXXxnSXX1SXX1x111
x2xn则 Hyˆxbx(xx)xyHy
1x(xx)x是n阶对称阵,形象地称为帽子矩阵。
1该矩阵的诸对角线元素记为hii(杠杆率)。
杠杆率:观测第i个观测值离其余n-1个观测值的距离有多远。 对一元回归来说,其杠杆率为:
(xix)21hiinn(xx)2 i1i三、方程的解释能力
1.决定系数 R(coefficient of determination)(拟合优度)
图2-4
2
12
YSST(YY)Y222n 2ˆSSR(YY) 2ˆ SSE(YY)
矩阵形式表示如下:
11SSTYYYJYY(IJ)Y
nn11SSRbXYYJYY(HJ)Y
nnSSEeeYYbXYY(IH)Y
其中: I 为n阶单位阵;
J 表示元素全为1的n阶方阵。
222ˆˆ(YY)(YY)(YY)可得: 如图
2-4
R说明:(1)R2——[0,1]之间; (2)是选择不同模型的标准;
22ˆ(YY)(YY)2 (3)R2=0,X Y不存在相关关系!
但是R2的数值大小并不表示模型选择是否正确。应再结合其它指标(工具)进一步判断。如:1973年安斯库姆(Anscombe)构造了四组数据如表:
13
第一组 x 4 5 6 7 8 9 10 11 12 13 14
y 4.26 5.68 7.24 4.82 6.95 8.81 8.04 8.33 10.84 7.58 9.96 x 4 5 6 7 8 9 10 11 12 13 14 第二组 y 3.10 4.74 6.13 7.26 8.14 8.77 9.14 9.26 9.13 8.74 8.10 x 4 5 6 7 8 9 10 11 12 13 14 第三组 y 5.39 5.73 6.08 6.44 6.77 7.11 7.46 7.81 8.15 12.74 8.84 x 8 8 8 8 8 8 8 8 8 8 19 第四组 y 6.58 5.76 7.71 8.84 8.47 7.04 5.25 5.56 7.91 6. 12.5 2R0.667 四组计算结果得:
ˆ3.000.500x Y如图2-5所示
(a) (b)
(c) (d)
14
图2-5
在图2–5中,可以看出:
(a)图是规范的回归;
(b)图应通过变换可以得到更好的拟合;
(c)图应剔除异常值 ( 剔除后 Yˆ4.000.34x R2≈1 ) (d)图应进一步搜集数据(实际只有,8,19这二点)。
2.调整的决定系数 R2
adj (Adjusted multiple coefficient of determination)
当增加自变量个数时,SSE逐渐减少。R2则随之增长。
即R2受自变量个数与样本规模之比(p:n)的影响。一般的常规是1:10以上为好;当这个比值小于1:5时,R2会倾向高估拟合优度。因此用R2adj代替R2。
(YˆY)2R2adjp(YY)2 n1(YYˆ)2 1np1(YYˆ)2
n1 1n12np1(1R)
从公式中可以看出: p增加时,R2adj变得更小。当p接近n时,R2adj< 15 3.多元相关系数R (multiple correlation) 对R2开方,即得R,称为复相关系数。因为各自变量与Y的相关方向不一定相同,因此在多元线性回归中,R只求R2的正方根。R是总体多元相关函数的估计。 4.偏决定系数 (partial coefficient of determination) 方程中某一个变量xi对减少剩余平方和(SSE)的边际贡献,它表示xi对y的边际解释能力。 公式:以二元回归为例, R2y2.1SSR(1,2)SSR(1)Ry.12R2SSE(1)1Ry.122y.1 也可表示为: R2y2.1SSE(1)SSE(1,2) SSE(1)(《应用回归分析》) 值域:[0,1] 其中:Ry2.1 是指x2对y的边际影响。 SSR(1,2):含有两个自变量的回归平方和 SSR(1):含有x1的回归平方和 SSE(1):只含有x1的剩余平方和 前式是用绝对误差表示的百分比,后式是用相对误差表示的百分比。但反映的都是新加入回归的变量所解释的百分比!但是这一百分比是以前一步回归(即变量较少的回归)所未能解释的部分为整体。而不是以Y的总变化为整体!如图2-6所示: 16 X1,X2对Y的单独和共同的影响 X2对Y的边际影响 (a) (b) 图2-6 偏决定系数作用: (1) 可以判断自变量的重要性: 在已有p-1个变量的回归方程中,新增第p个变量,对y的边际影响是 公式: R2yp•1,2,,p1SSR(1,2,,p)SSR(1,2,,p1) SSE(1,2,,p1)R2y1,2,p R1R22y1,2,,p1 y1,2,,p1(2)用于一个变量组(不是单个变量)的(partial multiple determination coefficient)边际贡献的评价。 偏多元决定系数 例:在p-1个自变量的基础上,新增p、q、r三个变量对Y的边际贡献为: SSR(1,2,,p1,p,q,r)SSR(1,2,,p1)Ry(pqr)•1,2,,p1 SSE(1,2,p1)2 R2y1,2,,p1,p,q,rR22y1,2,,p11R17 y1,2,,p1公式(2)在分析一个不可分割或研究人员不愿的变量组时是非常有用的。如遇到表示多个不同类别的虚拟变量时,虽然它们是多个,但其实代表的是一个多分类的名义测度变量,因此单个计算偏度确定系数实际意义不大。 [例]:R2支出·收入,价格=0.884, R2支出·收入=0.852 R2支出·价格=0.531 2R则(1)支出,收入•价格22R支出R0.8840.531•收入,价格支出•价格0.753 21R支出•价格10.5312R支出,价格•收入 (2) 2R2支•收,价R支0.8840.852•收0.219 21R支•收0.852从而可以说明人均收入和价格对食品支出的边际贡献分别为0.753和0.219,即人均收入对食品支出的总影响大于价格。 5.偏相关系数r 偏决定系数开方,即得到偏相关系数。表示控制其他变量条件下的两个变量之 间的相关程度指标。 (1)偏相关系数有正负之分,符号与偏回归系数i一致。 (2) 按控制变量个数的多少,分别称为零级、一级、二级…偏相关系数(zero-, first-,second-, third-order) 如 rab.c 是一级偏相关系数,表示在控制xc的条件下,xa与xb的相关程度。 rab.crabracrbc221rac1rbc rac.bracrabrbc1r1r2ab2 bc 作用:偏相关系数可以判断哪些自变量对因变量的影响较大,而选择作为必需考 18 虑的自变量,这样可以减少自变量个数,减少方程中的共线性。 6.方差分析 222ˆˆ (YY)(YY)(YY)SST = SSE + SSR SSR/pF~F(p,np1) SSE/np1 当总体决定系数20时,F~F(p,n-p-1)分布。从而用于方程的显著性检验。 四、回归方程和回归系数的检验 1.回归方程的显著性检验 原假设(null hypothesis)零假设 H:0; 012p备择假设(alternative hypothesis) H1:至少有一个j不为零 , 判别原则: 接受H0,则Y与X1…Xp的线性关系不显著。或者说和2与0无显著差别。 计算出一个显著水平用P表示。(signifinence level) 给定一个显著水平用表示。 当P<α时,拒绝H0,接受H1,当P>α时,接受H0,拒绝H1 j1,2,,p P 图2-7 19 2.回归系数的显著性检验 已知bj~N(j,cjj) 2cjj是矩阵C(XX) H0:j0 1中第j行第j列的元素。 H1:j0 在假设条件成立时: j1,2,,p bt~t(np1) 统计量:Sjjj其中 Sj 是bj的标准误. 在SPSS中,提供t。相应的P值,标签为SigT。 常数项不是分析的重点,即使不显著,一般也保留在方程中。 通过系数检验可以保留最重要的变量,删除不显著的变量。 Unstandardized Standardized Coefficients Beta .773 .234 t -1.399 9.081 2.746 Sig. .173 .000 .011 Model 1 (Constant) 人均收入 粮食单价 Coefficients B -87.378 .3 206.538 Std. Error 62.452 .039 75.212 3、标准化回归系数(standardized regression coefficient)。 在多元回归中,经常要比较哪一个变量是影响Y的主要因素,哪些是次要因素。 ˆ的绝对值进行比较。但是不能直接通过因为它们值的大小与它们所取的单位有关! j这就需要计算标准化回归系数(standardized regression coefficient)。通过标准化回归系数比较每个变量对Y的相对重要性。 20 其计算方法有两种: (1)建立标准化回归方程 分别对Xj和y进行标准化,然后再进行回归,便得到标准化回归方程,其回归系数就是标准化回归系数。Bj zjxjxjsj ZyYY得 SyZYB1Z1B2Z2BKZK 注意,在标准回归方程中,常数项已经不存在,因为回归平面通过了Zy轴上的截距。 当自变量相关时,Bj的大小也会受影响。 (2)直接计算Bj 其中:Bj表示xj变化一个标准差单位,Y平均变化几个标准差单位。 BjbjSjSy 其中:Sy和Sj分别为原因变量y和原自变量xj的标准差。 ˆ标签B (统计软件可以输出Bj)j Bj标签Beta4、回归系数的置信区间 P(bjtSjjbjtSj)1 22 t的自由度(df)为n–p–1 其中:Sj 21 Secjj, 五、预测 ˆ的区间估计(特定条件下,平均的预测区间) 1.Y0ˆ,2ˆ的无偏估计,且yˆ0是总体Yˆ0服从N(Y yˆ)其中: .0Y0ˆXXY00101p0p ˆyˆY~t(np1) S, Snp12ˆ)(yyˆy200eˆ0Yˆ的置信区间为:由此Y00ˆ0t/2Syt/2Syˆ0,yˆ0nn0ii jij1(XX)(X_X)c N22ˆ0Yi1j10j 当用Se2代替2时 1ˆSS(xx)(xx)c n222nnˆ0Yˆ0Yei1j10iiojjijmm(x0ixi)(xojxj)cij可以间接计算, i1j1Vijcij其中 MSResidualMSResidual:回归方程残差平方和 22 Vij:回归系数方差协方差矩阵(选择Covariance matrix) 2.Y0的预测 影响预测区间的大小(精度)的因素: (1)样本容量 n; (2)自变量方差; (3)X0离X的距离; (4)X的离散程度。 ˆ,2) Y0的预测区间。(即特定条件下单独案例)这里Y0~N(Y0Y0 其中: 1ˆS1(XX)(XX)c N222nnˆ0Yei1j10iiojjij1ˆSS1(xx)(xx)c nyˆY~t(np1) S222nnˆ0Yy0ei1j10iiojjij00y0 ˆ0tSy0) 即:Y0的置信区间为:(y2六、多重共性线及其解决办法 1.含义及影响 多重共线性:当自变量之间高度相关时,回归方程中的自变量就会互相削弱各自对y的边际影响,使本身的回归系数的数值下降而其标准误扩大,于是方程虽然整体显著,但各个自变量都不显著的现象,这种现象就称为多重共线性。 ˆˆxx ˆ[例] y01122如果 x2c0c1x1 (c0,c1为任意常数) 23 ˆ就会有许多解,从而用OLS无法求出唯一j值。即:x1,x2完全相关。回归方程y 即(X’X)对角元素很小→(X’X)–1对角元素很大→cjj很大→Sj=Secjj很大→ ˆ不显著! t值很小→j 影响: ˆ差别很大→由 (1)回归系数的置信区间变宽,系数变得不稳定→不同样本→j样本推断总体是不可靠的。 (2)回归系数不能反映自变量的作用。 (3)用于预测时,对预测精度有很大影响。 2.多重共线性的检验 (1)方程的决定系数很高,且y与各自变量的相关系数也很高,但自变量的回归系数均不显著。(即使y与自变量相关程度不高,也可能存在共线性)。 (2)多个自变量中,某一自变量可以被其他自变量线性表示出来。方法是用每一个自变量,对其余自变量进行线性回归,当回归方程的确定系数较高,且F检验也显著时,就可以认为这一变量可以被其他变量线性表示。当它们都为自变量时,就会产生共线性(二元线性回归时,只要比较r12即可) (3)分别构造不含某一自变量的p–1个回归模型,将它们与包含全部自变量的回归方程进行比较,若某个模型与含所有变量的模型R2很接近,就表示没有包含的那个变量是多余的,它对于y的贡献可以由其它变量表示。 (4)方程的R2很高,但每一自变量的偏确定系数很小,说明变量之间可能存在高度的线性关系。 SPSS中提供检验多重共线性指标和信息输出。 (选择collinearity diagnostics) 24 容限度(tolerance) 1-R2j ≤0.1, 说明自变量间有严重的多重共线性。 方差膨胀因子(Variance inflation factor)VIF 1 hjj21Rj。 特征值:(Eigenvalue) λ≈0 X的列向量必存在多重共线性。 条件数 (Condition indexes) ki当VIF≥10时,说明自变量间有严重的多重共线性 m λm 是 X’X的最大特征根。 i 通常认为: 0<k<10 没有多重共线性 10≤k<100 较强多重共线性 k≥100 严重多重共线性 25 3.补救多重共线性影响的办法 (1)去掉与y相关程度较低,而与其他自变量高度相关的变量; (2)去掉可以被其余自变量线性表示的变量; (3)增加样本规模; (4)采用新的样本数据; (5)利用先验信息组合变量; (6)用因子分析方法保留重要的变量; (7)将截面数据与时序相结合。 时序数据往往线性相关,为此可先用截面数据做回归,通过对比时序数据, 说明变量是否线性相关。 (8)变量变换。通过对变量进行变换,也可以减弱变量间的多重共线性。如倒 数、对数变换等, 如时间序列回归方程 ˆib0b1xi1b2xi2 yˆiyˆi1b1(xi1xi1,1)b2(xi2xi1,2) i1,2,n 用y七.最优回归方程的选择 1.选择标准 a. 从拟合的角度考虑的准则; 22ˆ2R,R例如,adi计算或者残差(YY)达到最小。 b. 从极大似然估计方法考虑的准则——赤池信息量AIC达到最大; 赤池(Akaike)日本统计学家,1974年提出模型的选择标准AIC(Akaike Information Criterion).回归分析中选择自变量的AIC标准为: 26 2ˆ(YY))2mc AICnlog(n其中,c=nlog(2π)+n,是与m无关的常数。 对每一个回归子集计算AIC,最小者的模型即为最优。 c. 从预测的角度考虑的准则——Cp统计量 19年马洛斯(Mallows)从预测的角度提出。 QkCp2n2kSe 其中,Qk是去掉k个自变量后的残差。 对每一个回归子集计算Cp,最小者的模型即为最优。 2.SPSS程序提供五种方法 (1)全部纳入法(Enter)默认状态 不选择其它方法,将默认定义本组的所用变量一次全部纳入回 特点:不加区别全部吸收。 (2)删除法(Remove) 将本组自变量全部无条件地一次从回归方程中删除。前提:之前本组变量已纳入回归方程,否则,无变量可删除。特别地,如果在建立回归方程时,第一组自变量就使用Remove方法,则系统默认,要先将第一组自变量全部纳入回归方程(Enter)然后将其再全部删除! (3) 向前回归法(Forward)本组自变量将先根据比较,选择其中最好的(离差 平方和最小)一个加入直至所有符合标准者全部进入回归。 (4)向后回归法(Backward) 本组自变量一次纳入回归,然后根据标准删除一个最不显著的,再做一次回归判断其余的取舍,直至保留的变量都达到要求。 27 特点:不显著的自变量不多时可以使用。如果自变量较多且不显著,则计算量也很大。缺点是:变量一旦被剔除就不能再回到方程中。实际中,有时剔除了某些变量后,另一变量可能会变得非常显著,但这种方法已经不给机会了。 (5)逐步回归法(Stepwise) 从第一个变量开始,按向前法的原则,选择一个最好的变量进入回归模型。然后,用向后法的原则,选择一个最不好的变量删除。 注意:SPSS程序中(1)、(2)种是无条件的,后三种需要一定的判断标准执行。默认标准是: F值 =Fα(p,n-p-r-1) r:可以进入模型的变量数 进入时 删除时 F=3.84 F=2.71 概率标准 0.05 0.10 如用其它标准,可以在Options键中进行标准修改。 §2.3 虚拟自变量 (Dummy Variable) 在社会科学研究中,有许多的分类变量,如地区、单位名称、性别、文化程度、职业等等。我们可以用它的信息对因变量进行回归,以解释y的变化。这就需要将分类变量转换为虚拟变量,然后才能引入归方程。 一、虚拟变量的建立 (1)分别对K个虚拟变量(dummy variable)取0和1的值。当属于这一类别 时,就赋值为1,否则为0。 (2)虚拟变量平均值的意义是,赋值为1的该类案例占全部案例的比例。 (3)需设定一个参照类。因为K个类别中存在着线性相关。因此只设k–1个 类别变量。当这k–1个变量取值都为0时,即为参照类别。 例:文化程度变量有5个类别:①文盲或半文盲;②小学;③初中;④高中;⑤大 学。取文盲或半文盲为参照类,用DE2、DE3、DE4、DE5分别表示其它类别。则: 28 原变量编码值 虚拟变量赋值的操作 EDU=1 文盲半文盲 所有DEi=0 EDU=2 小学 DE2=1 其他DEi=0 EDU=3 初中 DE3=1 其他DEi=0 EDU=4 高中 DE4=1 其他DEi=0 EDU=5 大学 DE5=1 其他DEi=0 即yb0b2DE2b3DE3b4DE4b5DE5 y1.411.13DE21.31DE31.58DE41.57DE5(生育子女数) 二、虚拟变量回归系数的意义 1 回归系数bj表示该类别与参照类均值之差,又称为差别截距。例:方程y=b0或 y=b0+b2是两条平行线,只是多了一个b2,即小学程度。因此bj说明的是该类与参照类的相比,对Y的影响的差值数。模型中小学、初中、高中、大学文化程度妇女分别比文盲妇女平均少生1.13、1.31、1.58和1.57个子女。 2 如果是序次变量,如“文化程度”还可用bi–bi–1表示序次变量各相邻分类的边际 效应。如b3–b2=–1.31–(–1.13)=–0.18是初中的边际效应;小学、高中、大学的分别是–1.13(本身–0)–0.27和0.01。 由此可知“小学”对降低妇女单生子女数边际效应最大,其次为高中和初中。 (实际经验中,初中通常边际效应最大)。 3 选择哪一类作为参照类,对回归结果没有实质性的影响。尽管回归系数会有所不 同,但这只是因为换了参照类的原因,而使每个系数意义不同。但是所计算的各类平均值及它们之间的差不会发生任何变化。统计检验的结果也不会有任何变化。所以参照类的选择只是研究者根据解释实际意义时的方便来选择。 29 三.虚拟变量的回归检验 虚拟变量的检验与一般回归分析完全没有区别。 (1)整体模型检验的假设为: H0:12k0 H1:1,2,,k中至少有一个不为零。 (2)单个回归系数的检验假设为: H0:j0 H1:j0 这里由于变量只取0和1值,所以检验的意义是,该变量取1时的平均值与参照类(所有变量取值为0时)的平均值有显著差异。 上述对单个回归系数的检验,只能对比各变量与参照类的差异是否显著,不能提供各类之间的两两比较。为此, (1)可以通过改换参照类来进行各变量之间的比较。但这需要重新编码。 (2)可以直接对任意两个回归系数之差的检验来完成。同属一个因素的两类平 ˆiyˆj(b0bi)(b0bj)bibj。所以均值之差,就是两个虚拟变量回归系数之差:y建立假设: H0:ij; H1:ij tbibjS(bibj)~t(np1) 22S(bibj)SiiS2jj2Sij Sii2,S2jj是bi,bj的方差。 Sij2是bi和bj之间的协方差。 这些系数可以在SPSS回归程度中输出,在协方差矩阵V中。 30 (3)通过方程中各个变量(组)偏确定系数来比较它们作用的大小。分别做不含有某一变量的回归,得到回归方程的确定系数表,通过该表确定方程中各变量作用大小的顺序。 结论:因素较少、各类别较少且可以忽略交互效应时,较适宜用回 归方法进行方差分析;但是当因素较多,类别较多且交互影响不容 忽略时,就应直接进行方差分析更方便。 四.其他形式的分类变量编码和应用 分类变量的编码: 虚拟编码、 效应编码(effect coding)、 正交编码(orthogonal coding) 非正交编码(nonorthogonal coding) 效应编码方法是:一个因素包括K类变量,就设置K–1个效应变量,设立的变量习 惯上选择第一或最后一类。前K–1类变量的取值属于该类别时,取值为1,不属于时,效应变量为0,这与虚拟编码相同,但案例属于没有设定的变量的类别时,所有的效应变量取值为–1,这是不同于虚拟编码的方法。 回归方程的常数项的意义是样本整体的平均值; 各回归系数的意义是相应类别平均值与整体平均值之差。 原变量编码值 效应变量赋值的操作 31 EDU=1 文盲半文盲 DE2=1 其他DEi=0 EDU=2 小学 DE3=1 其他DEi=0 EDU=3 初中 DE4=1 其他DEi=0 EDU=4 高中 DE5=1 其他DEi=0 EDU=5 大学 所有DEi=-1 在统计实践中,虚拟编码和效应编码往往用于事后比较(post hoc comparison)的研究,即根据来自抽样的数据进行分析;而正交和非正交编码往往用于事先统计好的方案(priori or planned comparison)即数据是通过可控制的试验取得的。这一方法一般多用于科学研究中。通过效应编码,可以对整体有一个全面描述,了解是否存在特别类,是哪一类。这是与虚拟编码相比的优点。 采用何种编码只是改变回归结果的解释,而不改变回归分析的实际结果。 §2.4 系统建模过程 1数据的收集和准备 2回归方程的选取 3模型的精细分析 4模型的确认 32 因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- oldu.cn 版权所有 浙ICP备2024123271号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务