您好,欢迎来到年旅网。
搜索
您的当前位置:首页典型相关分析

典型相关分析

来源:年旅网
典型相关分析canonical correlation analysis

定义:典型相关分析(canonical correlation analysis)就是利用综合变量对之间的相关关系来反映两组指标之间的整体相关性的多元统计分析方法。

它的基本原理是:为了从总体上把握两组指标之间的相关关系,分别在两组变量中提取有代表性的两个综合变量u和v(分别为两个变量组中各变量的线性组合),利用这两个综合变量之间的相关关系来反映两组指标之间的整体相关性。

典型相关分析的基本思想

当研究两个变量x与y之间的相关关系时,相关系数是最常用的度量。

xycov(x,y) D(x)*D(y)问:如何研究两组变量之间的相关关系呢?

通常情况下,为了研究两组变量X(x1,x2,,xp)TY(y1,y2,,yq)T的相关关系,可以用最原始的方法,分别计算两组变量之间的全部相关系数,一共有pq个简单相关系数,这样又烦琐又不能抓住问题的本质。如果能够采用类似于主成分的思想,分别找出两组变量的各自的某个线性组合,讨论线性组合之间的相关关系,则更简捷。

利用主成分分析的思想,可以把多个变量与多个变量之间的相关转化为两个变量之间的相关。找出系数a=(a1,a2,,ap)T和b=(b1,b2,,bq)T使得新变量

u=a1x1+a2x2++apxp=aTX和v=b1y1+b2y2++bqyq=bTY之间有最大可能的相关系数

(典型相关系数)。

首先分别在每组变量中找出第一对线性组合,使其具有最大相关性, u1a11x1a21x2ap1xp

v1b11y1b21y2bq1yq

然后再在每组变量中找出第二对线性组合,使其分别与本组内的第一对线性组合不相关,第二对本身具有次大的相关性。 u2a12x1a22x2ap2xp v2b12y1b22y2bq2yq

,但u2和v2相关。如此继续下去,直至进行到k步,u2和v2与u1和v1相互(不相关?)

两组变量的相关性被提取完为止,可以得到k组变量。

问题的求解过程:

权向量a和b可以通过求解如下最大值问题得到:

maxu,vmaxa,ba,bcov(u,v)

var(u)var(v)cov(aTX,bTY)var(aX)var(bY)TT=maxa,bmaxa,baTCXYb(aTCXXa)(bTCYYb) 约束条件为:

aTCXXa1,bTCyyb1

其中,CXXE(XXT)和CyyE(YY)为自协方差矩阵,CXYE(XYT)和

TCYXE(YXT)为互协方差矩阵。

下面利用拉格朗日乘数法对u,v达到最大值的权向量a和b权向量进行估计。 构造拉格朗日函数为:

L(a,b)aTCXYb分别对a和b求导得到

12(aTCXXa1)22(bTCYYb1)

CXYb1CXXa0 (5) CaCb0YX2YY将上式第一个方程左乘a,第二个方程左乘bT后得

TTTaCXYb1aCXXa0aCXYb=1T==aCXYb1=u,v T12TTbCYXa2bCYYb0bCYXa=2T或者相减得

1aTCXXa2bTCYYb0

由约束条件可得12。在一般情况下,CXX,CYY为正定矩阵,因而它们的逆阵

1存在,将CXYCYY左乘式(5)的第二个方程,得

111CXYCYYCYXa2CXYCYYCYYb0CXYCYYCYXa2CXYb0

并将第二个方程代入,得

1CXYCYYCYXa2CXXa0

则由式(5)可推导出:

112CXXCXYCYYCYXaa 112CYYCYXCXXCXYbb可以看到,最大值问题被最终转化为两个特征值问题。

1111根据矩阵运算的性质可知CXXCXYCYYCYX和CYYCYXCXXCXY具有相同的非零特征值

1212k20,这些特征值的正平方根即为典型相关系数,其相应的特征向量即为

所求的权向量a和b,这样就可以进一步求出各组典型的相关变量u和v。这些典型相关变量之间是相互不相关的。

1111注:CXXCXYCYYCYX和CYYCYXCXXCXY有相同的特征根。 1/211/21/211/2有相同的特征根。 CXXCXYCYYCYXCXX和CYYCYXCXXCXYCYY可以验证:(这里需要验证)

111/2CXYCYYCYX相对于特征根i2的正交特征向量 ai=CXXi是CXX111/2CYXCXXCXY相对于特征根i2的正交特征向量 biCYYi是CYY1/211/21/211/2其中i和i分别是CXX的特征值 CXYCYYCYXCXX和CYYCYXCXXCXYCYY

典型变量的性质

1、 同一组的典型变量之间互不相关

TuiaixTvibiyi、j1,2,,k.

因为不同特征值对应的特征向量之间是正交的,所以

X组的典型变量之间是不相关(相互?)的:

Tcov(ui,uj)=cov(aiTx,aTjx)=aiCxxaj=0ij

Y组的典型变量之间是不相关(相互?)的:

Tcov(vi,vj)=cov(biTy,bTjy)=biCyybj=0ij

求解步骤

1) 求矩阵

11ACXXCXYCYYCYXBCCYXCCXY1YY1XX

2) 求A或B的特征值i,i=1,2,,k

3) 求A、B关于i的特征向量。设ai为A关于i的特征向量,bi为B关于i的特征向量,

则ai和bi为(第i对)典型变量系数。第i对典型相关变量

ui=ai1x1+ai2x1++aipxp v=by+by++byiqqii11i21

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- oldu.cn 版权所有 浙ICP备2024123271号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务