定义:典型相关分析(canonical correlation analysis)就是利用综合变量对之间的相关关系来反映两组指标之间的整体相关性的多元统计分析方法。
它的基本原理是:为了从总体上把握两组指标之间的相关关系,分别在两组变量中提取有代表性的两个综合变量u和v(分别为两个变量组中各变量的线性组合),利用这两个综合变量之间的相关关系来反映两组指标之间的整体相关性。
典型相关分析的基本思想
当研究两个变量x与y之间的相关关系时,相关系数是最常用的度量。
xycov(x,y) D(x)*D(y)问:如何研究两组变量之间的相关关系呢?
通常情况下,为了研究两组变量X(x1,x2,,xp)TY(y1,y2,,yq)T的相关关系,可以用最原始的方法,分别计算两组变量之间的全部相关系数,一共有pq个简单相关系数,这样又烦琐又不能抓住问题的本质。如果能够采用类似于主成分的思想,分别找出两组变量的各自的某个线性组合,讨论线性组合之间的相关关系,则更简捷。
利用主成分分析的思想,可以把多个变量与多个变量之间的相关转化为两个变量之间的相关。找出系数a=(a1,a2,,ap)T和b=(b1,b2,,bq)T使得新变量
u=a1x1+a2x2++apxp=aTX和v=b1y1+b2y2++bqyq=bTY之间有最大可能的相关系数
(典型相关系数)。
首先分别在每组变量中找出第一对线性组合,使其具有最大相关性, u1a11x1a21x2ap1xp
v1b11y1b21y2bq1yq
然后再在每组变量中找出第二对线性组合,使其分别与本组内的第一对线性组合不相关,第二对本身具有次大的相关性。 u2a12x1a22x2ap2xp v2b12y1b22y2bq2yq
,但u2和v2相关。如此继续下去,直至进行到k步,u2和v2与u1和v1相互(不相关?)
两组变量的相关性被提取完为止,可以得到k组变量。
问题的求解过程:
权向量a和b可以通过求解如下最大值问题得到:
maxu,vmaxa,ba,bcov(u,v)
var(u)var(v)cov(aTX,bTY)var(aX)var(bY)TT=maxa,bmaxa,baTCXYb(aTCXXa)(bTCYYb) 约束条件为:
aTCXXa1,bTCyyb1
其中,CXXE(XXT)和CyyE(YY)为自协方差矩阵,CXYE(XYT)和
TCYXE(YXT)为互协方差矩阵。
下面利用拉格朗日乘数法对u,v达到最大值的权向量a和b权向量进行估计。 构造拉格朗日函数为:
L(a,b)aTCXYb分别对a和b求导得到
12(aTCXXa1)22(bTCYYb1)
CXYb1CXXa0 (5) CaCb0YX2YY将上式第一个方程左乘a,第二个方程左乘bT后得
TTTaCXYb1aCXXa0aCXYb=1T==aCXYb1=u,v T12TTbCYXa2bCYYb0bCYXa=2T或者相减得
1aTCXXa2bTCYYb0
由约束条件可得12。在一般情况下,CXX,CYY为正定矩阵,因而它们的逆阵
1存在,将CXYCYY左乘式(5)的第二个方程,得
111CXYCYYCYXa2CXYCYYCYYb0CXYCYYCYXa2CXYb0
并将第二个方程代入,得
1CXYCYYCYXa2CXXa0
则由式(5)可推导出:
112CXXCXYCYYCYXaa 112CYYCYXCXXCXYbb可以看到,最大值问题被最终转化为两个特征值问题。
1111根据矩阵运算的性质可知CXXCXYCYYCYX和CYYCYXCXXCXY具有相同的非零特征值
1212k20,这些特征值的正平方根即为典型相关系数,其相应的特征向量即为
所求的权向量a和b,这样就可以进一步求出各组典型的相关变量u和v。这些典型相关变量之间是相互不相关的。
1111注:CXXCXYCYYCYX和CYYCYXCXXCXY有相同的特征根。 1/211/21/211/2有相同的特征根。 CXXCXYCYYCYXCXX和CYYCYXCXXCXYCYY可以验证:(这里需要验证)
111/2CXYCYYCYX相对于特征根i2的正交特征向量 ai=CXXi是CXX111/2CYXCXXCXY相对于特征根i2的正交特征向量 biCYYi是CYY1/211/21/211/2其中i和i分别是CXX的特征值 CXYCYYCYXCXX和CYYCYXCXXCXYCYY
典型变量的性质
1、 同一组的典型变量之间互不相关
TuiaixTvibiyi、j1,2,,k.
因为不同特征值对应的特征向量之间是正交的,所以
X组的典型变量之间是不相关(相互?)的:
Tcov(ui,uj)=cov(aiTx,aTjx)=aiCxxaj=0ij
Y组的典型变量之间是不相关(相互?)的:
Tcov(vi,vj)=cov(biTy,bTjy)=biCyybj=0ij
求解步骤
1) 求矩阵
11ACXXCXYCYYCYXBCCYXCCXY1YY1XX
2) 求A或B的特征值i,i=1,2,,k
3) 求A、B关于i的特征向量。设ai为A关于i的特征向量,bi为B关于i的特征向量,
则ai和bi为(第i对)典型变量系数。第i对典型相关变量
ui=ai1x1+ai2x1++aipxp v=by+by++byiqqii11i21
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- oldu.cn 版权所有 浙ICP备2024123271号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务