方建斌, 管 瓊, 王雨春
(1.江漢大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,湖北 武漢 430056;2.湖南理工學(xué)院 信息與通信工程學(xué)院,湖南 岳陽(yáng) 414006; 3.武漢理工大學(xué) 理學(xué)院,湖北 武漢 430070)
非線性與線性典型相關(guān)分析的對(duì)比實(shí)驗(yàn)
方建斌1,3, 管 瓊2, 王雨春3
(1.江漢大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,湖北 武漢 430056;2.湖南理工學(xué)院 信息與通信工程學(xué)院,湖南 岳陽(yáng) 414006; 3.武漢理工大學(xué) 理學(xué)院,湖北 武漢 430070)
線性典型相關(guān)分析揭示了兩組變量間潛在的線性關(guān)系,但實(shí)際應(yīng)用中,變量之間往往還潛在著非線性關(guān)系。主要研究非線性典型相關(guān)分析算法,揭示變量間潛在的非線性關(guān)系,并通過(guò)非線性與線性典型相關(guān)分析對(duì)比實(shí)驗(yàn),驗(yàn)證其優(yōu)良性能。
典型相關(guān)分析;非線性;核函數(shù)
典型相關(guān)分析是由H.Hotelling于1936年提出,其理論已經(jīng)比較完善[1]。隨著計(jì)算機(jī)技術(shù)及軟件技術(shù)的迅速發(fā)展,典型相關(guān)分析的應(yīng)用越來(lái)越廣泛[2-4]。但在實(shí)際應(yīng)用中,變量之間的關(guān)系往往還潛在著非線性關(guān)系。核函數(shù)理論[5-7]是最近才興起的一種方法,該方法利用核技巧,通過(guò)一個(gè)非線性映射,將原始空間的非線性樣本映射到高維特征空間,然后在高維特征空間利用線性算法,間接地實(shí)現(xiàn)原始空間的非線性問(wèn)題的求解。
設(shè)Xp×n=(x1,x2,…,xn),Yq×n=(y1,y2,…,yn)分別表示兩組變量的樣本矩陣,其中行表示變量個(gè)數(shù),列表示樣本個(gè)數(shù),φx表示作用于x上的變換, 即φx(X)=(φx(x1),…,φx(xn)); 同樣地,φy表示作用于y上的變換,即φy(Y)=(φy(y1),…,φy(yn)),在變換后的特征空間Fx、Fy中進(jìn)行典型相關(guān)分析。
同典型相關(guān)分析,希望找到兩個(gè)投影向量wx∈Fx和wy∈Fy,使得相關(guān)系數(shù)ρ最大。該問(wèn)題也可以轉(zhuǎn)化為一個(gè)優(yōu)化問(wèn)題:
定義一個(gè)核函數(shù)代替內(nèi)積的計(jì)算。
然后定義核矩陣:
此時(shí)(1)式可表示為
由(8)~(12)式,可以得到(7)式是下式的特征值問(wèn)題:
其中λ=λx=λy。
核典型相關(guān)分析的實(shí)現(xiàn)步驟歸納如下:
1)由(6)式計(jì)算核矩陣Kx,Ky;
2)由(8)~(12)式計(jì)算M,N,L;
3)根據(jù)(13)式得到下式,進(jìn)而得到α、β。
4)根據(jù)(3)、(4)式得到經(jīng)典變量:
進(jìn)而求得相關(guān)系數(shù)ρ(u,v)。
不同的內(nèi)積核函數(shù)將形成不同的算法,目前研究最多的核函數(shù)主要有3類[10]:
1)多項(xiàng)式核函數(shù):
2)高斯核函數(shù):
3)S形函數(shù)內(nèi)積:
下面通過(guò)實(shí)驗(yàn)來(lái)說(shuō)明非線性典型相關(guān)分析的作用。首先構(gòu)造兩組數(shù)據(jù),它們具有較強(qiáng)的非線性關(guān)系。數(shù)據(jù)由下式產(chǎn)生:
其中t由[-1,1]上的均勻分布產(chǎn)生,我們隨機(jī)選取100個(gè)數(shù)值,得到樣本數(shù)為100的兩組實(shí)驗(yàn)數(shù)據(jù),其散點(diǎn)分布見(jiàn)圖1,其中“*”曲線表示變量x的分布,“o”曲線表示變量y的分布。實(shí)際上,這兩組變量具有潛在的非線性關(guān)系,由(19)式得到:
圖1 原始數(shù)據(jù)散點(diǎn)圖
顯然,線性典型相關(guān)分析對(duì)于這種高度非線性相關(guān)關(guān)系難以處理,而非線性典型相關(guān)分析卻可以較好地反應(yīng)它們之間潛在的非線性關(guān)系。圖2是兩種方法得到的第一對(duì)典型變量的散點(diǎn)分布,其中非線性典型相關(guān)分析算法選用的核函數(shù)為高斯核,相應(yīng)的參數(shù)為:σx=0.4,σy=0.2,η=0.1,得到的第一個(gè)典型相關(guān)系數(shù)為:ρ=0.984 5,而線性典型相關(guān)分析的第一個(gè)典型相關(guān)系數(shù)為:ρ=0.090 4,說(shuō)明非線性典型相關(guān)分析可以揭示變量間潛在的非線性關(guān)系,這與圖2曲線的趨勢(shì)是一致的。
圖2 第一對(duì)典型向量的散點(diǎn)圖
非線性典型相關(guān)分析在理論上同其他核方法類似,通過(guò)一個(gè)非線性變換,利用核技巧,在變換空間(即特征空間)進(jìn)行線性典型相關(guān)計(jì)算,解決原始空間的非線性問(wèn)題。和其他核方法(如支持向量機(jī)、核主成分分析等)相比,它需要引進(jìn)兩個(gè)變換分別作用于兩組待分析的變量。實(shí)驗(yàn)結(jié)果顯示,非線性典型相關(guān)分析可以挖掘兩組變量間潛在的非線性關(guān)系。需要說(shuō)明的是,非線性典型相關(guān)分析算法的計(jì)算復(fù)雜度與訓(xùn)練樣本的數(shù)目有關(guān),而與樣本維數(shù)及非線性變換的空間維數(shù)無(wú)關(guān),因此當(dāng)訓(xùn)練樣本數(shù)目較多的時(shí)候,需要采用一定的方法,進(jìn)行特征提取,達(dá)到降低復(fù)雜度的目的。
[1]孫文爽,陳蘭祥.多元統(tǒng)計(jì)分析[M].北京:高等教育出版社,1994:6.
[2]張禮平,楊志勇.典型相關(guān)系數(shù)及其在短期氣候預(yù)測(cè)中的應(yīng)用[J].大氣科學(xué),2000,24(3):427-430.
[3]潘潔.多元分析在分析物價(jià)變動(dòng)主因中的應(yīng)用[J].數(shù)理統(tǒng)計(jì)與管理,1997,16(2):21-25.
[4]程光文,陳清山.研究分析學(xué)生在校成績(jī)的典型相關(guān)分析法[J].武漢科技大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2002,4(4):70-72.
[5]Fernando P C,Olivier B.Kernel methods and their potential use in signal processing[J].IEEE Signal Processing Magazine,2004:57-65.
[6]Muller K R,Sebastian M.An introduction to Kernel-Based beaming algorithms[J].IEEE Transactions on Neural Networks,2001,12(2):180-201.
[7]Akaho S.A kernel method for canonical correlation analysis[C].Intematidonal Meeting of Psychometric Society,Osaka,Japan,2001:101-105.
[8]Gao D D,Huang R B.Some results on canonical correlation and their applications to a linear model[J]. Linear Algebra and its Applications,2000,321:47-59.
[9]Thomas M,Michael R,Horst B.Appearance models based on kernel canonical correlation analysis[J].Pattern Recognition,2003,36:1961-1971.
[10]田盛豐.基于核函數(shù)的學(xué)習(xí)算法[J].北方交通大學(xué)學(xué)報(bào),2003,27(2):1-8.
FANG Jian-bin1,3,GUAN Qiong2,WANG Yu-chun3
(1.School of Mathematics and Computer Sciences,Jianghan University,Wuhan 430056,Hubei,China;2.College of Information and Communication Engineering,Hunan Institute of Science and Technology,Yueyang 414006,Hunan,China;3.School of Science,Wuhan University of Technology,Wuhan 430070,Hubei,China)
Linear canonical correlation analysis reveals potential linear relationship between two groups of variables,but in practical application,there is also potential nonlinear relationship between variables.The paper studies the nonlinear canonical correlation analysis algorithm,reveals variables′potential nonlinear relationships,and verifies their good performance through the contrast experiment.
canonical correlation analysis;nonlinear;kemel function
TP301.6
:A
:1673-0143(2012)03-0038-03
(責(zé)任編輯:強(qiáng)士端)
2012-04-20
武漢市科技局科技攻關(guān)計(jì)劃項(xiàng)目 (200860423202)
方建斌 (1974—),男,高級(jí)實(shí)驗(yàn)師,碩士,研究方向:圖像與信息處理。