• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      典型相關(guān)分析綜述

      2017-04-21 05:25:46李有梅
      中國計量大學學報 2017年1期
      關(guān)鍵詞:典型變量樣本

      李有梅,梁 珣

      (中國計量大學 理學院,浙江 杭州 310018)

      典型相關(guān)分析綜述

      李有梅,梁 珣

      (中國計量大學 理學院,浙江 杭州 310018)

      數(shù)據(jù)之間的相關(guān)性分析是大數(shù)據(jù)處理的重要組成部分,典型相關(guān)分析及其擴展方法在多個領(lǐng)域得到了廣泛應用.主要有用于解決多數(shù)據(jù)集特征融合的多集合典型相關(guān)分析,用于處理特征之間非線性關(guān)系的核典型相關(guān)分析,用于處理有類別特征數(shù)據(jù)時的判別典型相關(guān)分析,用于處理有噪聲數(shù)據(jù)時的稀疏典型相關(guān)分析等擴展方法.本文全面綜述了典型相關(guān)分析原理及其各種擴展方法,最后對這一方法的研究前景給出討論和展望.

      典型相關(guān)分析;多變量特征融合;廣義特征值問題

      1 簡 介

      當前的科學技術(shù)使得研究人員能夠比較容易獲得所關(guān)注對象的大量數(shù)據(jù).如何從海量的數(shù)據(jù)中挖掘出具有可解釋性的結(jié)論信息是當前研究熱點,特征融合和數(shù)據(jù)降維是其中一個重要環(huán)節(jié).典型相關(guān)分析(CCA,Canonical Correlation Analysis)就是這樣一種被廣泛研究和應用的數(shù)學方法.其最早由Hotelling[1]在1936年提出,是研究兩組變量之間相關(guān)關(guān)系的一種多元統(tǒng)計方法.

      求解第一對典型變量的問題轉(zhuǎn)化為在典型變量方差為1條件下的下列優(yōu)化問題[2]:

      (1)

      對應的特征向量,且corr(U(1),U(2))=λ.

      可以看到,傳統(tǒng)的CCA只能用于發(fā)現(xiàn)兩組變量間的線性相關(guān)關(guān)系.在不同的應用領(lǐng)域,我們往往需要面對更加復雜多樣的數(shù)據(jù),且變量間的關(guān)系也可能是非線性關(guān)系.

      解決實際問題的需求刺激了CCA方法的蓬勃發(fā)展.例如,為了分析變量之間的非線性相關(guān)關(guān)系,AKAHO[3]首先將核方法與傳統(tǒng)CCA結(jié)合,提出了核典型相關(guān)分析(KCCA);Y.Yamanishi[4]等人在生物醫(yī)學研究中,面對多數(shù)據(jù)特征集情形,將KCCA推廣到multiple KCCA;在基因組數(shù)據(jù)分析中,由于基因數(shù)據(jù)的特征數(shù)目一般都遠遠超過可觀測的數(shù)目,PARHJOMENKO等[5]提出了稀疏典型相關(guān)分析(SCCA),并用于討論基因的位點與該基因表達類型之間的相關(guān)關(guān)系;在人臉識別和手寫數(shù)據(jù)識別研究中,SUN[6]等人提出了判別典型相關(guān)分析(DCCA),利用離散類別特征數(shù)據(jù),實現(xiàn)更有效的特征抽取;當數(shù)據(jù)存在噪音時,傳統(tǒng)CCA便不能很好的對數(shù)據(jù)進行分析,對此,WANG[7]在FRANCIS[8]基礎(chǔ)上提出了貝葉斯典型相關(guān)分析(BCCA),隨后SEPPO[9]對其進一步改進,并將方法應用于神經(jīng)數(shù)據(jù),分析了大腦激素的變化和自然音樂刺激之間的關(guān)系.

      許多的應用研究表明,典型相關(guān)分析的思想方法是一種靈活有效的、可擴展能力強的數(shù)據(jù)分析方法.下文將對主要的幾種擴展方法給出描述總結(jié).

      2 CCA的幾種主要推廣

      2.1 多集合典型相關(guān)分析(MCCA)

      MCCA(Multiset Canonical Correlation Analysis)有兩種形式,第一種是直接應用CCA的思想,將問題表述為在典型變量方差為1條件下的任意兩組典型變量之間的相關(guān)關(guān)系之和達到最大的優(yōu)化問題,即:

      利用Lagrange乘數(shù)法,可知此優(yōu)化問題等同于下面方程組:

      顯然,當m=2時,上式即為傳統(tǒng)CCA.然而上式中因為λi的不同取值,并非一廣義特征值問題,求解時需要進行數(shù)據(jù)變換.

      MCCA的第二種擴展方式,是只附加一個總約束條件下的優(yōu)化問題:

      該問題等價于求解下面實對稱的廣義特征值問題:

      這一問題可利用Horst-Jacobi算法[10],迭代求解a(i).求解的簡便性使得第二種方法得到更多的應用.Kettenring[11]系統(tǒng)地總結(jié)介紹了幾種不同約束下的MCCA的模型.

      2.2 核典型相關(guān)分析(KCCA)

      當變量間呈現(xiàn)非線性關(guān)系時,傳統(tǒng)CCA對數(shù)據(jù)融合效果不好.解決問題的思路是將原空間的非線性問題轉(zhuǎn)換為高維空間中的線性問題,同時保持所有計算在原問題空間實現(xiàn).實現(xiàn)這一目的的途徑就是核方法.S.Akaho[12]首先將核方法與CCA相結(jié)合得到了KCCA(Kernel Canonical Correlation Analysis),KCCA也成為目前常用的分析變量間非線性相關(guān)關(guān)系的一種方法.首先我們給出核函數(shù)的定義:

      設(shè)Z是Rs中的一個子集,稱定義在Z×Z上的函數(shù)k(z1,z2)是核函數(shù),如果存在一個從Z到Hilbert空間H的映射φ,使得對任意的z1,z2∈Z,都有

      k(z1,z2)=<φ(z1),φ(z2)>成立.其中<,>表示Hilbert空間H的內(nèi)積運算.

      那么典型變量U(1)、U(2)就表示為X(1)、X(2)的如下非線性組合:

      則優(yōu)化問題可寫為如下形式:

      s.t.β(1)′K1′K1β(1)=β(2)′K2′K2β(2)=1.

      或等價表示為下列廣義特征值問題:

      核矩陣的維數(shù)與樣本個數(shù)相同.在實際應用中,若維數(shù)太高或者數(shù)據(jù)是非獨立樣本,將導致不能計算出合適的結(jié)果.如何選擇樣本,使KCCA可行,也是需要研究的一個問題.

      類似的,KCCA可被推廣到多集合KCCA. Yamanishi[4]等人首先將多集合核典型相關(guān)分析應用于分析大腸桿菌控制分子結(jié)構(gòu)和異構(gòu)基因組數(shù)據(jù)之間的相互關(guān)系分析,Nicholas[13]等人應用KCCA得到了卵巢癌風險和控制基因之間的關(guān)系,因而確定了對卵巢癌有風險的重要基因?qū)?該方法已被廣泛應用于生物醫(yī)學領(lǐng)域.同KCCA,典型變量U(i)被表示為X(i)如下非線性組合:

      則優(yōu)化問題轉(zhuǎn)化為尋找系數(shù)β(i),使得兩兩相關(guān)系數(shù)之和達到最大.利用核矩陣,多集合KCCA表示為下面優(yōu)化問題:

      或等價的廣義特征值求解問題:

      2.3 判別典型相關(guān)分析(DCCA)

      傳統(tǒng)典型相關(guān)分析不考慮樣本數(shù)據(jù)類別.當變量組有額外的類別信息時,若舍棄類別信息按照傳統(tǒng)CCA方法求解典型變量,無疑是一種信息損失.Sun[6]等人在研究人臉識別和手寫數(shù)據(jù)識別問題時,改進了傳統(tǒng)CCA提出了DCCA(Discriminant Canonical Correlation Analysis),充分考慮了同類樣本之間的相關(guān)性與不同類樣本之間的相關(guān)性及其對模式分類的影響,并實驗證明該方法有效提高了分類識別率.之后Sun[14]等人又對DCCA進行了改進,使得數(shù)據(jù)有缺失時也能得到很好的效果.Peng[15]等人考慮將數(shù)據(jù)的局部性質(zhì)和類別性質(zhì)相結(jié)合,提出了局部判別典型相關(guān)分析,并將該方法應用于人臉識別研究.

      設(shè)兩組變量X(1),X(2)的樣本集共分c類,則樣本集合表示為:

      令類內(nèi)相關(guān)矩陣∑w和類間相關(guān)矩陣∑b分別定義如下:

      其中:I1=diag(1n1×n1,…,1nc×nc)∈Rn×n為分塊對角矩陣.

      DCCA的目標是尋找典型變量表示系數(shù)a(1)和a(2),使得典型變量類內(nèi)相關(guān)系數(shù)a(1)′∑wa(2)最大,同時類間相關(guān)系數(shù)a(1)′∑ba(2)最小.可以證明∑w和∑b互為相反數(shù),則簡化后DCCA可以表示為下面的優(yōu)化問題:

      或等價的如下廣義特征值問題:

      當分類數(shù)據(jù)集多于兩組時,DCCA可推廣至下述模型[16].

      其中,

      k=1,2,…ni,l=1,2,…nj.或等價地:

      2.4 稀疏典型相關(guān)分析(SCCA)

      在基因數(shù)據(jù)分析中,樣本的特征數(shù)p遠遠大于可觀測樣本數(shù)目n,此時協(xié)方差矩陣奇異導致應用傳統(tǒng)CCA的效果不理想.Sriperumbudur[17]等人將正則稀疏化的思想融入到傳統(tǒng)CCA中,提出了SCCA(Sparse Canonical Correlation Analysis).該方法提高了模型的穩(wěn)定性,已經(jīng)廣泛應用于基因表達等數(shù)據(jù)分析中,例如Parkhomenko等[5]將SCCA用于討論基因的位點與該基因表達類型之間的關(guān)系;Waaijenborg等[18]將SCCA用于討論DNA水平上基因網(wǎng)絡(luò)變化與一些復雜疾病的關(guān)系.

      SCCA的主要思想,是通過附加系數(shù)收斂的約束條件使得典型變量系數(shù)中某些分量收斂為0,從而去掉一些對分析結(jié)果意義不大的數(shù)據(jù)變量.SCCA優(yōu)化形式為:

      maxa(1)′∑12a(2)

      s.t.a(1)′∑11a(1)=a(2)′∑22a(2)=1,

      ‖a(1)‖0≤ρ1,‖a(2)‖0≤ρ2.

      其中:ρ1和ρ2為常數(shù).

      當數(shù)據(jù)集多于兩組時,可表示為如下優(yōu)化問題:

      這類優(yōu)化問題為NP-hard問題,要通過轉(zhuǎn)化求得一個好的近似解.

      Witten等人[19]基于LASSO方法用‖a(i)‖1來代替上式中的‖a(i)‖0,將優(yōu)化問題轉(zhuǎn)化為:

      maxa(1)′∑12a(2)

      s.t.a(1)′∑11a(1)=a(2)′∑22a(2)=1,

      ‖a(1)‖1≤ρ1,‖a(2)‖1≤ρ1.

      上式為懲罰性矩陣分解問題(PMD),即可迭代求解,算法見[19].

      s.t.a(1)′∑11a(1)≤1,a(2)′∑22a(2)≤1.

      上式為一個D.C.約束優(yōu)化問題,算法見[21].

      對SCCA模型的有效求解算法,也是一個需要研究的問題.Kitajima等[22]利用貪婪算法求解稀疏典型相關(guān)分析;Colin等[23]應用貝葉斯方法求解稀疏典型相關(guān)分析,表明用不同的先驗概率模型均可得到稀疏解.

      3 結(jié)論與展望

      從上節(jié)的幾種CCA擴展方法我們可以看到,典型相關(guān)分析的基本思想具備很強的可移植性.在不同的應用場景,表達為不同約束條件下的優(yōu)化問題,新的CCA應用拓展也不斷涌現(xiàn).比如,在多媒體檢索、圖像注釋和醫(yī)療數(shù)據(jù)分析領(lǐng)域,有標號樣本和無標號樣本同時存在,研究人員便發(fā)展出了半監(jiān)督CCA(Semi-supervised CCA)[24]方法;針對具備時間序列特征的樣本數(shù)據(jù),研究人員提出了灰度CCA(Gray CCA)[25],強調(diào)新信息優(yōu)先,以期準確及時反映時間樣本的變化趨勢;在視頻人物動作的分類研究中,人們發(fā)展了張量CCA(Tensor CCA)[26],,將傳統(tǒng)CCA擴展到多維數(shù)據(jù)張量上.

      在典型相關(guān)分析的實際應用中,還會面臨協(xié)方差矩陣奇異的問題,因此人們提出魯棒CCA(Robust CCA)[27]和互信息CCA(Informational CCA)[28].這里不再一一列舉.

      從應用效果看,文獻中的實驗結(jié)論也證明了各種CCA方法的有效性,這也正是近幾年來CCA應用拓展層出不窮的原因.隨著大數(shù)據(jù)云計算的蓬勃發(fā)展,CCA作為一種重要的數(shù)據(jù)融合的方法,在多種類數(shù)據(jù)、海量樣本、數(shù)據(jù)存在噪音、奇異值和缺失值等情形下,CCA應用背景變得更加復雜,人們對CCA求解算法的時效性有著更高的要求.我們期望很快出現(xiàn)更高效、適應面更廣的數(shù)據(jù)融合CCA方法.

      [1] HOTELLING H. Relations between two sets of variates[J].Biometrika,1936,28:321-377.

      [2] RICHARD A J, DEAN W W.實用多元統(tǒng)計分析[M].陸璇,葉俊,譯.6版.北京:清華大學出版社,2008:420-440.

      [3] AKAHO S. A kernel method for canonical correlation analysis[J].In Proceedings of the International Meeting of the Psychometric Society,2006,40(2):263-269.

      [4] YAMANISHI Y, VERT J P, NAKAYA A, et al. Extraction of correlated gene clusters from multiple genomic data by generalized kernel canonical correlation analysis[J].Bioinformatics,2003,19(Suppl1):323-330.

      [5] PARHJOMENKO E,TRITCHLER D, BEYENE J. Genome-wide sparse canonical correlation of gene expression with genotypes[J].BMC Proceedings,2007,1(Suppl1):S119.[6] SUN T K, CHEN S G, YANG J Y, et al. A novel method of combined feature extraction for recognition[C]// 2008 Eighth IEEE International Conference on Data Mining. Portugal:[s.n.],2008:1043-1048.

      [7] WANG C. Variational Bayesian approach to canonical correlation analysis[J].IEEE Transactions on Neural Networks,2007,18(3):905-910.

      [8] FRANCIS R B, MICHAEL I J. A probabilistic interpretation of canonical correlation analysis[R].Berkeley: Department of Statistics, University of California,2005.

      [9] VIRTANEN S, KLAMI A, KASKI S. Bayesian CCA via group sparsity[C]// International Conference on Machine Learning. Washington:DBLP,2011:457-464.

      [10] ZHANG L H, LIAO L Z, SUN L M. Towards the global solution of the maximal correlation problem[J].J Glob Optim,2011,49(1):91-107.

      [11] KETTENRING J R. Canonical analysis of several sets of variables[J].Biometrika,1969(3):433-451.

      [12] AKAHO S. A kernel method for canonical correlation analysis[J].In Proceedings of the International Meeting of the Psychometric Society,2006,40(2):263-269.

      [13] NICHOLAS B L, GREGORY D J, MELISSA C L, et al. Kernel canonical correlation analysis for assessing gene-gene interactions and application to ovarian cancer[J].European Journal of Human Genetics,2014,22,126-131.

      [14] SUN T K, CHEN S G, YANG J Y, et al. Discriminative canonical correlation analysis with missing samples[C]// Wri World Congress on Computer Science and Information Engineering. Portugal:[s.n.],2009:95-99.

      [15] PENG Y, ZHANG D Q, ZHANG J C. A new canonical correlation snalysis slgorithm with local discrimination[J].Neural Processing Letters,2010,31(1):1-15.[16] 王磊,史亞,姬紅兵.基于多集典型相關(guān)分析的雷達輻射源指紋識別[J].西安電子科技大學學報(自然科學版),2013,40(2):164-171. WANG L, SHI Y, JI H B. Specific radar emitter identification using multiset canonical correlation analysis[J].Journal of Xidian University(Natural Science Edition),2013,40(2):164-171.

      [17] SRIPERUMBUDUR B K, TORRES D A, LANCKRIET G R G. Sparse eigen methods by D.C. programming[C]// International Conference on Machine Learning. Portugal:[s.n.],2007:831-838.

      [18] WAAIJENBORG S, PC V D W H, ZWINCLERMAN A H. Quantifying the association between gene expressions and DNA-markers by penalized canonical correlation analysis[J].Statistical Applications in Genetics & Molecular Biology,2008,7(1):1-29.

      [19] WITTEN D M, ROBERT T, TREVOR H. A penalized matrix decomposition, with applications to sparse principal components and canonical correlation analysis[J].Biostatistics,2009,10(10):515-34.

      [20] TORRES D A, TURNBULL D, SRIPERUMBUDUR B K, et al. Finding musically meaningful words by dparse CCA[C]// Neural Information Processing Systems. Portugal:[s.n.],2007:1-8.

      [21] YAN J J, ZHENG W M, ZHOU X Y, et al. Sparse 2-D canonical correlation analysis via low rank matrix approximation for feature extraction[J].IEEE Signal Processing Letters,2012,19(1):51-54.

      [22] KITAJIMA M, KITAGAWA Y, OHMORI T, et al. A greedy approach to sparse canonical correlation analysis[J].Fems Microbio-logy Letters,1991,66(2):203-208.

      [23] COLIN F, GAYEL L. Two Methods for sparsifying probabilistic canonical correlation analysis[C]//Neural Information Processing, International Conference. Portugal:[s.n.],2006:361-367.

      [24] ZHOU Z H, ZHAN D C, YANG Q. Semisupervised learning with very few labeled training examples[C]//AAAI Conference on Artificial Intelligence. Vancouver, Canada: DBLP,2007:675-680.

      [25] 李雪,林和平,李迎斌.灰典型相關(guān)分析研究與應用[J].計算機工程與科學,2009,31(6):121-125. LI X, LIN H P, LI Y B. Research and application of grey canonical correlation analysis[J].Computer Engineering and Science,2009,31(6):121-125.

      [26] KIM T K, WONG K Y K, CIPOLLA R. Tensor canonical correlation analysis for action classification[C]// IEEE Conference on Computer Vision & Pattern Recognition. Portugal:[s.n.],2007:1-8.

      [27] AN L, YANG S F, BHANU B. Person re-identification by robust canonical correlation analysis[J].Signal Processing Letters IEEE,2015,22(8):1103-1107.

      [28] YIN X R. Canonical correlation analysis based on information theory[J].Journal of Multivariate Analysis,2004,91(2):161-176.

      Survey on canonical correlation analysis

      LI Youmei, LIANG Xun
      (College of Sciences, China Jiliang University, Hangzhou 310018, China)

      Correlation analysis between data has become an important part of large data processing. The canonical correlation analysis method and its extensions have been widely used in various fields. The multiple canonical correlation analysis is used to solve the feature fusion for multi-data sets. The kernel canonical correlation analysis is used to find out the non-linear relationship between the data. The discriminant canonical correlation analysis is used to analyze the data which carry category information. The sparse canonical correlation analysis is used to solve the data with too many characteristics. In this paper, the principles of the canonical correlation analysis method and its various extensions are introduced. At the end of this paper, the prospects and outlook of the canonical correlation analysis are discussed.

      canonical correlation analysis; multivariate feature fusion; Lagrange multiplier method

      2096-2835(2017)01-0113-06

      10.3969/j.issn.2096-2835.2017.01.020

      2016-12-19 《中國計量大學學報》網(wǎng)址:zgjl.cbpt.cnki.net

      國家自然科學基金資助項目(No.11301494).

      李有梅(1965- ),女,山西省大同人,教授,主要研究方向為數(shù)據(jù)統(tǒng)計分析.E-mail:li_youmei@cjlu.edu.cn

      TP181;O212.4

      A

      猜你喜歡
      典型變量樣本
      用最典型的事寫最有特點的人
      多項式求值題的典型解法
      抓住不變量解題
      用樣本估計總體復習點撥
      典型胰島素瘤1例報道
      也談分離變量
      推動醫(yī)改的“直銷樣本”
      隨機微分方程的樣本Lyapunov二次型估計
      村企共贏的樣本
      SL(3,3n)和SU(3,3n)的第一Cartan不變量
      阳新县| 大连市| 辰溪县| 河北省| 宜阳县| 拉萨市| 宜兰县| 墨江| 靖州| 教育| 长白| 措美县| 崇文区| 沁源县| 安达市| 武胜县| 晴隆县| 丰宁| 永昌县| 合水县| 武陟县| 吴江市| 额济纳旗| 锡林郭勒盟| 扬州市| 宁城县| 高雄县| 高陵县| 井研县| 万年县| 左权县| 夏河县| 合阳县| 萍乡市| 高邑县| 彭州市| 商丘市| 广宗县| 加查县| 密云县| 东乌珠穆沁旗|