王文俊
(西安電子科技大學計算機學院,陜西西安710071)
基于稀疏類別保留投影的基因表達數(shù)據(jù)降維方法
王文俊
(西安電子科技大學計算機學院,陜西西安710071)
針對基因表達數(shù)據(jù)高維小樣本特性所帶來的維數(shù)災難問題,結合回歸和類別保留投影方法,提出一種新的基因表達數(shù)據(jù)降維方法,叫稀疏類別保留投影.相比類別保留投影,能有效避免類別保留投影在基因表達數(shù)據(jù)降維上存在的矩陣奇異和過擬合問題.通過對真實基因表達數(shù)據(jù)進行數(shù)據(jù)可視化和分類識別,驗證了方法的有效性.
基因表達數(shù)據(jù);高維小樣本;類別保留投影;回歸
基于基因表達數(shù)據(jù)[1~3]的腫瘤分類[4~6]研究對癌癥診療有著非常重要的意義.基因表達數(shù)據(jù)的高維小樣本特性,成為傳統(tǒng)模式分類研究的瓶頸.如何有效降低基因表達數(shù)據(jù)的維數(shù),成為基因表達數(shù)據(jù)分類研究的關鍵問題之一.
為克服這一問題,已有學者嘗試開發(fā)基因表達數(shù)據(jù)降維方法.這些方法主要包括基于基因選擇的方法、基于非監(jiān)督特征提取的方法和基于監(jiān)督特征提取的方法:
(1)基于基因選擇[7~14]的方法,這是目前基因表達數(shù)據(jù)降維的最主要的方法.基因選擇通過選取差異顯著基因可能會達到很高的分類正確率,但并沒有考慮基因之間的關系.很多疾病并不單純是由差異顯著基因的改變造成的,而是由復雜調控機制的改變引起的,所以很多疾病易感基因在不同類別樣本間的表達并沒有顯著差異,但基因選擇很可能會丟失這些疾病易感基因.面對不同的腫瘤分類任務,各種基因選擇算法并沒有統(tǒng)一的標準,如果基因選擇算法設計的不好,就可能丟失對分類有用的信息基因,從而影響分類性能.
(2)基于非監(jiān)督特征提取的方法,包括主分量分析(PCA)[15,16]、獨立分量分析(ICA)[17]、非負矩陣分解法(NMF)[18]和保局投影(LPP)[19]等.這些特征提取方法都是沒有考慮分類信息的降維方法,降維后往往還需借助一些鑒別特征提取方法來提取有效的分類特征,或采用支持向量機(SVM)[20]等比較復雜的分類器來提高分類性能,從而增加了分類識別的復雜性.
(3)基于監(jiān)督特征提取的方法,經典監(jiān)督特征提取方法是線性鑒別分析(LDA)[21].相比基因選擇和非監(jiān)督特征提取方法,監(jiān)督特征提取方法能避免基因選擇帶來的信息丟失問題,同時減輕分類器設計的負擔.在基因表達數(shù)據(jù)的應用上,LDA主要是用于數(shù)據(jù)降維后的鑒別特征提取,而沒有直接用來實現(xiàn)高維基因表達數(shù)據(jù)的降維.這主要是由于LDA面對基因表達數(shù)據(jù)的高維小樣本特性,存在計算復雜度高、矩陣奇異、過擬合和最優(yōu)子空間維數(shù)受樣本類別數(shù)限制等問題,使LDA作為基因表達數(shù)據(jù)的降維手段遇到了瓶頸.類別保留投影(Class Preserving Projection,CPP)[22]是2012年提出的一種新的監(jiān)督特征提取方法,CPP能有效解決最優(yōu)子空間維數(shù)受樣本類別數(shù)限制的問題,同時基于樣本空間的鑒別特征提?。?3]能大大降低特征提取的計算復雜度.但面對基因表達數(shù)據(jù)的高維小樣本特性,CPP依然存在矩陣奇異、過擬合等問題.
為克服類別保留投影方法的不足,本文提出一種基于稀疏類別保留投影的基因表達數(shù)據(jù)降維方法,將CPP方法和線性回歸相結合,避免類別保留投影在基因表達數(shù)據(jù)降維上存在的矩陣奇異和過擬合問題,提高腫瘤基因表達數(shù)據(jù)分類的準確性和可靠性.
給定m個訓練樣本的基因表達數(shù)據(jù)矩陣Xn×m和樣本類別屬性集合C=[c1,c2,…,cm].矩陣X的行代表基因,列代表組織樣本(簡稱“樣本”),其元素xij是基因i在樣本j上的表達水平.每個樣本對應一個n維的表達向量,即x1,x2,…,xm∈Rn,樣本xi的類別記為 ci.找一個變換矩陣A,使這m個樣本映射到d維空間中的m個點:y1,y2,…,ym∈Rd,使得yi代表xi,這里yi=ATxi.
2.1類別保留投影CPP
CPP是2012年提出的一種鑒別特征提取方法,從兩兩樣本的類別關系出發(fā),樣本的類別關系作為權重系數(shù),構造目標函數(shù),使同類的任意兩樣本的距離盡可能地小,而異類的任意兩樣本之間的距離盡可能地大.相比經典的線性鑒別分析方法(LDA),CPP具有最優(yōu)子空間維數(shù)不受樣本類別數(shù)限制、計算復雜度低的優(yōu)點.
設a是一個變換向量,樣本xi在a上的投影記為yi,即yi=aTxi,i=1,…,m,CPP的目標函數(shù)為:
把yi=aTxi,i=1,…,m代入式(1),通過簡單的代數(shù)變換,目標函數(shù)可化簡為
使目標函數(shù)(2)最小的變換向量a可通過求解以下的廣義特征方程來獲得:
廣義特征方程(3)的最小特征值對應的特征向量就是最優(yōu)變換向量a.廣義特征方程的前d個最小特征值對應的特征向量ai(i=1,2,…,l)就構成了CPP的最優(yōu)變換矩陣A=(a1,a2,…,ad).
對于基因表達數(shù)據(jù)而言,由于其高維小樣本特性,CPP容易出現(xiàn)數(shù)據(jù)堆積(data piling)而出現(xiàn)過學習,從而降低方法的推廣能力.同時,由于 n?m,所以由 m個樣本計算的類間散布矩陣XL2XT一定是嚴重奇異的,這些問題在LDA特征提取方法中同樣存在.為解決這些問題,我們結合回歸方法,提出稀疏類別保留投影SCPP.
2.2稀疏類別保留投影SCPP
SCPP將回歸和CPP相結合,把廣義特征值問題轉化到回歸框架,特征向量轉化為回歸系數(shù),用elastic net[24]獲得回歸系數(shù)的稀疏解,提高特征的可解釋性.
步驟1 通過求解以下的廣義特征方程來獲得訓練樣本的鑒別特征映射
廣義特征方程的前d個最小特征值對應的特征向量就是訓練樣本的鑒別特征映射Y={y1,y2,…,yd}.Y為m×d維的矩陣,d為特征維數(shù).
步驟2 獲得稀疏變換矩陣
通過求解以下的回歸優(yōu)化問題獲得稀疏的列向量ai:
獲得的d個稀疏向量ai組成最終的稀疏變換矩陣A={a1,a2,…,ad}.
步驟3 通過稀疏變換矩陣實現(xiàn)數(shù)據(jù)降維
對于任一樣本xnew,求得其在A上的投影值為
xnew∈Rn,ynew∈Rd,d?n,實現(xiàn)數(shù)據(jù)降維.
由于變換矩陣A是由稀疏列向量ai組成的,所以樣本xnew的特征向量ynew對應的每個特征都是少數(shù)基因線性組合的結果,從而使特征更具解釋性.
對NCI和GCM這兩組真實基因表達數(shù)據(jù)進行實驗研究,采用SCPP進行降維,并與CPP進行比較,從可視化效果和分類識別準確率以及特征基因選擇方面驗證SCPP的有效性.
NCI數(shù)據(jù)[25]該數(shù)據(jù)由美國癌癥研究院(NCI)提供的來自neuroblastoma神經細胞和非霍吉金氏淋巴細胞腫瘤這兩類樣本的源基因表達數(shù)據(jù),這是在4種病類88個人的人群中所采集的這些人的基因表達數(shù)據(jù),即其基因空間的維數(shù)為2308,樣本數(shù)為88,病類數(shù)為4,其中64個樣本的所屬類別已知,各病類中的樣本數(shù)分別為:23、8、12、21.
GCM數(shù)據(jù)[26]190例不同癌癥類型的組織樣本的16063個基因片段的表達情況.該數(shù)據(jù)包含14種癌癥類型.
兩組實驗數(shù)據(jù)的詳細信息如表1.
表1 實驗數(shù)據(jù)
3.1可視化效果和分類準確率
分別采用SCPP方法和CPP方法實現(xiàn)數(shù)據(jù)降維后,實現(xiàn)數(shù)據(jù)在前三個特征(主分量)上的可視化,并在鑒別特征空間采用最近鄰分類器進行樣本分類識別,計算樣本分類的正確率,并通過5重交叉驗證分析方法的推廣能力.數(shù)據(jù)的可視化結果見圖1和圖2,分類正確率曲線見圖3和圖4.圖3、圖4中,橫坐標表示降維后的特征維數(shù),縱坐標表示采用5重交叉驗證和最近鄰分類器獲得的分類正確率.NCI數(shù)據(jù)降維后的特征維數(shù)最高選到49,GCM數(shù)據(jù)降維后的特征維數(shù)最高選到150.
從圖1、圖2可以看出,SCPP在前三個特征上的數(shù)據(jù)散布不會出現(xiàn)數(shù)據(jù)堆積現(xiàn)象,CPP的數(shù)據(jù)堆積嚴重.從圖3、圖4可以看出,SCPP的分類正確識別率要明顯好于CPP,而且SCPP的正確識別率比較平穩(wěn),隨著特征維數(shù)的增加呈單調不減趨勢,而CPP達到最高識別率后,隨著特征維數(shù)的增加,識別率下降明顯.對于NCI數(shù)據(jù),在特征維數(shù)為3時,SCPP的正確識別率達到了最大值(達到了98.44%),而CPP的最高正確識別率是96.88%.對于GCM數(shù)據(jù),CPP的最高正確識別率是62.63%(此時的特征維數(shù)是16),而 SCPP在特征維數(shù)為13時,正確識別率已經達到了65.79%,最高正確識別率可達到66.32%.這說明SCPP能有效避免CPP的過擬合問題,從而提高特征的推廣能力.
3.2特征相關基因選擇
在特征變換向量上系數(shù)不為零的基因稱為特征相關基因.對NCI數(shù)據(jù)采用SCPP方法獲得的特征中,只有4個特征有相關基因,見表2.
表2 NCI數(shù)據(jù)的特征相關基因
從表2可以看出,SCPP從2308個基因中選出了104個不重復的特征相關基因.這四個不同特征的特征相關基因及其個數(shù)幾乎都不相同,只有少數(shù)基因在不同特征中重復出現(xiàn).如編號為255的基因跟前三個特征都相關,而基因174、1389、1601只與其中2個特征相關.可見,SCPP并不是象基因選擇那樣,只選出少數(shù)特征基因作為分類基因,而是不同的特征包含了許多不同的特征相關基因,故能更多地保留信息基因.
限于論文篇幅,GCM數(shù)據(jù)的特征相關基因沒有列出.
本文將類別保留投影問題轉化到回歸框架,實現(xiàn)稀疏鑒別特征提取,克服了類別保留投影在基因表達數(shù)據(jù)降維上存在矩陣奇異、過擬合的問題.采用稀疏類別保留投影實現(xiàn)基因表達數(shù)據(jù)降維,避免基因選擇所帶來的信息基因丟失,減輕分類器設計的負擔,提高腫瘤基因表達數(shù)據(jù)分類的準確性和可靠性.
[1]Rung J,Brazma A.Reuse of public genome-wide gene expression data[J].Nature Reviews Genetics,2013,14(2):89-99.
[2]于攀,葉俊勇.基于譜回歸和核空間最近鄰的基因表達數(shù)據(jù)分類[J].電子學報,2011,39(8):1955-1960. YU Pan,YE Jun-yong.Spectral regression and kernel space K-nearest neighbor for classification of gene expression data[J].Acta Electronica Sinica,2011,39(8):1955-1960. (in Chinese)
[3]Pham TD,Wells C,Crane DI.Analysis of microarray gene expression data[J].Current Bioinformatics,2006,1(1):37 -53.
[4]Wang Z,Palade V.Fuzzy Models for High Dimensional Cancer Gene Expression Data Classification[D].University of Oxford,2013.
[5]Zhang YJ,Xuan JH,Clarke R,Ressom HW.Module-based breast cancer classification[J].International Journal of Data Mining and Bioinformatics,2013,7(3):284-302.
[6]王年,莊振華,范益政,李學俊,王繼.癌癥基因分類的Laplace譜方法[J].電子學報,2011,20(7):1594-1597. WANG Nian,ZHUANG Zhen-hua,F(xiàn)AN Yi-zheng,LI Xue-jun,WANG Ji.Classification of tumor gene expression data based on Laplacian spectra of graphs[J].Acta Electronica Sinica,2011,20(7):1594-1597.(in Chinese)
[7]Mao Z,Cai W,Shao X.Selecting significant genes by randomization test for cancer classification using gene expression data[J].Journal of Biomedical Informatics,2013,46 (4):594-601.
[8]Guyon I,Weston J,Barnhill S,Vapnik V.Gene selection for cancer classification using support vector machines[J]. Mach Learn,2002,46(1-3):389-422.
[9]Chen KH,Wang KJ,Tsai ML,et al.Gene selection for cancer identification:a decision tree model empowered byparticle swarm optimization algorithm[J].BMC Bioinformatics,2014,15(1):Article ID 49.
[10]Cui Y,Zheng CH,Yang J,Sha W.Sparse maximum margin discriminant analysis for feature extraction and gene selection on gene expression data[J].Computers in Biology and Medicine,2013,43(7):933-941.
[11]Ghosh S,Mitra S,Dattagupta R.Fuzzy clustering with biological knowledge for gene selection[J].Applied Soft Computing,2014,16(1):102-111.
[12]Gusnanto A,Ploner A,Shuweihdi F,Pawitan Y.Partial least squares and logistic regression random-effects estimates for gene selection in supervised classification of gene expression data[J].Journal of Biomedical Informatics,2013,46(4):697-709.
[13]Mohamad MS,Omatu S,Deris S,et al.An enhancement of binary particle swarm optimization for gene selection in classifying cancer classes[J].Algorithms for Molecular Biology,2013,8(1):Article ID 15.
[14]Zhang HY,Wang HY,Dai ZJ,et al.Improving accuracy for cancer classification with a new algorithm for genes selection[J].BMC Bioinformatics,2012,13(1):Article ID 298.
[15]Lee D,Lee W,Lee Y,Pawitan Y.Super-sparse principal component analyses for high-throughput genomic data [J].BMC Bioinformatics,2010,11(1):Article ID 296.
[16]Liu JX,Wang YT,Zheng CH,et al.Robust PCA based method for discovering differentially expressed genes[J]. BMC Bioinformatics,2013,14(S8):Article ID S3.
[17]Huang DS,Zheng CH.Independent component analysisbased penalized discriminant method for tumor classification using gene expression data[J].Bioinformatics,2006,22(15):1855-1862.
[18]Zheng CH,Ng TY,Zhang L,et al.Tumor classification based on non-negative matrix factorization using gene expression data[J].IEEE Transactions on Nanobioscience,2011,10(2):86-93.
[19]He XF,Niyogi P.Locality preserving projections[A].Advances in Neural Information Processing Systems[C]. USA:MIT Press,2004,Vol 16.153-160.
[20]Liu J,Li SC,Luo X.Iterative reweighted noninteger norm regularizing SVM for gene expression data classification [A].Computational and Mathematical Methods in Medicine[C].USA:Hindawi Publishing Corporation,2013. Article ID 768404.
[21]Paliwal KK,Sharma A.Improved direct LDA and its application to DNA microarray gene expression data[J]. Pattern Recognition Letters,2010,31(16):2489-2492.
[22]王文俊.基于類別保留投影的基因表達數(shù)據(jù)特征提取新方法[J].電子學報,2012,40(2):358-364. WANG Wen-jun.New method of feature extraction for gene expression data based on class preserving projection [J].Acta Electronica Sinica,2012,40(2):358-364.(in Chinese)
[23]Wang WJ.Sample-space-based feature extraction and class preserving projection for gene expression data[J]. International Journal of Data Mining and Bioinformatics,2013,8(2):224-246.
[24]Zou H,Hastie T.Regularization and variable selection via the elastic net[J].Journal of the Royal Statistical Society Series B-Statistical Methodology,2005,67(2):301-320.
[25]Khan J,Wei JS,Ringner M,et al.Classification and diagnostic prediction of cancers using gene expression profiling and artificial neural networks[J].Nature Medicine,2001,7(6):673-679.
[26]Ramaswamy S,Tamayo P,Rifkin R,et al.Multiclass cancer diagnosis using tumor gene expression signatures [J].Proceedings of the National Academy of Sciences of the United States of America,2001,98(26):15149 -15154.
王文俊 女,1980年8月出生,山西平遙人,副教授、碩士生導師.2003年、2006年和2011年在西安電子科技大學分別獲得工學學士、工學碩士和工學博士學位.2006年至今在西安電子科技大學計算機學院從事教學科研工作,主要研究方向為模式識別、生物信息處理等.
E-mail:xidianwwj219@163.com
New Method of Dimensionality Reduction for Gene Expression Data Based on Sparse Class Preserving Projection
WANG Wen-jun
(School of Computer Science and Engineering,Xidian University,Xi’an,Shaanxi 710071,China)
To solve the problem of the curse of dimensionality of gene expression data due to the characteristic of high dimension low sample size,a new method of dimensionality reduction for gene expression data,called sparse class preserving projection(SCPP)is proposed,by combining regression and class preserving projection(CPP).Compared to CPP,SCPP can avoid the problems of matrix singularity and over-fitting.Experiments are performed on gene expression data for visualization and sample classification,and the results confirm the effectiveness of the method.
gene expression data;high dimension and low sample size;class preserving projection;regression
TP391
A
0372-2112(2016)04-0873-05
電子學報URL:http://www.ejournal.org.cn 10.3969/j.issn.0372-2112.2016.04.017
2014-07-23;
2014-12-22;責任編輯:孫瑤
中央高?;究蒲袠I(yè)務費專項資金(No.JB140310)