呂江婷,陳少斌,黃宴委
(福州大學(xué)電氣工程與自動(dòng)化學(xué)院,福建福州 350116)
基因芯片技術(shù)對(duì)于在基因級(jí)別上研究疾病的發(fā)病機(jī)理、腫瘤的診斷及分類等具有重要的應(yīng)用價(jià)值[1].由于基因芯片數(shù)據(jù)存在樣本數(shù)量小、基因維數(shù)高以及樣本噪聲大等問題,增加了腫瘤診斷的難度,并且其中還有大量冗余信息,不僅降低了分類器的性能,還增大了算法的復(fù)雜度.因此,應(yīng)用特征選擇及去噪方法挑選出具有穩(wěn)定高效分類性能的特征基因十分必要[2-3].
傳統(tǒng)的聚類和分類方法直接對(duì)基因表達(dá)數(shù)據(jù)矩陣進(jìn)行分析,往往存在維數(shù)災(zāi)難問題,因而首先要對(duì)其進(jìn)行降維.主元分析(PCA)是一種經(jīng)典的降維方法,被廣泛應(yīng)用于多元數(shù)據(jù)分析中,同時(shí)也成為基因選擇的一種有用工具.迄今為止,人們已經(jīng)提出很多基于PCA的基因選擇或特征提取方法來對(duì)基因表達(dá)數(shù)據(jù)進(jìn)行分析.如:文獻(xiàn)[4]直接將Krzanowski[5]基于主成分的變量選擇方法應(yīng)用于基因選擇問題;文獻(xiàn)[6]提出一種融合PCA與線性判別分析(LDA)的鑒別主成分分析方法來對(duì)基因表達(dá)數(shù)據(jù)進(jìn)行特征提取;文獻(xiàn)[7]提出一種基于PCA主元的內(nèi)積值選擇成對(duì)特征基因的方法,結(jié)合SVM 分類器對(duì)基因表達(dá)數(shù)據(jù)進(jìn)行分類.但這些方法僅考慮了基因變量的冗余及噪聲,而在數(shù)據(jù)樣本的噪聲較大時(shí),無法獲得穩(wěn)定高效的分類精度.在數(shù)據(jù)挖掘中,基于k-近鄰距離(k-DNN)的樣本集去噪是一種高效的非參數(shù)噪聲監(jiān)測方法[8-9],它能快速有效地檢測出樣本集中的野值點(diǎn)噪聲.由此,本文提出一種基于PCA+k-DNN的特征基因選擇及去噪方法.
設(shè)樣本數(shù)據(jù)矩陣為X=[x1,…,xm]∈Rn×m,其中,m為基因個(gè)數(shù),n為樣本個(gè)數(shù),xi∈Rn×1為n個(gè)樣本中基因i的表達(dá)值.PCA的目的是通過協(xié)方差矩陣C,尋找一個(gè)新的投影軸.
C可轉(zhuǎn)換為一個(gè)有m個(gè)特征值λi(1≤i≤m)的對(duì)角陣,并得到其對(duì)應(yīng)的特征向量Pi∈Rm×1(1≤i≤m).按降序排列特征值,選出前q個(gè)主元使相應(yīng)特征值滿足:
其中:β為一個(gè)設(shè)定的閾值.β值越大,相應(yīng)q就越大.當(dāng)1≤i≤q時(shí),主元Pi∈Rm×1代表具有最大方差的方向,其余的Pi在q≤i≤m時(shí)則被視為冗余.
主元P=[P1,…,Pq]選定后,通過公式(3)計(jì)算主成分t:
其中:x∈Rm×1為原始變量的向量,t∈Rq×1為相應(yīng)的主成分.主成分t是所有原始基因變量的線性組合,要使基因個(gè)數(shù)減少還需進(jìn)行基因選擇.
若PCA模型有q個(gè)主元,將每個(gè)主元Pi(1≤i≤q)改寫成為:
其中:系數(shù)pi,j表示第i個(gè)主元中第j個(gè)基因的得分.pi,j越大,則第i個(gè)主元中第j個(gè)基因越重要.
定義基因的貢獻(xiàn)率為:
其中:1≤j≤m,gcj值越大,基因j越重要.按降序排列g(shù)cj,選出gcj值大的基因,即為特征基因(FG).
定義(k-近鄰距離)給定m維樣本空間Rm和空間點(diǎn)xi,J(i)為距離點(diǎn)xi最近的前k個(gè)點(diǎn)的集合,則點(diǎn)xi的k-近鄰距離d(i)定義為:
其中:N為樣本個(gè)數(shù),dij表示點(diǎn)xi和點(diǎn)xj之間的歐氏距離.
利用k-近鄰距離模型,樣本i的類內(nèi)距離dW(i)和類間距離dB(i)可以通過下式求出:
其中:JW(i)為樣本i的k個(gè)同類最近鄰樣本的集合;JB(i)為樣本i的k個(gè)異類最近鄰樣本的集合.
若樣本i的類內(nèi)距離大于其類間距離,即:dW(i)>dB(i),則為野值噪聲點(diǎn).本文利用k-DNN方法來消除FG集合中的野值噪聲樣本,來獲得穩(wěn)定高效的分類精度.
為了驗(yàn)證所提出的特征基因選擇及去噪方法的性能,分別對(duì)表1中的三個(gè)數(shù)據(jù)集:Leukemia、Prostate Cancer及 Colon Cancer(來自 http://datam.i2r.a-star.edu.sg/datasets/krbd 和 http://www.biolab.si/supp/bi-cancer/projections)進(jìn)行測試,并利用線性支持向量機(jī)來評(píng)估特征基因的分類性能.
Leukemia數(shù)據(jù)集由ALL與AML兩類樣本組成,每個(gè)樣本包含7 129個(gè)基因數(shù)據(jù).其訓(xùn)練集有38個(gè)樣本(27個(gè)ALL類和11個(gè)AML類),測試集有34個(gè)樣本(20個(gè)ALL類和14個(gè)AML類).使用訓(xùn)練集建立相應(yīng)的PCA模型,設(shè)定閾值β=0.95,計(jì)算出主元個(gè)數(shù)q=16,由式(5)計(jì)算各基因貢獻(xiàn)率的大小,選擇排列靠前的21個(gè)基因?yàn)镕G(見表2).
表1 數(shù)據(jù)集的說明Tab.1 Descriptions of the datasets
表2 各數(shù)據(jù)集選出的FGTab.2 The selected FGs of the datasets
與之類似的,Prostate Cancer數(shù)據(jù)集由Prostate Cancer組織與正常組織兩類樣本組成,每個(gè)樣本包含12 600個(gè)基因.其訓(xùn)練集有102個(gè)樣本(52個(gè)Prostate Cancer組織和50個(gè)正常組織),測試集有34個(gè)樣本(25個(gè)Prostate Cancer組織和9個(gè)正常組織).使用訓(xùn)練集建立相應(yīng)的PCA模型,設(shè)定閾值β=0.90,計(jì)算出主元個(gè)數(shù)q=36,由式(5)計(jì)算各基因貢獻(xiàn)率的大小,選擇排列靠前的18個(gè)基因?yàn)镕G(見表2).
Colon Cancer數(shù)據(jù)集包含62個(gè)組織樣本(40個(gè)Colon Cancer組織樣本和22個(gè)正常組織樣本),每個(gè)樣本包含2000個(gè)基因.由于此樣本集未拆分為訓(xùn)練集與測試集,因此將所有樣本用于基因選擇過程.首先,建立PCA模型,設(shè)定閾值β=0.95,計(jì)算出主元個(gè)數(shù)q=26,由式(5)計(jì)算各基因貢獻(xiàn)率的大小,選擇排列靠前的14個(gè)基因?yàn)镕G(見表2).
表3 線性SVM分類結(jié)果Tab.3 Results by the Linear SVM classifer
利用Linear SVM分類器來分別驗(yàn)證以上3類FG的分類性能,SVM參數(shù)為10CV的分類結(jié)果如表3所示,從FG集合中選擇合適的子集,不僅可降低數(shù)據(jù)量,還可提高分類精度.
對(duì)選出的FG做篩選時(shí)發(fā)現(xiàn),由于野值噪聲樣本的存在,嚴(yán)重影響了FG分類精度的提高.以Leukemia數(shù)據(jù)集為例,從已得到的21個(gè)FG集合中選擇12個(gè)基因(編號(hào)為:M31523,U05259,U22376,M92287,L47738,M31303,X74262,HG1612,X59417,Z15115,J05243,D38073)來進(jìn)行分類性能測試.
在Linear SVM分類器參數(shù)為10CV時(shí),訓(xùn)練集精度為97.3%,測試集精度為100%.利用k-DNN方法對(duì)訓(xùn)練集進(jìn)行野值去噪,檢測出第12個(gè)ALL類樣本為野值噪聲點(diǎn).從訓(xùn)練集中刪除該樣本,得到去噪后的訓(xùn)練集.再利用Linear SVM分類器對(duì)去噪后的訓(xùn)練集及原始測試集進(jìn)行分類,結(jié)果如表4所示,刪除野值樣本后,訓(xùn)練集的分類精度提升為100%,測試集的分類精度仍保持100%.表明基于k-DNN的去噪方法,可以進(jìn)一步提升FG的分類性能,獲得更加穩(wěn)定高效的分類精度.
表4 k-DNN去噪結(jié)果對(duì)比Tab.4 Results comparison after denoising by k-DNN
表5 不同方法所得FG分類結(jié)果對(duì)比Tab.5 Classification results comparison for FGs obtained by different approaches
應(yīng)用Linear SVM分類器,對(duì)比本文及其他幾種不同特征基因選擇方法得到的FG的分類性能.實(shí)驗(yàn)結(jié)果如表5所示.由表5可知:基于PCA+k-DNN方法進(jìn)行特征基因選擇及去噪,再用SVM分類器對(duì)Leukemia樣本數(shù)據(jù)的12個(gè)基因進(jìn)行分類,訓(xùn)練集及測試集精度均為100%;基于貝葉斯變量選擇的基因選擇方法得到18個(gè)基因,訓(xùn)練集精度為100%,測試集精度為94.1%;基于高斯過程發(fā)現(xiàn)一致基因表達(dá)模式的基因選擇方法得到的14個(gè)基因,訓(xùn)練集精度為97.3%,測試集精度為97.1%;基于概率調(diào)整的基因選擇方法得到25個(gè)基因,訓(xùn)練集精度為97.3%,測試集精度為100%.
由此可見,提出的基于PCA+k-DNN的特征基因選擇及去噪方法,從基因芯片數(shù)據(jù)中為SVM分類提供了重要信息,不僅簡單易實(shí)現(xiàn),還可使選得的FG達(dá)到穩(wěn)定高效的分類精度.
提出一種基于PCA+k-DNN的特征基因選擇及去噪方法.首先,利用主元分析法獲取低維投影空間中的模式特征,依據(jù)各個(gè)基因貢獻(xiàn)率大小排序,選擇貢獻(xiàn)率大的基因?yàn)樘卣骰?進(jìn)而利用k-DNN方法消除野值噪聲以獲得穩(wěn)定高效的分類精度.該方法既解決了高維小樣本問題,避免了維數(shù)災(zāi)難問題,又結(jié)合了樣本集去噪,降維的同時(shí),保證了特征基因獲得穩(wěn)定高效的分類精度.實(shí)驗(yàn)結(jié)果表明:利用該方法進(jìn)行特征基因選擇及去噪,不僅簡單易實(shí)現(xiàn),且穩(wěn)定高效.實(shí)驗(yàn)中還發(fā)現(xiàn),從FG集合中選擇合適的子集不僅可降低數(shù)據(jù)量,還可提高分類精度.如何選取最佳的FG子集是今后研究的內(nèi)容.
[1]劉全金,李穎新,阮曉鋼.基于BP網(wǎng)絡(luò)靈敏度分析的腫瘤亞型分類特征基因選?。跩].中國生物醫(yī)學(xué)工程學(xué)報(bào),2008,27(5):710-715.
[2]Yang Ai-jun,Song Xin-yuan.Bayesian variable selection for disease classifcation using gene expression data[J].Bioinformation,2010,26(2):215-222.
[3]游偉,李樹濤,譚明奎.基于SVM-RFE-SFS的基因選擇方法[J].中國生物醫(yī)學(xué)工程學(xué)報(bào),2010,29(1):93-99.
[4]Wang An-tai,Gehan E A.Gene selection for microarray data analysis using principal component analysis[J].Statistics in Medicine,2005,24(13):2 069-2 087.
[5]Krzanowski W J.Selection of variables to preserve multivariate data structure,using principal components[J].Applied Statistics,1987,36(1):22–33.
[6]廖海斌,徐鴻章.基于鑒別主成分分析的基因表達(dá)數(shù)據(jù)特征提取[J].燕山大學(xué)學(xué)報(bào),2010,34(5):426-430.
[7]Sohn K,Lim S H.A new gene selection method based on PCA for molecular classification[C]//Fourth International Conference on Fuzzy System and Knowledge Discovery.Haikou:[s.n.],2007,4:275-279.
[8]Ghoting A,Parthasarathy S,Otey M E.Fast mining of distance-based outliers in high-dimensional datasets[J].Data Mining and Knowledge Discovery,2008,16(3):349-364.
[9]陳圣兵,李龍澍.基于近鄰距離的大規(guī)模樣本集去噪及減樣[J].計(jì)算機(jī)工程,2011,37(5):184-186.
[10]Chu Wei,Ghahramani Z,F(xiàn)alciani F,et al.Biomarker discovery in microarray gene expression data with Gaussian processes[J].Bioinformatics,2005,21(16):3 385-3 393.
[11]Wang Hong-qiang,Huang De-shuang.Regulation probability method for gene selection[J].Pattern Recognition Letters,2006,27(2):116-122.