王海鵬,楊 昆
(杭州電子科技大學(xué)計算機(jī)學(xué)院,浙江杭州310018)
利用基因芯片數(shù)據(jù)對疾病進(jìn)行分類診斷是生物醫(yī)學(xué)中重要的應(yīng)用領(lǐng)域[1]。目前已有的基因選擇方法大致可以分為3類:過濾法,纏繞法和嵌入式法[1]。集成分析來自相同研究問題的不同數(shù)據(jù)集是分析基因表達(dá)數(shù)據(jù)的一個可行途徑。本文提出了一種新的集成數(shù)據(jù)選擇特征基因的方法(Gene Selection by Multiple Data Integration,GSMDI),針對多來源數(shù)據(jù)中的每一個,首先計算每個基因在這一數(shù)據(jù)上的差異表達(dá)統(tǒng)計量,然后用每個基因的差異表達(dá)統(tǒng)計量來代替這一原始數(shù)據(jù)進(jìn)行后面的分析,從而盡可能地消除數(shù)據(jù)本身帶有的特異性。最后利用多來源的數(shù)據(jù)提取特征,在不同的單一來源的數(shù)據(jù)上進(jìn)行訓(xùn)練和測試,訓(xùn)練分類器的數(shù)據(jù)和測試數(shù)據(jù)是同一來源的,不同來源的數(shù)據(jù)僅僅用于特征的提取。提出的基因選擇方法有效地避免了原有的數(shù)據(jù)集成方式的不足。
Ap×n1和Bp×n2是針對相同的科學(xué)問題而由不同的研究產(chǎn)生的兩個微陣列數(shù)據(jù),它們共同包含p個相同基因。對于這兩個不同來源的數(shù)據(jù)集A、B,用基因選擇方法(基于T統(tǒng)計量的方法[2])分別應(yīng)用于單個數(shù)據(jù)集計算,得到基因?qū)?yīng)的統(tǒng)計量xA,yB(p維列向量)。對于來自這兩個數(shù)據(jù)集上的某個公共的基因g,若基因g在兩個數(shù)據(jù)集上的表達(dá)一致,則在理想狀態(tài)下應(yīng)該有xA=yB,也就是說點(diǎn)(xA,yB)在二維直角坐標(biāo)系中是位于y=x上的。在如圖1所示的二維直角坐標(biāo)系中,令x軸代表基因在其中一個數(shù)據(jù)集上的統(tǒng)計量,y軸代表該基因在另一個數(shù)據(jù)集上的統(tǒng)計量。那么找到可靠的特征基因的問題就轉(zhuǎn)化為在(x,y)平面上找到離y=x距離最近的那些點(diǎn)。對于二維平面中的任意一個點(diǎn)O(x,y),滿足如下的命題:
命題 對于不在中線上的坐標(biāo)系中任意一點(diǎn)O(x,y),該點(diǎn)距離中線y=x的距離OC為|x-y|/2。
證明 如圖1所示,過點(diǎn)O分別做平行于x軸和y軸的直線,與中線分別相交與點(diǎn)A、B。由幾何知識得OA=OB=|x-y|,因為ΔOAB為直角三角形,所以斜邊由三角形面積相等,得該點(diǎn)到中線的距離
對于二維直角坐標(biāo)系中其他象限的任意點(diǎn),該命題同樣成立。
圖1 幾何表示
但是這種方法存在一定的問題:由于max{|x|,|y|}很小,距離原點(diǎn)越近的點(diǎn),其距離中線的距離也越近,這樣的基因用于分類沒有多大的效果。所以,必須對|x-y進(jìn)行修正,本文中的|x-y|/|x+y|就是其中的一種修正方式,由于|x+y|相對較大,在一定程度上避免了這種方法存在的問題。
以上是兩個數(shù)據(jù)集的情況,對于n個數(shù)據(jù)集,基因選擇方法——GSMDI(gene selection by multiple data integration)為:假設(shè)有n個基因表達(dá)數(shù)據(jù)集,首先用基因選擇方法(基于T統(tǒng)計量的方法[2])應(yīng)用于單個數(shù)據(jù)集計算,得到基因?qū)?yīng)的統(tǒng)計量。再對不同數(shù)據(jù)集上的每個基因?qū)?yīng)的統(tǒng)計量,兩兩組合,計算F=|x-y|/|x+y|。對每個基因?qū)?yīng)的個F值取平均值,然后以平均值為準(zhǔn)從小到大排列,依次取前50、100、150、200個基因作為選出的特征基因。最后采用KNN(K-最近鄰)和SVM(支持向量機(jī))分類器,在訓(xùn)練數(shù)據(jù)上訓(xùn)練,在測試數(shù)據(jù)上測試。
本文實(shí)驗的真實(shí)數(shù)據(jù)是來自4個關(guān)于乳腺癌的Affymetrix microarray數(shù)據(jù),這4個數(shù)據(jù)是由不同的研究機(jī)構(gòu)使用不同型號的Affymetrix寡核苷酸微陣列得到的。其中Westet al[3]的數(shù)據(jù)由HuGeneFL芯片產(chǎn)生,它包含兩個類別共49個樣本,其中25個為乳腺癌樣本,24個為正常樣本。Huang et al[4]的數(shù)據(jù)由HG-U95Av2芯片產(chǎn)生,包含兩個類別共89個樣本,其中74個為乳腺癌樣本,15個為正常樣本。Wang et al[5]的數(shù)據(jù)由HG-U133A芯片產(chǎn)生,包含兩個類別共286個樣本,其中209個為乳腺癌樣本,77個為正常樣本。Soiriou et al[6]的數(shù)據(jù)也是由HG-U133A芯片產(chǎn)生,包含兩個類別共183個樣本,其中149個為乳腺癌樣本,34個為正常樣本。由于產(chǎn)生數(shù)據(jù)的微陣列型號不同,用基于序列的探針匹配方法來匹配微陣列中使用的探針,找到公共的探針集。最終得到5 045個在3種微陣列芯片中同時出現(xiàn)的公共探針集,以這5 045個公共探針集在4個數(shù)據(jù)中的表達(dá)值為分析目標(biāo)。
本文提出的算法用Matlab實(shí)現(xiàn),通過分類實(shí)驗來比較本文提出的方法GSMDI和作為對照的基因選擇方法T-test。具體的實(shí)驗環(huán)境是:Intel Core2 2.1 Ghz處理器,2G內(nèi)存,操作系統(tǒng)是Windows XP。本文使用5-fold交叉驗證實(shí)驗來獲得平均分類結(jié)果。實(shí)驗結(jié)果部分所示的是50次5-fold交叉驗證實(shí)驗的平均結(jié)果。
對于實(shí)驗中4個來源的數(shù)據(jù)集A、B、C、D,把它們分成A1+A2、B1+B2、C1+C2、D1+D2,定義*1為特征提取與訓(xùn)練分類器的數(shù)據(jù),*2為測試數(shù)據(jù)(它不參與到特征提取與訓(xùn)練中)。對A、B、C、D4個數(shù)據(jù)集進(jìn)行交叉驗證實(shí)驗,即每次把它們分成訓(xùn)練與測試集,對于一個具體的分割有A1+A2、B1+B2、C1+C2、D1+D2,在(A1,B1,C1,D1)上,用提出的方法來提取特征G,然后在特征G上分別以*為訓(xùn)練集,分類測試集*。作為對照實(shí)驗,依次在單個數(shù)據(jù)集上用基于T統(tǒng)計量的方法來提取特征,然后以選出的特征為對象,在*上訓(xùn)練,分類*G2。
實(shí)驗結(jié)果從準(zhǔn)確率、敏感性和特異性3個指標(biāo)考察分類實(shí)驗,相關(guān)的性能指標(biāo)的定義如下:準(zhǔn)確率確預(yù)測為正常的樣本數(shù),TN(true negative)是被正確預(yù)測為乳腺癌的樣本數(shù),FP(false positive)是被錯誤預(yù)測為正常的樣本數(shù),FN(false negative)是被錯誤預(yù)測為乳腺癌的樣本數(shù)。
圖2 在4個數(shù)據(jù)集上兩種分類器的準(zhǔn)確率
圖3 在4個數(shù)據(jù)集上兩種分類器的敏感性
圖4 在4個數(shù)據(jù)集上兩種分類器的特異性
實(shí)驗結(jié)果見圖2-圖4,其中每幅圖中包含左右兩幅圖,對應(yīng)兩種不同的分類器。對于每種不同的分類器各有4個小圖,其中左上個子圖表示Huang etal的數(shù)據(jù),右上個子圖表示Sotiriou etal的數(shù)據(jù),左下個子圖表示W(wǎng)ang et al的數(shù)據(jù),右下個子圖表示W(wǎng)est etal的數(shù)據(jù)。
分類實(shí)驗結(jié)果顯示,盡管在某幾個數(shù)據(jù)上對于單一的指標(biāo)(比如圖2的左上個子圖,Accuracy指標(biāo),Huang et al的數(shù)據(jù),SVM分類器)提出的方法不如對照的方法T-test。但是從總體上看,綜合考慮所有的3個指標(biāo),所有的4個數(shù)據(jù),2種不同的分類器,提出的方法是有優(yōu)勢的。
本文提出了一種新的集成數(shù)據(jù)選擇特征基因的方法,針對多來源數(shù)據(jù)中的每一個,首先計算每個基因在這一數(shù)據(jù)上的差異表達(dá)統(tǒng)計量,然后用每個基因的差異表達(dá)統(tǒng)計量來代替這一原始數(shù)據(jù)進(jìn)行后面的分析,最后利用多來源的數(shù)據(jù)提取特征,在不同的單一來源的數(shù)據(jù)上進(jìn)行訓(xùn)練和測試。在4個真實(shí)的基因表達(dá)數(shù)據(jù)集上對提出的方法進(jìn)行了測試,實(shí)驗結(jié)果證明本文提出的方法所選出的特征應(yīng)用于分類的效果更好。
[1] 周昉,何潔月.生物信息學(xué)中基因芯片的特征選擇技術(shù)綜述[J].計算機(jī)科學(xué),2007,34(12):143-150.
[2] Varma S,Simon R.Iterative class discovery and feature selection using Minimal Spanning Trees[J].BMCBioinformatics,2004,(5):126.
[3] WestM,Blanchette C,Dressman H,etal.Predicting the clinical status of human breast cancerby using gene expression profiles[J].Proc Natl Acad Sci USA,2001,98(20):11 462-7.
[4] Huang E,Cheng SH,Dressman H,et al.Gene expression predictors of breast cancer outcomes[J].Lancet,2003,361(9369):1 590-6.
[5] Wang Y,Klijn JGM,Zhang Y,etal.Gene-expression profiles to predictdistantmetastasis of lymph-node-negative primary breast cancer[J].Lancet,2005,365(9460):671-9.
[6] Christos Sotiriou,PratyakshaWirapati,Sherene Loi,et al.Gene Expression Pro?ling in Breast Cancer:Understanding the Molecular Basis of Histologic Grade To Imp rove Prognosis[J].JNatl Cancer Inst,2006,4(98):262-72.