李安慶,方國濤,高振楠,丁業(yè)兵
(安徽郵電職業(yè)學(xué)院,安徽 合肥 230031)
基于點的代數(shù)連通強度與PCA的腫瘤分類研究
李安慶,方國濤,高振楠,丁業(yè)兵
(安徽郵電職業(yè)學(xué)院,安徽合肥230031)
通過基因的表達水平來判別腫瘤的類別已成為后基因組時代的一個研究熱點.針對腫瘤分類進行了相關(guān)研究,提出了一種新的分類方法.首先利用點的代數(shù)連通強度(the Algebraic Connectivity Strength of Point,ACSP)剔除受外界因素影響過大的基因數(shù)據(jù)并用修正的特征記分準則(Revised Feature Score Criterion,RFSC)判別進行計分排序,選取高計分的作為基因子集;接著運用主成分分析(the principal component analysis,PCA)提取主成分以消除基因間存在的相關(guān)性冗余信息,同時將基因子集映射到極低維的特征空間;最后利用支持向量機(the support vector machines,SVM)分類器進行分類.本文通過多個典型腫瘤基因數(shù)據(jù)集的實驗,其結(jié)果驗證了本文方法是有效的、可行的.
點的代數(shù)連通強度;特征記分準則;主成分分析;支持向量機
隨著基因數(shù)據(jù)獲取技術(shù)的進步,人類認識與分析腫瘤及其類型又有了新的途徑和方法.針對傳統(tǒng)腫瘤診斷與治療的不足,如發(fā)現(xiàn)時間晚、治療效果差等,于是人類不斷探索新的途徑.基于微陣列技術(shù)[1],使得同時大規(guī)模觀察基因表達水平成為可能.如果能夠從這些基因表達譜數(shù)據(jù)中挖掘出有用的信息,則對腫瘤醫(yī)學(xué)起到巨大的推動作用.
至從1999年,文獻[2]成功提出了以“信噪比”作為衡量基因類別信息量的一種手段進行區(qū)分急性白血病的2個亞型一來,面對“人類基因組”項目以后的產(chǎn)生的海量基因數(shù)據(jù),如何挖掘出其中蘊含的有用信息是已經(jīng)擺在廣大學(xué)者面前的一道難題,針對基因表達譜數(shù)據(jù)樣本少、維數(shù)高以及冗余信息多的特點,已有研究做了大量工作.Alizadeh等人在2000年利用聚類分析的方法發(fā)現(xiàn)了淋巴瘤的兩種亞類型;在同時期,典型方法有人工神經(jīng)網(wǎng)絡(luò)法、貝葉斯法、SVM[2].由于理論知識的不斷發(fā)展與計算能力的快速增強,挖掘基因表達譜數(shù)據(jù)的方法也得到了巨大進步.像Sigh D等人[3]基于前列腺癌數(shù)據(jù)集,結(jié)合了“Signal—Noise Ratio”和K近鄰算法對其進行了識別分析;而文獻[4]將稀疏非負矩陣分解方法引入到腫瘤領(lǐng)域中,對乳腺癌數(shù)據(jù)進行了雙向聚類分析;阮曉鋼等人提出了組合方法——CLUSTER_S2N的方法來分析腫瘤信息基因,并對急性白血病的類型進行了預(yù)測實驗.然而,基于融合多種理論方法的腫瘤基因表達譜數(shù)據(jù)處理技術(shù)變得越來越流行,像信息熵概念與SVM結(jié)合的方法[6]對前列腺癌基因表達數(shù)據(jù)進行了有效識別.文獻[7]融合了PCA與ICA方法去識別胃癌表達譜差異基因以促進結(jié)果的最終判別的準確度;文獻[8]利用鄰接矩陣分解基因表達譜數(shù)據(jù),再運用PCA分析獲取主分量的方法尋找結(jié)腸癌信息基因等.這些方法有效促進了基因數(shù)據(jù)挖掘研究的發(fā)展.
前期研究主要運用某種計分準則對每個基因含有的類別信息量進行衡量,選取排列靠前的、計分高的部分特征基因子作為后續(xù)處理的數(shù)據(jù)子集,但這些方法是基于類方差和類平均值的,因此易受污染的異常值影響,使之不能客觀反映選取的基因的重要性,因此本文采用點的代數(shù)連通強度與PCA來對腫瘤基因進行識別和分類.首先利用ACSP方法剔除受外界因素影響過大的基因數(shù)據(jù)并用RFSC方法對剩下基因進行重要性計分,選取高計分的作為基因子集;接著運用PCA提取主成分以消除基因間存在的相關(guān)性冗余信息,同時將基因子集映射到極低維的特征空間;最后在SVM分類器上對三組典型數(shù)據(jù)集進行了分類實驗.
設(shè)有一完全圖F,共有N個頂點,記V={v1,v2,…vN}為頂點集,其邊集為E={eij|i,j∈{i,j∈1,2,…,N}},邊eij被賦予相應(yīng)權(quán)重wi,j,對其任意節(jié)點vi,計算與其相鄰K個鄰接節(jié)點的邊權(quán)重之和,記Sum(vi)=則Sum(vi)記為vi點的代數(shù)連通強度(the Algebraic Connectivity Strength of Point,ACSP)[9].圖中點的代數(shù)連通強度可以很好的反映圖中某點與其他點的關(guān)聯(lián)程度,所得到的信息可以反映圖的基本特征信息.對于每一個基因gi,構(gòu)建一個完全圖,將該基因在同一類樣本中的表達值作為圖中的點,則gi對應(yīng)一個點集:Valuei={value1i,value2i,…,valueNumi},其邊權(quán)重定義如下:
其中Num表示某一類的樣本個數(shù),當鄰近點的數(shù)目K≈T×Num,這里T是一個參數(shù)且T∈[0,1].計算:
首先,確定最大值Sum(valueji)
然后將與Summax對應(yīng)的valueji看做中心點.基因gi在同種類別中表達水平的均值和方差可以通過分析T×Num個相鄰的valueji來獲得(包括valueji).同樣原理,基因在不同類別中表達水平的均值和方差也可以用相同方法得到.最后,基因gi利用修訂的特征記分準則[14]進行計分.
其中,RSFC(gi)值的大小反應(yīng)了基因gi對樣本數(shù)據(jù)集中“+”類和“-”類的辨別能力,μc+、μc-和δc+、δc-分別是“+”類和“-”類樣本均值和方差.
主成分分析(PCA),作為一種有效的線性數(shù)據(jù)壓縮和降維的工具,其應(yīng)用越來越廣泛.其實質(zhì)是確定原變量xj(j=1,2,…,p)在諸主成分zi(i=1,2,…,m)上的荷載lij,把原來多個變量劃分為少數(shù)幾個綜合指標的一種統(tǒng)計分析方法.假定腫瘤樣本經(jīng)過上述ACSP和RFSC處理后維數(shù)降為p,即p個基因,則以樣本為行,基因為列,構(gòu)成一個n×p階的數(shù)據(jù)矩陣X.現(xiàn)就PCA給出如下簡要描述:
設(shè)g1,g2,…,gp為原變量指標,z1,z2,…,zm(m≤p)為新變量指標,滿足式(6).
其中系數(shù)lij的確定原則為:1)zi與zj(i≠j;i,j=1,2,…,m)相互無關(guān);2)z1是g1,g2,…,gp的一切線性組合中方差最大者;z2是與z1不相關(guān)的g1,g2,…,gp的所有線性組合中方差最大者;…;zm是與z1,z2,…,zm-1都不相關(guān)的g1,g2,…,gp的所有線性組合中方差最大者.則lij的計算為:
新變量指標z1,z2,…,zm分別稱為原變量指標g1,g2,…,gp的第1,第2,…,第m主成分.一般取累計貢獻率達80%以上的特征值為λ1,λ2,…,λm所對應(yīng)的第1、第2、…、第m(m≤p)個主成分.
3.1實驗流程
實驗數(shù)據(jù)為白血病、結(jié)腸癌和前列腺癌三組典型基因表達譜數(shù)據(jù)集,其中白血病數(shù)據(jù)包含52個樣本——急性淋巴性白血?。ˋLL):24和急性粒性白血?。ˋML):28,每個樣本含基因12564個;而結(jié)腸癌數(shù)據(jù)的正常樣本數(shù)和癌癥樣本數(shù)分別為22個和40個,含2000個基因;前列腺癌數(shù)據(jù)共102個樣本,其中有50個正常樣本和52個癌癥樣本,含12600個基因(URL:http://www.broad.mit.edu/cgibin/caner/datasets.cgi).由于基因表達譜數(shù)據(jù)普遍為小樣本數(shù)據(jù),故本文基于留一法進行實驗,即循環(huán)抽取所有樣本的每一個作為測試樣本,剩下樣本作為訓(xùn)練樣本進行實驗.
綜上所述,實驗具體步驟如下:
1)利用ACSP(經(jīng)多次試驗,選取T=0.8),獲取更加客觀的基因表達水平;
2)在第1步的基礎(chǔ)上,運用RFSC對所有基因進行重要性記分并按降序排列;
3)通過RFSC記分準則選取特征基因子集,基于PCA降維,對該子集進行主成分提取;
4)最后在三組公開的數(shù)據(jù)集上,利用SVM分類器對其進行了腫瘤類型與分析.
3.2實驗結(jié)果與分析
首先以結(jié)腸癌為例進行了實驗分析,通過ACSP使得結(jié)腸癌數(shù)據(jù)集中的正常樣本類和癌癥樣本類中客觀的基因表達值得到保留.圖中顯示了通過ACSP方法后利用RFSC算法獲取最高分值的基因在所有樣本中的表達水平(No.1168,即基因表達譜數(shù)據(jù)中列號,行表示樣本,列表示基因),與之對比的沒有經(jīng)過ACSP處理的.
ACSP+RFSC獲取的最高分基因(a)與RFSC選取的基因(b)
通過ACSP+RFSC算法獲取的最高分基因No.1168,除了正常樣本類和結(jié)腸癌樣本類中幾個異常表達之外,基本能夠體現(xiàn)該基因在不同類中具有不同的表達值,且類間表達水平間距較大;而僅用RFSC獲取的最高基因No.1439,其表達水平圍繞歸一化后的0值波動,類間表達值接近,表明該基因區(qū)別不同類的能力較差.因此本文方法能夠更加客觀地、有效地獲取具有分類能力的基因.
本文提出了結(jié)合點的代數(shù)連通強度和PCA的基因腫瘤識別方法,通過三組具有代表性數(shù)據(jù)集的實驗本文方法能夠有效識別不同腫瘤類型.由于PCA對噪聲數(shù)據(jù)敏感,而ACSP方法能夠獲取更加客觀的表達值并對噪聲進行抑制,從而使得PCA降維更加有效,所以本文方法在識別過程中能夠得到較高的識別率.
PCA降維屬于線性降維,然而基因表達譜數(shù)據(jù)的高維性使之具有非線性特征,因此基于非線性降維與ACSP方法的結(jié)合也將值得進一步研究.
〔1〕楊春梅,萬柏坤,梁慧嬡,等.DNA微陣列技術(shù)及其在生物醫(yī)學(xué)中的應(yīng)用[J].國外醫(yī)學(xué).生物醫(yī)學(xué)工程分冊,2002,25(5):203-206.
〔2〕王晶,周曠.基于支持向量機的腫瘤基因識別[J].計算機與數(shù)字工程,2011,9(39):3-6.
〔3〕Singh D,F(xiàn)ebbo P G,Ross K,et al.Gene expression correlates of clinical prostate cancer behavior[J].Cancer Cell,2002,1(2):203-209.
〔4〕孔薇,王娟,牟曉陽.基于改進稀疏非負矩陣分解方法的乳腺癌微陣列表達數(shù)據(jù)分析[J].安徽醫(yī)科大學(xué)學(xué)報,2013,48(7):725-729.
〔5〕阮曉鋼,晁浩.腫瘤識別過程中特征基因的選?。跩].控制工程,2007,14(4):373-380.
〔6〕莊振華,王年,李學(xué)俊,等.癌癥基因表達數(shù)據(jù)的熵度量分類方法 [J].安徽大學(xué)學(xué)報,2010,34(2):73-76.
〔7〕陳戰(zhàn)雷,李博宇,李益,等.結(jié)合主成分與獨立成分分析識別胃癌相關(guān)差異表達基因的方法研究[J].生物醫(yī)學(xué)工程學(xué)雜志,2013,30(5):915-918.
〔8〕陳樂,王年,蘇亮亮,等.基于鄰接譜主分量分析的腫瘤分類方法[J].安徽大學(xué)學(xué)報(自然科學(xué)版),2011,35(4):86-91.
〔9〕Wang N,Su L L,Tang J,et al.Informative gene selection using the Algebraic Connectivity Strength of Point and Scoring Criteria[J].Chinese Science Bulletin,2013,58(6):657-661.
〔10〕李穎新,阮曉鋼,基于支持向量機的腫瘤分類特征基因選?。跩].計算機研究與發(fā)展,2005,42(10):1796-1801.
TP18
A
1673-260X(2015)11-0032-03
安徽省高校優(yōu)秀青年人才基金重點項目(2013SQRL121ZD)