葉明全 高凌云 伍長榮 黃道斌 胡學(xué)鋼
(1.皖南醫(yī)學(xué)院醫(yī)學(xué)信息學(xué)院,蕪湖,241002; 2.皖南醫(yī)學(xué)院健康大數(shù)據(jù)挖掘與應(yīng)用研究中心,蕪湖,241002;3.安徽師范大學(xué)計(jì)算機(jī)與信息學(xué)院,蕪湖,241002; 4.合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院,合肥,230009)
腫瘤是目前威脅人類生命的主要疾病之一。從分子生物學(xué)的角度來看,腫瘤是由于某些染色體上DNA損傷而引起細(xì)胞內(nèi)基因表達(dá)異常,導(dǎo)致細(xì)胞生長失控、畸形分化和異常增生的一類復(fù)雜基因疾病。腫瘤基因表達(dá)譜是指利用基因芯片(即DNA芯片)測定基因在腫瘤組織或正常組織等不同樣本中表達(dá)水平。研究表明,基因表達(dá)譜中與腫瘤疾病密切相關(guān)的關(guān)鍵基因(又稱為特征基因或信息基因)數(shù)量非常少。研究基因表達(dá)譜、選取信息基因是從信息學(xué)角度出發(fā)尋找腫瘤分型與分類的基因標(biāo)記物以及藥物治療潛在靶點(diǎn)的重要手段,同時(shí)也是有效構(gòu)建腫瘤分類模型的關(guān)鍵[1-4]。
隨著DNA微陣列技術(shù)的快速發(fā)展,人們獲得大量的基因表達(dá)譜,從而為研究腫瘤的發(fā)病機(jī)制和臨床診斷提供了重要依據(jù)。然而,基因表達(dá)譜存在高維小樣本、噪聲大且冗余基因多等顯著特點(diǎn),這給基于基因表達(dá)譜的腫瘤分類問題研究帶來巨大挑戰(zhàn)。Guyon等[5]指出:通過DNA微陣列技術(shù)獲取的基因表達(dá)譜中含有大量與特定疾病冗余或不相關(guān)的基因。冗余或無關(guān)基因的存在,將導(dǎo)致建立腫瘤分類模型費(fèi)時(shí)費(fèi)力,不可避免陷入過度擬合現(xiàn)象和維數(shù)災(zāi)難問題[3]。因此,信息基因的選取問題是基于基因表達(dá)譜的腫瘤分類的研究核心和極具挑戰(zhàn)性的內(nèi)容,也是生物醫(yī)學(xué)信息學(xué)的研究熱點(diǎn)之一[1-10]。
從信息學(xué)角度考慮,每個(gè)基因代表樣本的一個(gè)特征,如何衡量樣本中每個(gè)特征所包含的分類信息,準(zhǔn)確評估每個(gè)特征對樣本分類貢獻(xiàn)度的大小,這是有效選取信息基因的關(guān)鍵[9]。通常,一個(gè)特征集中包含4種特征:無關(guān)特征、冗余特征、弱關(guān)聯(lián)非冗余特征和強(qiáng)關(guān)聯(lián)特征[11]。而最佳特征子集僅僅包含兩種特征,即弱關(guān)聯(lián)非冗余特征和強(qiáng)關(guān)聯(lián)特征。信息基因選擇(即特征選擇)是指從基因表達(dá)譜的所有基因中選取一個(gè)最佳基因子集,即通過剔除無關(guān)基因和冗余基因,選擇與分類目標(biāo)存在高度相關(guān)性的信息基因子集,從而建立更精確、更易理解的分類模型。通常,特征選擇方法可分為3大類[3-8]:過濾法、封裝法和嵌入法,其中過濾方法簡單、速度快且與分類器無關(guān),并在高維小樣本數(shù)據(jù)上得到更為廣泛的應(yīng)用。過濾方法以特征相關(guān)性測度為基礎(chǔ)評價(jià)特征或特征集的相關(guān)性[12]。特征相關(guān)性測度可分為特征-類別相關(guān)性(又稱C-相關(guān)性)測度和特征-特征相關(guān)性(又稱F-相關(guān)性)測度[11]。其中,C-相關(guān)性測度通過特征對樣本類別的區(qū)分能力來評價(jià)特征的重要性,如T-檢驗(yàn)[13]、F-檢驗(yàn)[14]、Fisher判別[15]、信息增益[4]、受試者工作特征(Receiver operating characteristic, RoC)曲線[16]和信噪比(Signal noise ratio,SNR)[5]等;F-相關(guān)性測度通常是基于信息論或特征自身的統(tǒng)計(jì)特性來評價(jià)兩個(gè)特征的相關(guān)程度,如互信息[15]、皮爾森相關(guān)系數(shù)(Pearson correlation coefficient,PCC)[5,8]和對稱不確定性(Symmetric uncertainty,SU)[11, 17, 18]等,并且這些測度也可用于評價(jià)特征與類別的C-相關(guān)性。
SU是一種利用信息熵描述的非線性相關(guān)測度,用于評估兩個(gè)非線性隨機(jī)變量之間的相關(guān)程度。Yu等[11]提出一種基于特征相關(guān)性的快速過濾(Fast correlation-based filter,F(xiàn)CBF)特征選擇算法。FCBF算法是根據(jù)SU所定義的C-相關(guān)和F-相關(guān)指標(biāo)來剔除不相關(guān)和冗余特征。該算法首先采用SU評估每個(gè)特征的C-相關(guān)性并選擇前TopK個(gè)相關(guān)特征,然后根據(jù)利用SU定義的近似Markov blanket剔除其中的冗余特征。SU相關(guān)性測度的特點(diǎn)為假設(shè)所考察特征與其他特征相互獨(dú)立,SU值只能反映單個(gè)特征與類別或兩個(gè)特征之間的相關(guān)性,忽略其他特征對它們的影響。因此,利用SU評估可以從成千上萬個(gè)基因中選出較少基因作為侯選基因子集,以大幅降低信息基因的搜索空間,但是卻不能完全剔除基因集中冗余基因[9]。
粗糙集理論自Pawlak教授于1982年提出以來,得到了廣泛的研究和發(fā)展[19-22]。然而,Pawlak粗糙集定義在等價(jià)關(guān)系基礎(chǔ)上,只適合處理離散型數(shù)據(jù)。鄰域粗糙集(Neighborhood rough set,NRS)[23]是對Pawlak粗糙集的改進(jìn),可以直接處理連續(xù)型數(shù)據(jù),避免離散化所帶來的信息損失,可以有效地剔除特征集中無關(guān)和冗余特征,使得所選取的特征子集能夠最大限度地保持原始特征集的分類能力。近年來,鄰域粗糙集在生物醫(yī)學(xué)信息學(xué)領(lǐng)域受到越來越多的關(guān)注和研究,并在腫瘤信息基因選擇方面已經(jīng)取得一些研究成果[4,24]。為了獲得基因數(shù)量盡可能少而分類能力盡可能強(qiáng)的一組信息基因,本文針對腫瘤基因表達(dá)譜自身的特點(diǎn),提出一種基于SU和NRS的信息基因選擇方法SUNRS。
SU是一種基于信息熵定義的非線性相關(guān)信息度量[11],可用來揭示兩個(gè)非線性隨機(jī)變量之間的相關(guān)程度。 隨機(jī)變量X的信息熵H(X)定義為
(1)
式中:P(xi)表示變量X=xi的概率。
在觀測到隨機(jī)變量Y后,隨機(jī)變量X的信息熵,即條件熵H(X|Y)定義為
(2)
式中:P(yj)表示隨機(jī)變量Y=yj的概率;P(xi|yj)表示在隨機(jī)變量Y=yj條件下隨機(jī)變量X=xi的概率,稱為后驗(yàn)概率。
在觀測到隨機(jī)變量Y后,隨機(jī)變量X的信息熵減少的信息量,即信息增益IG(X|Y)定義為
IG(X|Y)=H(X)-H(X|Y)
(3)
由式(3)可知,如果變量X和Y不相關(guān),則信息增益IG(X|Y)=0,否則IG(X|Y)>0,IG(X|Y)越大,變量X和Y相關(guān)性越強(qiáng);如果IG(X|Y)>IG(Z|Y),則變量Y和X之間相關(guān)性大于變量Y和Z之間相關(guān)性。因此,可以用IG(X|Y)來定量評價(jià)兩個(gè)變量之間的相關(guān)性。但是,IG(X|Y)結(jié)果受到變量單位和變量值的影響,因此需要進(jìn)一步同質(zhì)化[11]。
對稱不確定性SU(X,Y)是一種規(guī)范化的信息增益,SU(X,Y)定義為
(4)
由式(4)可知,對稱不確定性SU(X,Y)滿足:0≤SU(X,Y)≤1,當(dāng)SU(X,Y)=0時(shí),表示兩個(gè)隨機(jī)變量X和Y是相互獨(dú)立的;當(dāng)SU(X,Y)=1時(shí),表示兩個(gè)隨機(jī)變量X和Y是完全相關(guān)的。利用SU作為相關(guān)性度量,特征選擇過程可以通過考慮C-相關(guān)(特征與類別的相互關(guān)系)和F-相關(guān)(特征之間的相互關(guān)系)來完成。
文獻(xiàn)[11]提出一種利用SU指標(biāo)剔除不相關(guān)和冗余特征的FCBF算法。該算法的基本思想是根據(jù)SU所定義的C-相關(guān)和F-相關(guān),從原始特征集中剔除C-相關(guān)值小于給定閾值的特征,然后再對剩余的特征進(jìn)行冗余分析。也就是說,如果特征與類別之間的C-相關(guān)性較低,則該特征將作為不相關(guān)特征消除;如果兩個(gè)特征之間的F-相關(guān)性較強(qiáng),并且超過它們與類別之間的C-相關(guān)性,則認(rèn)為這兩個(gè)特征相互冗余,將其中與類別相關(guān)性較差的特征作為冗余特征消除。
為了解決Pawlak粗糙集不能直接處理連續(xù)型數(shù)據(jù)的問題,胡清華等[23]在Pawlak粗糙集理論和鄰域關(guān)系的基礎(chǔ)上,提出了鄰域粗糙集模型,該模型可以直接處理連續(xù)型數(shù)據(jù),避免離散化所帶來的信息損失。給定分類學(xué)習(xí)任務(wù)〈U,C∪D〉,U={x1,x2, …,xn}是所有對象構(gòu)成的樣本集,C={a1,a2, …,am}是描述樣本特征的條件屬性集,D={d1,d2, …,dp}是描述樣本類別的決策屬性集。下面給出鄰域粗糙集模型的相關(guān)概念和性質(zhì)。
給定實(shí)數(shù)空間上的非空有限集合U={x1,x2, …,xn},δ≥0,則對于任意樣本xi∈U,B?C,xi在屬性空間B上的δ鄰域δB(xi) 定義為
δB(xi)={xj|xj∈U,ΔB(xi,xj)≤δ}
(5)
式中:ΔB(xi,xj)是U上的距離函數(shù),滿足ΔB(xi,xj)≥0。
在實(shí)際應(yīng)用中,常見的距離度量是歐氏距離計(jì)算函數(shù)
(6)
式中ak∈B,f(x,ak)為樣本x在屬性ak上的取值。
論域中所有樣本的δ鄰域形成了論域的粒化,鄰域粒子簇導(dǎo)出的鄰域關(guān)系構(gòu)成了論域空間中的鄰域決策系統(tǒng)。給定分類學(xué)習(xí)任務(wù)〈U,C∪D〉,設(shè)N是由C產(chǎn)生的一簇鄰域關(guān)系,稱〈U,C∪D,N〉為鄰域決策系統(tǒng)[4, 23]。
給定鄰域決策系統(tǒng)〈U,C∪D,N〉,設(shè)決策屬性集D將論域U劃分為n個(gè)等價(jià)類:U1,U2, …,Un,NB為條件屬性子集B?C生成U上的鄰域關(guān)系,則D關(guān)于B的δ-鄰域下近似、δ-鄰域上近似和δ-鄰域邊界分別定義為
(7)
(8)
(9)
鄰域粗糙集中δ-鄰域下近似、δ-鄰域上近似和δ-鄰域邊界的大小不僅與分類問題的樣本特征空間有關(guān),而且與分析的信息粒度(即鄰域δ取值)有關(guān)。鄰域δ取值的大小反映了在不同粗細(xì)粒度下區(qū)分對象,決定了分類邊界區(qū)訓(xùn)練樣本數(shù),因此鄰域δ是影響鄰域粗糙集模型性能的關(guān)鍵因素。通常,鄰域δ取值與研究對象有關(guān),可通過實(shí)驗(yàn)進(jìn)行觀察得到。
給定鄰域決策系統(tǒng)〈U,C∪D,N〉,決策屬性集D對條件屬性子集B?C的依賴度定義為
(10)
給定鄰域決策系統(tǒng)〈U,C∪D,N〉,若B?C滿足:(1)γB(D)=γC(D);(2)對于任意a∈B存在γB-a(D)<γB(D),則稱B是C的一個(gè)相對約簡。
給定鄰域決策系統(tǒng)〈U,C∪D,N〉,B?C,a∈C-B,則條件屬性a關(guān)于條件屬性子集B的重要度定義為
SIG(a,D,B)=γB∪a(D)-γB(D)
(11)
基于基因表達(dá)譜的腫瘤自動(dòng)檢測與分類的一個(gè)關(guān)鍵目標(biāo)就是利用盡可能少的信息基因以獲取盡可能高的腫瘤分類精度[24-28]。事實(shí)上,僅利用一種信息基因選擇方法很難獲取滿足這一目標(biāo)的信息基因子集。通常,信息基因子集選取可分為兩個(gè)階段[2]:首先利用過濾方法從高維基因數(shù)據(jù)中獲取一定數(shù)目的基因作為侯選基因子集,從而大幅縮小信息基因的搜索空間;然后再進(jìn)一步利用Wrapper方法優(yōu)選出滿足目標(biāo)的信息基因子集。通過基因排序法選取侯選基因子集是比較常用的一種方法,即依據(jù)某種特征相關(guān)性測度對所有基因按其C-相關(guān)度由高到低進(jìn)行排序,最后選擇TopK個(gè)基因作為侯選基因(K通常取50~200)[2]。
通常基因排序法獲取的侯選基因是強(qiáng)關(guān)聯(lián)基因,但極有可能選取與之強(qiáng)關(guān)聯(lián)的其他基因作為信息基因,從而產(chǎn)生一些冗余基因。過多的冗余基因容易導(dǎo)致基因子集規(guī)模較大而分類精度下降等問題。為了有效消除冗余基因,一些研究者首先使用基因排序方法獲取候選基因子集,然后結(jié)合Wrapper方法消除冗余,在一定程度上解決了冗余基因帶來的缺陷[2,8,24]。但是,如果直接采用某種機(jī)器學(xué)習(xí)算法來評估候選基因子集,致使基因選擇與學(xué)習(xí)模型之間相互依賴,容易導(dǎo)致模型過擬合、泛化性能差以及計(jì)算開銷高等一系列問題[2,8]。因此,設(shè)計(jì)魯棒高效的信息基因選擇方法已成為基于基因表達(dá)譜的腫瘤自動(dòng)檢測與分類領(lǐng)域中的研究重點(diǎn)。
圖1 信息基因選擇SUNRS方法Fig.1 SUNRS for informative gene selection
針對腫瘤基因表達(dá)譜的信息基因選擇,本文提出基于SU和NRS的信息基因(即特征)選擇方法SUNRS,能夠有效過濾無關(guān)基因并剔消除冗余基因。圖1給出信息基因選擇方法SUNRS的系統(tǒng)框架。SUNRS信息基因選擇方法分為兩層:第1層采用FCBF算法,利用SU指標(biāo)評估來剔除不相關(guān)和冗余基因,得到侯選信息基因集;第2層利用鄰域粗糙集模型對侯選信息基因子集進(jìn)行基因約簡,進(jìn)一步消除冗余基因,獲取較優(yōu)的目標(biāo)信息基因集。
假設(shè)基因表達(dá)譜數(shù)據(jù)集(X,Y) 包含n個(gè)樣本,m個(gè)基因,SUNRS基因選擇方法的具體步驟如下:
Step 1:利用SU指標(biāo)評估信息基因,過濾不相關(guān)和冗余基因,從m個(gè)基因中獲取m′個(gè)基因,構(gòu)成侯選信息基因集;
Step 2:利用鄰域粗糙集對m′個(gè)信息基因進(jìn)行基因約簡,剔除冗余基因,得到m″個(gè)信息基因,構(gòu)成較優(yōu)的目標(biāo)信息基因集;
Step 3:根據(jù)目標(biāo)信息基因集,構(gòu)建分類模型并評價(jià)。
基于對稱不確定性和鄰域粗糙集的信息基因選擇算法SUNRS描述如下。
輸入:基因表達(dá)譜樣本集U={x1,x2, …,xm},樣本基因集G={f1,f2, …,fn},樣本類別D={Class},C-相關(guān)性閾值β,基因鄰域參數(shù)δ及重要度下限參數(shù)λ。
輸出:約簡后的目標(biāo)基因集Gred
(1)Glist=?;//初始化侯選基因集
(2) Fori=1 tondo
(3) 計(jì)算基因fi與類別Class的C-相關(guān)SU(fi,c);
(4) 如果SU(fi,c)>β,則Glist=Glist∪{fi};
(5) End
(6) 按照SU(fi,c)值對Glist中基因進(jìn)行降序排序;
(7) Fori=1 to |Glist| do
(8) 從Glist中取出第i個(gè)基因fi;
(9) Forj=i+1 to |Glist| do
(10) 從Glist中取出第j個(gè)基因fj;
(11) 如果SU(fi,fj)>SU(fj,c),則Glist=Glist-{fi};
(12) End
(13) End
(14)Gred=?;//初始化目標(biāo)基因集
(15) Fori=1 to |Glist-Gred| do
(16) 計(jì)算γGred∪{fi}(D)=|POSGred∪{fi}(D)|/|U|;
(17) 計(jì)算SIG(fi,D,Gred)=γGred∪{fi}(D)-γGred(D);
(18) End
(20) 若SIG(fk,D,Gred)≤λ,則Gred=Gred∪{fk},U=U-POSGred∪{fk}(D),返回(15);否則,輸出較優(yōu)的目標(biāo)基因集Gred,結(jié)束。
在SUNRS算法中,步驟(2~6)根據(jù)SU計(jì)算每個(gè)基因的C-相關(guān)值并根據(jù)閾值β選擇相關(guān)特征,然后按C-相關(guān)值大小排序,獲得初步侯選基因集Glist;步驟(7)~(13)根據(jù)以SU定義的近似Markov blanket剔除Glist中的冗余基因,得到侯選基因集Glist,其中根據(jù)SU定義的近似Markov blanket:基因fi是基因fj的近似Markov blanket,則SU(fi,c)≥SU(fj,c)且SU(fi,fj)>SU(fj,c);步驟(14~20)根據(jù)鄰域粗糙集的屬性約簡方法,剔除Glist中的噪聲冗余基因,得到較優(yōu)的目標(biāo)基因集Gred。
SU指標(biāo)假設(shè)所考察基因與其他基因相互獨(dú)立,SU值只能反映單個(gè)基因與類別或兩個(gè)基因之間的相關(guān)性,忽略其他基因?qū)λ鼈兊挠绊?。因此,利用FCBF算法不能完全消除侯選基因集中冗余基因。SUNRS方法利用鄰域粗糙集約簡算法進(jìn)一步剔除侯選基因集上冗余基因,可獲得基因數(shù)目更少的目標(biāo)信息基因集,同時(shí)能夠最大限度地保持與原侯選基因集具有相同的分類信息。
為了驗(yàn)證本文所提信息基因選擇算法SUNRS的有效性,在5個(gè)公開基因表達(dá)譜,即結(jié)腸癌(Colon)、前列腺癌(Prostate)、淋巴癌(Lymphoma)、白血病(Leukemia)和肺癌(Lung)上進(jìn)行系列仿真實(shí)驗(yàn)。上述基因表達(dá)譜可從http://datam.i2r.a-star.edu.sg/datasets/krbd/免費(fèi)下載,其詳細(xì)描述如表1所示。
表1 基因表達(dá)譜實(shí)驗(yàn)數(shù)據(jù)集描述
本文實(shí)驗(yàn)中所采用的PC機(jī)配置為Intel奔騰雙核處理器G645,主頻2.90 GHz,內(nèi)存2 GB和Windows XP操作系統(tǒng)。所有實(shí)驗(yàn)均在Weka 3.7.13+Matlab 2012a中實(shí)現(xiàn)和完成,利用Weka軟件工具在各個(gè)基因選擇方法選取的目標(biāo)基因集上構(gòu)建4種分類模型:即決策樹C4.5、隨機(jī)森林、支持向量機(jī)(Support vector machine, SVM)和K-近鄰(K-nearest neighbor, KNN),并且各個(gè)分類模型的泛化性能均采用留一交叉驗(yàn)證(Leave-one-out cross validation, LOOCV)方法進(jìn)行評價(jià)[3]。
數(shù)據(jù)預(yù)處理是信息基因選擇的首要步驟。為了消除不同量綱對實(shí)驗(yàn)結(jié)果的影響,實(shí)驗(yàn)過程中,對基因表達(dá)譜進(jìn)行標(biāo)準(zhǔn)化預(yù)處理(均值為0,方差為1),并對各個(gè)分類模型的主要參數(shù)進(jìn)行設(shè)置,其中決策樹C4.5算法中修剪置信因子設(shè)為0.25,隨機(jī)森林中生成樹個(gè)數(shù)(numTrees)設(shè)為10,SVM中核函數(shù)設(shè)為多項(xiàng)式核函數(shù),KNN中鄰居數(shù)目K設(shè)為10[3]。
本文實(shí)驗(yàn)步驟可分為兩步:(1)采用FCBF算法,按照對稱不確定性SU評估,剔除無關(guān)及冗余基因,獲取候選信息基因集;(2)在信息基因的候選集基礎(chǔ)上,采用鄰域粗糙集屬性約簡方法[4]進(jìn)一步消除冗余基因,以獲得較優(yōu)的目標(biāo)信息基因集。
首先,對以上Colon,Prostate,Lymphoma,Leukemia和Lung等5個(gè)基因表達(dá)譜樣本集通過對稱不確定性SU定義的C-相關(guān)剔除無關(guān)基因和F-相關(guān)去除冗余基因,最終獲得候選的信息基因集數(shù)目分別為14,77,73,51和128。然后,利用鄰域粗糙集的屬性約簡方法進(jìn)一步剔除候選信息基因集中的冗余基因。實(shí)驗(yàn)過程中,對基因鄰域參數(shù)δ及重要度下限參數(shù)λ的設(shè)置進(jìn)行對比和優(yōu)化[4]。經(jīng)過一系列實(shí)驗(yàn)對比,本文實(shí)驗(yàn)中Colon,Prostate,Lymphoma,Leukemia和Lung等5個(gè)基因表達(dá)譜的基因鄰域參數(shù)δ取值分別為0.26,0.75,1.1,0.9和1.1;參數(shù)λ取值越小越好,本文實(shí)驗(yàn)中基因重要度下限參數(shù)λ取值均為0.000 1。
為了驗(yàn)證本文算法SUNRS選擇的目標(biāo)信息基因集在分類性能上優(yōu)于其他方法,實(shí)驗(yàn)中采用決策樹C4.5算法、隨機(jī)森林Random forest、支持向量機(jī)SVM以及K-最近鄰KNN等4種分類器來評估幾個(gè)基因選擇算法所選擇基因的分類性能(本文選取4種分類器的最高分類精度作為最終的分類性能),并利用LOOCV來評估分類器的泛化性能。
表2顯示在每個(gè)原始基因表達(dá)譜樣本集上和不同信息基因選擇算法新獲得的每個(gè)基因表達(dá)譜樣本集上的實(shí)驗(yàn)結(jié)果。在表2中,ODP[3]表示為原始數(shù)據(jù)處理(Original data processing,ODP)方法,即在原始基因表達(dá)譜樣本集上分類建模;SNR表示為只采用信噪比指標(biāo)(Signal noise ratio,SNR)基因排序法[5],選擇Top 100個(gè)基因;SNR+Lasso表示為先用SNR方法選擇Top 100個(gè)基因,再進(jìn)一步采用Lasso方法[24]剔除冗余基因;SNR+ILasso表示為先用SNR方法選擇Top 100個(gè)基因,再進(jìn)一步采用迭代Lasso(Iterative Lasso,ILasso)方法剔除冗余基因[3];FCBF表示為只采用對稱不確定性SU指標(biāo)剔除不相關(guān)和冗余基因的FCBF方法[11];SUNRS表示為本文算法即采用基于對稱不確定性SU與鄰域粗糙集的信息基因選擇方法。此外,為便于觀察和分析實(shí)驗(yàn)結(jié)果,表2中的粗體值表示:在不同基因選擇方法選取的目標(biāo)基因集中,該方法選取的目標(biāo)基因集最優(yōu),即其最優(yōu)分類性能最高或基因數(shù)目最少。
表2 實(shí)驗(yàn)對比不同基因選擇算法在5個(gè)基因表達(dá)譜上的最優(yōu)分類性能(%)和基因數(shù)目
以下從分類精度和信息基因數(shù)量兩個(gè)方面進(jìn)行分析。由表2可知,采用ODP方法直接在原始基因集上分類建模,可以獲得較高的分類精度,但是信息基因數(shù)量規(guī)模過于龐大;SNR方法[5]獲取Top 100個(gè)基因,分類性能相對較好,但仍存在一些冗余基因;SNR+Lasso方法[3]可有效地消除無關(guān)基因,但極有可能將相關(guān)性較強(qiáng)且互為冗余的基因誤認(rèn)為是信息基因,從而導(dǎo)致選取的信息基因數(shù)仍然過多且分類精度一般;SNR+ILasso方法[3]可獲取較少的信息基因集,同時(shí)分類性能相對較好;FCBF方法[11]利用SU所定義的F-相關(guān)和C-相關(guān)指標(biāo)刪除大量無關(guān)、冗余基因,獲取較少的信息基因集和較高的分類性能,但選取的基因集中仍包含一定數(shù)量的冗余基因,分類性能有待提高;SUNRS方法采用SU所定義的F-相關(guān)和C-相關(guān)指標(biāo)刪除大量無關(guān)、冗余基因,然后利用鄰域粗糙集再一步約簡冗余基因,獲得的目標(biāo)信息基因集不僅基因數(shù)目最少,而且具有更好的分類泛化性能。
綜合實(shí)驗(yàn)結(jié)果分析可知,本文所提的SUNRS方法能夠選擇數(shù)量最少的信息基因,并且在分類性能上均不低于其他5種信息基因選擇方法,進(jìn)一步驗(yàn)證了SUNRS方法能夠剔除無關(guān)基因和冗余基因,選取信息含量較高的強(qiáng)關(guān)聯(lián)基因和弱關(guān)聯(lián)非冗余基因,從而避免基因表達(dá)譜具有高維小樣本等特點(diǎn)而產(chǎn)生的過度擬合現(xiàn)象以及維數(shù)災(zāi)難問題[2,3,8,9],提高了模型的分類精度和泛化能力。
隨著DNA微陣列技術(shù)的發(fā)展,采用基因表達(dá)譜對腫瘤樣本進(jìn)行檢測與分類已經(jīng)成為生物醫(yī)學(xué)信息學(xué)的一個(gè)重要研究領(lǐng)域[27, 28]。但是,由于目前的基因表達(dá)譜具有高維小樣本、高噪聲和高冗余等特點(diǎn),促使腫瘤分類檢測問題成為生物醫(yī)學(xué)信息學(xué)領(lǐng)域研究的一個(gè)挑戰(zhàn)性工作。針對腫瘤基因表達(dá)譜,如何選擇數(shù)目盡可能少且分類能力盡可能強(qiáng)的信息基因是提高腫瘤分類性能的關(guān)鍵任務(wù)一個(gè)。本文以腫瘤基因表達(dá)譜為研究對象,提出了一種新穎的腫瘤分類信息基因選擇SUNRS方法,即基于SU和NRS的信息基因選擇方法。實(shí)驗(yàn)結(jié)果表明,本文提出的信息基因選擇方法SUNRS能夠選取基因數(shù)量少且分類能力較強(qiáng)的目標(biāo)信息基因集,解決了具有高維小樣本特點(diǎn)且普遍存在大量冗余、噪聲基因的腫瘤基因表達(dá)譜分類問題,進(jìn)一步提高了腫瘤分類模型的分類準(zhǔn)確度和泛化能力。另外,在實(shí)際應(yīng)用中SUNRS方法還存在若干問題有待解決,如FCBF算法中C-特征相關(guān)性閾值β、鄰域粗糙集的鄰域參數(shù)δ及重要度下限參數(shù)λ在信息基因選擇過程中自動(dòng)尋優(yōu)確定等問題,都有待進(jìn)一步研究。
參考文獻(xiàn):
[1] Mohamad M S, Omatu S, Deris S, et al. A modified binary particle swarm optimization for selecting the small subset of informative genes from gene expression data[J]. IEEE Transactions on Information Technology in Biomedicine, 2011,15(6):813-822.
[2] 王樹林,王戟,陳火旺,等.腫瘤信息基因啟發(fā)式寬度優(yōu)先搜索算法研究[J].計(jì)算機(jī)學(xué)報(bào),2008,31(4):636-649.
Wang Shulin, Wang Ji, Chen Huowang, et al. Heuristic breadth first search algorithm for informative gene selection based on gene expression profiles[J]. Journal of Computers, 2008,31(4):636-649.
[3] 張靖,胡學(xué)鋼,李培培,等.基于迭代Lasso的腫瘤分類信息基因選擇方法研究[J].模式識別與人工智能,2014,27(1):49-58.
Zhang Jing, Hu Xuegang, Li Peipei, et al. Informative gene selection for tumor classification based on iterative Lasso[J]. Pattern Recognition and Artificial Intelligence, 2014,27(1):49-58.
[4] 徐久成,李濤,孫林,等.基于信噪比與鄰域粗糙集的特征基因選擇方法[J].數(shù)據(jù)采集與處理,2015,30(5):973-981.
Xu Jiucheng, Li Tao, Sun Lin, et al. Feature gene selection based on SNR and neighborhood rough set[J]. Journal of Data Acquisition and Processing, 2015,30(5):973-981.
[5] Golub T R, Slonim D K, Tamayo P, et al. Molecular classification of cancer: Class discovery and class prediction by gene expression monitoring[J]. Science, 1999,286(10):531-537.
[6] Kar S, Sharma K D, Maitra M. Gene selection from microarray gene expression data for classification of cancer subgroups employing PSO and adaptive K-nearest neighborhood technique[J]. Expert Systems with Applications, 2015,42(1):612-627.
[7] Chen K H, Wang K J, Tsai M L, et al. Gene selection for cancer identification: A decision tree model empowered by particle swarm optimization algorithm[J]. BMC Bioinformatics, 2014,15(1):49.
[8] 謝娟英,高紅超.基于統(tǒng)計(jì)相關(guān)性與K-means的區(qū)分基因子集選擇算法[J].軟件學(xué)報(bào),2014,25(9):2050-2075.
Xie Juanying, Gao Hongchao. Statistical correlation and K-means based distinguishable gene subset selection algorithms[J]. Journal of Software, 2014,25(9):2050-2075.
[9] 葉明全,高凌云,伍長榮,等.基于對稱不確定性和SVM遞歸特征消除的信息基因選擇方法[J].模式識別與人工智能,2017,30(5):429-438.
Ye Mingquan, Gao Lingyun, Wu Changrong, et al. Informative gene selection method based on symmetric uncertainty and SVM recursive feature elimination[J]. Pattern Recognition and Artificial Intelligence, 2017,30(5):429-438.
[10] 劉金勇,鄭恩輝,陸慧娟.基于聚類和微粒群優(yōu)化的基因選擇方法[J].數(shù)據(jù)采集與處理,2014,29(1):83-89.
Liu Jinyong, Zheng Enhui, Lu Huijuan. Gene selection based on clustering method and particle swarm optimization[J]. Journal of Data Acquisition and Processing, 2014,29(1):83-89.
[11] Yu L, Liu H. Efficient feature selection via analysis of relevance and redundancy [J]. Journal of Machine Learning Research, 2004,5(4):1205-1224.
[12] 錢宇華,成紅紅,梁新彥,等.大數(shù)據(jù)關(guān)聯(lián)關(guān)系度量研究綜述[J].數(shù)據(jù)采集與處理, 2015,30(6):1147-1159.
Qian Yuhua, Chen Honghong, Liang Xinyan, et al. Review for variable association measures in big data[J]. Journal of Data Acquisition and Processing, 2015,30(6):1147-1159.
[13] Jeffery I B, Higgins D G, Culhane A C. Comparison and evaluation of methods for generating differentially expressed gene lists from microarray data[J]. BMC Bioinformatics, 2006,7(10):359.
[14] Ding C, Peng H. Minimum redundancy feature selection from microarray gene expression data[J]. Journal of Bioinformatics and Computational Biology, 2003,3(2):185-205.
[15] Cai Ruichu, Hao Zhifeng, Yang Xiaowei, et al. A new hybrid method for gene selection[J]. Pattern Analysis & Applications, 2011,14(1):1-8.
[16] Mamitsuka H. Selecting features in microarray classification using ROC curves[J]. Pattern Recognition, 2006,39(12):2393-2404.
[17] Kannan S, Ramaraj N. A novel hybrid feature selection via symmetrical uncertainty ranking based local memetic search algorithm[J]. Knowledge-Based Systems, 2010,23(6):580-585.
[18] Jiang S Y, Wang L X. Efficient feature selection based on correlation measure between continuous and discrete features[J]. Information Processing Letters, 2016,116:203-215.
[19] Pradipta Maji, Sushmita Paul. Rough set based maximum relevance maximum significance criterion and gene selection from microarray data[J]. International Journal of Approximate Reasoning, 2011,52(8):408-426.
[20] Ye Mingquan, Wu Xindong, Hu Xuegang, et al. Anonymizing classification data using rough set theory[J]. Knowledge-Based Systems, 2013,43(1):82-94.
[21] Ye Mingquan, Wu Xindong, Hu Xuegang, et al. Multi-level rough set reduction for decision rule mining[J]. Applied Intelligence, 2013,39(3):642-658.
[22] 葉明全,胡學(xué)鋼,胡東輝,等.基于屬性值分類的多層次粗糙集模型[J].模式識別與人工智能,2013,26(5):481-491.
Ye Mingquan, Hu Xuegang, Hu Donghui, et al. A multi-level rough set model based on attribute value taxonomies[J]. Pattern Recognition and Artificial Intelligence, 2013,26(5):481-491.
[23] 胡清華,于達(dá)仁,謝宗霞.基于鄰域?;痛植诒平臄?shù)值屬性約簡[J].軟件學(xué)報(bào),2008,19(3):640-649.
Hu Qinghua, Yu Daren, Xie Zongxia. Numerical attribute reduction based on neighborhood granulation and rough approximation [J]. Journal of Software, 2008,19(3):640-649.
[24] Wang Shulin, Li Xueling, Zhang Shanwen, et al. Tumor classification by combining PNN classifier ensemble with neighborhood rough set based gene reduction[J]. Computers in Biology and Medicine, 2010,40(2):179-189.
[25] Wang Yuhang, Makedon FS, Ford JC, et al. HykGene: A hybrid approach for selecting marker genes for phenotype classification using microarray gene expression data[J]. Bioinformatics, 2005,21(8):1530-1537.
[26] Zheng Songfeng, Liu Weixiang. An experimental comparison of gene selection by Lasso and dantzig selector for cancer classification[J]. Computers in Biology and Medicine, 2011,41(11):1033-1040.
[27] 張麗娟,李舟軍.微陣列數(shù)據(jù)癌癥分類問題中的基因選擇[J].計(jì)算機(jī)研究與發(fā)展,2009,46(5):794-802.
Zhang Lijuan, Li Zhoujun. Gene selection for cancer classification in microarray data[J]. Journal of Computer Research and Development, 2009,46(5):794-802.
[28] Zou Quan, Zeng Jiancang, Cao Liujuan, et al. A novel features ranking metric with application to scalable visual and bioinformatics data classification[J]. Neurocomputing, 2016,173(Part 2):346-354.