鐘天云,劉昆宏,王備戰(zhàn)
(廈門大學(xué)軟件學(xué)院,福建 廈門 361005)
微陣列,又稱DNA微陣列或者基因芯片,是一種基因表達(dá)檢測技術(shù),其產(chǎn)生的微陣列數(shù)據(jù)可應(yīng)用于生物學(xué)和臨床醫(yī)學(xué)研究.對微陣列數(shù)據(jù)的分類可應(yīng)用于疾病種類的鑒別,比如鑒別癌癥亞種.然而,微陣列數(shù)據(jù)特征、多樣本少,分類較難.又因為數(shù)據(jù)類別數(shù)量往往大于3類,且類與類之間特征具有高度重疊的特性,使得微陣列數(shù)據(jù)的多類分類更加困難.早期微陣列數(shù)據(jù)分類方法主要為非監(jiān)督的聚類方法[1],包括凝聚聚類法、k平均(k-means)法、k-medoids法和自組織圖(self-organizing maps,SOM).近些年的分類方法[2]則多以監(jiān)督學(xué)習(xí)為主,常見的有線性判別分析法(linear discriminant analysis,LDA)、k近鄰法(k-nearest neighbor,kNN)、決策樹、支持向量機(support vector machine,SVM)和人工神經(jīng)網(wǎng)絡(luò)等.但是這些分類器大部分是單分類器,分類能力有限.
糾錯輸出編碼(error correct output code,ECOC)來自通信領(lǐng)域,最早被Dietterich和Bakiri[3]用于解決分類問題.它是一種集成學(xué)習(xí)框架,可以把多分類任務(wù)分解為多個二分類任務(wù).因為ECOC的編碼矩陣指導(dǎo)分類任務(wù)的分解方式,而分解方式直接影響最后的分類結(jié)果,所以如何根據(jù)數(shù)據(jù)特點設(shè)計編碼矩陣一直是ECOC相關(guān)研究領(lǐng)域的重點.從2005年開始,不同ECOC編碼方法被用來對微陣列數(shù)據(jù)進(jìn)行分類:Tapia等[4]利用迭代增加的方式設(shè)計編碼;Liu等[5]則采用先生成冗余編碼后剔除多余編碼的方法;Wang等[6]采用遺傳算法設(shè)計編碼.這些研究雖然應(yīng)用于微陣列數(shù)據(jù),但編碼過程沒有契合微陣列數(shù)據(jù)多特征、少樣本的特點.判別式糾錯編碼(discriminant ECOC,DECOC)是Pujol等[7]提出的一種經(jīng)典ECOC編碼方法,其編碼設(shè)計雖然考慮了異類數(shù)據(jù)之間關(guān)聯(lián)性情況,但設(shè)計思路來源于大量數(shù)據(jù)形成的普通規(guī)律,故仍很難直接應(yīng)用于特征多、樣本少的微陣列數(shù)據(jù).
基于DECOC算法,本研究提出了一種迭代延長糾錯輸出編碼(iterative extension-ECOC,IE-ECOC)來解決多類微陣列數(shù)據(jù)的分類問題.借鑒DECOC的編碼思想,針對數(shù)據(jù)“特征多”的特點,選擇特征生成5個特征子集,利用特征相關(guān)的數(shù)據(jù)復(fù)雜度來生成一個列池,并按照本研究所提的列選擇策略來構(gòu)造編碼矩陣.最后,通過迭代算法延長矩陣.針對“樣本少”的特點,迭代算法采用留一法指導(dǎo)延長過程.這樣,就實現(xiàn)了一個基于糾錯編碼的分類集成學(xué)習(xí)框架.
IE-ECOC算法包括兩部分:1) 產(chǎn)生列池,并從中選列構(gòu)造一個編碼矩陣(如圖1);2) 利用迭代增加列編碼的算法來優(yōu)化編碼矩陣(如圖2).有關(guān)這兩個步驟的詳細(xì)介紹如下.
編碼矩陣中黑表示-1,白表示+1,灰表示0,下同.圖1 構(gòu)造編碼矩陣Fig.1 Construct coding matrix
基于DECOC[7]方法,結(jié)合數(shù)據(jù)復(fù)雜度,配合不同特征子集,通過選擇分類準(zhǔn)確率高的列,提出本研究構(gòu)造編碼矩陣的方法IE-ECOC.DECOC以所有類別標(biāo)簽為根節(jié)點構(gòu)造一棵二叉樹,自上而下地分割類別標(biāo)簽.分割標(biāo)準(zhǔn)為最大化互信息(mutual information,MI),樹的每個非葉節(jié)點為一個列編碼.IE-ECOC的建樹過程與DECOC相同,只是分割標(biāo)準(zhǔn)為最小化數(shù)據(jù)復(fù)雜度.
數(shù)據(jù)復(fù)雜度[8]可用于研究數(shù)據(jù)分布對模式識別影響的領(lǐng)域,主要針對二分類數(shù)據(jù),評估兩類數(shù)據(jù)被區(qū)分的難易度.Lorena等[9]的研究表明,數(shù)據(jù)復(fù)雜度適合處理特征重疊強的數(shù)據(jù),對微陣列數(shù)據(jù)分類器有提升作用.本研究根據(jù)文獻(xiàn)[8]選擇了5個與特征相關(guān)的數(shù)據(jù)復(fù)雜度F1、F2、F3、N2、N3.前3個數(shù)據(jù)復(fù)雜度從數(shù)據(jù)特征重疊度出發(fā),描述了類與類之間的特征數(shù)值重疊情況,高重疊度的兩個類之間有較高的數(shù)據(jù)復(fù)雜度.后2個數(shù)據(jù)復(fù)雜度從樣本點空間分布的角度出發(fā),描述樣本點在空間中的可分性,可分性大的兩個類之間有較低的數(shù)據(jù)復(fù)雜度.
圖1給出了IE-ECOC構(gòu)造編碼矩陣的步驟,分為3個步驟.由于微陣列數(shù)據(jù)特征較多,所以需要對特征進(jìn)行選擇.為了減輕失去特征造成信息損失的同時豐富列編碼的數(shù)量,IE-ECOC在步驟1中,對有Nc個類的數(shù)據(jù),利用Nf種不同的特征選擇方法來生成Nf個二叉樹,建樹方法如本節(jié)第一段所述,過程如圖1(a)所示.所有特征子集產(chǎn)生的列(編碼)組成一個列池,列池中包含Nf(Nc-1)個列,每一列都與一個特征子集對應(yīng).
步驟2如圖1(b)所示,為了確保選中的列分類效果良好,對列池所有列單獨進(jìn)行留一法(leave one out cross-validation,LOOCV)驗證.
步驟3如圖1(c)所示,從列池中每次選擇具有較高驗證準(zhǔn)確率的列組成矩陣M,并使每次迭代后的矩陣M具有較大的最小行漢明距離和較大的最小列漢明距離.下面對圖1(c)中選擇列的原因和方法進(jìn)行闡述.
理論上來說,碼字之間差異越大,ECOC矩陣的糾錯能力和分類效果就越好.本研究定義最小行漢明距離(minimum row hamming,MRH)為行編碼之間漢明距離的最小值;最小列漢明距離(minimum column hamming,MCH)為列編碼之間漢明距離的最小值.由此可見,MRH和MCH可表示編碼的差異.又因選擇列的過程是一個循環(huán)的過程,每次循環(huán)從列池中選擇驗證準(zhǔn)確率最高的一列續(xù)到已選擇編碼矩陣的后面,故每次循環(huán)后,新的矩陣MRH和MCH最大.隨著循環(huán)次數(shù)的增加,矩陣M的列不斷增加,MRH的值不斷增大;但列數(shù)的增加也導(dǎo)致MCH的值不斷減小,最終會變成0,此時停止循環(huán).
圖2 延長編碼矩陣的一次迭代過程Fig.2 One iteration process of extension coding matrix
延長編碼矩陣是一個迭代過程,每次迭代在M后接續(xù)一些新列.圖2為延長編碼矩陣的一次迭代過程.在每次迭代中,先用留一法驗證找到錯誤率最高的類CK,然后找到所有與CK產(chǎn)生混淆的類,讓它們與CK建立一對多(one vs all,OVA)和一對一(one vs one,OVO)的列.以圖2(a)和(b)為例,根據(jù)混淆矩陣圖2(a),C2是該迭代中錯誤率最高的類,其與C1、C5和C6發(fā)生了混淆.因此,對于OVA列的正類序號集合P1={1},負(fù)類序號集合N1={1,5,6};對于OVO列,P2=P3=P4={2},N2={1},N3={5},N4={6}.故OVA列b1,OVO列b2,b3,b4可表示為
bi=(bij)(0 (1) 圖2中b1~b4的具體結(jié)果如圖2(b)所示. 接著為新建立的OVO和OVA列選擇特征子集(圖2(c)),然后把這些列接續(xù)到矩陣M后(圖2(d)),為了保證延長后的矩陣M分類效果好,刪減OVO和OVA列中部分列. 首先根據(jù)獲得的M,可求距離矩陣 D=Y×MT, (2) 其中:D表示距離矩陣,D∈Rn×Nc,包含每個樣本到每個類的距離;M為編碼矩陣,M∈RNc×Nd;Y為結(jié)果矩陣,Y∈Rn×Nd是每個樣本對應(yīng)每個二分類器的分類結(jié)果,可通過對圖2(d)的矩陣進(jìn)行留一法驗證得到. 根據(jù)解碼原理,ECOC分類的最終結(jié)果取決于二分類器輸出結(jié)果和碼字之間的距離,故本研究定義變量“距離間隔”(distanceinterval,DI)來指導(dǎo)刪減過程.設(shè)二分類器輸出結(jié)果到正確類的距離為正確距離(distance correct,dc);到錯誤類的距離為錯誤距離(distance error,de). DI為所有驗證集樣本的di之和,具體定義如下: (3) 其中:n表示誤分類樣本的個數(shù);Dj是距離矩陣的第j行,表示第j個樣本的距離向量;di為dc和de中最小值的差值,如公式(4)所示. di(Dj)=dc-min(de). (4) 因為解碼方式是將距離最近的類作為該樣本的預(yù)測類,由式(3)可知,當(dāng)樣本被錯誤分類時,di是一個正數(shù),樣本被正確分類時,di是一個負(fù)數(shù).圖2(e)舉例介紹了從OVO和OVA列刪除部分列的過程.具體操作為:從OVO和OVA列中嘗試性刪除列,并計算每次刪除之后矩陣的DI值,找到使DI值最小的矩陣,并停止刪除過程. 刪除列的具體算法如下: 初始化:結(jié)果矩陣Y和其對應(yīng)的距離間隔d0=DI(Y×MT). 最后,不斷重復(fù)上述迭代過程,當(dāng)?shù)螖?shù)達(dá)到預(yù)設(shè)上限,或矩陣M的驗證準(zhǔn)確率100%時,算法停止. 總結(jié)算法的兩個步驟:1) IE-ECOC針對數(shù)據(jù)特征多的特點,生成多個特征子集,又根據(jù)特征高度重疊的特點,選擇數(shù)據(jù)復(fù)雜度測度配合DECOC建樹的方法生成不同的列編碼,而后所有列編碼組成列池;在列池中選擇驗證準(zhǔn)確率高的列編碼組成編碼矩陣,根據(jù)數(shù)據(jù)樣本少的特點,驗證方法選擇能最充分利用樣本的留一驗證法.2) 在已有編碼矩陣的基礎(chǔ)上,通過驗證反饋迭代延長矩陣,在適當(dāng)?shù)臈l件下停止延長. 本研究選擇了5種特征選擇方法:BSSWSS[9],方差分析F值、互信息、L1正則化、冗余樹[10],每種特征選擇方法選擇約100個特征.二分類器選擇了scikit-learn[10]提供的高斯樸素貝葉斯(Gaussian naive bayes,GNB)和決策樹(decision tree,DT).本文中展示了IE-ECOC組合上述兩種二分類器的迭代延長過程,并與一些經(jīng)典的ECOC方法組合上述兩種二分類器的分類結(jié)果進(jìn)行了比較.經(jīng)典ECOC方法包括DECOC、森林ECOC(F-ECOC)、OVA、OVO,以上ECOC方法由文獻(xiàn)[11]提供.在所有二分類器中,都采用默認(rèn)參數(shù).解碼方式采用弱化歐式解碼(attenuated euclideandecoding,AED)[12]. 本研究選擇8個癌癥基因微陣列數(shù)據(jù)集,表1列出了每個數(shù)據(jù)集的樣本數(shù)、類別數(shù)、特征數(shù).同時給8個數(shù)據(jù)集編號,下文中展示實驗結(jié)果時用數(shù)據(jù)集編號代替數(shù)據(jù)集名稱.Breast為乳腺癌數(shù)據(jù)集;DLBCL(diffuse large B-cell lymphoma)為B細(xì)胞淋巴癌數(shù)據(jù)集;Cancers數(shù)據(jù)集來源于Cancer Research,包括各類癌癥數(shù)據(jù);Leukemia1和Leukemia2為血癌數(shù)據(jù)集;Lung1和Lung2為肺癌數(shù)據(jù)集;SRBCT(small round blue cell tumors)為小圓藍(lán)細(xì)胞腫瘤數(shù)據(jù)集. 表1 基因微陣列數(shù)據(jù)集 本文中算法是一個迭代增加列編碼的過程,實驗迭代次數(shù)上限設(shè)置為20.為了展示迭代過程對分類訓(xùn)練集和測試集的影響,本文中記錄了每輪迭代后矩陣的變化,并計算每輪迭代后,分類器分別在訓(xùn)練集和測試集的分類準(zhǔn)確率.數(shù)據(jù)復(fù)雜度選用F1和F2,圖3和4分別展示了基分類器選擇GNB和DT時迭代過程的準(zhǔn)確率變化.圖3(h)和3(p)為空白,因為實驗在迭代延長前已經(jīng)達(dá)到100%的準(zhǔn)確率從而停止迭代. 本算法3次用到了留一法(圖1(b)、圖2(a)和圖2(e))驗證訓(xùn)練集,希望利用驗證信息改善(延長)編碼矩陣,目的是提高編碼矩陣在測試集的分類準(zhǔn)確率.從圖3和圖4可以看出大部分情況下,隨著迭代次數(shù)增加,虛線(訓(xùn)練集)與實線(測試集)保持相似的趨勢,說明算法對訓(xùn)練集和測試集的改變具有一致性.而且,多數(shù)情況下,虛線和實線大體呈現(xiàn)上升趨勢,說明該算法能夠通過逐步提高訓(xùn)練準(zhǔn)確率來提高測試準(zhǔn)確率,本算法具有意義. 把圖3與圖4出現(xiàn)的曲線分類,大致可以分成4種. 實線和虛線分別表示測試和訓(xùn)練數(shù)據(jù)的準(zhǔn)確率,下同.圖3 數(shù)據(jù)復(fù)雜度選擇F1和F2時,GNB基分類器的準(zhǔn)確率隨迭代次數(shù)變化情況Fig.3 IE-ECOC (F1) and IE-ECOC(F2) accuracy changes along with numbers of iteration for using GNB base learner 圖4 數(shù)據(jù)復(fù)雜度選擇F1和F2時,DT基分類器的準(zhǔn)確率隨迭代次數(shù)變化情況Fig.4 IE-ECOC (F1) and IE-ECOC(F2) accuracy changes along with numbers of iteration for using DT learner 1) “一”型曲線,準(zhǔn)確率隨著迭代次數(shù)的增加沒有變化(如圖3(l)和(m)等),或者準(zhǔn)確率僅最初少許提升而后沒有變化(如圖3(a)和(b)等).這類曲線多出現(xiàn)在用GNB作基分類器的情況下,其原因是在迭代初期,分類準(zhǔn)確率便已達(dá)到較高的水平,但每次迭代仍有誤分類樣本,這些樣本往往頑固而難以分類,每次新增的OVA和OVO列都在圖2(e)所示的過程刪除干凈,矩陣實際沒有被延長. 2) “緩坡”型曲線,準(zhǔn)確率平穩(wěn)上升(如圖4(g)和圖4(k)等).這類實驗結(jié)果較為理想,符合算法預(yù)期的效果. 3) “陡坡”型曲線,準(zhǔn)確率在迭代初期大幅提高,中后期穩(wěn)定(如圖3(d)和圖4(d)等).這類曲線主要因為迭代開始時,矩陣M的分類準(zhǔn)確率很低,經(jīng)過一兩次迭代優(yōu)化,準(zhǔn)確率有了較大提升.之后分類準(zhǔn)確率隨迭代次數(shù)增加變化平穩(wěn),原因與“一”型曲線的原因相似.這類實驗結(jié)果同樣符合預(yù)期. 表2 GBN基分類器的分類準(zhǔn)確率 表3 DT基分類器的分類準(zhǔn)確率 4) “波動”型曲線,準(zhǔn)確率波動較大(如圖4(a)和(f)),且往往伴有準(zhǔn)確率降低的趨勢.這類曲線多出現(xiàn)在用DT作為基分類器的情況下,DT是一個敏感的分類器,在某些情況下,訓(xùn)練數(shù)據(jù)的微小變化會導(dǎo)致劇烈變化.這些實驗測試準(zhǔn)確率在迭代末期反而下降,而且訓(xùn)練準(zhǔn)確率明顯高于測試準(zhǔn)確率.這是因為多次迭代沒有及時停止,編碼矩陣過于擬合訓(xùn)練數(shù)據(jù).對于這種迭代次數(shù)過多而造成的過擬合,本研究需要更進(jìn)一步研究迭代停止條件加以改進(jìn). 表2和3分別列出IE-ECOC算法分別配合5種數(shù)據(jù)復(fù)雜度(F1、F2、F3、N2和N3)得到的分類準(zhǔn)確率與經(jīng)典ECOC算法(DECOC,Forest,OVA,OVO)的對比結(jié)果.IE-ECOC集成5種特征選擇方法生成的5個特征子集得出一個分類準(zhǔn)確率,而經(jīng)典ECOC算法分別根據(jù)5個特征子集對數(shù)據(jù)進(jìn)行分類,得到5個不同的分類準(zhǔn)確率,文中取平均數(shù)±標(biāo)準(zhǔn)差展示于表2和3中,以便與IE-ECOC的結(jié)果進(jìn)行比較.表2和3的最后一行是每種方法分類結(jié)果的均值.(注:因為部分?jǐn)?shù)據(jù)集在不同特征子集分類效果波動較大,故會出現(xiàn)均值±標(biāo)準(zhǔn)差超過100的情況). 由表2和3可知,總的來說,與經(jīng)典ECOC算法的分類效果相比較,大部分情況下IE-ECOC的分類準(zhǔn)確率都較大幅度高過經(jīng)典方法的均值,表現(xiàn)出穩(wěn)定和最優(yōu)的性能.基于這5種數(shù)據(jù)復(fù)雜度的算法在不同數(shù)據(jù)集各具優(yōu)勢,對于GBN和DT基分類器,分別在數(shù)據(jù)復(fù)雜度N3和F1時在8個數(shù)據(jù)集上的平均得分最高.而且基于5種數(shù)據(jù)復(fù)雜度的IE-ECOC算法效果多數(shù)情況下高于經(jīng)典ECOC的平均分?jǐn)?shù).總的來說,可以認(rèn)為IE-ECOC性能稍微好一些.對比表2與表3,IE-ECOC使用GBN作為基分類器時,分類效果明顯優(yōu)于DT基分類器. 表2的實驗結(jié)果表明,分類結(jié)果與數(shù)據(jù)本身有重要關(guān)系.比如表2第4和5個數(shù)據(jù)集(Leukemia1和Leukemia2),IE-ECOC的分類準(zhǔn)確率非常高.這主要因為數(shù)據(jù)本身僅含3個類,較容易分類.而且因為類別數(shù)量稀少,經(jīng)典ECOC的編碼矩陣長度比經(jīng)過延長的IE-ECOC的編碼矩陣短很多,這意味著經(jīng)典ECOC的基分類器數(shù)量很少,分類能力比較差. 表3中,IE-ECOC結(jié)合DT基分類器對第5個數(shù)據(jù)集(Leukemia2)進(jìn)行分類,準(zhǔn)確率僅為66.67%,與表2中在第5個數(shù)據(jù)集(Leukemia2)上獲得的高準(zhǔn)確率出現(xiàn)巨大差異.這是由于DT作為基分類器時,模型出現(xiàn)過擬合現(xiàn)象,即過于擬合訓(xùn)練數(shù)據(jù)而導(dǎo)致測試準(zhǔn)確率降低.如圖4(m)所示,測試準(zhǔn)確率在迭代結(jié)束前出現(xiàn)了明顯下降.除了DT本身容易過擬合、IE-ECOC沒有采取有效預(yù)防過擬合措施的原因以外,微陣列數(shù)據(jù)集訓(xùn)練數(shù)據(jù)過少也是過擬合的重要原因.過擬合在微陣列數(shù)據(jù)上普遍且難以改善,是研究者必須直面的問題. 從對以上問題的分析來看,經(jīng)典ECOC方法對微陣列數(shù)據(jù)進(jìn)行多分類具有一定的難度,IE-ECOC從一定程度上改善了ECOC的分類效果,但也存在亟待解決的問題.從結(jié)果來看,不管采用GNB還是DT基分類器,IE-ECOC在文中所有數(shù)據(jù)集上的平均分類準(zhǔn)確率都優(yōu)于所有其他經(jīng)典ECDC算法.可以確切地得出結(jié)論,IE-ECOC可以為不同的癌癥微陣列數(shù)據(jù)集實現(xiàn)相對穩(wěn)定和健壯的分類. 為了針對微陣列數(shù)據(jù)“特征多樣本少”的特點進(jìn)行多類分類,本研究提出了一種新的糾錯輸出編碼算法IE-ECOC.首先借助5個與特征相關(guān)的數(shù)據(jù)復(fù)雜度,配合二叉樹編碼方法來生成一個列池,并提出了一種列選擇方法來構(gòu)造一個編碼矩陣.然后通過矩陣延長過程對矩陣進(jìn)行迭代驗證與延長.這樣,就實現(xiàn)了糾錯算法IE-ECOC.為了驗證IE-ECOC算法的有效性,將IE-ECOC算法應(yīng)用于分類多類癌癥微陣列數(shù)據(jù),并與一些經(jīng)典的ECOC算法進(jìn)行比較,結(jié)果顯示該算法可以產(chǎn)生相對穩(wěn)定而準(zhǔn)確的分類準(zhǔn)確率,迭代延長矩陣的過程和效果也在實驗中得到了展示驗證.從結(jié)果來看,IE-ECOC是在應(yīng)用了這5個數(shù)據(jù)復(fù)雜度的基礎(chǔ)上才有較好的分類效果.IE-ECOC與其他數(shù)據(jù)復(fù)雜度結(jié)合的分類效果的進(jìn)一步研究將是今后的研究方向,這將有利于文中的IE-ECOC框架和完善,幫助產(chǎn)生更好的編碼矩陣. [1] MONTI S,TAMAYO P,MESIROV J,et al.Consensus clustering:a resampling-based method for class discovery and visualization of gene expression microarray data[J].Machine Learning,2003,52(1/2):91-118. [2] PENG Y.A novel ensemble machine learning for robust microarray data classification[J].Computers in Biology and Medicine,2006,36(6):553-573. [3] DIETTERICH T G,BAKIRI G.Solving multiclass learning problems via error-correcting output codes[J].Journal of Artificial Intelligence Research,1995,2(2):263-286. [4] TAPIA E,SERRA E,GONZALEZ J C.Recursive ECOC for microarray data classification[C]∥International Workshop on Multiple Classifier Systems.Berlin Heidelberg:Springer,2005:108-117. [5] LIU K H,ZENG ZH,NG V T Y.A hierarchical ensemble of ECOC for cancer classification based on multi-class microarray data[J].Information Sciences,2016,349:102-118. [6] WANG H R,LI K S,LIU K H.A genetic programming based ECOC algorithm for microarray data classification[C]∥International Conterence on Neural Information Processing.Cham:Springer,2017:683-691. [7] PUJOL O,RADEVA P,VITRIA J.Discriminant ECOC:a heuristic method for application dependent design of error correcting output codes[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2006,28(6):1007-1012. [8] CANO J.Analysis of data complexity measures for classification[J].Expert Systems with Applications,2013,40(12):4820-4831. [9] LORENA A C,COSTA I G,SPOLAR N,et al.Analysis of complexity indices for classification problems:cancer gene expression data[J].Neurocomputing,2012,75(1):33-42. [10] SCIKIT-LEARN.sklearn.multiclass[EB/OL].[2017-11-01].http:∥scikit-learn.org/stable/modules/classes.html#module-sklearn.multiclass. [11] ESCALERA S,PUJOL O,RADEVA P.Error-correcting output codes library[EB/OL].[2017-11-01].http:∥jmlr.csail.mit.edu/papers/v11/escalera10a.html. [12] ESCALERA S,PUJOL O,RADEVA P.On the decoding process in ternary error-correcting output codes[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(1):120-134. [13] KOBOLDT D,FULTON R,MCLELLAN M,et al.Comprehensive molecular portraits of human breast tumours[J].Nature,2012,490(7418):61-70. [14] SU A,WELSH J,SAPINOSO L,et al.Molecular classification of human carcinomas by use of gene expression signatures[J].Cancer Research,2001,61(20):7388-7393. [15] SHIPP M A,ROSS K N,TAMAYO P.Diffuse large B-cell lymphoma outcome prediction by gene-expression profiling and supervised machine learning[J].Nature Medicine,2002,8(1):68-74. [16] BEN-DOR A,BRUHN L,FRIEDMAN N,et al.Tissue classification with gene expression profiles[J].Journal of Computational Biology,2000,7(3/4):559-583. [17] HONG Z,YANG J.Optimal discriminant plane for a small number of samples and design method of classifier on the plane[J].Pattern Recognition,1991,24(4):317-324. [18] KHAN J,WEI J,RINGNéR M,et al.Classification and diagnostic prediction of cancers using gene expression profiling and artificial neural networks[J].Nature Medicine,2001,7(6):673-679.2 實 驗
2.1 數(shù)據(jù)集介紹
2.2 迭代過程結(jié)果對比
2.3 分類結(jié)果對比
3 結(jié) 論