李小波,彭司華
(1.麗水學(xué)院工學(xué)院 計(jì)算機(jī)系,麗水323000;2.上海海洋大學(xué)水產(chǎn)與生命學(xué)院 生物技術(shù)系,上海201306)
近些年來(lái),腫瘤的個(gè)性化醫(yī)療獲得了很大的關(guān)注[1].由于腫瘤的異質(zhì)性和患者之間的個(gè)體差異,如果簡(jiǎn)單采取同一方法治療某一類腫瘤,就容易產(chǎn)生過(guò)度治療或治療不當(dāng)?shù)膯?wèn)題,因此,需要針對(duì)每一個(gè)患者的不同情況,采用個(gè)性化方式進(jìn)行治療.一個(gè)典型的例子是抗癌藥物西妥昔單抗(Cetuximab,愛必妥),研究發(fā)現(xiàn),西妥昔單抗對(duì)Kras基因野生型的結(jié)直腸癌患者效果顯著,而對(duì)于Kras基因突變的患者則療效欠佳,Kras基因的突變狀態(tài)已經(jīng)成為結(jié)直腸癌患者決定是否采取單抗靶向治療的重要生物標(biāo)志物[2].與此同時(shí),腫瘤的個(gè)性化醫(yī)療也為腫瘤的分子分型和腫瘤生物標(biāo)志物查找提出了緊迫的要求.
隨著基因芯片技術(shù)的迅猛發(fā)展,利用基因表達(dá)譜對(duì)腫瘤進(jìn)行分子分型,查找腫瘤標(biāo)志物等工作取得了很大的進(jìn)展[3].基因芯片技術(shù)能同時(shí)檢測(cè)獲取成千上萬(wàn)個(gè)基因的表達(dá)值,該技術(shù)為腫瘤研究開辟了一條高通量和系統(tǒng)性的研究途徑,然而,基因芯片數(shù)據(jù)具有基因數(shù)量多(一般多于10 000)、樣本數(shù)小(一般小于100)的特點(diǎn),如何從中選取有效可靠的特征基因,則是基于基因芯片數(shù)據(jù)進(jìn)行腫瘤分類的關(guān)鍵問(wèn)題[4].通過(guò)基因選擇,消除與腫瘤分類無(wú)關(guān)的噪聲和冗余基因,獲得精簡(jiǎn)的特征基因集,不僅可以減輕分類器的計(jì)算負(fù)擔(dān),還可以提高分類器的分類準(zhǔn)確度.另一方面,所獲得的特征基因集包含較少的基因數(shù)量,更便于后續(xù)的分子生物學(xué)實(shí)驗(yàn)驗(yàn)證,對(duì)于腫瘤標(biāo)志物的查找和腫瘤發(fā)生發(fā)展分子機(jī)制的闡明具有實(shí)際意義.
常見的特征選擇算法有3種[5]:過(guò)濾(Filter)法、纏繞(Wrapper)法和嵌入(Embedded)法.過(guò)濾法的選擇結(jié)果與分類器無(wú)關(guān),盡管使用過(guò)濾法選擇基因方法簡(jiǎn)單快速,計(jì)算量小,但它也有幾個(gè)不足之處:首先,過(guò)濾法忽視了與分類器的交互;其次,許多過(guò)濾法算法往往是一元的,并沒(méi)有考慮到基因之間的相關(guān)性.纏繞法在某種程度上可以克服過(guò)濾法的上述問(wèn)題.然而,該方法對(duì)計(jì)算的要求比較高,而且選擇的基因集有較高的過(guò)擬合風(fēng)險(xiǎn)[6].嵌入法考慮到分類器的內(nèi)部特征(比如支持向量機(jī)分類器里的支持向量),能與分類器較好地耦合,從而具有較高的精確度,但同時(shí)對(duì)分類器依賴性大,選擇結(jié)果適應(yīng)性差,需要檢驗(yàn)其選擇的基因?qū)ζ渌诸惼鞯挠行裕?].
目前在腫瘤的分類研究中,針對(duì)二分類問(wèn)題(腫瘤類別數(shù)量為2,比如腫瘤樣本與正常組織之間的分類)研究得較為透徹,且取得了較好的效果.而對(duì)于多類別腫瘤的分類問(wèn)題(腫瘤類別或亞型的數(shù)量多于2),則缺乏深入的研究,并且在已有的研究結(jié)果中,可以看到準(zhǔn)確度并不高,尤其當(dāng)腫瘤類別越多時(shí),分類準(zhǔn)確度下降更快[8].腫瘤的發(fā)生發(fā)展和侵襲轉(zhuǎn)移是多個(gè)階段、多個(gè)基因調(diào)控、多條途徑的過(guò)程[9],由此導(dǎo)致了腫瘤的異質(zhì)性和腫瘤的多亞型.多類別腫瘤的分類問(wèn)題,目前仍然是機(jī)器學(xué)習(xí)領(lǐng)域的一大挑戰(zhàn).
本文以肺癌的多類別基因表達(dá)譜數(shù)據(jù)為例,采用多步驟混合式特征基因選擇策略[10],對(duì)多類別腫瘤的分類問(wèn)題進(jìn)行了研究.首先,采用7種常用的特征基因選擇方法對(duì)基因表達(dá)譜中所有基因與分類的相關(guān)性進(jìn)行排序,從中提取少量與腫瘤分類密切相關(guān)的基因子集,隨后,對(duì)子集中的冗余基因進(jìn)行過(guò)濾去除,得到分類準(zhǔn)確度更高的精簡(jiǎn)基因集.實(shí)驗(yàn)結(jié)果證實(shí)了該方法的可行性和有效性.
通過(guò)基因芯片檢測(cè)到大量基因的表達(dá)值,其中多數(shù)基因與腫瘤相關(guān)性不大,對(duì)腫瘤的分類貢獻(xiàn)也小,往往采用過(guò)濾法對(duì)所有基因的相關(guān)性進(jìn)行排序,去除大量的低相關(guān)度基因,留下少量與腫瘤分類密切相關(guān)的基因.以下對(duì)本文涉及到的一些特征基因選擇方法進(jìn)行介紹.
基于相關(guān)性的特征選擇方法[11](Correlation-based Feature Selection,CFS)的核心思想是所選擇的特征子集里的每個(gè)特征與每一個(gè)類高度相關(guān),但相互間的相關(guān)度最低.評(píng)價(jià)特征子集的標(biāo)準(zhǔn)可以定義為
其中:Ms表示特征子集S的得分值,該子集含有k個(gè)特征表示子集內(nèi)每個(gè)特征與類間的平均相關(guān)度表示子集內(nèi)每個(gè)特征相互之間的平均相關(guān)度.
卡方選擇法[12](Chi-Squared,χ2)采用每個(gè)基因的卡方統(tǒng)計(jì)值(χ2)單獨(dú)評(píng)價(jià)每個(gè)基因,首先將順序或數(shù)字的特征屬性值進(jìn)行離散化,隨后采用下面的公式計(jì)算每個(gè)基因的χ2值:
其中:m表示間隔數(shù);n為類的數(shù)量;Aij表示第i間隔第j類的實(shí)際總模式數(shù);Eij為Aij的理論頻數(shù).
信息增益選擇法[13](Information Gain,IG)是基于熵的衡量方法,對(duì)于每個(gè)特征屬性的計(jì)算公式如下:
其中:H(Class)為每個(gè)類的總熵;H(Class|Attribute)計(jì)算給定屬性下每個(gè)類的條件熵.
信息增益率選擇法(Gain Ratio,GR)計(jì)算每個(gè)屬性的信息增益率:
其中H(Attribute)表示每個(gè)屬性的熵值.GR選擇法用于衡量每個(gè)屬性與類間的相對(duì)熵值.
對(duì)稱不確定性選擇法[11](Symmetrical Uncertainty,SU)計(jì)算每個(gè)屬性的SU值:
其中:H(Class)為每個(gè)類的總熵;H(Attribute)表示每個(gè)屬性的熵值.SU選擇法是針對(duì)信息增益選擇法偏向選擇具有較大信息增益值的特征而進(jìn)行的調(diào)整.
在ReliefF選擇法[14]中,良好的分類特征被定義為在同一類中具有相同的屬性值,并在不同的類中具有不同的屬性值.ReliefF法采用最近鄰方法來(lái)計(jì)算每個(gè)屬性的相關(guān)性得分.通過(guò)對(duì)實(shí)例的重復(fù)采樣,根據(jù)最近的相同類和不同類的實(shí)例,評(píng)估每個(gè)屬性的得分值.
Guyon等[7]提出了基于支持向量機(jī)的遞歸特征基因消除法(Support Vector Machine method based on Recursive Feature Elimination,SVM-RFE).SVM-RFE算法從原始基因集中逐個(gè)消除對(duì)分類器貢獻(xiàn)最小的基因,基因?qū)Ψ诸惼髫暙I(xiàn)的重要性采用基因排序得分(gene ranking score)評(píng)估.基因排序得分定義為支持向量機(jī)權(quán)重向量w的平方和,w表示為
其中:xi為訓(xùn)練集中樣本i的基因表達(dá)向量;yi∈[-1,+1]為樣本i的類標(biāo)簽;αi可以從訓(xùn)練集計(jì)算得到.大多數(shù)樣本的αi為零,αi為非零的向量為支持向量[7].
通過(guò)上一節(jié)介紹的各種基因選擇方法,可以去除大量與腫瘤分類無(wú)關(guān)的基因.設(shè)定一個(gè)閾值(比如設(shè)置基因子集中的基因數(shù)量),就能夠獲得一個(gè)與腫瘤分類存在高相關(guān)度的基因子集.然而,過(guò)濾法往往沒(méi)有考慮到基因之間的相關(guān)性,在該子集中仍然存在一部分冗余基因.腫瘤特征基因選擇方法的目標(biāo)是獲取一個(gè)基因數(shù)量盡可能少,包含樣本分類信息盡可能全面的基因集,為此,文中采用了 Step-by-Step improvement of Classification Performance(SSiCP)算法[15].SSiCP算法采用一個(gè)評(píng)價(jià)函數(shù),引導(dǎo)分類器逐步消除冗余基因.
該算法的關(guān)鍵步驟描述如下:
輸入:訓(xùn)練集S1,該數(shù)據(jù)集包含特征基因數(shù)n1;
步驟1 訓(xùn)練特征基因數(shù)n的分類器,采用m-折(本文采用10-折)交叉檢驗(yàn)法計(jì)算,得到分類器分類準(zhǔn)確度k1;
步驟2 臨時(shí)排除某個(gè)特征基因f,采用m-折(本文采用10-折)交叉檢驗(yàn)計(jì)算,得到分類器分類準(zhǔn)確度k2;
步驟3 假設(shè)k1≤k2,則消除特征基因f;假設(shè)k1>k2,則恢復(fù)特征基因f;
重復(fù)步驟1~3,直至分類器獲得最高分類準(zhǔn)確度;
輸出:特征子集S2,特征基因數(shù)n2.
支持向量機(jī)分類器具有較強(qiáng)的泛化能力,適合于具有高維數(shù)和小樣本特征的腫瘤基因表達(dá)譜數(shù)據(jù).文中采用Platt[16]提出的序貫極小優(yōu)化(Sequential Minimum Optimization,SMO)算法是一個(gè)快速的支持向量機(jī)算法.在該算法中,將多類別分類問(wèn)題化解為采用成對(duì)(pair-wise)分類的方式解決.
將腫瘤表達(dá)譜數(shù)據(jù)集按一定比例分為訓(xùn)練集和獨(dú)立測(cè)試集,采用兩種方法進(jìn)行分類模型的評(píng)價(jià):
(1)對(duì)于訓(xùn)練集,采用10-折交叉檢驗(yàn)法(ten-fold cross validation)評(píng)價(jià)分類器,即將訓(xùn)練集中所有樣本分為10等份,輪流將其中9份樣本作為訓(xùn)練樣本,剩余1份樣本作為測(cè)試樣本,不斷重復(fù)測(cè)試,直至訓(xùn)練集內(nèi)所有樣本均被測(cè)試一次為止;
(2)對(duì)于獨(dú)立測(cè)試集,以訓(xùn)練集中所有樣本訓(xùn)練分類器,隨后對(duì)獨(dú)立測(cè)試集中的每個(gè)樣本進(jìn)行逐一分類測(cè)試.
機(jī)器學(xué)習(xí)算法中,過(guò)擬合(overfitting)是個(gè)必須要考慮的問(wèn)題.給定假設(shè)空間H,一個(gè)假設(shè)h∈H,如果存在另外的假設(shè)h'∈H,使得在訓(xùn)練樣本上h的錯(cuò)誤率小于h',但在整個(gè)樣本分布上h'的錯(cuò)誤率小于h,那么就說(shuō)假設(shè)h過(guò)擬合訓(xùn)練數(shù)據(jù)[17].因此,為了測(cè)試每個(gè)分類模型的過(guò)擬合風(fēng)險(xiǎn),對(duì)于每個(gè)分類模型,首先在訓(xùn)練集中通過(guò)10-折交叉檢驗(yàn)法獲得一個(gè)分類準(zhǔn)確度p,隨后在獨(dú)立測(cè)試集獲得一個(gè)分類準(zhǔn)確度p',如果p與p'的差別越小,說(shuō)明該分類模型的抗過(guò)擬合性能越強(qiáng).
采用 Bhattacharjee等[18]發(fā)表的肺癌數(shù)據(jù)集,數(shù)據(jù)從網(wǎng)站 http:∥www.pnas.org/content/98/24/13790/suppl/DC1下載.該數(shù)據(jù)集是個(gè)多類別腫瘤基因表達(dá)譜數(shù)據(jù)集,共包含203個(gè)樣本,5個(gè)類別(4種肺癌亞型以及正常組織),其中腺癌(lung ADenocarcinoma,AD)127個(gè),鱗狀細(xì)胞癌(SQuamous cell lung carcinomas,SQ)21個(gè),類癌(pulmonary CarcinOIDs,COID)20個(gè),小細(xì)胞癌(Small-Cell Lung Carcinoma,SCLC)6個(gè),以及正常肺組織樣本(Normal Lung,NL)17個(gè).其余的12例疑似肺外轉(zhuǎn)移樣本,未納入本次實(shí)驗(yàn).數(shù)據(jù)集中每個(gè)樣本包含12 600個(gè)基因表達(dá)值.將整個(gè)數(shù)據(jù)樣本按訓(xùn)練集相比獨(dú)立測(cè)試集3∶1比例隨機(jī)分配.肺癌數(shù)據(jù)集的結(jié)構(gòu)如表1所示.
首先對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行了預(yù)處理,分為兩步:去除管家基因和標(biāo)準(zhǔn)化.去除管家基因后,數(shù)據(jù)集剩余12 533個(gè)基因表達(dá)值,對(duì)基因表達(dá)值進(jìn)行標(biāo)準(zhǔn)化,使得每個(gè)樣本的基因表達(dá)值均值為0,標(biāo)準(zhǔn)差為1.
本次實(shí)驗(yàn)中,在 WEKA(http:∥www.cs.waikato.ac.nz/ml/weka/)平臺(tái)[19]上實(shí)現(xiàn)各種基因選擇算法和分類模型.SMO分類算法有4種核函數(shù) (Normalized Poly Kernel,Poly Kernel,RBF Kernel和String Kernel),我們選擇采用多項(xiàng)式核函數(shù)(Poly Kernel),在訓(xùn)練支持向量機(jī)分類器的時(shí)候,調(diào)整最佳參數(shù)會(huì)是非常耗時(shí)的工作,因此我們采取參數(shù)固定的方式.其中由于數(shù)據(jù)已標(biāo)準(zhǔn)化,“FilterType”參數(shù)設(shè)定為“standardize training data”選項(xiàng),并將懲罰參數(shù)C設(shè)為100.
表1 肺癌數(shù)據(jù)集的樣本分布Tab.1 Distribution of the samples in lung cancer data set
在訓(xùn)練集的實(shí)驗(yàn)中,采用的是混合式基因選擇策略.首先,采用 CFS、χ2、IG、GR、SU、ReliefF、SVM-RFE等基因選擇方法去除與分類無(wú)關(guān)的基因,這些方法輸出一個(gè)按得分由高至低排序的基因集.為了便于幾種方法之間的比較,最后統(tǒng)一選擇排序得分最高的200個(gè)基因,由此我們提取了與分類高度相關(guān)的基因子集.隨后,考慮到這些基因之間可能存在強(qiáng)相關(guān)性,采用SSiCP算法進(jìn)一步剔除具有強(qiáng)相關(guān)性的冗余基因.實(shí)驗(yàn)結(jié)果如圖1所示.
由圖1可知,SSiCP算法可以有效去除冗余基因.隨著基因集基因數(shù)量的減少,分類預(yù)測(cè)精度經(jīng)歷了先上升而后下降的過(guò)程.SSiCP算法去除掉冗余基因后,非但不會(huì)減弱基因集的分類信息,反而進(jìn)一步提高了預(yù)測(cè)精度,隨著基因數(shù)量的減少,預(yù)測(cè)精度到達(dá)最高點(diǎn)并可繼續(xù)維持,記錄下預(yù)測(cè)精度最高且基因數(shù)量最少的基因子集,我們稱之為“最精簡(jiǎn)”基因集.之后,隨著基因數(shù)量的再次減少,預(yù)測(cè)精度則不斷下降.
采用各種基因選擇方法獲得的“最精簡(jiǎn)”基因集表達(dá)值,以訓(xùn)練集樣本作為分類器的訓(xùn)練樣本,建立分類模型,在獨(dú)立測(cè)試集測(cè)試每個(gè)樣本,記錄每個(gè)獨(dú)立測(cè)試集的錯(cuò)分樣本,結(jié)果如表2所示.
圖1 SSiCP算法消減冗余基因過(guò)程中,7種不同基因選擇方法的預(yù)測(cè)精度Fig.1 The prediction accuracies of the seven different gene selection methods when SSiCP algorithm was applied to eliminate redundant genes
表2 在訓(xùn)練集和獨(dú)立測(cè)試集中,7種特征選擇方法的分類結(jié)果Tab.2 The classification results of the seven different gene selection methods in training and independent test data sets
表2綜合給出了各種基因選擇方法在訓(xùn)練集和獨(dú)立測(cè)試集的性能.在訓(xùn)練集中,IG、ReliefF、SU和SVM-RFE等4種方法均獲得100%的預(yù)測(cè)精度(見表2),其中ReliefF算法僅用了12個(gè)基因,表現(xiàn)最好.在獨(dú)立測(cè)試集中,CFS算法的性能最佳,僅有2個(gè)錯(cuò)分樣本.綜合兩個(gè)數(shù)據(jù)集的表現(xiàn),SU算法在訓(xùn)練集的預(yù)測(cè)精度為100%,但在測(cè)試集的性能有所降低,有3個(gè)錯(cuò)分樣本,精度為93.8%(45/48),在兩個(gè)數(shù)據(jù)集的總體精度為98.4%(188/191).CFS算法在訓(xùn)練集有1個(gè)錯(cuò)分樣本,在測(cè)試集有2個(gè)錯(cuò)分樣本,總體精度和SU算法一致,為98.4%(188/191),然而,考慮到CFS算法在訓(xùn)練集的預(yù)測(cè)精度為99.3%(142/143),在測(cè)試集僅有2個(gè)錯(cuò)分樣本,精度為95.8%(46/48),下降較少,其抗過(guò)擬合性能較強(qiáng).兩種方法的最精簡(jiǎn)基因數(shù)量均為13.因此,我們認(rèn)為CFS算法在現(xiàn)有7種基因選擇方法中有最佳分類性能.
表3給出了采用CFS算法加SSiCP算法所獲得最精簡(jiǎn)基因集的基因列表.其中至少4個(gè)基因,包括轉(zhuǎn)錄因子21(TCF21)基因[20],I型人T細(xì)胞白血病病毒結(jié)合蛋白3(TAX1BP3)基因[21],早幼粒細(xì)胞白血病鋅指蛋白(ZBTB16或PLZF)基因[22],S100鈣結(jié)合蛋白A8(S100A8)基因[23]等據(jù)文獻(xiàn)報(bào)道與肺癌的發(fā)生發(fā)展密切相關(guān).TCF21基因調(diào)節(jié)間充質(zhì)細(xì)胞到上皮細(xì)胞的分化,在肺癌和頭頸部鱗狀細(xì)胞癌中顯示出異常高的甲基化現(xiàn)象[24].Richards等[20]對(duì)105例非小細(xì)胞肺癌患者樣本進(jìn)行了研究,發(fā)現(xiàn)其中81%的樣本存在TCF21基因啟動(dòng)子區(qū)甲基化現(xiàn)象,84%的樣本表現(xiàn)出TCF21蛋白的表達(dá)下降.Wang等[21]在人類和小鼠肺癌細(xì)胞的研究表明,輻射誘導(dǎo)的細(xì)胞內(nèi)TIP-1重新定位到質(zhì)膜表面,可以抑制腫瘤細(xì)胞的增殖能力和集落形成能力,同時(shí)增強(qiáng)后續(xù)放射治療的易感性.PLZF作為一種抑癌基因,其基因表達(dá)的失調(diào)在不同類型的實(shí)體腫瘤中有所報(bào)道.Wang等[22]探討了其表達(dá)降低對(duì)非小細(xì)胞肺癌產(chǎn)生的影響.在154例配對(duì)非小細(xì)胞肺癌樣本中,通過(guò)定量實(shí)時(shí)PCR實(shí)驗(yàn)發(fā)現(xiàn),其中87.1%的樣本PLZF表達(dá)下調(diào)了62.8%,并且35.6%的表達(dá)下調(diào)是由于PLZF啟動(dòng)子區(qū)甲基化引發(fā)的.在A549和LTEP肺癌細(xì)胞系中的實(shí)驗(yàn)發(fā)現(xiàn)PLZF的過(guò)表達(dá)能抑制細(xì)胞增殖和誘導(dǎo)凋亡.Su等[23]的研究采用了56例非小細(xì)胞肺癌和4例小細(xì)胞肺癌樣本,免疫組織化學(xué)染色法和PCR法顯示S100A8在肺癌組織中顯著上調(diào),發(fā)現(xiàn)其較高的表達(dá)與肺腺癌、肺部炎癥和肺癌Ⅳ期病變的臨床特征相關(guān).
表3 CFS算法加SSiCP算法所獲得的最精簡(jiǎn)基因集Tab.3 The minimum gene subset obtained by CFSplus SSiCPalgorithms
(續(xù)表)
采用 DAVID數(shù)據(jù)庫(kù)(The Database for Annotation,Visualization and Integrated Discovery,DAVID)[25,26]分析表3最精簡(jiǎn)基因集的富集基因本體和通路,其中的功能注釋圖表工具(The Functional Annotation Chart tool)用于分析富集的注釋.識(shí)別出3條富集的生物學(xué)過(guò)程(EASE score<0.05),包括DNA模板轉(zhuǎn)錄的負(fù)調(diào)控(GO:0045892~negative regulation of transcription,DNA-dependent),RNA代謝過(guò)程中的負(fù)調(diào)控(GO:0051253~negative regulation of RNA metabolic process)和轉(zhuǎn)錄負(fù)調(diào)控(GO:0016481~negative regulation of transcription),參與以上生物學(xué)過(guò)程的基因包括 TCF21,ZBTB16和BAZ2A等.
由于腫瘤的異質(zhì)性和腫瘤的多亞型特征,多類別腫瘤的分類問(wèn)題是普遍存在的.隨著高通量分子生物學(xué)技術(shù)的快速進(jìn)展,采用基因表達(dá)譜等技術(shù)對(duì)腫瘤進(jìn)行分子分型,已成為生物醫(yī)學(xué)研究的熱點(diǎn),具有重要的理論意義和臨床價(jià)值.文中重點(diǎn)研究了多類別腫瘤分類中的關(guān)鍵問(wèn)題——特征基因選擇方法.提出了混合式特征基因選擇策略,并在肺癌的多類別基因表達(dá)譜數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn).首先用現(xiàn)有的7種特征選擇算法各自提取了200個(gè)與分類高度相關(guān)的基因,隨后采用SSiCP算法消除冗余基因,最終得到基因數(shù)量較少、分類準(zhǔn)確度較高的最精簡(jiǎn)基因集.實(shí)驗(yàn)結(jié)果證實(shí),SSiCP算法不但可以有效剔除冗余基因,并且能提高分類模型的準(zhǔn)確度.比較了7種基因選擇算法,發(fā)現(xiàn)CFS算法加SSiCP算法的混合式基因選擇策略,獲得了基因數(shù)量?jī)H有13個(gè)的特征基因集,不但在訓(xùn)練集有較高的預(yù)測(cè)準(zhǔn)確度,在獨(dú)立測(cè)試集的準(zhǔn)確度也比較高,有著較強(qiáng)的抗過(guò)擬合性能.采用CFS算法加SSiCP算法所獲得最精簡(jiǎn)基因集中的部分基因,據(jù)文獻(xiàn)報(bào)道,與肺癌的發(fā)生發(fā)展存在密切相關(guān).文中所提出的混合式基因選擇策略,可以作為多類別腫瘤分類中選擇特征基因的有效方法.
[1]Chin L,Andersen J N,F(xiàn)utreal P A.Cancer genomics:From discovery science to personalized medicine[J].Nature Medicine,2011,17(3):297-303.
[2]Ong F S,Das K,Wang J,et al.Personalized medicine and pharmacogenetic biomarkers:Progress in molecular oncology testing[J].Expert Review of Molecular Diagnostics,2012,12(6):593-602.
[3]Golub T R,Slonim D K,Tamayo P,et al.Molecular classification of cancer:Class discovery and class prediction by gene expression monitoring[J].Science,1999,286(5439):531-537.
[4]Li X,Peng S,Chen J,et al.SVM-T-RFE:A novel gene selection algorithm for identifying metastasis-related genes in colorectal cancer using gene expression profiles[J].Biochemical and Biophysical Research Communications,2012,419(2):148-153.
[5]Saeys Y,Inza I,Larranaga P.A review of feature selection techniques in bioinformatics[J].Bioinformatics,2007,23(19):2507-2517.
[6]Leung Y,Hung Y.A multiple-filter-multiple-wrapper approach to gene selection and microarray data classification [J].IEEE/ACM Transactions on Computational Biology and Bioinformatics,2010,7(1):108-117.
[7]Guyon I,Weston J,Barnhill S,et al.Gene selection for cancer classification using support vector machines[J].Machine Learning,2002,46(1-3):389-422.
[8]Wang H,Zhang H,Dai Z,et al.TSG:A new algorithm for binary and multi-class cancer classification and informative genes selection [J].BMCMedical Genomics,2013,6(Suppl 1):S3.
[9]Li X B,Chen J,Lu B J,et al.-8p12-23 and+20q are predictors of subtypes and metastatic pathways in colorectal cancer:Construction of tree models using comparative genomic hybridization data[J].Omics-a Journal of Integrative Biology,2011,15(1-2):37-47.
[10]李小波.多步驟降維的腫瘤特征基因選擇方法[J].復(fù)旦學(xué)報(bào):自然科學(xué)版,2008,47(4):541-544.
[11]Mark A H.Correlation-based feature selection for discrete and numeric class machine learning[C]∥Proceedings of the Seventeenth International Conference on Machine Learning.San Francisco,CA,USA:Morgan Kaufmann Publishers Inc,2000:359-366.
[12]Huan L,Rudy S.Chi2:Feature selection and discretization of numeric attributes[C]∥Proceedings of the Seventh International Conference on Tools with Artificial Intelligence.Washington,D C,USA:IEEE Computer Society,1995:388-391.
[13]Wang Y,Tetko I V,Hall M A,et al.Gene selection from microarray data for cancer classification—a machine learning approach[J].Computational Biology and Chemistry,2005,29(1):37-46.
[14]Igor K.Estimating attributes:Analysis and extensions of RELIEF[C]∥Proceedings of the European conference on Machine Learning.Secaucus,NJ,USA:Springer-Verlag New York,Inc,1994:171-182.
[15]Peng S,Liu X,Yu J,et al.A new implementation of recursive feature elimination algorithm for gene selection from microarray data[C]∥Proceedings of the 2009 WRI World Congress on Computer Science and Information Engineering,Volume 03.Washington,D C,USA:IEEE Computer Society,2009:665-669.
[16]Platt JC.Fast training of support vector machines using sequential minimal optimization[M]∥Advances in kernel methods:Support vector learning.Cambridge,MA,USA:MIT Press,1999:185-208.
[17]Mitchell T.Machine Learning[M].Burr Ridge,IL,USA:McGraw Hill,1997.
[18]Bhattacharjee A,Richards W G,Staunton J,et al.Classification of human lung carcinomas by mRNA expression profiling reveals distinct adenocarcinoma subclasses[J].Proceedings of the National Academy of Sciences of the United States of America,2001,98(24):13790-13795.
[19]Mark H,Eibe F,Geoffrey H,et al.The WEKA data mining software:An update [J].ACM SIGKDD Explorations Newsletter,2009,11(1):10-18.
[20]Richards K L,Zhang B,Sun M,et al.Methylation of the candidate biomarker TCF21 is very frequent across a spectrum of early-stage nonsmall cell lung cancers[J].Cancer,2011,117(3):606-617.
[21]Wang H,Yan H,F(xiàn)u A,et al.TIP-1 translocation onto the cell plasma membrane is a molecular biomarker of tumor response to ionizing radiation[J].PloSOne,2010,5(8):e12051.
[22]Wang X,Wang L,Guo S,et al.Hypermethylation reduces expression of tumor-suppressor PLZF and regulates proliferation and apoptosis in non-small-cell lung cancers [J].The FASEB Journal,2013,27(10):4194-4203.
[23]Su Y J,Xu F,Yu J P,et al.Up-regulation of the expression of S100A8 and S100A9 in lung adenocarcinoma and its correlation with inflammation and other clinical features[J].Chinese Medical Journal(English),2010,123(16):2215-2220.
[24]Smith L T,Lin M,Brena RM,et al.Epigenetic regulation of the tumor suppressor gene TCF21 on 6q23-q24 in lung and head and neck cancer[J].Proceedings of the National Academy of Sciences of the United States of America,2006,103(4):982-987.
[25]Dennis G,Sherman B T,Hosack D A,et al.DAVID:Database for annotation,visualization,and integrated discovery[J].Genome Biology,2003,4(9):R60.
[26]Huang D W,Sherman B T,Lempicki R A.Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources[J].Nature Protocols,2009,4(1):44-57.