劉嘉欣,王宏偉,王 佳
(1. 新疆大學(xué)電氣工程學(xué)院,新疆 烏魯木齊 830000;2. 大連醫(yī)科大學(xué)基礎(chǔ)醫(yī)學(xué)院,遼寧 大連110041;3. 艾美漢信疫苗(大連)有限公司,遼寧 大連 116100)
乳腺癌是全球范圍內(nèi),女性患癌中最常見(jiàn)的癌癥,并且其發(fā)病率呈現(xiàn)出逐年升高的趨勢(shì)。根據(jù)世界衛(wèi)生組織統(tǒng)計(jì),僅2018年,全球新發(fā)乳腺癌 210 萬(wàn)例,發(fā)病率、死亡率均居女性癌癥榜首[1]。以我國(guó)2011年為例,中國(guó)女性乳腺癌發(fā)病人數(shù)約24.9萬(wàn),發(fā)病率37.86/10萬(wàn),且其發(fā)病率與死亡率仍呈現(xiàn)一個(gè)上升趨勢(shì)[2]。期望通過(guò)精準(zhǔn)的乳腺癌預(yù)后診斷,實(shí)現(xiàn)高效、個(gè)性化治療,進(jìn)而提高患者五年生存率,提升患者生存幸福感。
當(dāng)前對(duì)影響乳腺癌預(yù)后的因素研究,大致分為以下幾個(gè)方面:一是根據(jù)遺傳學(xué)與人口統(tǒng)計(jì)學(xué)詳解的預(yù)后因素研究。如A. R. Carmichael指出[3],肥胖與乳腺癌復(fù)發(fā)存在一定關(guān)系,并且體重控制應(yīng)作為防止乳腺癌復(fù)發(fā)策略之一;二是根據(jù)病理學(xué)特征,治療手段等進(jìn)行預(yù)后分析。例如CH Koh,N Bhoo-Pathy等[4],對(duì)中性白細(xì)胞與淋巴細(xì)胞比值,血小板與淋巴細(xì)胞比值在乳腺癌預(yù)后中的作用進(jìn)行研究,證明,該比值可作為乳腺癌預(yù)后的特征,存在附加價(jià)值;三是根據(jù)基因數(shù)據(jù),選擇影響基因,進(jìn)行預(yù)后預(yù)測(cè)。例如Laura J. van ′t Veer,Hongyue Dai等[5],通過(guò)對(duì)117例乳腺癌患者基因微陣列數(shù)據(jù)分析,證明相較于當(dāng)前使用的臨床參數(shù),基因表達(dá)譜在乳腺癌預(yù)后方面表現(xiàn)更為優(yōu)異。
相比當(dāng)前臨床使用的預(yù)后指標(biāo),如淋巴結(jié)狀態(tài)、腫瘤因素等,存在一定的不確定性,基因數(shù)據(jù)分析更加的準(zhǔn)確,可靠,且具有更強(qiáng)的泛化能力因此,對(duì)基因數(shù)據(jù)進(jìn)行分析,實(shí)現(xiàn)乳腺癌預(yù)后診斷,十分具有研究?jī)r(jià)值。
但與此同時(shí),基因數(shù)據(jù)也被稱(chēng)為高維、冗余數(shù)據(jù)。而在癌癥的預(yù)后診斷中只需要少量的特征基因,而基因數(shù)據(jù)具有龐大的搜索空間。因此如何得到精簡(jiǎn)、高效特征基因,進(jìn)而實(shí)現(xiàn)更為精準(zhǔn)的預(yù)后預(yù)測(cè),十分必要。隨著機(jī)器學(xué)習(xí)算法不斷地發(fā)展,以及多學(xué)科的融合,使得乳腺癌基因表達(dá)數(shù)據(jù)的使用更加多樣、準(zhǔn)確和高效。如Kavitha K R等[6],使用基于相關(guān)支持向量機(jī)的遞歸多特征消除算法與虛擬基因,實(shí)現(xiàn)對(duì)基因數(shù)據(jù)的乳腺癌預(yù)測(cè)。易叢琴等[7],提出基于模糊支持向量機(jī)的乳腺癌基因數(shù)據(jù)特征提取,有效提高了基于乳腺癌基因數(shù)據(jù)的分類(lèi)準(zhǔn)確率。秦璞等[12],對(duì)t-檢驗(yàn)后的基因表達(dá)數(shù)據(jù)進(jìn)行FDR(假發(fā)現(xiàn)率)以及隨機(jī)森林降維,后建立分類(lèi)預(yù)測(cè)模型,發(fā)現(xiàn)特征排序中較靠前基因均與三陰性乳腺癌遷移、預(yù)后相關(guān)。
但是,上述研究仍存在一定問(wèn)題。如理論研究大多基于數(shù)據(jù)集樣本比例均勻條件下,實(shí)際樣本中,多存在樣本比例不平衡的情況,不平衡樣本對(duì)算法結(jié)果是否造成影響,如何減少其帶來(lái)的影響;模型大都選擇一次完成降維,易忽略部分特征,且所提取特征是否足夠穩(wěn)定、簡(jiǎn)潔;其次,去除冗余特征與特征提取是否可以同時(shí)進(jìn)行。
基于針對(duì)以上問(wèn)題,本文進(jìn)行基于Lasso-RFE的高維不平衡數(shù)據(jù)的乳腺癌預(yù)后分類(lèi)研究。對(duì)公開(kāi)數(shù)據(jù)庫(kù)美國(guó)國(guó)立生物技術(shù)信息中心(NCBI,National Center for Biotechnology Information)數(shù)據(jù)庫(kù)進(jìn)行分析,建立乳腺癌預(yù)后模型。首先,使用Wilcoxon-test對(duì)基因表達(dá)數(shù)據(jù)進(jìn)行差異表達(dá)分析;其次,對(duì)算法采樣方式進(jìn)行改進(jìn),后使用Lasso-RFE算法,實(shí)現(xiàn)不平衡基因表達(dá)數(shù)據(jù)的降維與穩(wěn)定特征選擇。最終,使用支持向量機(jī)進(jìn)行分類(lèi)預(yù)測(cè),建立37個(gè)特征基因的乳腺癌預(yù)后預(yù)測(cè)模型,對(duì)乳腺癌五年預(yù)后結(jié)果進(jìn)行預(yù)測(cè),結(jié)果準(zhǔn)確率達(dá)到94%。與其它傳統(tǒng)模型對(duì)比,本模型在敏感性、準(zhǔn)確率方面得到提高。
2.1.1 基于數(shù)據(jù)層面的平衡數(shù)據(jù)構(gòu)建
乳腺癌基因表達(dá)數(shù)據(jù)中,多存在陽(yáng)性樣本數(shù)量較少的情況。而常用數(shù)據(jù)挖掘算法,對(duì)多數(shù)類(lèi)樣本更加敏感,因此無(wú)法得到較好的結(jié)果[8]。為避免或減少因樣本不平衡對(duì)特征基因選擇造成的誤差,從數(shù)據(jù)層面出發(fā),通過(guò)改變采樣方式,對(duì)數(shù)據(jù)進(jìn)行重構(gòu)。根據(jù)采樣方式不同,重構(gòu)方式可分為過(guò)采樣,欠采樣,雙采樣,以及人工合成數(shù)據(jù)[9]。
過(guò)采樣通過(guò)隨機(jī)過(guò)采樣或基于先驗(yàn)信息,對(duì)少數(shù)類(lèi)樣本進(jìn)行重復(fù),達(dá)到平衡樣本比例的目的。欠采樣,即對(duì)多數(shù)類(lèi)樣本,采用與過(guò)采樣相同方案,進(jìn)行無(wú)放回采樣。雙采樣則是對(duì)少數(shù)類(lèi)樣本進(jìn)行過(guò)采樣,對(duì)多數(shù)類(lèi)樣本進(jìn)行欠采樣的一種混合采樣方式。人工合成數(shù)據(jù)利用過(guò)采樣技術(shù),對(duì)少類(lèi)樣本數(shù)據(jù)通過(guò)SMOTE等方法,進(jìn)行人工合成。
本文選擇雙采樣的方式對(duì)基因表達(dá)數(shù)據(jù)的訓(xùn)練數(shù)據(jù)進(jìn)行重構(gòu),即對(duì)其中少數(shù)類(lèi)陽(yáng)性性樣本進(jìn)行過(guò)采樣,多數(shù)類(lèi)陰性樣本進(jìn)行欠采樣。
2.1.2 Lasso
基因數(shù)據(jù)具有特征冗余的特點(diǎn),為實(shí)現(xiàn)預(yù)測(cè),避免維數(shù)災(zāi)難,需要對(duì)其進(jìn)行降維及特征選擇。稀疏模型可以去除大量的冗余特征,留下與標(biāo)簽高度相關(guān)的特征,實(shí)現(xiàn)降維的目的。Tibshirani[10]通過(guò)將嶺回歸中的L2懲罰項(xiàng)替換為L(zhǎng)1懲罰項(xiàng),最小二乘部分保持不變,得到了Lasso(Least Absolute Shrinkage and Selection Operator),實(shí)現(xiàn)模型的稀疏化,具有同時(shí)實(shí)現(xiàn)特征選擇與空間降維的優(yōu)點(diǎn)。
對(duì)于雙采樣后的訓(xùn)練數(shù)據(jù)數(shù)據(jù),其線性回歸模型為
Y=Xθ+ε
(1)
(2)
Lasso與最小二乘法相比,不具有顯式解,可通過(guò)坐標(biāo)下降法迭代得到其解。則求解Lasso回歸系數(shù)θj更新公式可表示為
(3)
2.1.3 基于Lasso-RFE的特征提取
各個(gè)特征對(duì)模型重要程度不同,為使得模型擁有更好的魯棒性,選擇遞歸式特征消除算法(Recursive Feature Elimination,RFE)對(duì)特征基因進(jìn)行篩選?;舅枷霝椋褂锰卣飨蛄繉?duì)機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練,得到相應(yīng)特征權(quán)重,移除權(quán)重較小特征。使用剩余特征進(jìn)行新一輪訓(xùn)練,直至全部特征均被移除。在本文中,使用基于Lasso的RFE改進(jìn)算法。在實(shí)現(xiàn)特征選擇的同時(shí)去除冗余特征[14],具體算法描述如下:
1)假定初始狀態(tài),特征子集包含q個(gè)特征向量,訓(xùn)練Lasso估計(jì)模型,重復(fù)運(yùn)行 L次;
2)計(jì)算各特征出現(xiàn)頻次,作為當(dāng)前特征權(quán)重,移除權(quán)重最小特征,更新特征子集;
3)重復(fù)步驟1)-2),直至特征子集無(wú)變化。
5)重復(fù)運(yùn)行步驟4)直至當(dāng)前特征子集剩余一個(gè)特征向量。
最終得到多組特征子集,分別對(duì)其訓(xùn)練分類(lèi)模型,以分類(lèi)準(zhǔn)確率作為標(biāo)準(zhǔn),選擇最優(yōu)子集。
相較于其它分類(lèi)算法,支持向量機(jī)對(duì)小樣本數(shù)據(jù)分類(lèi),具有良好的魯棒性與泛化能力,與基因表達(dá)數(shù)據(jù)分類(lèi)需求相同。因此選擇支持向量機(jī)算法,實(shí)現(xiàn)對(duì)標(biāo)簽的分類(lèi)預(yù)測(cè)。
(4)
(5)
(6)
傳統(tǒng)評(píng)價(jià)方式多選擇準(zhǔn)確性作為分類(lèi)標(biāo)準(zhǔn),相對(duì)不平衡數(shù)據(jù)而言,準(zhǔn)確率具有一定欺騙性。本文選擇混淆矩陣作為評(píng)價(jià)準(zhǔn)則,如表1所示,可以根據(jù)真實(shí)標(biāo)簽,以及預(yù)測(cè)標(biāo)簽評(píng)估模型的性能。根據(jù)混淆矩陣可得到以下評(píng)價(jià)標(biāo)準(zhǔn):
1) 敏感性,即樣本為陽(yáng)性,預(yù)測(cè)結(jié)果也為陽(yáng)性的幾率,表示為T(mén)P/(TP+FN);
2) 特異性,即樣本為陰性,同時(shí)預(yù)測(cè)結(jié)果也為陰性TN/(FP+TN);
3) 假陽(yáng)性率,即樣本為陰性,預(yù)測(cè)結(jié)果為陽(yáng)性概率,表示為FP/(FP+TN);
4)假陰性率為(1-假陽(yáng)性率)。
同時(shí),采用ROC曲線(receiver operating characteristic curve),即受試者工作特征曲線,從泛化性能角度出發(fā),評(píng)價(jià)模型泛化性能。其中,橫坐標(biāo)為假陽(yáng)性率,縱坐標(biāo)為真陽(yáng)性率,表示為T(mén)P/(TP+FN)。
表1 預(yù)測(cè)結(jié)果混淆矩陣
本文收集來(lái)自美國(guó)國(guó)立生物技術(shù)信息中心的基因組數(shù)據(jù)庫(kù)(https:∥www.ncbi.nlm.nih.gov/)基因芯片數(shù)據(jù)GSE1456,包含159個(gè)樣本(其中40個(gè)陽(yáng)性樣本,119個(gè)陰性樣本),41683個(gè)特征,算法流程框圖如圖1所示。
圖1 算法流程圖
基因表達(dá)原始數(shù)據(jù)具有數(shù)據(jù)維度高,冗余多,不規(guī)范,數(shù)量級(jí)不一致的特點(diǎn),無(wú)法進(jìn)行直接進(jìn)行特征提取,需進(jìn)行數(shù)據(jù)預(yù)處理,如下:
1) 刪除重復(fù)樣本,即同一個(gè)GEO編號(hào)對(duì)應(yīng)多個(gè)樣本;
2) 陣列質(zhì)量檢查;
3) 進(jìn)NUSE(Normalized Unscaled Standard Errors)分析,刪除被歸為異常值樣本;
4) 對(duì)數(shù)據(jù)進(jìn)行歸一化處理(包含分位數(shù)歸一化);
5) 進(jìn)行主成分析,若一對(duì)樣本相關(guān)性大于0.9,判定為復(fù)制樣本,隨機(jī)刪除其中一個(gè)樣本;
6) 檢查探針I(yè)D與ENTREZ_GENE_ID,若一個(gè)ENTREZ_GENE_ID對(duì)應(yīng)多個(gè)探針,則選擇表達(dá)值方差較高的一組。
通過(guò)數(shù)據(jù)預(yù)處理,篩選符合要求的樣本數(shù)量為147個(gè)樣本(其中33個(gè)正例,114個(gè)反例),基因特征為12750個(gè)。
高維基因數(shù)據(jù)中,存在部分特征基因?qū)Σ煌?lèi)型標(biāo)簽,不具有顯著差異。因此,使用Wilcoxon秩和檢驗(yàn)對(duì)預(yù)處理后的基因數(shù)據(jù)進(jìn)行差異性分析[13],篩選對(duì)標(biāo)簽具有顯著表達(dá)差異的特征基因,為后續(xù)特征選擇做好準(zhǔn)備。
假定顯著性水平為0.05,使用Wilcoxon秩和檢驗(yàn)對(duì)特征基因進(jìn)行差異性分析,即判斷特征基因陽(yáng)性樣本表達(dá)值與陰性表達(dá)值是否具有顯著差異。當(dāng)p值<0.05,即表達(dá)值分布不同,具有差異性;若P值>0.05,則表達(dá)值分布一致,做刪除處理。經(jīng)過(guò)差異性分析,共2542個(gè)特征基因滿(mǎn)足。
為避免小類(lèi)樣本對(duì)機(jī)器學(xué)習(xí)算法造成的不穩(wěn)定以及敏感性較差現(xiàn)象。分別對(duì)訓(xùn)練數(shù)據(jù)使用過(guò)采樣、欠采樣、雙采樣以及人工合成法進(jìn)行重構(gòu)。并對(duì)其使用Lasso算法進(jìn)行穩(wěn)定特征選擇,后使用支持向量機(jī)模型進(jìn)行分類(lèi)。對(duì)表2分類(lèi)模型特異性、敏感性進(jìn)行對(duì)比,最終選擇雙采樣對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行處理。訓(xùn)練數(shù)據(jù)經(jīng)雙采樣,其樣本比例如表3所示。
表2 數(shù)據(jù)處理方式對(duì)比
表3 樣本比例對(duì)比
對(duì)雙采樣后的基因表達(dá)數(shù)據(jù),使用本文2.1.3節(jié)中所示Lasso-RFE算法對(duì)無(wú)關(guān)特征及冗余特征進(jìn)行消除。其中,Lasso估計(jì)使用k折交叉驗(yàn)證,估計(jì)最優(yōu)λ,得到一系列可調(diào)節(jié)參數(shù)λ與二項(xiàng)式偏差對(duì)應(yīng)關(guān)系,如圖2所示。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)特征數(shù)量遠(yuǎn)大于樣本數(shù)量時(shí),由于交叉驗(yàn)證選取樣本存在隨機(jī)性,最優(yōu)λ與隨機(jī)劃分的樣本相關(guān),選擇樣本發(fā)生改變,最優(yōu)λ隨之變化,進(jìn)而特征選擇發(fā)生改變,如表4所示。
為避免最優(yōu)λ改變帶來(lái)的特征選擇變化,得到穩(wěn)定的特征選擇結(jié)果,多次運(yùn)行Lasso,根據(jù)特征出現(xiàn)頻次進(jìn)行選擇,出現(xiàn)頻次越高,即特征越重要。因此,使用Lasso-RFE算法時(shí),均重復(fù)運(yùn)行Lasso500次,利用10折交叉驗(yàn)證確定最優(yōu)λ。最終,得到多個(gè)特征子集。
圖2 Lasso確定可調(diào)參數(shù)過(guò)程圖
表4 可調(diào)參數(shù)對(duì)照表
根據(jù)Lasso-RFE算法得到的候選特征子集,使用支持向量機(jī)訓(xùn)練分類(lèi)模型,可得一系列特征子集與分類(lèi)模型準(zhǔn)確性對(duì)應(yīng)關(guān)系。如表5所示,可知使用37個(gè)特征基因進(jìn)行訓(xùn)練時(shí)為最優(yōu)點(diǎn)。分別是EIF2B1,TOR1A,SMAD4,CREBZF,ATG13,LSM1,SKP2,JUND,CEP164,CA3,ZNF211,UBFD1,LRP2,NMU,SEMA3F,CRISP3,ESM1,RPS14,CBR1,NFIX,EFCAB11,ZFP36L1,MT2A,ZNF259P1,DYNLRB1,SSBP3,PLEKHJ1,USP16,TRIAP1,REEP4,RPL26L1,DNAJC12,KLHL2,HEATR3,L2HGDH,HOXC8,SCIN。
表5 特征子集與分類(lèi)模型準(zhǔn)確性對(duì)應(yīng)關(guān)系
使用未進(jìn)行雙采樣的訓(xùn)練數(shù)據(jù)數(shù)據(jù)(包含2542個(gè)特征),分別訓(xùn)練隨機(jī)森林、支持向量機(jī)、Adaboost、KNN分類(lèi)器;并使用測(cè)試樣本對(duì)分類(lèi)器進(jìn)行驗(yàn)證,結(jié)果如表6所示。實(shí)驗(yàn)表明,當(dāng)數(shù)據(jù)處于高維狀態(tài)時(shí),隨機(jī)森林、支持向量機(jī)分類(lèi)器無(wú)法有效對(duì)陽(yáng)性樣本進(jìn)行分類(lèi),Adaboost、KNN分類(lèi)器雖擁有較好的效果,但特征存在大量冗余,無(wú)法滿(mǎn)足使用少量特征基因進(jìn)行預(yù)后診斷的需求。
表6 預(yù)處理后數(shù)據(jù)分類(lèi)結(jié)果
而本文通過(guò)使用Lasso-RFE對(duì)特征基因進(jìn)行篩選,最終得到37個(gè)特征基因,建立SVM分類(lèi)模型,可更加精準(zhǔn)實(shí)現(xiàn)乳腺癌預(yù)后預(yù)測(cè)。其中,支持向量機(jī)核函數(shù)選擇徑向基函數(shù),最終得到43個(gè)支持向量。經(jīng)測(cè)試集檢驗(yàn),根據(jù)分類(lèi)結(jié)果混淆矩陣,如表7所示,可得模型敏感性為0.82,特異性為0.97,分類(lèi)準(zhǔn)確率可達(dá)94%。且根據(jù)圖3所示ROC曲線,可得AUC面積為0.923,證明該分類(lèi)器具有良好分類(lèi)性能。
表7 分類(lèi)結(jié)果混淆矩陣
圖3 支持向量機(jī)ROC曲線
為更加全面評(píng)估模型的性能,本文采用不同的特征選擇、預(yù)后預(yù)測(cè)建模方法進(jìn)行乳腺癌預(yù)后預(yù)測(cè)分析,如表8所示。
根據(jù)表8,未進(jìn)行雙采樣時(shí),算法敏感性較低,模型無(wú)法對(duì)陽(yáng)性樣本進(jìn)行很好的辨別;雖然,改變SVM分類(lèi)閾值后敏感性顯著提高,但是犧牲了特異性,模型無(wú)法對(duì)陰性樣本進(jìn)行很好的分類(lèi)。因此,可知在使用Lasso估計(jì)實(shí)現(xiàn)特征選擇時(shí),易受不平衡樣本比例影響。對(duì)輸入數(shù)據(jù)進(jìn)行雙采樣后,樣本比例不平衡現(xiàn)象得到改善,模型敏感性顯著改善,具有顯著優(yōu)勢(shì)。相較于一般Lasso算法,本文提出的Lasso-RFE有效簡(jiǎn)化了模型,實(shí)現(xiàn)了穩(wěn)定、準(zhǔn)確的特征選擇,有效提高了模型準(zhǔn)確率。相較于傳統(tǒng)Lasso-SVM模型,模型敏感性,準(zhǔn)確率均得到了改善,實(shí)現(xiàn)了更加簡(jiǎn)潔、準(zhǔn)確的乳腺癌預(yù)后預(yù)測(cè)。
表8 各模型對(duì)比
本文建立基于改進(jìn)Lasso-RFE的SVM乳腺癌預(yù)后預(yù)測(cè)模型,本模型根據(jù)乳腺癌患者基因表達(dá)數(shù)據(jù),對(duì)未來(lái)五年是否復(fù)發(fā)進(jìn)行預(yù)測(cè)。模型通過(guò)雙采樣,有效減少了由于比例樣本不平衡對(duì)實(shí)驗(yàn)結(jié)果帶來(lái)的影響;利用改進(jìn)Lasso-RFE算法,實(shí)現(xiàn)了穩(wěn)定的特征提取,避免一次性大規(guī)模降維帶來(lái)的信息丟失;相較于傳統(tǒng)Lasso特征提取,改進(jìn)Lasso-RFE有效提高了分類(lèi)模型敏感性、準(zhǔn)確率。本文為相似數(shù)據(jù)類(lèi)型提供了新的處理思路。此外,模型結(jié)果可作為進(jìn)一步研究乳腺癌對(duì)基因表達(dá)數(shù)據(jù)影響的基礎(chǔ),對(duì)乳腺癌的臨床個(gè)性化治療具有重要意義。