郭志飛 王碧玨 楊海濤 李 治 王菊平 曹紅艷,6△ 周立業(yè)△
【提 要】 目的 基于microRNA組學(xué)數(shù)據(jù),探討加權(quán)隨機(jī)森林在三陰性乳腺癌分類預(yù)測(cè)中的應(yīng)用,為疾病診斷提供方法學(xué)支撐。方法 以TCGA乳腺癌數(shù)據(jù)為例,采用加權(quán)隨機(jī)森林構(gòu)建三陰性乳腺癌的分類預(yù)測(cè)模型,并與隨機(jī)森林、logistic回歸、支持向量機(jī)、LASSO和嶺回歸五種模型進(jìn)行比較。結(jié)果 通過比較六種模型的5個(gè)評(píng)價(jià)指標(biāo),加權(quán)隨機(jī)森林模型的預(yù)測(cè)性能明顯優(yōu)于其他五種模型,加權(quán)隨機(jī)森林模型的靈敏度為0.852、特異度為0.873、準(zhǔn)確度為0.871、AUC值為0.862和G-means值為0.861。結(jié)論 加權(quán)隨機(jī)森林構(gòu)建的分類預(yù)測(cè)模型較好地識(shí)別了三陰性乳腺癌患者,可為三陰性乳腺癌的診斷提供方法學(xué)上的參考。
乳腺癌是全球發(fā)病率僅次于肺癌的第二大癌癥,是45~55歲女性死亡的主要原因,嚴(yán)重危害女性的健康和生命[1]。三陰性乳腺癌(triple negative breast cancer,TNBC)是乳腺癌的一種亞型,占乳腺癌的15% ~ 23.8%[2-3]。與非 TNBC相比,TNBC具有侵襲性強(qiáng)、惡性程度高、五年生存率低、預(yù)后差等特點(diǎn)[3-4]。目前對(duì)于TNBC的診斷大多是從影像學(xué)上進(jìn)行判斷,其中,核磁共振成像是診斷TNBC最精確的影像檢查技術(shù),診斷符合率高達(dá)98.28%,但其存在檢查費(fèi)用昂貴、耗時(shí)長(zhǎng)的問題;X線攝影作為乳腺首選的影像學(xué)檢查方法,容易漏診和誤診,尤其對(duì)40歲以下患者的診斷準(zhǔn)確性欠佳,且輻射較大,對(duì)孕婦等特殊人群不太適用[3,5-6]。因此,如何實(shí)現(xiàn)低成本、檢測(cè)快、無副作用的TNBC患者的分類預(yù)測(cè)非常重要。
近年來,大量研究證實(shí)microRNA(miRNA)與乳腺癌等疾病的發(fā)生、發(fā)展密切相關(guān),其在疾病診斷中有較高的應(yīng)用價(jià)值[7-8]。由于TNBC占乳腺癌的20%左右,在構(gòu)建TNBC分類預(yù)測(cè)模型時(shí)存在類別不平衡的問題。傳統(tǒng)的機(jī)器學(xué)習(xí)算法在處理類別不平衡數(shù)據(jù)時(shí),更關(guān)注于多數(shù)類的識(shí)別,對(duì)少數(shù)類的預(yù)測(cè)精度偏低[9]。代價(jià)敏感性學(xué)習(xí)方法結(jié)合不平衡數(shù)據(jù)的特點(diǎn)引入類權(quán)重概念,對(duì)傳統(tǒng)分類算法進(jìn)行改進(jìn),提高了不平衡數(shù)據(jù)的整體分類性能[10]。
因此,本文針對(duì)TCGA(The Cancer Genome Atlas)乳腺癌數(shù)據(jù),采用基于代價(jià)敏感性學(xué)習(xí)思想的加權(quán)隨機(jī)森林(weighted random forest,WRF),構(gòu)建三陰性乳腺癌的分類預(yù)測(cè)模型。同時(shí),將加權(quán)隨機(jī)森林與隨機(jī)森林、logistic回歸、支持向量機(jī)、LASSO和嶺回歸五種方法進(jìn)行比較,為識(shí)別TNBC患者提供輔助意見。
1.資料來源
使用TCGA-Assembler軟件在TCGA網(wǎng)站下載乳腺癌數(shù)據(jù)[11-12],從中選取包含臨床和miRNA組學(xué)數(shù)據(jù)的女性患者共740例,其中TNBC患者81例,non-TNBC患者659例。
2.研究方法
(1)變量篩選
miRNA有1871個(gè)變量,刪除零表達(dá)值所占比例≥20%的變量后,剩余811個(gè)變量。為了降低預(yù)測(cè)變量中的冗余信息,篩選出與結(jié)局相關(guān)的變量,故在構(gòu)建模型前需進(jìn)行變量篩選。Fan J等人[13]提出了確定獨(dú)立篩選(sure independence screening,SIS),該方法根據(jù)預(yù)測(cè)變量與反應(yīng)變量的邊際相關(guān)程度篩選出邊際相關(guān)強(qiáng)的變量。SIS可以快速有效地降低數(shù)據(jù)維度,篩選出重要變量,從而提高預(yù)測(cè)性能。因此,本文使用SIS對(duì)變量進(jìn)行篩選,最終得到了67個(gè)變量。
(2)嶺回歸、LASSO和支持向量機(jī)
嶺回歸和LASSO是通過對(duì)系數(shù)進(jìn)行約束或加罰來擬合模型的兩種方法[14-15]。二者都是將系數(shù)的估計(jì)值往0的方向進(jìn)行壓縮。但LASSO可以將某些系數(shù)的估計(jì)值強(qiáng)制壓縮為0,使所得模型更易解釋。
支持向量機(jī)(support vector machine,SVM)通過非線性映射函數(shù)將低維輸入空間映射到高維特征空間中,并在特征空間構(gòu)造判別函數(shù)對(duì)樣品進(jìn)行分類[16]。
(3)隨機(jī)森林
隨機(jī)森林(random forest,RF)通過bootstrap重采樣技術(shù),從乳腺癌原始數(shù)據(jù)中有放回地抽取n個(gè)樣本生成n棵分類樹,這n棵分類樹最終組成隨機(jī)森林,新數(shù)據(jù)的分類預(yù)測(cè)結(jié)果由分類樹投票決定[17-18]。
新數(shù)據(jù)的分類預(yù)測(cè)結(jié)果可用公式(1)表示:
(1)
其中,hi是單棵分類樹的基礎(chǔ)分類模型,Y是輸出變量(TNBC和non-TNBC),I(·)表示示性函數(shù)。
(4)加權(quán)隨機(jī)森林
在處理類別不平衡數(shù)據(jù)時(shí),RF以錯(cuò)誤率最小化為目標(biāo),傾向于將樣本劃分為多數(shù)類,導(dǎo)致其對(duì)少數(shù)類的預(yù)測(cè)精度偏低。因此,基于代價(jià)敏感性學(xué)習(xí)的思想,Chao C等人[19]提出了加權(quán)隨機(jī)森林的方法來解決上述問題。在二分類數(shù)據(jù)中,分布較大的稱為多數(shù)類,其他稱為少數(shù)類。兩個(gè)類別都有各自的權(quán)重,WRF給予少數(shù)類較大的權(quán)重,多數(shù)類較小的權(quán)重[20]。在設(shè)置不平衡數(shù)據(jù)權(quán)重時(shí),將少數(shù)類的權(quán)重設(shè)置為2或3較合適[21]。
WRF在引入類權(quán)重后,選擇劃分屬性的基尼指數(shù)會(huì)發(fā)生改變:
(2)
Δi=i(N)-i(NL)-i(NR)
(3)
其中,N是根節(jié)點(diǎn),NL和NR是左右兩個(gè)子節(jié)點(diǎn),Wj是第j類的權(quán)重,nj是第j類的樣本量,Δi是節(jié)點(diǎn)降低的不純度。在構(gòu)建分類樹時(shí),通常選擇節(jié)點(diǎn)基尼指數(shù)最小的屬性為最優(yōu)劃分屬性。
類權(quán)重也會(huì)影響每棵分類樹的終端節(jié)點(diǎn)。隨機(jī)森林每個(gè)終端節(jié)點(diǎn)的最終預(yù)測(cè)結(jié)果是通過綜合考慮每棵分類樹的加權(quán)投票(案例數(shù)×每個(gè)類的指定權(quán)重)來確定的。
(4)
WRF有三個(gè)重要的參數(shù):類權(quán)重classwt的大小;每個(gè)節(jié)點(diǎn)隨機(jī)選擇特征的數(shù)目mtry;樹的棵樹ntree。經(jīng)驗(yàn)證,這三個(gè)參數(shù)分別設(shè)置為classwt=1∶2,mtry=3,ntree=400時(shí),WRF模型的預(yù)測(cè)性能最佳。
(5)模型構(gòu)建與比較
采用分層抽樣,從TNBC和non-TNBC樣本中分別抽取70%樣本作為訓(xùn)練集,用于構(gòu)建模型。將剩余的30%樣本作為測(cè)試集,用于評(píng)價(jià)模型的預(yù)測(cè)性能。將變量篩選后得到的67個(gè)預(yù)測(cè)變量作為輸入變量,將是否為TNBC作為結(jié)局變量,將WRF、RF、logistic回歸、SVM、LASSO和嶺回歸這六種方法在同一訓(xùn)練集上構(gòu)建分類預(yù)測(cè)模型,并利用測(cè)試集數(shù)據(jù)進(jìn)行預(yù)測(cè),通過靈敏度(Se)、特異度(Sp)、準(zhǔn)確度(ACC)、受試者工作特征曲線下的面積(AUC)和G-means五個(gè)指標(biāo)對(duì)模型的性能進(jìn)行評(píng)價(jià)。為了保證預(yù)測(cè)結(jié)果的穩(wěn)定性,抽樣和模型構(gòu)建過程重復(fù)500次。
從研究結(jié)果可以看出,無論是語際錯(cuò)誤,還是語內(nèi)錯(cuò)誤中的詞匯錯(cuò)誤與句法錯(cuò)誤,知識(shí)能力的不足都是其根本原因。
(6)統(tǒng)計(jì)方法實(shí)現(xiàn)
支持向量機(jī)選擇的核函數(shù)為高斯核函數(shù),其帶寬使用默認(rèn)值。logistic回歸是一個(gè)概率預(yù)測(cè)模型,概率大于0.5為患病,小于等于0.5為未患病。統(tǒng)計(jì)分析采用R軟件,screening包用于變量篩選,e1071包用于構(gòu)建支持向量機(jī)模型,glmnet包用于構(gòu)建LASSO和嶺回歸模型,randomForest包用于構(gòu)建隨機(jī)森林和加權(quán)隨機(jī)森林模型。
1.研究對(duì)象的基本特征
本次研究共納入740例樣本,其中TNBC患者81例,占10.95%,non-TNBC患者659例,占89.05%;平均年齡為(58.16±13.18)歲,45~54歲年齡段的人數(shù)居多,占29.46%;生存狀態(tài)中生存人數(shù)675人,占91.22%,死亡人數(shù)65人,占8.78%;臨床分期共4個(gè)階段,其中處于Ⅰ~Ⅱ階段的人數(shù)居多,占75.14%。詳見表1。
表1 一般人口學(xué)資料
2.參數(shù)選擇
(1)加權(quán)隨機(jī)森林classwt的設(shè)置
WRF不設(shè)類權(quán)重,即類權(quán)重設(shè)置為1∶1時(shí),分類效果并不理想(Se=0.305,Sp=0.973)。我們將類權(quán)重分別設(shè)置為1∶2、1∶3、1∶4和1∶5,并在測(cè)試數(shù)據(jù)集上進(jìn)行驗(yàn)證,不同類權(quán)重構(gòu)建的各模型預(yù)測(cè)性能結(jié)果如表2所示。
(2)加權(quán)隨機(jī)森林mtry的選擇
在構(gòu)建WRF模型時(shí),ntree設(shè)定為默認(rèn)值(ntree=500),逐漸增加變量建模,比較模型袋外數(shù)據(jù)的錯(cuò)誤率均值。由圖1可以看出,特征數(shù)目為3時(shí),模型的錯(cuò)誤率最低。為進(jìn)一步通過綜合評(píng)價(jià)指標(biāo)AUC和G-means來評(píng)價(jià)模型的性能,故將mtry分別設(shè)置為2、3、4、5、6、7、8、9和10,并在測(cè)試數(shù)據(jù)集上進(jìn)行驗(yàn)證,不同特征數(shù)目時(shí)各模型的預(yù)測(cè)性能結(jié)果如表3所示。
圖1 模型錯(cuò)誤率均值隨選擇特征數(shù)目變化曲線圖
表2 不同權(quán)重構(gòu)建的加權(quán)隨機(jī)森林模型的預(yù)測(cè)性能比較
表3 不同特征數(shù)目的加權(quán)隨機(jī)森林模型的預(yù)測(cè)性能比較
從表3中可以看出,隨著mtry的逐漸增加,模型的靈敏度逐漸降低,特異度逐漸增加。當(dāng)mtry取值為3時(shí),模型的AUC和G-means最優(yōu),因此模型的參數(shù)mtry設(shè)定為3。
(3)加權(quán)隨機(jī)森林ntree的選擇
將參數(shù)ntree分別設(shè)置為200、400、500、600、800和1000,并在測(cè)試數(shù)據(jù)集上進(jìn)行驗(yàn)證,對(duì)不同樹棵數(shù)的加權(quán)隨機(jī)森林模型進(jìn)行預(yù)測(cè)性能的比較,各模型的預(yù)測(cè)性能如表4所示。
表4 不同樹棵數(shù)的加權(quán)隨機(jī)森林模型的預(yù)測(cè)性能比較
從表4中可以看出,五個(gè)不同參數(shù)模型的分類效果相差不大,當(dāng)ntree≥400時(shí),各個(gè)加權(quán)隨機(jī)森林模型的各項(xiàng)評(píng)價(jià)指標(biāo)均趨于平穩(wěn),因此模型的參數(shù)ntree設(shè)定為400。
(4)模型性能總結(jié)
表5展示了重復(fù)抽樣500次,六種機(jī)器學(xué)習(xí)方法的5個(gè)評(píng)價(jià)指標(biāo)的結(jié)果。五種模型(RF、logistic回歸、SVM、LASSO和嶺回歸)的ACC值均高于0.87,Sp值均高于0.92,都偏向于識(shí)別non-TNBC樣本。但這五個(gè)模型的Se都較低,分別為0.309、0.466、0.012、0.122、0.105,可以看出傳統(tǒng)的機(jī)器學(xué)習(xí)方法對(duì)少數(shù)類(TNBC患者)的識(shí)別能力較差。
從表5RF和WRF的評(píng)價(jià)指標(biāo)可得,WRF在Se、AUC和G-means指標(biāo)上均明顯優(yōu)于RF。尤其在Se指標(biāo)上,WRF比RF高出了0.543,可見在分析不平衡數(shù)據(jù)時(shí)WRF能夠有效地識(shí)別少數(shù)類患者。
根據(jù)綜合指標(biāo)AUC值和G-means值來看,WRF的分類預(yù)測(cè)性能最好,其AUC值為0.862、G-means值為0.861,其余各指標(biāo)的值參見表5。綜上,WRF在多個(gè)指標(biāo)上明顯優(yōu)于其他五種方法,可幫助臨床醫(yī)生識(shí)別TNBC患者。
表5 六種機(jī)器學(xué)習(xí)方法在三陰性乳腺癌預(yù)測(cè)中的結(jié)果比較
構(gòu)建TNBC的分類預(yù)測(cè)模型時(shí),大多是利用圖像特征來構(gòu)建分類預(yù)測(cè)模型。Wu T等人[22]利用超聲圖像特征構(gòu)建了logistic回歸模型,其靈敏度和特異度分別為0.869 和0.829。Wang J等人[23]在提取核磁共振圖像的特征后,使用支持向量機(jī)構(gòu)建了TNBC的分類預(yù)測(cè)模型,模型的靈敏度和特異度分別為0.570和0.947。然而,通過提取圖像特征構(gòu)建的模型靈敏度或特異度較低,使就診患者存在較高的被誤診或漏診的可能性,在用于輔助臨床診斷時(shí)尚不能讓人滿意。
miRNA與人類多種疾病密切相關(guān),其對(duì)疾病分類預(yù)測(cè)有重要的臨床意義。蔡莉等人[24]使用miRNA識(shí)別多發(fā)性骨髓瘤患者時(shí),靈敏度達(dá)0.86。張杰銘等人[25]發(fā)現(xiàn)循環(huán)miRNA在鼻咽癌患者的診斷中有重要的潛在價(jià)值,模型AUC值高達(dá)0.91。本研究對(duì)乳腺癌數(shù)據(jù)進(jìn)行了挖掘,探索了miRNA在篩檢TNBC患者中的臨床意義,發(fā)現(xiàn)使用miRNA數(shù)據(jù)對(duì)TNBC進(jìn)行預(yù)測(cè)時(shí)效果良好,提示miRNA在TNBC分類預(yù)測(cè)中有潛在的生物學(xué)價(jià)值。
針對(duì)傳統(tǒng)機(jī)器學(xué)習(xí)在處理類別不平衡數(shù)據(jù)時(shí)不能有效識(shí)別少數(shù)類的問題,本研究在建模時(shí)運(yùn)用了基于代價(jià)敏感性學(xué)習(xí)思想的WRF方法,其構(gòu)建的模型有良好的分類預(yù)測(cè)性能。WRF在處理不平衡數(shù)據(jù)時(shí),有兩大優(yōu)勢(shì):不同于重采樣技術(shù)需要將原始的不平衡數(shù)據(jù)構(gòu)造為類別平衡的數(shù)據(jù)集,WRF不需要改變?cè)紨?shù)據(jù)的結(jié)構(gòu),其在構(gòu)建模型的過程中,所用的醫(yī)學(xué)數(shù)據(jù)仍能夠代表該疾病的普遍發(fā)生率;WRF通過對(duì)不同類別設(shè)置權(quán)重,讓少數(shù)類的權(quán)重增大,從而加大少數(shù)類錯(cuò)分的代價(jià),使模型對(duì)成本敏感,達(dá)到錯(cuò)分代價(jià)最小化的目的,讓模型在保持了較高特異性的同時(shí),也能夠提高對(duì)少數(shù)類預(yù)測(cè)的準(zhǔn)確性。
綜上所述,加權(quán)隨機(jī)森林是一個(gè)良好的分類器,有助于識(shí)別三陰性乳腺癌患者,能夠?yàn)槿幮匀橄侔┑脑\斷提供理論指導(dǎo),同時(shí)加權(quán)隨機(jī)森林算法也為在運(yùn)用醫(yī)學(xué)非均衡數(shù)據(jù)構(gòu)建疾病分類預(yù)測(cè)模型時(shí)提供了思路。