鄧卓,蘇秉華,張凱
1. 北京理工大學(xué)珠海學(xué)院 光電成像技術(shù)與系統(tǒng)教育部重點(diǎn)實(shí)驗(yàn)室,廣東 珠海 519088;2. 北京理工大學(xué),北京 100081
集成學(xué)習(xí)(多分類器系統(tǒng))通過將多個(gè)弱學(xué)習(xí)器結(jié)合[1-2],獲得比單一學(xué)習(xí)器的泛化能力更加顯著的強(qiáng)分類器。目前集成學(xué)習(xí)根據(jù)個(gè)體學(xué)習(xí)器間的關(guān)系可以分為兩大類[3-4]:一種是學(xué)習(xí)器之間不存在依賴關(guān)系,可以同時(shí)生成并行化的方法,例如隨機(jī)森林[5-6];另一種則是個(gè)體學(xué)習(xí)器之間存在很強(qiáng)的依賴關(guān)系,必須串行生成的序列化方法,例如Xgboost[7-8]。所以論文應(yīng)用集成學(xué)習(xí)中典型的兩類算法模型,研究集成學(xué)習(xí)在醫(yī)療診斷領(lǐng)域的應(yīng)用方法與實(shí)際效果。
目前集成學(xué)習(xí)于醫(yī)療領(lǐng)域的應(yīng)用尚處于研究階段,貴州大學(xué)醫(yī)學(xué)院的張玉璽等[9]人研究了集成學(xué)習(xí)在糖尿病預(yù)測(cè)中的應(yīng)用,主要應(yīng)用了集成學(xué)習(xí)中的隨機(jī)森林模型,并與傳統(tǒng)機(jī)器學(xué)習(xí)的算法做了對(duì)比,表明了集成學(xué)習(xí)算法明顯由于傳統(tǒng)機(jī)器學(xué)習(xí)算法。濟(jì)南市中醫(yī)醫(yī)院的任雪等[10]人提出了基于主動(dòng)集成學(xué)習(xí)的中醫(yī)智能診斷模型及構(gòu)建方法,將多個(gè)不同的機(jī)器學(xué)習(xí)模型進(jìn)行集成訓(xùn)練,獲得更為準(zhǔn)確的中醫(yī)知識(shí)學(xué)習(xí)模型,試驗(yàn)結(jié)果表明,集成學(xué)習(xí)是一種新型有效的中醫(yī)診斷模型。廣東工業(yè)大學(xué)的曾安等[11]人提出了基于卷積神經(jīng)網(wǎng)絡(luò)和集成學(xué)習(xí)的阿爾茨海默癥早期診斷,實(shí)驗(yàn)采用MRI三個(gè)維度上的多個(gè)二維切片進(jìn)行集成訓(xùn)練,從而更加充分地利用MRI包含的有效信息。所以將集成學(xué)習(xí)應(yīng)用于醫(yī)療診斷領(lǐng)域的研究需要進(jìn)一步探索,加快實(shí)現(xiàn)我國(guó)智能醫(yī)療服務(wù),提高醫(yī)療診斷水平。
本項(xiàng)目首先建立了一個(gè)傳統(tǒng)的決策樹模型,方便與集成學(xué)習(xí)模型進(jìn)行對(duì)比驗(yàn)證,再利用交叉驗(yàn)證和網(wǎng)格搜索等方法建立了隨機(jī)森林模型和Xgboost模型,提高了模型的分類能力和AUC指標(biāo)。
模型訓(xùn)練采用的數(shù)據(jù)是美國(guó)Wisconsin醫(yī)院William H.Wolberg博士提供的乳腺癌數(shù)據(jù)樣本。經(jīng)過數(shù)據(jù)清洗處理后,一共有683個(gè)合格的實(shí)驗(yàn)樣本,其中正例(良性)樣本444個(gè),負(fù)例(惡性)樣本239個(gè),樣本共有九個(gè)特征值,分別是腫塊厚度、細(xì)胞大小的均勻性、細(xì)胞形狀的均勻性、邊緣粘性、單上皮細(xì)胞的大小、裸核、乏味染色體,正常核和有絲分裂。建立模型時(shí),將數(shù)據(jù)的70%作為實(shí)驗(yàn)訓(xùn)練樣本,剩余的30%測(cè)試樣本。
決策樹是利用已知各種情況的發(fā)生概率進(jìn)行決策,求取凈現(xiàn)值的期望值大于等于零的概率的一種樹形結(jié)構(gòu)模型[4,8]。其結(jié)構(gòu)如圖1所示,每棵樹都只有一個(gè)根節(jié)點(diǎn),底下有多個(gè)決策節(jié)點(diǎn),每一個(gè)分叉路徑代表某個(gè)分類的屬性值,最終數(shù)據(jù)根據(jù)其屬性值的分類全部落到葉子節(jié)點(diǎn),完成數(shù)據(jù)決策分類。
圖1 決策樹結(jié)構(gòu)
此項(xiàng)目所用決策樹的隨機(jī)變量的不確定性指標(biāo)(criterion)是CART決策樹用于分類問題時(shí)選擇最優(yōu)特征的指標(biāo)基尼指數(shù)(gini);規(guī)定每棵葉子節(jié)點(diǎn)所含樣本個(gè)數(shù)的最小值(min_sample_leaf)是1,規(guī)定每個(gè)決策節(jié)點(diǎn)所含樣本個(gè)數(shù)的最小值(min_samples_split)是2。
隨機(jī)森林是1995年由貝爾實(shí)驗(yàn)室的Tin Kam Ho提出的[12],該模型是根據(jù)多個(gè)決策樹分類器的輸出,采用投票取眾數(shù)的方法進(jìn)行決策[13,14],其模型結(jié)構(gòu)如圖2所示,第一層是弱分類器,每個(gè)弱分類器都根據(jù)數(shù)據(jù)做出自己的判斷,最后采取投票選擇投票最多的結(jié)果作為真實(shí)輸出結(jié)果。
圖2 隨機(jī)森林結(jié)構(gòu)
此項(xiàng)目模型利用了10折交叉驗(yàn)證和網(wǎng)格搜索等方法優(yōu)化模型,提高模型泛化能力和準(zhǔn)確度。n折交叉驗(yàn)證就是在訓(xùn)練模型時(shí)將訓(xùn)練樣本分成n份,其中的1份保留作為驗(yàn)證模型的數(shù)據(jù),其余的n-1個(gè)樣本用來訓(xùn)練,交叉驗(yàn)證重復(fù)n次,最終每個(gè)子樣本都驗(yàn)證一次,然后將n次的結(jié)果平均得到一個(gè)單一的估測(cè)值,可以防止模型過擬合,提高模型的泛化能力。
網(wǎng)格搜索就是列舉所有超參數(shù)的后選值,通過循環(huán)遍歷,嘗試每一種超參數(shù)對(duì)模型訓(xùn)練的好壞程度,最終選出最適合模型的參數(shù)搭配,可以提高模型準(zhǔn)確度。
此模型利用交叉驗(yàn)證和網(wǎng)格搜索方法調(diào)節(jié)超參數(shù),最終選出最優(yōu)網(wǎng)絡(luò)參數(shù)。其中弱分類器(estimators)的個(gè)數(shù)是40,此模型弱分類器采用決策樹,多棵決策樹集成隨機(jī)森林,每棵樹的最大深度(max_depth)不能超過10,每個(gè)決策節(jié)點(diǎn)所含樣本個(gè)數(shù)的最小值(min_samples_split)是12,每棵葉子節(jié)點(diǎn)所含樣本個(gè)數(shù)的最小值(min_sample_leaf)是4,criterion隨機(jī)變量的不確定性的指標(biāo)(criterion)是基尼指數(shù)(gini)。
Xgboost(極端梯度提升)是個(gè)體學(xué)習(xí)器之間存在依賴關(guān)系的樹集成模型,其使用K棵樹中的每棵樹對(duì)樣本預(yù)測(cè)的預(yù)測(cè)結(jié)果的和作為Xgboost模型的預(yù)測(cè)結(jié)果[15,16],其數(shù)學(xué)定義如式(1)所示。
其中i表示第i個(gè)樣本, 表示第fk棵樹模型,K表示樹的數(shù)量,yi表示模型的預(yù)測(cè)值,隨著樹的數(shù)量值增加,模型的預(yù)測(cè)值越接近實(shí)際值。
模型訓(xùn)練的目標(biāo)函數(shù)如式(2)所示。
其中γ是模型懲罰力度,w是葉子節(jié)點(diǎn)的分值,T表示每棵樹的葉子節(jié)點(diǎn)數(shù)量,λ是模型超參數(shù)。模型訓(xùn)練時(shí),對(duì)損失函數(shù)做二階泰勒展開,如公式(5)。
訓(xùn)練時(shí)不斷尋找最佳的樹模型加入到已有模型中,并更新樣本預(yù)測(cè)值。Xgboost模型的訓(xùn)練過程如圖3流程所示。
原始數(shù)據(jù)經(jīng)過第一個(gè)分類器之后輸出結(jié)果,再根據(jù)其結(jié)果調(diào)整樣本分布,使得之前訓(xùn)練器做錯(cuò)的訓(xùn)練樣本在后續(xù)得到更多的關(guān)注,然后基于調(diào)整后的樣本分布訓(xùn)練下一個(gè)弱分類器,以此類推,直到學(xué)習(xí)器數(shù)目達(dá)到指定值,然后將這些學(xué)習(xí)器進(jìn)行加權(quán)求和,正確率越高的弱學(xué)習(xí)器獲得的權(quán)重越大。
圖3 Xgboost結(jié)構(gòu)
此模型利用交叉驗(yàn)證和網(wǎng)格搜索方法調(diào)節(jié)超參數(shù),最終選出的最優(yōu)網(wǎng)絡(luò)參數(shù)。其中模型懲罰力度值(gamma)是0.1,模型的學(xué)習(xí)率(learning_rate)是0.2,每棵樹的最大深度(max_depth)是3,弱分類器的個(gè)數(shù)(estimators)是28,此模型弱分類器采用決策樹,正則化方程的超參數(shù)(lambda)是 1。
本項(xiàng)目的Xgboost模型共采用了28個(gè)弱分類器集成,每增加一個(gè)分類器都朝著優(yōu)化模型損失函數(shù)方向前進(jìn),模型效果如圖4所示,橫坐標(biāo)是分類器個(gè)數(shù),縱坐標(biāo)是模型的損失函數(shù),從圖中可以看出,隨著分類器的增加模型的損失函數(shù)逐漸減少。
圖4 Xgboost模型損失值
訓(xùn)練數(shù)據(jù)訓(xùn)練完模型后,再利用測(cè)試數(shù)據(jù)測(cè)試模型性能,此項(xiàng)目的三個(gè)模型經(jīng)過測(cè)試集測(cè)試的結(jié)果如表1所示,其中precision是查準(zhǔn)率(P),即分類正確的比例,P=真正例/(真正例+假正例);recall是召回率(R),即類別被正確選出來的比例R=真正例/(真正例+假反例);F1-score是P和R的一種調(diào)和平均,F(xiàn)1=2*P*R/(P+R);support是樣本個(gè)數(shù),根據(jù)三個(gè)模型的結(jié)果性能指標(biāo)可以看出隨機(jī)森林模型和Xgboost模型的效果明顯好于決策樹模型的效果。根據(jù)統(tǒng)計(jì),本項(xiàng)目的集成學(xué)習(xí)模型分類準(zhǔn)確率平均值為0.965853,AUC指標(biāo)均值為0.967601;而傳統(tǒng)的決策樹模型的分類準(zhǔn)確率為0.921951,AUC值只有0.907999。根據(jù)實(shí)驗(yàn)數(shù)據(jù)和統(tǒng)計(jì)值對(duì)比,乳腺癌的二分類問題中集成學(xué)習(xí)效果明顯由于傳統(tǒng)機(jī)器學(xué)習(xí)算法。
ROC(Receiver Operating Characteristic)曲線的縱坐標(biāo)是模型的真正例率(True Positive Rate,TPR),橫坐標(biāo)是模型的假正例率(False Positive Rate,F(xiàn)PR),AUC是ROC曲線下與坐標(biāo)軸圍成的面積,取值在0.5到1之間,值越大模型效果越好,模型的ROC曲線和AUC面積如圖5~7所示。
表1 模型結(jié)果
圖6 隨機(jī)森林的ROC曲線圖
圖7 Xgboost的ROC曲線圖
從三個(gè)模型的ROC曲線可以看出集成學(xué)習(xí)的分類效果明顯由于隨機(jī)森林算法,尤其是模型的AUC值,均到達(dá)了99.7%以上,具有很高的分類效果。
本項(xiàng)目利用集成學(xué)習(xí)的隨機(jī)森林和Xgboost模型對(duì)乳腺癌診斷做出分類預(yù)測(cè)模型,模型訓(xùn)練過程中利用了交叉驗(yàn)證和網(wǎng)格搜索等方法提高模型準(zhǔn)確率的同時(shí)防止模型過擬合,增強(qiáng)模型泛化能力,并和傳統(tǒng)的機(jī)器學(xué)習(xí)算法決策樹模型進(jìn)行了對(duì)比。根據(jù)實(shí)驗(yàn)結(jié)果可以看出集成學(xué)習(xí)模型對(duì)乳腺癌的分類效果非常好,模型準(zhǔn)確度很高,而且各項(xiàng)指標(biāo)都優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)算法。
目前,威脅人類身體健康的主要疾病是癌癥,而乳腺癌又是女性疾病的頭號(hào)殺手,所以提高乳腺癌診斷準(zhǔn)確率的研究具有現(xiàn)實(shí)意義;利用人工智能技術(shù)提高醫(yī)療診斷服務(wù)是目前的研究熱點(diǎn),將傳統(tǒng)的機(jī)器學(xué)習(xí)算法應(yīng)用于臨床輔助診斷效果并不明顯,所以將具有高分類能力的集成學(xué)習(xí)算法與醫(yī)療診斷技術(shù)相結(jié)合的技術(shù)研究很有必要;通過本項(xiàng)目實(shí)踐研究得出,集成學(xué)習(xí)對(duì)乳腺癌的良惡性分類效果很好,且分類能力超過傳統(tǒng)機(jī)器學(xué)習(xí)算法的分類能力,所以將集成學(xué)習(xí)算法應(yīng)用于醫(yī)療診斷服務(wù)的研究具有實(shí)踐價(jià)值。可以將集成學(xué)習(xí)與醫(yī)療診斷服務(wù)領(lǐng)域交叉,深入研究并應(yīng)用于實(shí)際醫(yī)療臨床,不僅可以提高診斷效率,還可以減少實(shí)際診斷的誤診與漏診現(xiàn)象,使患者及早診斷及早治療,提高患者存活率,提高我國(guó)醫(yī)療服務(wù)水平。