王彥青 王榆心 吳修錕 盧飛 龍衍遜
摘要:隨著“健康中國(guó)”政策的提出,醫(yī)療健康問(wèn)題受到社會(huì)廣泛關(guān)注。糖尿病作為一種慢性疾病對(duì)國(guó)民身體健康存在巨大的威脅,目前疾病輔助預(yù)測(cè)領(lǐng)域存在著疾病預(yù)測(cè)算法精確度不夠高,預(yù)測(cè)算法未考慮到疾病誤診代價(jià)等問(wèn)題。針對(duì)上述問(wèn)題,本實(shí)驗(yàn)使用真實(shí)的醫(yī)療數(shù)據(jù),對(duì)提出的隨機(jī)森林與邏輯回歸(RF-LR)改進(jìn)算法進(jìn)行疾病預(yù)測(cè)模型訓(xùn)練,將算法模型與LR算法、決策樹(shù)算法和SVM算法進(jìn)行對(duì)比測(cè)試。
關(guān)鍵詞:疾病預(yù)測(cè);隨機(jī)森林;邏輯回歸;SVM
0???? 引言
隨著科學(xué)技術(shù)發(fā)展,現(xiàn)在我們處于一個(gè)高度信息化的社會(huì),當(dāng)然醫(yī)療領(lǐng)域也不例外。人們的醫(yī)療健康數(shù)據(jù)以電子病歷[1]、健康信息檔案[2]的形式被收集起來(lái),醫(yī)療健康數(shù)據(jù)中蘊(yùn)藏著的信息對(duì)于醫(yī)學(xué)研究具有重要的意義。
糖尿病作為高發(fā)病率、低治療率疾病,隨著國(guó)民生活方式和飲食結(jié)構(gòu)改變而嚴(yán)重威脅著患者的身體健康。為了更加科學(xué)、準(zhǔn)確的預(yù)測(cè)糖尿病,提出了使用RF-LR改進(jìn)算法的疾病預(yù)測(cè)模型。模型針對(duì)數(shù)據(jù)集構(gòu)建預(yù)測(cè)模型,并將改進(jìn)后的算法與其他疾病預(yù)測(cè)算法進(jìn)行對(duì)比,驗(yàn)證本實(shí)驗(yàn)中改進(jìn)的算法的有效性。
1???? RF-LR改進(jìn)算法的疾病預(yù)測(cè)模型構(gòu)建
1.1? 隨機(jī)森林算法
隨機(jī)森林算法可以通過(guò)對(duì)樣本數(shù)據(jù)加入隨機(jī)擾動(dòng)的方式計(jì)算樣本特征的重要性評(píng)分,樣本特征的重要性評(píng)分可以說(shuō)明該特征對(duì)于目標(biāo)變量的重要性程度,因此可以使用隨機(jī)森林的這一特點(diǎn)作為樣本數(shù)據(jù)特征選擇的評(píng)價(jià)標(biāo)準(zhǔn)[3]。
1.2? RF-LR算法模型
使用隨機(jī)森林算法后,原始數(shù)據(jù)集中的每一個(gè)特征都會(huì)得到相應(yīng)的特征重要性評(píng)分,根據(jù)這些評(píng)分特征將特征按照降序進(jìn)行排列,然后使用SBS搜索策略逐次刪除特征排序隊(duì)列中排在最末位的特征,也就是特征集合中重要性最低的特征,每刪除一個(gè)特征就計(jì)算一次預(yù)測(cè)的正確率,直到特征集合中的特征個(gè)數(shù)為零,最后輸出能夠使預(yù)測(cè)結(jié)果達(dá)到最好的特征子集。
基于RF-LR改進(jìn)算法的疾病預(yù)測(cè)模型,將隨機(jī)森林算法作為邏輯回歸的前置預(yù)處理系統(tǒng),將經(jīng)過(guò)特征選擇后的特征子集,作為邏輯回歸算法的輸入,接下來(lái),在邏輯回歸算法的損失函數(shù)中,考慮到誤診的代價(jià)是不同的,將患病預(yù)測(cè)未患病的代價(jià)[4],應(yīng)該遠(yuǎn)大于將未患病預(yù)測(cè)為患病的代價(jià),故而引入權(quán)重參數(shù)對(duì)邏輯回歸算法進(jìn)行改進(jìn)。基于RF-LR改進(jìn)算法的疾病預(yù)測(cè)流程如圖1.1所示。
2???? 實(shí)驗(yàn)設(shè)計(jì)與分析
2.1? 模型評(píng)估
我們以UCI網(wǎng)站的糖尿病合并視網(wǎng)膜病變數(shù)據(jù)集作為本實(shí)驗(yàn)數(shù)據(jù)來(lái)源。表中包含就診患者的基本信息表、生化表、等多個(gè)表格,導(dǎo)致數(shù)據(jù)出現(xiàn)重復(fù),同時(shí)數(shù)據(jù)里的屬性中包含文字、異常值、空白值等,需要對(duì)數(shù)據(jù)集中的重復(fù)數(shù)據(jù)和缺失數(shù)據(jù)進(jìn)行清洗、填補(bǔ)等工作。
為保證通過(guò)RF-LR改進(jìn)算法訓(xùn)練模型的準(zhǔn)確率,我們對(duì)算法模型預(yù)測(cè)結(jié)果進(jìn)行評(píng)估。首先使用RF算法對(duì)樣本進(jìn)行樣本特征的重要性進(jìn)行評(píng)分,對(duì)數(shù)據(jù)集的特征排列使用列向后搜索方法,達(dá)到特征選擇目的。為確保特征選擇結(jié)果的客觀性,采用10折交叉驗(yàn)證法。特征選擇結(jié)果如圖2.1。
由圖2.1可看出,如果特征子集中的特征數(shù)量為8 時(shí)能夠得到最小的OOB誤差率,此時(shí)的特征子集是最優(yōu)特征子集。
2.2? 評(píng)價(jià)標(biāo)準(zhǔn)
作為算法的評(píng)價(jià)指標(biāo)有精確率(Precision)、召回率(Recall)、F1值以及ROC曲線[5]。該實(shí)驗(yàn)使用糖尿病合并視網(wǎng)膜病變數(shù)據(jù)集,并同原始的LR算法、決策樹(shù)算法和支持向量機(jī)算法進(jìn)行實(shí)驗(yàn)對(duì)比。以上三種算法在疾病預(yù)測(cè)領(lǐng)域中有較多的應(yīng)用。
RF-LR改進(jìn)算法在圖2.3中的ROC曲線中,較LR、決策樹(shù)和SVM都有一定程度的提高。實(shí)驗(yàn)結(jié)果可以表明,本文所提出的基于RF的LR改進(jìn)算法在疾病預(yù)測(cè)方面具有良好的效果。
3???? 結(jié)束語(yǔ)
本文基于RF-LR的改進(jìn)算法完成了疾病預(yù)測(cè)模型的構(gòu)建,同時(shí)結(jié)合糖尿病合并視網(wǎng)膜病變數(shù)據(jù)集進(jìn)行模型的訓(xùn)練,采用多重指標(biāo)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了評(píng)估。結(jié)果顯示此算法得到的結(jié)果準(zhǔn)確率、召回率等指標(biāo)相對(duì)于應(yīng)用較多的算法都有提高,說(shuō)明本文提出的RF-LR改進(jìn)算法在糖尿病預(yù)測(cè)中具有一定的優(yōu)勢(shì)。
參考文獻(xiàn):
[1]?? Thompson G.,O'Horo J C.,Pickering B W.,et al.Impact of the electronic medical record on mortality,length of stay,and cost in the hospital and ICU:a systematic review and metaanalysis[J].Critical Care Medicine,2015,43(6):1276.
[2]?? 茍夢(mèng)野,趙文龍,楊美潔,等.基于電子健康檔案相關(guān)研究現(xiàn)狀、熱點(diǎn)與前沿知識(shí)可視化分析[J].現(xiàn)代預(yù)防醫(yī)學(xué),2019,46(01):65-72.
[3]?? Qi Yanjun.Random forest for bioinformatics[J].Ensemble Machine Learning,2012:307-323.
[4]?? 萬(wàn)建武,楊明.代價(jià)敏感學(xué)習(xí)方法綜述[J].軟件學(xué)報(bào),2020,31(01):113-136.