李 杰 張 睿 芮 晨, 王欣然
【提 要】 目的 在C5.0決策樹算法的基礎(chǔ)上,結(jié)合處理不平衡樣本集的EasyEnsemble思想,建立患者非醫(yī)囑離院預(yù)測模型,有效識(shí)別非醫(yī)囑離院傾向患者。方法 基于EasyEnsemble思想,通過Bootstrap采樣方法抽取多數(shù)類樣本子集組建多個(gè)新的均衡數(shù)據(jù)樣本集,運(yùn)用C5.0決策樹算法并結(jié)合交叉驗(yàn)證方法與代價(jià)矩陣,訓(xùn)練多個(gè)基分類器,最后經(jīng)Bagging算法集成,得到最終預(yù)測模型。結(jié)果 在10組測試集下平均總分類準(zhǔn)確率、平均平衡準(zhǔn)確率、少數(shù)類別樣本平均召回率和平均AUC值分別達(dá)到74.27%、82.34%、91.70%、86.21%。結(jié)論 基于EasyEnsemble和C5.0決策樹算法的患者非醫(yī)囑離院預(yù)測模型有較好較穩(wěn)定的識(shí)別性能,為醫(yī)院提升醫(yī)療質(zhì)量和服務(wù)水平,降低非醫(yī)囑離院率提供了有力依據(jù)。
非醫(yī)囑離院率是重要的醫(yī)療統(tǒng)計(jì)指標(biāo)之一,能客觀地衡量醫(yī)療質(zhì)量和服務(wù)水平[1]。非醫(yī)囑離院是指患者的病情需要繼續(xù)住院進(jìn)行治療,但患者自身或者其家屬由于個(gè)人原因沒有按照醫(yī)囑要求而自行出院。非醫(yī)囑離院使本應(yīng)得到治療的患者沒有得到相應(yīng)的救治,可能導(dǎo)致病情加劇。對于醫(yī)院來說,過多非醫(yī)囑離院不利于醫(yī)院醫(yī)療活動(dòng)的正常開展,降低醫(yī)院自身的社會(huì)效益和經(jīng)濟(jì)效益[2-3]。因此,亟需科學(xué)分析非醫(yī)囑離院傾向患者特征并有效識(shí)別非醫(yī)囑離院傾向患者,從而幫助醫(yī)院提前開展針對性工作,降低非醫(yī)囑離院率。
C5.0算法[4]是在C4.5的基礎(chǔ)上結(jié)合誤判成本矩陣和Boosting等先進(jìn)技術(shù)的一種復(fù)雜度更低的決策樹分類算法。它進(jìn)一步提高了決策樹對樣本的識(shí)別率,可同時(shí)處理數(shù)值型數(shù)據(jù)和非數(shù)值型數(shù)據(jù),作為個(gè)體學(xué)習(xí)器有較好的性能表現(xiàn),非常適合醫(yī)療領(lǐng)域數(shù)據(jù)統(tǒng)計(jì)分析[5],但其在不平衡訓(xùn)練集中識(shí)別少數(shù)類別樣本能力較差,因此需要借助EasyEnsemble思想對不平衡訓(xùn)練集進(jìn)行平衡化處理。EasyEnsemble思想是指通過不斷從多數(shù)類中抽取樣本,使每個(gè)模型中各類樣本數(shù)量相同,最后集成所有模型,從而較好地處理不平衡數(shù)據(jù)下分類器的識(shí)別率偏向于多數(shù)類別樣本的這一問題[6]。
在現(xiàn)實(shí)離院方式數(shù)據(jù)中,非醫(yī)囑離院數(shù)據(jù)量通常與醫(yī)囑離院數(shù)據(jù)量有較大差距。因此,本文借助EasyEnsemble思想,通過抽取多數(shù)類別樣本子集組建多個(gè)新的均衡訓(xùn)練集訓(xùn)練出多個(gè)C5.0分類器,然后借助Bagging算法集成最終分類結(jié)果,從而使非醫(yī)囑離院傾向患者能更好地被識(shí)別出來。
在某醫(yī)院數(shù)據(jù)庫中檢索2015年1月至2017年6月間離院方式不為空值的106457例出院患者的完整數(shù)據(jù)。其中,非醫(yī)囑離院數(shù)據(jù)量和醫(yī)囑離院數(shù)據(jù)量比例低于1:10,數(shù)據(jù)具有不平衡的特征。根據(jù)需要,提取出13個(gè)有效字段,用于模型訓(xùn)練和測試。前12個(gè)字段分別為付款方式、性別、年齡、婚姻、職業(yè)、民族、入院途徑、入院科別、住院天數(shù)、主要診斷病況分類號(hào)、患者轉(zhuǎn)歸、手術(shù)級(jí)別,最后一個(gè)字段為是否為非醫(yī)囑離院。將數(shù)據(jù)進(jìn)行離散化處理,除住院天數(shù)字段設(shè)置為連續(xù)型變量外,其余字段均設(shè)置為類別變量,并用10折交叉驗(yàn)證法將整個(gè)數(shù)據(jù)集劃分為10組訓(xùn)練集和測試集。
在進(jìn)行模型測試時(shí),將醫(yī)囑離院識(shí)別為非醫(yī)囑離院的錯(cuò)誤作為假陽性,用COST(A)表示;將非醫(yī)囑離院識(shí)別為醫(yī)囑離院的錯(cuò)誤作為假陰性,用COST(B)表示[7]。由于非醫(yī)囑離院患者傾向識(shí)別是一個(gè)在不平衡樣本集上識(shí)別少數(shù)類別樣本問題,總體錯(cuò)誤率無法全面反應(yīng)該模型的優(yōu)劣,而應(yīng)著重考慮少數(shù)類別識(shí)別錯(cuò)誤率。采用excel軟件,選擇CHITEST()函數(shù),運(yùn)用卡方檢驗(yàn)分別比較COST(B)取不同值時(shí)模型兩兩之間的差異,以P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
R語言是統(tǒng)計(jì)領(lǐng)域較為流行的模型編程和統(tǒng)計(jì)分析工具[8],因此患者非醫(yī)囑離院預(yù)測模型基于R語言實(shí)現(xiàn)。將β設(shè)置為1.5,用RODBC中的函數(shù)提取原始數(shù)據(jù),主要采用C5.0()函數(shù)作為基學(xué)習(xí)器的模型訓(xùn)練,predict()函數(shù)進(jìn)行驗(yàn)證集和測試集的非醫(yī)囑離院識(shí)別,其余流程代碼自己編程實(shí)現(xiàn)。
非醫(yī)囑離院識(shí)別是一個(gè)在不平衡樣本集上識(shí)別少數(shù)類的分類問題。在預(yù)測結(jié)果的真陽性(true positive,TP)、假陽性(false positive,FP)、真陰性(true negative,TN)、假陰性(false negative,FN)基礎(chǔ)上,綜合考慮總的分類準(zhǔn)確率(accuracy,ACC)=(TP+TN)/ (TP+FN+FP+TN)、平衡準(zhǔn)確率(blanace accuracy,BA)= (TP/(TP+FN)+TN/(TN+FP))/2、少數(shù)類別樣本召回率(recall,R)=TP/(TP+FN)、以及AUC值(area under ROC curve)來衡量該模型的性能[9]。
本文通過多次實(shí)驗(yàn)的方法確定最有成本矩陣。在其他模型參數(shù)固定不變的前提下,將COST(A)固定為1,COST(B)值由1開始逐步增大進(jìn)行設(shè)定,然后訓(xùn)練出多個(gè)模型并用同一組測試集進(jìn)行測試,得到的各個(gè)模型的分類錯(cuò)誤率如表1所示。從B類錯(cuò)誤率來看,COST(B)=1與COST(B)=2、3、4、5分別比較,經(jīng)過卡方檢驗(yàn)得到P<0.001。即COST(B)=1與其他取值相比,差異有統(tǒng)計(jì)學(xué)意義,且COST(B)=1時(shí)B類錯(cuò)誤率較高,則COST(B)應(yīng)設(shè)置為2≤COST(B)≤5。COST(B)=2、3、4、5兩兩之間P值均大于0.05,差異無統(tǒng)計(jì)學(xué)意義,而COST(B)=2總錯(cuò)誤率相對較低,即COST(B)=2是比較合適的選擇。
表1 COST(B)取不同值時(shí)模型的錯(cuò)誤率(%)
患者非醫(yī)囑離院預(yù)測模型在10組測試集上預(yù)測結(jié)果的TP、FP、TN、FN以及各性能度量指標(biāo)計(jì)算結(jié)果如表2所示。計(jì)算10組測試集下4種性能指標(biāo)平均值,ACC、BA、R、AUC均值依次為74.27%、82.34%、91.70%、86.21%。
表2 10組測試集下各性能度量結(jié)果表
用全訓(xùn)練集進(jìn)行模型訓(xùn)練,生成決策樹模型,選擇涵蓋訓(xùn)練樣本較多的決策分類規(guī)則,繪制決策樹如圖1所示。根據(jù)訓(xùn)練出的模型分析非醫(yī)囑離院患者主要特征。首先,入院科別在非醫(yī)囑離院識(shí)別模型中是最為重要的變量。其中,重癥醫(yī)學(xué)科、腫瘤內(nèi)科、老年內(nèi)科等為非醫(yī)囑離院高發(fā)科室。第二,住院天數(shù)和患者轉(zhuǎn)歸為次重要變量,其中非醫(yī)囑離院患者的住院天數(shù)基本集中兩周以內(nèi),患者轉(zhuǎn)歸則以未愈為主。第三,非醫(yī)囑離院患者的付款方式主要為全自費(fèi)和城鄉(xiāng)居民醫(yī)療保險(xiǎn);入院途徑以急診為主;大多沒有進(jìn)行手術(shù);老年年齡段居多。
基于某醫(yī)院106457位患者的數(shù)據(jù),采用C5.0決策樹算法和EasyEnsemble思想,誤判成本值設(shè)定為COST(A):COST(B)=1:2,進(jìn)行非醫(yī)囑離院預(yù)測模型的訓(xùn)練與測試,取得了令人滿意的結(jié)果?;颊叻轻t(yī)囑離院模型在10組測試集上表現(xiàn)較為穩(wěn)定,測試的總體準(zhǔn)確率均值達(dá)到74.27%,AUC均值達(dá)到86.21%,尤其是對于非醫(yī)囑離院患者的識(shí)別率均值高達(dá)91.70%,即模型能將絕大多數(shù)非醫(yī)囑離院傾向患者識(shí)別出來,預(yù)測效果好且性能穩(wěn)定。
圖1 患者非醫(yī)囑離院預(yù)測的決策樹模型
在非醫(yī)囑離院預(yù)測的決策樹模型中,入院科室、住院天數(shù)、患者轉(zhuǎn)歸、付款方式、入院途徑和患者年齡等是重要的預(yù)測變量。不同科室間收治患者的病種和危重程度不同,所以各科室非醫(yī)囑離院情況有較大差別。其中,由于經(jīng)濟(jì)因素、疾病因素、子女因素等[10],重癥醫(yī)學(xué)科非醫(yī)囑離院率較高。與何麗萍等發(fā)現(xiàn)相類似[1],住院時(shí)間較短的患者非醫(yī)囑離院率較高,大多為短期住院后轉(zhuǎn)院、放棄治療或自覺好轉(zhuǎn)出院?;颊咿D(zhuǎn)歸以未愈為主,說明患者應(yīng)盡量遵從醫(yī)囑,否則有可能會(huì)造成治療延誤、病情加劇。非醫(yī)囑離院患者中大多為自費(fèi),其原因主要與缺乏有效的醫(yī)療保障和治療帶來的經(jīng)濟(jì)壓力過大有關(guān)[11]。另外,非醫(yī)囑離院患者以老年患者居多,大多由于老年患者預(yù)后差,家屬放棄治療比例高。已有非醫(yī)囑離院研究中鮮有考慮入院途徑這一因素,研究發(fā)現(xiàn)急診患者非醫(yī)囑離院率較高,由于為急診出院患者制定好出院醫(yī)囑非常關(guān)鍵[12],因此醫(yī)院應(yīng)高度重視急診患者群體。
根據(jù)本研究得到的決策樹模型,能夠幫助醫(yī)院提前識(shí)別有非醫(yī)囑離院傾向的患者,并采取針對性措施,使患者按醫(yī)囑離院。非醫(yī)囑離院是一個(gè)綜合因素影響的結(jié)果,醫(yī)院應(yīng)針對可控因素開展工作,全面提高醫(yī)療服務(wù)質(zhì)量,降低非醫(yī)囑離院率,獲取更大社會(huì)和經(jīng)濟(jì)效益[2]。