崔宇佳,張一迪,王培志,林海靜,陸起涌,2
(1.復(fù)旦大學(xué) 信息科學(xué)與工程學(xué)院 電子工程系,上海 200433; 2.復(fù)旦大學(xué) 信息科學(xué)與工程學(xué)院 智慧網(wǎng)絡(luò)與系統(tǒng)研究中心,上海 200433)
目前醫(yī)療領(lǐng)域面臨的一個巨大挑戰(zhàn)是醫(yī)生可以獲得海量的醫(yī)療數(shù)據(jù),但是缺少時間和有效的工具進(jìn)行挖掘.因此將數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)方法應(yīng)用于醫(yī)療領(lǐng)域,輔助醫(yī)生診療決策已成為醫(yī)學(xué)與計算機(jī)學(xué)交叉領(lǐng)域研究的熱點,這不僅可以降低醫(yī)療服務(wù)成本而且可以改善服務(wù)質(zhì)量和臨床表現(xiàn)[1].在其中實現(xiàn)疾病預(yù)測這塊,特別是對某些病因復(fù)雜且影響嚴(yán)重的疾病,如: 系統(tǒng)性紅斑狼瘡并發(fā)狼瘡性腎炎[2],可以提早對患者進(jìn)行干預(yù),提供更有效的治療策略[3],從而減輕患者的痛苦.
由于醫(yī)療數(shù)據(jù)大部分以電子醫(yī)療病歷(Electronic Medical Records, EMR)的形式記錄,其中包含診斷、癥狀、檢查、化驗、用藥等信息,具有維度高、稀疏的特點,并且包含大量不相關(guān)和冗余特征.如果不對數(shù)據(jù)進(jìn)行有效篩選,直接用于疾病預(yù)測,可能會帶來以下幾方面的問題: 1) 引發(fā)維數(shù)災(zāi)難和過擬合現(xiàn)象[4],導(dǎo)致預(yù)測表現(xiàn)不佳;2) 由于特征維數(shù)過多,使得預(yù)測模型計算量過大,從而影響預(yù)測效率;3) 收集過多的特征會大大增加醫(yī)療成本,降低臨床實用性.如何從海量醫(yī)療數(shù)據(jù)中選擇出有效的特征成為實現(xiàn)診療決策的關(guān)鍵環(huán)節(jié),特征選擇不僅可以解決以上問題,而且可以幫助醫(yī)生或研究人員對疾病的影響因素有更深入的了解.
現(xiàn)有的特征選擇方法主要可以分為過濾型方法(Filters Technique)[5]和封裝型方法(Wrappers Technique)[6].過濾型方法,是根據(jù)數(shù)據(jù)的固有屬性來評價特征與類別的相關(guān)性,在多數(shù)情況下會計算出一個相關(guān)性評分,并刪除得分低的特征,之后將這些特征子集作為預(yù)測模型的輸入,如: 卡方檢驗[7]、信息增益[7]等方法,其優(yōu)點是易處理高維數(shù)據(jù),計算簡單,且獨立于分類算法,缺點是忽略了和分類器之間的聯(lián)系,并且大部分方法是單變量型,忽略了特征之間的相關(guān)性;封裝型方法,是在分類模型的構(gòu)建過程中選擇了最優(yōu)的特征子集,可以看作是在特征子集和假設(shè)的組合空間中進(jìn)行選擇,如: 基于決策樹權(quán)重(Absolute Weight of Decision Tree, AW-DT)[8]、基于SVM權(quán)重(Absolute Weight of Support Vector Machine, AW-SVM)[9]等特征選擇方法,其優(yōu)點是它與分類模型進(jìn)行了交互,缺點是特定分類器的評價表現(xiàn)在不同數(shù)據(jù)集中差異較大.
以上方法均采用單一評價標(biāo)準(zhǔn)進(jìn)行特征選擇,對于不同數(shù)據(jù)集評價表現(xiàn)具有一定的互補性.鑒于在機(jī)器學(xué)習(xí)方法中,集成多個不相關(guān)的弱分類器可以提升分類表現(xiàn)[10-11],本文提出基于多評價標(biāo)準(zhǔn)融合的遞歸特征消除(Multi-criterion Fusion-based Recursive Feature Elimination, MCF-RFE)算法.該算法應(yīng)用過濾型特征評價標(biāo)準(zhǔn)進(jìn)行初步篩選,然后基于特征序列的方法將3種不同封裝型特征評價標(biāo)準(zhǔn)的結(jié)果進(jìn)行集成,并結(jié)合特征搜索方法實現(xiàn)特征選擇,以獲得預(yù)測表現(xiàn)好的特征子集,旨在從特征選擇的角度提升疾病預(yù)測表現(xiàn).在此基礎(chǔ)上,構(gòu)建疾病預(yù)測模型,以實現(xiàn)疾病預(yù)測.
下面分別介紹MCF-RFE算法融合的多種特征評價標(biāo)準(zhǔn)以及采用的融合和搜索算法.
特征評價標(biāo)準(zhǔn)的選取必須滿足差異性,因為具有差異性的特征評價標(biāo)準(zhǔn)產(chǎn)生的結(jié)果往往具有互補性,并且可以避免集成的結(jié)果被產(chǎn)生相似結(jié)果的評價標(biāo)準(zhǔn)所主導(dǎo).此外,由于醫(yī)療數(shù)據(jù)具有高維、稀疏等特點,綜合考慮計算的簡便性和高效性,本文首先采用在文本分類中具有較好表現(xiàn)的過濾型特征評價標(biāo)準(zhǔn)卡方檢驗對特征進(jìn)行初步篩選,然后融合3種嵌入型特征評價標(biāo)準(zhǔn): AW-SVM標(biāo)準(zhǔn)、AW-DT標(biāo)準(zhǔn)、基于線性回歸權(quán)重(Absolute Weight of Linear Regression, AW-LR)標(biāo)準(zhǔn)對特征進(jìn)行再次篩選.
卡方檢驗適用于高維數(shù)據(jù),計算簡單,可用于評價兩個事件是否獨立,例如在特征選擇中用于評價類別和特征是否相互獨立.可以應(yīng)用式(1)計算卡方檢驗.
CHI2(t,c)=∑t∈{0,1}∑c∈{0,1}(Nt,c-Et,c)2/Et,c,
(1)
其中:t代表特征;c代表類別;N代表實際的特征t和類別c同時出現(xiàn)的頻次;E代表當(dāng)兩者獨立時期望的同時出現(xiàn)頻次.卡方檢驗衡量期望值E和實際觀察值N之間的偏離程度.卡方值越大,說明相關(guān)性越強,特征需要保留;卡方值越小,說明越不相關(guān),特征需要去除.
ωTx+B=0,
(2)
其中:ω為最優(yōu)超平面的權(quán)值向量;B為閾值.SVM的核心思想是使兩個類別具有最大間隔,從而使得分隔具有更高的可信度和泛化能力,將問題轉(zhuǎn)化為式(3)的優(yōu)化問題:
(3)
式(3)中:ζi為松弛變量;C>0為懲罰參數(shù),控制對誤分類的懲罰程度.通過引入拉格朗日乘子,得到如下式所示的特征權(quán)重:
(4)
其中αi是拉格朗日乘子.
AW-DT是根據(jù)決策樹(Decision Tree, DT)[13]得到的按特征權(quán)重ω絕對值大小對特征進(jìn)行排序.決策樹的構(gòu)造過程不依賴領(lǐng)域知識,其基本流程遵循“分而治之”的策略.本文采用ID3算法[14],該算法的核心思想是以信息增益度量屬性選擇,選擇分裂后信息增益最大的屬性進(jìn)行分裂.設(shè)D為用類別對訓(xùn)練元組進(jìn)行的劃分,則D的熵(entropy)表示式如下:
(5)
其中pi表示第i個類別在整個訓(xùn)練元組中出現(xiàn)的概率.假設(shè)將訓(xùn)練元組D按屬性A進(jìn)行劃分,則A對D劃分的期望信息為
(6)
信息增益即為兩者的差值:
gain(A)=info(D)-infoA(D).
(7)
AW-LR是根據(jù)線性回歸(Linear Regression)[13]得到的按特征權(quán)重ω絕對值大小對特征進(jìn)行排序.線性回歸模型是對于一個樣本xi,它的輸出值是其特征的線性組合,即
(8)
其中ωm是特征權(quán)重.線性回歸的目標(biāo)是預(yù)測結(jié)果盡可能地擬合目標(biāo)類別,其損失函數(shù)
(9)
其中:y是類別標(biāo)簽;X是樣本特征.應(yīng)用梯度下降法進(jìn)行求解,得到ω的表達(dá)式為
(10)
本文采用基于特征序列方法將以上多種特征評價標(biāo)準(zhǔn)的結(jié)果進(jìn)行融合.該方法首先基于每個特征評價標(biāo)準(zhǔn)分別得到1個特征序列,每個特征都有一個序列號;然后運用序列結(jié)合方法得到最終的特征序列,其流程如圖1所示.
圖1 基于特征序列的多評價標(biāo)準(zhǔn)融合方法Fig.1 Feature ranking-based multi-criterion fusion
現(xiàn)有的序列結(jié)合方法中,Borda Count[15]方法是一種簡單、有效的基于特征序列的投票方法.假設(shè)有m個投票者(特征選擇方法),f個候選者(特征),在Borda Count算法中,每個投票者首先給每個候選者生成一個得分Vij,其中排在第1位的候選者給予f分,排在第2位的候選者給予f-1分,以此類推.每個候選者的最終得分是m個投票者給分之和,如下式所示:
(11)
按照降序?qū)ij進(jìn)行排列,得到融合后的特征排名.
好的特征不一定構(gòu)成好的特征子集,因此為了獲得一個有好的預(yù)測表現(xiàn)的特征子集,需要將特征評價標(biāo)準(zhǔn)與特征搜索方法相結(jié)合[14].Guyon等基于AW-SVM特征評價標(biāo)準(zhǔn)與遞歸特征消除(Recursive Feature Elimination, RFE)搜索方法[16],提出了SVM-RFE特征選擇方法[16],其中RFE搜索過程(見圖2)如下:
(1) 初始化特征集F0,設(shè)置i=0;
圖2 MCF-RFE流程圖Fig.2 The procedure of MCF-RFE
(2) 計算在特征集Fi中每個特征的重要性;
(3) 從特征集Fi中去掉最不重要的特征,得到特征集Fi+1;
(4) 令i=i+1,回到步驟(2),直到滿足停止條件.
RFE搜索過程產(chǎn)生一系列嵌套的特征集,例如:F0?F1?F2….
本文將多特征評價標(biāo)準(zhǔn)融合方法與RFE搜索方法結(jié)合提出MCF-RFE算法,該算法首先應(yīng)用過濾型特征評價標(biāo)準(zhǔn)卡方檢驗對特征進(jìn)行初篩;然后,應(yīng)用特征序列方法對3個嵌入型特征評價標(biāo)準(zhǔn)AW-SVM、AW-LR、AW-DT的結(jié)果進(jìn)行集成;最后,結(jié)合遞歸特征消除搜索方法進(jìn)行特征選擇,得到特征子集.MCF-RFE算法流程如圖2所示.
本研究的數(shù)據(jù)集由國內(nèi)13家三甲醫(yī)院風(fēng)濕免疫科提供,包含10627例患有系統(tǒng)性紅斑狼瘡(Systemic Lupus Erythematosus, SLE)[2]患者的EMR數(shù)據(jù),其中5033例為SLE并發(fā)狼瘡性腎炎患者,5594例為SLE未并發(fā)狼瘡性腎炎[2]患者.以上EMR數(shù)據(jù)集共有2204項特征包含: 癥狀、診斷、化驗、用藥特征,并且每項信息包含相應(yīng)的時間戳.實驗中以風(fēng)濕免疫科臨床醫(yī)生診斷結(jié)果作為金標(biāo)準(zhǔn),考慮SLE并發(fā)狼瘡性腎炎診斷之前出現(xiàn)的信息,實現(xiàn)SLE并發(fā)狼瘡性腎炎疾病的預(yù)測.
為了驗證不同特征選擇方法選出的特征子集對提升預(yù)測狼瘡性腎炎表現(xiàn)的有效性,本文將疾病預(yù)測問題抽象為一個二分類問題,分別調(diào)用Scikit-learn工具包[17]中的邏輯回歸(Logistic Regression, LR)方法[13]和SVM方法進(jìn)行疾病預(yù)測模型的訓(xùn)練和測試.實驗中采用十折交叉驗證方法,對于每一次驗證,只使用訓(xùn)練數(shù)據(jù)進(jìn)行特征選擇,采用各特征選擇方法選出的特征構(gòu)建分類器,然后用測試數(shù)據(jù)進(jìn)行評價,最終結(jié)果是10次結(jié)果的平均值.實驗評價指標(biāo)采用受試者工作特性曲線(Receiver Operating Characteristic, ROC)下的面積(Area Under the Curve, AUC)、精確率(precision,P)、召回率(recall,R)、F1值、準(zhǔn)確率(accuracy,A),計算公式定義如下:
(12)
其中:TP,F(xiàn)P分別指預(yù)測模型將是狼瘡腎炎的患者正確預(yù)測和錯誤預(yù)測的人數(shù);TN,F(xiàn)N分別指預(yù)測模型將不是狼瘡腎炎的患者正確預(yù)測和錯誤預(yù)測的人數(shù).
為了更直觀地了解本文算法對提升狼瘡性腎炎預(yù)測表現(xiàn)的有效性,分別對比應(yīng)用AW-SVM、AW-LR、AW-DT、SVM-RFE方法以及本文提出的MCF-RFE方法篩選出的前400個特征,在LR與SVM模型下進(jìn)行疾病預(yù)測,其AUC值的對比結(jié)果如圖3,圖4所示.
圖3 LR分類器中5種算法AUC值對比Fig.3 AUC comparisons among 5 algorithms using LR classification
圖4 SVM分類器中5種算法AUC值對比Fig.4 AUC comparisons among 5 algorithms using SVM classification
通過圖3、圖4可以發(fā)現(xiàn),MCF-RFE方法在2個分類器中表現(xiàn)均優(yōu)于其他4種方法,其中SVM-RFE方法表現(xiàn)優(yōu)于AW-SVM方法.例如,在LR分類器中(圖3),當(dāng)選擇50個特征時,MCF-RFE方法得到的AUC值為0.884,AW-DT方法的AUC值為0.852,SVM-RFE方法的AUC值為0.822,AW-SVM方法的AUC值為0.747,AW-LR方法的AUC值為0.708.隨著特征數(shù)增加,本文選擇集成的AW-SVM、AW-DT、AW-LR 3種評價標(biāo)準(zhǔn)的預(yù)測結(jié)果具有互補性,并且逐漸趨向穩(wěn)定.由于以上特征選擇方法是在卡方檢驗篩選出的500個特征的基礎(chǔ)上再次進(jìn)行篩選,因此隨著特征數(shù)增加,各特征選擇方法篩出的特征子集包含越來越多的共同特征,使得各方法的AUC值差距逐漸減小.
下面對比5種特征選擇方法分別在LR、SVM預(yù)測模型下,選擇閾值為0.5,特征數(shù)為100時,進(jìn)行十折交叉驗證后精確率、召回率、F1、準(zhǔn)確率的平均值,結(jié)果如表1所示.
通過表1可以發(fā)現(xiàn),在2種分類器下,MCF-RFE方法在P、R、F1、A的綜合表現(xiàn)均優(yōu)于其他4種方法,其中在LR預(yù)測模型采用MCF-RFE特征選擇方法時預(yù)測表現(xiàn)最佳,其中精確率為0.79,召回率為0.80,F(xiàn)1值為0.79,準(zhǔn)確率為0.80.
綜合以上實驗結(jié)果,表明MCF-RFE方法相比于只選用一種評價標(biāo)準(zhǔn)的特征選擇方法能夠有效提升疾病預(yù)測表現(xiàn).原因在于不同特征選擇方法的篩選結(jié)果具有互補性,并且結(jié)合RFE搜索策略可以更好地處理特征選擇的過程,從而提升預(yù)測表現(xiàn)能力.
本文結(jié)合疾病預(yù)測的實際應(yīng)用,提出一種集成多種評價標(biāo)準(zhǔn)的醫(yī)療數(shù)據(jù)特征選擇算法.該算法首先應(yīng)用過濾型特征評價標(biāo)準(zhǔn)對特征進(jìn)行初步篩選;然后,采用特征序列方法對多個特征評價標(biāo)準(zhǔn)的結(jié)果進(jìn)行集成;最后,結(jié)合遞歸特征消除方法進(jìn)行特征選擇.將篩選出的特征子集作為預(yù)測模型的輸入,實現(xiàn)疾病預(yù)測.實驗在LR與SVM預(yù)測模型下,將本文的MCF-RFE方法與AW-SVM、AW-DT、AW-LR、SVM-RFE方法進(jìn)行對比,結(jié)果表明本文的預(yù)測表現(xiàn)最優(yōu).驗證了本文的提出觀點: 與采用一種特征評價標(biāo)準(zhǔn)相比,集成之后可以有效提升疾病預(yù)測表現(xiàn).將數(shù)據(jù)挖掘應(yīng)用于醫(yī)療領(lǐng)域,輔助醫(yī)生診療決策具有深遠(yuǎn)的意義,如何從海量的醫(yī)療數(shù)據(jù)中篩選出關(guān)鍵信息起著至關(guān)重要的作用.本文提出的方法僅在一個疾病的醫(yī)療數(shù)據(jù)中進(jìn)行了疾病預(yù)測研究,對于該方法在其他領(lǐng)域的擴(kuò)展有待進(jìn)一步研究.
致謝:感謝上海翼依信息技術(shù)有限公司提供相關(guān)醫(yī)療數(shù)據(jù),并聯(lián)系風(fēng)濕病領(lǐng)域?qū)I(yè)醫(yī)生與技術(shù)人員對醫(yī)療數(shù)據(jù)處理提供相關(guān)的醫(yī)學(xué)指導(dǎo)和技術(shù)幫助.