白洪濤,欒 雪,何麗莉,畢亞茹,張婷婷,孫成林
(吉林大學 a.軟件學院;b.計算機科學與技術學院,長春 130022;c.第一醫(yī)院,長春 130012)
數(shù)據(jù)缺失是一個較為常見的現(xiàn)象[1],是許多數(shù)據(jù)分析任務中的一個阻礙,并有可能嚴重損害機器學習模型的性能,以及基于這些模型的下游任務。如果能以一種合理的方式成功地恢復輸入的缺失數(shù)據(jù)是理解真實世界數(shù)據(jù)結構的關鍵。在醫(yī)療數(shù)據(jù)中經(jīng)常由于各種原因存在大量的缺失值,因此許多研究人員致力于開發(fā)醫(yī)療數(shù)據(jù)的插補算法。插補算法也廣泛應用于其他領域,如數(shù)據(jù)壓縮、圖像補全[2]、RNA(Ribonucleic Acid)序列缺失值補全[3]等。
缺失數(shù)據(jù)主要有3種類型[4]:1) 完全隨機缺失(MCAR:Missing Completely At Random),指數(shù)據(jù)集中數(shù)據(jù)缺失是完全隨機的,與缺失變量本身和其他變量無關;2) 隨機缺失(MAR:Missing At Random),指數(shù)據(jù)集中數(shù)據(jù)缺失并不是完全隨機的,而與其他變量完全有關;3) 非隨機缺失(MNAR:Missing Not At Random),指數(shù)據(jù)集中數(shù)據(jù)缺失的產(chǎn)生不僅與變量本身取值有關,也與其他變量的取值有關,這種缺失機制大都不是隨機因素所造成的,經(jīng)常存在主觀因素或變量之間的相互關聯(lián),通常是不可忽略的。筆者針對完全隨機缺失情況進行研究。
目前人們對缺失數(shù)據(jù)處理主要有3種策略。1) 不進行處理,這是一種比較簡單的方法,常用于缺失數(shù)據(jù)的樣本量很少時,采用插補法,可能會影響樣本的總體分布特點和變量間的關系,使原始數(shù)據(jù)集產(chǎn)生噪聲[5]。2) 刪除樣本法,即將含有缺失值的數(shù)據(jù)樣本刪除。對數(shù)據(jù)缺失率較小,該方法非常高效。但該方法局限性在于它是以縮小數(shù)據(jù)樣本量獲取完整數(shù)據(jù)集,會導致數(shù)據(jù)信息的浪費,丟失了隱藏在缺失值中的信息[6]。3) 缺失值插補法,對數(shù)據(jù)集中缺失的數(shù)據(jù),通過特定方法進行缺失值填充處理,使數(shù)據(jù)成為一完整數(shù)據(jù)集,是針對缺失數(shù)據(jù)最為常見且較有效的解決方法。常見的缺失數(shù)據(jù)插補方法有:K最近鄰插補法[7]、多重插補法[8-9]、矩陣補全[10]和基于深度學習方法等。
目前針對醫(yī)療數(shù)據(jù)集缺失值處理相關研究報道較少,尤其是當數(shù)據(jù)集中同時存在離散型變量和連續(xù)型變量,缺少合理的解決方法。近年來,大量研究顯示谷丙轉氨酶(ALT:ALanineamino Transferase)升高是糖尿病發(fā)生的危險因素之一[11-12]。ALT被認為是肝功能的替代標志物,也是預測糖尿病的重要風險指標。許多研究報告表明,ALT即使在正常范圍內(nèi),仍與T2DM(Diabetes Mellitus Type 2)風險增加有關。橫截面研究顯示,ALT與糖尿病之間存在持續(xù)的正相關[13],且無閾值效應。因此,筆者使用缺失森林插補法、K最近鄰插補法、多重插補法和GAIN(Generative Adversarial Imputation Nets)[14]插補法對兩個醫(yī)療數(shù)據(jù)集進行缺失值插補。同時,通過分析糖尿病數(shù)據(jù)集中ALT與糖尿病之間的劑量-反應關系探討缺失森林插補法對下游任務的影響。
缺失森林插補法[15]是一種建立在隨機森林算法基礎上的非參數(shù)插補方法,其既可用于連續(xù)型變量也可用于離散型變量,不需要對數(shù)據(jù)分布進行假設。該方法首先對缺失數(shù)據(jù)集進行快速插補,即對連續(xù)型變量選擇該變量平均值對缺失數(shù)據(jù)進行插補,離散型變量選擇該變量眾數(shù)對數(shù)據(jù)進行插補,若眾數(shù)存在多個相同值,則隨機選擇其中一個即可,同時將變量按照缺失值的數(shù)量升序排序。然后對每個特征變量,使用缺失森林插補法步驟如下:
3) 重復上述插補過程,直到達到終止迭代條件γ和最大迭代次數(shù)。
算法如下:
輸入:缺失數(shù)據(jù)集X。
Step1 對存在缺失值的連續(xù)變量,應用該變量的平均值對缺失值進行初始插補,對存在缺失值的離散變量,應用該變量的眾數(shù)對缺失值進行初始插補;
Step2 計算缺失數(shù)據(jù)集X中各個變量的缺失率,將缺失率從小到大排序,并將對應的變量存入向量m中;
Step5 對于s∈m,依次執(zhí)行:
Step6 更新γ,itermax++,返回Step3;
輸出:插補后的矩陣Ximp。
對連續(xù)型變量,N為連續(xù)型變量的集合,差異可定義為
對離散變量,C為離散型變量的集合,差異可定義為
其中NA為離散型變量缺失值的個數(shù),n為樣本數(shù)量。
筆者選取了中國Rich Healthcare Group數(shù)據(jù)庫中的糖尿病數(shù)據(jù)集[16](以下簡稱數(shù)據(jù)集1)、Dryad Digital Repository(https:∥doi.org/10.5061/dryad.8q0p192)(以下簡稱數(shù)據(jù)集2)兩個數(shù)據(jù)集。
2.2.1 評價指標
對連續(xù)型變量,選擇標準均方根誤差(NRMSE:Normalized Root Mean Squared Error,ENRMSE)[15]作為評價指標,其值越小,誤差越小,插補效果越好。如下
(1)
其中Xtrue為真實完整數(shù)據(jù)集,Ximp為插補后的數(shù)據(jù)集。
對離散型變量,選擇錯誤分類占比率(PFC:the Proportion of Falsely Classified,RPFC)[15]作為評價指標,其值越小,誤差越小,插補效果越好。如下
(2)
2.2.2 插補結果
將數(shù)據(jù)集分別設置10%,20%,30%,40%的隨機缺失率,然后針對數(shù)據(jù)集在不同缺失率的情況下,分別使用缺失森林插補法、多重插補法、K最近鄰插補法和GAIN插補法進行缺失值插補,最后計算插補后的數(shù)據(jù)集與真實數(shù)據(jù)集間的評價指標,實驗結果如表1,表2所示。
表1 數(shù)據(jù)集1NRMSE指標和PFC指標Tab.1 Dataset 1 NRMSE metrics and PFC metrics
表2 數(shù)據(jù)集2 NRMSE指標和PFC指標Tab.2 Dataset 2 NRMSE metrics and PFC metrics
由表1,表2可見,根據(jù)兩個數(shù)據(jù)集的NRMSE和PFC的評價指標,缺失森林插補法誤差較低,插補效果優(yōu)于K最近鄰插補法、多重插補法和GAIN插補法。即使數(shù)據(jù)集2中缺失森林插補誤差較大,但插補效果也優(yōu)于其他3種方法。因此,缺失森林插補法可有效解決醫(yī)療數(shù)據(jù)缺失問題。
為檢驗缺失森林插補法對下游任務的影響,筆者使用數(shù)據(jù)集1原始數(shù)據(jù)(未插補)與插補后數(shù)據(jù)探討ALT與糖尿病之間的劑量-反應關系。采用限制性立方樣條模型,在調整年齡、性別、吸煙狀況、飲酒情況、BMI(Body Mass Index)、舒張壓、收縮壓、糖尿病家族遺傳史、AST(ASanine aminoTransferase)和膽固醇因素后,分別得到了原始數(shù)據(jù)與插補后數(shù)據(jù)ALT與糖尿病之間的劑量-反應關系圖(見圖1,圖2),其中虛線表示置信區(qū)間。從圖1,圖2中可看出,數(shù)據(jù)插補前后變化趨勢一致,均存在顯著的線性關聯(lián),當ALT濃度升高,糖尿病發(fā)病率也隨之增加。由此可見,缺失森林插補法穩(wěn)定性較好,并不影響下游任務的研究。
圖1 數(shù)據(jù)集1原始數(shù)據(jù)ALT與糖尿病發(fā)病的劑量-反應關系 圖2 數(shù)據(jù)集2插補后ALT與糖尿病發(fā)病的劑量-反應關系 Fig.1 Dataset 1 raw data on the dose-response relationship between ALT and the onset of diabetes Fig.2 Dataset 2 dose-response relationship between ALT and diabetes onset after interpolation
針對醫(yī)療數(shù)據(jù)集中數(shù)據(jù)缺失問題,筆者提出使用缺失森林插補法進行缺失值補全,從NRMSE和PFC評價指標可以看出,該方法插補誤差較低且效果優(yōu)于K-最近鄰插補法、多重插補法和GAIN插補法,即使在誤差較高的情況下,該方法插補效果也優(yōu)于其他3種方法;其次,通過對數(shù)據(jù)集1中ALT與糖尿病的劑量-反應關系進行分析,證明缺失森林插補法不會對下游任務分析產(chǎn)生不利影響。因此,對缺失率較高的醫(yī)療大數(shù)據(jù),使用缺失森林插補法進行插補不僅誤差較低且穩(wěn)定性較好,具有一定應用價值。