夏婷婷 林康 張瀟予 劉海忠
摘 要:【目的】為了解決歐氏距離計算相似性帶來的高維度問題,提出了基于類的余弦距離聚類缺失值填補方法?!痉椒ā渴紫葘⒉煌暾麛?shù)據(jù)集分為兩個不同的組(G1和GIM);其次通過聚類中心對GIM組中的缺失數(shù)據(jù)進行預填補;再次利用余弦距離計算相關(guān)性;最后選擇與G1組中距離最小的數(shù)據(jù)來填補缺失值?!窘Y(jié)果】實驗結(jié)果表明,該方法在類別和混合數(shù)據(jù)集上均優(yōu)于其他插補方法。【結(jié)論】該方法顯著提高了準確率、召回率、F1-score及插補效果。
關(guān)鍵詞:不完整數(shù)據(jù);缺失值插補;聚類;余弦距離
中圖分類號:TP181;TP311.13? 文獻標志碼:A??? 文章編號:1003-5168(2024)08-0028-08
DOI:10.19968/j.cnki.hnkj.1003-5168.2024.08.006
A Study of Missing Value Imputation Methods for Class-based Cosine Distance Clustering
XIA Tingting1 LIN Kang2 ZHANG Xiaoyu3 LIU Haizhong1
(1.Lanzhou Jiaotong University, Lanzhou 730070, China; 2.Beijing Normal University, Zhuhai 519087, China;3.School of Social and Behavioral Sciences, City University of Hong Kong, Lanzhou 730070, China)
Abstract: [Purposes] In order to solve the high dimension problem caused by the similarity of Euclidean distance calculation, a class-based cosine distance clustering missing value imputation approach is proposed. [Methods] Firstly, the incomplete data set is divided into two different groups (G1 and GIM); secondly, the missing data in the GIM group is pre-filled by the clustering center; the cosine distance is used again to calculate the correlation ; finally, the data with the smallest distance from the G1 group is selected to fill the missing values. [Findings] The experimental results show that the proposed method outperforms other imputation methods for both categorical and mixed datasets. [Conclusions] The CBC-IM-COS method significantly improves accuracy, recall and F1-score and imputationperformance.
Keywords: incomplete data; missing value imputation; clustering; cosine distance
0 引言
缺失值的挑戰(zhàn)是數(shù)據(jù)科學中最普遍的問題之一[1]。在醫(yī)療數(shù)據(jù)中尤其如此,由于某些指標難以衡量、數(shù)據(jù)采集不及時、數(shù)據(jù)存儲不當、醫(yī)療信息難以跨平臺共享等因素,導致醫(yī)療數(shù)據(jù)中往往存在許多缺失值[2-3],直接影響疾病診斷、治療選擇、出院評估、預后評估等臨床決策。如果不及時處理大量缺失的數(shù)據(jù),往往會導致嚴重的偏差,從而得出錯誤的結(jié)論。因此,有必要對缺失數(shù)據(jù)進行有效處理,以提高醫(yī)療數(shù)據(jù)的質(zhì)量和臨床決策的準確性。處理缺失數(shù)據(jù)方法大致可分為2類:刪除法和插補法。根據(jù)Strike等[4]和Raymond等[5]的研究,當數(shù)據(jù)集包含非常少量的缺失數(shù)據(jù)時,如缺失率小于10%或15%,采用刪除法刪除缺失數(shù)據(jù),不會對最終挖掘或分析的結(jié)果產(chǎn)生顯著影響。但是,當缺失率較大時,該方法則會導致有價值的信息丟失。與刪除策略不同,缺失值插入(MVI)是處理不完整數(shù)據(jù)集問題最常用的解決方法,插補法是從可利用的數(shù)據(jù)中估計出的數(shù)值去替換缺失的值。
目前,缺失值插補法可分為兩種類型[6-7],即基于統(tǒng)計的方法和基于機器學習的方法?;诮y(tǒng)計的方法主要有均值、中值、眾數(shù)以及期望最大化和多重填補技術(shù)。Tsai等[8]的研究提出了基于類中心的缺失值插補(CCMVI)方法,該方法通過類中心、標準差、歐式距離來填補缺失值,但是該算法不適用于高缺失率的情況;因此劉莎等[9]改進了類中心、標準差、閾值的計算,并使用灰色關(guān)聯(lián)度計算實例間的相關(guān)性,提出了灰色類中心的缺失插補方法,實驗結(jié)果表明,該方法提供了分類精度和插補效果;朱榮慧等[10]和唐健元等[11]分別介紹了多重填補技術(shù)醫(yī)學研究中和臨床研究中的基本思想和步驟;Sefidian等[12]結(jié)合灰色關(guān)聯(lián)分析、模糊C均值、互信息、回歸模型提出了一種新缺失值填補方法,實驗結(jié)果表明,提出的方法在RMSE、MAE、決定系數(shù)方面優(yōu)于其他5種填補方法?;跈C器學習的方法主要有k近鄰(KNN)、支持向量機(SVM)、聚類、隨機森林技術(shù)。李琳等[13]和白洪濤等[14]證明了隨機森林插補具有較好的插補效果;Vazifehdan等[15]使用貝葉斯網(wǎng)絡和張量因式分解相結(jié)合的方法預測乳腺癌復發(fā)的可能性,實驗結(jié)果表明,該方法能夠有效地提高數(shù)據(jù)質(zhì)量和預測質(zhì)量;Batra等[16]提出集成填補模型,并與均值填補、K近鄰填補、迭代填補等方法進行比較,對比結(jié)果表明所提出的方法在準確性方面優(yōu)于其他幾種缺失值填補方法。
由于現(xiàn)實世界中的許多函數(shù)問題都是高維的,為了克服現(xiàn)有的填補技術(shù)和應用的距離函數(shù)具有高維的問題,Yelipe等[17]提出了基于類的歐式距離聚類缺失值填補(CBC-IM-EUC)方法,較好地解決了這一問題。但該算法的主要缺點是:①隨著維度的增加,歐幾里得距離的作用就越小;②在計算相似度時,忽略了GIM組中缺失數(shù)據(jù)的不完整屬性值對應的平均向量元素值。邵俊?。?8]在不同的大規(guī)模高維數(shù)據(jù)集中,比較了4種不同的距離度量函數(shù),結(jié)果表明,余弦距離與歐式距離相比可以得到較好的結(jié)果。針對上述問題,本研究提出了基于類的余弦距離聚類缺失值填補(CBC-IM-COS)方法,通過利用余弦距離代替歐式距離來計算實例間的相關(guān)性,并且在計算相關(guān)性時對GIM組中的缺失數(shù)據(jù)進行預填補。
1 相關(guān)工作
1.1 缺失機制
Little和Rubin[19]將缺失機制分為3種,分別為完全隨機缺失(MCAR)、隨機缺失(MAR)、非隨機缺失(MNAR)。
假設(shè)Y為整個數(shù)據(jù)集的矩陣,該矩陣分解為y0和ym,y0表示數(shù)據(jù)集Y中沒有缺失的數(shù)據(jù),ym表示數(shù)據(jù)集Y中的缺失數(shù)據(jù)。R是指示變量矩陣,其中0表示數(shù)據(jù)缺失,1表示數(shù)據(jù)未缺失,定義見式(1)。
[R=1????? yij∈y00????? yij∈ym] (1)
①完全隨機缺失(MCAR):表示缺失數(shù)據(jù)不依賴于其本身和其他未缺失的數(shù)據(jù)。MCAR的概率定義見式(2)。
[PRym, y0=PR] (2)
②隨機缺失(MAR):表示缺失數(shù)據(jù)獨立于任何缺失值但與其他未缺失的數(shù)據(jù)有關(guān)。在這種機制下,缺失值可以通過觀察到的預測變量進行處理[20]。MAR的概率定義見式(3)。
[PRym, y0=PRy0] (3)
③非隨機缺失(MNAR):表示缺失數(shù)據(jù)依賴于其本身和其他未缺失的數(shù)據(jù)。MNAR概率定義見式(4)。
[PRym, y0=PRy0, ym] (4)
1.2 缺失值方法
通過介紹和描述用于估算原始不完整數(shù)據(jù)集的方法,介紹了4種應用的插補技術(shù)。
①統(tǒng)計方法包括均值/眾數(shù)法和多重插補(Multiple imputation)
②基于機器學習的方法包括支持向量機(SVM)和多層感知機(MLP)。
1.2.1 統(tǒng)計方法。統(tǒng)計填補方法包括均值/眾數(shù)法和多重插補(MI)。
均值/眾數(shù)法(Mean/Mode method),均值法和眾數(shù)法分別是數(shù)值屬性值和分類屬性值最簡便的插補方法。當數(shù)據(jù)發(fā)生缺失時,均值/眾數(shù)法是使用未缺失數(shù)據(jù)的平均值/眾數(shù)來代替缺失的數(shù)據(jù)。此方法簡單易行,但是忽略了屬性之間的依賴關(guān)系。
多重插補(Multiple imputation,MI),是由Rubin于20世紀70年代末首次提出,其核心思想認為缺失數(shù)據(jù)都是隨機的[21]。將MI描述為3個步驟。首先,使用適當?shù)哪P蛠韯?chuàng)建缺失觀測的合理值(通常為5-10個),該模型反映了由缺失數(shù)據(jù)造成的不確定性。每一組合理的值都可以用來“填充”缺失的值,并創(chuàng)建一個“完整的”數(shù)據(jù)集;其次,對每個數(shù)據(jù)集進行分析;最后,將結(jié)果進行綜合,進而產(chǎn)生最終的預測結(jié)果。該方法適用于填補任何類型的數(shù)據(jù)。MI反映了缺失數(shù)據(jù)的不確定性,并解決了單一插補[22]的局限性。于是在多重插值方法中,我們選擇了鏈式方程多元歸算(multiple imputation by chained equations)(MICE)。
1.2.2 機器學習方法?;跈C器學習的估算方法是一個復雜的過程,通常包括創(chuàng)建一個預測模型來估計將替代缺失的值?;跈C器學習方法包括支持向量機(SVM)和多層感知機(MLP)。
支持向量機(SVM),是一種有監(jiān)督學習模型,支持向量機插補缺失數(shù)據(jù)的原理是先利用不完整數(shù)據(jù)集中的未缺失數(shù)據(jù)來訓練支持向量機模型,再利用訓練好的模型去預測缺失數(shù)據(jù)。SVM與SVR分別用于離散/類別與連續(xù)/數(shù)值缺失數(shù)據(jù)的填補。該方法的優(yōu)點是無論自變量的維度如何,都能表現(xiàn)出優(yōu)異的性能。但是,該方法的準確性會隨著樣本數(shù)量的增加而降低。
多層感知機(MLP),是由輸入層、隱藏層、輸出層組成的前饋神經(jīng)網(wǎng)絡。首先,自變量的值通過輸入層進入MLP,并利用隱含層的輸入值生成權(quán)值的和;其次,通過多個隱藏層重復生成加權(quán)和的過程后,利用輸出層生成因變量的值并輸出;再次,使用反向傳播學習算法對構(gòu)成MLP的神經(jīng)元進行訓練,并在此過程中更新權(quán)重;最后,將更新的權(quán)重存儲在MLP的神經(jīng)元中,并使用存儲的權(quán)重定義自變量和因變量之間的非線性關(guān)系。
2 總體設(shè)計
2.1 整體工作流程
本研究提出的CBC-IM-COS方法的整體工作流程包括4個步驟,如圖1所示。
步驟1:數(shù)據(jù)劃分。數(shù)據(jù)集被劃分為2組。G1組(不包含缺失值)和GIM組(包含缺失值)。
步驟2:插補過程。利用CBC-IM-COS方法,進行缺失值插補。
步驟3:合并數(shù)據(jù)集。把G1組的數(shù)據(jù)和填補后的GIM組的數(shù)據(jù)合并在一起,形成一個完整的數(shù)據(jù)集。
步驟4:評價過程。使用支持向量機分類器,衡量插補的性能。
2.2 CBC-IM-COS方法步驟
首先,將數(shù)據(jù)分為不包含缺失值(G1)組和包含缺失值(GIM)組,其目的是先考慮G1組的數(shù)據(jù);其次,采用Kmeans聚類算法,獲得與決策標簽數(shù)量相等的聚類,并使用所獲得的聚類信息去實現(xiàn)降維;再次,通過分析在G1組得到的集群,從而得到每個集群的聚類中心和偏差;然后,利用從G1組得到的聚類中心,對GIM組中的缺失數(shù)據(jù)進行預填補;最后,使用余弦距離計算缺失的屬性值數(shù)據(jù)和G1組中每個數(shù)據(jù)之間的距離(或相似度),并選擇與G1組中距離最?。ɑ蛳嗨贫茸畲螅┑臄?shù)據(jù)來進行填補。
如果是數(shù)字屬性,則填寫屬性值的平均值;如果是名義屬性,則選擇并替換類似記錄的相應屬性值。填補完成后,可以得到最終的完整數(shù)據(jù)集。
3 實驗
3.1 數(shù)據(jù)集
從UCI機器學習庫中選擇了3種不同類型的數(shù)據(jù)集,分別為數(shù)值型、字符型、混合型數(shù)據(jù)集。數(shù)據(jù)樣本和屬性的數(shù)量分別為132到5 000和4到36。數(shù)據(jù)集的基本信息見表1。
3.2 實驗設(shè)計
本研究基于完全隨機缺失(MCAR)機制,實驗所用的缺失率為20%、30%、40%。在缺失值插補過程中,將本研究所提出的CBC-IM-COS方法與其他5種插補方法進行了比較,分別是Mean/Mode、MICE、SVM、MLP、CBC-IM-EUC。
首先,基于10倍交叉驗證方法,將每個數(shù)據(jù)集分為90%的訓練集和10%的測試集;然后,使用SVM分類器對插補后的數(shù)據(jù)集進行評估;最后,為了避免由MCAR獲得的偏差結(jié)果,對每個缺失率執(zhí)行10次驗證。
3.3 評價標準
為了評估提出的CBC-IM-COS方法,將從插補后數(shù)據(jù)集的準確率、召回率、F1-score方面出發(fā),對插補結(jié)果進行評價。準確率、召回率、F1-score的計算公式見式(5)至式(7)。這些評價測量是根據(jù)混淆矩陣計算的見表2。
[Accuracy=TP+TNTP+FP+TN+FN] (5)
[Recall=TPTP+FN] (6)
[F1-score=TPTP+FP+FN2] (7)
3.4 實驗結(jié)果
3.4.1 數(shù)值型數(shù)據(jù)集實驗結(jié)果及分析。在數(shù)值型數(shù)據(jù)集上不同的MVI方法對不同缺失率下SVM的平均準確率、召回率、F1-score見表3。由表3可知,平均來說,CBC-IM-COS方法在召回率上表現(xiàn)最好,在準確率和F1-score上取得了次最優(yōu)的結(jié)果。并且,CBC-IM-COS方法相較于CBC-IM-EUC方法的準確率和召回率分別增加了0.26%和0.13%。
不同的MVI方法在數(shù)值型數(shù)據(jù)集上的不同缺失率下的準確率、召回率、F1-score如圖2所示。由圖2可知,當缺失率為20%時,CBC-IM-COS方法在準確率方面略低于Mice;當缺失率為20%和40%時,CBC-IM-COS方法在召回率方面優(yōu)于其他填補方法;當缺失率為20%,CBC-IM-COS方法在F1-score表現(xiàn)最好。
3.4.2 字符型數(shù)據(jù)集實驗結(jié)果及分析。在字符型數(shù)據(jù)集上不同MVI方法對不同缺失率下SVM的平均準確率、召回率、F1-score結(jié)果見表4。由表4可知,在F1-score上,眾數(shù)法的效果最好,但是,由于眾數(shù)法沒有考慮到數(shù)據(jù)之間的相關(guān)性,所以認為CBC-IM-COS方法較好。并且,CBC-IM-COS方法相較于CBC-IM-EUC方法的準確率、召回率、F1-score分別增加了0.25%、0.22%、0.16%。
不同MVI方法在字符型數(shù)據(jù)集上的不同缺失率下的準確率、召回率、F1-score如圖3所示。由圖3可知,對于不同的MVI方法,隨著缺失率的增加,準確率、召回率、F1-score逐漸下降。當缺失率為20%和30%時,眾數(shù)法是最佳選擇;當缺失率為40%時,CBC-IM-COS方法表現(xiàn)最好。
3.4.3 混合型數(shù)據(jù)集實驗結(jié)果及分析。在混合型數(shù)據(jù)集上不同MVI方法對不同缺失率下SVM的平均準確率、召回率、F1-score結(jié)果見表5。由表5可知,CBC-IM-COS方法與MLP取得了相同的Accuracy,在召回率和F1-score上,CBC-IM-COS方法表現(xiàn)最好;在Recall上CBC-IM-COS方法取得了次最優(yōu)的結(jié)果。并且,CBC-IM-COS方法相較于CBC-IM-EUC方法的準確率、召回率、F1-score分別增加了0.27%、0.24%、0.27%。
不同MVI方法在混合型數(shù)據(jù)集上的不同缺失率下的準確率、召回率、F1-score如圖4所示。由圖4可知,對于不同的MVI方法,隨著缺失率的增加,準確率、召回率、F1-score先下降再上升。當缺失率為20%和40%時,Mice優(yōu)于其他的填補方法;當缺失率為30%時,CBC-IM-COS方法表現(xiàn)最好。
4 結(jié)論
本研究針對高維數(shù)據(jù)的缺失值問題,提出了基于類的余弦距離聚類缺失值填補(CBC-IM-COS)方法,使用了3種不同類型的數(shù)據(jù)集,即數(shù)值型、字符型、混合型數(shù)據(jù)集,將CBC-IM-COS方法與5種常用方法(Mean/Mode、MICE、SVM、MLP及CBC-IM-EUC方法)進行對比。實驗結(jié)果表明,對于數(shù)值型數(shù)據(jù)集,CBC-IM-COS方法在召回率上取得了較好的結(jié)果;對于分類型數(shù)據(jù)集,CBC-IM-COS方法在準確率、召回率、F1-score上均優(yōu)于其他填補方法;對于混合型數(shù)據(jù)集,CBC-IM-COS方法在準確率和F1-score上取得了較好的結(jié)果。并且,對于字符型和混合型數(shù)據(jù)集,CBC-IM-COS方法相較于CBC-IM-EUC均能在一定程度上提高準確率、召回率、F1-score。除此之外,對于字符型和混合型數(shù)據(jù)集,CBC-IM-COS方法分別在缺失率為30%和40%時獲得最優(yōu)的結(jié)果。
本研究僅基于MCAR機制對缺失數(shù)據(jù)進行模擬,未考慮其他2種(MAR和MNAR)缺失機制,并且僅使用了SVM分類器衡量插補效果,在未來研究中可使用多種分類器進行綜合比較。
參考文獻:
[1]ZHANG Z H.Missing data imputation:focusing on single imputation[J]. Ann Transl Med, 2016,4(1):9.
[2]STONKO D P,BETZOLD R D,ABDOU H,et al.In-hospital outcomes in autogenous vein versus synthetic graft interposition for traumatic arterial injury:a propensity-matched cohort from proovit[J]. Journal of Vascular Surgery,2022,75(5):1787-1788.
[3]PURRUCKER J C,HAAS K,RIZOS T,et al.Early clinical and radiological course,management,and outcome of intracerebral hemorrhage related to new oral anticoagulants[J]. JAMA Neurology,2016,73(2):169-177.
[4]STRIKE K,EL E K,MADHAVJI N. Software cost estimation with incomplete data[J]. IEEE Transactions on Software Engineering,2001,27(10):890-908.
[5]RAYMOND M R,ROBERTS D M.A comparison of methods for treating incomplete data in selection research[J].Educational and Psychological Measurement,1987,47(1):13-26.
[6]AITTOKALLIO T.Dealing with missing values in large-scale studies:microarray data imputation and beyond[J].Briefings in Bioinformatics,2010,11(2):253-264.
[7]GARCIA-LAENCINA P J, SANCHO-GOMEZ J L,F(xiàn)igueiras-Vidal A R.Pattern classification with missing data:a review[J]. Neural Computing and Applications,2010,19(2):263-282.
[8]TSAI C F,LI M L,LIN W C. A class center based approach for missing value imputation[J]. Knowledge-Based Systems,2018,151:124-135.
[9]劉莎,楊有龍.基于灰色關(guān)聯(lián)分析的類中心缺失值填補方法[J].四川大學學報(自然科學版),2020,57(5):871-878.
[10]朱榮慧,許金芳,王睿,等.多重填補技術(shù)在醫(yī)學研究缺失值處理中的應用及發(fā)展[J].中國衛(wèi)生統(tǒng)計,2022,39(2):293-295,298.
[11]唐健元,楊志敏,楊進波,等.臨床研究中缺失值的類型和處理方法研究[J].中國衛(wèi)生統(tǒng)計,2011,28(3):338-341,343.
[12]SEFIDIAN A M,DANESHPOUR N. Missing value imputation using a novel grey based fuzzy c-means,mutual information based feature selection,and regression model[J]. Expert Systems with Applications,2019,115:68-94.
[13]李琳,楊紅梅,楊日東,等.基于臨床數(shù)據(jù)集的缺失值處理方法比較[J].中國數(shù)字醫(yī)學,2018,13(4):8-10,80.
[14]白洪濤,欒雪,何麗莉,等.基于缺失森林的醫(yī)療大數(shù)據(jù)缺失值插補[J].吉林大學學報(信息科學版),2022,40(4):616-620.
[15]VAZIFEHDAN M,MOATTAR M H,JALALI M.A hybridbayesian network and tensor factorization approach for missing value imputation to improve breast cancer recurrence prediction[J]. Journal of King Saud University-Computer and Information Sciences,2019,31(2):175-184.
[16]BATRA S,KHURANA R,KHAN M Z,et al.A pragmatic ensemble strategy for missing values imputation in health records[J]. Entropy,2022,24(4):533.
[17]YELIPE U R,PORIKA S,GOLLA M.An efficient approach for imputation and classification of medical data values using class-based clustering of medical records[J]. Computers and Electrical Engineering,2018,66:487-504.
[18]邵俊健.高維數(shù)據(jù)的聚類算法及其距離度量的研究[D].無錫:江南大學,2019.
[19]LITTLE R J A,RUBIN D B. Statistical Analysis with Missing Data[M]. John Wiley and Sons,2019.
[20]GOMEZ-CARRACEDO M P,ANDRADE J M,LOPEZ-MAHIA P,et al.A practical comparison of single and multiple imputation methods to handle complex missing data in air quality datasets[J]. Chemometrics and Intelligent Laboratory Systems,2014,134:23-33.
[21]RUBIN D B. Multiple imputation after 18+ years[J]. Journal of the American statistical Association,1996,91(434):473-489.
[22]UUSITALO L,LEHIKOINEN A,HELLE I,et al.An overview of methods to evaluate uncertainty of deterministic models in decision support[J]. Environmental Modelling and Software,2015,63:24-31.
收稿日期:2023-10-18
作者簡介:夏婷婷(1997—),女,碩士生,研究方向:缺失值插補。
通信作者:劉海忠(1969—),男,碩士,研究方向:數(shù)據(jù)科學與時空預測決策。