徐鴻艷 孫云山 秦琦琳 朱明濤
摘? 要:數(shù)據(jù)缺失問題在現(xiàn)實工作生活中不可避免,為保證信息完整度以便于后續(xù)統(tǒng)計分析,盡可能準(zhǔn)確地預(yù)測填補缺失值則顯得尤為重要。基于兩組分別服從于高斯分布和伽馬分布的模擬數(shù)據(jù)集和一組非洲地區(qū)部分國家預(yù)期壽命實際數(shù)據(jù),分別預(yù)設(shè)5%、10%和20%三種缺失比例,利用計算機軟件對四種插補方法統(tǒng)計結(jié)果進(jìn)行比較分析。試驗結(jié)果表明,模擬數(shù)據(jù)中自回歸建模插補和均值插補整體效果略優(yōu)于最近鄰插補和線性回歸插補;實際數(shù)據(jù)中當(dāng)缺失數(shù)據(jù)比例較低時,最近鄰插補和線性回歸插補效果優(yōu)于前兩者,當(dāng)缺失比例較高時與模擬數(shù)據(jù)效果無明顯差異。
關(guān)鍵詞:缺失數(shù)據(jù);插補方法;自回歸建模
中圖分類號:TP399? ? ?文獻(xiàn)標(biāo)識碼:A
Comparative Analysis of the Performance of Interpolation
Methods for Missing Data
XU Hongyan1, SUN Yunshan2, QIN Qilin1, ZHU Mingtao2
(1.School of Science, Tianjin University of Commerce, Tianjin 300134, China;
2.School of Information Engineering, Tianjin University of Commerce, Tianjin 300134, China)
2552727224@qq.com; sunyunshan@tjcu.edu.cn; 3099141857@qq.com; 648191948@qq.com
Abstract: Data missing is inevitable. In order to ensure information integrity and follow-up statistical analysis, it is particularly important to predict and fill in missing values as accurately as possible. Based on two sets of simulated data sets that are subject to Gaussian distribution and Gamma distribution respectively, and a set of actual life expectancy data of some countries in Africa, three missing ratios of 5%, 10% and 20% are preset respectively, and the statistical results of the four interpolation methods are compared and analyzed by computer software. The experimental results show that the overall effect of auto-regression modeling interpolation and mean interpolation in simulated data is slightly better than that of K-nearest neighbor interpolation and linear regression interpolation. In actual data, when the proportion of missing data is low, K-nearest neighbor interpolation and linear regression is better than the former two, and there is no significant difference in the effect of the simulated data when the missing ratio is high.
Keywords: missing data; interpolation method; autoregressive
1? ?引言(Introduction)
數(shù)據(jù)作為一種形式多變的信息載體,如今廣泛存在并應(yīng)用于各行各業(yè)中,尤其是進(jìn)入大數(shù)據(jù)時代以來,各類數(shù)據(jù)信息的完整、準(zhǔn)確、充足與否與各行業(yè)的發(fā)展息息相關(guān)。然而由于某些主觀和客觀原因(如數(shù)據(jù)統(tǒng)計或錄入過程中被遺漏,數(shù)據(jù)獲取渠道未公開等),不可避免地會存在一些數(shù)據(jù)缺失的情況[1]。另外,現(xiàn)行的統(tǒng)計方法并不能直接對缺失數(shù)據(jù)進(jìn)行統(tǒng)計分析,因而如何處理缺失數(shù)據(jù)并使其提供最大完整度的信息就成了重中之重。隨著數(shù)據(jù)缺失這一現(xiàn)實問題逐漸受到重視,國內(nèi)外相關(guān)學(xué)者也對其進(jìn)行了一系列研究。相對而言,國外學(xué)者起步更早,早有學(xué)者于20 世紀(jì)便提出了缺失數(shù)據(jù)的相關(guān)問題。在經(jīng)過無數(shù)次試驗后,學(xué)者們發(fā)現(xiàn)缺失數(shù)據(jù)難以避免,因此一系列插補方法應(yīng)運而生,如加權(quán)法、冷熱平臺插補、回歸插補和EM算法等[2]。而我國相關(guān)問題的研究起步于21 世紀(jì)初,較有代表性的為金勇進(jìn)教授在其文章《缺失數(shù)據(jù)的插補調(diào)整》中提出的一系列插補方法,而后隨著其他學(xué)者的不斷深入學(xué)習(xí),除傳統(tǒng)插補方法以外,一些機器學(xué)習(xí)方法(支持向量機、神經(jīng)網(wǎng)絡(luò)和決策樹等[3])在缺失數(shù)據(jù)插補上也得到了廣泛應(yīng)用。
本文旨在通過模擬數(shù)據(jù)和實際數(shù)據(jù)對現(xiàn)今應(yīng)用較為廣泛的幾種數(shù)據(jù)插補方法進(jìn)行比較分析,第二部分主要對缺失數(shù)據(jù)產(chǎn)生的原因和本文中應(yīng)用到的幾種插補方法進(jìn)行簡要概述,第三部分基于模擬數(shù)據(jù)和實際數(shù)據(jù)進(jìn)行實證分析,最后針對試驗結(jié)果得出結(jié)論。
2? ?缺失數(shù)據(jù)概述(An overview of missing data)
2.1? ?缺失數(shù)據(jù)產(chǎn)生原因及分類
從數(shù)據(jù)的收集、整理、處理到應(yīng)用,任何一個環(huán)節(jié)出現(xiàn)問題都可能會造成數(shù)據(jù)信息的遺失,我們根據(jù)各類數(shù)據(jù)的不同階段將其缺失原因主要分為以下幾種:(1)調(diào)查人員調(diào)查不足造成資料中的數(shù)據(jù)丟失;(2)統(tǒng)計人員在數(shù)據(jù)錄入過程中出現(xiàn)失誤,或因數(shù)據(jù)采集設(shè)備故障等原因引起數(shù)據(jù)缺失;(3)被調(diào)查人員的主觀失誤或有意隱瞞造成的數(shù)據(jù)缺失[4];(4)歷史原因造成的數(shù)據(jù)缺失;(5)未公開數(shù)據(jù)難以獲取和其他原因造成的數(shù)據(jù)缺失,等等。
而關(guān)于缺失數(shù)據(jù)的分類,隨著近年來缺失數(shù)據(jù)問題研究的不斷發(fā)展和相關(guān)學(xué)者研究的不斷深入,我們既可根據(jù)缺失機制將其分為隨機缺失、完全隨機缺失和非隨機缺失[5]三類,也可根據(jù)數(shù)據(jù)的缺失模式將其分為單變量缺失模式、多變量缺失模式[6]、單調(diào)缺失模式和一般缺失模式四類,各類別的具體含義于其他相關(guān)文獻(xiàn)中均有較為詳細(xì)的介紹,我們這里不作贅述。
2.2? ?缺失數(shù)據(jù)處理方法
對于缺失數(shù)據(jù)的處理方式,較為簡單的主要有不處理和直接刪除法。前者主要包括直接在含空值的數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘處理的貝葉斯網(wǎng)絡(luò)和人工神經(jīng)網(wǎng)絡(luò)[7]等,但這種處理方式大多認(rèn)為補齊后的數(shù)據(jù)不一定符合客觀事實,錯誤地填充會導(dǎo)致錯誤的結(jié)果,因此仍希望在保持原始信息不發(fā)生變化的情況下對信息系統(tǒng)進(jìn)行處理[8]。后者操作簡單,但假設(shè)條件較高,容易產(chǎn)生估計偏差,且簡單刪除存在缺失的數(shù)據(jù)會損失大量信息進(jìn)而影響信息的客觀性與結(jié)果的準(zhǔn)確性,因此人們在對缺失數(shù)據(jù)進(jìn)行預(yù)處理時,除缺失比例極小的情況外通常也不會采用此方法。因此,插補法相對來說目前更符合常理且易被各界學(xué)者及研究人員接受,即基于數(shù)理統(tǒng)計等原理對數(shù)據(jù)集中的缺失部分作填充處理,使得數(shù)據(jù)集變得完整以便開展下一步工作,其主要用于處理項目無回答而造成的數(shù)據(jù)缺失,可保證數(shù)據(jù)分析的基本樣本量。目前應(yīng)用較為廣泛的插補法主要有特殊值替換(均值替代、眾數(shù)中位數(shù)替代等)、多重插補、冷熱卡插補、KNN、EM算法和各類機器學(xué)習(xí)插補法等。此外,張量補全法、隨機森林算法、樸素貝葉斯等新型插補方法也在某些領(lǐng)域的缺失數(shù)據(jù)處理上有著一定的應(yīng)用,本文將對以下幾種插補方法結(jié)果做比較分析。
2.2.1? ?最近鄰插補方法
最近鄰插補方法(K-Nearest Neighbor, KNN),整體思路較為簡單,即缺失數(shù)據(jù)插補過程中,缺失位置數(shù)值根據(jù)其特征空間內(nèi)相鄰最近的K個觀測值決定,根據(jù)距離遠(yuǎn)近決定分類歸屬,其主要不足為計算量較大,且缺失比例較大或缺失數(shù)據(jù)點大量連續(xù)時計算機運行難以得到預(yù)測結(jié)果,因此其較適用于類域存在交叉和重疊的待估計樣本點分類問題。該分類算法主要分為以下四個步驟:
步驟1:導(dǎo)入全部已知觀測數(shù)據(jù)與待估計數(shù)據(jù);
步驟2:計算每個待估計樣本點(缺失數(shù)據(jù)點)到其他已知觀測值的距離D;
步驟3:對每個計算得出的距離D進(jìn)行排序,并選出距離最小的K個點;
步驟4:對上述選出的K個所屬類別進(jìn)行比較后,將待估計樣本點歸入在K個已知觀測點中占比最高的那類。
2.2.2? ?均值插補與線性回歸插補
均值插補作為一種操作簡便且快速的缺失數(shù)據(jù)處理方式,與眾數(shù)、中位數(shù)等插補方法同屬于傳統(tǒng)統(tǒng)計插補,主要分為單一插補和分層插補兩大類,其缺點為容易造成變量方差和標(biāo)準(zhǔn)差變小,相對而言更適用于分布較為平均且已知樣本量信息較多的數(shù)據(jù)插補問題。
而線性回歸插補的主要思想則為,利用已知觀測樣本點建立線性回歸模型,估計回歸模型參數(shù)進(jìn)而對缺失樣本點進(jìn)行預(yù)測填補,其主要局限在于當(dāng)模型中的變量非線性相關(guān)或預(yù)測變量高度相關(guān)時,容易產(chǎn)生有偏估計。
2.2.3? ?自回歸建模插補
自回歸建模方法多用于傳統(tǒng)統(tǒng)計學(xué)中處理時間序列預(yù)測的相關(guān)問題研究,后經(jīng)過相關(guān)學(xué)者的不斷深入研究,逐漸在信號處理中的缺失音頻圖文填充、缺失數(shù)據(jù)預(yù)測等方面也有了廣泛應(yīng)用。其主要特點在于不僅能處理因自身因素而受影響的預(yù)測問題,還能建立向量自回歸模型處理因其他因素受影響的缺失數(shù)據(jù)預(yù)測插補問題。對于本文中非時間序列的預(yù)測問題,則可以利用已知觀測數(shù)據(jù)進(jìn)行正向和反向自回歸擬合推斷而來的估計值代替缺失數(shù)據(jù),該方法主要運算步驟為:
步驟1:將已知觀測數(shù)據(jù)X(k)和待估計數(shù)據(jù)X(1)的總數(shù)據(jù)變換為:
步驟2:設(shè)定總樣本數(shù)據(jù)自回歸模型的階數(shù)上限I,為避免排除有效模型,I應(yīng)該設(shè)定得足夠大。
步驟3:計算樣本自協(xié)方差:
步驟4:通過最小二乘法擬合階自回歸模型。
步驟5:通過比較FPE(Final Prediction Error,最終預(yù)報誤差)大小得出最終預(yù)測結(jié)果,整個運算過程我們可通過計算機程序來實現(xiàn)。
3? 基于模擬數(shù)據(jù)進(jìn)行不同插補方法比較分析(Comparative analysis of different interpolation methods based on simulated data)
3.1? ?數(shù)據(jù)來源及統(tǒng)計指標(biāo)說明
本部分我們首先基于服從高斯分布和伽馬分布兩種形式生成的2,000 個模擬數(shù)據(jù),對其按照5%、10%、20%三種不同固定比例構(gòu)造缺失數(shù)據(jù)后進(jìn)行四種插補方法的比較,然后基于非洲地區(qū)47 個國家1993—2013 年(共21 年)的出生時預(yù)期壽命完整數(shù)據(jù)集,同樣設(shè)置三種缺失比例對缺失部分進(jìn)行插補預(yù)測,即對以上四種方法結(jié)果的適用性進(jìn)行驗證分析。本文主要以下面兩種統(tǒng)計指標(biāo)作為插補效果評判的依據(jù):
指標(biāo)1:均方誤差(Mean Square Error, MSE)。
指標(biāo)2:平均絕對百分比誤差(Mean Absolute Percentage Error, MAPE)[9]。
本文用均方誤差和平均絕對百分比誤差這兩種統(tǒng)計指標(biāo)的大小來評判插補效果,其中MAPE值和MSE值的大小同樣能反映插補值與真實值之間的差異[10],數(shù)值越小則表示預(yù)測值與真實值之間的差異越小,即插補效果越好,反則反之。
3.2? ?基于多種方法不同缺失比例下的插補結(jié)果比較分析
3.2.1? ?高斯模擬數(shù)據(jù)集
本部分基于服從高斯分布的模擬數(shù)據(jù)集,分別運用最近鄰(K=5)插補、均值插補、線性回歸插補和自回歸建模插補四種方法進(jìn)行缺失數(shù)據(jù)的預(yù)測,其中缺失比例我們預(yù)設(shè)為5%、10%和20%三種情況,預(yù)測插補后兩種評價指標(biāo)均方誤差和平均絕對百分比誤差的具體結(jié)果如表1、圖1和圖2所示。
由以上結(jié)果可知,三種缺失比例下的插補準(zhǔn)確率效果整體趨勢相同,相比較而言均值插補和自回歸建模插補兩種方法的效果較好。其中,評價指標(biāo)MSE值二者更為接近,插補預(yù)測后兩種插補方法在三種缺失比例下的均方誤差分別為0.0621、0.0984、0.1885和0.0663、0.1157、0.2001。而最近鄰插補和線性回歸插補兩者的結(jié)果較差,從統(tǒng)計結(jié)果來看與前兩者尚存在較為明顯的差距,尤其是當(dāng)缺失數(shù)據(jù)比例為10%和20%時,劣勢尤為明顯。
3.2.2? ?伽馬模擬數(shù)據(jù)集
與上一部分中試驗過程類似,本部分試驗基于服從伽馬分布的模擬數(shù)據(jù)集,分別運用最近鄰(K=5)插補、均值插補、線性回歸插補和自回歸建模插補四種方法進(jìn)行缺失數(shù)據(jù)的預(yù)測插補,為控制變量以便作插補效果對比,缺失比例我們同樣預(yù)設(shè)為5%、10%和20%三種情況,預(yù)測插補后兩種評價指標(biāo)均方誤差和平均絕對百分比誤差的具體結(jié)果如表2、圖3和圖4所示。
由以上結(jié)果可知,服從伽馬分布的模擬數(shù)據(jù)集三種缺失比例下的四種插補方法預(yù)測效果與高斯模擬數(shù)據(jù)集無明顯差別,同樣為均值插補和自回歸建模插補效果較好,最近鄰插補和線性回歸插補效果相對較差。另外,由圖3和圖4我們可觀察到,當(dāng)缺失比例較小時,四種插補方法的均方誤差和平均絕對百分比誤差結(jié)果均極為接近;而當(dāng)缺失比例為10%時,四種方法的均方誤差和平均絕對百分比誤差數(shù)值雖未有明顯差異,但已逐漸開始產(chǎn)生區(qū)別;當(dāng)缺失比例為20%時,平均絕對百分比誤差數(shù)值上均值插補和自回歸建模插補,最近鄰插補和線性回歸插補分別兩兩接近,分別為24.0488和24.8366,27.6175和27.7256。
3.3? ?實例分析
進(jìn)行了上文中四種插補方法對兩種分布的模擬數(shù)據(jù)預(yù)測插補結(jié)果分析后,本部分選取了非洲地區(qū)47 個國家1993—2013 年(共21 年)的出生時預(yù)期壽命(Life Expectancy at Birth)實際數(shù)據(jù)進(jìn)行實證對比分析,同樣對其預(yù)設(shè)5%、10%和20%三種缺失比例,進(jìn)行存在缺失部分?jǐn)?shù)據(jù)的插補。在比較統(tǒng)計結(jié)果的同時檢測以上幾種方法在實際缺失數(shù)據(jù)插補當(dāng)中的適用性,其中具體結(jié)果如表3、圖5和圖6所示。
由以上插補統(tǒng)計結(jié)果可看出,最近鄰插補方法在實際數(shù)據(jù)中均方誤差和平均絕對百分比誤差數(shù)值明顯小于其他三種插補方法。但值得注意的是,模擬數(shù)據(jù)的預(yù)測插補過程中我們最終選用K的數(shù)值為5,而在實際數(shù)據(jù)的預(yù)測插補中K的最終值卻因缺失比例不同而有所變化。究其原因是在最近鄰插補方法的計算過程中,當(dāng)缺失比例較大時,較容易出現(xiàn)大量數(shù)據(jù)連續(xù)缺失的情況,而此時計算機軟件無法對距離做出精確的測算,也就是說無法得出具體的插補結(jié)果,而人工計算對于如此容量的數(shù)據(jù)測算更是難上加難,因此在本部分實際數(shù)據(jù)的插補效果比較中,當(dāng)缺失比例高達(dá)20%時,最近鄰插補方法可暫時退出比較,同時這也從一定程度上檢驗出了該方法在實際缺失數(shù)據(jù)的預(yù)測插補等應(yīng)用上的局限性。
另外,其他三種插補方法的效果按整體趨勢從好到壞依次可排序為均值插補、自回歸建模插補和線性回歸插補。其中線性回歸插補除在缺失比例為5%的情況下統(tǒng)計結(jié)果略低于均值插補和自回歸建模插補外(MSE為4.0008,MAPE為0.7110),均明顯劣于前兩者,這可能說明線性回歸插補在實際缺失數(shù)據(jù)的預(yù)測中較適用于缺失比例低的情況,而當(dāng)缺失數(shù)據(jù)量較大時則不適用。
4? ?結(jié)論(Conclusion)
本文通過運用四種插補方法對兩組模擬數(shù)據(jù)和一組實際數(shù)據(jù)進(jìn)行缺失數(shù)據(jù)插補,對比統(tǒng)計指標(biāo)均方誤差和平均絕對百分比誤差數(shù)值后,得出不同分布數(shù)據(jù)和不同缺失比例下的適用插補方法,主要有以下結(jié)論:無論是模擬數(shù)據(jù)還是實際數(shù)據(jù),以整體插補效果來看(考慮不同缺失比例),自回歸建模插補和均值插補略優(yōu)于最近鄰插補和線性回歸插補;而在實際數(shù)據(jù)出生時預(yù)期壽命這一變量的預(yù)測插補過程中,若缺失樣本量較少即缺失比例較低時,最近鄰插補和線性回歸插補
統(tǒng)計結(jié)果明顯優(yōu)于前者,其他缺失比例下插補效果則與模擬數(shù)據(jù)無異。因此也可以說,在實際缺失數(shù)據(jù)的插補預(yù)測中,選擇哪種插補方法進(jìn)行預(yù)測研究是數(shù)據(jù)容量、缺失比例、運算速度和數(shù)據(jù)分布等因素共同作用的結(jié)果,要針對具體情況制訂具體方案。
參考文獻(xiàn)(References)
[1] 楊晟.基于數(shù)據(jù)挖掘技術(shù)的用戶異常用電檢測系統(tǒng)的研究與實現(xiàn)[D].北京:北京郵電大學(xué),2019.
[2] 熊中敏,郭懷宇,吳月欣.缺失數(shù)據(jù)處理方法研究綜述[J].計算機工程與應(yīng)用,2021,57(14):27-38.
[3] 張松蘭,王鵬,徐子偉.基于統(tǒng)計相關(guān)的缺失值數(shù)據(jù)處理研究[J].統(tǒng)計與決策,2016(12):13-16.
[4] 朱苗苗.基于時間序列模型的網(wǎng)絡(luò)流量預(yù)測研究[D].西安:西安工程大學(xué),2017.
[5] VAZIFEHDAN M, MOATTAR M H, JALALI M. A hybrid bayesian network and tensor factorization approach for missing value imputation to improve breast cancer recurrence prediction[J]. Journal of King Saud University—Computer and Information Sciences, 2019, 31(2):175-184.
[6] 陳雁聲.時間序列中缺失數(shù)據(jù)的處理方法綜述[J].信息與電腦(理論版),2020,32(10):19-22.
[7] 張昕.不完備信息系統(tǒng)下空缺數(shù)據(jù)處理方法的分析比較[J].海南師范大學(xué)學(xué)報(自然科學(xué)版),2008(04):444-447.
[8] 黃樑昌.kNN填充算法的分析和改進(jìn)研究[D].桂林:廣西師范大學(xué),2010.
[9] 朱高培,朱樂樂,孟馬承,等.基于Monte Carlo模擬的四種完全隨機雙變量缺失數(shù)據(jù)處理方法的比較[J].中國衛(wèi)生統(tǒng)計,2018,35(05):707-709.
[10] 林進(jìn)鈿.基于深度學(xué)習(xí)的電力系統(tǒng)擾動后動態(tài)頻率特征預(yù)測[D].成都:西南交通大學(xué),2019.
作者簡介:
徐鴻艷(1997-),女,碩士生.研究領(lǐng)域:社會經(jīng)濟統(tǒng)計學(xué).
孫云山(1980-),男,博士,教授.研究領(lǐng)域:信號與信息處理.
本文通訊作者.
秦琦琳(1997-),女,碩士生.研究領(lǐng)域:時序預(yù)測,深度學(xué)習(xí).
朱明濤(2001-),男,本科生.研究領(lǐng)域:通信信息處理.