趙富強
(天津財經(jīng)大學(xué),天津300222)
缺失值(Missing Value)是指在進行問卷抽樣調(diào)查或?qū)嶒炐匝芯恐?,?yīng)該從抽樣的樣本單元中得到而實際上卻由于種種原因而未得到所需的數(shù)據(jù);也稱為缺失數(shù)據(jù)(Missing Data)。
在進行實驗性研究或問卷抽樣調(diào)查中,數(shù)據(jù)缺失現(xiàn)象經(jīng)常發(fā)生,主要原因包括:①被調(diào)查者不愿提供調(diào)查所需要的信息;②不可人為控制的因素造成數(shù)據(jù)的缺失;③調(diào)研人員本身或調(diào)查系統(tǒng)的原因沒有收集到完全的信息;④信息填報匯總錯誤原因造成數(shù)據(jù)的缺失等。產(chǎn)生缺失數(shù)據(jù)原因多種多樣,實際工作中有時很難判斷和檢測缺失數(shù)據(jù)產(chǎn)生的機制與方式。為了認識和研究缺失的數(shù)據(jù),從形式上將其分為單元缺失與項目缺失兩種。Little和Rubin定義了以下三種不同的數(shù)據(jù)缺失機制:完全隨機缺失(Missing Completely at Random,MCAR)、隨機缺失(Missing at Random,MAR)和不可忽略的缺失(Non-ignorable Missing,NIM)。整個缺失數(shù)據(jù)的推估過程中,缺失數(shù)據(jù)的情況表現(xiàn)為三種方式[1,2]:單變量缺失、單調(diào)缺失型和任意缺失型。
缺失值的處理方法主要包括刪除法(Deletion)、插補法(Imputation)和最大似然估計法(Maximum likelihood)[3]等。缺失值插補法包括:均值插補法(Mean Imputation)、隨機插補法和多重插補方法(Multiple Imputation,MI)等。
在文獻[4]中,Lohm?ller’s PLSX對缺失值的處理為:⑴如果所有的顯變量樣本值都缺失,那么該樣本無效,無法估計潛變量。⑵如果該塊的顯變量樣本值不全缺失,那么計算潛變量估計時,缺失的顯變量值由該顯變量的均值替代。⑶如果該潛變量估計值有缺失,那么計算內(nèi)部估計時,缺失值由0替代。⑷權(quán)重的計算:①模式A(Mode A):權(quán)重根據(jù)公式計算;②模式B(Mode B):當沒有缺失值按照公式計算;有缺失值時,采用成對刪除法把對應(yīng)的缺失樣本值刪除,即不考慮在內(nèi),然后利用公式來計算權(quán)重。
除了上述方法外,缺失值處理方法還有回歸或主成分法、最大似然估計法、相似反應(yīng)模式算法(Similar Response Pattern Imputation)、EM算法(Expected Maximization Algorithm)和MCMC算法(Markov Chain Monte Carlo)等。
基于分類的缺失值處理方法是通過對被調(diào)查對象問卷分值的分析,選擇關(guān)鍵字段進行分類,然后使用上述的缺失值處理方法進行缺失值處理。主要包括:分類的均值插補法、分類的多重插補法和分類的K-means方法等。
均值插補法是用每個變量的均值取代該變量的缺失值。分類均值插補法是先對數(shù)據(jù)進行分類,然后同類中的缺失值進行均值插補;在一定程度上克服了均值插補法替代值過于凝集和容易扭曲目標變量分布的弱點,使替代值的分布與真值分布更為接近。
多重插補法由1987年由Dempster教授和美國哈佛大學(xué)Rubin教授提出。在2000年,Paul D.Allison[5]博士也對多重插補法進行了深入研究。它是一種用兩個或者更多的可得到的并且能反映數(shù)據(jù)本身分布概率的值來插補缺失或者不完善數(shù)據(jù)的一種方法。多重插補方法的主要思想是,給每個缺失值都構(gòu)造m個估計值(m>1),這樣就產(chǎn)生出m個完全數(shù)據(jù)集,對每個完全數(shù)據(jù)集分別使用相同的方法進行處理,得到m個處理結(jié)果,最后再綜合這m個處理結(jié)果,最終得到對目標變量的估計。多重填補法使得被插補的缺失數(shù)據(jù)能夠接近“真實”。該方法主要應(yīng)用于生物醫(yī)學(xué)、行為學(xué)和社會科學(xué)等領(lǐng)域,已成為處理缺失數(shù)據(jù)的最常用方法之一。而分類多重插補法是先對數(shù)據(jù)進行分類,然后同類中的缺失值進行多重插補;
分類K-means方法是先對數(shù)據(jù)進行分類,然后同類中的缺失值進行聚類中心值插補。
以某食品公司為研究對象,以ACSI為測評模型,即包含6個潛變量,15個顯變量。數(shù)據(jù)的收集采取網(wǎng)上調(diào)查的方式進行,參與網(wǎng)上調(diào)查的用戶為252位,因此樣本量為252。
求解帶缺失值的顧客滿意度指數(shù)步驟如下:
(1)異常值處理。
所謂異常值是被調(diào)查顧客在回答問卷時,由于各種原因而選擇了“不知道”、“拒絕回答”以及“超出數(shù)值范圍”等選項時系統(tǒng)默認的值。問卷采用10分制,從1分到10分供被調(diào)查者選擇,且只能選擇一個。對被調(diào)查者不知道或拒絕的回答,在數(shù)據(jù)庫里進行了標識(98表示不知道;99表示拒絕;101表示從來不購買)。這些數(shù)據(jù)在進行處理時按照缺失值處理。
(2)數(shù)據(jù)標準化。
使得樣本值的均值為0、方差為1;
(3)缺失值處理。
通過對被調(diào)查對象問卷分值的分析,選擇滿意度字段進行分類,滿意度分值從1到10分,共分為十個類別。分別采用類均值插補法、分類多重插補法和分類K-means方法進行缺失值處理。
(4)利用PLS算法來估計模型中各個參數(shù),反復(fù)迭代得到潛變量估計值。
(5)求出顧客滿意度指數(shù)。
根據(jù)第四步求得的權(quán)重系數(shù),計算出顧客滿意度指數(shù)[1]。
圖1和圖2分別表示分類多重插補法在20%的缺失值比率下總體期望取值密度分布和總體期望缺失率與取值分布圖;僅給出了總體顧客期望的插補情況,顧客滿意度分類值為10,樣本量為112個,迭代次數(shù)為9次,插補效果滿意。
圖1 總體期望取值密度分布圖
圖2 總體期望缺失率與取值分布圖
圖3 表示在不同缺失率下各種缺失值處理方法均方根誤差RMSE比較。其中,(a)圖表示均值插補與分類均值插補均方根誤差比較;(b)圖表示多重插補與分類的多重插補均方根誤差比較;(c)圖表示K-means與分類K-means均方根誤差比較,k的取值不同。
圖3 缺失率與RMSE關(guān)系圖
結(jié)果分析:通過實驗數(shù)據(jù)分析,三種基于分類的缺失值處理方法優(yōu)于未采用分類的缺失值處理方法。其中分類K-means方法RMSE最小,如圖(c)所示;在K-means和分類K-means方法中,k的取值不同結(jié)果有差異,k值越大誤差越小。分類多重插補法誤差最大,如圖(b)所示(多重插補法缺失值比率超過50%后,RMSE值大于6。)。
在顧客滿意度測評中,對滿意度關(guān)鍵字段進行分類,進而采用相關(guān)的缺失值插補方法,即基于分類的缺失值處理方法是有效的。
通過對缺失值處理方法分析,提出基于分類的三種缺失值處理方法:分類的均值插補法、分類的多重插補法和分類的K-means方法;以某食品公司為研究對象,分析了帶缺失值的顧客滿意度指數(shù)測評步驟:異常值處理、數(shù)據(jù)標準化、缺失值處理等;對顧客滿意度測評常規(guī)模型進行帶缺失值的實證分析和評價,基于分類的三種缺失值處理方法優(yōu)于均值插補法、多重插補法和K-means方法。但論文僅對顧客滿意度字段進行了分類研究,沒有考慮其它字段的分類情況、多個字段分類情況及各字段間關(guān)系等,這些是今后深入研究的問題。
[1]Wang Q H,Rao J N K.Empirical Likelihood for Linear Regression Models under Imputation for Missing Response[J].The Canadian Jour?nal Statistics,2001,29.
[2]Allison,Paul D.Missing Data Techniquesfor Structural Equation Mod?els[J].Journal of Abnormal Psychology,2003,112.
[3]Fatukasi,O.Kittler,J.Poh,N.Estimation of Missing Values in Multi?modal Biometric Fusion[J].Biometrics Theory Applications and Sys?tems,2008,9.
[4]Tenenhaus,M.,Vinzi,V.E.,Chatelin,Y.M.,Lauro,C.PLSPath Model?ing[J].Computational Statisticsand Data Analysis,2005,48(1).
[5]Allison,Paul D.Multiple Imputation for Missing Data:a Cautionary tale[J].Sociological Methodsand Research,2000,28.