摘 要:高職院校參加全國大學生數(shù)學建模的學校越來越多,學生也在不斷的增加,為了能夠讓學習數(shù)學建模的學生能更全面的把握處理缺失數(shù)據的方式方法,有必要對缺失數(shù)據的產生、檢測及處理做一個梳理。而本文是基于SPSS軟件對缺失數(shù)據的檢測和處理進行介紹。
關鍵詞:缺失數(shù)據 缺失值 異常值 檢測 處理
中圖分類號:G64 文獻標識碼:A 文章編號:1673-9795(2013)04(a)-0065-02
在大學生數(shù)學建模和實際生活中,大量的信息都直接或者間接的和數(shù)據建立密切的聯(lián)系,我們要從這些數(shù)據中尋找所關心的問題答案,往往我們是通過建立適當?shù)臄?shù)據模型來完成的。而對數(shù)據預處理中缺失數(shù)據的處理是我們建立適當數(shù)據模型必不可少的前提條件,如果不考慮缺失數(shù)據,將嚴重影響結果的穩(wěn)定性。
對數(shù)據中有明顯或明顯不合理的數(shù)據以及漏填的數(shù)據都可看做缺失數(shù)據。對缺失數(shù)據進行處理時,必須了解缺失數(shù)據出現(xiàn)出現(xiàn)的原因,這是決定所選擇的缺失數(shù)據處理方法是否合適的一個關鍵因素,此外還有變量的分布和范圍也是決定所選的缺失數(shù)據處理方法是否合適的另一個關鍵因素。當數(shù)據缺失的原因已知時,在數(shù)據分析的過程中加以正確考慮,產生的分析結果才不會產生較大的偏倚。當然,如果缺失數(shù)據的產生的原因不明確時,那么我們就只能在對數(shù)據作合理猜測基礎上對數(shù)據進行分析。
對于缺失數(shù)據的類型上來說可以為兩類:一類是缺失值;另一類是異常值。
1 缺失值
1.1 缺失值出現(xiàn)的主要原因
缺失值產生的原因多種多樣,主要有設備和人為兩類因素,比如數(shù)據存儲的失敗,存儲器損壞,或者由于計算機故障導致某時間段數(shù)據未能收集,也有在收集數(shù)據過程中沒有采集到相關的數(shù)據和數(shù)據錄入人員漏錄了數(shù)據等等。
1.2 缺失值檢測
在SPSS中,默認缺失值通常以黑點表示,只需要對數(shù)據進行升序(或降序)排列,通過快速瀏覽數(shù)據列表便可以發(fā)現(xiàn)以黑點表示的缺失值集中在一起,記錄下缺失值所在的變量即數(shù)據的列,便于后面的處理;也可以通過分析窗口中的描述統(tǒng)計功能,統(tǒng)計出每個變量有無缺失值以及有效值和缺失值的個數(shù)。
1.3 缺失值的處理
(1)剔除缺失值的觀測單位,即刪除SPSS數(shù)據列表中缺失值所在的數(shù)據行。
如果數(shù)據缺失問題可以通過簡單的刪除小部分樣本來達到目的,那么這種方法是有效的,在Spss的統(tǒng)計分析程序中,打開Options按鈕,便會出現(xiàn)缺失值的處理欄(missing values)。通常有三個選項:一是Exclude cases listwise,即按列表排除個案,表示對所有的分析過程剔除分組變量和因變量中所有帶有缺失值的觀測量數(shù)據;二是Exclude cases pairwise,即按對排除個案,同時剔除帶缺失值的觀測量及與缺失值有成對關系的觀測量。在當前分析過程中用到的變量數(shù)據中剔除帶有缺失值的觀測量數(shù)據,在其他分析過程中可能包含缺失值;三是Replace with mean,即使用均值替換,將分組變量的缺失值單獨分為一組,在輸出頻數(shù)表的同時輸出缺失值。
(2)對缺失值進行估后計填補。
在數(shù)據分析中,面對大量的數(shù)據,因為一個屬性值的缺失而放棄大量的其它屬性值,這種刪除是對信息的極大浪費,所以產生了對缺失值進行估計后填補的思想,主要有兩種插補方法。
第一,在建模過程中,通過對問題的深入分析,查閱相關的文獻報道憑借知識經驗進行合理估計。
第二,是通過SPSS提供的替換缺失值選項進行估計,對于定距型數(shù)據采用均值,對于非定距型采用眾數(shù)來補齊缺失值,通常有如下五種替代方法:一是series mean,即以列的算術平均值進行替代;二是mean of nearly point,即以缺失值鄰近點的算術平均值進行替代;三是Median of nearly point,即以缺失值臨近點的中位數(shù)替代;四是linear interpolation即根據缺失值前后的兩個觀察值進行線性內插法估計和替代;五是linear trend atpoint,即用線形回歸法進行估計和替代。
(3)缺失值分析過程中填補。
在SPSS的分析工具欄下有針對缺失值的分析窗口,該窗口主要用于對缺失值的估計,主要方法有四種:
第一,是Listwise,即按列表狀態(tài)刪除,缺失值較少,樣本夠大,把缺失的樣本完全去除,如果任何一個變量含有缺失數(shù)據,把相應的個案,從分析中剔除,對缺失值占的比例小,十分有效,到底多少,比例合適?有局限性,以減少樣本樣本量來換取信息的完備,會造成資源的大量浪費,嚴重影響到數(shù)據的客觀性和結果的正確性。
第二,是Pairwise,即配對狀態(tài),其中一條記錄中有一變量缺失,將在統(tǒng)計時刪除該條信息,但在進行其它統(tǒng)計量時不受影響。
第三,是EM,即期望最大化,可用于缺失較多,有效樣本足夠保證其服從正態(tài)分布,該估計方法是通過觀測數(shù)據的邊際分布對未知參數(shù)進行極大似然估計,該方法比刪除個案和均值插補更具有吸引力,但缺點是只適用于大樣本。
第四,是Regression,即回歸,沒有足夠的樣本的話,缺失值較少,缺失因素比較明確,選中的連續(xù)性變量為自變量,缺失的變量為因變量,考慮殘差,回歸替換法首先需要選擇若干個預測缺失值的自變量,然后建立回歸方程估計缺失值。即用缺失數(shù)據的條件期望對缺失值進行替換,與之前的幾種方法相比,該方法利用了數(shù)據庫中盡量多的信息,其弊端為一是容易忽視隨機誤差,在缺失信息增多會變得更加嚴重;二是必須假設缺失值所在的變量與其他變量存在線性關系,但實際上這種關系并不一定存在。
2 異常值
2.1 異常值出現(xiàn)的原因
異常值是指各變量中與整體數(shù)據相距太遠的極值,由于它的夸大作用,常常會歪曲統(tǒng)計結果,導致分析結果犯錯誤,而這類數(shù)據的出現(xiàn)主要來源于在數(shù)據輸入的過程中輸入不正確,或在不同的數(shù)據格式之間進行轉換時,錯誤的將代號當成了實際觀測值,以及在數(shù)據采集過程中,由于被采集者對問題的誤解等因素,而得到不在該屬性值范圍內的數(shù)據。
2.2 異常值的檢測
在SPSS中,我們可以對數(shù)據進行升序(或降序)排列,通過快速瀏覽,發(fā)現(xiàn)那些明顯大于或者小于該屬性值的數(shù)據,也可以用散點圖、箱圖(凡是與四分位數(shù)值的距離超過1.5倍四分位數(shù)間距的都會被定義為異常值,在輸出的圖形中會用記號標示)、Q-Q圖(當數(shù)據符合指定分布時,Q-Q圖中各點近似呈一條直線等檢測有無極端值)等進行異常值的檢測。
2.3 減少異常值方法
數(shù)學建模中不可能將數(shù)據逐一進行核查,因此我們可在合理分析的情況下,查閱相關文獻,根據經驗估計是減少異常值的一種途徑,同時也可以借助于軟件解決,盡量減少異常值對模型的影響,通過上面的檢查方法檢測出來的異常值在SPSS中通常有如下四種處理方式:
第一,是將異常值在變量視圖中進行定義,可以定義三個離散型的數(shù)值作為缺失值,也可以定義一個連續(xù)性的范圍再加上一個離散性的數(shù)值作為缺失值。
第二,是根據檢測的異常值,在數(shù)據工具欄中有選擇個案窗口,采用設置條件的方式將異常值排除在外。
第三,是對異常值進行估計插補,方法與前面的缺失值處理方法相同。
第四,是將原始數(shù)據轉換成標準Z分數(shù),將范圍在[-2,2]以外的數(shù)據作為缺失值考慮。
對于SPSS而言,對于缺失數(shù)據的檢測,在不同的分析功能中也有專門的探測方法,比如在回歸分析中,對于解釋變量能用杠桿值、庫克距離以及標準化回歸系數(shù)的變化和標準化預測值的變化進行探測,對于被解釋變量中能用標準化殘差、學生化殘差以及剔除殘差進行探測等等。對于不同分析功能中的缺失數(shù)據的檢測及其處理就不再一一討論。
參考文獻
[1]胡紅曉,謝佳,韓冰.缺失值處理方法比較研究[J].商場現(xiàn)代化,2007(15):359-360.
[2]薛薇.SPSS的數(shù)據分析[M].北京:中國人民大學出版社,2006.