摘 要:調(diào)查數(shù)據(jù)缺失值是日常統(tǒng)計(jì)工作中一種不可避免的現(xiàn)象。它的出現(xiàn)不僅給統(tǒng)計(jì)工作造成了諸多不便,而且使統(tǒng)計(jì)調(diào)查的準(zhǔn)確性受到影響。因此分析各種調(diào)查數(shù)據(jù)缺失現(xiàn)象產(chǎn)生的原因,并根據(jù)具體情況找到適宜的解決辦法,是歷來(lái)統(tǒng)計(jì)調(diào)查的一項(xiàng)重點(diǎn)工作。針對(duì)這一問題從不同方面總結(jié)歸納,并提出了解決方法。
關(guān)鍵詞:統(tǒng)計(jì)數(shù)據(jù) 缺失值 插補(bǔ)
一、統(tǒng)計(jì)數(shù)據(jù)缺失的主要原因
社會(huì)經(jīng)濟(jì)的高速發(fā)展,離不開統(tǒng)計(jì)調(diào)查和分析工作,做好統(tǒng)計(jì)工作重點(diǎn)是提高調(diào)查數(shù)據(jù)的精度和分析的準(zhǔn)確性。出現(xiàn)統(tǒng)計(jì)數(shù)據(jù)缺失值是日常統(tǒng)計(jì)工作中的一種常見現(xiàn)象,造成統(tǒng)計(jì)數(shù)據(jù)缺失現(xiàn)象的原因也多種多樣,歸納起來(lái)主要有一下幾個(gè)方面:
1.統(tǒng)計(jì)信息被遺漏。這種情況發(fā)生在統(tǒng)計(jì)過程的很多階段,如:統(tǒng)計(jì)調(diào)查階段,被調(diào)查者認(rèn)為所調(diào)查的問題不夠重要,有關(guān)的問題沒有填寫完整,造成統(tǒng)計(jì)數(shù)據(jù)被遺漏,或者是被調(diào)查者由于知識(shí)水平的原因不能理解問題不能給出相應(yīng)問題的答案而造成統(tǒng)計(jì)數(shù)據(jù)被遺漏,或者是對(duì)于敏感性的問題(如收入、年齡等等),被調(diào)查者不愿意被其他人知道而采取避而不答,造成我們得到的統(tǒng)計(jì)數(shù)據(jù)就不完整;在數(shù)據(jù)錄入過程中,由于操作人員的失誤也會(huì)使得一些統(tǒng)計(jì)數(shù)據(jù)被遺漏,如:調(diào)查問卷上這方面的數(shù)據(jù)是有的,但在錄入計(jì)算機(jī)的過程被遺漏了,還有可能是統(tǒng)計(jì)數(shù)據(jù)在錄入計(jì)算機(jī)的過程中,計(jì)算機(jī)突然發(fā)生故障或是人為操作原因?qū)е陆y(tǒng)計(jì)數(shù)據(jù)存儲(chǔ)失敗。
2.很多統(tǒng)計(jì)信息無(wú)法得到。如:不公開的統(tǒng)計(jì)數(shù)據(jù)或者沒有準(zhǔn)確的獲取數(shù)據(jù)的途徑。我們正處于一個(gè)大數(shù)據(jù)時(shí)代,很多人就想分析一下其他行業(yè)或商家的交易信息怎么樣,或者是做微商的人們想了解同行業(yè)交易信息情況,但是這些商家或競(jìng)爭(zhēng)對(duì)手并沒有公開這些數(shù)據(jù),致使我們沒有辦法得到這方面的信息;還有一些行政記錄的統(tǒng)計(jì)數(shù)據(jù),我們?nèi)狈?shù)據(jù)的獲取手段或是出于數(shù)據(jù)保密性的原因,行政部門不公開這些數(shù)據(jù),或沒有義務(wù)公開相關(guān)的數(shù)據(jù),造成我們也是沒辦法得到的該方面數(shù)據(jù);還有很多統(tǒng)計(jì)數(shù)據(jù)我們目前沒有準(zhǔn)確的測(cè)定方法,如:我們國(guó)家一個(gè)非常重要的宏觀經(jīng)濟(jì)政策就是改善民生,這幾年我國(guó)居民對(duì)民生改善的滿意度怎么評(píng)價(jià),我們就無(wú)法找到一個(gè)合適的統(tǒng)計(jì)指標(biāo)來(lái)測(cè)定,這些方面也沒有一個(gè)成熟的、有說服力的或者是統(tǒng)一的口徑。
3.很多統(tǒng)計(jì)信息的獲取代價(jià)很大。如:需要調(diào)查某個(gè)公司的統(tǒng)計(jì)數(shù)據(jù),一般的公司統(tǒng)計(jì)數(shù)據(jù)是公司內(nèi)部保密數(shù)據(jù),他們不對(duì)外公布,我們?nèi)绻M@得公司這些內(nèi)部數(shù)據(jù)就需要采取一些方法。像一般統(tǒng)計(jì)數(shù)據(jù),是公司的敏感數(shù)據(jù),他們也許拒絕提供或者提供的數(shù)據(jù)不是最原始的,還有許多方面的數(shù)據(jù),如上市公司,它的很多數(shù)據(jù)就沒有公布,即我們不能從公開的統(tǒng)計(jì)數(shù)據(jù)中獲取我們所需要的信息,所以就需要對(duì)其進(jìn)行單獨(dú)調(diào)查,如果需要花費(fèi)的成本很高的話我們就可能把這方面的數(shù)據(jù)放棄了,也就造成了統(tǒng)計(jì)數(shù)據(jù)的缺失。
4.并不是所有調(diào)查對(duì)象的屬性都是可用的。我們?cè)谠O(shè)計(jì)統(tǒng)計(jì)調(diào)查問卷時(shí),對(duì)某些問題考慮的不周全,造成我們要調(diào)查的統(tǒng)計(jì)數(shù)據(jù)缺失,如:需要調(diào)查居民的收入,但是選取的調(diào)查對(duì)象不合適,如兒童或是學(xué)生,他們還沒有參加工作,所以也就造成調(diào)查問卷數(shù)據(jù)的缺失。
二、統(tǒng)計(jì)數(shù)據(jù)缺失值的處理方法
1.刪除個(gè)案法。所謂的刪除個(gè)案法就是要把含有缺失數(shù)據(jù)的整條記錄刪除掉。即如果調(diào)查問卷的數(shù)據(jù)存在缺失現(xiàn)象,就把它直接刪除,這種方法簡(jiǎn)單,但也存在很多的問題。一般情況下我們所調(diào)查的數(shù)據(jù)是按照一定的方法進(jìn)行的,有一定的代表性。如果因?yàn)榇嬖谌笔е抵苯影堰@些數(shù)據(jù)都刪除的話,那么這些數(shù)據(jù)所代表的那一類信息也就不存在了。我們根據(jù)樣本數(shù)據(jù)推斷總體也就存在偏差。所以當(dāng)缺失的統(tǒng)計(jì)數(shù)據(jù)只在整個(gè)記錄中占很小的比例時(shí),我們可以直接把含缺失數(shù)據(jù)的記錄直接刪除,剩下的數(shù)據(jù)按完全數(shù)據(jù)處理。但如果缺失數(shù)據(jù)占有很大比例時(shí),直接刪除就會(huì)造成偏差或是導(dǎo)致錯(cuò)誤的結(jié)論,同時(shí)造成大量的統(tǒng)計(jì)數(shù)據(jù)丟失。這樣即浪費(fèi)了時(shí)間和精力,又得不到需要的統(tǒng)計(jì)數(shù)據(jù)。一般情況下,我們最常用的方法不是刪除法,而是插補(bǔ)法。
2.插補(bǔ)缺失值的方法。插補(bǔ)法是目前最常用的處理缺失值的方法,針對(duì)不同類型的統(tǒng)計(jì)數(shù)據(jù)缺失值采取不同的技術(shù)進(jìn)行處理,使這些含有缺失值的統(tǒng)計(jì)數(shù)據(jù)找到一個(gè)合適的填補(bǔ)值,再對(duì)這些“完整數(shù)據(jù)”按照相應(yīng)的統(tǒng)計(jì)分析方法進(jìn)行分析。
2.1均值插補(bǔ)。這是最常用的方式,也是最簡(jiǎn)單的方式,如果一個(gè)數(shù)據(jù)缺失了,就用這個(gè)數(shù)據(jù)的前面一行和后面一行的數(shù)據(jù)相加,對(duì)這兩個(gè)數(shù)據(jù)求平均數(shù),用這個(gè)平均數(shù)對(duì)缺失值進(jìn)行插補(bǔ)。如果前一行和后一行的數(shù)據(jù)相差很多時(shí),采取均值插補(bǔ)就會(huì)造成插補(bǔ)值與實(shí)際值嚴(yán)重偏差。
2.2對(duì)同類數(shù)據(jù)求均值進(jìn)行插補(bǔ)。我們把數(shù)據(jù)先分類再插補(bǔ),即把數(shù)據(jù)分成不同的類別,如果某類別含有缺失值,就用該類別其他數(shù)據(jù)計(jì)算的平均數(shù)進(jìn)行插補(bǔ),這樣可以減少統(tǒng)計(jì)數(shù)據(jù)的偏差。
2.3熱平臺(tái)插補(bǔ)或就近補(bǔ)齊法。對(duì)于一個(gè)含有缺失值的變量,這種方法是在完整統(tǒng)計(jì)數(shù)據(jù)中找一個(gè)與缺失變量最接近的變量,然后用該變量的值對(duì)缺失值進(jìn)行插補(bǔ)。與均值插補(bǔ)相比,可以保持?jǐn)?shù)據(jù)的類型,填補(bǔ)后與原變量也很相近,但是這種方法主觀性太強(qiáng)。
2.4冷平臺(tái)插補(bǔ)。這種方法與熱平臺(tái)接近,不同的是冷平臺(tái)插補(bǔ)需要用前期的統(tǒng)計(jì)數(shù)據(jù)或是歷史數(shù)據(jù)進(jìn)行插補(bǔ)。
2.5推理插補(bǔ)。這種插補(bǔ)的方法是根據(jù)已知的信息推斷缺失值,再根據(jù)以前調(diào)查積累的數(shù)據(jù)或是目前進(jìn)行調(diào)查的項(xiàng)目推斷。例如從一個(gè)調(diào)查家庭中得到了三個(gè)孩子的姓名,根據(jù)已知信息就可以推斷出該家庭有三名子女。
2.6使用任何值進(jìn)行插補(bǔ)。這種方法是用缺失值任何可能的數(shù)據(jù)進(jìn)行插補(bǔ)。這種方法的缺點(diǎn)是:當(dāng)數(shù)據(jù)量很大或是數(shù)據(jù)很多時(shí),它的計(jì)算量也是很大的,相應(yīng)的需要測(cè)定的工作量也很大。
3.采取不處理方法。既然每種方式都有其缺點(diǎn),于是就直接采取不處理的方法,對(duì)包含缺失值的統(tǒng)計(jì)數(shù)據(jù)進(jìn)行分析,這樣既可以節(jié)省時(shí)間又可以減輕負(fù)擔(dān)。但是用這種方法也是有一定前提的,需要使用者對(duì)含有缺失值的數(shù)據(jù)先進(jìn)行假設(shè),在沒有任何參考知識(shí)的前提下,容易造成所得錯(cuò)誤結(jié)論。
綜合以上的方法,我們可以清楚地看到,每種方法有每種方法的適用條件,每種方法也都存在不足的地方。因此對(duì)出現(xiàn)的不同問題不能一概而論,而應(yīng)該首先分析問題的實(shí)質(zhì),然后采用適當(dāng)?shù)姆椒ㄟM(jìn)行處理,使不完整的統(tǒng)計(jì)數(shù)據(jù)得到最佳的利用。
參考文獻(xiàn):
[1]陳朋強(qiáng).淺談統(tǒng)計(jì)調(diào)查缺失數(shù)據(jù)產(chǎn)生的原因與對(duì)策[J].《引文版:社會(huì)科學(xué)》,2015,(2):31-31.
[2]李薇.統(tǒng)計(jì)調(diào)查中的數(shù)據(jù)缺失及處理[J].《商業(yè)研究》,2003,(6):162-163.
[3]龐慶生.缺失數(shù)據(jù)處理方法的比較[J].《統(tǒng)計(jì)與決策》,2010,(24):152-155.