黃鳳娟,付大愚,王金茹
(沈陽體育學院體育信息技術(shù)系,遼寧沈陽110102)
社會體育調(diào)查中缺失數(shù)據(jù)處理方法的比較研究
黃鳳娟,付大愚,王金茹
(沈陽體育學院體育信息技術(shù)系,遼寧沈陽110102)
在社會體育調(diào)查資料統(tǒng)計處理的過程中,經(jīng)常面對缺失數(shù)據(jù)的問題。以2001年沈陽市500名40~70歲城市婦女關(guān)于參加體育鍛煉活動和體力勞動的問卷調(diào)查數(shù)據(jù)為實例,對5種常用處理缺失數(shù)據(jù)的插補方法進行了比較分析。首先介紹5種缺失數(shù)據(jù)插補方法并闡述利與弊,然后結(jié)合調(diào)查實例進行描述性指標比較和回歸分析比較,最后提出研究者在選用插補方法時應該綜合考慮缺失數(shù)據(jù)所占比例、研究能力和時間限制等因素尋找最適宜的插補方法。
缺失數(shù)據(jù);插補方法;統(tǒng)計推斷;數(shù)據(jù)分析
在統(tǒng)計處理社會體育調(diào)查資料的過程中,經(jīng)常出現(xiàn)調(diào)查數(shù)據(jù)缺失問題。缺失數(shù)據(jù)在體育社會學科的調(diào)查研究中,特別是針對大規(guī)模人群的調(diào)查,是一個相當普遍的問題。缺失數(shù)據(jù)的出現(xiàn)在一定程度上對統(tǒng)計結(jié)果的有效性具有一定的危害。在體育社會學科中廣泛進行的科研調(diào)查中,最為常見的問題就是因為失訪、無響應或是回答問題不合格等原因造成的數(shù)據(jù)缺失現(xiàn)象。
出現(xiàn)數(shù)據(jù)缺失時,最傳統(tǒng)的處理方法是保留完全記錄,舍棄含有缺失項的記錄,然后將其看作完全數(shù)據(jù)進行處理分析,這樣做不僅會產(chǎn)生數(shù)據(jù)的偏倚,甚至會得出有誤導性的結(jié)論,同時丟失大量有用信息,造成很大的浪費。目前插補是處理缺失數(shù)據(jù)時普遍使用的一種技術(shù),缺失數(shù)據(jù)的插補是指選擇合理的數(shù)據(jù)代替缺失數(shù)據(jù),得到“完全數(shù)據(jù)集”后,再使用數(shù)據(jù)統(tǒng)計方法對數(shù)據(jù)進行統(tǒng)計分析與統(tǒng)計推斷。在缺失數(shù)據(jù)的數(shù)量較大的情況下,不同的插補方法對總體推斷會產(chǎn)生較大影響。目前社會體育調(diào)查中對缺失數(shù)據(jù)的插補問題尚未有充分認識。研究者在抽樣調(diào)查報告中很少會說明缺失數(shù)據(jù)的處理方法,但事實上,絕大部分體育社會科學調(diào)查都會包含不完整的數(shù)據(jù),理應對此有所說明。筆者以城市婦女參加體育鍛煉活動和體力勞動的問卷調(diào)查數(shù)據(jù)為實例,對5種常用處理缺失數(shù)據(jù)的插補方法進行比較分析,為社會體育調(diào)查的數(shù)據(jù)處理提供參考。
1.1 研究資料
數(shù)據(jù)來源于2001年對500名40~70歲沈陽市城市婦女關(guān)于參加體育鍛煉活動和體力勞動的問卷調(diào)查。以此次調(diào)查中涉及到的5個變量為例:年齡、每天運動時間、每天家務時間、每月支付鍛煉費用和參加體育活動的興趣度。其中年齡沒有缺失值,每天運動時間、每天家務時間、每月支付鍛煉費用和參加體育活動的興趣度分別有20%、4%、31%、24%的缺失值。每天運動時間和家務時間以“min/d”為單位,每月支付鍛煉費用以“元/月”為單位,體育活動的興趣度為6項指標,計算得分之和,總分為30分。
1.2 研究方法
對缺失數(shù)據(jù)的處理方法很多,常用的方法有個案剔除法、均值替換法、熱卡填充法、回歸替換法和多重替代法。
1.2.1 個案剔除法 個案剔除法是處理缺失數(shù)據(jù)最常見、最簡單的方法,也是很多統(tǒng)計軟件(如SPSS和SAS)默認的處理方法。在這種方法中如果任何一個變量含有缺失數(shù)據(jù)的話,就把相對應的個案從分析中剔除。如果缺失數(shù)據(jù)所占的比例相對較小的話,此方法十分有效。
1.2.2 均值替換法 在缺失的數(shù)據(jù)量較為龐大且變量又非常重要的時候,由于個案剔除法將許多有用的數(shù)據(jù)也同時被剔除,所以個案剔除法就不適合對缺失數(shù)據(jù)的處理了。均值替換法是將變量的屬性分為計量型數(shù)據(jù)和計數(shù)型數(shù)據(jù)來分別進行處理。如果缺失數(shù)據(jù)是計量型的,則用該變量的平均值來填充缺失的變量值;如果缺失數(shù)據(jù)是計數(shù)型的,則根據(jù)統(tǒng)計學中的眾數(shù)原理,用該變量的眾數(shù)來填補該缺失的變量值。
1.2.3 熱卡填充法 熱卡填充法是在數(shù)據(jù)庫中找到一個與缺失數(shù)據(jù)最相似的對象,利用這個相似對象的值來進行填充。不同的問題選用不同的標準對相似來進行判定。經(jīng)常采用的是使用相關(guān)系數(shù)矩陣來確定哪個變量(比如變量y)與缺失數(shù)據(jù)所在變量(比如變量x)最相關(guān)。然后把所有個案按y值的大小進行排序。那么變量x的缺失數(shù)據(jù)就可以用排在缺失數(shù)據(jù)前的那個個案的數(shù)據(jù)來代替了。
1.2.4 回歸替換法 回歸替換法首先需要選擇若干個預測缺失數(shù)據(jù)的自變量,然后建立回歸方程估計缺失值,即用缺失數(shù)據(jù)的條件期望值對缺失數(shù)據(jù)進行替換。
1.2.5 多重替代法 多重估算是由Rubin等人于1987年建立起來的一種數(shù)據(jù)擴充和統(tǒng)計分析的方法,是簡單估算的改進產(chǎn)物。首先,多重估算技術(shù)用一系列可能的值來替換每一個缺失值,來反映被替換的缺失數(shù)據(jù)的不確定性。其次,用標準的統(tǒng)計分析過程對進行多次替換后產(chǎn)生的若干個數(shù)據(jù)集進行分析。最后,把來自于各個數(shù)據(jù)集的統(tǒng)計結(jié)果進行綜合,得到總體參數(shù)的估計值。由于多重估算技術(shù)不是用單一的值來替換缺失值,而是試圖產(chǎn)生缺失數(shù)據(jù)的一個隨機樣本,這種方法反映了由于數(shù)據(jù)缺失而導致的不確定性,因此能夠產(chǎn)生更加有效的統(tǒng)計推斷。這種方法可以在不舍棄任何數(shù)據(jù)的情況下對缺失數(shù)據(jù)的未知性質(zhì)進行推斷。
在社會體育調(diào)查中,處理缺失數(shù)據(jù)常采用馬爾科夫鏈蒙特卡羅法,簡稱MCMC法。在貝葉斯推斷中,MCMC法被作為一種探索后驗分布的方法。值得注意的是,在使用回歸法或MCMC法時,需要假設數(shù)據(jù)服從多元正態(tài)分布。
為了表述的方便,用Yobs表示數(shù)據(jù)庫中不含有缺失數(shù)據(jù)的那部分變量,Ymis表示數(shù)據(jù)庫中含有缺失數(shù)據(jù)的那部分變量。運用MCMC法對缺失數(shù)據(jù)進行多重估算可分為以下兩步:
1)估算步
在每一次循環(huán)運算的估算步中,根據(jù)給定的均值向量μ和協(xié)方差矩陣∑,從條件分布p(Ymis|Yobs,θ)中為缺失數(shù)據(jù)抽取替換值。
假設μ=[μ1′,μ2′]′是兩部分變量的均數(shù)向量,μ1是Yobs的均值向量,μ2是Ymis的均值向量。同時設定
是這些變量的協(xié)方差矩陣,其中∑11是Yobs的協(xié)方差矩陣,∑22是Ymis的協(xié)方差矩陣,∑12和∑21是Yobs與Ymis間的協(xié)方差矩陣。則當給定Yobs=y(tǒng)1時Ymis的條件分布是一個多元正態(tài)分布,它的均值向量為
其對應的條件協(xié)方差矩陣為
2)后驗步
在每一次循環(huán)運算中,后驗步用上一步得到μ和∑來模擬后驗總體的均數(shù)向量、協(xié)方差矩陣和參數(shù)θ。
每次循環(huán)過程也可表述為:估算步用第t次循環(huán)得到的參數(shù)θ(t),再從分布p(Ymis|Yobs,θ(t))中抽取,后驗步則從分布p(θ|Yobs,)中抽取θ(t+1)。
重復此過程,產(chǎn)生一個足夠長的馬爾科夫鏈:
當該鏈會聚在一個穩(wěn)定的分布p(Ymis,θ|Yobs)時,就可以近似獨立地從該分布中為缺失數(shù)據(jù)抽取替代值。
把所有的缺失數(shù)據(jù)都進行替換之后,就完成了一次估算,并產(chǎn)生了一個完整的數(shù)據(jù)集。這一過程將被重復n次,以產(chǎn)生n個完整的數(shù)據(jù)集。
2.1 描述性指標比較
采用這5種缺失數(shù)據(jù)插補方法,對參加體育鍛煉活動和體力勞動的問卷調(diào)查數(shù)據(jù)進行比較分析。由表1可見,采用不同的插補方法對缺失數(shù)據(jù)進行插補,其變量的均值和標準差是不同的。當變量中缺失數(shù)據(jù)比較少時(如每天家務時間),采用5種方法插補后的均值和標準差差異相對較??;當變量中缺失數(shù)據(jù)所占比例較大時(如每天運動的時間、每月支付鍛煉費用、參加活動的興趣度得分等),采用5種方法插補后的均值和標準差差異相對也較大。在這5種方法中,使用個案剔除法后各變量的標準差大于其他方法,使用多重替代法后各變量的標準差小于其他方法。
2.2 回歸分析比較
以參加體育活動的興趣得分為因變量,其余4個變量為自變量進行回歸分析(表2)。
表1 5種缺失數(shù)據(jù)插補方法比較統(tǒng)計
表2 5種缺失數(shù)據(jù)插補方法回歸分析統(tǒng)計
由表2可見,從F值上看,個案剔除法與回歸替換法的F值比較高。因為在回歸分析中,各個變量是相互關(guān)聯(lián)的,盡管年齡變量沒有缺失數(shù)據(jù),但由于其他的變量存在缺失數(shù)據(jù),從而導致年齡變量在回歸方程中的系數(shù)也會發(fā)生變化。從表2中我們可以看出這種變化是較大的,T值從0.32變化至1.08,與之相對應的P值也從0.31變化到0.73。因此在進行多元統(tǒng)計分析時,一定要注重缺失數(shù)據(jù)插補方法的使用。它不僅可以影響有缺失數(shù)據(jù)的變量,同時也影響沒有缺失數(shù)據(jù)的變量。
采用不同插補方法對“支付鍛煉費用”變量的影響比較大。其中采用熱卡填充法后的系數(shù)是最大的,并且高于采用其他方法插補后的系數(shù)。從P值上看,采用熱卡填充法對該變量的影響不具有顯著性意義,而使用其他插補方法卻使得該變量對因變量的影響是顯著。這與之前的分析是一致的,即在回歸分析中,采用熱卡填充法獲得的系數(shù)是不穩(wěn)定不可靠的。
3.1 個案剔除法
如果缺失數(shù)據(jù)所占比例比較小,使用個案剔除法既簡單又有效。但當缺失數(shù)據(jù)所占比例較大,特別當缺失數(shù)據(jù)不是隨機分布時,這種方法將會導致數(shù)據(jù)發(fā)生偏離,以至于得出錯誤的結(jié)論。
3.2 均值替換法
均值替換法也可以簡便、快速的處理缺失數(shù)據(jù),在使用均值替換法進行插補缺失數(shù)據(jù)時,該變量均值的估計不會產(chǎn)生影響。由于此方法是建立在完全隨機缺失的假設之上的,所以會造成變量的標準差變小。
3.3 熱卡填充法
使用熱卡填充法插補缺失數(shù)據(jù),與均值替換法相比,其變量的標準差與插補前相比較為接近,但在回歸方程中,熱卡填充法容易使回歸方程的誤差增大,參數(shù)估計變得不穩(wěn)定,而且這種方法計算不方便,比較麻煩耗時。
3.4 回歸替換法
回歸替換法要求存在缺失數(shù)據(jù)所在的變量與其他變量存在線性關(guān)系,所以對與其他變量存在線性關(guān)系的缺失數(shù)據(jù)采用回歸替換法效果比較好。
3.5 多重替代法
多重估算技術(shù)不是用單一的值來替換缺失數(shù)據(jù),而是產(chǎn)生缺失數(shù)據(jù)的一個隨機樣本,這種方法可以產(chǎn)生更加有效的統(tǒng)計推斷。并且利用NORM統(tǒng)計軟件,可以較為簡便地操作該方法。因此,在選用插補方法時,要考慮到缺失數(shù)據(jù)所占比例、變量間的關(guān)聯(lián)度、研究的能力、時間限制等因素,選擇在當前條件下最適合的插補方法。
[1]周藝彪,姜慶五,趙根明,等.調(diào)查研究中數(shù)據(jù)缺失的機制及處理方法[J].中國衛(wèi)生統(tǒng)計,2005,22(5):318-321.
[2]曹陽,張羅漫.運用SAS對不完整數(shù)據(jù)集進行多重填補SAS 9中的多重填補及其統(tǒng)計分析過程[J].中國衛(wèi)生統(tǒng)計,2004,21(1):56-63.
[3]陳姿羽,李偉鵬.基于屬性選擇的貝葉斯網(wǎng)絡模型在臨床缺失數(shù)據(jù)中的研究與應用[J].南方醫(yī)科大學學報,2008,28(10):1903-1905.
[4]龐新生.缺失數(shù)據(jù)處理中相關(guān)問題的探討[J].統(tǒng)計與信息論壇,2004,19(5):29-32.
[5]金勇進.缺失數(shù)據(jù)的插補調(diào)整[J].數(shù)理統(tǒng)計與管理,2001,20(5):47-53.
[6]余競,鐘涵宇,劉利,等.統(tǒng)計調(diào)查表缺失數(shù)據(jù)插補效果的實證分析[J].成都大學學報,2010,29(4):307-310.
[7]曹陽.居民健康調(diào)查資料中的缺失數(shù)據(jù)的多重估算[J].中國衛(wèi)生統(tǒng)計,2002,19(5):280-282.
[8]武建虎,賀佳,賀憲民,等.多變量缺失數(shù)據(jù)的不同處理方法及分析結(jié)果比較[J].第二軍醫(yī)大學學報,2004,29(9):1013-1016.
責任編輯:劉紅霞
M issing Data Processing M ethod in Social Sports Investigation
HUANG Fengjuan,F(xiàn)U Dayu,WANG Jinru
(Sports Information Technology Department,Shenyang Sport University,Shenyang 110102,Liaoning,China)
In the process of social sports statistical processing of the survey data,we are often faced w ith the problem of m issing data.In this paper,taking 500 40-year-old to 70-year-old urban women in Shenyang City participatiing in the survey data on physical exercise and physical activity in 2001 as an example,five kinds of commonlym issing data imputation methodswere compared and analyzed.At first,it introduced five kinds of m issing data imputation methods and described the pros and cons,and then conducted descriptive examples and regression analysis and comparison of comparative indicators combined surveys.It concludes that in the selection of the interpolation method,the researchers should take into account the percentage ofm issing data proportion,research capacity,time constraints and other factors to find the most suitable interpolation method.
m issing data;interpolationmethod;statistical inference;data analysis
G80-32 文獻標志碼:A 文章編號:1004-0560(2014)04-0046-04
2014-06-18;
2014-07-22
2013年遼寧省教育廳科學研究一般項目,編號:W2013231。
黃鳳娟(1962—),女,副教授,學士,主要研究方向為體質(zhì)研究與統(tǒng)計應用。
?體育人文社會學