• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      美國縱向調查中缺失數(shù)據(jù)的應對方法及對我國的啟示

      2015-10-30 18:43:26于力超金勇進
      現(xiàn)代管理科學 2015年9期
      關鍵詞:大數(shù)據(jù)

      于力超 金勇進

      摘要:大數(shù)據(jù)時代市場調查中缺失數(shù)據(jù)的處理問題引起越來越多的關注。文章透過威斯康星縱向調查,總結了美國縱向調查中缺失數(shù)據(jù)的處理方法,重點介紹了采用多變量序貫回歸的方法進行多重插補的方法及IVEware軟件的應用情況,研究了多重插補法處理縱向缺失數(shù)據(jù)的優(yōu)勢所在。作者總結了國外先進經(jīng)驗,結合中國實際,提出研究大數(shù)據(jù)背景下縱向缺失數(shù)據(jù)處理方法的思路和幾點建議。

      關鍵詞:多重插補法;縱向調查;缺失數(shù)據(jù);大數(shù)據(jù)

      一、 引言

      在大數(shù)據(jù)背景下進行數(shù)據(jù)分析,數(shù)據(jù)的質量是關鍵。有數(shù)據(jù)顯示,對于收集到的調查數(shù)據(jù),80%的時間要花在包括缺失數(shù)據(jù)處理、不合理值刪除等數(shù)據(jù)清洗工作上,獲得較高質量數(shù)據(jù)后方可進一步進行數(shù)據(jù)分析。我國縱向抽樣調查對缺失數(shù)據(jù)多采用直接刪除法進行處理,只利用數(shù)據(jù)完全的樣本進行分析,不僅造成大量信息浪費,而且可能導致估計結果有偏。本文以作者在威斯康星大學學習期間參與的威斯康星縱向調查(Wisconsin Longitudinal Survey)為例,介紹美國專業(yè)調查機構如何應對缺失數(shù)據(jù)問題,并結合我國實際,給出今后相關工作的建議。

      二、 美國縱向抽樣調查中缺失數(shù)據(jù)的應對方法

      美國許多大型縱向調查已開展多年,積累了豐富的數(shù)據(jù)和實踐經(jīng)驗。例如著名的“威斯康星縱向調查”,這項由威斯康星大學麥迪遜分校調查中心組織開展的研究跟蹤調查威斯康星州1957年的1萬多名高中畢業(yè)生,已經(jīng)持續(xù)了50多年的時間。研究范圍包括這些高中畢業(yè)生所上的大學、大學畢業(yè)后的工作和生活以及他們退休后的生活狀況,共收集了3 000多個變量的數(shù)據(jù),該項目吸引了許多經(jīng)濟學家、心理學家、社會學家以及流行病專家開展相關專題研究項目,從豐富的數(shù)據(jù)中挖掘他們感興趣的結論。我們以“威斯康星縱向研究”為例,看美國開展的縱向調查是如何應對缺失數(shù)據(jù)問題的。

      1. 缺失數(shù)據(jù)的預防和初次出現(xiàn)時的應對。缺失數(shù)據(jù)多出現(xiàn)在收入和家庭財產(chǎn)相關的敏感變量。對這類問題,應盡量降低問題的敏感性。威斯康星縱向調查在提問涉及隱私的敏感問題時,一般不直接問具體數(shù)字而是通過“月收入在xx元到xx元的區(qū)間”這樣的問題間接獲取受訪者的收入信息。在每一輪調查開始時,收入分類的邊界值取上一輪調查所獲得收入數(shù)據(jù)的10%,50%和80%分位數(shù)。受訪者可以回答“不知道”或拒絕回答,調查人員對這些受訪者進行追訪,以盡可能減少缺失數(shù)據(jù)的出現(xiàn),在缺失機制為不可忽略缺失的情形下,回答者與無回答者的調查數(shù)據(jù)分布有較大差異,此時進行追訪調查很有必要。如果追訪后受訪者還是無回答則記錄該受訪者的該項目數(shù)據(jù)缺失。

      美國的縱向調查重視抽樣框信息的完善,收集受訪者的多種聯(lián)系方式(電話、住址、郵箱等),防止地址變更等原因導致無法聯(lián)系受訪者的問題出現(xiàn),跟蹤抽樣框中受訪者聯(lián)系方式的變化,保證每位受訪者不至在縱向調查過程中失聯(lián)。威斯康星縱向調查項目(WLS)就在威斯康星州政府和美國勞動統(tǒng)計局的配合下,投入了大量人力財力用于維護抽樣框信息,從而能夠在整個縱向調查過程中跟蹤聯(lián)系到每一位受訪者。

      2. 缺失數(shù)據(jù)的插補調整方法。采取各種預防缺失數(shù)據(jù)出現(xiàn)的措施只能一定程度上降低缺失數(shù)據(jù)出現(xiàn)的概率,不可能根本上解決缺失數(shù)據(jù)問題,威斯康星縱向調查項目(WLS)采取了大量的缺失數(shù)據(jù)預防措施,但問卷中多數(shù)問題的回答率只是在50%到90%之間。為了采用針對完全數(shù)據(jù)集的統(tǒng)計分析方法,需要對含缺失的數(shù)據(jù)集進行插補調整。

      美國目前處理縱向調查缺失數(shù)據(jù)最常用的方法是多重插補法,用這種方法可以較好地估計目標參數(shù)以及參數(shù)估計量的方差。威斯康星縱向調查自1975年以來的各輪調查都采取了多重插補法處理缺失數(shù)據(jù),多重插補使用的是密歇根大學調查研究中心開發(fā)的軟件IVEware。

      IVEware軟件采用多變量序貫回歸的方法進行多重插補,插補所用的回歸模型可以是線性模型、logistic模型,Poisson模型或廣義logit模型等,軟件基于含缺失值的待插補變量的性質自動選擇合適的回歸模型,除待插補變量外所有其他變量構成回歸模型潛在的輔助變量集,插補值從待插補變量的后驗預測分布中抽取,該后驗預測分布基于所選擇的回歸模型獲得。軟件一次只對一個含缺失值的變量進行插補,對多個含缺失值的變量依次插補直到得到完整數(shù)據(jù)集,前期的含缺失值變量的插補值在后續(xù)針對其他變量的插補過程中被視為觀測值。該方法是一種基于回歸模型的插補方法。

      具體地,假設待插補的含缺失值變量為Y1,…,Yk,數(shù)據(jù)完全的變量記為X,作為開始插補時的輔助變量,Y1,…,Yk在給定輔助變量X時的聯(lián)合分布:

      f(Y1,…,Yk|X,θ1,…,θk)=f1(Y1|X,θ1)…,fk(Yk|X,Y1,…,Yk-1,θk)(1)

      參數(shù)θj分布未知,假設其先驗分布為無信息先驗,即π(θj)∝1,我們對等式右邊各個因子根據(jù)Yj的性質,選用合適的回歸模型建模。

      若Yj為二值變量,則fj(Yj|X,Y1,…,Yj-1,θj)可基于logistic回歸模型求得。

      若Yj為屬性變量,則fj(Yj|X,Y1,…,Yj-1,θj)可基于廣義logit回歸模型求得。

      若Yj為計數(shù)變量,則fj(Yj|X,Y1,…,Yj-1,θj)可基于Poisson對數(shù)線性模型求得。

      若Yj為連續(xù)型變量,則fj(Yj|X,Y1,…,Yj-1,θj)可基于正態(tài)線性回歸模型求得。

      插補時,首先插補缺失值最少的變量(記為Y1),根據(jù)Y1的性質選擇回歸模型,基于該模型從Y1的后驗預測分布f1(Y1|X,θ1)中抽取插補值,插補后變量Y1數(shù)據(jù)完全,然后從Y2的后驗預測分布f2(Y2|X,Y1,θ2)中抽取插補值,用與插補Y1相同的步驟插補缺失值第二少的變量Y2,此時前一期插補后的完全數(shù)據(jù)變量Y1作為回歸模型輔助變量的一部分。如此進行下去,依次插補Y1,…,Yk,直至得到一個完整數(shù)據(jù)集。

      將上述插補過程進行M次,得到M個完整數(shù)據(jù)集,進而采用Rubin(1987)介紹的多重插補后參數(shù)估計量及其方差的計算公式,得到所求結果,具體地,首先用完全數(shù)據(jù)分析方法分析這M個數(shù)據(jù)集,對第m個插補后的“完整”數(shù)據(jù)集進行參數(shù)估計,記待估參數(shù)為γ,得到估計值γ(m),m=1,…,M;然后綜合M組估計量,得到統(tǒng)計推斷結果,參數(shù)估計為

      γ=γ(m)(2)

      由第i個插補后的“完整”數(shù)據(jù)集得到參數(shù)的方差估計V(m),V=V(m)為M個方差估計的均值,稱為組內(nèi)方差均值,定義組間方差B=(γ(m)-γ)(γ(m)-γ)′,則參數(shù)γ的方差估計為:

      VMI=V+(1-)B(3)

      威斯康星縱向調查目標變量覆蓋面廣,持續(xù)時間長,收集到數(shù)據(jù)的完整程度基本反映了美國大型縱向調查的情況,一般情況下,數(shù)據(jù)完全的變量包括性別、受教育年數(shù)、每周工作時間、子女數(shù)、受教育程度等,而月收入、智商、健康狀況、家庭財產(chǎn)等信息常出現(xiàn)數(shù)據(jù)缺失,需要進行插補調整。其中,對連續(xù)型數(shù)據(jù)如收入、財產(chǎn)等建立插補模型時可采用正態(tài)線性回歸模型,對于屬性變量如健康狀況等需要首先將其轉化為離散型數(shù)據(jù)(如健康狀況良好則賦值為1,一般則賦值為2,較差則賦值為3),然后建立針對離散型變量的回歸模型如廣義logit回歸模型,對缺失數(shù)據(jù)進行插補。

      三、 多重插補法處理缺失數(shù)據(jù)的優(yōu)勢

      用插補法處理缺失數(shù)據(jù)與直接刪除法相比有許多優(yōu)勢。首先,它可以體現(xiàn)完全數(shù)據(jù)受訪單元與含缺失數(shù)據(jù)受訪單元之間的差異,從而得到參數(shù)的無偏估計結果,而直接刪除法只利用完全數(shù)據(jù)受訪單元的信息,若含缺失數(shù)據(jù)受訪單元與完全數(shù)據(jù)受訪單元的數(shù)據(jù)分布存在系統(tǒng)性差異,參數(shù)的估計結果會有偏;其次,插補法可以充分利用收集到的數(shù)據(jù)信息,而直接刪除法會丟棄大量有用數(shù)據(jù),造成信息浪費。

      美國目前處理縱向調查缺失數(shù)據(jù)廣泛采用的多重插補法可以充分利用輔助信息和觀測數(shù)據(jù)作為先驗信息,采用貝葉斯方法從含缺失變量后驗分布中重復抽取插補值,不僅可以獲得目標參數(shù)的無偏估計,還可以避免單一插補導致的參數(shù)估計量方差偏低的情況發(fā)生。

      美國的縱向調查有一套成熟的缺失數(shù)據(jù)處理方法和步驟,對于大型縱向調查,在歷次調查階段采用相同的方法進行缺失數(shù)據(jù)處理,使歷次調查的參數(shù)估計結果具有可比性。

      四、 大數(shù)據(jù)背景下縱向缺失數(shù)據(jù)處理的意義和啟示

      當前國內(nèi)電子商務事業(yè)蓬勃發(fā)展,阿里巴巴、京東等電商十分重視生產(chǎn)、銷售過程中在不同時間點產(chǎn)生的運營數(shù)據(jù),這些數(shù)據(jù)可以視為縱向調查數(shù)據(jù),企業(yè)希望根據(jù)不同時間點的運營數(shù)據(jù)建立模型,預測未來發(fā)展態(tài)勢,提早制定相應策略。以阿里巴巴為例,其數(shù)據(jù)平臺所有海量數(shù)據(jù)來自數(shù)百萬小微企業(yè)以及數(shù)以億記的消費者,阿里研究院的數(shù)據(jù)分析中心通過對他們商務活動和消費過程中產(chǎn)生的縱向數(shù)據(jù)進行分析,可以幫助企業(yè)和政府及時準確了解微觀經(jīng)濟的運行情況?!拔磥碇圃鞓I(yè)的最大‘能源不是石油,而是數(shù)據(jù)”,馬云如此形容數(shù)據(jù)分析的重要意義。

      我國大型抽樣調查尤其是縱向調查事業(yè)起步較晚,調查設計及數(shù)據(jù)處理技術尚不成熟,尤其是在缺失數(shù)據(jù)處理方面,大多沒有采用多重插補法等統(tǒng)計分析方法,而是直接刪去含缺失值的受訪單元,即使插補也大多采用簡單的單一插補法,隨著大數(shù)據(jù)時代的來臨,這樣處理缺失數(shù)據(jù)弊端明顯,因為隨著時間的推移,數(shù)據(jù)量越來越大,其中的缺失數(shù)據(jù)也會越來越多,而且新老數(shù)據(jù)很容易出現(xiàn)重復。雀巢公司在200多個國家出售十余萬種產(chǎn)品,有數(shù)十萬家供應商,其數(shù)據(jù)庫數(shù)據(jù)量很大,決策層希望利用生產(chǎn)和銷售數(shù)據(jù)形成采購議價優(yōu)勢,在市場中占得先機,但一次檢查中發(fā)現(xiàn),在近千萬條客戶、原材料和經(jīng)銷商記錄中近一半是過期或重復數(shù)據(jù),剩下的一半中還有三分之一是明顯不合理或缺失的數(shù)據(jù),在利用這些數(shù)據(jù)之前需要投入大量精力進行數(shù)據(jù)清洗處理。國內(nèi)縱向調查數(shù)據(jù)無論從數(shù)量還是質量看,與西方發(fā)達國家都存在一定差距,數(shù)據(jù)缺失的問題十分嚴重,我們應當學習西方先進的缺失數(shù)據(jù)處理經(jīng)驗,采用多重插補法、EM算法、基于模型的似然推斷法等統(tǒng)計分析方法處理缺失數(shù)據(jù)問題。

      本文介紹了美國縱向調查處理缺失數(shù)據(jù)時常采用的多重插補法的操作步驟和相應軟件,結合我國國情和發(fā)展現(xiàn)狀,美國的經(jīng)驗對我國縱向缺失數(shù)據(jù)處理工作的啟示有以下幾點:

      1. 對于縱向調查,觀測不同調查時點目標參數(shù)的變化情況及發(fā)展趨勢是一個重要目的,所以對不同時點的含缺失數(shù)據(jù)集,需采用相同的缺失數(shù)據(jù)處理及參數(shù)估計方法,這樣不同時點參數(shù)估計結果才有可比性,目前我國尚沒有一個關于縱向調查中缺失數(shù)據(jù)處理方法的標準,在調查手冊中也沒有專門章節(jié)說明如何處理缺失數(shù)據(jù),這樣可能由于縱向調查不同階段缺失數(shù)據(jù)處理方法不同,導致根據(jù)不同時點參數(shù)估計結果建立的時序模型與客觀實際不符,從而失去了根據(jù)該模型預測未來發(fā)展態(tài)勢進而制定相應策略的價值。建議研究者和調查設計及數(shù)據(jù)分析人員重視縱向缺失數(shù)據(jù)對參數(shù)估計結果的不利影響,制定縱向調查缺失數(shù)據(jù)處理相關的標準,在調查手冊和數(shù)據(jù)分析報告中用專門章節(jié)說明缺失數(shù)據(jù)的預防措施,報告每個調查時點下每個目標變量的數(shù)據(jù)缺失率,根據(jù)數(shù)據(jù)缺失的可能原因判定數(shù)據(jù)缺失機制,進而按照標準的方法有針對性地進行缺失數(shù)據(jù)處理,得到參數(shù)估計結果。

      2. 重視缺失數(shù)據(jù)統(tǒng)計處理方法的研究。采用事前預防措施不可能完全消除缺失數(shù)據(jù),此時需要對含缺失調查數(shù)據(jù)集進行事后處理。首先需要確定數(shù)據(jù)的缺失機制,然后合理選擇處理缺失數(shù)據(jù)的方法。對隨機缺失機制和非隨機缺失機制,適用的處理方法不同。隨機缺失機制下,可采用插補法和極大似然法處理縱向缺失數(shù)據(jù)。插補法本質是利用已觀測到的數(shù)據(jù)對數(shù)據(jù)缺失的部分進行填補,以獲得盡量完整且與實際情況相符的數(shù)據(jù)集。極大似然法(MLE)通過最大化似然函數(shù)求參數(shù)的估計值,存在縱向缺失數(shù)據(jù)的情形下,常通過EM迭代算法獲得參數(shù)的極大似然估計。非隨機缺失機制下,需要引入目標變量Yi的缺失指示變量ai(ai=0表示Yi數(shù)據(jù)缺失,ai=1表示Yi有觀測值),對 (Yi,ai)的聯(lián)合分布建模,采用極大似然法進行統(tǒng)計推斷,在給定輔助變量X的條件下,根據(jù)聯(lián)合分布f(Yi,ai|X)的不同分解方式,可將(Yi,ai)的聯(lián)合分布模型分為選擇模型和模式混合模型。

      3. 對于目前國際上廣泛采用的多重插補法,其理論基礎是貝葉斯統(tǒng)計理論,一般情況下缺失數(shù)據(jù)的預測分布比較復雜,本文介紹的威斯康星縱向研究采用的序貫多變量回歸法將插補過程分解,每一步僅插補一個含缺失值變量,這樣可以使問題簡化。多重插補的一大優(yōu)勢是允許在構建插補模型時將各種輔助信息考慮在內(nèi),提高估計結果的準確性,并且與均值插補、比率插補和回歸插補等單一插補法相比,多重插補構造M個完整數(shù)據(jù)集,可以模擬一定條件下的估計量分布,根據(jù)變量數(shù)據(jù)類型采用不同的回歸模型隨機多次抽取插補值,能夠反映在該模型下由于數(shù)據(jù)缺失導致的插補值的不確定性,從而增加了估計的有效性,避免了單一插補時參數(shù)估計量方差被低估的問題。

      4. 重視軟件的開發(fā)和引進。目前國際上用于缺失數(shù)據(jù)處理的軟件發(fā)展速度較快,而我國如果僅用均值插補這樣簡單的缺失數(shù)據(jù)處理方法,相關軟件的強大功能將無法發(fā)揮。我國應當以自主開發(fā)為主,同時重視引進國外先進軟件,除了本文介紹的密歇根大學開發(fā)的IVEware軟件外,SAS Proc MI可以在廣義線性模型、生存分析模型、隨機效應模型等多種模型假定下,采用多重插補法進行含缺失數(shù)據(jù)情形下的參數(shù)估計。R有多個軟件包可以進行缺失數(shù)據(jù)統(tǒng)計分析,ACD包可以在因變量數(shù)據(jù)缺失時進行屬性數(shù)據(jù)分析,mvnmle包在目標變量和輔助變量聯(lián)合分布為多元正態(tài)分布時,進行目標變量數(shù)據(jù)缺失情形下的參數(shù)極大似然估計,MICE包是R中目前最常用的用于缺失數(shù)據(jù)分析的軟件包,MICE是Multivariate Imputation by Chained Equations的簡稱,可以進行多變量缺失數(shù)據(jù)的多重插補,在多個目標變量都可能存在缺失值時,使用MICE包中的mice函數(shù),通過變量之間的關系預測缺失數(shù)據(jù),利用蒙特卡洛方法生成多個完整數(shù)據(jù)集存在imp中,再對imp進行線性回歸,最后用pool函數(shù)對回歸結果進行匯總。以上軟件如能應用于我國縱向缺失數(shù)據(jù)分析領域,必將大大提高參數(shù)估計的效率和準確性。

      參考文獻:

      [1] Savard J R, Pearce N C. Wisconsin Longitudinal Study: User's Guide, National Institute of Health,2010.

      [2] U.S.Department of Housing and Urban Development.American Housing Survey for the United States: 2007(Current Housing Reports).Issued September,2008.

      [3] Raghunathan T E Lepkowski J M , et al.A Multivariate Technique for Multiply Imputing M- issing Values Using a Sequence of Regression Models[J].Survey Methodology,2001,(27):85-95.

      [4] Rubin D B.Multiple Imputation for Nonresponse in Surveys[M].John Wiley & Sons, Inc.New York,1987.

      基金項目:國家社科基金項目“大數(shù)據(jù)背景下非概率抽樣的統(tǒng)計推斷問題研究”(項目號:15BTJ014);全國統(tǒng)計科學研究重點項目“小微工業(yè)企業(yè)抽樣調查問題研究”(項目號:2013LZ34);北京市社科基金重點項目“基于北京市地理分布的空間抽樣設計研究”(項目號:14JGA022);北京市優(yōu)博論文指導教師人文社科項目(項目號:20121000202)。

      作者簡介:金勇進(1953-),男,漢族,北京市人,中國人民大學統(tǒng)計學院教授、博士生導師,應用統(tǒng)計科學研究中心主任,研究方向為抽樣調查技術與數(shù)據(jù)分析;于力超(1985-),男,漢族,山東省煙臺市人,中國人民大學統(tǒng)計學院博士生,研究方向為抽樣調查技術與數(shù)據(jù)分析。

      收稿日期:2015-07-18。

      猜你喜歡
      大數(shù)據(jù)
      基于在線教育的大數(shù)據(jù)研究
      中國市場(2016年36期)2016-10-19 04:41:16
      “互聯(lián)網(wǎng)+”農(nóng)產(chǎn)品物流業(yè)的大數(shù)據(jù)策略研究
      中國市場(2016年36期)2016-10-19 03:31:48
      基于大數(shù)據(jù)的小微電商授信評估研究
      中國市場(2016年35期)2016-10-19 01:30:59
      大數(shù)據(jù)時代新聞的新變化探究
      商(2016年27期)2016-10-17 06:26:00
      淺談大數(shù)據(jù)在出版業(yè)的應用
      今傳媒(2016年9期)2016-10-15 23:35:12
      “互聯(lián)網(wǎng)+”對傳統(tǒng)圖書出版的影響和推動作用
      今傳媒(2016年9期)2016-10-15 22:09:11
      大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉型思路
      新聞世界(2016年10期)2016-10-11 20:13:53
      基于大數(shù)據(jù)背景下的智慧城市建設研究
      科技視界(2016年20期)2016-09-29 10:53:22
      數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉型提高服務能力的探索
      中國記者(2016年6期)2016-08-26 12:36:20
      巫山县| 普格县| 荥阳市| 定南县| 洛南县| 新干县| 望江县| 临邑县| 兴文县| 周口市| 纳雍县| 镇安县| 自贡市| 五大连池市| 子长县| 浠水县| 天等县| 竹溪县| 连南| 营口市| 新田县| 兴文县| 和政县| 驻马店市| 山西省| 吉木萨尔县| 马龙县| 仙居县| 万源市| 六枝特区| 永州市| 内丘县| 古丈县| 连江县| 玉山县| 莒南县| 武汉市| 依安县| 油尖旺区| 奉化市| 柞水县|