楊貴軍,蔡 娟,趙曉云
高相關(guān)性輔助變量擇優(yōu)回歸插補(bǔ)法
楊貴軍,蔡 娟,趙曉云
(天津財(cái)經(jīng)大學(xué)中國(guó)經(jīng)濟(jì)統(tǒng)計(jì)研究中心,天津300222)
調(diào)查數(shù)據(jù)無(wú)回答在抽樣調(diào)查中經(jīng)常出現(xiàn)。無(wú)回答項(xiàng)目插補(bǔ)法是處理無(wú)回答的最主要方法之一,而輔助變量對(duì)提高插補(bǔ)值準(zhǔn)確度非常重要。因此,研究調(diào)查數(shù)據(jù)無(wú)回答項(xiàng)目的高相關(guān)性輔助變量擇優(yōu)回歸插補(bǔ)法,先篩選與目標(biāo)變量間相關(guān)系數(shù)高的輔助變量,再建立回歸插補(bǔ)模型。該方法的輔助變量選擇過(guò)程簡(jiǎn)單,插補(bǔ)值準(zhǔn)確性高。模擬例子演示了該方法的優(yōu)良性。
無(wú)回答項(xiàng)目;變量擇優(yōu);回歸插補(bǔ);相關(guān)系數(shù)
目前,抽樣調(diào)查的應(yīng)用領(lǐng)域越來(lái)越廣,調(diào)查數(shù)據(jù)的無(wú)回答問(wèn)題也受到更多關(guān)注。調(diào)查數(shù)據(jù)無(wú)回答包括(調(diào)查)單元無(wú)回答和(調(diào)查)項(xiàng)目無(wú)回答。單元無(wú)回答是調(diào)查單元沒有回答任何調(diào)查項(xiàng)目,調(diào)查員沒有找到被調(diào)查者、或是被調(diào)查者由于特殊原因不接受調(diào)查等情況都會(huì)出現(xiàn)單元無(wú)回答;項(xiàng)目無(wú)回答是樣本單元只回答了部分而不是全部的調(diào)查項(xiàng)目,被調(diào)查者拒絕回答某些敏感性調(diào)查項(xiàng)目、或由于粗心遺漏掉某些調(diào)查項(xiàng)目等都會(huì)產(chǎn)生項(xiàng)目無(wú)回答。無(wú)回答會(huì)影響調(diào)查數(shù)據(jù)的質(zhì)量,導(dǎo)致參數(shù)估計(jì)量出現(xiàn)明顯偏差,有時(shí)估計(jì)量方差也會(huì)顯著增大,嚴(yán)重影響統(tǒng)計(jì)分析結(jié)果的可信度[1][2]1-2。
避免或減少調(diào)查數(shù)據(jù)無(wú)回答的辦法主要有事前預(yù)防、事中控制和事后補(bǔ)救。Kish詳細(xì)討論了降低無(wú)回答率的事前預(yù)防辦法[3]615-624,由于實(shí)際問(wèn)題的復(fù)雜性,事前預(yù)防和事中控制無(wú)論做得多么嚴(yán)謹(jǐn)細(xì)致,只能有效減低無(wú)回答率,而不能徹底解決無(wú)回答問(wèn)題;Hansen和Hurwitz認(rèn)為事后追加樣本的二重或二階抽樣方法能有效解決無(wú)回答問(wèn)題[4],但追加樣本會(huì)導(dǎo)致支付額外的調(diào)查費(fèi)用和延長(zhǎng)抽樣調(diào)查時(shí)間,在很多情況下這種方法并不是最優(yōu)的選擇。事后補(bǔ)救的主要方法是插補(bǔ)法,即指構(gòu)造無(wú)回答單元和無(wú)回答項(xiàng)目的插補(bǔ)值。Politz和Simmons給出了無(wú)回答的隨機(jī)描述[5];馮士雍總結(jié)的無(wú)回答單元估計(jì)方法有[1]:Horvitz和Thompson提出的逆概率加權(quán)法[6]、Deming和Stephan提出的梳理法[7]、Lundstrom提出的校準(zhǔn)法[8]以及類加權(quán)法。
無(wú)回答項(xiàng)目的插補(bǔ)法包括單值插補(bǔ)法和多重插補(bǔ)法。多重插補(bǔ)法給出了無(wú)回答項(xiàng)目的多個(gè)替代值[9]1-23,常用的多重插補(bǔ)法有回歸預(yù)測(cè)法[10]、傾向得分法、馬爾科夫蒙特卡羅法等[11]67-94,無(wú)回答項(xiàng)目的單值插補(bǔ)只給出無(wú)回答項(xiàng)目的單一替代值,常用的單值插補(bǔ)法有冷卡插補(bǔ)、熱卡插補(bǔ)、均值插補(bǔ)、回歸插補(bǔ)、比率插補(bǔ)、推理插補(bǔ)、相關(guān)性估計(jì)插補(bǔ)、最近鄰插補(bǔ)、EM算法、貝葉斯自助法及近似貝葉斯自助法等。冷卡插補(bǔ)是根據(jù)以前的調(diào)查結(jié)果或其他資料與數(shù)據(jù)等給出無(wú)回答項(xiàng)目的插補(bǔ)值;熱卡插補(bǔ)選用回答項(xiàng)目的數(shù)值對(duì)無(wú)回答項(xiàng)目進(jìn)行估計(jì);均值插補(bǔ)是將回答項(xiàng)目的樣本均值作為無(wú)回答項(xiàng)目的插補(bǔ)值;回歸插補(bǔ)是依據(jù)含無(wú)回答的調(diào)查項(xiàng)目與其他調(diào)查項(xiàng)目間的線性關(guān)系構(gòu)造無(wú)回答項(xiàng)目的插補(bǔ)值,這種線性關(guān)系是事前已知的;比率插補(bǔ)是回歸插補(bǔ)的特例,是利用無(wú)截距項(xiàng)的回歸模型進(jìn)行插補(bǔ);推理插補(bǔ)是依據(jù)已觀測(cè)的樣本數(shù)據(jù)和調(diào)查項(xiàng)目間的理論關(guān)系以及調(diào)查經(jīng)驗(yàn)等估計(jì)無(wú)回答項(xiàng)目;相關(guān)性估計(jì)插補(bǔ)是選用與含無(wú)回答調(diào)查項(xiàng)目間相關(guān)性最大的5個(gè)調(diào)查項(xiàng)目來(lái)對(duì)無(wú)回答項(xiàng)目進(jìn)行估計(jì)[12];最近鄰插補(bǔ)是依據(jù)最近距離調(diào)查單元的調(diào)查項(xiàng)目之間相似度更大的假設(shè)對(duì)無(wú)回答項(xiàng)目插補(bǔ);EM算法是基于回答單元和回答項(xiàng)目計(jì)算無(wú)回答項(xiàng)目的最可能值[13];貝葉斯自助法及近似貝葉斯自助法是基于貝葉斯觀點(diǎn)的無(wú)回答項(xiàng)目插補(bǔ)[9]1-23。同時(shí),方匡南、謝邦昌則利用聚類關(guān)聯(lián)規(guī)則對(duì)無(wú)回答項(xiàng)目插補(bǔ)[14]。
在上述單值插補(bǔ)法中,有些插補(bǔ)法只利用單一調(diào)查項(xiàng)目的調(diào)查數(shù)據(jù)估計(jì)無(wú)回答項(xiàng)目,如均值插補(bǔ)法和熱卡插補(bǔ)法。另一些插補(bǔ)法利用了多個(gè)調(diào)查項(xiàng)目的調(diào)查數(shù)據(jù),如推理插補(bǔ)、最近鄰插補(bǔ)、比率插補(bǔ)、回歸插補(bǔ)和相關(guān)性估計(jì)插補(bǔ)等,插補(bǔ)過(guò)程相對(duì)復(fù)雜,但往往插補(bǔ)值準(zhǔn)確度更高。事實(shí)上,合理利用其它調(diào)查項(xiàng)目的觀測(cè)數(shù)據(jù),能夠更準(zhǔn)確地描述含無(wú)回答調(diào)查項(xiàng)目的統(tǒng)計(jì)規(guī)律,更好地估計(jì)無(wú)回答項(xiàng)目。然而,并不是每個(gè)調(diào)查項(xiàng)目都能提供關(guān)于含無(wú)回答調(diào)查項(xiàng)目的有價(jià)值信息,有的調(diào)查項(xiàng)目與含無(wú)回答調(diào)查項(xiàng)目之間不存在任何邏輯關(guān)系和統(tǒng)計(jì)相似性,對(duì)無(wú)回答項(xiàng)目估計(jì)并不重要。因此,篩選出有利于無(wú)回答項(xiàng)目估計(jì)的調(diào)查項(xiàng)目,用之插補(bǔ)無(wú)回答項(xiàng)目,會(huì)提高插補(bǔ)值的準(zhǔn)確度。
筆者針對(duì)調(diào)查數(shù)據(jù),討論高相關(guān)性輔助變量擇優(yōu)回歸插補(bǔ)法。第一步,篩選出與含無(wú)回答的調(diào)查項(xiàng)目間相關(guān)系數(shù)高的調(diào)查項(xiàng)目,進(jìn)行調(diào)查項(xiàng)目擇優(yōu);第二步,利用篩選出的調(diào)查項(xiàng)目建立無(wú)回答項(xiàng)目的回歸模型,給出相應(yīng)無(wú)回答項(xiàng)目插補(bǔ)值,模擬例子演示了該插補(bǔ)法的準(zhǔn)確率。
為了下文討論方便,在不引起混淆的情況下,將含無(wú)回答的調(diào)查項(xiàng)目稱為目標(biāo)變量,其它調(diào)查項(xiàng)目稱為輔助變量。因無(wú)回答項(xiàng)目插補(bǔ)值的準(zhǔn)確度受輔助變量影響大,故對(duì)輔助變量進(jìn)行優(yōu)選后再建立插補(bǔ)模型,則能夠提高插補(bǔ)值的準(zhǔn)確度。具有輔助變量擇優(yōu)的二步插補(bǔ)過(guò)程包括兩步:
(一)輔助變量擇優(yōu)
因?yàn)楹Y選出的輔助變量能更好地描述目標(biāo)變量的統(tǒng)計(jì)規(guī)律,可以提高插補(bǔ)值準(zhǔn)確度。
假設(shè)觀察樣本A=(xij)含有m個(gè)變量n次觀測(cè),其中i=1,…,n;j=1,…,m,m個(gè)變量記為X1,…,Xm。為了消除量綱的影響,對(duì)原始數(shù)據(jù)進(jìn)行中心標(biāo)準(zhǔn)化變換,即zij=(xij-x珚j)/sj,i=1,…,n;j=1,…,m,其中x珚j和sj分別表示第j個(gè)變量的樣本均值和樣本標(biāo)準(zhǔn)差。將數(shù)據(jù)集A的調(diào)查單元分為A1和A2兩部分,A1的所有單元Z1,…,Zm都沒有無(wú)回答項(xiàng)目,A2的所有單元都含有無(wú)回答的項(xiàng)目,記。對(duì)于A2中的無(wú)回答項(xiàng)目,選擇Zk作為目標(biāo)變量。剔除數(shù)據(jù)A2中第i單元含無(wú)回答的所有變量,剩余變量記為Z,再進(jìn)行變量擇優(yōu)。
逐步回歸過(guò)程的變量選擇、決策樹、粗糙集等方法,依據(jù)與目標(biāo)變量的相關(guān)性對(duì)輔助變量進(jìn)行排序。通常與目標(biāo)變量相關(guān)性小的變量不會(huì)顯著提高無(wú)回答項(xiàng)目的預(yù)測(cè)準(zhǔn)確性,有時(shí)還可能會(huì)增加估計(jì)量的隨機(jī)波動(dòng)性而降低無(wú)回答項(xiàng)目的預(yù)測(cè)準(zhǔn)確性。剔除這些變量,可使目標(biāo)變量與其它輔助變量的關(guān)系更易識(shí)別。
將目標(biāo)變量和輔助變量間相關(guān)系數(shù)作為輔助變量擇優(yōu)的標(biāo)準(zhǔn)。首先,按z(2)i,j-珔z(1)j取值將輔助變量分為兩類,取值正的為第一類,取值負(fù)的為第二類;其次,計(jì)算相關(guān)系數(shù)矩陣,記Zj*為Z中與目標(biāo)變量Zk相關(guān)系數(shù)最大的輔助變量,若,從第一類優(yōu)選輔助變量;若,則從第二類中選輔助變量。
(二)利用選出的輔助變量建立目標(biāo)變量的插補(bǔ)模型
插補(bǔ)模型包括線性模型、貝葉斯自助法、最近鄰插補(bǔ)法等。使用回歸模型,將選出的輔助變量Z(1),…,Z(e)作為解釋變量,Zk為響應(yīng)變量,模型為Zk=β0+β1Z(1)+…+βeZ(e)+ε?;跀?shù)據(jù)集A1的擬合模型為^Zk=^β0+^β1Z(1)+…+^βeZ(e),則無(wú)回答項(xiàng)目依據(jù)相關(guān)系數(shù)先對(duì)輔助變量擇優(yōu),再建立回歸插補(bǔ)模型估計(jì)無(wú)回答項(xiàng)目的方法,在本文中稱為高相關(guān)性輔助變量擇優(yōu)回歸插補(bǔ)法。高相關(guān)性輔助變量作為回歸模型的解釋變量可能具有共線性,但共線性問(wèn)題并不影響回歸模型的預(yù)測(cè)精度[15]53-54,也不會(huì)影響插補(bǔ)值的準(zhǔn)確度。
具有輔助變量擇優(yōu)的二步插補(bǔ)過(guò)程是利用輔助變量與目標(biāo)變量間統(tǒng)計(jì)規(guī)律預(yù)測(cè)無(wú)回答項(xiàng)目,插補(bǔ)值的準(zhǔn)確性依賴于輔助變量的合理選取。先驗(yàn)信息和理論能夠更好地對(duì)輔助變量擇優(yōu),即使在先驗(yàn)知識(shí)有限或者缺失的情況下,該過(guò)程也能對(duì)輔助變量進(jìn)行擇優(yōu),并給出有參考價(jià)值的無(wú)回答項(xiàng)目插補(bǔ)值。
常用的回歸/比率插補(bǔ)法主要依據(jù)先驗(yàn)知識(shí)和理論,確定輔助變量及其與目標(biāo)變量之間的函數(shù)關(guān)系。當(dāng)先驗(yàn)知識(shí)正確時(shí),回歸/比率插補(bǔ)能夠提供較好的插補(bǔ)值。由于很多抽樣調(diào)查的先驗(yàn)知識(shí)具有不確定性,并且無(wú)回答項(xiàng)目事前未知,每個(gè)調(diào)查單元包含兩個(gè)或更多無(wú)回答項(xiàng)目的情況在實(shí)際調(diào)查中經(jīng)常發(fā)生,這些都會(huì)限制回歸/比率插補(bǔ)法的應(yīng)用。
選用兩組調(diào)查數(shù)據(jù)演示高相關(guān)性輔助變量擇優(yōu)回歸插補(bǔ)法的應(yīng)用,一個(gè)例子的調(diào)查數(shù)據(jù)是離散型,另一個(gè)是連續(xù)型。
(一)離散型調(diào)查數(shù)據(jù)的高相關(guān)性輔助變量擇優(yōu)回歸插補(bǔ)法
本例的數(shù)據(jù)是2009年某省直屬單位高層管理人員的測(cè)評(píng)調(diào)查數(shù)據(jù)[12]。調(diào)查問(wèn)卷包括28個(gè)調(diào)查項(xiàng)目,回答值為1~4;調(diào)查單元共計(jì)51個(gè):前30個(gè)調(diào)查單元不含無(wú)回答項(xiàng)目,記為A1;后21個(gè)調(diào)查單元都含無(wú)回答項(xiàng)目,記為A2。中心標(biāo)準(zhǔn)化變換后的數(shù)據(jù)分別記為A1=()和A2=),以A2的無(wú)回答項(xiàng)目為例,高相關(guān)性輔助變量擇優(yōu)回歸插補(bǔ)法如下:
第一步,篩選與目標(biāo)變量相關(guān)系數(shù)最大的5個(gè)輔助變量。對(duì)于目標(biāo)變量Z8,由于A2第一個(gè)調(diào)查單元的都是無(wú)回答項(xiàng)目,剔除變量Z11和 Z18;基于數(shù)據(jù)集A1,計(jì)算剩余25個(gè)輔助變量中與Z8相關(guān)系數(shù)最大的變量,結(jié)果為Z9;按z(2)i,j-珔z(1)j的差值將剩余輔助變量分為兩類,差值正的為第一類,差值負(fù)的為第二類;由于z(2)1,9大于均值珔z(1)9,從第一類輔助變量中選出與Z8相關(guān)系數(shù)最大的5個(gè),分別為Z9、Z14、Z10、Z12和Z1作為優(yōu)選的輔助變量。
第二步,建立無(wú)回答項(xiàng)的插補(bǔ)模型?;跀?shù)據(jù)集A1,利用選出的5個(gè)輔助變量,構(gòu)建目標(biāo)變量的回歸模型,擬合模型為:
模型的決定系數(shù)為R2=0.84,修正決定系數(shù)珚R2=0.81,檢驗(yàn)統(tǒng)計(jì)量F=25.54。無(wú)回答項(xiàng)目x(2)1,8的插補(bǔ)值為:
插補(bǔ)值與真實(shí)值是相同的。
本例給出了全模型插補(bǔ)法、選模型插補(bǔ)法、相關(guān)性估計(jì)插補(bǔ)法、均值插補(bǔ)法的插補(bǔ)結(jié)果,全模型插補(bǔ)法是利用目標(biāo)變量外的所有輔助變量建立回歸模型,并對(duì)無(wú)回答項(xiàng)目插補(bǔ);選模型插補(bǔ)法是根據(jù)條件數(shù)剔除產(chǎn)生共線性的變量,利用其余變量構(gòu)建回歸模型進(jìn)行插補(bǔ),而選模型插補(bǔ)法與相關(guān)性估計(jì)插補(bǔ)法都對(duì)輔助變量進(jìn)行了擇優(yōu);均值插補(bǔ)只利用目標(biāo)變量自身的統(tǒng)計(jì)規(guī)律對(duì)無(wú)回答項(xiàng)目插補(bǔ),將數(shù)據(jù)集A2中每個(gè)變量的調(diào)查項(xiàng)目均視為無(wú)回答項(xiàng),分別用上述方法進(jìn)行插補(bǔ),結(jié)果見表1。表1中高相關(guān)性輔助變量擇優(yōu)回歸插補(bǔ)法簡(jiǎn)稱為相關(guān)回歸插補(bǔ),相關(guān)插補(bǔ)是指相關(guān)性估計(jì)插補(bǔ)法。表1第2列給出了每種方法對(duì)插補(bǔ)值的總正確率,第3~30列依次給出各插補(bǔ)方法對(duì)變量1~28插補(bǔ)值的正確率,28個(gè)變量分別用粗體數(shù)字表示。
表1 各方法對(duì)數(shù)據(jù)集A2插補(bǔ)值的正確率 (%)
表1顯示:與均值插補(bǔ)法相比,高相關(guān)性輔助變量擇優(yōu)回歸插補(bǔ)法、相關(guān)性估計(jì)插補(bǔ)法和選模型插補(bǔ)法對(duì)28個(gè)變量插補(bǔ)值的正確率都高;全模型插補(bǔ)法對(duì)22個(gè)變量插補(bǔ)值的正確率高;以上4種插補(bǔ)法的總正確率更高,這4種插補(bǔ)法都利用了輔助變量,均值插補(bǔ)法則沒有利用輔助變量。合理利用輔助變量的插補(bǔ)方法能夠提高無(wú)回答項(xiàng)插補(bǔ)值的準(zhǔn)確性。
與全模型插補(bǔ)法相比,高相關(guān)性輔助變量擇優(yōu)回歸插補(bǔ)法對(duì)28個(gè)變量插補(bǔ)值的正確率高;相關(guān)性估計(jì)插補(bǔ)法對(duì)27個(gè)變量插補(bǔ)值的正確率高;選模型插補(bǔ)法對(duì)23個(gè)變量插補(bǔ)值的正確率高、對(duì)2個(gè)變量插補(bǔ)值的正確率低,以上三種插補(bǔ)法的總正確率更高,因?yàn)檫x用的不是全部變量而是選出重要的輔助變量,所以提高了無(wú)回答項(xiàng)插補(bǔ)值的準(zhǔn)確性。
本例中變量間的線性相關(guān)程度高,其中最大相關(guān)系數(shù)為0.95,相關(guān)性估計(jì)插補(bǔ)法的插補(bǔ)值的總正確率較高。與相關(guān)性估計(jì)插補(bǔ)法相比,高相關(guān)性輔助變量擇優(yōu)回歸插補(bǔ)法總正確率略低,差值為0.5%。對(duì)于每一個(gè)變量的插補(bǔ)正確率,高相關(guān)性輔助變量擇優(yōu)回歸插補(bǔ)法對(duì)10個(gè)變量插補(bǔ)值的正確率高,對(duì)11個(gè)變量插補(bǔ)值的正確率低、對(duì)6個(gè)變量插補(bǔ)值的正確率與相關(guān)性估計(jì)插補(bǔ)相等。高相關(guān)性輔助變量擇優(yōu)回歸插補(bǔ)法與相關(guān)性估計(jì)插補(bǔ)法之間的插補(bǔ)結(jié)果略有不同,但沒有明顯優(yōu)劣,都對(duì)本例的離散型無(wú)回答項(xiàng)目提供了有價(jià)值的插補(bǔ)結(jié)果。
(二)連續(xù)型調(diào)查數(shù)據(jù)的高相關(guān)性輔助變量擇優(yōu)回歸插補(bǔ)法
這里選用的是管理人員績(jī)效考核的連續(xù)型調(diào)查數(shù)據(jù)[15]53-54,包含了7個(gè)變量。前20個(gè)調(diào)查單元為A1,后10個(gè)調(diào)查單元為A2。將A2的每個(gè)數(shù)據(jù)項(xiàng)均視為無(wú)回答項(xiàng)目,分別用高相關(guān)性輔助變量擇優(yōu)回歸插補(bǔ)法、相關(guān)性估計(jì)插補(bǔ)法、逐步回歸插補(bǔ)法、全模型插補(bǔ)法和均值插補(bǔ)法進(jìn)行插補(bǔ)。相關(guān)性估計(jì)插補(bǔ)法是利用與目標(biāo)變量相關(guān)性最大的3個(gè)輔助變量對(duì)無(wú)回答項(xiàng)目插補(bǔ);逐步回歸插補(bǔ)法是基于AIC信息準(zhǔn)則利用逐步回歸的變量篩選過(guò)程擇優(yōu)輔助變量,再用篩選出的輔助變量建立回歸模型插補(bǔ);全模型插補(bǔ)是利用所有輔助變量建立回歸模型插補(bǔ);均值插補(bǔ)法是利用數(shù)據(jù)集A1中目標(biāo)變量的均值作為無(wú)回答項(xiàng)目的插補(bǔ)值;高相關(guān)性輔助變量擇優(yōu)回歸插補(bǔ)法選用3個(gè)輔助變量。本例中用插補(bǔ)值的均方誤差描述連續(xù)型調(diào)查數(shù)據(jù)無(wú)回答項(xiàng)目插補(bǔ)值的準(zhǔn)確度。均方誤差越小,插補(bǔ)值準(zhǔn)確度越高。各插補(bǔ)法對(duì)每個(gè)變量插補(bǔ)值的均方誤差在表2中給出。
表2 連續(xù)數(shù)據(jù)的不同插補(bǔ)方法比較表
表2顯示:逐步回歸插補(bǔ)對(duì)變量X1~X5插補(bǔ)值的均方誤差較小,都小于76,其中對(duì)X4插補(bǔ)值比其它插補(bǔ)法的均方誤差都小,為53.04;對(duì)變量X6和X7插補(bǔ)值的均方誤差相對(duì)較大,大于100,總均方誤差為70.53,小于其它插補(bǔ)法。高相關(guān)性輔助變量擇優(yōu)回歸插補(bǔ)法對(duì)變量X1~X4插補(bǔ)值的均方誤差較小,對(duì)變量X1、X2、X3插補(bǔ)值的均方誤差分別為43.76、41.68、63.45,小于其它插補(bǔ)法;對(duì)變量X5、X6插補(bǔ)值的均方誤差較大,總均方誤差為77.82。相關(guān)性估計(jì)插補(bǔ)法對(duì)變量X1、X2、X7插補(bǔ)值的均方誤差?。粚?duì)變量X7插補(bǔ)值的均方誤差為71.02,小于其它插補(bǔ)法,總均方誤差92.43,大于上述兩種插補(bǔ)法和全模型插補(bǔ)。
全模型插補(bǔ)法對(duì)X1、X2、X4、X5、X7插補(bǔ)值的均方誤差小,小于78,其中X5插補(bǔ)值的均方誤差為62.75,小于其它插補(bǔ)法;對(duì)X3、X6插補(bǔ)值的均方誤差較大,大于100,總均方誤差為78.88;均值插補(bǔ)法只對(duì)X6插補(bǔ)值的均方誤差小于其它插補(bǔ)法,對(duì)其余變量插補(bǔ)值的均方誤差和總均方誤差都大。
對(duì)插補(bǔ)值的殘差分析顯示:高相關(guān)性輔助變量擇優(yōu)回歸插補(bǔ)法、逐步回歸插補(bǔ)法和全模型插補(bǔ)法分別有8、10、16個(gè)插補(bǔ)值絕對(duì)殘差較大,超過(guò)10。插補(bǔ)值絕對(duì)殘差大的原因很多,其中原因之一可能是插補(bǔ)模型不適于對(duì)這些無(wú)回答項(xiàng)目插補(bǔ)。相比較而言,高相關(guān)性輔助變量擇優(yōu)回歸插補(bǔ)更適用,插補(bǔ)值絕對(duì)殘差大的個(gè)數(shù)更少。去掉三種方法中絕對(duì)殘差大于10的插補(bǔ)值,計(jì)算其余無(wú)回答項(xiàng)目插補(bǔ)值的均方誤差,結(jié)果見表3。
表3顯示:插補(bǔ)值的均方誤差明顯減少;高相關(guān)性輔助變量擇優(yōu)回歸插補(bǔ)法對(duì)X3、X4、X6、X7插補(bǔ)值的準(zhǔn)確度最高;逐步回歸模型插補(bǔ)法對(duì)X2、X5插補(bǔ)值的準(zhǔn)確度最高;全模型插補(bǔ)法對(duì)X1插補(bǔ)值的準(zhǔn)確度最高,并且總均方誤差最小。
表3 三種回歸模型插補(bǔ)方法比較表(剔除異常點(diǎn))
本例調(diào)查數(shù)據(jù)的插補(bǔ)結(jié)果表明:輔助變量的擇優(yōu)和合理利用能夠提高插補(bǔ)值的準(zhǔn)確度。均值插補(bǔ)法沒有利用輔助變量,只是根據(jù)目標(biāo)變量自身變化規(guī)律估計(jì)無(wú)回答項(xiàng)目,故插補(bǔ)值準(zhǔn)確性差;全變量模型利用全部輔助變量,容易受個(gè)別輔助變量波動(dòng)性異常的影響,計(jì)算復(fù)雜度較高;高相關(guān)性輔助變量擇優(yōu)回歸插補(bǔ)法通常會(huì)優(yōu)于不使用輔助變量或不加選擇地使用全部輔助變量的插補(bǔ)方法;相關(guān)性估計(jì)插補(bǔ)只是利用輔助變量的離差對(duì)目標(biāo)變量均值插補(bǔ)值進(jìn)行修正,變量間的線性相關(guān)程度高,插補(bǔ)值的準(zhǔn)確度也高;高相關(guān)性輔助變量擇優(yōu)回歸插補(bǔ)法是建立在輔助變量回歸插補(bǔ)模型的基礎(chǔ)上,插補(bǔ)值的波動(dòng)性更小,準(zhǔn)確性更高。
本文提出了高相關(guān)性輔助變量擇優(yōu)回歸插補(bǔ)法,利用輔助變量與目標(biāo)變量的相關(guān)性大小篩選輔助變量,再利用擇優(yōu)的輔助變量構(gòu)造目標(biāo)變量的回歸插補(bǔ)模型,作為無(wú)回答項(xiàng)目插補(bǔ)模型。輔助變量擇優(yōu)過(guò)程簡(jiǎn)單,插補(bǔ)值準(zhǔn)確性高。高相關(guān)性輔助變量擇優(yōu)回歸插補(bǔ)法是具有輔助變量擇優(yōu)的二步插補(bǔ)過(guò)程的具體實(shí)現(xiàn)。對(duì)于具有輔助變量擇優(yōu)的二步插補(bǔ)過(guò)程,輔助變量的擇優(yōu)方法很多,利用輔助變量建立的插補(bǔ)模型也有多種選擇,如何確定變量擇優(yōu)方法和插補(bǔ)模型的最優(yōu)組合以提高插補(bǔ)值的準(zhǔn)確度,還需要進(jìn)一步研究。
[1] 馮士雍.抽樣調(diào)查應(yīng)用與理論中的若干前沿問(wèn)題[J].統(tǒng)計(jì)與信息論壇,2007,22(1).
[2] 金勇進(jìn),邵軍.缺失數(shù)據(jù)的統(tǒng)計(jì)處理[M].北京:中國(guó)統(tǒng)計(jì)出版社,2009.
[3] Kish L.抽樣調(diào)查[M].倪家勛,孫山澤,譯.北京:中國(guó)統(tǒng)計(jì)出版社,1997.
[4] Hansen M H,Hurwitz W N.The Problem of Nonresponse in Sample Surveys[J].Journal of the American Statistical Association,1946(41).
[5] Politz A N,Simmons W R.An Attempt to Get Not-at-h(huán)ome into the Sample Without Call-back[J].Journal of the American Statistical Association,1949(44).
[6] Horvitz D G,Thompson D J.A Generalization of Sampling Without Replacement from a Finite Population[J].Journal of the American Statistical Association,1952(47).
[7] Deming W E,Stephan F F.On a Least Squares Adjustment of a Samples Frequency Table when the Expected Marginal Tables are Known[J].Annals of Mathematical Statistics,1940(11).
[8] Lundstrom M S.Calibration as a Standard Method for Treatment of Nonresponse[D].Stockholm University,Department of Statistics,1997.
[9] Rubin D B.Multiple Imputation for Nonresponse in Survey[M].New York:John Wiley &Sons,1987.
[10]Yang C Y,Rockville.Multiple Imputation for Missing Data:Concepts and New Development[R].Introduction Material of SAS,2001.
[11]Schafer J L.Analysis of Incomplete Multivariate Data[M].London:Chapman and Hall,1997.
[12]周影,劉龍,馬維軍,等.調(diào)查問(wèn)卷中含缺失數(shù)據(jù)的等級(jí)變量的補(bǔ)缺方法[J].?dāng)?shù)學(xué)的實(shí)踐與認(rèn)識(shí),2011,41(1).
[13]Dempster A P,Laird N M,Rubin D B.Maximum Likelihood from Incomplete Data via the EM Algorithm[J].Journal of the Royal Statistical Society.Series B(Methodological),1977(39).
[14]方匡南,謝邦昌.基于聚類關(guān)聯(lián)規(guī)則的缺失數(shù)據(jù)處理研究[J].統(tǒng)計(jì)研究,2011,28(2).
[15]Chatterjee S,Hadi A S.Regression Analysis by Example[M].北京:中國(guó)統(tǒng)計(jì)出版社,2003.
Regression Interpolation in Selecting Auxiliary Variables of High-Correlation with the Target Variable
YANG Gui-jun,CAI Juan,ZHAO Xiao-yun
(China Center of Economics and Statistics Research,Tianjin University of Finance and Economics,Tianjin 300222,China)
Non-response of data extensively exists in the survey.Interpolation to the non-responses is one of the good solutions,and auxiliary variables are important to improve the accuracy of the interpolated values.This paper discusses the regression interpolation by selecting auxiliary variables of high-correlation with the target variable.Firstly,select the auxiliary variables of the high correlation with the target variable,and then construct regression interpolation model of the target variable by using those auxiliary variables.The new interpolation process is simpler and interpolated values have higher accuracy.The properties of the new method are showed in the two examples.
non-response item;selecting optimal variable;regression Interpolation;correlation coefficient
book=8,ebook=65
O212.4
A
1007-3116(2012)06-0008-06
(責(zé)任編輯:郭詩(shī)夢(mèng))
2011-12-10;修復(fù)日期:2012-04-26
國(guó)家社會(huì)科學(xué)基金重大項(xiàng)目《全球視野下的統(tǒng)計(jì)數(shù)據(jù)質(zhì)量評(píng)估方法研究》(09&ZD040);教育部新世紀(jì)優(yōu)秀人才支持計(jì)劃《我國(guó)保險(xiǎn)公司風(fēng)險(xiǎn)的監(jiān)管量化技術(shù)及監(jiān)管機(jī)制研究》(NCET-08-0909);教育部留學(xué)回國(guó)人員科研啟動(dòng)基金項(xiàng)目《兩階段設(shè)計(jì)的若干問(wèn)題研究》;2010年度全國(guó)統(tǒng)計(jì)科學(xué)研究計(jì)劃項(xiàng)目《無(wú)回答的解決辦法及在經(jīng)濟(jì)調(diào)查中的應(yīng)用》(2010LC60)
楊貴軍,男,黑龍江哈爾濱人,理學(xué)博士,教授,博士生導(dǎo)師,研究方向:統(tǒng)計(jì)學(xué);蔡 娟,女,江蘇鎮(zhèn)江人,碩士生,研究方向:統(tǒng)計(jì)學(xué);趙曉云,女,山東濱州人,碩士生,研究方向:統(tǒng)計(jì)學(xué)。