王 瑩,萬(wàn)舒晨
(1. 國(guó)家開放大學(xué) 統(tǒng)計(jì)學(xué)習(xí)中心,北京 100039; 2.國(guó)家統(tǒng)計(jì)局 a. 統(tǒng)計(jì)教育培訓(xùn)中心,b. 工業(yè)統(tǒng)計(jì)司,北京 100073; 3.中國(guó)人民大學(xué) 統(tǒng)計(jì)學(xué)院,北京 100872)
大數(shù)據(jù)時(shí)代抽樣調(diào)查面臨的挑戰(zhàn)與機(jī)遇
王瑩1,2a,萬(wàn)舒晨2b,3
(1. 國(guó)家開放大學(xué) 統(tǒng)計(jì)學(xué)習(xí)中心,北京 100039; 2.國(guó)家統(tǒng)計(jì)局 a. 統(tǒng)計(jì)教育培訓(xùn)中心,b. 工業(yè)統(tǒng)計(jì)司,北京 100073; 3.中國(guó)人民大學(xué) 統(tǒng)計(jì)學(xué)院,北京 100872)
摘要:傳統(tǒng)抽樣調(diào)查作為一門成熟的統(tǒng)計(jì)學(xué)分支學(xué)科,在樣本統(tǒng)計(jì)方面發(fā)揮著重要的作用,但是在大數(shù)據(jù)時(shí)代背景下,該方法逐漸暴露出一些缺點(diǎn)。在分析傳統(tǒng)抽樣調(diào)查局限性和大數(shù)據(jù)自身問(wèn)題的基礎(chǔ)上,研究了大數(shù)據(jù)時(shí)代下抽樣調(diào)查面臨的機(jī)遇和挑戰(zhàn)。研究表明,在某些情況下,大數(shù)據(jù)統(tǒng)計(jì)還無(wú)法完全替代抽樣調(diào)查的獨(dú)特作用,抽樣調(diào)查還將在很長(zhǎng)一段時(shí)間內(nèi)發(fā)揮作用。大數(shù)據(jù)時(shí)代下,為了獲得更好的數(shù)據(jù)分析效果,應(yīng)將大數(shù)據(jù)和抽樣調(diào)查充分結(jié)合,進(jìn)而發(fā)揮它們不同的優(yōu)勢(shì)。
關(guān)鍵詞:大數(shù)據(jù);抽樣調(diào)查;挑戰(zhàn);機(jī)遇
一、引 言
世界杯上的預(yù)測(cè)帝章魚保羅給人們留下了深刻印象,殊不知谷歌、百度、微軟等公司,利用與體育賽事相關(guān)的大數(shù)據(jù),在賽事預(yù)測(cè)方面也取得了不錯(cuò)的成績(jī)。近幾年,隨著Google預(yù)測(cè)冬季流感、奧巴馬大選連任成功等大數(shù)據(jù)案例的不斷出現(xiàn),大數(shù)據(jù)應(yīng)用可謂初戰(zhàn)告捷。大數(shù)據(jù)與人們的工作生活息息相關(guān),并且發(fā)揮著越來(lái)越重要的作用。維克托等人撰寫的經(jīng)典著作《大數(shù)據(jù)時(shí)代》,提出了有關(guān)大數(shù)據(jù)的三個(gè)基本觀點(diǎn):大數(shù)據(jù)不具有隨機(jī)樣本,而是全體數(shù)據(jù);大數(shù)據(jù)不是精確性,而是混雜性;大數(shù)據(jù)不是因果關(guān)系,而是相關(guān)關(guān)系。他們認(rèn)為,在大數(shù)據(jù)時(shí)代,“樣本=總體”,抽樣調(diào)查已經(jīng)沒(méi)有存在的必要[1]27-45。大數(shù)據(jù)時(shí)代下抽樣調(diào)查何去何從,需要認(rèn)真審視。本研究著眼于梳理大數(shù)據(jù)與抽樣調(diào)查的關(guān)系;指出大數(shù)據(jù)對(duì)抽樣調(diào)查而言,既是挑戰(zhàn)也是機(jī)遇;分析了大數(shù)據(jù)時(shí)代下抽樣調(diào)查的獨(dú)特作用。本研究的意義在于:大數(shù)據(jù)時(shí)代下應(yīng)充分結(jié)合大數(shù)據(jù)和抽樣調(diào)查的優(yōu)點(diǎn),有效推進(jìn)數(shù)據(jù)分析方法的研究,提高數(shù)據(jù)分析結(jié)果的質(zhì)量。
二、傳統(tǒng)抽樣調(diào)查的局限性
由于傳統(tǒng)的抽樣調(diào)查是在數(shù)據(jù)采集和數(shù)據(jù)處理能力受到限制的條件下建立和逐漸發(fā)展起來(lái)的,因而傳統(tǒng)抽樣調(diào)查在大數(shù)據(jù)時(shí)代下必然存在一些不足。朱建平和蔣萍等學(xué)者已對(duì)抽樣調(diào)查自身的缺點(diǎn)進(jìn)行了相關(guān)分析[2-3]。對(duì)此,本文對(duì)傳統(tǒng)抽樣調(diào)查自身存在的局限性進(jìn)行了歸納整理。
1.抽樣框變動(dòng)問(wèn)題。抽樣框的質(zhì)量是影響抽樣調(diào)查成功與否的關(guān)鍵因素。如果抽樣框質(zhì)量低下,會(huì)直接導(dǎo)致樣本代表性不足,從而導(dǎo)致總體推算結(jié)果精度不夠。在現(xiàn)實(shí)調(diào)查中,往往存在抽樣框變動(dòng)頻繁、變動(dòng)率較大的問(wèn)題。比如小微企業(yè)抽樣調(diào)查就面臨企業(yè)新增和消亡變動(dòng)頻繁的問(wèn)題;又如居民收入抽樣調(diào)查中的人口流動(dòng)問(wèn)題,也經(jīng)常出現(xiàn)戶主更換或房屋空置的情況。這些情況導(dǎo)致企業(yè)抽樣總體與目標(biāo)總體出現(xiàn)了較大的差異。
2.多層次抽樣推斷問(wèn)題。從當(dāng)前中國(guó)統(tǒng)計(jì)調(diào)查工作的現(xiàn)實(shí)來(lái)看, 在中國(guó)開展調(diào)查尤其是抽樣調(diào)查,如何滿足各級(jí)政府管理的需要是一個(gè)必須直面的問(wèn)題。然而,當(dāng)今政府統(tǒng)計(jì)中大多執(zhí)行以省為總體的抽樣方案,落在市、縣的省級(jí)樣本往往有限甚至沒(méi)有獲得省級(jí)樣本,這顯然無(wú)法滿足市、縣級(jí)政府及時(shí)了解掌握管轄區(qū)域社會(huì)經(jīng)濟(jì)發(fā)展?fàn)顩r的需要。從某種意義上說(shuō),多層次抽樣推斷的要求與抽樣調(diào)查的初衷背道而馳,并不符合節(jié)約調(diào)查成本的要求,抽樣調(diào)查的優(yōu)勢(shì)及高效率無(wú)法體現(xiàn)。
3.調(diào)查目的固定問(wèn)題。傳統(tǒng)抽樣調(diào)查中,調(diào)查目的一般需要事先固定,存在一定的局限性。然而,一旦調(diào)查實(shí)施中關(guān)注的重點(diǎn)有所變化,現(xiàn)有的抽樣調(diào)查設(shè)計(jì)就無(wú)法有效滿足新的調(diào)查目的或者對(duì)新調(diào)查目的調(diào)查精度達(dá)不到設(shè)計(jì)要求。為此,往往需要重新設(shè)計(jì)調(diào)查目的,增加調(diào)查成本,降低抽樣調(diào)查的效率。
4.調(diào)查周期過(guò)長(zhǎng)問(wèn)題。進(jìn)行一次傳統(tǒng)抽樣調(diào)查,需要包含確定調(diào)查目的、明確調(diào)查總體范圍、收集抽樣框資料、制定調(diào)查內(nèi)容及表式、設(shè)計(jì)抽樣方法及總體推斷方法、確定抽樣精度、培訓(xùn)調(diào)查員、數(shù)據(jù)采集分析、形成調(diào)查結(jié)果等流程。比如收集抽樣框資料的過(guò)程,往往需要借助普查或相關(guān)行政記錄數(shù)據(jù),對(duì)時(shí)間要求較長(zhǎng),再如抽樣方法的確定,也需要一定的研究測(cè)算時(shí)間。因此開展抽樣調(diào)查往往周期過(guò)長(zhǎng),時(shí)效性較差。
5.多目標(biāo)調(diào)查問(wèn)題。實(shí)際調(diào)查中,為反映調(diào)查總體的全貌,往往需要了解核心抽樣指標(biāo)以外的其他重要指標(biāo)。然而,傳統(tǒng)的抽樣調(diào)查方法一般僅僅為了反映核心指標(biāo)的情況,難以反映與核心指標(biāo)相關(guān)性較弱的指標(biāo)情況,對(duì)多目標(biāo)調(diào)查的抽樣精度較差。采取多目標(biāo)抽樣調(diào)查時(shí),往往需要較大樣本量,調(diào)查效率不高。
三、大數(shù)據(jù)自身的一些問(wèn)題
大數(shù)據(jù)時(shí)代的到來(lái),最直接的影響就是數(shù)據(jù)收集能力發(fā)生了質(zhì)的飛躍,海量數(shù)據(jù)源源不斷產(chǎn)生,對(duì)抽樣調(diào)查方式提出了挑戰(zhàn)。本文經(jīng)過(guò)綜合對(duì)比分析,認(rèn)為大數(shù)據(jù)時(shí)代數(shù)據(jù)的收集和處理存在一些問(wèn)題,現(xiàn)歸納如下。
1.大數(shù)據(jù)關(guān)注相關(guān)關(guān)系忽略因果關(guān)系的問(wèn)題。《大數(shù)據(jù)時(shí)代》一書中對(duì)于數(shù)據(jù)關(guān)系的基本觀點(diǎn)是:不是因果關(guān)系,而是相關(guān)關(guān)系;知道是什么就夠了,沒(méi)必要知道為什么;在大數(shù)據(jù)時(shí)代,不必非得知道現(xiàn)象背后的原因,而是要讓數(shù)據(jù)自己發(fā)聲。讓數(shù)據(jù)自己發(fā)聲的觀念本身沒(méi)有錯(cuò),這也是研究數(shù)據(jù)的較高目標(biāo),但是如果因此得出結(jié)論重視相關(guān)關(guān)系而忽略因果關(guān)系,這就存在一定的問(wèn)題,往往違背了科學(xué)性。
大數(shù)據(jù)關(guān)注相關(guān)關(guān)系的例子不勝枚舉。比如,沃爾瑪公司會(huì)把庫(kù)存的蛋撻放在靠近颶風(fēng)用品的位置,以方便顧客購(gòu)買從而增加銷量。再如,美國(guó)折扣零售商(Target)通過(guò)查看簽署嬰兒禮物登記簿的女性的消費(fèi)記錄,發(fā)現(xiàn)這些女性會(huì)在懷孕約第3個(gè)月時(shí)購(gòu)買許多無(wú)香乳液,幾個(gè)月后會(huì)購(gòu)買鎂、鈣、鋅等營(yíng)養(yǎng)品,從而能夠在客戶孕期的每個(gè)階段寄送相應(yīng)的優(yōu)惠券。這兩個(gè)例子都是大數(shù)據(jù)中比較成功的案例,但不能就此認(rèn)定,這是大數(shù)據(jù)關(guān)注相關(guān)關(guān)系忽略因果關(guān)系的功勞。颶風(fēng)來(lái)了,人們需要手電筒預(yù)防停電,這具有比較明確的因果關(guān)系。那么颶風(fēng)來(lái)臨,人們可能也是需要比較方便的食物如蛋撻以抵抗颶風(fēng)帶來(lái)的不便,這可能存在一定的因果關(guān)系。同樣,給孕婦寄送優(yōu)惠券可能也存在一定的因果關(guān)系:因?yàn)閼言辛耍赃x擇更為健康的不含香精的天然乳液,需要補(bǔ)充更多營(yíng)養(yǎng)品來(lái)確保孕婦和寶寶的健康。因此,兩個(gè)案例背后的因果關(guān)系可能都是存在的,只是大數(shù)據(jù)不愿意或者說(shuō)來(lái)不及去關(guān)注,僅通過(guò)表層的相關(guān)關(guān)系就得出了結(jié)論。如果僅僅通過(guò)相關(guān)關(guān)系分析,分析結(jié)果往往是相當(dāng)脆弱的,得出的結(jié)論可能會(huì)出現(xiàn)較大的偏差。例如,谷歌對(duì)于流感的預(yù)測(cè)在前期成功后對(duì)于近期一次流感爆發(fā)的趨勢(shì)預(yù)測(cè)結(jié)果,比實(shí)際情況要夸大了幾乎一倍。
2.大數(shù)據(jù)放松數(shù)據(jù)質(zhì)量的問(wèn)題。大數(shù)據(jù)的目的是獲得大量的數(shù)據(jù)來(lái)發(fā)掘在小數(shù)據(jù)時(shí)代無(wú)法得到的結(jié)果。但是,大數(shù)據(jù)的數(shù)據(jù)規(guī)模實(shí)在太大,不得不放松對(duì)于數(shù)據(jù)精確性的要求,降低數(shù)據(jù)的容錯(cuò)標(biāo)準(zhǔn)。因而,客觀條件決定了大數(shù)據(jù)允許不精確性,接受混雜性,容許將一些錯(cuò)誤的數(shù)據(jù)參雜到數(shù)據(jù)集中。然而,這不是大數(shù)據(jù)可以放松數(shù)據(jù)質(zhì)量、降低數(shù)據(jù)精度要求的借口。可以說(shuō)大數(shù)據(jù)的這點(diǎn)初衷是好的,但出現(xiàn)錯(cuò)誤的可能性也很大,往往可能造成得不償失的結(jié)果。比如,假設(shè)全國(guó)小微企業(yè)的主營(yíng)業(yè)務(wù)收入利潤(rùn)率為5%,但是如果通過(guò)大數(shù)據(jù),根據(jù)企業(yè)的相關(guān)業(yè)務(wù)經(jīng)營(yíng)活動(dòng)記錄(可能參雜大量的錯(cuò)誤數(shù)據(jù))得出錯(cuò)誤的利潤(rùn)率為12%。試想,以此結(jié)果制定相應(yīng)的小微企業(yè)政策,就會(huì)出現(xiàn)很大的問(wèn)題:小微企業(yè)的盈利能力都這么強(qiáng)了,還需要出臺(tái)相關(guān)扶持小微企業(yè)的政策嗎?小微企業(yè)可能由于這個(gè)錯(cuò)誤的大數(shù)據(jù)分析結(jié)果,錯(cuò)過(guò)被扶持發(fā)展的良好機(jī)會(huì)。
筆者認(rèn)為,造成大數(shù)據(jù)出現(xiàn)數(shù)據(jù)質(zhì)量低下的問(wèn)題可能有以下幾方面的原因。
第一,大數(shù)據(jù)收集的無(wú)效信息過(guò)多。有學(xué)者指出,大數(shù)據(jù)是由90%的無(wú)效信息和10%的有效信息構(gòu)成的。雖然此說(shuō)法不一定非常準(zhǔn)確,但指出了大數(shù)據(jù)的不足。大數(shù)據(jù)收集的無(wú)效信息過(guò)多,大量的無(wú)效信息往往與有效信息混雜,對(duì)研究者的統(tǒng)計(jì)推斷產(chǎn)生嚴(yán)重干擾。因此,如何鑒別和測(cè)量大數(shù)據(jù)中無(wú)效信息的影響,有效凈化大數(shù)據(jù),是擺在深化大數(shù)據(jù)研究和應(yīng)用面前需要克服的重要問(wèn)題。第二,大數(shù)據(jù)收集數(shù)據(jù)的準(zhǔn)確度不夠。大數(shù)據(jù)收集數(shù)據(jù)的過(guò)程,與建立在對(duì)問(wèn)題的真實(shí)狀況進(jìn)行有效了解基礎(chǔ)上的抽樣調(diào)查方式完全不同。大數(shù)據(jù)收集的主要途徑是通過(guò)互聯(lián)網(wǎng)中的關(guān)鍵詞搜索量來(lái)進(jìn)行相關(guān)統(tǒng)計(jì)分析。但是在數(shù)據(jù)的實(shí)際收集過(guò)程中,研究的復(fù)雜問(wèn)題并不能僅用個(gè)別關(guān)鍵詞就能真實(shí)反映。通過(guò)互聯(lián)網(wǎng)關(guān)鍵詞進(jìn)行搜索所獲取的大數(shù)據(jù)信息,往往不能代表所研究問(wèn)題的全貌,甚至是大相徑庭。某種程度上說(shuō),這僅僅是所要研究問(wèn)題的一些相關(guān)的輔助信息,并不直接反映真實(shí)總體的確切信息。因而,在利用大數(shù)據(jù)進(jìn)行分析時(shí),數(shù)據(jù)收集的準(zhǔn)確度就變得非常重要。大數(shù)據(jù)分析非常強(qiáng)調(diào)效率,這往往導(dǎo)致準(zhǔn)確度不夠,因而如何平衡效率和準(zhǔn)確度這兩者之間的關(guān)系,是大數(shù)據(jù)分析中非常棘手的一個(gè)問(wèn)題。
3.大數(shù)據(jù)的高維問(wèn)題。大數(shù)據(jù)自身具有兩個(gè)特征:大維度數(shù)據(jù)集和數(shù)據(jù)稀疏性,這也是高維數(shù)據(jù)的特質(zhì)。描述某一現(xiàn)象的多變量數(shù)據(jù),即為高維數(shù)據(jù)。隨著數(shù)據(jù)維度的提高,大數(shù)據(jù)提供事物現(xiàn)象的相關(guān)信息更加豐富,但是高維數(shù)據(jù)的處理方法非常困難,可能造成“維度災(zāi)難”。大數(shù)據(jù)的高維度問(wèn)題,可以解釋為決策因素隨著數(shù)據(jù)的樣本單位數(shù)n呈現(xiàn)出更高量級(jí)引起的解的不確定性與經(jīng)典統(tǒng)計(jì)推斷失效的問(wèn)題。在傳統(tǒng)的經(jīng)典統(tǒng)計(jì)中,樣本單位數(shù)n遠(yuǎn)大于數(shù)據(jù)的維度p,而大數(shù)據(jù)分析中,數(shù)據(jù)的維度p,往往遠(yuǎn)大于樣本單位數(shù)n。在大數(shù)據(jù)的高維度研究中,稀疏性是研究的熱點(diǎn)問(wèn)題。何為數(shù)據(jù)稀疏性?簡(jiǎn)單來(lái)說(shuō),就是數(shù)據(jù)盡管變量很多,很多都是0。比如,國(guó)家安全非常重要,從而對(duì)南海的監(jiān)控范圍很大,但是如果關(guān)注的是南海上的艦隊(duì),那只是監(jiān)控范圍中很小的一部分,其他部分用數(shù)值表示就是0。
四、大數(shù)據(jù)時(shí)代下的抽樣調(diào)查
一些學(xué)者對(duì)大數(shù)據(jù)時(shí)代下的統(tǒng)計(jì)學(xué)方法進(jìn)行了相關(guān)討論[4-7]。雖然大數(shù)據(jù)發(fā)展到目前階段還存在一些有待解決的問(wèn)題,但筆者認(rèn)為對(duì)傳統(tǒng)的抽樣調(diào)查方式而言,這既是挑戰(zhàn)也是機(jī)遇。
(一)大數(shù)據(jù)對(duì)抽樣調(diào)查提出挑戰(zhàn)
第一,對(duì)《大數(shù)據(jù)時(shí)代》中強(qiáng)調(diào)的“樣本=總體”的觀點(diǎn)存在爭(zhēng)議,事實(shí)上不可能完全利用存在無(wú)效信息的全部大數(shù)據(jù)進(jìn)行分析,因此抽樣調(diào)查仍然大有可為。抽樣調(diào)查強(qiáng)調(diào)的是“窺一斑而知全豹”,從充分均勻的單位中選取一部分,就能有效推斷總體的情況。但是在大數(shù)據(jù)時(shí)代,面對(duì)源源不斷的數(shù)據(jù)流,如何科學(xué)地從中選取合適的樣本入樣,從而保證抽樣調(diào)查樣本的精度和統(tǒng)計(jì)分析的目的,這是大數(shù)據(jù)時(shí)代下抽樣調(diào)查面臨的最大問(wèn)題。
第二,大數(shù)據(jù)是動(dòng)態(tài)實(shí)時(shí)變化的,因而統(tǒng)計(jì)調(diào)查分析的目的可能也隨之不斷發(fā)生變動(dòng)。在前期獲得部分樣本的情況下,需要研究根據(jù)已知的樣本逐步調(diào)整調(diào)查的項(xiàng)目,從而獲取感興趣的抽樣對(duì)象,使得這些“熱門”樣本數(shù)據(jù)能夠適時(shí)入樣。耿直指出,建立數(shù)據(jù)流的緩沖區(qū),記錄新發(fā)生數(shù)據(jù)的頻數(shù),動(dòng)態(tài)調(diào)整不在樣本中的數(shù)據(jù)進(jìn)入樣本的概率,從而準(zhǔn)確地實(shí)時(shí)保證樣本對(duì)總體的代表性和推斷的準(zhǔn)確性[8]。另外,在大數(shù)據(jù)時(shí)代不應(yīng)拘泥于概率抽樣,可以嘗試引入非概率抽樣。比如針對(duì)大數(shù)據(jù)的動(dòng)態(tài)變化,可以適時(shí)引入新種子,采用“滾雪球”抽樣方法不斷擴(kuò)大樣本認(rèn)知的廣度和深度。當(dāng)然,也可以采用類似于“滾雪球”法的適應(yīng)性抽樣方法[9],嘗試動(dòng)態(tài)調(diào)整初次樣本的入樣規(guī)則和樣本外推的判斷準(zhǔn)則,更好地適應(yīng)大數(shù)據(jù)的特點(diǎn)。
第三,面對(duì)大數(shù)據(jù)動(dòng)態(tài)變化的特點(diǎn),傳統(tǒng)抽樣方法可能導(dǎo)致抽取樣本的偏態(tài)。比如,針對(duì)新出現(xiàn)的熱門案例是不常見案例的情況,如果運(yùn)用傳統(tǒng)抽樣方法,可能導(dǎo)致案例樣本單位入樣的數(shù)量過(guò)少而抽取了過(guò)多的非案例樣本。對(duì)此,需探索“基于事件”的抽樣方法,重點(diǎn)關(guān)注總體中較難獲取的數(shù)據(jù)部分。
(二)大數(shù)據(jù)時(shí)代下的抽樣調(diào)查充滿機(jī)遇
1.大數(shù)據(jù)拓寬了抽樣調(diào)查數(shù)據(jù)采集的渠道。大數(shù)據(jù)時(shí)代,數(shù)據(jù)采集不再局限于常規(guī)模式,許多數(shù)據(jù)獲取的渠道大大擴(kuò)展,一些傳統(tǒng)概念中無(wú)法獲取數(shù)據(jù)的渠道在大數(shù)據(jù)時(shí)代均有可能進(jìn)行有效的數(shù)據(jù)提取。首先,互聯(lián)網(wǎng)和手機(jī)移動(dòng)端是大數(shù)據(jù)時(shí)代下數(shù)據(jù)采集不可忽略的重要渠道;其次,數(shù)字化的行政商業(yè)記錄也成為數(shù)據(jù)采集的有效渠道;最后,現(xiàn)場(chǎng)數(shù)據(jù)采集的調(diào)查模式可能逐步將被超市收銀系統(tǒng)、銀行轉(zhuǎn)賬和支付記錄、網(wǎng)絡(luò)支付賬戶等渠道取代。大數(shù)據(jù)為抽樣調(diào)查數(shù)據(jù)采集提供了很大的便利,能夠降低調(diào)查成本,縮短調(diào)查時(shí)間。
2.大數(shù)據(jù)為抽樣框的及時(shí)更新維護(hù)提供了便利條件。抽樣調(diào)查在傳統(tǒng)條件限制下,面臨的最大問(wèn)題是抽樣框不完善的問(wèn)題,傳統(tǒng)的抽樣框更新和維護(hù)方法存在成本高、時(shí)效性差等缺點(diǎn)。大數(shù)據(jù)時(shí)代下抽樣框的更新維護(hù),實(shí)質(zhì)就是將實(shí)時(shí)變化的大數(shù)據(jù)信息進(jìn)行有效地采集和整合,轉(zhuǎn)化為抽樣框更新維護(hù)時(shí)可以有效利用的數(shù)據(jù)信息的方法。傅德印等學(xué)者提出利用異源異構(gòu)互聯(lián)網(wǎng)作為數(shù)據(jù)源,作為對(duì)抽樣框更新維護(hù)的一種補(bǔ)充方法[10]。
3.抽樣調(diào)查可作為彌補(bǔ)大數(shù)據(jù)因果關(guān)系分析的有效手段?;谝恍┲骺陀^條件,大數(shù)據(jù)僅重視相關(guān)關(guān)系而忽略因果關(guān)系。因果關(guān)系有別于一般的相關(guān)關(guān)系,它是提供更多數(shù)據(jù)信息的一種特殊相關(guān)關(guān)系。在大數(shù)據(jù)缺乏因果關(guān)系分析的條件下,可考慮將抽樣調(diào)查作為數(shù)據(jù)挖掘、探測(cè)數(shù)據(jù)因果關(guān)系的方法工具,從混雜的大數(shù)據(jù)中探尋規(guī)律和關(guān)系,選取具有代表性的樣本對(duì)大數(shù)據(jù)進(jìn)行深入分析,能夠在相關(guān)分析的基礎(chǔ)上較好地分析大數(shù)據(jù)的因果關(guān)系,深度研究事物之間聯(lián)系的本質(zhì)原因,從而做到“知其然也知其所以然”。
4.抽樣調(diào)查可作為大數(shù)據(jù)分析的對(duì)照基礎(chǔ)與驗(yàn)證依據(jù)。對(duì)于從混雜大數(shù)據(jù)中得到的結(jié)論,抽樣調(diào)查可作為大數(shù)據(jù)分析結(jié)果的對(duì)照和驗(yàn)證工具。在研究數(shù)據(jù)質(zhì)量、判斷數(shù)據(jù)結(jié)果可靠程度、探討數(shù)據(jù)之間的關(guān)系、分析數(shù)據(jù)類型、進(jìn)行數(shù)據(jù)降維和選擇數(shù)據(jù)的分析模式等方面,抽樣調(diào)查效果非常明顯[11]。抽樣調(diào)查可以有效驗(yàn)證大數(shù)據(jù)推斷結(jié)論的可靠程度,從而及時(shí)發(fā)現(xiàn)問(wèn)題、分析問(wèn)題并解決問(wèn)題,避免大數(shù)據(jù)可能出現(xiàn)的錯(cuò)誤推斷結(jié)論所造成的不利影響。
五、結(jié) 論
大數(shù)據(jù)時(shí)代來(lái)臨,大量數(shù)據(jù)信息源源不斷,“樣本=總體”的概念對(duì)傳統(tǒng)抽樣調(diào)查提出了嚴(yán)峻的挑戰(zhàn)。本文在分析傳統(tǒng)抽樣調(diào)查局限性和大數(shù)據(jù)自身問(wèn)題的基礎(chǔ)上,詳細(xì)分析了大數(shù)據(jù)時(shí)代下抽樣調(diào)查面臨的挑戰(zhàn)和機(jī)遇,說(shuō)明大數(shù)據(jù)時(shí)代不再需要抽樣調(diào)查的觀點(diǎn)過(guò)于片面,大數(shù)據(jù)無(wú)法替代抽樣調(diào)查的獨(dú)特作用,抽樣調(diào)查仍然可以大有所為。大數(shù)據(jù)有大數(shù)據(jù)的優(yōu)勢(shì),小數(shù)據(jù)的抽樣調(diào)查也有其獨(dú)特的優(yōu)點(diǎn),在大數(shù)據(jù)時(shí)代兩者缺一不可,應(yīng)該將大數(shù)據(jù)分析與抽樣調(diào)查分析相結(jié)合,從而能夠取得更加令人滿意的結(jié)果。
參考文獻(xiàn):
[1]維克托·邁爾-舍恩伯格,肯尼思·庫(kù)克耶.大數(shù)據(jù)時(shí)代——生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州: 浙江人民出版社,2013.
[2]朱建平,章貴軍,劉曉葳. 大數(shù)據(jù)時(shí)代下數(shù)據(jù)分析理念的辨析[J]. 統(tǒng)計(jì)研究,2014,31(2).
[3]蔣萍,馬雪嬌. 大數(shù)據(jù)背景下中國(guó)時(shí)間利用調(diào)查方案的改革與完善——基于中、日、美時(shí)間利用調(diào)查方案的比較[J]. 統(tǒng)計(jì)研究,2014,31(8).
[4]邱東. 大數(shù)據(jù)時(shí)代對(duì)統(tǒng)計(jì)學(xué)的挑戰(zhàn)[J]. 統(tǒng)計(jì)研究,2014,31(1).
[5]李金昌. 大數(shù)據(jù)與統(tǒng)計(jì)新思維[J]. 統(tǒng)計(jì)研究,2014,31(1).
[6]李金昌. 從政治算術(shù)到大數(shù)據(jù)分析[J]. 統(tǒng)計(jì)研究,2014,31(11).
[7]戴明鋒,劉展. 大數(shù)據(jù)理解誤區(qū)解讀[J]. 中國(guó)衛(wèi)生信息管理雜志,2015,12(1).
[8]耿直. 大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué)面臨的機(jī)遇與挑戰(zhàn)[J]. 統(tǒng)計(jì)研究,2014,31(1).
[9]Thompson S K. Adaptive Cluster Sampling [J]. Journal of the American Statistical Association,1990,85(412).
[10]傅德印,黃恒君,陶然. 大數(shù)據(jù)視角下名錄庫(kù)更新維護(hù)——基于互聯(lián)網(wǎng)異源異構(gòu)數(shù)據(jù)整合的探討[J]. 統(tǒng)計(jì)研究,2015(1).
[11]劉軍華.大數(shù)據(jù)視野下統(tǒng)計(jì)數(shù)據(jù)質(zhì)量演變的信息回歸、分布與趨勢(shì)[J].統(tǒng)計(jì)與信息論壇,2015(9).
(責(zé)任編輯:李勤)
Challenges and Opportunities of Sampling Survey in the Age of Big Data
WANG Ying1,2a, WAN Shu-chen2b,3
(1.Statistical Learning Center, Open University of China, Beijing 100039, China;a.Statistical Education and Training Center, b.Department of Industrial Statistics,2.National Bureau of Statistics of China,Beijing 100073, China;3.School of Statistics, Renmin University of China, Beijing 100872, China;
Abstract:As a mature sub-discipline of statistics, sampling survey has always been playing important roles in sampling statistics. Yet, under the background of big data, it has gradually revealed some drawbacks. This paper analyses the disadvantages of sampling survey and big data, and makes detailed analysis to the challenges and opportunities of sampling survey in the age of big data. Researches indicate that under certain circumstances, the special roles of sampling survey can't be fully replaced by big data, and sampling survey will be used for a long time to come. Despite that, in the age of big data, big data shall be fully combined with sampling survey to get better effects of data analysis and give full play to their different advantages.
Key words:big data; sampling survey; challenges; opportunities
收稿日期:2015-11-18
作者簡(jiǎn)介:王瑩,女,北京人,碩士,講師,研究方向:統(tǒng)計(jì)分析與統(tǒng)計(jì)教育;
中圖分類號(hào):C811∶C829. 2
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1007-3116(2016)06-0033-04
萬(wàn)舒晨,男,江蘇揚(yáng)州人,博士生,高級(jí)統(tǒng)計(jì)師,研究方向:抽樣調(diào)查理論與方法,大數(shù)據(jù)分析。
【統(tǒng)計(jì)理論與方法】