祝君儀
[摘要]闡述了大數(shù)據(jù)時(shí)代的統(tǒng)計(jì)數(shù)據(jù)特征和質(zhì)量準(zhǔn)確性需求,分析了包括邏輯規(guī)則檢驗(yàn)、核算數(shù)據(jù)重估、計(jì)量模型分析、統(tǒng)計(jì)分布驗(yàn)證、調(diào)查偏差評(píng)估、多維評(píng)估延伸六種評(píng)估方法的概念特征以及適用性。為了適應(yīng)大數(shù)據(jù)時(shí)代的發(fā)展需求,需要加強(qiáng)對(duì)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量評(píng)估方法的研究力度,進(jìn)一步完善評(píng)估體系,實(shí)現(xiàn)中國(guó)統(tǒng)計(jì)研究的新變革。
[關(guān)鍵詞]大數(shù)據(jù);統(tǒng)計(jì)數(shù)據(jù);準(zhǔn)確性;評(píng)估方法;適用性
[DOI]1013939/jcnkizgsc201529041
1大數(shù)據(jù)的出現(xiàn)與應(yīng)對(duì)
1.1大數(shù)據(jù)的概念特征
大數(shù)據(jù)的概念從字面上可以理解為龐大的數(shù)據(jù)集合,當(dāng)然,如今的數(shù)據(jù)早已不局限于單一的數(shù)值變化,而是在數(shù)字網(wǎng)絡(luò)概念中彼此交疊冪次增長(zhǎng)的非結(jié)構(gòu)化信息統(tǒng)籌。根據(jù)IDC報(bào)告,我們可知全球數(shù)據(jù)量的驚人變化,2009年80萬(wàn)PB,2010年增幅達(dá)50%,達(dá)到了120萬(wàn)PB,至2011年躍至190萬(wàn)PB,激增的數(shù)據(jù)量印證著大數(shù)據(jù)時(shí)代的到來(lái),見(jiàn)下圖。
2009—2011年的數(shù)據(jù)量變化柱狀圖
雖然對(duì)于大數(shù)據(jù)還沒(méi)有約定熟成的理論定義,但是在本文中我們不妨直觀地將其理解為涵蓋數(shù)值數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),并對(duì)其進(jìn)行分析整合的海量數(shù)據(jù)集。
大數(shù)據(jù)的幾項(xiàng)具有辨識(shí)度的特征,首先是數(shù)據(jù)集在體量上應(yīng)超越TB數(shù)量級(jí),其次是數(shù)據(jù)信息應(yīng)多樣化,有數(shù)值數(shù)據(jù),也有像是圖片、視頻、音頻等非結(jié)構(gòu)化數(shù)據(jù),再次是數(shù)據(jù)的產(chǎn)生、采集和處理應(yīng)快速及時(shí),最后是數(shù)據(jù)集整合的數(shù)據(jù)信息應(yīng)具有全面性和有效性。
1.2大數(shù)據(jù)對(duì)統(tǒng)計(jì)研究的挑戰(zhàn)
大數(shù)據(jù)的龐大數(shù)據(jù)體量,快速增長(zhǎng)處理需求,多樣化全面性數(shù)據(jù)整合等現(xiàn)實(shí)情況都讓統(tǒng)計(jì)研究面臨著巨大挑戰(zhàn)。傳統(tǒng)的單一維度的樣本抽查的研究分析模式已經(jīng)不足以保證統(tǒng)計(jì)數(shù)據(jù)的準(zhǔn)確性。因此,我們不僅要擴(kuò)大研究分析的樣本量保證統(tǒng)計(jì)結(jié)果的客觀性和真實(shí)性,還要通過(guò)增加反饋信息的呈現(xiàn)路徑,激發(fā)目標(biāo)群體的新型互動(dòng)模式,將文字、圖片、視頻、音頻等都納入數(shù)據(jù)庫(kù),從而增加數(shù)據(jù)維度,獲取高品質(zhì)海量數(shù)據(jù),實(shí)現(xiàn)統(tǒng)計(jì)研究新變革。
2大數(shù)據(jù)時(shí)代背景下統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的界定
2.1統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的含義
統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的核心在于其準(zhǔn)確性,在大數(shù)據(jù)時(shí)代背景下,統(tǒng)計(jì)數(shù)據(jù)質(zhì)量還需考量統(tǒng)計(jì)目的,即滿足統(tǒng)計(jì)目的的具有準(zhǔn)確性的統(tǒng)計(jì)數(shù)據(jù)呈現(xiàn)。
2.2統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的特征
根據(jù)上述統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的含義,我們可以提煉出有關(guān)大數(shù)據(jù)時(shí)代背景下統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的兩點(diǎn)特征。第一,是針對(duì)數(shù)據(jù)內(nèi)容,應(yīng)在客戶接受范圍內(nèi)控制誤差,保證數(shù)據(jù)采集處理的快速及時(shí),并符合統(tǒng)計(jì)目的。第二,是針對(duì)數(shù)據(jù)呈現(xiàn),要有規(guī)范性的闡述,保證統(tǒng)計(jì)數(shù)據(jù)的口徑計(jì)算等采用相對(duì)一致的方式,表達(dá)完整,直觀易懂,盡量避免歧義冗長(zhǎng)。
3各類統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的評(píng)估方法及適用性分析
3.1邏輯規(guī)則檢驗(yàn)
邏輯規(guī)則檢驗(yàn)法,是宏觀的針對(duì)總量數(shù)據(jù)的一種評(píng)估方法,即根據(jù)統(tǒng)計(jì)數(shù)據(jù)中各個(gè)指標(biāo)之間相互作用,彼此粘連的內(nèi)在邏輯關(guān)系,來(lái)衡量測(cè)試數(shù)據(jù)的真實(shí)性和可信度。
由于這種邏輯規(guī)則檢驗(yàn)法是基于傳統(tǒng)的統(tǒng)計(jì)理論,且可操作性強(qiáng),易被客戶理解接受,所以在實(shí)際統(tǒng)計(jì)數(shù)據(jù)評(píng)估中應(yīng)用廣泛,常被用于政府統(tǒng)計(jì)部門(mén)的統(tǒng)計(jì)工作。但是,這種方法存在明顯漏洞,因?yàn)槠錂z驗(yàn)規(guī)則過(guò)于單一,只要不出現(xiàn)重大邏輯沖突則推論出數(shù)據(jù)可信,加上即使出現(xiàn)了邏輯矛盾,僅通過(guò)比較無(wú)法獲知問(wèn)題所在,無(wú)法確定問(wèn)題數(shù)據(jù)的準(zhǔn)確范圍無(wú)法規(guī)避結(jié)果的多重性,使得結(jié)果相對(duì)粗略草率。
根據(jù)以上分析判斷邏輯規(guī)則檢驗(yàn)法的適用性,我們可以將其作為初步評(píng)估統(tǒng)計(jì)數(shù)據(jù)的方法,在宏觀經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)中以它為基礎(chǔ),結(jié)合其他方法,進(jìn)行復(fù)式檢驗(yàn),能夠更好地得出統(tǒng)計(jì)結(jié)論,獲得民眾理解和認(rèn)可。
3.2核算數(shù)據(jù)重估
核算數(shù)據(jù)重估法,是一種對(duì)于邏輯規(guī)則檢驗(yàn)法延伸拓展的評(píng)估方法,即基于待評(píng)估數(shù)據(jù)的核算體系重新設(shè)定的統(tǒng)計(jì)指標(biāo),從而重新估算統(tǒng)計(jì)數(shù)據(jù),然后對(duì)比現(xiàn)實(shí)數(shù)據(jù),實(shí)現(xiàn)對(duì)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的評(píng)估。這種評(píng)估方法的基本思路是一種在重新計(jì)量中的重復(fù)調(diào)查,擴(kuò)充針對(duì)性的資料,將理想數(shù)據(jù)與實(shí)際數(shù)據(jù)對(duì)比分析,找出問(wèn)題所在。
這種重估統(tǒng)計(jì)指標(biāo)的評(píng)估方法與邏輯規(guī)則檢驗(yàn)一樣是在假設(shè)基礎(chǔ)核算構(gòu)成準(zhǔn)確性的前提下進(jìn)行的,而重設(shè)的統(tǒng)計(jì)指標(biāo)與現(xiàn)實(shí)統(tǒng)計(jì)的指標(biāo)方式仍具有差異性,因此其對(duì)比評(píng)估的結(jié)果只能作為一種參考性依據(jù),能找到問(wèn)題數(shù)據(jù)的大致方向但無(wú)法呈現(xiàn)具體錯(cuò)誤情況。它尤其適用于判斷GDP的增速準(zhǔn)確性。
3.3計(jì)量模型分析
計(jì)量模型分析法,也是一種針對(duì)總量數(shù)據(jù)的評(píng)估方法,即在難以確定統(tǒng)計(jì)數(shù)據(jù)確切邏輯關(guān)系的情況下,建立模型評(píng)估,檢查是否出現(xiàn)差異情況。這種方法的關(guān)鍵是建立模型,尋找異常點(diǎn),在操作過(guò)程中需要先根據(jù)統(tǒng)計(jì)理論和統(tǒng)計(jì)目的建立相應(yīng)的計(jì)量模型,再將樣本數(shù)據(jù)進(jìn)行相應(yīng)估算檢查,反復(fù)調(diào)整,多次代入評(píng)估,最終得出結(jié)論。
3.4統(tǒng)計(jì)分布驗(yàn)證
統(tǒng)計(jì)分布驗(yàn)證法,是針對(duì)分類數(shù)據(jù)的一種評(píng)估方法,即在掌握了個(gè)體數(shù)據(jù)和分類匯總數(shù)據(jù)之后,基于已知的分布特性,驗(yàn)證理論性分布情況與實(shí)際統(tǒng)計(jì)數(shù)據(jù)分布情況是否相悖,進(jìn)而得出評(píng)估結(jié)果。
這種評(píng)估方法的檢驗(yàn)過(guò)程首先是通過(guò)理論分析和調(diào)查研究確定統(tǒng)計(jì)分布的特性,找到個(gè)體數(shù)據(jù)與匯總數(shù)據(jù)的分布形態(tài),然后對(duì)比理論數(shù)據(jù)與待評(píng)估數(shù)據(jù)的分布是否一致,若是發(fā)現(xiàn)異常點(diǎn)則需要進(jìn)一步驗(yàn)證分析其具體誤差值情況,從而判斷統(tǒng)計(jì)數(shù)據(jù)質(zhì)量。這種評(píng)估方法的缺陷在于確定統(tǒng)計(jì)數(shù)據(jù)的分布特性,這是評(píng)估的前提,但也是在實(shí)際操作中最難攻克的關(guān)鍵。
3.5調(diào)查偏差評(píng)估
調(diào)查偏差評(píng)估法,是一種事后調(diào)查分析的方法,即通過(guò)對(duì)統(tǒng)計(jì)數(shù)據(jù)中調(diào)查偏差的評(píng)估,約束調(diào)查條件進(jìn)行重復(fù)調(diào)查,以期獲得最真實(shí)的統(tǒng)計(jì)數(shù)據(jù)。這種方法的開(kāi)展是在預(yù)設(shè)存在可得的真實(shí)統(tǒng)計(jì)數(shù)據(jù)前提下,那么這個(gè)關(guān)鍵點(diǎn)就成為了該評(píng)估方法最大的痛點(diǎn)和爭(zhēng)議點(diǎn),因?yàn)槭欠翊嬖诶硐胝{(diào)查條件下可得的真實(shí)統(tǒng)計(jì)數(shù)據(jù)是未知的,換言之就是假想的,沒(méi)有科學(xué)依據(jù)的。加之在實(shí)際操作中,要進(jìn)行有效的調(diào)查條件控制涉及誤差參數(shù)的確定,計(jì)量模型的構(gòu)建,同時(shí)在區(qū)域范圍內(nèi)實(shí)現(xiàn)多次重復(fù)調(diào)查的難度也很大,因此,調(diào)查偏差評(píng)估的實(shí)際應(yīng)用有限,當(dāng)下僅適用于像人口普查這類的地區(qū)性普查統(tǒng)計(jì)數(shù)據(jù)的分析。
3.6多維評(píng)估延伸
由于大數(shù)據(jù)時(shí)代統(tǒng)計(jì)數(shù)據(jù)內(nèi)容的多樣性,多維化,評(píng)估方法的多維延伸也成為必然。所謂多維評(píng)估法目前涉及四種的評(píng)估路徑,即多級(jí)量度、指標(biāo)檢測(cè)、用戶需求,以及統(tǒng)籌綜合。雖然由于長(zhǎng)期以來(lái)對(duì)數(shù)值統(tǒng)計(jì)分析的側(cè)重,多維評(píng)估還在發(fā)展階段,尚不成熟,但是隨著統(tǒng)計(jì)數(shù)據(jù)的非結(jié)構(gòu)化特性日益彰顯和人們對(duì)于統(tǒng)計(jì)數(shù)據(jù)質(zhì)量要求的日益提升,多維化評(píng)估將逐漸受到重視,得到完善應(yīng)用。
4結(jié)論
本文分析了包括邏輯規(guī)則檢驗(yàn)、核算數(shù)據(jù)重估、計(jì)量模型分析、統(tǒng)計(jì)分布驗(yàn)證、調(diào)查偏差評(píng)估、多維評(píng)估延伸在內(nèi)的六種評(píng)估方法的概念特征,以及適用性。其中前三種都是針對(duì)統(tǒng)計(jì)總量的評(píng)估方式,而后幾種則是針對(duì)分類數(shù)據(jù)的評(píng)估方法,涉及充分的信息采集,分布特性的確定,初始調(diào)查條件的確定,以及多維度的延伸。這些假定的前提與實(shí)際數(shù)據(jù)始終存在偏差,因此在獲得真實(shí)數(shù)據(jù)上還是屬于理想化推測(cè),始終存在爭(zhēng)議點(diǎn),而且在實(shí)際操作中具有執(zhí)行困難。
通過(guò)分析,我們不難發(fā)現(xiàn)目前各個(gè)對(duì)于統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的評(píng)估方法仍存在較大的缺陷,這直接影響到我國(guó)統(tǒng)計(jì)事業(yè)的發(fā)展和與之密切相關(guān)的經(jīng)濟(jì)社會(huì)的總體發(fā)展。因此,我們需要加強(qiáng)對(duì)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量評(píng)估方法的研究力度,進(jìn)一步完善評(píng)估體系,適應(yīng)大數(shù)據(jù)時(shí)代的發(fā)展需求,用多維度復(fù)合型的研究成果保證統(tǒng)計(jì)結(jié)果的客觀性和真實(shí)性,還要通過(guò)增加反饋信息的呈現(xiàn)路徑,激發(fā)目標(biāo)群體的新型互動(dòng)模式,實(shí)現(xiàn)中國(guó)統(tǒng)計(jì)研究的新變革。
參考文獻(xiàn):
[1]王華,金勇進(jìn)統(tǒng)計(jì)數(shù)據(jù)準(zhǔn)確性評(píng)估:方法分類及適用性分析[J].統(tǒng)計(jì)研究,2009(1)
[2]許滌龍,葉少波統(tǒng)計(jì)數(shù)據(jù)質(zhì)量評(píng)估方法研究述評(píng)[J].統(tǒng)計(jì)與信息論壇,2011(7)
[3]程開(kāi)明,莊燕杰大數(shù)據(jù)背景下的統(tǒng)計(jì)[J].統(tǒng)計(jì)研究,2014(11)
[4]崔路云基于大數(shù)據(jù)時(shí)代背景對(duì)統(tǒng)計(jì)學(xué)教育的幾點(diǎn)思考[D].北京:首都經(jīng)濟(jì)貿(mào)易大學(xué),2013.
[5]劉春燕論大數(shù)據(jù)時(shí)代的統(tǒng)計(jì)制度與方法改革[J].蕪湖職業(yè)技術(shù)學(xué)院學(xué)報(bào),2013(11)
[6]鄧麗華淺析統(tǒng)計(jì)數(shù)據(jù)質(zhì)量評(píng)估方法[J].中國(guó)市場(chǎng),2013(10)
[7]于云飛我國(guó)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量問(wèn)題研究[J].中國(guó)市場(chǎng),2012(10)