王杰
[摘 要] 當(dāng)今社會(huì)數(shù)據(jù)量正在以爆炸方式迅猛增長(zhǎng),數(shù)據(jù)的表示形式千變?nèi)f化,數(shù)據(jù)頻率中的高頻數(shù)據(jù)隨時(shí)產(chǎn)生,這標(biāo)志著已經(jīng)進(jìn)入了大數(shù)據(jù)時(shí)代。大數(shù)據(jù)時(shí)代的到來(lái)對(duì)數(shù)據(jù)存儲(chǔ)、管理和從數(shù)據(jù)中提取有價(jià)值的信息提出了挑戰(zhàn)。統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量是有效地分析和利用大數(shù)據(jù)的前提,它是大數(shù)據(jù)產(chǎn)生跨區(qū)域、跨行業(yè)、價(jià)值的保障。為此,梳理大數(shù)據(jù)的基本特征,討論大數(shù)據(jù)時(shí)代下保證統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的必要性和方法成為當(dāng)務(wù)之急。
[關(guān)鍵詞] 大數(shù)據(jù)時(shí)代;數(shù)據(jù)質(zhì)量;信息孤島
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2016. 23. 093
[中圖分類號(hào)] TP311 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 1673 - 0194(2016)23- 0178- 02
1 大數(shù)據(jù)與大數(shù)據(jù)時(shí)代
近年來(lái),隨著英國(guó)維克托·邁爾-舍恩伯格的《大數(shù)據(jù)時(shí)代》和美國(guó)Bill Franks的《駕馭大數(shù)據(jù)》等著作的出版,大數(shù)據(jù)引起了社會(huì)的廣泛關(guān)注,人們已經(jīng)意識(shí)到大數(shù)據(jù)時(shí)代正在呼嘯而至。大數(shù)據(jù)幾乎對(duì)每個(gè)領(lǐng)域都會(huì)產(chǎn)生影響,所以限于不同領(lǐng)域各自的特點(diǎn),對(duì)大數(shù)據(jù)的表述也不同,但是一個(gè)廣泛的觀點(diǎn)是:“大數(shù)據(jù)是一個(gè)數(shù)據(jù)集合,這個(gè)數(shù)據(jù)集合是無(wú)法在規(guī)定時(shí)間里用常規(guī)軟件工具對(duì)它進(jìn)行搜集、整理和分析的?!?/p>
2 大數(shù)據(jù)時(shí)代對(duì)統(tǒng)計(jì)數(shù)據(jù)的挑戰(zhàn)
大數(shù)據(jù)時(shí)代需要既講機(jī)遇也講挑戰(zhàn)。各個(gè)應(yīng)用領(lǐng)域的不斷變化使得統(tǒng)計(jì)學(xué)成為一門(mén)難以成熟的學(xué)科。所以在數(shù)據(jù)分析的世界里,統(tǒng)計(jì)學(xué)發(fā)展的終身動(dòng)力是不斷提高駕馭數(shù)據(jù)的能力。大數(shù)據(jù)是推斷數(shù)據(jù),不是原始數(shù)據(jù),所以會(huì)存在抽樣偏倚、隨機(jī)的和非隨機(jī)的誤差。數(shù)據(jù)包括原始數(shù)據(jù)和推斷的數(shù)據(jù)。數(shù)據(jù)的認(rèn)知范圍有限,所以數(shù)據(jù)可解釋的范圍就有限。模型是對(duì)數(shù)據(jù)信息的匯總,由于數(shù)據(jù)信息有限,所以模型可解釋的程度也有限。超出模型可解釋的程度,就是對(duì)模型進(jìn)行一系列的假設(shè)。大數(shù)據(jù)方法研究需要多學(xué)科的聯(lián)合,統(tǒng)計(jì)學(xué)家需要關(guān)注實(shí)時(shí)決策和計(jì)算機(jī)資源,計(jì)算機(jī)學(xué)家需要了解算法和統(tǒng)計(jì)推斷的復(fù)雜性。
3 大數(shù)據(jù)時(shí)代對(duì)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的影響
3.1 大數(shù)據(jù)時(shí)代對(duì)數(shù)據(jù)時(shí)效性的影響
庫(kù)克耶和舍恩伯格認(rèn)為:大數(shù)據(jù)不用抽樣調(diào)查的方法,而用所有數(shù)據(jù)的方法。數(shù)據(jù)科學(xué)家甚至提出“樣本=總體”,這或許意味著統(tǒng)計(jì)工作重心要轉(zhuǎn)移。舍恩伯格和庫(kù)克耶認(rèn)為抽樣調(diào)查有很多自身的不足:一是樣本的隨機(jī)性很難實(shí)現(xiàn);二是不適合考察有子類別的情況;三是采樣忽略了細(xì)節(jié)的考察,而大數(shù)據(jù)分析則可以彌補(bǔ)抽樣調(diào)查的這些不足之處。如果說(shuō)之前統(tǒng)計(jì)工作的重點(diǎn)在于數(shù)據(jù)搜集和整理,那么大數(shù)據(jù)時(shí)代統(tǒng)計(jì)工作的重心就是如何搜集整理分析有用的信息。這樣一來(lái),已經(jīng)得出的數(shù)據(jù)結(jié)論可能不具有這個(gè)時(shí)代的特點(diǎn),即失去了時(shí)效性。
3.2 大數(shù)據(jù)時(shí)代對(duì)數(shù)據(jù)真實(shí)性的影響
大數(shù)據(jù)時(shí)代除了對(duì)數(shù)據(jù)的時(shí)效性有影響之外,對(duì)數(shù)據(jù)的真實(shí)性也有影響。由此,當(dāng)通過(guò)網(wǎng)絡(luò)搜集數(shù)據(jù)時(shí),首先需要考慮的是,數(shù)據(jù)是否是由自動(dòng)化算法系統(tǒng)產(chǎn)生?如果是,究竟有多少?以淘寶網(wǎng)為例,大量的虛假評(píng)論已經(jīng)影響了信息的真實(shí)。
4 大數(shù)據(jù)時(shí)代統(tǒng)計(jì)工作的應(yīng)對(duì)之策
大多數(shù)的研究指出,當(dāng)前統(tǒng)計(jì)方面存在的問(wèn)題在于業(yè)務(wù)部門(mén)沒(méi)有利用好大數(shù)據(jù)導(dǎo)致數(shù)據(jù)資源缺乏;企業(yè)內(nèi)部信息孤島導(dǎo)致數(shù)據(jù)的有效信息無(wú)法充分利用;工作人員數(shù)據(jù)分析能力差導(dǎo)致大數(shù)據(jù)時(shí)代下統(tǒng)計(jì)工作很難進(jìn)行。
4.1 國(guó)家應(yīng)對(duì)之策
在大數(shù)據(jù)時(shí)代下,要保障統(tǒng)計(jì)數(shù)據(jù)質(zhì)量,國(guó)家應(yīng)當(dāng)做到以下幾點(diǎn):
(1)盡快改革當(dāng)前統(tǒng)計(jì)管理體制的制約,保證統(tǒng)計(jì)獨(dú)立調(diào)查、獨(dú)立報(bào)告、獨(dú)立監(jiān)督的職權(quán)不受侵犯。在大數(shù)據(jù)時(shí)代,統(tǒng)計(jì)體制改革要與時(shí)俱進(jìn),盡快建立符合我國(guó)國(guó)情的統(tǒng)計(jì)管理體制。
(2)充分發(fā)揮黨委政府的主導(dǎo)作用,賦予各其統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的主體責(zé)任。要發(fā)揮各級(jí)地方黨委政府對(duì)本區(qū)域統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的主體責(zé)任,將統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的好壞作為考核一個(gè)地區(qū)領(lǐng)導(dǎo)業(yè)績(jī)的主要方面之一。
(3)盡快建立引導(dǎo)一個(gè)提速增效的統(tǒng)計(jì)考核評(píng)價(jià)指標(biāo)體系,完善黨政領(lǐng)導(dǎo)的績(jī)效考評(píng)機(jī)制。
4.2 企業(yè)應(yīng)對(duì)之策
企業(yè)應(yīng)做到以下幾點(diǎn):信息以數(shù)據(jù)形式呈現(xiàn),強(qiáng)化建設(shè)數(shù)據(jù)標(biāo)準(zhǔn);融合結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù);推廣應(yīng)用大數(shù)據(jù),促進(jìn)使用信息資源;重視數(shù)據(jù)的安全管理。
4.3 個(gè)人應(yīng)對(duì)之策
統(tǒng)計(jì)學(xué)家必須積極學(xué)習(xí)新事物,適應(yīng)大數(shù)據(jù)環(huán)境,拓展統(tǒng)計(jì)學(xué)的應(yīng)用領(lǐng)域,創(chuàng)造出新的統(tǒng)計(jì)方法。大數(shù)據(jù)時(shí)代帶給我們的挑戰(zhàn)與機(jī)遇并存。
主要參考文獻(xiàn)
[1]朱建平,章貴軍,劉曉葳.大數(shù)據(jù)時(shí)代下數(shù)據(jù)分析理念的辨析[J].統(tǒng)計(jì)研究,2014(2).
[2]鄭京平,王眾全.官方統(tǒng)計(jì)應(yīng)如何面對(duì)BigData挑戰(zhàn)[J].統(tǒng)計(jì)研究,2012(12).
[3][英]維克托·邁爾-舍恩伯格.大數(shù)據(jù)時(shí)代——生活工作與思維的大變革[M].周濤,譯.杭州:浙江人民出版社,2013.
[4]Brian Hopkins,Boris Evelson.Expand Your Digital Horizon with Bigdata[N/OL].www.asterdata.com,2011-09-30.
[5]邱東.大數(shù)據(jù)時(shí)代對(duì)統(tǒng)計(jì)學(xué)的挑戰(zhàn)[J].統(tǒng)計(jì)研究,2014(1).
[6]耿直.大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué)面臨的機(jī)遇與挑戰(zhàn)[J].統(tǒng)計(jì)研究,2014(1).
[7]李金昌.大數(shù)據(jù)與統(tǒng)計(jì)新思維[J].統(tǒng)計(jì)研究,2014(1).