李增
慈溪市觀海衛(wèi)鎮(zhèn)人民政府 浙江慈溪 315300
大數(shù)據(jù)是互聯(lián)網(wǎng)時(shí)代快速發(fā)展下的階段性成果之一,大到國(guó)家戰(zhàn)略、小到民間商業(yè),尤其是電子商務(wù)等領(lǐng)域早已率先應(yīng)用大數(shù)據(jù)技術(shù)。鑒于此,以數(shù)據(jù)為研究對(duì)象、具有專業(yè)嚴(yán)謹(jǐn)特點(diǎn)的統(tǒng)計(jì)學(xué),應(yīng)該積極面對(duì)大數(shù)據(jù)潮流,促進(jìn)其長(zhǎng)足發(fā)展。
大數(shù)據(jù)的內(nèi)涵不僅包含在數(shù)據(jù)內(nèi)容上,還體現(xiàn)在大上面,因此大數(shù)據(jù)的內(nèi)涵與傳統(tǒng)的數(shù)據(jù)不同,不僅在數(shù)據(jù)的記錄和存儲(chǔ)比以往的數(shù)據(jù)空間大,同時(shí)也是運(yùn)用現(xiàn)代信息技術(shù),促使記錄數(shù)據(jù)的手段不斷更新,能記錄更多的數(shù)據(jù),幫助企業(yè)或者有需要的人們,在社會(huì)不斷發(fā)展的今天,人們需要的則是隨時(shí)可以記錄、記錄類型多樣的數(shù)據(jù)體系,因此在統(tǒng)計(jì)分析的層面看,大數(shù)據(jù)就比以往的傳統(tǒng)數(shù)據(jù)的利用價(jià)值更多,更大,因?yàn)閭鹘y(tǒng)的數(shù)據(jù)屬于樣本數(shù)據(jù),記錄的方式和容量是有限的,而大數(shù)據(jù)不同,它是可以多角度,全方位的記錄的數(shù)據(jù),而大數(shù)據(jù)對(duì)于做數(shù)據(jù)研究還能夠提供依據(jù),具有動(dòng)態(tài)性,因此大數(shù)據(jù)是一切人們可以利用記錄的符號(hào)的組合,也是具有無(wú)限的空間的,滿足多種記錄的要求的數(shù)據(jù)庫(kù)。
大數(shù)據(jù)相比于傳統(tǒng)數(shù)據(jù),在類型、量化方式和數(shù)據(jù)來(lái)源上都發(fā)成了巨大變化。傳統(tǒng)數(shù)據(jù)收集目的性強(qiáng),可以確定數(shù)據(jù)來(lái)源,即數(shù)據(jù)提供者的信息和身份,在數(shù)據(jù)分析后還可以進(jìn)行修改校對(duì)。而大數(shù)據(jù)很難從微觀層面追溯來(lái)源,因?yàn)榇髷?shù)據(jù)基本來(lái)源于互聯(lián)網(wǎng),數(shù)據(jù)產(chǎn)生并不以收集為目的。傳統(tǒng)數(shù)據(jù)的數(shù)據(jù)類型具有一定的結(jié)構(gòu)性,基本上是定量和定性數(shù)據(jù),標(biāo)準(zhǔn)和格式也是固定的,最終通過(guò)統(tǒng)計(jì)圖標(biāo)等方式呈現(xiàn)出來(lái)。而大數(shù)據(jù)沒有結(jié)構(gòu)性或者具有半結(jié)構(gòu)性特點(diǎn),包括一切可以記錄的符號(hào)。傳統(tǒng)數(shù)據(jù)在數(shù)據(jù)量化方面來(lái)說(shuō)是非常成熟的。量化之后,數(shù)據(jù)可以直接用來(lái)做分析和計(jì)算。而大數(shù)據(jù)在數(shù)據(jù)量化方面則面臨一個(gè)巨大的挑戰(zhàn)。因?yàn)榇髷?shù)據(jù)背景下,不同系統(tǒng)對(duì)數(shù)據(jù)的分析都是不同的。因此,大數(shù)據(jù)的非結(jié)構(gòu)性特征改變了傳統(tǒng)的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)量化方式[1]。
傳統(tǒng)思維下的收集數(shù)據(jù)是以目的為導(dǎo)向進(jìn)行針對(duì)性的收集,但大數(shù)據(jù)的到來(lái)使得數(shù)據(jù)來(lái)源和體量無(wú)限擴(kuò)大,因此在收集數(shù)據(jù)前不需要進(jìn)行專門調(diào)查。但是,由于大數(shù)據(jù)的豐富性和無(wú)限擴(kuò)充性,導(dǎo)致必須考慮如何進(jìn)行數(shù)據(jù)甄別、提煉、利用,以及如何加大數(shù)據(jù)的存儲(chǔ)。因此,新的思維應(yīng)該是把收集數(shù)據(jù)看作一個(gè)識(shí)別、整理、提煉、汲取、分配和存儲(chǔ)數(shù)據(jù)的過(guò)程。
信息時(shí)代,計(jì)算機(jī)技術(shù)的儲(chǔ)存和分析技術(shù)不斷提升。統(tǒng)計(jì)工作可以利用現(xiàn)代信息技術(shù)或者各種軟件,主動(dòng)從大數(shù)據(jù)中發(fā)掘有用的信息。傳統(tǒng)的定量分析慢慢變得簡(jiǎn)單化,而統(tǒng)計(jì)工作僅僅需要從定量回應(yīng)中挖出數(shù)量關(guān)系,為最終決策提供數(shù)據(jù)依據(jù)和支撐。傳統(tǒng)統(tǒng)計(jì)是根據(jù)樣本的特征推斷出總體特征,這就決定了樣本的質(zhì)量決定結(jié)論質(zhì)量。大數(shù)據(jù)的統(tǒng)計(jì)分析是針對(duì)總體數(shù)據(jù)進(jìn)行的,將不再受分布理論的制約。大數(shù)據(jù)下的統(tǒng)計(jì)遵循著嚴(yán)格的思維邏輯,即,從實(shí)際分布到總體特征再到概率判斷。
正確認(rèn)識(shí)統(tǒng)計(jì)新思維,必須主動(dòng)轉(zhuǎn)變觀念,達(dá)到思想和行動(dòng)的統(tǒng)一。傳統(tǒng)數(shù)據(jù)首先有總體,然后是樣本和數(shù)據(jù)。對(duì)大數(shù)據(jù)來(lái)說(shuō),數(shù)據(jù)在前,總體在后,歸根結(jié)底是因?yàn)榇髷?shù)據(jù)的個(gè)體處在不斷變化中,很難用傳統(tǒng)的名錄庫(kù)做歸納和總結(jié)。大數(shù)據(jù)具有變動(dòng)流通性,一個(gè)個(gè)體有多個(gè)表達(dá)方式,不同網(wǎng)絡(luò)體系中同樣的表達(dá)方式代表的卻不是同一個(gè)個(gè)體[2]。
傳統(tǒng)數(shù)據(jù)分析可以按照預(yù)定方案進(jìn)行,而對(duì)于大數(shù)據(jù)而言,受到大數(shù)據(jù)先有個(gè)體后有總體的影響,傳統(tǒng)的數(shù)據(jù)分析方法將不再適用。大數(shù)據(jù)中存在的各種信息內(nèi)容、網(wǎng)絡(luò)流行語(yǔ)等,我們很難對(duì)各種信息進(jìn)行有效地分類,也很難對(duì)信息個(gè)體的對(duì)應(yīng)關(guān)系加以劃分和控制,我們只能從超大容量數(shù)據(jù)本身入手,觀察數(shù)據(jù)的分布特征,加強(qiáng)非結(jié)構(gòu)化數(shù)據(jù)的研究。
在自然現(xiàn)象和社會(huì)生活中,個(gè)體存在差異,可以通過(guò)目標(biāo)對(duì)象的不確定性發(fā)現(xiàn)其中規(guī)律。而要研究不確定性時(shí),首要就是收集數(shù)據(jù)。因此大數(shù)據(jù)的不確定性不再是傳統(tǒng)的獲取樣本,推斷總體,而是來(lái)源于數(shù)據(jù)多樣性,數(shù)據(jù)來(lái)源混雜性。改變對(duì)不確定性的認(rèn)識(shí),有助于我們適應(yīng)統(tǒng)計(jì)的新思維,新常態(tài)。
傳統(tǒng)的統(tǒng)計(jì)技術(shù)在數(shù)據(jù)的收集和分析過(guò)程中發(fā)揮出了既定的價(jià)值,但大數(shù)據(jù)的到來(lái)使得原本的統(tǒng)計(jì)技術(shù)顯得單一和過(guò)時(shí),不能有效解決計(jì)算能力上的不足,因此需要及時(shí)做出改變,最可取的方法是依靠現(xiàn)代信息技術(shù)的協(xié)助,比如:云計(jì)算。云計(jì)算是指將計(jì)算任務(wù)分布在大量計(jì)算機(jī)構(gòu)成的資源池上,使各種應(yīng)用系統(tǒng)能夠根據(jù)需要獲取計(jì)算力、存儲(chǔ)空間和各種軟件服務(wù)。借助云計(jì)算技術(shù)的強(qiáng)大計(jì)算處理能力,可以彌補(bǔ)傳統(tǒng)統(tǒng)計(jì)技術(shù)的缺陷,從而在數(shù)據(jù)分析中體現(xiàn)統(tǒng)計(jì)思想以應(yīng)對(duì)大數(shù)據(jù)。
傳統(tǒng)思維下的數(shù)據(jù)收集極其依賴抽樣調(diào)查,其功能就是通過(guò)樣本來(lái)推斷總體特征。盡管抽樣調(diào)查存在數(shù)據(jù)信息有限、抽樣范圍封閉、前期準(zhǔn)備工作難等問題,但大數(shù)據(jù)的到來(lái)可以將樣本數(shù)據(jù)無(wú)限擴(kuò)充到整體,從而有效掩蓋這些問題??杉幢闳绱耍紤]到成本、效率、大數(shù)據(jù)覆蓋不全面等因素,在很多時(shí)候仍需要通過(guò)抽樣調(diào)查來(lái)獲取信息并進(jìn)行分析。這樣一來(lái),抽樣調(diào)查的功能就變?yōu)椋鹤鳛榇髷?shù)據(jù)分析的驗(yàn)證依據(jù)并用于對(duì)照,以及快速?gòu)幕祀s的數(shù)據(jù)中進(jìn)行挖掘和探測(cè)分析[3]。
總之,大數(shù)據(jù)時(shí)代,信息化技術(shù)的沖擊,需要我們用新思維引領(lǐng)統(tǒng)計(jì),主動(dòng)構(gòu)建數(shù)據(jù)化大格局。在正確認(rèn)識(shí)大數(shù)據(jù)的前提下,轉(zhuǎn)變觀念,主動(dòng)去適應(yīng)和改變統(tǒng)計(jì)思維。