杜旭陽
(河南信息統(tǒng)計職業(yè)學院,河南 鄭州 450000)
在數(shù)據(jù)量爆炸性增長的今天,傳統(tǒng)統(tǒng)計學方法已經(jīng)不能滿足數(shù)據(jù)處理和分析的需求。大數(shù)據(jù)技術的普及與應用,為統(tǒng)計學的發(fā)展帶來了一定沖擊和機遇?,F(xiàn)代化信息技術的發(fā)展推動了大數(shù)據(jù)技術的發(fā)展和應用,網(wǎng)絡爬蟲技術解決了統(tǒng)計學中的數(shù)據(jù)收集難題,云計算技術使得大規(guī)模的數(shù)據(jù)處理成為現(xiàn)實。由此可見,大數(shù)據(jù)技術的應用,對統(tǒng)計學中的數(shù)據(jù)處理、抽樣以及分析工作帶來了巨大變革。
根據(jù)近年來大數(shù)據(jù)技術的發(fā)展情況,目前與發(fā)達國家相比,我國大數(shù)據(jù)技術的相關研究還存在一定距離。根據(jù)大數(shù)據(jù)技術的研究方向,大數(shù)據(jù)技術的應用功能要能夠追蹤數(shù)據(jù)樣本,廣泛包容各種數(shù)據(jù)類型,實施正確算法對分布資源進行處理。從我國大數(shù)據(jù)技術需求和應用領域來看,涉及的范圍十分廣泛,有物聯(lián)網(wǎng)應用領域、分布式計算領域、語音識別領域、機器學習領域等。
根據(jù)近年來我國大數(shù)據(jù)技術的發(fā)展情況來看,國內(nèi)外對于大數(shù)據(jù)技術的研究已經(jīng)趨于統(tǒng)一,我國目前與發(fā)達國家相比,有關大數(shù)據(jù)技術的研究還存在一定距離。根據(jù)大數(shù)據(jù)技術的研究方向來看,大數(shù)據(jù)技術的應用功能不僅要包含追蹤數(shù)據(jù)樣本,還需要有實施正確算法對分布資源進行處理的功能。此外,對數(shù)據(jù)類型包容量一定要大,以便能夠為研究者與決策者提供可靠的依據(jù)。根據(jù)我國大數(shù)據(jù)發(fā)展情況來看,涉及的學科范圍十分廣泛,集合了各個領域的數(shù)據(jù)信息,需要利用大數(shù)據(jù)技術對某一領域數(shù)據(jù)信息進行分析,只需要在信息量較大的數(shù)據(jù)庫中對相關內(nèi)容挑選便可。最后,在應用大數(shù)據(jù)技術的過程中,一定要將數(shù)據(jù)資源與決策有效融合,這樣才能使得大數(shù)據(jù)技術在各個行業(yè)中得到充分應用。
根據(jù)大數(shù)據(jù)的應用情況來看,它能夠使得高維變量與相關數(shù)據(jù)信息進行整合。統(tǒng)計學作為一門數(shù)據(jù)分析學科,常用的分析方法為抽樣調(diào)查法。主要采用這一方法的原因是因為應用統(tǒng)計學無法將所有相關數(shù)據(jù)信息作為參考依據(jù)進行計算,否則將會導致整個數(shù)據(jù)分析工作量巨大,并且還會耗費大量的分析時間。大數(shù)據(jù)在統(tǒng)計學中的應用,解決了這一問題。應用大數(shù)據(jù)技術能夠?qū)⑷宋念I域、經(jīng)濟領域、網(wǎng)絡領域等方面的數(shù)據(jù)信息全面整合,使得各個領域之間得以實現(xiàn)互通互融。大數(shù)據(jù)技術本身就擁有著較為先進的處理機制,因此該技術不僅能夠解決諸多與數(shù)據(jù)相關的問題,還能夠?qū)o法解決的數(shù)據(jù)信息問題進行保存,作為大數(shù)據(jù)技術日后發(fā)展的使用儲備。
統(tǒng)計學理論指導統(tǒng)計工作的進行,根據(jù)統(tǒng)計學的發(fā)展應用情況,大數(shù)據(jù)技術對統(tǒng)計工作中傳統(tǒng)統(tǒng)計方法的影響主要在于數(shù)據(jù)抽樣方法、數(shù)據(jù)預處理方法、模型構(gòu)建以及數(shù)據(jù)分析方法四部分。筆者根據(jù)自身多年工作經(jīng)驗,通過以下內(nèi)容詳細論述了有關大數(shù)據(jù)對統(tǒng)計工作帶來的變革。
統(tǒng)計抽樣方法是在一定的條件下,從所有研究對象中隨機挑選部分對象,并獲取其相關數(shù)據(jù)。而大數(shù)據(jù)技術中的抽樣方法是在諸多流動的數(shù)據(jù)中,挑選其中典型的數(shù)據(jù)或者直接獲取全部數(shù)據(jù)進行分析。采用大數(shù)據(jù)抽樣技術能夠自動篩選出在龐大的數(shù)據(jù)中有著內(nèi)在聯(lián)系的某些信息,并能實時更新數(shù)據(jù),有助于研究數(shù)據(jù)之間的連貫性以及動態(tài)關系。在傳統(tǒng)的統(tǒng)計學中,如果想要通過人工開展典型數(shù)據(jù)的篩選工作,具有較大的局限性。而在大數(shù)據(jù)技術下,可以通過不斷采集樣本累積數(shù)據(jù)信息的方式獲得真實可靠的結(jié)果。
在對數(shù)據(jù)進行分析前,首先需要根據(jù)數(shù)據(jù)的實際情況,對其開展清洗、糾正以及調(diào)補等相關預處理工作。在傳統(tǒng)統(tǒng)計預處理中,如果要檢查數(shù)據(jù)的預處理工作是否完成,需要對數(shù)據(jù)使用合理的抽樣方法,抽取一定的數(shù)據(jù)進行檢查,探究其中是否仍舊存在需要糾正的數(shù)據(jù)。此種對數(shù)據(jù)進行預處理的方法,工作量大,而且不一定能夠?qū)λ袛?shù)據(jù)都進行了有效清洗。并且在數(shù)據(jù)量少的情況下,對缺失值的處理是否恰當會影響整個數(shù)據(jù)的分析結(jié)果。大數(shù)據(jù)技術的預處理方法和傳統(tǒng)統(tǒng)計預處理方法沒有實質(zhì)區(qū)別,但是大數(shù)據(jù)技術的優(yōu)點在于能夠及時對數(shù)據(jù)預處理中的錯誤信息進行糾正,統(tǒng)籌整個數(shù)據(jù)資源,最終實現(xiàn)統(tǒng)計目標[1]。
根據(jù)大數(shù)據(jù)時代的發(fā)展情況來看,該時代的另一特征便是網(wǎng)絡平臺的發(fā)展與建設。根據(jù)傳統(tǒng)會計學的應用情況來看,無論是統(tǒng)計計算還是數(shù)據(jù)采集工作,都是線下開展。工作方式有問卷調(diào)查、任務布置以及學校課題研究等。在大數(shù)據(jù)技術不斷發(fā)展的過程中,網(wǎng)絡平臺的搭建可以使得用戶將該平臺作為基礎數(shù)據(jù)依據(jù)。在現(xiàn)代化信息技術不斷發(fā)展的過程中,有關數(shù)據(jù)處理模型系統(tǒng)軟件正在被逐漸開發(fā),目前常用的數(shù)據(jù)處理模型軟件有MSBN、BN、MIM等,這些高維數(shù)據(jù)處理工具不僅能夠計算時間概率,還能夠根據(jù)數(shù)據(jù)信息的統(tǒng)計結(jié)果構(gòu)建數(shù)據(jù)因果關系圖,有助于數(shù)據(jù)信息的傳播與流轉(zhuǎn)。
在傳統(tǒng)的統(tǒng)計學分析工作中,想要研究不直接聯(lián)系但是具有一定相關性的變量之間的關系較為繁瑣,因為要從較為龐大的信息資源中挑選出具有代表性的樣本數(shù)據(jù),還要對各個不同變量之間的關系進行研究[2]。在應用大數(shù)據(jù)技術進行分析時,該技術分析力強、包容力大的數(shù)據(jù)統(tǒng)籌能力,能夠使得各種環(huán)境下的信息資源被有效整合,最終得出一個準確性較高的結(jié)果。在這一過程中,盡可能地減少了變量的參與,我們經(jīng)常將這一分析法稱為薈萃分析法。
根據(jù)傳統(tǒng)統(tǒng)計學的應用情況,在對數(shù)據(jù)信息開展分析工作時,首先需要搜集相關信息數(shù)據(jù),從已經(jīng)搜集到的數(shù)據(jù)信息中抽取樣本,隨后根據(jù)樣本的性質(zhì)來對調(diào)查對象的總體特點進行確定。具體而言,就是在應用傳統(tǒng)統(tǒng)計學方法篩選數(shù)據(jù)時,需要在確定總體之后再抽取相關樣本進行分析[3],而應用大數(shù)據(jù)技術則方法截然不同。大數(shù)據(jù)技術首先需要搜集個體數(shù)據(jù)樣本,其次根據(jù)個體數(shù)據(jù)樣本確定數(shù)據(jù)整體,最后按照相關要求對數(shù)據(jù)信息進行篩選,最終得出的統(tǒng)計結(jié)果是基于總體得到的結(jié)果,因此可信度與說服度更高。在當前,大多數(shù)情況下數(shù)據(jù)信息都是以信息流的形式出現(xiàn),也就是說數(shù)據(jù)信息的樣本是流動的、累積的。在此情況下,傳統(tǒng)統(tǒng)計學最終分析出的結(jié)果不能與時俱進,具有一定滯后性。在利用大數(shù)據(jù)技術對相關信息進行搜集、監(jiān)控時,因為對已經(jīng)確定的數(shù)據(jù)信息沒有依賴性,在開展后續(xù)計算工作時準確度更高,分析出來的數(shù)據(jù)結(jié)果更有實際應用性,能夠為后續(xù)工作提供依據(jù),提高統(tǒng)計工作可靠性。
無論是什么領域?qū)崿F(xiàn)可持續(xù)發(fā)展都是不變的宗旨,在當前我國社會快速發(fā)展過程中,統(tǒng)計學想要實現(xiàn)持續(xù)發(fā)展,就需要運用辯證、發(fā)展的眼光看待統(tǒng)計學。根據(jù)大數(shù)據(jù)的發(fā)展情況來看,它是一個框架體系巨大、統(tǒng)一性較強的綜合性內(nèi)容,統(tǒng)計學作為大數(shù)據(jù)中的一個分支,在未來發(fā)展過程中一定要積極融入大數(shù)據(jù)的思想、內(nèi)涵[4]。在傳統(tǒng)的統(tǒng)計學分析計算工作中具有較大的局限性,為了確保最終的統(tǒng)計結(jié)果公平、公正,工作人員通常情況下只能夠通過在總體數(shù)據(jù)中挑選數(shù)據(jù)樣本進行相關計算,在此過程中主張以小見大的分析統(tǒng)計方式。大數(shù)據(jù)時代的來臨改變了這一問題,數(shù)據(jù)內(nèi)容過大不再是難題,并且不斷優(yōu)化了數(shù)據(jù)整理過程。統(tǒng)計學在發(fā)展過程中要積極引進新技術與新理念,不斷拓寬自己的研究體系,以便能夠建立更多的分析研究方式,促使我國大數(shù)據(jù)時代穩(wěn)定發(fā)展[5]。
根據(jù)傳統(tǒng)統(tǒng)計學的應用情況來看,有關數(shù)據(jù)信息的分類方式首先是要對分類進行定義與區(qū)分,根據(jù)定義好的便簽有針對性地搜尋相關數(shù)據(jù)信息。在對數(shù)據(jù)信息進行統(tǒng)計時會發(fā)現(xiàn),這些信息通常情況下都會被囊括到一個已經(jīng)明確的結(jié)構(gòu)中,整個數(shù)據(jù)信息的梳理過程十分單一[6]。信息梳理作為信息預處理的關鍵環(huán)節(jié),直接會影響到最終分析結(jié)果。但是在大數(shù)據(jù)背景下,所有數(shù)據(jù)信息的來源都屬于開放式,因此只要設定好需要的信息類型,按照信息分類標識對信息類別進行判斷,最終能夠從不同的信息數(shù)據(jù)中篩選出需要的數(shù)據(jù)內(nèi)容[7]。
綜上所述,根據(jù)當前大數(shù)據(jù)背景下統(tǒng)計學的發(fā)展方向,大數(shù)據(jù)技術的廣泛普及對統(tǒng)計學的數(shù)據(jù)抽樣、數(shù)據(jù)預處理、模型構(gòu)建以及數(shù)據(jù)分析帶來了積極影響。統(tǒng)計學想要實現(xiàn)持續(xù)發(fā)展,就需要融合大數(shù)據(jù)技術,不斷拓展統(tǒng)計學的研究領域,不斷創(chuàng)新數(shù)據(jù)的分類與梳理方法,只有這樣才能為統(tǒng)計學可持續(xù)發(fā)展提供保障。