摘 要:對(duì)于統(tǒng)計(jì)工作者們來說,高質(zhì)量的統(tǒng)計(jì)數(shù)據(jù)以及將數(shù)據(jù)挖掘相關(guān)技術(shù)所具有的優(yōu)勢(shì)在統(tǒng)計(jì)工作當(dāng)中充分發(fā)揮出來,就是現(xiàn)階段所需要解決的重點(diǎn)問題。本文主要分析了數(shù)據(jù)挖掘技術(shù)在統(tǒng)計(jì)工作中的創(chuàng)新應(yīng)用。
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù);統(tǒng)計(jì)工作;創(chuàng)新
中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1004-7344(2018)24-0299-02
1 引 言
當(dāng)前大數(shù)據(jù)、云計(jì)算以及物聯(lián)網(wǎng)等這些先進(jìn)的科學(xué)技術(shù)在人們的日常生活中發(fā)揮著越來越重要的作用,這些先進(jìn)技術(shù)的應(yīng)用在很大程度上加快了數(shù)據(jù)傳播速度的同時(shí)還在一定程度上提高了信息傳播的質(zhì)量。在統(tǒng)計(jì)工作中,信息技術(shù)的不斷應(yīng)用可以讓數(shù)據(jù)信息變得更加及時(shí)、完整與有效。統(tǒng)計(jì)部門以“用數(shù)據(jù)說話,為決策服務(wù)”為職責(zé),其工作的質(zhì)量與政府決策相關(guān)工作的有效性與合理性有著十分直接的聯(lián)系。對(duì)于統(tǒng)計(jì)工作者們來說,如何讓統(tǒng)計(jì)數(shù)據(jù)說明事物本質(zhì),以及發(fā)展規(guī)律,將數(shù)據(jù)挖掘相關(guān)技術(shù)所具有的優(yōu)勢(shì)在統(tǒng)計(jì)工作當(dāng)中充分發(fā)揮出來,就是現(xiàn)階段所需要解決的重點(diǎn)問題。本文主要分析了數(shù)據(jù)挖掘技術(shù)在統(tǒng)計(jì)工作中的創(chuàng)新應(yīng)用。
2 具體應(yīng)用過程中數(shù)據(jù)挖掘技術(shù)與統(tǒng)計(jì)學(xué)方法的區(qū)別
通常我們獲取的大量原始資料都比較零星、分散,是不系統(tǒng)的,僅僅反映了事物的表面現(xiàn)象或一個(gè)側(cè)面,在統(tǒng)計(jì)學(xué)方法上先進(jìn)行數(shù)據(jù)統(tǒng)計(jì)整理,分組、匯總,再利用統(tǒng)計(jì)學(xué)方法進(jìn)行統(tǒng)計(jì)分析,這樣工作效率相對(duì)較低。引入數(shù)據(jù)挖掘技術(shù),即使面臨的數(shù)據(jù)信息比以往更大,也可提高數(shù)據(jù)處理效率。與統(tǒng)計(jì)方法相比,數(shù)據(jù)挖掘的優(yōu)點(diǎn)表現(xiàn)在以下兩方面:
2.1 數(shù)據(jù)挖掘技術(shù)的智能化程度比較高
隨著大數(shù)據(jù)的發(fā)展,數(shù)據(jù)的生產(chǎn)者和提供者不再囿于政府統(tǒng)計(jì)系統(tǒng),各種互聯(lián)網(wǎng)、電子商務(wù)、搜索引擎等信息平臺(tái)產(chǎn)生的圖片、網(wǎng)頁和音頻視頻等資料都能成為統(tǒng)計(jì)數(shù)據(jù)的來源。面對(duì)紛繁復(fù)雜的統(tǒng)計(jì)數(shù)據(jù),對(duì)于統(tǒng)計(jì)學(xué)來說,其主要是通過建模的手法實(shí)現(xiàn)在大量數(shù)據(jù)中選擇有效的數(shù)據(jù)信息;而數(shù)據(jù)挖掘技術(shù)則主要是為了發(fā)現(xiàn)更加有效、可以利用的數(shù)據(jù)。
2.2 數(shù)據(jù)挖掘技術(shù)可以進(jìn)一步促進(jìn)統(tǒng)計(jì)學(xué)的發(fā)展
當(dāng)前,統(tǒng)計(jì)工作人員的主要任務(wù)是將數(shù)據(jù)信息建成模型,并對(duì)該模型進(jìn)行深入的研究,對(duì)數(shù)據(jù)進(jìn)行詳細(xì)的分析。對(duì)于數(shù)據(jù)挖掘技術(shù)來說,其主要有以下幾種類型:①?zèng)Q策樹;②神經(jīng)網(wǎng)絡(luò);③聚類分析等。在統(tǒng)計(jì)學(xué)中,數(shù)據(jù)挖掘技術(shù)的應(yīng)用應(yīng)以不同的需求為根據(jù)來選擇,從而在最大限度上提高數(shù)據(jù)處理的有效性。因?yàn)閿?shù)據(jù)挖掘技術(shù)具有處理數(shù)據(jù)量大、維數(shù)比較高、結(jié)構(gòu)比較復(fù)雜以及種類多樣化等優(yōu)點(diǎn),其應(yīng)用可以在很大程度上加快統(tǒng)計(jì)學(xué)的發(fā)展,提高統(tǒng)計(jì)人員工作的質(zhì)量以及工作效率。
3 現(xiàn)階段統(tǒng)計(jì)工作中數(shù)據(jù)處理方面存在的問題以及缺點(diǎn)
3.1 缺乏統(tǒng)一的數(shù)據(jù)存儲(chǔ)管理平臺(tái)和手段
近年來,統(tǒng)計(jì)系統(tǒng)先后建設(shè)了以普查、調(diào)查和常規(guī)統(tǒng)計(jì)為主的各類統(tǒng)計(jì)應(yīng)用平臺(tái),但這些平臺(tái)互相之間無數(shù)據(jù)交換共享。如:目前經(jīng)常使用的一套表數(shù)據(jù)處理平臺(tái),主要按“五上”專業(yè)分布,和利時(shí)程序是投資數(shù)據(jù)處理平臺(tái),久其程序主要是農(nóng)業(yè)數(shù)據(jù)處理平臺(tái)。數(shù)據(jù)存儲(chǔ)方式、存儲(chǔ)格式及存儲(chǔ)地呈現(xiàn)多、亂、散的特點(diǎn),缺乏有效的、統(tǒng)一的存儲(chǔ)管理平臺(tái)和手段,不利于數(shù)據(jù)的交換共享和深層次的挖掘分析應(yīng)用。
3.2 缺少對(duì)于數(shù)據(jù)處理的統(tǒng)一管理標(biāo)準(zhǔn)
由于統(tǒng)計(jì)數(shù)據(jù)處理平臺(tái)多數(shù)只針對(duì)某項(xiàng)專業(yè),統(tǒng)計(jì)人員必須熟悉各類應(yīng)用平臺(tái)處理的統(tǒng)計(jì)數(shù)據(jù)對(duì)象、范圍、時(shí)效等標(biāo)準(zhǔn),熟練掌握不同時(shí)期不同統(tǒng)計(jì)應(yīng)用平臺(tái)的操作,這樣給統(tǒng)計(jì)數(shù)據(jù)的挖掘分析等深層次應(yīng)用帶來一定難度。由于缺少對(duì)于數(shù)據(jù)的統(tǒng)一管理標(biāo)準(zhǔn)使得無法更深入的研究數(shù)據(jù)。
3.3 缺少對(duì)于數(shù)據(jù)處理的有效開發(fā)
雖然統(tǒng)計(jì)部門獲得的數(shù)據(jù)資源十分豐富,但是因?yàn)槿鄙偻诰驍?shù)據(jù)的工具,因而不能對(duì)數(shù)據(jù)資源實(shí)現(xiàn)更深層次的分析與研究,所以造成了對(duì)數(shù)據(jù)資源的浪費(fèi)。對(duì)于政府以及企業(yè)來說,在進(jìn)行相關(guān)決策時(shí)主要根據(jù)就是獲得的統(tǒng)計(jì)數(shù)據(jù),因而需要進(jìn)一步創(chuàng)新以及開發(fā)統(tǒng)計(jì)數(shù)據(jù)方面的工作,但是現(xiàn)階段,統(tǒng)計(jì)相關(guān)工作尤其是基層大部分停留在數(shù)據(jù)的匯總階段,并沒有進(jìn)行后續(xù)的相關(guān)開發(fā)工作。這種做法就使得數(shù)據(jù)資源不能夠進(jìn)行再次利用,在一定程度上降低了統(tǒng)計(jì)工作的工作質(zhì)量以及工作效率,從而沒有辦法進(jìn)一步的創(chuàng)新與開發(fā)統(tǒng)計(jì)工作。
4 統(tǒng)計(jì)工作創(chuàng)新與以數(shù)據(jù)倉庫為基礎(chǔ)的數(shù)據(jù)挖掘技術(shù)結(jié)合
為了能夠有效的解決上述提到的數(shù)據(jù)統(tǒng)計(jì)中所存在的問題,可以應(yīng)用到以數(shù)據(jù)倉庫為基礎(chǔ)的數(shù)據(jù)挖掘技術(shù):
(1)以數(shù)據(jù)倉庫為基礎(chǔ)的算法可以實(shí)現(xiàn)對(duì)于在挖掘數(shù)據(jù)過程中所存在的預(yù)處理數(shù)據(jù)耗費(fèi)時(shí)間問題的有效解決,此外,對(duì)于處理數(shù)據(jù)過程中的抽取、清洗、轉(zhuǎn)換以及裝載等過程,可以通過數(shù)據(jù)倉庫的建立而節(jié)省掉。
(2)對(duì)于數(shù)據(jù)倉庫來說,以主題組織為根據(jù)來存放數(shù)據(jù),這一做法更方便挖掘出恰當(dāng)?shù)臄?shù)據(jù)資源。對(duì)于獲得的數(shù)據(jù)資源往往會(huì)因領(lǐng)域的不同而被分為國民經(jīng)濟(jì)行業(yè)統(tǒng)計(jì)數(shù)據(jù)、社會(huì)民生統(tǒng)計(jì)數(shù)據(jù)、部門數(shù)據(jù)、各類調(diào)查數(shù)據(jù)等。
(3)從數(shù)據(jù)資源來看,統(tǒng)計(jì)部門只能看到數(shù)據(jù)處理平臺(tái)建成至今數(shù)據(jù),歷史數(shù)據(jù)只能通過其它方式獲取,也就導(dǎo)致有許多的知識(shí)如預(yù)測(cè)性應(yīng)用等沒有辦法挖掘出來;相反的,數(shù)據(jù)倉庫存管理數(shù)據(jù)則可以從PLTP系統(tǒng)、歷史業(yè)務(wù)數(shù)據(jù)以及外部數(shù)據(jù)源中獲取數(shù)據(jù),并進(jìn)一步對(duì)數(shù)據(jù)進(jìn)行處理,從而最終實(shí)現(xiàn)對(duì)于獲取數(shù)據(jù)的有效利用。除此之外,在對(duì)數(shù)據(jù)環(huán)境的要求方面上,數(shù)據(jù)挖掘需要以多維數(shù)據(jù)集的數(shù)據(jù)環(huán)境為基礎(chǔ)才行,而數(shù)據(jù)倉庫技術(shù)則完全能夠滿足數(shù)據(jù)挖掘技術(shù)的相關(guān)要求。所以說,將數(shù)據(jù)挖掘與數(shù)據(jù)倉庫結(jié)合在一起,進(jìn)行協(xié)同工作,數(shù)據(jù)挖掘技術(shù)可以成為應(yīng)用數(shù)據(jù)倉庫過程中非常重要的工具,除此之外,對(duì)于挖掘數(shù)據(jù)過程中的步驟可以進(jìn)行一定程度的簡化,提高處理數(shù)據(jù)的質(zhì)量以及效率,讓獲取的數(shù)據(jù)資源更加廣泛和完整。
5 利用數(shù)據(jù)挖掘技術(shù)進(jìn)行統(tǒng)計(jì)創(chuàng)新
(1)形成統(tǒng)計(jì)大數(shù)據(jù)運(yùn)行平臺(tái),建立起以企業(yè)一套表、普查數(shù)據(jù)、專項(xiàng)調(diào)查數(shù)據(jù)為基礎(chǔ),集統(tǒng)計(jì)數(shù)據(jù)采集、交換、處理、分析、服務(wù)、管理為一體,統(tǒng)一規(guī)范、大容量、可擴(kuò)展的數(shù)據(jù)資源管理中心,為管理部門和社會(huì)公眾提供準(zhǔn)確、及時(shí)、全面的統(tǒng)計(jì)信息服務(wù)。
(2)全面建成統(tǒng)計(jì)數(shù)據(jù)中心,形成以聯(lián)網(wǎng)直報(bào)采集平臺(tái)、數(shù)據(jù)交換平臺(tái)、數(shù)據(jù)處理平臺(tái)為核心的統(tǒng)計(jì)數(shù)據(jù)生產(chǎn)系統(tǒng)。
(3)實(shí)現(xiàn)計(jì)算資源、網(wǎng)絡(luò)資源、存儲(chǔ)資源、安全資源和數(shù)據(jù)資源等基礎(chǔ)設(shè)施的統(tǒng)一管理、資源共享與運(yùn)維監(jiān)控,為各類統(tǒng)計(jì)業(yè)務(wù)應(yīng)用系統(tǒng)提供統(tǒng)一的基礎(chǔ)設(shè)施支持和保障。
(4)建立經(jīng)濟(jì)預(yù)測(cè)分析系統(tǒng)、經(jīng)濟(jì)動(dòng)態(tài)跟蹤監(jiān)測(cè)預(yù)警系統(tǒng)。采用先進(jìn)的統(tǒng)計(jì)分析和數(shù)據(jù)挖掘創(chuàng)新技術(shù)手段,對(duì)社會(huì)發(fā)展趨勢(shì)進(jìn)行短期和中長期的預(yù)測(cè)分析。
6 結(jié)束語
對(duì)于統(tǒng)計(jì)數(shù)據(jù)來說,因?yàn)槠渚哂惺种匾淖饔?,是政府以及企業(yè)進(jìn)行決策的重要依據(jù)。但是現(xiàn)階段統(tǒng)計(jì)工作中數(shù)據(jù)處理方面存在以下問題及缺點(diǎn):缺乏統(tǒng)一的數(shù)據(jù)存儲(chǔ)管理平臺(tái)和手段;缺少對(duì)于數(shù)據(jù)處理的統(tǒng)一管理標(biāo)準(zhǔn);缺少對(duì)于數(shù)據(jù)處理的有效開發(fā)。為了能夠有效解決上述提到的問題,可以應(yīng)用以數(shù)據(jù)倉庫為基礎(chǔ)的數(shù)據(jù)挖掘技術(shù):①以數(shù)據(jù)倉庫為基礎(chǔ)的算法可以實(shí)現(xiàn)對(duì)于在挖掘數(shù)據(jù)過程中所存在的預(yù)處理數(shù)據(jù)耗費(fèi)時(shí)間問題的有效解決;②對(duì)于數(shù)據(jù)倉庫來說,以主題組織為根據(jù)來存放數(shù)據(jù),這一做法更方便挖掘出恰當(dāng)?shù)臄?shù)據(jù)資源;③對(duì)于采集到的數(shù)據(jù)資源,數(shù)據(jù)倉庫技術(shù)則完全能夠滿足數(shù)據(jù)挖掘技術(shù)的相關(guān)要求,并簡化挖掘數(shù)據(jù)過程中的步驟,提高處理數(shù)據(jù)的質(zhì)量以及效率,讓獲取的數(shù)據(jù)資源更加廣泛和完整。
參考文獻(xiàn)
[1]王佳麗.淺談數(shù)據(jù)挖掘?qū)娇諗?shù)據(jù)統(tǒng)計(jì)工作的創(chuàng)新[J].商,2015(35):207.
[2]張振普.經(jīng)濟(jì)統(tǒng)計(jì)工作中數(shù)據(jù)挖掘技術(shù)的應(yīng)用分析[J].中國電子商情:科技創(chuàng)新,2014(11):48.
[3]劉秀華.淺談數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計(jì)中的應(yīng)用[J].商場(chǎng)現(xiàn)代化,2014(23):280~282.
收稿日期:2018-7-25
作者簡介:杜 芝(1977-),漢族,陜西澄城人,中級(jí)統(tǒng)計(jì)師,大專,負(fù)責(zé)綜合、GDP核算、非公核算、投入產(chǎn)出調(diào)查工作。
楊 潔(1973-),漢族,陜西澄城人,中級(jí)統(tǒng)計(jì)師,大專,從事統(tǒng)計(jì)工作。