張振普
引言:斗轉(zhuǎn)星移,歷史變遷。經(jīng)濟(jì)不斷進(jìn)步中,我國(guó)經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)中一些問題凸顯,如果沿用舊的的經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)方式,對(duì)經(jīng)濟(jì)發(fā)展探索和決策極為不利。不能深層次開展統(tǒng)計(jì)數(shù)據(jù)的分,使得經(jīng)濟(jì)數(shù)據(jù)中的潛在關(guān)系,沒有辦法發(fā)掘。所以,在傳統(tǒng)的統(tǒng)計(jì)數(shù)據(jù)中下使得處理方式不斷更新,實(shí)現(xiàn)經(jīng)濟(jì)的決策促進(jìn),有著重要意義。本文主要對(duì)數(shù)據(jù)挖掘技術(shù)概念和產(chǎn)生進(jìn)行了闡述,并且對(duì)在經(jīng)濟(jì)統(tǒng)計(jì)方面的應(yīng)用展開了詳細(xì)的分析。
經(jīng)濟(jì)統(tǒng)計(jì)工作雖然一直在進(jìn)行,但是其中存在著多反面的問題。在經(jīng)濟(jì)統(tǒng)計(jì)分析方面有著數(shù)字匯總簡(jiǎn)單羅列的問題,非常不利于統(tǒng)計(jì)部門依照統(tǒng)計(jì)結(jié)果做出科學(xué)的決策。這就要求新形勢(shì)下的經(jīng)濟(jì)統(tǒng)計(jì)工作進(jìn)行深度的數(shù)據(jù)挖掘,不斷適應(yīng)新的經(jīng)濟(jì)統(tǒng)計(jì)分析需要。
一、數(shù)據(jù)挖掘技術(shù)內(nèi)涵
經(jīng)濟(jì)社會(huì)的發(fā)展,使得經(jīng)濟(jì)工作中,需要分析的經(jīng)濟(jì)數(shù)據(jù)增多。在對(duì)經(jīng)濟(jì)分析需求增大的條件下,數(shù)據(jù)挖掘技術(shù)營(yíng)運(yùn)而生。經(jīng)濟(jì)統(tǒng)計(jì)工作中的數(shù)據(jù)挖掘技術(shù),是一種在不全面的、
模糊的、隨機(jī)經(jīng)濟(jì)數(shù)據(jù)中,分析得到潛在信息,接著對(duì)獲取的數(shù)據(jù)展開分析和轉(zhuǎn)換。這些數(shù)據(jù)在經(jīng)過專門處理之后,應(yīng)用于企業(yè)和者政府相關(guān)的決策。這種經(jīng)濟(jì)統(tǒng)計(jì)扥西方法,適應(yīng)了社會(huì)中采集的數(shù)據(jù)量變大,處理信息量變大的現(xiàn)實(shí)。數(shù)據(jù)挖掘,實(shí)質(zhì)是研究交叉的、比較復(fù)雜的學(xué)科。數(shù)據(jù)挖掘包括:知識(shí)獲取、統(tǒng)計(jì)學(xué)、知識(shí)庫(kù)系統(tǒng)、數(shù)據(jù)庫(kù)技術(shù)、模式識(shí)別等。數(shù)據(jù)挖掘技術(shù)在發(fā)展方面經(jīng)過了一個(gè)長(zhǎng)時(shí)間的過程::數(shù)理統(tǒng)計(jì)階段、人工智能階段、機(jī)器學(xué)習(xí)階段。
在社會(huì)發(fā)展過程中,經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)規(guī)模越來越大,人們、企業(yè)以及政府由于對(duì)經(jīng)濟(jì)發(fā)展的需要,所以對(duì)其質(zhì)量要求比較高。但是傳統(tǒng)的經(jīng)濟(jì)分析方法存在著明顯的弊端。由于傳統(tǒng)的數(shù)據(jù)統(tǒng)計(jì)方法里,數(shù)據(jù)之間之間的潛在關(guān)系沒有涉及分析,所以無法為企業(yè)和政府經(jīng)濟(jì)決策實(shí)現(xiàn)關(guān)鍵有效決策提供關(guān)鍵信息。因?yàn)閭鹘y(tǒng)的統(tǒng)計(jì)分析方法中,使用的是效率比較低的計(jì)算方法,無法滿足社會(huì)發(fā)展中的需要,并且分析的質(zhì)量也沒有辦法得到保證?,F(xiàn)實(shí)中存在的問題,也沒有辦法得到有效解決,數(shù)據(jù)挖掘的方式通過信息技術(shù)的分析,可以發(fā)現(xiàn)數(shù)據(jù)中的潛在關(guān)系,分析出人們無法單憑感官不能實(shí)現(xiàn)的數(shù)據(jù)和信息之間的關(guān)系。實(shí)現(xiàn)了傳統(tǒng)數(shù)據(jù)分析中的問題解決,數(shù)字挖掘技術(shù)正是為了克服上述問題而產(chǎn)生并發(fā)展的,利于政府和企業(yè)進(jìn)行經(jīng)濟(jì)的決策。并且在信息技術(shù)不斷發(fā)展的今天,數(shù)據(jù)挖掘技術(shù)水平也在不斷提高和發(fā)展。
二、數(shù)據(jù)挖掘技術(shù)的應(yīng)用
1、預(yù)處理
實(shí)際工作中,數(shù)據(jù)可能在收集的過程中有缺漏,關(guān)鍵信息不完整。所以在進(jìn)行挖掘分析之前,對(duì)數(shù)據(jù)進(jìn)行有效地預(yù)處理,對(duì)于減少分析的偏差有著重要作用。總的來說,數(shù)據(jù)的預(yù)處理有四個(gè)部分。
1.1數(shù)據(jù)的完善
數(shù)據(jù)的完善,主要是把數(shù)據(jù)中存在不一致、缺損和噪聲清除掉,目的是提升數(shù)據(jù)在整體有效性方面的質(zhì)量。通常使用的方法是——預(yù)測(cè)法、平滑法、均值法等統(tǒng)計(jì)法,主要根據(jù)實(shí)際情況中的差異,來抉擇使用的方法。預(yù)測(cè)法,使用在推斷噪聲的數(shù)據(jù)和空值中,能夠得到最有效的統(tǒng)計(jì)數(shù)據(jù),目的是處理數(shù)據(jù)缺損。平滑法講究將n個(gè)數(shù)據(jù),在經(jīng)過加權(quán)平均后得到的數(shù)值,作為替換數(shù)據(jù)。均值法是將n個(gè)不為空的數(shù)據(jù),在經(jīng)過數(shù)值的平均計(jì)算后的平均值,作為最終數(shù)據(jù)。平滑法和均值法也作為數(shù)據(jù)的降噪使用[1]。
1.2數(shù)據(jù)集合
數(shù)據(jù)的集合就是數(shù)據(jù)集成過程。一般的數(shù)據(jù)在收集的時(shí)候,主要是由地方統(tǒng)計(jì)局收集通過各種途徑收集,在收集之后要對(duì)這些多重多樣的數(shù)據(jù)進(jìn)行集成。因?yàn)檫@些數(shù)據(jù)挖掘的范圍不同,需要通過一定的手段,使其成為一個(gè)有效地整體。在數(shù)據(jù)集合的過程中,會(huì)產(chǎn)生一些問題。例如,不同數(shù)據(jù)源數(shù)據(jù)中的互相匹配問題,也就是數(shù)據(jù)的模式集成問題。除此之外,不同數(shù)據(jù)之間還會(huì)產(chǎn)生一些差異導(dǎo)致的互相排斥,這些數(shù)據(jù)中的沖突需要消除。還有數(shù)據(jù)的
冗余問題,也就是假使一部分的屬性可以被其他數(shù)據(jù)庫(kù)中數(shù)據(jù)屬性推斷的得到,數(shù)據(jù)集成中就出現(xiàn)了冗余的問題。
1.3數(shù)據(jù)的變換
數(shù)據(jù)的變化,主要是采用一定方式,把數(shù)據(jù)變換成和其相當(dāng),并且將適合信息挖掘出來的形式。具體變換有兩種,一種是規(guī)范化,一種是泛化[2]。規(guī)范化,主要構(gòu)成是零均值的規(guī)范化、最大最小情況的規(guī)范。泛化,就是把數(shù)據(jù)層和層次使用較高層次概念將其替代。
1.4數(shù)據(jù)的概念分層
現(xiàn)實(shí)中的數(shù)據(jù)有著一些明顯的特點(diǎn),連續(xù)性就是其一。但是在愛實(shí)際已經(jīng)應(yīng)用的算法中,能后對(duì)連續(xù)性數(shù)據(jù)處理的還較少數(shù)據(jù)的離散化,也就是采用區(qū)間的劃分,來代替某一些實(shí)際數(shù)據(jù),得到真實(shí)的連續(xù)數(shù)據(jù)。概念分層的意思主要是使用有效的高層概念來代替一些收集量較少的數(shù)據(jù)[3]。
2、關(guān)聯(lián)規(guī)則和決策
2.1關(guān)聯(lián)規(guī)則
在實(shí)際的數(shù)據(jù)挖掘領(lǐng)域中,整個(gè)過程采用對(duì)集合里的關(guān)聯(lián)、頻繁模式和因果結(jié)構(gòu)開展查找,目的是找到那些不被注意,或與人們?nèi)粘UJ(rèn)知習(xí)慣背離的事件。在經(jīng)濟(jì)統(tǒng)計(jì)中,數(shù)據(jù)關(guān)聯(lián)的挖掘,可以分析出一個(gè)大概的范圍(例如,國(guó)家范圍、省范圍、市范圍)關(guān)系比較密切一些行業(yè)。在進(jìn)行數(shù)據(jù)分析的過程中,不少的屬性之間實(shí)際的關(guān)系被人們所知曉。這些屬性被稱作平凡規(guī)則。例如,工業(yè)總產(chǎn)值的提升,帶來了生產(chǎn)總值的提升。利用關(guān)聯(lián)性原則,可以使不同屬性的數(shù)據(jù),通過分析之后,得到相關(guān)聯(lián)系屬性。
2.2決策
數(shù)據(jù)分類構(gòu)成是兩個(gè)步驟:第一,決策樹模型的形成,也就是采用訓(xùn)練集來得到一棵決策樹,來實(shí)現(xiàn)經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)決策的構(gòu)建和精化。第二,把輸入的數(shù)據(jù)在決策樹的指導(dǎo)下,開展分類的處理。在數(shù)據(jù)輸入決策樹的時(shí)候,數(shù)據(jù)會(huì)由根節(jié)點(diǎn),在屬性值依次開展測(cè)試。最后到達(dá)葉子終端的節(jié)點(diǎn),來達(dá)到尋找記錄所在類的類別[4]??偟膩頃?,決策樹算法基本是遞歸過程的一種,數(shù)據(jù)的分類一直可以延續(xù)到終止條件結(jié)束。
結(jié)語
經(jīng)濟(jì)的快速發(fā)展,使得經(jīng)濟(jì)統(tǒng)計(jì)工作各部分之間關(guān)系密切,使得經(jīng)濟(jì)統(tǒng)計(jì)分析的難度加大,數(shù)據(jù)挖掘能夠分析出事物內(nèi)部之間的聯(lián)系,并且揭示出隱含的、未知信息。數(shù)據(jù)挖掘統(tǒng)計(jì)分析在使得經(jīng)濟(jì)統(tǒng)計(jì)工作更加科學(xué)和有效,獲得不斷的進(jìn)步,為我國(guó)社會(huì)經(jīng)濟(jì)發(fā)展,以及國(guó)家財(cái)富積累發(fā)揮積極作用。技術(shù)就是通過發(fā)覺而使得經(jīng)濟(jì)統(tǒng)計(jì)工作能夠得以有效運(yùn)行。
參考文獻(xiàn)
[1]崔丹.數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計(jì)中的應(yīng)用探索[J].財(cái)經(jīng)界,2014,(5).
[2]畢春杰.數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計(jì)中的應(yīng)用探究[J].經(jīng)濟(jì)視野,2013,(24).
[3]韓秀榮.試論數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計(jì)中的應(yīng)用[J].商品與質(zhì)量·學(xué)術(shù)觀察,2013,(12).
[4]王康.關(guān)于數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計(jì)中的應(yīng)用[J].財(cái)經(jīng)界,2011,(10).
(作者單位:河北唐山市燃?xì)饧瘓F(tuán)有限公司)