張震
【摘要】在社會經(jīng)濟(jì)的不斷發(fā)展下,各種數(shù)據(jù)信息的數(shù)據(jù)量已經(jīng)超越了人們所能夠收集的極限。面對這種情況,相關(guān)研究人員正在不斷進(jìn)行探索,在如何利用龐大數(shù)據(jù)挖掘出有用的信息方面、如何創(chuàng)造出有用的信息挖掘技術(shù)、如何才能創(chuàng)造出有用的價值等方面已經(jīng)有所成就??萍既藛T研發(fā)出的數(shù)據(jù)挖掘技術(shù),能夠讓使用者在使用這項技術(shù)時,讓數(shù)據(jù)變得更加整潔利落。所以,本文就將針對數(shù)據(jù)挖掘技術(shù)的內(nèi)涵特點進(jìn)行分析,并探究其在經(jīng)濟(jì)統(tǒng)計中的應(yīng)用。
【關(guān)鍵詞】數(shù)據(jù)挖掘技術(shù);經(jīng)濟(jì)統(tǒng)計;應(yīng)用探究
前言:在這個大數(shù)據(jù)時代,想要收集一些準(zhǔn)確有用的信息,需要通過一些技術(shù)知識的支持,統(tǒng)計學(xué)就能夠幫助人們在經(jīng)濟(jì)社會中,篩選一些有用的信息。在經(jīng)濟(jì)統(tǒng)計中,通常會收集數(shù)據(jù)的運行信息,并將有用的信息整理到數(shù)據(jù)庫中。由于數(shù)據(jù)有空值與噪聲,這對于數(shù)據(jù)的收集會起到阻礙作用,但是為了讓數(shù)據(jù)有效準(zhǔn)確,在挖掘數(shù)據(jù)前需要進(jìn)行預(yù)處理工作。
1. 數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計中的內(nèi)涵及特點分析
1.1 數(shù)據(jù)挖掘技術(shù)的內(nèi)涵
數(shù)據(jù)挖掘,就是數(shù)據(jù)的深加工,對數(shù)據(jù)信息精細(xì)化的過程。數(shù)據(jù)挖掘技術(shù)的作用是,面對現(xiàn)有的大數(shù)據(jù),進(jìn)行數(shù)據(jù)深層次的開發(fā),并在眾多的數(shù)據(jù)庫中,整理出自身需要的數(shù)據(jù),對自身有用的數(shù)據(jù),將一些零散的數(shù)據(jù)、一些不完整的數(shù)據(jù)進(jìn)行規(guī)整化。因為數(shù)據(jù)具有隨機(jī)性與噪聲性,所以在眾多的數(shù)據(jù)中很容易出現(xiàn)模糊的數(shù)據(jù)。但是通過使用數(shù)據(jù)挖掘技術(shù),能夠深度挖掘數(shù)據(jù)中的有用信息,并且能夠?qū)?shù)據(jù)中的數(shù)據(jù)進(jìn)一步地提煉,讓數(shù)據(jù)變得更加清晰更加有用。
在利用數(shù)據(jù)挖掘技術(shù)處理信息時,需要在經(jīng)濟(jì)數(shù)據(jù)轉(zhuǎn)換的基礎(chǔ)上,利用統(tǒng)計學(xué)、神經(jīng)網(wǎng)絡(luò)學(xué)等其它學(xué)科的技術(shù)進(jìn)行輔助。所以,數(shù)據(jù)挖掘技術(shù)也是一種具有學(xué)科交叉的技術(shù)。數(shù)據(jù)挖掘技術(shù)能夠被廣泛地應(yīng)用在統(tǒng)計學(xué)科中,能夠讓收集到的數(shù)據(jù)更有利于統(tǒng)計分析,能夠提高使用者在數(shù)據(jù)分析時的效率,讓整個數(shù)據(jù)分析過程更加簡便化。
1.2 數(shù)據(jù)挖掘技術(shù)的特點
數(shù)據(jù)挖掘技術(shù)具有三個方面的特點:第一,數(shù)據(jù)本身就蘊藏有效信息,只是會被眾多數(shù)據(jù)信息隱藏起來。所以,使用數(shù)據(jù)挖掘技術(shù)時,需要處理的信息量也是非常巨大的,通??梢钥吹接肨B或是GB來形容大數(shù)據(jù)。第二,在成功建立起數(shù)據(jù)庫后,可以通過關(guān)鍵詞的方式,搜索有用數(shù)據(jù),這樣可以查找到不少關(guān)于自身需要的信息,可以進(jìn)一步縮小信息的搜索范圍,讓數(shù)據(jù)收集變得更加高效。第三,由于經(jīng)濟(jì)社會的信息在不斷擴(kuò)充,信息庫所要儲存的信息量也就越來越大,這就要求信息庫也需要不斷擴(kuò)充容量滿足信息生產(chǎn)的需求。除此之外,為了方便使用者更快尋找到所需信息,需要提高對信息搜索的準(zhǔn)確性。
2. 數(shù)據(jù)挖掘技術(shù)的應(yīng)用
2.1 預(yù)處理方法運用
數(shù)據(jù)的預(yù)處理包括數(shù)據(jù)變換、數(shù)據(jù)集成、數(shù)據(jù)清理等三個部分。數(shù)據(jù)變換就是通過不同方法對數(shù)據(jù)進(jìn)行轉(zhuǎn)化,使轉(zhuǎn)化后的數(shù)據(jù)能滿足數(shù)據(jù)挖掘的需求。在數(shù)據(jù)變換中包括兩點的內(nèi)容,即數(shù)據(jù)規(guī)?;c數(shù)據(jù)泛化。在數(shù)據(jù)規(guī)?;羞€可以深入地劃分為最大化規(guī)范、零均值規(guī)范、最小化規(guī)范等。而數(shù)據(jù)泛化是將高層次的數(shù)據(jù)轉(zhuǎn)化為低層次的數(shù)據(jù),其中需要關(guān)注連續(xù)性方面的問題。
所謂的數(shù)據(jù)集成就是將不同的數(shù)據(jù)集合在一起,以便形成一個完整的數(shù)據(jù)總體。在數(shù)據(jù)集成中需要關(guān)注,數(shù)據(jù)集成的準(zhǔn)確性與確保數(shù)據(jù)能夠集成這兩個問題。由于社會信息量的不斷增長,提供數(shù)據(jù)的源頭也越來越多。數(shù)據(jù)不僅可以從官方中獲得,也可以從個人中獲得,還可以從社會主體中獲得。在這些不同的數(shù)據(jù)來源中,經(jīng)常會面對數(shù)據(jù)冗余問題與模式集成問題。數(shù)據(jù)冗余就是存在多余的數(shù)據(jù),所以為了讓數(shù)據(jù)庫中存在的信息合理化,就需要讓數(shù)據(jù)保持最少化,將多余重復(fù)的信息剔除。模式集成就是實體在識別時可能會出現(xiàn)的問題。對于經(jīng)濟(jì)數(shù)據(jù)的挖掘來說,這是一種經(jīng)濟(jì)數(shù)據(jù)的深加工,能夠讓呈現(xiàn)出的結(jié)果更加清晰明了,更加簡便化。
所謂的數(shù)據(jù)清理就是將收集到的數(shù)據(jù)進(jìn)行篩選,將一些無用數(shù)據(jù)或是不全面的數(shù)據(jù)剔除。在剔除這些無效數(shù)據(jù)時,通常會使用頻率統(tǒng)計法、平滑法、預(yù)測法以及均值法等四種不同的方法。在實際的數(shù)據(jù)清理中,針對不同的情況需要使用不同的方法。比如,在經(jīng)濟(jì)統(tǒng)計數(shù)據(jù)中如果存在大量的空值與噪聲數(shù)據(jù),就可以采用均值法或平滑法。均值法與平滑法的不同點在于,在使用時平滑法是通過加權(quán)平均數(shù)進(jìn)行的,在效果上,平滑法能夠讓數(shù)據(jù)更具真實性。而均值法在使用時是通過均值彌補數(shù)據(jù)的空缺進(jìn)行的,這樣也同樣可以得到準(zhǔn)確性高的數(shù)據(jù)。
2.2 決策樹方法
決策樹是能夠快速分類信息的方法,在經(jīng)濟(jì)數(shù)據(jù)中使用能夠得到比較高的效率,因為決策樹能夠讓數(shù)據(jù)有一個更加直觀的呈現(xiàn)。如果想要讓收集到的數(shù)據(jù)更具有價值,就盡可能地讓數(shù)據(jù)收集方法變得更加規(guī)范,讓數(shù)據(jù)的分析能夠進(jìn)行系統(tǒng)性的分析。在挖掘數(shù)據(jù)的程序中,除了數(shù)據(jù)分析之外,同樣重要的是數(shù)據(jù)輸出。因為通過決策樹輸出數(shù)據(jù)的是會在實際過程中使用的數(shù)據(jù),所以這種輸出數(shù)據(jù)的質(zhì)量也可以說是在使用過程時的效率問題。尤其對于經(jīng)濟(jì)的決策管理者而言,需要強有力的數(shù)據(jù)作為支撐,才能夠?qū)?jīng)濟(jì)進(jìn)行有效調(diào)控。
在使用決策樹對經(jīng)濟(jì)數(shù)據(jù)進(jìn)行分析時,需要先從分析數(shù)據(jù)的基本模型與數(shù)據(jù)分類兩個方面,建構(gòu)一個完整的決策樹結(jié)構(gòu)。在構(gòu)建決策樹時要求做到精簡,在數(shù)據(jù)分類時需要同決策樹的根部開始到樹枝結(jié)束,在這種遞歸方式的分類中,需要在開展樹枝時同步完成。在使用決策樹的實際過程中,一方面需要注意數(shù)據(jù)挖掘預(yù)測方面的問題,另一方面,數(shù)據(jù)分類中的問題也是不可以忽視的。成功構(gòu)建決策樹后,應(yīng)該要根據(jù)實際使用,展開調(diào)查工作,讓決策樹更貼合實際的使用。如果想要在實際使用決策樹的過程中,讓決策樹停止運行可以從兩個方面考慮:第一,就是一個節(jié)點中的所有數(shù)據(jù)都被歸分在同一類別。第二,在分類屬性中,已經(jīng)不可以再次對數(shù)據(jù)進(jìn)行分割。
3. 結(jié)論
根據(jù)上文論述的內(nèi)容,可以知道在經(jīng)濟(jì)數(shù)據(jù)的統(tǒng)計分析中,如果能夠有效利用數(shù)據(jù)挖掘技術(shù),將會使得數(shù)據(jù)信息的價值最大化,還能夠提高信息的收集效率,讓使用者感受到技術(shù)帶來的便利。所以,如果能夠在經(jīng)濟(jì)統(tǒng)計中有效應(yīng)用預(yù)處理方法與決策樹方法,將會讓經(jīng)濟(jì)統(tǒng)計數(shù)據(jù)發(fā)揮到最大價值。
參考文獻(xiàn):
[1]吉立爽.數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計中的應(yīng)用研究[J].中國市場,2020(08):195-196.
[2]劉秀華. 淺談數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計中的應(yīng)用[J].商場現(xiàn)代化. 2014(23).
[3]郝巖.數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計中的應(yīng)用探究[J].現(xiàn)代經(jīng)濟(jì)信息. 2013(11).