曾令思 王鐵方 首都師范大學(xué)
?
淺談數(shù)據(jù)挖掘
曾令思 王鐵方 首都師范大學(xué)
【文章摘要】
【關(guān)鍵詞】
大數(shù)據(jù);數(shù)據(jù)挖掘;數(shù)據(jù)存儲
隨著信息時代的來臨,網(wǎng)絡(luò)技術(shù)的發(fā)展和普及,各個行業(yè)都有爆炸性的數(shù)據(jù)增長,這些海量的數(shù)據(jù)中隱藏著我們需要的信息和財富。國際數(shù)據(jù)公司(ΙDC)報告稱,2011年全球被復(fù)制和創(chuàng)建的數(shù)據(jù)總量就已經(jīng)大得驚人,在短短幾年時間內(nèi)增長了近9倍,而且預(yù)計這些數(shù)據(jù)每兩年就將至少增加一倍。并且,政府機構(gòu)也對外宣稱了要加快數(shù)據(jù)研究進度這一重大計劃,各行業(yè)也在積極討論數(shù)據(jù)挖掘研究帶來的吸引力。面對如此龐大的數(shù)據(jù),以及這些數(shù)據(jù)背后的價值和新的機遇,挖掘和研究這些數(shù)據(jù)就會給我們帶來挑戰(zhàn)和切實的利益。
早在1989年8月美國底特律召開的第11屆國際功能會議上就出現(xiàn)了KDD這個術(shù)語,1995年學(xué)術(shù)界和工業(yè)界共同成立了ACM數(shù)據(jù)挖掘與知識發(fā)現(xiàn)專委,后者發(fā)展成為數(shù)據(jù)挖掘領(lǐng)域的頂級國際會議。數(shù)據(jù)挖掘是一門交叉學(xué)科,涉及到各個行業(yè)和各個領(lǐng)域,同時,隨著各行業(yè)對大量數(shù)據(jù)的處理深度和分析上的需求的增加,數(shù)據(jù)挖掘研究已經(jīng)成為了學(xué)術(shù)界研究的熱門學(xué)科,同時也受到各領(lǐng)域的重視。
經(jīng)過多年的發(fā)展,數(shù)據(jù)挖掘研究領(lǐng)域成果頗豐,已經(jīng)有了一套自己的基礎(chǔ)理論。從大體趨勢來說,國內(nèi)和國外的研究方法和方向有差異,尤其是在某些方面還是存在著一定的差距。總的來說,國外的研究更偏重交叉學(xué)科和理論基礎(chǔ)的研究,而國內(nèi)則偏重于實際的應(yīng)用上,用數(shù)據(jù)來解決實際的問題。同時,國內(nèi)的學(xué)者在研究上也處于世界前沿水平,在國際舞臺上也有十分突出的成績,近年來也頻頻有國內(nèi)團隊登上國際領(lǐng)獎臺。
在20世紀(jì)90年代中后期,用關(guān)聯(lián)規(guī)則來進行挖掘、分類、預(yù)測等被逐漸用于時間序列數(shù)據(jù)挖掘和空間數(shù)據(jù)挖掘,以發(fā)現(xiàn)與時間和空間相關(guān)的有價值的模式,這些手段使得數(shù)據(jù)挖掘研究領(lǐng)域已經(jīng)有了一些比較成熟的技術(shù)。如今的定位系統(tǒng)、手持移動設(shè)備等設(shè)備的普及和應(yīng)用積累了大量的移動對象數(shù)據(jù),對這些數(shù)據(jù)領(lǐng)域的研究使我們受益匪淺。近年來,數(shù)據(jù)挖掘研究已經(jīng)滲透到生物信息、醫(yī)療衛(wèi)生、智能交通、金融證券、社交網(wǎng)絡(luò)、多媒體數(shù)據(jù)挖掘、軌跡數(shù)據(jù)、文本數(shù)據(jù)等各大領(lǐng)域。這些領(lǐng)域與數(shù)據(jù)挖掘研究接軌后又會出現(xiàn)一些新的機遇和挑戰(zhàn)。
通常情況下我們把數(shù)據(jù)挖掘方法分為兩大方面,一是人工智能領(lǐng)域中的機器學(xué)習(xí)型,這種類型通過訓(xùn)練和學(xué)習(xí)大量的樣品獲得需要的模式或者參數(shù);二是統(tǒng)計類型,有判別分析、相關(guān)性分析和概率分析等技術(shù)。
2.1可視化技術(shù)
可視化技術(shù)指采用計算機圖形學(xué)和圖像處理技術(shù),把抽象的東西轉(zhuǎn)換成圖像并且在屏幕上顯示出來的一種讓人一目了然的方法,從而進行交互處理的技術(shù)。它將幾何數(shù)據(jù)繪制成目標(biāo)圖像,將圖像按照要求進行輸出顯示在屏幕上。
2.2模糊技術(shù)
通過利用原有的數(shù)據(jù)挖掘技術(shù)的同時,結(jié)合模糊理論,從大數(shù)據(jù)中發(fā)現(xiàn)更為廣泛的內(nèi)容,并將其挖掘出來以方便用戶理解。因為模糊性的客觀存在,而且復(fù)雜性較高,因此,數(shù)據(jù)采集之間的關(guān)系表現(xiàn)出十分的模糊。將模糊理論與數(shù)據(jù)挖掘技術(shù)結(jié)合從大量、不完全的數(shù)據(jù)中提取潛在的、模糊決策、模糊模式識別和模糊聚類分析。
2.3粗糙集方法
粗糙集理論為一種描述不確定性和不完整性的數(shù)學(xué)工具,可以有效地處理和分析不完整、不一致、不精確等信息,并從中發(fā)現(xiàn)知識,揭示規(guī)律。粗集理論是處理模糊數(shù)據(jù)的有力工具,且粗集理論的創(chuàng)建和研究的出發(fā)點是直接對數(shù)據(jù)進行分析和推理,發(fā)現(xiàn)隱含的知識并揭示規(guī)律。
2.4神經(jīng)網(wǎng)絡(luò)
指能夠模仿人腦神經(jīng)元的人工神經(jīng)網(wǎng)絡(luò),并能進行信息的處理。需要通過一定時間的訓(xùn)練才能增強挖掘結(jié)果的可理解性。其工作原理是根據(jù)人腦神經(jīng)元的原理,通過不斷修正其內(nèi)部的節(jié)點間相互連接的關(guān)系達(dá)到處理信息的目的。
2.5遺傳算法
遺傳算法是在生物進化過程中,在組合優(yōu)化的基礎(chǔ)上的提出的,這是生物學(xué)與計算機結(jié)合的產(chǎn)物。就像生物的進化一樣,會選擇適宜度更強的個體進行交換和變異,通過時間和空間上的類比,能夠使大量數(shù)據(jù)系統(tǒng)化和簡單化,以方便找到他們的內(nèi)在聯(lián)系獲得概念和模式。
2.6決策樹
決策樹的構(gòu)造不需要任何領(lǐng)域的知識,很適合知識的挖掘并且可以處理高維度的數(shù)據(jù)。決策樹可以被大多數(shù)人所掌握,并且,不需要太多的專業(yè)知識。
2.7關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則挖掘技術(shù)就是從大量數(shù)據(jù)中發(fā)現(xiàn)其相關(guān)性,這也是最常見的數(shù)據(jù)挖掘的方法。通過層層的篩選以減少候選的子集數(shù),從而加快了關(guān)聯(lián)規(guī)則挖掘的進度。
數(shù)據(jù)的應(yīng)用實質(zhì)上是利用數(shù)據(jù)的分析結(jié)果,為用戶提供輔助決策,發(fā)掘潛在價值的過程。數(shù)據(jù)挖掘技術(shù)是面向應(yīng)用的,是為了獲取信息來服務(wù)各行業(yè)。隨著數(shù)據(jù)挖掘研究的深入與成熟,發(fā)展和推廣,數(shù)據(jù)應(yīng)用技術(shù)也會越來越廣泛。現(xiàn)階段,數(shù)據(jù)挖掘應(yīng)用主要集中在以下方面。在金融業(yè)上:用于銀行行業(yè)各種趨勢預(yù)測,優(yōu)化存貸策越等。客戶關(guān)系管理:用于分析客戶的行為,對客戶進行分類,改善客戶關(guān)系等。生物信息:用于各種染色體、基因序列的識別以及制藥生物信息和科學(xué)研究等。電子商務(wù):用于在線交互式營銷系統(tǒng)的經(jīng)營模式、市場策略等方面來優(yōu)化網(wǎng)站結(jié)構(gòu),改善網(wǎng)易推薦和商品推薦內(nèi)容等。零售業(yè):數(shù)據(jù)挖掘技術(shù)被用來進行分析購物籃來協(xié)助貨架設(shè)置,安排促銷商品的時間等商業(yè)活動。
數(shù)據(jù)的挖掘與研究開啟了一次重大的時代轉(zhuǎn)型,這個時代將是技術(shù)推動了數(shù)據(jù)的發(fā)展,是數(shù)據(jù)推動著社會前進。它通過對數(shù)據(jù)的挖掘和分析發(fā)現(xiàn)數(shù)據(jù)中潛在的價值,并具有重要的研究意義的實際應(yīng)用價值。數(shù)據(jù)挖掘研究有著廣泛的應(yīng)用前景,對數(shù)據(jù)的深入挖掘分析,也將是我們未來努力的方向。
【參考文獻(xiàn)】
[1]吉根林,趙斌。面向大數(shù)據(jù)的時空數(shù)據(jù)挖掘綜述[J]。南京師范大學(xué)學(xué)報(自然科學(xué)版),2014,37(1):91-98。
[2]劉大有,陳慧靈,齊紅,等。時空數(shù)據(jù)挖掘研究進展[J]。計算機研究與發(fā)展,2013,50(2):225-239。
[3]王雅軒,項聰。數(shù)據(jù)挖掘技術(shù)的綜述[J]。電子技術(shù)與軟件工程,2015:204-205。
[4]萬家華,劉冰,江早。知識發(fā)現(xiàn)中的可視化技術(shù)[J]。計算機科學(xué),2000,27(增刊):131-134
[5]何新貴。數(shù)據(jù)采掘中的模糊技術(shù)[J]。計算機科學(xué),1998,25(???29-131
隨著網(wǎng)絡(luò)的發(fā)展與普及,各個行業(yè)都有著大量的數(shù)據(jù)需要存儲。然而,如何挖掘和利用這些數(shù)據(jù),將他們轉(zhuǎn)變?yōu)橛行畔?,更好地為人們服?wù),一直是數(shù)據(jù)挖掘的最終目的。本文主要研究利用數(shù)據(jù)分析研究的方法,把數(shù)據(jù)轉(zhuǎn)化成信息,實現(xiàn)數(shù)據(jù)的價值。并介紹了數(shù)據(jù)挖掘研究的產(chǎn)生和發(fā)展,以及數(shù)據(jù)挖掘的技術(shù)和方法、在生活中的應(yīng)用。