朱芷瑩 余思賢
摘 要:當(dāng)今世界正處于從IT時代向DT時代邁進(jìn)的過渡階段,大數(shù)據(jù)時代。數(shù)據(jù)挖掘技術(shù)是一種數(shù)據(jù)處理技術(shù),其前景非常理想,本文以數(shù)據(jù)挖掘的定義為出發(fā)點,細(xì)致的介紹了各種數(shù)據(jù)挖掘的技術(shù)方法,總結(jié)其特點,并給出相應(yīng)的應(yīng)用領(lǐng)域。
關(guān)鍵詞:DT時代;數(shù)據(jù)挖掘;應(yīng)用領(lǐng)域
大數(shù)據(jù)的概念最先出現(xiàn)于網(wǎng)絡(luò)上,它用于描述一個現(xiàn)象:互聯(lián)網(wǎng)公司日常運營所產(chǎn)生和積累的客戶數(shù)據(jù)量呈現(xiàn)爆炸式增長,導(dǎo)致現(xiàn)有數(shù)據(jù)管理軟件無法駕馭,其難點在于,數(shù)據(jù)的獲取、存儲、處理和分析。這種數(shù)據(jù)量,不是用日常衡量單位G或T來衡量,而是P(220G)、E(230G)或Z(240G)或者更大的數(shù)量級來度量。所以被稱為大數(shù)據(jù)[1]。大數(shù)據(jù)的主要來源有4個方面,分別為傳感器、網(wǎng)站點擊流、移動設(shè)備和射頻識別。其特點是數(shù)據(jù)源異構(gòu)復(fù)雜和種類繁多、數(shù)據(jù)量體量大、實時處理困難。
數(shù)據(jù)挖掘技術(shù)作為一種數(shù)據(jù)處理技術(shù),能有效從大量數(shù)據(jù)中獲取有效信息,能較好針對大數(shù)據(jù)特點,處理大數(shù)據(jù)。因此,其在大數(shù)據(jù)時代背景下,有遠(yuǎn)大的前景和充足的應(yīng)用空間。
1.數(shù)據(jù)挖掘
數(shù)據(jù)挖掘作為一門新興的交叉學(xué)科[2],其廣義上的定義為,從數(shù)據(jù)集里面獲取隱晦的有用的信息和知識的過程。其操作的核心理念:基于對數(shù)據(jù)集的深刻認(rèn)識,高度抽象并概括數(shù)據(jù)本質(zhì),將數(shù)據(jù)隱藏的信息變得易于讀取。這些數(shù)據(jù)集往往具有大規(guī)模性、不完全性、參雜噪聲、模糊性和隨機性的特點,涵蓋了大數(shù)據(jù)的特點。所以,數(shù)據(jù)挖掘技術(shù)能很好地應(yīng)對大數(shù)據(jù)。
數(shù)據(jù)挖掘一般有五個步驟,分別是數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理、模式發(fā)現(xiàn)、模式評估和知識表達(dá)。
1.1數(shù)據(jù)選擇
由于原始數(shù)據(jù)集具有規(guī)模大、參雜噪聲的特點,所以必須根據(jù)想要獲取信息的特點,選擇相應(yīng)的數(shù)據(jù)集來進(jìn)行數(shù)據(jù)挖掘操作。這樣可以極大的減少運算量,提升挖掘效率。
1.2數(shù)據(jù)預(yù)處理
原始數(shù)據(jù)中各類數(shù)據(jù)的單位、量級通常不同,為保證能快速挖掘出有用信息,必須進(jìn)行數(shù)據(jù)預(yù)處理操作。預(yù)處理的方法有數(shù)據(jù)清理、數(shù)據(jù)集成和變換、數(shù)據(jù)歸約、數(shù)據(jù)離散化等。需要根據(jù)數(shù)據(jù)的特點和挖掘目標(biāo)選擇相應(yīng)的方法。
1.3模式發(fā)現(xiàn)
這是數(shù)據(jù)挖掘過程的關(guān)鍵環(huán)節(jié),是從預(yù)處理后的數(shù)據(jù)中進(jìn)行知識發(fā)現(xiàn)的過程。
1.4模式評估
這是評價環(huán)節(jié),對發(fā)現(xiàn)的知識進(jìn)行評估,得到對應(yīng)的知識模式。
1.5知識表示
這是數(shù)據(jù)挖掘的結(jié)果展示環(huán)節(jié)。將挖掘出的知識模式通過直觀感性的方式展示出來,把機器可讀的數(shù)據(jù)變成人類可讀的圖文。
2.數(shù)據(jù)挖掘的技術(shù)方法
數(shù)據(jù)挖掘的技術(shù)方法按模型建立方式的不同,可簡單歸為兩類。一類是統(tǒng)計類,有聚類分析和關(guān)聯(lián)分析等;一類是機器學(xué)習(xí)類,有監(jiān)督性學(xué)習(xí)和無監(jiān)督性學(xué)習(xí)。每種方法都有其的功能特點和相應(yīng)的應(yīng)用領(lǐng)域,以下介紹數(shù)據(jù)挖掘中常用的幾種技術(shù)方法。
2.1關(guān)聯(lián)分析
關(guān)聯(lián)分析作為一種有效的數(shù)據(jù)挖掘技術(shù),其主要用于發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)性。其基本思路可用“W->B”表示。其中W指屬性集,B指屬性個體。操作規(guī)則簡單來說,就是在數(shù)據(jù)集中,W具有真值,則B具有真值的可能性和趨勢。最典型的關(guān)聯(lián)分析為貨籃分析。其屬性值有兩個,分別是支持度和置信度。這樣W屬性集就由“支持度-置信度”構(gòu)成。比如,在生產(chǎn)過程中,事件A發(fā)生了,分析事件B發(fā)生的可能性。這個對于故障檢測和維修很有應(yīng)用價值。關(guān)聯(lián)分析能從關(guān)系數(shù)據(jù)中,獲取感興趣的知識模式,在眾多行業(yè)中都有應(yīng)用價值。
2.2 決策樹
決策樹主要是根據(jù)數(shù)據(jù)的屬性值來對數(shù)據(jù)進(jìn)行分類,其主要的規(guī)則是“If-then”。它的主要優(yōu)點就是直觀性,可以顯示出得出結(jié)果的決策過程。這點,它優(yōu)于神經(jīng)網(wǎng)絡(luò)。但是,在面對復(fù)雜的數(shù)據(jù)時,決策樹會產(chǎn)生很多的分支,這不便于管理。此外,在面對數(shù)據(jù)缺值問題時,它沒有較好的處理方法。目前,決策樹涵蓋的算法有ID3、CART、CHAID、SPRINT和SLIQ。
2.3 遺傳算法
遺傳算法用到了生物學(xué)中的一個概念--遺傳。物種的繁衍講究適者生存原則,同樣,遺傳算法也有著類似原則。其通過模擬自然界物種的進(jìn)化機制,逐漸產(chǎn)生最合適的規(guī)則,并組建新群體,而后產(chǎn)生規(guī)則的子體。因此,可利用遺傳算法獲得最佳模型,優(yōu)化數(shù)據(jù)模型。遺傳算法是一種弱方法,對信息缺少問題不敏感,效率高,運用也較為靈活,可用于評估數(shù)據(jù)挖掘算法中的其他算法。
該算法在處理數(shù)據(jù)分類問題上,極其合適。利用時間類比和空間類比的手段,將大量的種類豐富的信息數(shù)據(jù)系統(tǒng)化,從而發(fā)現(xiàn)數(shù)據(jù)間的內(nèi)在關(guān)聯(lián),獲得合適的模型。在模型建立時,可以與神經(jīng)網(wǎng)絡(luò)算法相結(jié)合,提高模型的可理解性。
2.4貝葉斯網(wǎng)絡(luò)
貝葉斯網(wǎng)絡(luò)作為建立在數(shù)據(jù)統(tǒng)計基礎(chǔ)上一種方法,其理論依據(jù)就是后驗概率的貝葉斯定理。其思路是將不確定事件用網(wǎng)絡(luò)關(guān)聯(lián)起來,從而預(yù)測相關(guān)事件的發(fā)生概率。其網(wǎng)絡(luò)變量沒有明確要求,可以可見,也可以隱藏于樣本中。其功能有聚類、分類、預(yù)測和因果分析。對比其他算法,貝葉斯網(wǎng)絡(luò)的優(yōu)勢在于可理解性好、預(yù)測效果好。不過,對于低概率事件的處理問題,它效果較差。
2.5 粗糙集方法
粗糙集方法作為一種數(shù)學(xué)工具,對于數(shù)據(jù)挖掘,意義重大。在面對含糊性的問題時,該方法可以找出不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)的內(nèi)在結(jié)構(gòu)聯(lián)系。此外,還可以進(jìn)行特征歸約和相關(guān)性分析的操作。粗糙集主要優(yōu)點在于,不依賴數(shù)據(jù)的初始或附加信息。這樣,在應(yīng)對不完整的信息分類時,可以采用它。應(yīng)用粗糙集方法,可以極大提高數(shù)據(jù)挖掘的效率。
2.6 神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)屬于最常見的數(shù)據(jù)挖掘技術(shù)。其基本思路是,通過模擬人腦的重復(fù)學(xué)習(xí)方式,對訓(xùn)練樣本進(jìn)行學(xué)習(xí)和訓(xùn)練,最終得到區(qū)分各種樣本的特征和模式。為保證精準(zhǔn)擬合各種樣本數(shù)據(jù),應(yīng)盡量挑選具有代表性的訓(xùn)練樣本集。它的最大特點在于,可理解性差,即無法知道通過何種規(guī)則得到這樣的結(jié)果。優(yōu)點在于,能處理復(fù)雜問題、對噪聲數(shù)據(jù)不敏感以及能對新數(shù)據(jù)進(jìn)行分類。
2.7 統(tǒng)計分析
統(tǒng)計分析是基于統(tǒng)計學(xué)和概率論的一種數(shù)據(jù)挖掘方法。它是基于數(shù)學(xué)模型的一種方法,具有易于理解,精準(zhǔn)計算結(jié)果的特點。統(tǒng)計分析主要包含回歸分析、因子分析和判別分析三種,實際應(yīng)用空間較大。
3.數(shù)據(jù)挖掘技術(shù)的應(yīng)用
數(shù)據(jù)挖掘技術(shù)應(yīng)用的領(lǐng)域很廣泛,下面簡單的介紹四種應(yīng)用領(lǐng)域。
3.1市場銷售領(lǐng)域[3]
數(shù)據(jù)挖掘技術(shù)最早開始應(yīng)用的領(lǐng)域和應(yīng)用最多的領(lǐng)域就是市場銷售,旨在分析消費者的消費習(xí)慣和特點,增加銷售量。同時,也常用發(fā)現(xiàn)潛在客戶,增加行業(yè)效益。常用的數(shù)據(jù)挖掘技術(shù)有關(guān)聯(lián)分析、決策樹和粗糙集方法[1]。需要注意的一點,在對客戶數(shù)據(jù)進(jìn)行挖掘的同時,注意保護(hù)好客戶信息不泄露,保護(hù)客戶的個人隱私。
3.2科研領(lǐng)域
分析各種實驗數(shù)據(jù),是科研的必要步驟。數(shù)據(jù)挖掘技術(shù)作為一種數(shù)據(jù)處理技術(shù),經(jīng)常會被用于分析各種實驗數(shù)據(jù),尋找相關(guān)規(guī)律。在科研領(lǐng)域,數(shù)據(jù)挖掘就是一個工具,各種技術(shù)方法都會根據(jù)需要而被使用。
3.3制造領(lǐng)域
生產(chǎn)產(chǎn)品的過程中,也會生產(chǎn)出各種數(shù)據(jù)。這些數(shù)據(jù),反映著生產(chǎn)技術(shù)、產(chǎn)品、運輸?shù)确矫娴男畔ⅰMㄟ^使用數(shù)據(jù)挖掘技術(shù),能找出影響產(chǎn)品質(zhì)量和生產(chǎn)效率的因素。消除這些因素,就可提高生產(chǎn)效率和產(chǎn)品質(zhì)量。在制造領(lǐng)域,常用的數(shù)據(jù)挖掘方法有關(guān)聯(lián)分析、決策樹、貝葉斯網(wǎng)絡(luò)、粗糙集、神經(jīng)網(wǎng)絡(luò)和統(tǒng)計分析。
3.4金融領(lǐng)域
金融行業(yè)的數(shù)據(jù)較為完整、齊全,且金融業(yè)的利潤大。因此,數(shù)據(jù)挖掘技術(shù)在這個行業(yè)里,得到較為成熟的應(yīng)用。其主要通過數(shù)據(jù)挖掘來分析市場波動,建立對應(yīng)的預(yù)測模型,給投資分析提供便利。常用的數(shù)據(jù)挖掘技術(shù)有遺傳算法、粗糙集方法、神經(jīng)網(wǎng)絡(luò)和統(tǒng)計分析。
總結(jié)
在大數(shù)據(jù)時代背景下,數(shù)據(jù)挖掘技術(shù)作為能較好處理大數(shù)據(jù)的工具,其前途不可限量。
參考文獻(xiàn):
[1]唐雅璇, 李麗娟, 吳芬琳. 大數(shù)據(jù)時代的數(shù)據(jù)挖掘技術(shù)與應(yīng)用[J]. 電子技術(shù)與軟件工程, 2017(21):159-159.
作者簡介:
朱芷瑩(1998—),女,漢族,四川成都人,本科在讀,西安財經(jīng)大學(xué)信息管理與信息系統(tǒng)專業(yè)大三學(xué)生
余思賢(1999—),女,漢族,江西上饒人,本科在讀,西安財經(jīng)大學(xué)信息管理與信息系統(tǒng)專業(yè)大三學(xué)生