摘要:隨著信息技術(shù)的發(fā)展,人類積累的數(shù)據(jù)量急劇增長。但是,由于數(shù)據(jù)量的擴大和數(shù)據(jù)涉及面的加寬,以往的數(shù)據(jù)分析方法已經(jīng)不再適用,大量的數(shù)據(jù)需要分析、處理,并從中抽取有價值的數(shù)據(jù)和信息,數(shù)據(jù)挖掘技術(shù)由此誕生。本文對數(shù)據(jù)挖掘技術(shù)進行了比較全面的介紹,主要介紹了目前在數(shù)據(jù)挖掘中常用的算法和工具,為解決這一難題提供了希望。
關(guān)鍵詞:數(shù)據(jù)挖掘;算法
中圖分類號:TP311.13 文獻標識碼:A 文章編號:1007-9599 (2012) 15-0000-02
隨著信息技術(shù)迅速發(fā)展,數(shù)據(jù)庫的規(guī)模不斷擴大,產(chǎn)生了大量的數(shù)據(jù)。如何處理這些豐富的數(shù)據(jù),使人們得到有益的信息成了目前亟待解決的問題。傳統(tǒng)的統(tǒng)計技術(shù)不能完成數(shù)據(jù)的分析。因此,綜合各種學(xué)科和技術(shù)的數(shù)據(jù)挖掘技術(shù)產(chǎn)生。
1 數(shù)據(jù)挖掘定義
數(shù)據(jù)挖掘是應(yīng)用一系列技術(shù)從大型數(shù)據(jù)庫或者數(shù)據(jù)倉庫的數(shù)據(jù)中提取人們感興趣的,隱含的、事先未知而潛在有用的,提取的知識表示為概念(Concepts)、規(guī)則(Rules)、模式(Patterns)等形式的信息和知識。簡言之,數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
2 數(shù)據(jù)挖掘算法
數(shù)據(jù)挖掘算法是根據(jù)數(shù)據(jù)創(chuàng)建數(shù)據(jù)挖掘模型的一組試探法和計算。 為了創(chuàng)建模型,算法將首先分析您提供的數(shù)據(jù),并查找特定類型的模式和趨勢。算法根據(jù)您的數(shù)據(jù)創(chuàng)建的挖掘模型可以采用多種形式,這包括:
(1)說明數(shù)據(jù)集中的事例如何相關(guān)的一組分類。
(2)預(yù)測結(jié)果并描述不同條件是如何影響該結(jié)果的決策樹。
(3)預(yù)測銷量的數(shù)學(xué)模型。
算法分類很多,但其中經(jīng)典十大算法為:C4.5,K-Means,SVM,Apriori,EM,PageRank,AdaBoost,KNN,NB和CART。
1)C4.5就是一個決策樹算法,它是決策樹核心算法ID3的改進算法,
2)CART也是一種決策樹算法,相對于上著有條件實現(xiàn)一個節(jié)點下面有多個子樹的多元分類,CART只是分類兩個子樹,所以說CART算法生成的決策樹是結(jié)構(gòu)簡潔的二叉樹。
3)K-Means 算法是一個聚類算法,首先從n個數(shù)據(jù)對象任意選擇k 個對象作為初始聚類中心;而對于所剩下其它對象,則根據(jù)它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類;然后再計算每個所獲新聚類的聚類中心(該聚類中所有對象的均值);不斷重復(fù)這一過程直到標準測度函數(shù)開始收斂為止。
4)Apriori算法通用于關(guān)聯(lián)規(guī)則。通過頻繁項集的一些規(guī)律來減少計算復(fù)雜度。
5)EM算法是通過先假設(shè)幾個值,然后通過反復(fù)迭代,以期望得到最好的擬合。
6)PageRank是Google算法的重要內(nèi)容。PageRank是通過網(wǎng)頁間的連接反復(fù)來實現(xiàn)。
7)AdaBoost是一種迭代算法,它根據(jù)每次訓(xùn)練集之中每個樣本的分類和總體分類來確定樣本。算法的完成時通過數(shù)據(jù)的改變和分布來實現(xiàn)。
8)KNN算法是一個理論上比較成熟的方法,實現(xiàn)起來就是對每個訓(xùn)練樣本都計算與其相似度,選擇相似度Top-K個訓(xùn)練樣本出來,看這K個樣本中那個類別的多些,誰多選誰。
9)SVM算法是一種監(jiān)督式學(xué)習(xí)的方法,是想找一個分類得最”好”的分類線/分類面。
10)NB算法是ML中的一個非?;A(chǔ)和簡單的算法,NB認為各個特征是獨立的,所以一個樣本,可以通過對其所有出現(xiàn)特征在給定類別的概率相乘。
3 數(shù)據(jù)挖掘的主要方法
目前,研究數(shù)據(jù)挖掘的方法有很多,主要方法包括傳統(tǒng)統(tǒng)計方法,粗集方法,模糊集方法、統(tǒng)計分析、神經(jīng)網(wǎng)絡(luò)、覆蓋正例排斥反例方法等。
(1)傳統(tǒng)統(tǒng)計方法:傳統(tǒng)的統(tǒng)計學(xué)為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。
(2)粗集方法:粗集是一種處理含糊性和不確定性的數(shù)學(xué)工具,它把那些無法確認的個體都歸屬于邊界線區(qū)域,而這種邊界線區(qū)域被定義為上近似集和下近似集之差集。
(3)模糊集方法:模糊處理技術(shù)是一種用精確的數(shù)學(xué)語言對模糊性進行描述的方法。模糊集則對集合中子類的邊界的不清楚定義進行模型化,它體現(xiàn)的是隸屬邊界的模糊性。
(4)統(tǒng)計分析方法主要指數(shù)理統(tǒng)計。它側(cè)重于數(shù)據(jù)的收集、整理和分析,從而找出現(xiàn)象的規(guī)律性或者是數(shù)據(jù)的特征,做出正確的判斷??蛇M行常用統(tǒng)計、回歸分析、相關(guān)分析和差異分析。
(5)神經(jīng)網(wǎng)絡(luò)是由大量的、簡單的神經(jīng)元廣泛地互相連接而形成的復(fù)雜網(wǎng)絡(luò)系統(tǒng)。神經(jīng)元是以生物神經(jīng)系統(tǒng)的神經(jīng)細胞為基礎(chǔ)的生物模型。典型的神經(jīng)網(wǎng)絡(luò)模型主要分三大類:前饋式神經(jīng)網(wǎng)絡(luò)模型、反饋式神經(jīng)網(wǎng)絡(luò)模型和自組織映射神經(jīng)網(wǎng)絡(luò)模型。
(6)覆蓋正例排斥反例方法是利用覆蓋所有正例、排斥所有反例的思想來尋找規(guī)則,從而找出規(guī)律。就是在正例集合中任意選一個種子,然后到反例集合中逐個比較。與字段取值構(gòu)成的選擇子相容則舍去,相反則保留。比較有代表性的算法有aq11方法、洪家榮的aq15方法和ae5方法。
4 數(shù)據(jù)挖掘過程
數(shù)據(jù)挖掘是一個不斷反復(fù)重復(fù)過程,通常涉及定義商業(yè)問題、 建立數(shù)據(jù)挖掘模型、分析數(shù)據(jù)、準備數(shù)據(jù)、建立模型、評價模型和實施等步驟。
(1)定義商業(yè)問題:在開始數(shù)據(jù)挖掘之前最基礎(chǔ)的就是理解數(shù)據(jù)和實際的業(yè)務(wù)問題,在這個基礎(chǔ)之上提出問題,對目標有明確的定義。
(2)建立數(shù)據(jù)挖掘模型:根據(jù)要挖掘的數(shù)據(jù)量的大小、數(shù)據(jù)的復(fù)雜程度、使用方式的不同,把要挖掘的數(shù)據(jù)都收集到一個數(shù)據(jù)庫中。在數(shù)據(jù)庫中,可以數(shù)據(jù)收集、數(shù)據(jù)描述、選擇、合并整合、構(gòu)建元數(shù)據(jù)等。
(3)分析數(shù)據(jù):察看數(shù)據(jù)挖掘模型以獲得更詳細的關(guān)于可視化、連結(jié)分析,及其他數(shù)據(jù)分析方法。分析的目的是找到對預(yù)測輸出影響最大的數(shù)據(jù)字段,和決定是否需要定義導(dǎo)出字段。
(4)準備數(shù)據(jù):這是建立模型之前的最后一步數(shù)據(jù)準備工作??梢园汛瞬襟E劃分成4個部分:選擇變量、選擇記錄、創(chuàng)建新變量、轉(zhuǎn)換變量。
(5)建立模型:準備好數(shù)據(jù)和類型,就需要選擇適合的模型。選取有用的參數(shù)和數(shù)據(jù),根據(jù)參數(shù)來生成模型。選擇什么樣的模型決定了處理那些數(shù)據(jù)。
(6)評價模型:模型建好之后,需對模型進行一個全面的評估。評估包括模型的評估結(jié)果和解釋模型的價值。最終生成一個最優(yōu)的模型,該模型應(yīng)用于實際。隨著應(yīng)用數(shù)據(jù)的不同,該模型的準確率會發(fā)生變化。
(7)實施:模型建立并經(jīng)驗證之后,可以有兩種主要的使用方法。一種是分析人員對模型應(yīng)用的表現(xiàn)進行監(jiān)控,通過監(jiān)控得到的數(shù)據(jù)作為參考,從而對模型進行修正和提出行動方案建議。另一種是把模型應(yīng)用到數(shù)據(jù)集上,不同的數(shù)據(jù)集會有不同的結(jié)構(gòu),從而找到運作規(guī)律的變化。
5 數(shù)據(jù)挖掘的主要工具
數(shù)據(jù)挖掘的工具繁多,但主要的有三類:通用型工具、綜合數(shù)據(jù)挖掘工具和面向特定應(yīng)用的工具。
通用型工具采用普通的數(shù)據(jù)挖掘算法,處理多種形式的數(shù)據(jù)挖掘,挖掘內(nèi)容由用戶自己來決定。數(shù)據(jù)處理的類型是普通的,其中包括的主要工具有IBM 公司的QUEST 系統(tǒng),SGI 公司的MineSet 系統(tǒng),
綜合數(shù)據(jù)挖掘工具這一部分市場反映了商業(yè)對具有多功能的決策支持工具的真實和迫切的需求。商業(yè)要求該工具能提供管理報告、在線分析處理和普通結(jié)構(gòu)中的數(shù)據(jù)挖掘能力。
面向特定應(yīng)用工具這一部分工具正在快速發(fā)展,這些工具是縱向的、貫穿這一領(lǐng)域的方方面面,其常用工具有重點應(yīng)用在零售業(yè)的KD1。
數(shù)據(jù)挖掘涉及多門學(xué)科和領(lǐng)域,近年來受到各界的廣泛關(guān)注。雖然它還存在許多問題,例如數(shù)據(jù)積累不充分、不全面;業(yè)務(wù)模型構(gòu)建困難;挖掘深度不夠等等。 但是,數(shù)據(jù)挖掘的出現(xiàn)為統(tǒng)計學(xué)提供了一個嶄新的應(yīng)用領(lǐng)域,也給統(tǒng)計學(xué)的理論研究提出了新的課題,它無疑會推動統(tǒng)計學(xué)的發(fā)展。