【摘 要】近年來,數(shù)據(jù)庫技術與數(shù)據(jù)挖掘技術的飛速發(fā)展,引起了各個學科領域的研究人員的極大關注和重視,使得數(shù)據(jù)挖掘技術變得越來越重要,隨即擴展到各個領域。當前,數(shù)據(jù)的挖掘已成為一個研究熱點。本文就從數(shù)據(jù)挖掘技術入手,圍繞數(shù)據(jù)挖掘的幾個關鍵技術展開全面的分析和研究,最后還簡述了當前數(shù)據(jù)挖掘技術的實際應用,以突出數(shù)據(jù)挖掘技術的應用價值和前景,以供借鑒參考。
【關鍵詞】數(shù)據(jù)挖掘;關鍵技術;實際應用
前 言
數(shù)據(jù)挖掘從一開始的簡單查詢已提升到從數(shù)據(jù)中挖掘知識,提供決策支持,它屬于一門交叉學科。近年來,國內外許多研究機構都進行了數(shù)據(jù)挖掘技術的研究和探索??梢哉f,從大量數(shù)據(jù)中提取潛在的有用的知識和信息的數(shù)據(jù)挖掘技術,將在更多的領域得到研究和廣泛應用。
一、數(shù)據(jù)挖掘的關鍵技術
數(shù)據(jù)挖掘可以說是一種決策支持過程,分析各組織原有的數(shù)據(jù),做出歸納和推理,從中挖掘出潛在有用的、有效的模式,為管理人員決策提供支持。為了有效地挖掘出數(shù)據(jù)中潛在的信息,需要對數(shù)據(jù)挖掘技術進行深入研究。由此,下面就對數(shù)據(jù)挖掘的可視化技術、決策樹、遺傳算法、模糊技術、最近鄰技術這五個關鍵技術進行詳實的論述和分析。
1.可視化技術
數(shù)據(jù)可視化技術(也稱為圖形顯示技術),就是使用可視化的圖形描繪信息模型,然后將顯示出的數(shù)據(jù)趨勢很直觀的呈現(xiàn)給決策者。和其他的數(shù)據(jù)挖掘技術,使用這種技術時通常是一個組合,它可以交互地分析數(shù)據(jù),我們應該說,這種技術的實用性不容低估。例如,在數(shù)據(jù)庫中的多維數(shù)據(jù)成各種圖形顯示數(shù)據(jù)固有的性質和分布數(shù)據(jù)的特點發(fā)揮了重要作用??傊?,將數(shù)據(jù)挖掘過程可視化,更容易找到數(shù)據(jù)之間可能存在的模式、關系和異常情況等。
2.決策樹
決策樹可以說是按照一系列規(guī)則導出類值的一種挖掘方法,它可以依靠計算條件概率來構造。具體而言,決策樹的基本思想是通過一個樹狀結構的數(shù)據(jù)進行分類記錄,樹的葉節(jié)點表示了在一定條件下的一組記錄,根據(jù)記錄建立樹枝分支;在每個較低的節(jié)點和分支子集中,成立重復的分支子集,從而生成一個決策樹。每個決策樹都表述了一種樹型結構,可以依靠對源數(shù)據(jù)庫的分割進行數(shù)據(jù)測試。總之,這種挖掘方法可以有效地處理非數(shù)值數(shù)據(jù),并允許獨立的變量,在固有的神經(jīng)網(wǎng)絡以盡量減少組合爆炸,可取得理想的效果。
3.遺傳算法
這是一種基于生物進化理論的優(yōu)化方法,其基本思想是“適者生存”:隨著時間的更替,只有最適合的物種才得以進化。它借用了生物遺傳學的角度點,通過模仿自然選擇、基因突變,改善個體適應的機制。遺傳信息通常被稱為基因,該基因包含正確的權值,其中包含了該模型的參數(shù)。當該基因包含一個隱藏層時,包含每一層的節(jié)點數(shù)量。例如,創(chuàng)建一個神經(jīng)網(wǎng)絡,遺傳算法可以恰當?shù)恼{整權值,在一定條件下更可以代替反向傳播方法。同時,遺傳算法還可以用來找到最佳的結構。總之,遺傳算法可以處理多種數(shù)據(jù)類型、并行處理各種數(shù)據(jù),能夠解決許多其它技術難以解決的問題;但需要的參數(shù)較多,算法較復雜,計算量較大。
4.模糊技術
模糊技術一般包含模糊評判、模糊模式識別、模糊決策和模糊聚類分析這幾個步驟,多是利用模糊集理論對實際問題進行系統(tǒng)的研究,往往能夠取得很好的效果。這種模糊性屬于客觀現(xiàn)實,與數(shù)據(jù)挖掘系統(tǒng)存在一種關系,即系統(tǒng)越復雜,模糊性就越強。關于傳統(tǒng)的模糊理論和概率統(tǒng)計,在定性定量轉換模型不確定性的基礎上,李德毅教授提出了云模型,并依據(jù)此形成了云理論。而事實上,模糊集理論通常都是用來描述模糊事物的隨機性、復雜性。為了表達定性概念,將概念的模糊性和復雜性很好地結合,云模型要充分利用期望值、熵和超熵,在概率模型中尋找參數(shù)??梢哉f,模糊技術是為數(shù)據(jù)挖掘提供一個概念的形成和知識表達、概念綜合和概念層次劃分、定性概念和定量表示轉換的一個新方法。
5.最近鄰技術
數(shù)據(jù)最近鄰技術(也稱為K-最近鄰方法),就是先利用K個最與之相近的歷史記錄,然后將這些歷史記錄組合起來,以確定新的記錄的一種數(shù)據(jù)挖掘方法,它是一個理論上比較成熟的方法,也是最簡單的機器學習算法之一。一般情況下,這種技術可用于多種數(shù)據(jù)挖掘任務,例如,數(shù)據(jù)聚類、數(shù)據(jù)偏差分析等。
除上述之外,數(shù)據(jù)挖掘的關鍵技術還包括人工神經(jīng)網(wǎng)絡、規(guī)則歸納等。經(jīng)過不斷的實踐和應用,數(shù)據(jù)挖掘過程越來越標準化、規(guī)范化??梢哉f,隨著新的數(shù)據(jù)挖掘技術的不斷增多,數(shù)據(jù)挖掘工具的不斷推陳出新,數(shù)據(jù)挖掘技術也越來越顯示出其廣闊的應用前景。
二、數(shù)據(jù)挖掘的實際應用
與傳統(tǒng)分析方法相比,數(shù)據(jù)挖掘技術可以發(fā)現(xiàn)更有用的信息,這是應用傳統(tǒng)分析方法時所不能發(fā)現(xiàn)的,因此數(shù)據(jù)挖掘具有重要的理論意義和實用價值。當前,數(shù)據(jù)挖掘在人們的實際生活中十分常見,主要是應用于一些需要處理海量數(shù)據(jù)的重要部門。比如:用于大型零售組織的數(shù)據(jù)挖掘系統(tǒng),可以在決策支持過程為制定市場策略、提供決策支持給予有力的技術和工具保證;用于銀行金融方面的數(shù)據(jù)挖掘系統(tǒng),可以預測存款趨勢,幫助相關執(zhí)行人員更好地進行有促進作用的活動,幫助他們設計新的市場運行方案;用于遠程通訊部門的數(shù)據(jù)挖掘系統(tǒng),可以了解客戶服務使用的結構和模式,便于工作人員作出最佳的投資決策;用于質量監(jiān)督保證方面的數(shù)據(jù)挖掘系統(tǒng),可以自動找出一些不正常的數(shù)據(jù)分布,并分析出各種影響因素,以幫助質量工程師在最短時間內找出問題的范圍,從而能夠及時采取相應的解決措施等等??傊瑪?shù)據(jù)挖掘技術已經(jīng)廣泛應用于零售與批發(fā)、運輸、銀行金融、制造、軟件開發(fā)等多個企事業(yè)單位及國防科研上。隨著信息技術的不斷發(fā)展和數(shù)據(jù)挖掘工具的不斷完善,數(shù)據(jù)挖掘技術將在更多的領域得到應用。
結束語
總的來講,數(shù)據(jù)挖掘技術在現(xiàn)實中的應用越來越廣泛,能夠為用戶提供更好的服務。可以說,數(shù)據(jù)挖掘的研究和應用是一個長期而艱苦的工作。隨著數(shù)據(jù)挖掘技術的不斷發(fā)展,其必將在更多的領域得到更為廣泛的應用,而利用數(shù)據(jù)挖掘所得的知識幫助人們作出決策,將是一項非常有實際應用前景的工作。參考文獻
[1]楊雪.淺析數(shù)據(jù)挖掘技術[J].金融科技時代,2005,(08).
[2]李玉華.面向服務的數(shù)據(jù)挖掘關鍵技術研究[D].華中科技大學,2006,(11).
[3]王歡.淺談數(shù)據(jù)挖掘技術及其應用[J].科技信息,2009,(21).