劉芬 延安大學計算機學院
伴隨著互聯(lián)網(wǎng)及其相關產(chǎn)業(yè)的飛速發(fā)展,在互聯(lián)網(wǎng)從單一的行業(yè)成長為深入我國各行各業(yè)的最具影響力和市場潛力的產(chǎn)業(yè)之一的同時,數(shù)據(jù)庫應用范圍日趨拓寬,使用頻率日漸加快,深度也在不斷加深,使得各行各業(yè)在過去的幾年間積累了海量的儲存形式各異的數(shù)據(jù)資料,而這些海量數(shù)據(jù)仍以驚人的速度增長著且日益復雜,這些無疑對查詢和檢索相關資料帶來了極大的困難,因此一個智能的可以自動對信息進行分類和篩選的技術是目前所迫切需要的,而數(shù)據(jù)挖掘就是為這種需求應該而生的。那么何為數(shù)據(jù)挖掘?顧名思義,數(shù)據(jù)挖掘就是指一種在海量數(shù)據(jù)中幫人們篩選出所需的數(shù)據(jù)的新的開發(fā)信息資源的數(shù)據(jù)處理技術。下面本文將從數(shù)據(jù)挖掘技術算法,數(shù)據(jù)挖掘技術的主要方法以及數(shù)據(jù)挖掘技術的研究方向三個角度對數(shù)據(jù)挖掘技術進行分析。
數(shù)據(jù)挖掘方法的具體實現(xiàn)方式就是數(shù)據(jù)挖掘算法,數(shù)據(jù)挖掘算法通說認為由模型表示,模型評價標準以及發(fā)現(xiàn)方法三個部分組成。其中模型表示相當于對發(fā)現(xiàn)模型加以描述所需要的語言,只有模型表示能力強,也就是對發(fā)現(xiàn)的模型描述的越精確,發(fā)現(xiàn)的數(shù)學模型就會越精確。
模型評價標準相當于對發(fā)現(xiàn)模型進行預測的標尺,利用這些評價標準對模型的精確度、實用性、新穎性、及可認識程度等方面進行預測和評價。
其中發(fā)現(xiàn)方法相當于確定結(jié)論,發(fā)現(xiàn)方法由參量發(fā)現(xiàn)和模型發(fā)現(xiàn)組成,參量發(fā)現(xiàn)是在以上兩個部分確定后找出的最合適數(shù)量的模型;模型發(fā)現(xiàn)是在不斷更改模型的過程中經(jīng)過試探確定的適當數(shù)量的模型。一個算法一般只在某個領域非常的有效,卻不能普遍適用,故在不同的領域應當精心挖掘出最適合的該領域的數(shù)據(jù)挖掘算法,應當具體問題具體分析,切不可一概而論。
根據(jù)知識的種類,所挖掘的數(shù)據(jù)庫的種類,數(shù)據(jù)庫挖掘方法或者是挖掘數(shù)據(jù)庫使用的技術等的不同可以對數(shù)據(jù)挖掘技術的方法進行多種多樣的分類,不過學界比較認可的數(shù)據(jù)挖掘技術的方法大致有如下十種。
一是決策樹方法,即以信息論中的信息增益為標準劃分字段,建立結(jié)點,再以不同的取值在結(jié)點上建立數(shù)的分支,以此重復進行結(jié)點和分支,進而建立決策樹,信息數(shù)據(jù)越多書的分支越多,樹越龐大,同樣的數(shù)據(jù)越少,分支越少,樹也就越小。二是神經(jīng)網(wǎng)絡方法,即以MP模型和Hebb學習規(guī)則為基本單位來對大腦神經(jīng)元進行模擬,以神經(jīng)網(wǎng)絡的連接的結(jié)點作為知識結(jié)點,進而進行逐步計算,而目前主要以前饋式網(wǎng)絡,反饋式網(wǎng)絡以及自組織網(wǎng)絡三大神經(jīng)網(wǎng)絡模型為典型。三是覆蓋正例排斥反例方法,即通過總結(jié)利用正例,排斥反例的方式尋找規(guī)律。四是粗集方法,即在一組數(shù)據(jù)庫之中,將行元素作為對象,將列元素作為屬性進行研究。五是概念樹方法,即將數(shù)據(jù)庫中的數(shù)據(jù)按照不同屬性進行歸類構(gòu)建出具有層次的概念樹。六是遺傳算法,即將繁殖,交叉和變異作為三個基本單位對生物的進化過程進行模擬的一種算法。七是公式發(fā)現(xiàn)方法,即對數(shù)據(jù)庫中的各種變量進行數(shù)學演算進而推導出所需的數(shù)學公式的方法。八是統(tǒng)計分析方法,即通過回歸分析、相關分析、主成分分析等方法確定數(shù)據(jù)庫中數(shù)據(jù)之間所具備的函數(shù)關系或者是相關關系等關系的算法。九是模糊集方法,即對實際問題進行模糊集理論中的評判、決策、模式識別和聚類分析從而推斷出的一種方法。十是可視化技術,即通過可視化數(shù)據(jù)分析技術使得數(shù)據(jù)更加形象具體化的展現(xiàn)在使用者面前。
目前的數(shù)據(jù)挖掘技術數(shù)據(jù)輸入方式單一,只能對數(shù)值型和結(jié)構(gòu)型的數(shù)據(jù)加以處理,有很大的局限性,故數(shù)據(jù)挖掘技術應當朝著數(shù)據(jù)輸入形式的多樣性的研究方向發(fā)展;目前數(shù)據(jù)挖掘技術所針對的數(shù)據(jù)庫日益龐大,故數(shù)據(jù)挖掘技術中的算法應當朝著有效性與可測性的方向發(fā)展;目前網(wǎng)絡挖掘技術缺乏與用戶的交流,故應朝著加大用戶參與度的研究方向發(fā)展;除以上研究方向外,數(shù)據(jù)挖掘技術還應該朝著突破證實技術的局限性,完善知識的表達和解釋機制以及知識的維護和更新機制的研究方向發(fā)展,在加強數(shù)據(jù)挖掘技術的私有性和安全性的同時解決數(shù)據(jù)挖掘技術支持系統(tǒng)具有局限性等問題,促進數(shù)據(jù)挖掘技術更好的發(fā)展,為信息化現(xiàn)代化助力。
面對海量的數(shù)據(jù),為了便利使用者對信息的獲取和利用,數(shù)據(jù)挖掘技術應運而生,但是面對這樣一個新興的事物很多人不了解也不理解,故本文從數(shù)據(jù)挖掘技術的主要方法以及數(shù)據(jù)挖掘技術的研究方向三個角度對數(shù)據(jù)挖掘技術的主要方法及今后的發(fā)展方向進行論述,以其對于人們了解和理解數(shù)據(jù)挖掘技術有所助益,促進數(shù)據(jù)挖掘技術的發(fā)展,進而促進信息化和現(xiàn)代化的發(fā)展。