田春雨
隨著信息技術(shù)的不斷發(fā)展,人們對(duì)數(shù)據(jù)處理的要求也越來越高。比如利用其預(yù)測(cè)未來發(fā)展趨勢(shì)或得到其它有價(jià)值的信息等。而這些功能對(duì)于傳統(tǒng)的數(shù)據(jù)管理系統(tǒng)往往是做不到的。因?yàn)橐话愕臄?shù)據(jù)庫管理系統(tǒng)只提供數(shù)據(jù)的一些簡(jiǎn)單處理功能,如果想從中發(fā)現(xiàn)數(shù)據(jù)之間存在的內(nèi)在聯(lián)系或發(fā)現(xiàn)現(xiàn)其規(guī)律,對(duì)龐大的數(shù)據(jù)進(jìn)行處理是極其困難的。由于數(shù)據(jù)在日常決策中的重要性變得越來越重要,因此人們希望找到一種可以幫助我們處理大量繁雜數(shù)據(jù)的方法,進(jìn)而發(fā)現(xiàn)有價(jià)值的信息最終為決策服務(wù),同時(shí)也可減輕人工處理的負(fù)擔(dān)。
數(shù)據(jù)挖掘(Data Mining)又譯為數(shù)據(jù)開采。即是從大量的、有噪聲的、不完全的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的而又是潛在有用的信息及知識(shí)的過程。也稱之為知識(shí)發(fā)現(xiàn)(KDD),一直以來,對(duì)于“知識(shí)發(fā)現(xiàn)”和“數(shù)據(jù)挖掘”這兩個(gè)術(shù)語的使用界限一直很模糊,在1996 年召開的KDD 國(guó)際會(huì)議上,F(xiàn)ayyd 等對(duì)這兩個(gè)術(shù)語進(jìn)行了定義:KDD是從數(shù)據(jù)中辨別有效的、新穎的、潛在有用的、最終可理解的模式的過程,指的是數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn)的全過程,而數(shù)據(jù)挖掘只是 KDD 過程中的一個(gè)特定步驟,它一般分為五個(gè)階段:選擇目標(biāo)數(shù)據(jù)、預(yù)處理數(shù)據(jù)、轉(zhuǎn)化數(shù)據(jù)、進(jìn)行數(shù)據(jù)挖掘以提取模式和關(guān)系、解釋并評(píng)價(jià)發(fā)現(xiàn)的結(jié)構(gòu)。
數(shù)據(jù)挖掘主要是利用特定的知識(shí)發(fā)現(xiàn)算法,進(jìn)而從數(shù)據(jù)中發(fā)現(xiàn)相關(guān)的知識(shí)。它只是 KDD 當(dāng)中的一個(gè)步驟,而人們則經(jīng)常不嚴(yán)格區(qū)分?jǐn)?shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn),將二者混淆使用。一般情況下,在科研領(lǐng)域中稱之為 KDD,而在工程領(lǐng)域則稱之為數(shù)據(jù)挖掘。
人們往住把原始數(shù)據(jù)看作是形成知識(shí)的源泉。而原始數(shù)據(jù)可以是結(jié)構(gòu)化的,如關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),也可以是半結(jié)構(gòu)化,如文本、圖形、圖像數(shù)據(jù),甚至是分布在網(wǎng)絡(luò)上的異構(gòu)數(shù)據(jù)。發(fā)現(xiàn)知識(shí)的方法可以是數(shù)學(xué)的,也可以是非數(shù)學(xué)的;可以是演繹的,也可以是歸納的。發(fā)現(xiàn)了的知識(shí)可以被用于信息管理、查詢優(yōu)化、決策支持、過程控制等,還可以用于數(shù)據(jù)自身的維護(hù)。因此,數(shù)據(jù)挖掘與計(jì)算機(jī)科學(xué)有關(guān),它涉及到數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、數(shù)據(jù)可視化技術(shù)、模式識(shí)別、神經(jīng)網(wǎng)絡(luò)、歸納推理、高性能并行等多個(gè)領(lǐng)域,因此它是一門交叉型學(xué)科,而其研究?jī)?nèi)容也非常的廣泛。
從不同的角度看,數(shù)據(jù)挖掘技術(shù)可分為以下多種分類方法:
(1)根據(jù)挖掘的數(shù)據(jù)庫分類數(shù)據(jù)挖掘根據(jù)數(shù)據(jù)庫類型進(jìn)行分類,包括:關(guān)系型( Relational )、事務(wù)型(Transactional)、面向?qū)ο笮停∣bjected-Oriented)、主動(dòng)型(Active)、空間型(Spacial)、時(shí)間型(Temporal)、文本型(Textual)、對(duì)媒體型(Multimedia)等。
(2)根據(jù)所采用技術(shù)分類數(shù)據(jù)挖掘基于所采用技術(shù)進(jìn)行分類,可分為:規(guī)則歸納、神經(jīng)網(wǎng)絡(luò)、決策樹、遺傳算法、可視化等。
由此可知,數(shù)據(jù)挖掘的過程是多個(gè)步驟相互連接、反復(fù)進(jìn)行人機(jī)交互的過程。