[摘要] 本文介紹了數(shù)據(jù)挖掘的概念、對象、任務(wù),重點探討了其應(yīng)用領(lǐng)域的廣泛性及效益性。
[關(guān)鍵詞] 數(shù)據(jù)挖掘 數(shù)據(jù)倉庫 知識發(fā)現(xiàn)
隨著計算機網(wǎng)絡(luò)與數(shù)據(jù)庫技術(shù)的迅速發(fā)展和廣泛應(yīng)用,各單位擁有的數(shù)據(jù)量與日俱增,而傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)(DBMS)僅能提供數(shù)據(jù)的存取和查詢,如何從信息海洋中提取有價值的知識,從而為企業(yè)的業(yè)務(wù)決策和戰(zhàn)略發(fā)展服務(wù),進一步提高信息的利用率,這就引發(fā)了一門新興的自動信息提取技術(shù)——數(shù)據(jù)挖掘和知識發(fā)現(xiàn)(Data Mining and Knowledge Discovery in Databases),并逐漸形成了一個熱門研究方向。
基于數(shù)據(jù)庫的知識發(fā)現(xiàn)(KDD)一詞最早是在1989年8月于美國底特律市召開的第一屆KDD國際學術(shù)會議上正式形成的。1995年,在加拿大召開了第一屆知識發(fā)現(xiàn)和數(shù)據(jù)挖掘國際會議。2002年,麻省理工學院的《科技評論》雜志提出未來5年對人類產(chǎn)生重大影響的10大新興技術(shù),“數(shù)據(jù)挖掘”位居第三。
一、數(shù)據(jù)挖掘與知識發(fā)現(xiàn)
數(shù)據(jù)挖掘(Data Mining),又稱為數(shù)據(jù)采掘、數(shù)據(jù)開采等。數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中抽取出潛在的、不為人知的有用信息、模式和趨勢。數(shù)據(jù)挖掘是一種決策支持過程,它主要基于人工智能、機器學習、統(tǒng)計學等技術(shù),高度自動化地分析企業(yè)原有的數(shù)據(jù),作出歸納性的推理,從中挖掘出潛在的模式,預測客戶的行為,幫助企業(yè)的決策者調(diào)整市場策略,減少風險,做出正確的決策。其中需要強調(diào)的幾點是:得到的必須是有用的信息;得到的必須是清晰、明確的信息;要有一個很快的、可行的算法。
數(shù)據(jù)挖掘不同的術(shù)語和定義:data mining, knowledge discovery, pattern discovery, data dredging, knowledge, data archeology。
一般認為數(shù)據(jù)采掘是數(shù)據(jù)庫中知識發(fā)現(xiàn)(Knowledge Discovery in Database,簡稱KDD)的一個環(huán)節(jié),是采用具體的數(shù)據(jù)采掘算法從數(shù)據(jù)中自動高效地提取有用模式的過程,而KDD是包含數(shù)據(jù)采掘、數(shù)據(jù)準備等環(huán)節(jié)的循環(huán)往復過程。在KDD研究領(lǐng)域一致認可的描述性定義是Fayyad等人給出的,定義如下:KDD是從數(shù)據(jù)集中識別出有效的、新穎的、潛在有用的、以及最終可理解的模式的非平凡過程。知識發(fā)現(xiàn)由以下步驟組成:⑴數(shù)據(jù)清理:消除噪聲或不一致數(shù)據(jù)。⑵數(shù)據(jù)集成:把多種數(shù)據(jù)源組合在一起。⑶數(shù)據(jù)選擇:從數(shù)據(jù)庫中檢索與分析任務(wù)相關(guān)的數(shù)據(jù)。⑷數(shù)據(jù)變換:數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式,如通過匯總或聚集操作。⑸數(shù)據(jù)挖掘:使用智能方法提取數(shù)據(jù)模式。⑹模式評估:根據(jù)某種興趣度度量,識別表示知識的真正有趣的模式。⑺知識表示:使用可視化和知識表示技術(shù),向用戶提供挖掘知識。
對這兩個術(shù)語更嚴格的區(qū)分是在KDD96國際會議上:Fayyad,Piatetsky-Shapiro和Smyth指出:知識發(fā)現(xiàn)是從數(shù)據(jù)庫中發(fā)現(xiàn)知識的全部過程,而數(shù)據(jù)挖掘則是此全部過程的一個特定、關(guān)鍵步驟。事實上,在現(xiàn)今文獻的大多數(shù)場合,這兩個術(shù)語仍然不加區(qū)分地使用著。
同時需要指出的是,這里所說的知識發(fā)現(xiàn),不是要求發(fā)現(xiàn)放之四海而皆準的真理,也不是要去發(fā)現(xiàn)嶄新的自然科學定理和純數(shù)學公式,更不是什么機器定理證明。所有發(fā)現(xiàn)的知識都是相對的,是有特定前提和約束條件、面向特定領(lǐng)域的,同時還要能夠易于被用戶理解,最好能用自然語言表達發(fā)現(xiàn)結(jié)果。因此DMKD的研究成果很講求實際。
二、數(shù)據(jù)挖掘的對象及任務(wù)
1.數(shù)據(jù)源
根據(jù)信息存儲格式,用于挖掘的對象有關(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、數(shù)據(jù)倉庫、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫、以及環(huán)球網(wǎng)Web.目前,用于數(shù)據(jù)挖掘的數(shù)據(jù)源主要是關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫、和環(huán)球網(wǎng)Web.
2.主要任務(wù)
(1)數(shù)據(jù)總結(jié)
數(shù)據(jù)總結(jié)的目的是對數(shù)據(jù)進行濃縮,給出它的緊湊描述。數(shù)據(jù)挖掘主要關(guān)心從數(shù)據(jù)泛化的角度來討論數(shù)據(jù)總結(jié)。數(shù)據(jù)泛化是一種把數(shù)據(jù)庫中的有關(guān)數(shù)據(jù)從低層次抽象到高層次上的過程。
(2)分類
分類的目的是建立一個分類函數(shù)或分類模型(也稱作分類器),該模型能把數(shù)據(jù)庫的數(shù)據(jù)項映射到給定類別中的某一個。例:信用卡申請者,分類為低、中、高風險。
(3)聚類
聚類是把一組個體按照相似性歸類,即“物以類聚”。它的目的是使屬于同一類別的個體之間的距離盡可能地小,而不同類別的個體間的距離盡可能地大。例:①一些特定癥狀的聚集可能預示了一個特定的疾病。②租VCD類型不相似的客戶聚集,可能暗示成員屬于不同的亞文化群。
聚集通常作為數(shù)據(jù)挖掘的第一步。例如,“哪一種類的促銷對客戶響應(yīng)最好?”,對于這一類問題,首先對整個客戶做聚集,將客戶分組在各自的聚集里,然后對每個不同的聚集,回答問題,可能效果更好。
(4)關(guān)聯(lián)規(guī)則
決定哪些事情將一起發(fā)生。是形式如下的一種規(guī)則,“在購買面包和黃油的顧客中,有90%的人同時也買了牛奶”(面包+黃油+牛奶)。關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的思路還可以用于序列模式發(fā)現(xiàn)。用戶在購買物品時,除了具有上述關(guān)聯(lián)規(guī)律,還有時間或序列上的規(guī)律。例:①超市中客戶在購買A的同時,經(jīng)常會購買B,即A=>B(關(guān)聯(lián)規(guī)則)。②客戶在購買A后,隔一段時間,會購買B(序列分析)。采用關(guān)聯(lián)模型比較典型的例子是“啤酒和尿布”的故事。
三、數(shù)據(jù)挖掘的應(yīng)用及效益
應(yīng)用是數(shù)據(jù)挖掘的目標。數(shù)據(jù)挖掘技術(shù)不僅是面向特定數(shù)據(jù)庫的簡單檢索查詢調(diào)用,而且要對這些數(shù)據(jù)進行微觀、中觀乃至宏觀的統(tǒng)計、分析、綜合和推理,以指導實際問題的求解,企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián),甚至利用已有的數(shù)據(jù)對未來的活動進行預測。其應(yīng)用范圍涉及社會的所有領(lǐng)域,在商業(yè)上的應(yīng)用尤其受到重視。各個領(lǐng)域在KDD應(yīng)用上既有相同之處,又有各自不同的獨特地方。
1.典型應(yīng)用領(lǐng)域
(1)科學應(yīng)用
在生物界,開發(fā)了HMMS兩個智能發(fā)現(xiàn)系統(tǒng),已經(jīng)用于基因發(fā)現(xiàn)和構(gòu)造核糖核酸模型。天文學上非常有名的系統(tǒng)是加州理工學院噴氣推進實驗室與天文科學家合作開發(fā)的用于幫助天文學家發(fā)現(xiàn)遙遠的類星體的一個工具SKICAT。利用SKICAT,天文學家已發(fā)現(xiàn)了16個新的極其遙遠的類星體。SKICAT使用了決策樹方法構(gòu)造分類器,結(jié)果使得能分辨的星體較以前的方法在亮度上要低一個數(shù)量級之多,而且新的方法比以往方法的效率要高40倍以上。
(2)市場銷售
數(shù)據(jù)采掘在銷售業(yè)上的應(yīng)用可分為兩類:數(shù)據(jù)庫銷售(database marketing)和籃子數(shù)據(jù)分析(basket analysis)。前者的任務(wù)是通過交互式查詢、數(shù)據(jù)分割和模型預測等方法來選擇潛在的顧客以便向它們推銷產(chǎn)品,而不是象以前那樣盲目地選擇顧客推銷;后者的任務(wù)是分析市場銷售數(shù)據(jù)(如POS數(shù)據(jù)庫)以識別顧客的購買行為模式,從而幫助確定商店貨架的布局排放以促銷某些商品。
(3)金融投資
典型的金融分析領(lǐng)域有投資評估和股票交易市場預測,分析方法一般采用模型預測法(如神經(jīng)網(wǎng)絡(luò)或統(tǒng)計回歸技術(shù))。這方面的系統(tǒng)有Fidelity Stock Selector,LBS Capital Management。前者的任務(wù)是使用神經(jīng)網(wǎng)絡(luò)模型選擇投資,后者則使用了專家系統(tǒng)、神經(jīng)網(wǎng)絡(luò)和基因算法技術(shù)輔助管理多達6億美元的有價證券。
貸款償還預測和客戶信用政策分析。將數(shù)據(jù)挖掘技術(shù)中的特征選擇和屬性相關(guān)性計算應(yīng)用到貸款償付預測和客戶信用政策,有助于識別重要因素,剔除非相關(guān)因素,使銀行優(yōu)化調(diào)整貸款發(fā)放政策。
(4)欺詐甄別
銀行或商業(yè)上經(jīng)常發(fā)生詐騙行為,如惡性透支等。這方面應(yīng)用非常成功的系統(tǒng)有:FALCON系統(tǒng)和FAIS系統(tǒng)。FALCON是HNC公司的開發(fā)的信用卡欺詐估測系統(tǒng),它已被相當數(shù)量的零售銀行用于探測可疑的信用卡交易;獵鷹的數(shù)據(jù)格式只有幾種,因為流行的信用卡公司只有幾家(如VISA,MASTER等),因此它的應(yīng)用面很大。FAIS是一個用于識別與洗錢有關(guān)的金融交易的系統(tǒng),它使用的是一般的政府數(shù)據(jù)表單。
(5)產(chǎn)品制造
在產(chǎn)品的生產(chǎn)制造過程中常常伴隨有大量的數(shù)據(jù),如產(chǎn)品的各種加工條件或控制參數(shù),這些數(shù)據(jù)反映了每個生產(chǎn)環(huán)節(jié)的狀態(tài),通過數(shù)據(jù)挖掘?qū)@些數(shù)據(jù)的分析,得到產(chǎn)品質(zhì)量與這些參數(shù)之間的關(guān)系,可以對改進產(chǎn)品質(zhì)量提出針對性很強的建議,而且有可能提出新的更高效節(jié)約的控制模式,從而為制造廠家?guī)順O大的回報。
(6)Internet的應(yīng)用
Internet的迅猛發(fā)展,尤其是Web的全球普及,使得Web上信息量無比豐富,Web上的數(shù)據(jù)信息不同于數(shù)據(jù)庫,數(shù)據(jù)庫有規(guī)范的結(jié)構(gòu),Web上的信息則不然,主要是文檔。因此Web上的開采發(fā)現(xiàn)需要用到不同于常規(guī)數(shù)據(jù)庫開采的很多技術(shù)。Web信息發(fā)現(xiàn)也稱信息搜索或查詢,資源發(fā)現(xiàn)本質(zhì)上是網(wǎng)上搜索,關(guān)鍵在于自動生成Web文檔的索引。目前,這方面的研究主要有兩個方面:研制新的更好的索引系統(tǒng)、利用已有索引系統(tǒng)或搜索引擎開發(fā)高層次的搜索或發(fā)現(xiàn)系統(tǒng)。相比之下,后者的研究更為活躍。從技術(shù)上看,自動文檔分類或歸類方法將對這方面的研究有很大作用。
(7)學校教育
學院分析學生歷史信息,決定哪些人愿意報考何專業(yè),發(fā)送手冊給他們。分析教師的學歷、年齡、職稱等與授課效果的關(guān)聯(lián)規(guī)則,制定教學方案,促進教學質(zhì)量的提高。
總之,DM可廣泛應(yīng)用于銀行金融、零售與批發(fā)、制造、保險、公共設(shè)施、政府、教育、科研、遠程通訊、軟件開發(fā)、運輸、生物信息或基因等各個企事業(yè)單位及國防科研上。
2.數(shù)據(jù)挖掘帶來的效益
截止到目前,數(shù)據(jù)挖掘工程在很多領(lǐng)域取得了成果。這些成果使得各類機構(gòu)和組織能更好地理解它們的組織結(jié)構(gòu)、業(yè)務(wù)處理過程和顧客,從而得到很高的投資收益。在某些情況下,僅僅一小部分數(shù)據(jù)挖掘所得到的知識就能回報最初的投資。世界著名的GartnerGroup咨詢顧問公司預計:不久將來先進的大企業(yè)將會設(shè)置“統(tǒng)一數(shù)據(jù)分析專家”的職位。
例如:①美國著名國家籃球隊NBA的教練,利用某公司提供的數(shù)據(jù)挖掘技術(shù),臨場決定替換隊員,從而贏得比賽,在數(shù)據(jù)庫界被傳為佳話。
②全球數(shù)據(jù)倉庫與CRM解決方案領(lǐng)導廠商NCR公司(紐約股票代號NCR)Teradata的數(shù)據(jù)挖掘?qū)嶒炇一?0多年豐富的行業(yè)經(jīng)驗,協(xié)助包括銀行、電信、航空、證券和保險在內(nèi)的各行業(yè)企業(yè)善用商業(yè)數(shù)據(jù)挖掘,構(gòu)筑競爭優(yōu)勢。據(jù)了解,全球前50大銀行中,有一半以上采用NCR的Teradata企業(yè)級數(shù)據(jù)倉庫解決方案,尤其是全球獲利的前15大銀行中就有8家是NCR的用戶。
四、結(jié)束語
綜上所述,數(shù)據(jù)挖掘雖然是一門新興的技術(shù),但有著鮮明的服務(wù)性、大眾性、利益驅(qū)動性,顯示了它強大的生命力。根據(jù)最近Gartner的HPC研究表明,“隨著數(shù)據(jù)捕獲、傳輸和存儲技術(shù)的快速發(fā)展,大型系統(tǒng)用戶將更多地需要采用新技術(shù)來挖掘市場以外的價值,采用更為廣闊的并行處理系統(tǒng)來創(chuàng)建新的商業(yè)增長點?!?數(shù)據(jù)挖掘?qū)⒅阍诤A繑?shù)據(jù)面前迅速找到閃亮的知識,找到隱藏的商機,從而立于不敗之地。相信在不遠的將來數(shù)據(jù)挖掘會迅速普及。
參考文獻:
[1][加]Jiawei Han. Micheline Kamber 著:數(shù)據(jù)挖掘:概念與技術(shù)[M].范明,孟小峰等譯.北京:機械工業(yè)出版社,2007.3
[2]陳安陳寧:等著.數(shù)據(jù)挖掘技術(shù)及應(yīng)用[M].科學出版社,2006.3
[3]羅克吳杰:巨型數(shù)據(jù)庫中的數(shù)據(jù)采掘。計算機工程與應(yīng)用,2001 37(20) 88~91
[4]數(shù)據(jù)挖掘討論組:http://www.Dmgroup.org.cn