摘要:隨著WWW網上可利用信息呈現(xiàn)爆炸性的增長,人們發(fā)現(xiàn)快速有效地訪問相關信息正變得越來越困難。正是在這種情況下,Web數(shù)據(jù)挖掘技術應運而生。文中首先給出了Web挖掘的定義,深入分析了Web挖掘的特點及分類方法,然后對Web挖掘中最新研究進展狀況作了詳細的闡述,并探討了Web挖掘的未來發(fā)展方向。
關鍵詞:數(shù)據(jù)挖掘;Web挖掘;分類;研究
中圖分類號:TP391文獻標識碼:A 文章編號:1009-3044(2009)36-10163-03
Review of Research on the Web- based Data Mining Technology
LI Jia-lin
(Nanjing Institute of Industry Technology, Nanjing 210046, China)
Abstract: With the explosive growth of knowledge available on the World Wide Web,it becomes much more difficult for users to access relevant information efficiently.Just in this case,Web data minging technology arises at the historic mement. This articlegive a definition of Web mining firstly. After a thorough analysis of the characteristics of Web mining and classification methods, It also expounds the details of the newest progress of the Web mining research and the direction of future development.
Key words: data mining; Web mining; classification; research
目前,Internet已經發(fā)展成為一個巨大的、分布廣泛和全球性的信息服務中心,然而隨著Internet上的信息量的成倍增長,人們在如此繁雜巨量的信息源面前往往感到無所適從:信息過量難以消化;信息形式不一致、難以統(tǒng)一處理;難以快速、準確地獲得有價值的網絡信息;如何理解已有的歷史數(shù)據(jù)并將其用于預測未來的行為;如何從這些海量數(shù)據(jù)中發(fā)現(xiàn)知識等等。數(shù)據(jù)挖掘技術自20世紀90年代產生以來,已成功地應用于傳統(tǒng)的數(shù)據(jù)庫領域。人們對于數(shù)據(jù)挖掘在Internet信息處理上的技術也作了許多相應的研究,并形成了數(shù)據(jù)挖掘的一個重要分支——Web數(shù)據(jù)挖掘。
Web是一個巨大的、廣泛分布、高度異構、半結構化的信息倉庫,同時也是一個巨大的文檔累積的集合,包括超鏈接信息、訪問及使用信息。Web數(shù)據(jù)挖掘起源于數(shù)據(jù)挖掘,目的在于可以處理非結構化的數(shù)據(jù),Web數(shù)據(jù)的非結構化這一顯著特征使Web數(shù)據(jù)挖掘更加復雜。通過Web數(shù)據(jù)挖掘,我們可以從數(shù)以億計存儲著大量多種多樣信息的Web頁面及鏈接和用戶對頁面的訪問信息中挖掘出我們需要的有用知識。
1 Web挖掘定義
Web挖掘是一項涉及Web技術、數(shù)據(jù)挖掘、計算機語言學、信息學等多個領域的綜合技術。不同研究者從自身的領域出發(fā),對Web挖掘的含義有著不同的理解,其定義也各有其側重點。例如,有學者認為,Web數(shù)據(jù)挖掘是從大量的Web文檔集合和在站點內進行瀏覽的相關數(shù)據(jù)中發(fā)現(xiàn)蘊涵的、未知、有潛在應用價值的、非平凡的模式(Pattern)的過程[1]。也有學者從更為一般的角度出發(fā),對Web挖掘作如下定義:
Web挖掘是指從大量Web文檔的集合C中發(fā)現(xiàn)隱含的模式p。如果將C看作輸入,將p看作輸出,那么Web挖掘的過程就是從輸入到輸出的一個映射ξ:C→p[2]。
盡管Web挖掘的定義有很多,但Web挖掘技術從一開始就是面向應用的,因此從應用角度上來說,我們可以認為,Web挖掘就是采用數(shù)據(jù)挖掘等信息處理技術,從Web信息資源以及Web使用記錄中發(fā)掘對特定用戶感興趣的,有用的信息或知識的過程,其結果可以為用戶決策所使用。
由于Web挖掘從數(shù)據(jù)挖掘技術發(fā)展而來,其定義與我們熟知的數(shù)據(jù)挖掘定義相類似。但與傳統(tǒng)的數(shù)據(jù)挖掘相比,Web挖掘在挖掘的對象、挖掘所得到的模式等方面有許多獨特之處。通過 Web挖掘,人們可將Web上的文檔進行分類、尋找文檔主題、匯總搜索結果,使用戶在Internet上查找信息更加全面準確。對Web站點的分析結果可用于重新組織Web站點結構,以便更好地為用戶服務。
2 Web挖掘分類
依據(jù)不同的分類標準Web挖掘有不同的分類方法。例如,按照挖掘內容的語種可以分為中文Web挖掘、西文Web挖掘;按挖掘的站點的屬性不同可以分為企業(yè)門戶挖掘、政務門戶挖掘、個人站點挖掘等。但更多的文獻則是采用根據(jù)挖掘的站點信息來源不同將Web挖掘分為三大類的劃分方法,即:Web內容挖掘(Web Content Mining)、Web結構挖掘(Web Structure Mining)和Web使用挖掘(Web Usage Mining) [3]。在實際應用中,Web挖掘的這三個研究方向在實際過程中并不是孤立的,而是相互交叉、相互滲透和相互聯(lián)系的。
2.1 Web內容挖掘
Web內容挖掘是從大量的Web文檔或其描述中發(fā)現(xiàn)知識的過程。這些Web文檔包含了文本、圖片、聲音、視頻、元數(shù)據(jù)和超鏈接等名種不同的數(shù)據(jù)類型。Web內容挖掘根據(jù)其所處理的數(shù)據(jù)對象的不同可分為文本挖掘和多媒體挖掘。由于文本仍是信息傳遞的主要方式,而且文本處理技術相對比較成熟,因此文本數(shù)據(jù)的挖掘在研究和應用上都比較普遍。文本挖掘主要分為文本的總結、分類、聚類、關聯(lián)分析及利用Web文檔進行趨勢預測等,最常見的是文本的分類和聚類[4]。
多媒體信息挖掘,主要是對Web上的音頻、視頻和圖像進行預處理,應用存儲和搜索技術與標準的數(shù)據(jù)方法的集成,對其中潛在的有意義的信息和模式進行挖掘的過程[5]。多媒體信息挖掘可以應用于語音識別、圖形和圖像處理等研究領域。從而得到更為精確和有用的信息,以增強搜索引擎的內容查詢功能。
2.2 Web結構挖掘
Web結構挖掘是從WWW的組織結構和鏈接關系中推導知識的過程。在整個Web空間里,有用的知識不僅包含在Web頁面的內容之中,而且也包含在頁面的鏈接結構之中。例如,如果我們發(fā)現(xiàn)一篇論文頁面經常被引用,那么這個頁面一定是非常重要的。Web結構挖掘試圖發(fā)現(xiàn)Web鏈接結構中潛在的模型,而這種模型是建立在超鏈拓撲基礎上的。它主要通過對Web站點的結構進行分析、變形和歸納,將Web頁面進行分類,以利于信息的搜索。這一類的技術常常被用來改進搜索引擎,例如PageRank和Clever方法等。PageRank技術可以用來衡量某個頁面的重要性,并且根據(jù)傳統(tǒng)搜索引擎搜索返回的頁面重要性來進行排序。Google就成功地利用了PageRank技術來提高其搜索引擎的有效性,并改善了它們的效率。
2.3 Web使用挖掘
Web中的每個服務器都保留了記錄關于用戶訪問和交互的信息訪問日志文件(Web Access Log)。分析這些數(shù)據(jù)可以幫助理解用戶的行為,從而改進站點的結構,或為用戶提供個性化的服務。Web使用挖掘的主要對象就是這些Web信息訪問日志,因此通常又稱之為Web日志挖掘。由于Web使用挖掘的主要目標則是從Web的訪問記錄中抽取感興趣的模式[6],所以也有文獻將這類挖掘稱為Web用戶訪問模式挖掘。Web使用挖掘的主要數(shù)據(jù)源除了用戶訪問Web時在服務器保留的訪問日志文件外,還包括Web站點的拓撲結構和站點文件、用戶的注冊信息、用戶調查信息、cookies以及與網站服務相關的數(shù)據(jù)庫數(shù)據(jù)等。通過挖掘得到的用戶訪問模式在銀行業(yè)、證券業(yè)、電子商務等方面得到了廣泛應用,例如可以進行網絡廣告分析、客戶分類、個性化服務、網絡欺騙預防等。
根據(jù)對數(shù)據(jù)源的不同處理方法,Web使用挖掘可以分為兩類,一類是將Web使用記錄的數(shù)據(jù)經預處理轉換,再傳遞進傳統(tǒng)的關系表里,使用數(shù)據(jù)挖掘算法對關系表中的數(shù)據(jù)進行常規(guī)挖掘;另一類是將Web使用記錄的數(shù)據(jù)直接預處理再進行挖掘[7]。J.Srivastava和R.Cooley等人在根據(jù)數(shù)據(jù)來源、數(shù)據(jù)類型、數(shù)據(jù)集合中的用戶數(shù)量、數(shù)據(jù)集合中的服務器數(shù)量等將Web使用挖掘應用領域分為五類:個性挖掘、系統(tǒng)改進、站點修改、智能商務和Web特征描述 [8-9]。
3 Web挖掘特點
和傳統(tǒng)的數(shù)據(jù)挖掘方法相比,Web挖掘的挖掘對象有其明顯的特殊性。數(shù)據(jù)挖掘的本質是針對數(shù)據(jù)的特性,采取相應的方法進行挖掘。傳統(tǒng)的基于關系數(shù)據(jù)的挖掘方法(如分類、聚類、關聯(lián)規(guī)則發(fā)現(xiàn)、統(tǒng)計方法等)需要結合Web數(shù)據(jù)的特性進行擴展、改進,以適應新的要求。這也使得Web挖掘具有以下明顯的特點:
1) Web數(shù)據(jù)日新月異,具有有很強的動態(tài)性
數(shù)據(jù)倉庫中的數(shù)據(jù)一般是相對固定的,而Internet上的信息日益增多,Web頁面目前已達數(shù)千億,每天還在不斷更新之中,其容量之大,變化之快,任何一個搜索引擎都難以適應這樣的快速發(fā)展。據(jù)中國互聯(lián)網絡信息中心于2008年7月發(fā)布的《中國互聯(lián)網絡發(fā)展狀況統(tǒng)計報告》稱,2008年6月中國的域名總數(shù)為1485萬個,年增長率為61.8%,繼續(xù)保持2006年12月以來50%以上的增長水平。中國國內網站數(shù)量已經從2004年的62.7萬個發(fā)展到如今的191.9萬個,年增長率達到46.3%。
Internet中這些數(shù)量眾多的網站數(shù)據(jù)更新非常迅速,有些信息可能很快過時。因此,在進行Web挖掘前的一個重要工作就是針對當前狀態(tài)的信息能夠快速更新挖掘數(shù)據(jù)源,確定需要挖掘的站點和范圍,以保證提供準確的決策支持。
2) 異構數(shù)據(jù)庫環(huán)境
要處理的Web站點數(shù)據(jù)在物理上是分散的,它們各自包含大量的數(shù)據(jù)信息,怎樣對其進行有效的處理和應用成了Web挖掘研究的熱點。一般的數(shù)據(jù)庫中的數(shù)據(jù)組織形式是基于二維關系的表格,結構性很強,而Web數(shù)據(jù)挖掘的對象是大量、異質的。Web上的每個站點就是一個數(shù)據(jù)源,每個數(shù)據(jù)源都是異構的,而且每個站點之間的信息和組織都不一樣,這就構成了一個巨大的異構數(shù)據(jù)庫環(huán)境。
顯然,面向Web的數(shù)據(jù)挖掘比單個數(shù)據(jù)倉庫的數(shù)據(jù)挖掘要復雜得多。要利用這些數(shù)據(jù)進行數(shù)據(jù)挖掘,首先,要研究站點之間異構數(shù)據(jù)的集成問題,只有將這些站點的數(shù)據(jù)都集成起來,提供給用戶一個統(tǒng)一的視圖,才有可能從巨大的數(shù)據(jù)資源中獲取所需的東西。其次,還要解決Web上的數(shù)據(jù)查詢問題,因為如果不能有效地得到所需的數(shù)據(jù),對這些數(shù)據(jù)進行分析、集成、處理就無從談起[10]。
3) 半結構化的數(shù)據(jù)結構
Web使用挖掘的數(shù)據(jù)非常復雜,往往具有半結構化或非結構化特性,難以映射到一個固定的模式,這與有一定的數(shù)據(jù)模型并可以根據(jù)模型來具體描述特定數(shù)據(jù)的傳統(tǒng)的數(shù)據(jù)庫有明顯不同。針對Web上的數(shù)據(jù)半結構化的特點,尋找一個半結構化的數(shù)據(jù)模型是解決問題的關鍵所在。除了要定義一個半結構化數(shù)據(jù)模型外,還需要一種半結構化模型抽取技術,即自動地從現(xiàn)有數(shù)據(jù)中抽取半結構化模型的技術。
4) 數(shù)據(jù)源的獲取越來越困難
早期的Internet上的信息都是簡單的HTML文件,一般的Web挖掘工具都可以直接獲取這些信息,網站也沒有對這些Web抓取工具進行防護。隨著ASP、JSP以及Web數(shù)據(jù)庫技術的發(fā)展,許多頁面都是從數(shù)據(jù)庫中動態(tài)調用生成,同時許多Web站點禁止Robot類工具的訪問。也有一部分站點的關鍵頁面通常只對所謂的會員開放。這一切都為Web數(shù)據(jù)挖掘數(shù)據(jù)源的獲取設置了障礙。
5) 用戶目標的模糊性
基于Internet的數(shù)據(jù)挖掘用戶往往對挖掘的主體有一個粗淺的認識,提不出很明確的目標來。這就需要Web挖掘系統(tǒng)具有一定的智能性和學習機制,不斷地跟蹤用戶的興趣,清晰地闡述挖掘結果。
4 Web挖掘發(fā)展方向
Web挖掘是一個較新的研究領域,具有廣闊的發(fā)展和應用前景。應該指出的是,面對日益增加的商業(yè)需求,Web挖掘技術還有許多問題需要解決,有待這一領域的研究者深入研究。在未來一段時間內,Web 挖掘中的以下方面將可能成為主要的研究方向與應用熱點。
1) Web挖掘技術在智能化搜索引擎上的應用研究
隨著網上信息量的激劇增長與信息內容持續(xù)更新,人們迫切需要能夠從Web上快速、有效地發(fā)現(xiàn)資源和知識的工具,提高在Web上檢索信息、利用信息的效率。盡管目前搜索引擎性能已有了較大提高,但搜索引擎的最終目標是“理解用戶需求精確返回所需”,如何翻譯用戶的非專業(yè)搜索請求,實現(xiàn)自然語言處理,這需要研究者們從不同的角度進行研究,將Web挖掘技術充分運用到搜索引擎中,提高搜索的準確性,優(yōu)化檢索結果與實現(xiàn)個性化服務。
2) Web挖掘技術在智能化Web瀏覽器上的應用研究
傳統(tǒng)的Web瀏覽器已經不能很好地滿足用戶在浩瀚的Web資源中找到符合自己要求的信息的需求。傳統(tǒng)的Web瀏覽器只是簡單地接受用戶的請求,與服務器交互后將傳來的頁面顯示給用戶,它根本沒有考慮用戶的所特有的個性化信息。深度優(yōu)先的搜索方式也很容易使得用戶進行漫無目的地瀏覽,從而很可能“迷失在超空間中”[11]。這些問題的解決將在很大程度上依賴于文檔特征選取、用戶興趣模型的學習與更新、信息過濾與文檔分類等關鍵技術的研究與應用情況,而這些正是Web挖掘技術研究的重要方面之一。
3) XML技術引入Web數(shù)據(jù)挖掘領域
XML(可擴充標記語言)的全稱是eXtensible Markup Language,同HTML一樣,是國際互聯(lián)網協(xié)會(W3C,World Wide Web Consortium)為Web應用開發(fā)的SGML(Standard General Markup Language)的一個重要分支。相對目前大量使用的HTML而言,XML具有簡單、開放性、通用性及跨平臺可擴充等特性,能很容易使不同來源的非結構化的數(shù)據(jù)結合在一起,因而使搜索多樣的不兼容的數(shù)據(jù)庫成為可能, 從而為解決由于Web數(shù)據(jù)源的異構性和半結構化特性給數(shù)據(jù)挖掘所帶來的困難提供了條件。XML對在Web中進行數(shù)據(jù)挖掘的促進作用是HTML無法比擬的。
此外,分布式Web 挖掘、語義Web 挖掘、無線網絡下的Web 挖掘、Web2.0 時代的Web 挖掘、多語言環(huán)境下的Web 挖掘等也是值得研究的方向。同時,Web 挖掘技術應用于具體領域的研究將持續(xù)受到關注,例如銀行證券、企業(yè)ERP、醫(yī)療衛(wèi)生、農業(yè)、電子商務、網絡教學、BLOG等領域。
Web數(shù)據(jù)挖掘是一個新興的研究領域,已廣泛地應用于金融業(yè)、遠程通訊業(yè)、政府管理、制造業(yè)、醫(yī)療服務以及體育事業(yè)中,對它的應用和研究正在成為一個熱點,并取得了一定成就。但從整體上看,目前的研究仍處于起步階段,許多問題有待深入研究,在實際應用中還有很多理論與技術有待進一步的研究和探討,我們有理由相信,隨著技術的加強和廣大科研工作者及工程技術人員的積極參與,Web挖掘技術必將在更廣闊的領域得到充分運用。
參考文獻:
[1] R Kosala,H Blockeel. Web Mining Research:A Survey[J].SIGKDD Exploration,2000,2(1):1-15 .
[2] 陳新中,李巖,謝永紅,等.Web挖掘研究.計算機工程與應用[J],2002,(13):42-44
[3] 張娥,鄭斐峰,馮耕中.Web日志數(shù)據(jù)挖掘的數(shù)據(jù)預處理方法研究.計算機應用研究[J].2004,21(2):58-60.
[4] 王繼成,潘金貴,張福炎.Web文本挖掘技術研究.計算機研究與發(fā)展[J],2000,37(5):513-524
[5] 陳新中,李巖.Web日志挖掘技術進展[J].系統(tǒng)工程與電子技術,2005,4.
[6] Srivastava J et al. Web usage mining: Discovery and application of usage patterns from Web data[J].SIGKDD Explorations.2000,1(2):12-23.
[7] 陳健,印鑒.Web使用挖掘技術研究綜述[J].計算機工程,2005,31(9).
[8] R.Cooley,B.Mobasher,J.srivastava.Grouping web page reference into transactions for mining world wide web browsing patterns[J].University of Minnesota Technical report. Tech Rep:TR 97 021.1997.
[9] R.Cooley,J.Srivastava.Data preparation for mining world wide web browsing patterns[J].Journal of knowledge and Information Systems.1999,1(1).
[10] 范亞芹,劉穎.Web數(shù)據(jù)挖掘原理及實現(xiàn)[J].吉林大學學報,2003,(4):370-3731.
[11] 譚諒,李曉黎,史忠植.一種實現(xiàn)搜索引擎?zhèn)€性化服務的方法[J].計算機科學,2002.