摘要:文章介紹了Web挖掘技術的概念、意義、研究現狀以及分類,Web日志挖掘是Web數據挖掘的重要分支,已成為研究人員關注的焦點。本文對日志挖掘過程中的數據預處理和模式發(fā)現進行了深入的討論,并總結了Web日志挖掘的關鍵技術。
關鍵詞:Web挖掘;日志挖掘;數據預處理
中圖分類號:TP393 文獻標識碼:A 文章編號:1007—9599 (2012) 14—0000—02
一、引言
隨著信息技術的飛速發(fā)展,Web已經成為是信息獲取、發(fā)布及共享的重要途徑,Web上的各類信息越來越齊全、越快速的增長。面對日益膨脹的各類資訊,將數據挖掘技術應用對Web頁面的各類內容、結構以及用戶訪問信息進行有效信息提取,更好的服務于Web事業(yè)發(fā)展,已經成為眾多研究者的熱門研究方向。
Web挖掘(Web Mining)是指通過對Web資源進行分析和研究,從中發(fā)現隱含未知的、有價值的規(guī)律和知識的過程。根據Web挖掘的對象和內容的不同,Web挖掘可以分為Web日志挖掘(Web log mining)、Web內容挖掘(Web content mining)和Web結構挖掘(Web structure mining)。其中,Web日志挖掘是指通過挖掘Web日志來發(fā)現用戶的訪問行為及模式,可以實現用戶聚類、頁面聚類和發(fā)現頻繁訪問路徑,進而改善網站結構設計和為用戶提供個性化服務,已成為眾多研究人員關注的焦點。
二、Web日志挖掘技術概述
(一)Web日志挖掘基本概念
Web日志挖掘是We挖掘技術中的一種,是指通過對Web日志記錄進行挖掘分析,對用戶訪問Web頁面的模式進行分析和總結,得到用戶進行Web訪問中隱含的規(guī)律或信息,并借助于這類信息來改進Web站點的性能和組織結構,提高用戶查找信息的效率和質量,并通過統(tǒng)計和關聯的分析找出特定用戶與特定地域、特定頁面、特定時間等要素之間的內在聯系。這在電子商務等領域有著非常重要的作用。用戶使用Web獲取信息的過程中需要不停地從一個Web站點通過超文本鏈接跳轉到另一個站點,這種過程存在一定的普遍性,發(fā)現此規(guī)律即是Web用戶訪問信息發(fā)現。Web日志挖掘是關于用戶行為及潛在顧客信息的發(fā)現,一般可以分為以下三個階段,數據預處理(Pre processing)、模式發(fā)現(Pattern Discovering)、模式分析(Pattern Analyzing),其體系結構如圖:
(二)數據預處理
數據預處理是指對為了將數據變成適合挖掘的數據格式,將原始日志文件進行篩選、過濾和重組后,并保存到數據庫中,以便不同類型的數據挖掘的進行操作。在Web日志挖掘中,數據挖掘預處理主要包含數據凈化、會話識別、路徑補充、用戶識別以及事物識別等。對Web的數據預處理會直接影響到挖掘算法的模式和結果,是保證Web日志挖掘有一個高質量結果的關鍵。
1.數據凈化
數據凈化是指將Web服務器中的日志中的無效數據進行刪除,消除日志數據中的冗余量,減少所需處理數據的總量。一般情況下,與用戶會話的日志信息中只有HTML文件,因此,可以建立一個后綴名表列,可以幫助刪除經過檢查后無關的URI資源。經過數據凈化后,可以減輕數據的大小,縮小數據預處理的容量,使得數據十分集中。
2.會話識別
會話識別是指將訪問記錄進行分解,分解為單個的會話。用戶的一次會話是某用戶對某個Web站點的一次訪問過程中所引用到的全部頁面。由于用戶的訪問是隨機的,因此用戶何時會離開一個站點是無法預知的。最簡單且最有效的判斷用戶是否已經離開該網站的方法是利用最大的超時來進行判斷。如若兩個頁面的請求時間超過了預設的門限,就認為一個會話已經結束,并且已經開始了一個新的會話。
3.路徑補充
路徑補充是指在用戶的會話文件中將遺漏的請求信息補充進來,也可以根據網絡拓撲結構和引用日志提供的信息把路徑補充完整。檢查Web日志中是否由于Cache而導致重要的頁面訪問記錄丟失。
4.用戶識別
用戶的有效識別是一件非常復雜的事情,這主要是代理服務器、防火墻或本地緩存所造成的。常用的方法為基于日志的方法,并結合一些啟發(fā)性的識別規(guī)則。例如:如果IP地址相同,但是代理信息變了(代理信息,在IIS5.0環(huán)境下的W3C擴展日志文件格式的cs(User—Agent)字段),表明用戶可能是在某個防火墻后面的內網的不同用戶,則可以標記為不同的用戶;還可以將訪問信息,引用信息(cs(Referer)字段)和站點拓撲機構結合,構造出用戶的瀏覽路徑,如果當前請求的頁面同用戶已瀏覽的頁面沒有鏈接關系,則認為存在IP地址相同的多個用戶。然而,使用這些規(guī)則并不可以保證一定可以準確識別用戶,用戶識別是個難題。
5.事務識別
事物識別是對用戶會話進行語義分組,即針對用戶會話的數據挖掘活動進行特定的事件定義。在Web日志挖掘領域中,對關聯挖掘任務的粒度太粗,因此要采用特定的算法,將會話分割成更小的事物。經過分割后變成頁面序列,再進行事物識別,可以得到諸多有意義的信息,及用戶會話中的網頁瀏覽路徑。
(三)模式發(fā)現階段
模式發(fā)現階段是指為了得到數據背后隱含的規(guī)律和模式,使用各種挖掘算法的過程,如機器學習、統(tǒng)計分析、模式識別等其他學科領域中已開發(fā)出來的方法和算法。當然,要將這些算法和Web日志挖掘的特性結合起來,目前已經得到廣泛應用的算法有序列模式、統(tǒng)計分析、關聯規(guī)則和聚類分析等技術。
1.序列模式
序列模式指通過對時序數據進行檢索,發(fā)現其在時間先后上具有特定順序的有效數據項。在對Web日志挖掘過程中,以序列模式為特征的識別技術會自動尋找用戶在時間上有先后關系的會話中的頁面訪問請求。利用發(fā)現的序列模式中的潛在規(guī)律可以預測用戶即將可能訪問的頁面。這樣就可以針對不同的用戶組的個性需求,在頁面中放置為其特意設置的廣告條目來增加點擊率。除了時間序列模式外,其他方面的序列模式有:趨勢分析、轉折點檢測、相似性分析等。
2.統(tǒng)計分析
統(tǒng)計分析是對Web用戶各類信息獲取的最常用的方法。通過對用戶會話文件進行分析,對用戶會話文件中隱含的頻率、中位數和平均值等多種信息進行提取,來完成對用戶會話的基本描述性分析。統(tǒng)計分析對用戶瀏覽路徑中的訪問頁面、訪問長度和訪問停留時間等信息進行收集,到了預訂的時間會將所統(tǒng)計的信息進行反饋,并以分析報告的形式來表現。這些統(tǒng)計信息包括頁面的平均訪問時間、被訪問最頻繁的頁面以及頁面的平均訪問路徑長度等信息。
3.關聯規(guī)則
關聯規(guī)則是對用戶會話進行分析后,將用戶經常一起訪問的頁面進行集合整理。當然,這些頁面之間并不存在任何順序關系。如果所選擇出來的關聯頁面之間不存在相關的超鏈接,則這是一個對研究人員非常感興趣的關聯規(guī)則。目前,挖掘關聯規(guī)則中所常用的算法是Apriori算法及其變形算法。
4.聚類分析
聚類分析又名歸類分析,是指通過數據挖掘技術,將具有相似特征的部分數據項或用戶信息歸類,并將這些歸類后的信息進行整合,以供決策使用。在Web日志挖掘中,聚類分析主要對頁面數據項聚類和用戶信息聚類。頁面數據項聚類是指將相似內容的頁面數據項進行歸類,這些信息可以為用戶對該相似信息進行檢索時提供服務。用戶信息聚類是指將具有相似瀏覽行為的用戶進行歸類,這些信息可以讓商家為特定的用戶群體提供個性化的Web服務。
(四)模式分析階段
模式分析階段為Web日志挖掘提供可視化的輸出結果,這一結果將為Web日志挖掘所得的結果進行分析。如果這一結果沒有通過適當的表現技術和相關的技術人員來進行講解,所挖掘出來的信息將難以得到高效的利用。所以,通過模式分析,開發(fā)出多種分析工具,這對于數據挖掘結果的高效利用、實現效用最大化也是非常有幫助的。
三、總結
Web日志挖掘能夠發(fā)現單個用戶瀏覽網站的行為規(guī)律,進而改善頁面的超鏈接結構。在Web挖掘領域中,Web日志挖掘是一個非常重要的研究方向,對于提高整個Web系統(tǒng)的性能都有十分重要的意義。因此,Web日志挖掘不管是從學術角度還是商業(yè)運作的角度而言,都是非常具有研究價值的。
參考文獻:
[1]Jia wei Han,Micheline Kamber.數據挖掘:概念與技術(原書第二版)[M].北京:機械工業(yè)出版社,2007
[2]張士瑞.基于Web技術的教育網站系統(tǒng)設計和數據挖掘[D].山東大學碩士學位論文,2005
[3]王兆慶.WEB挖掘技術及其應用研究[J].計算機應用,2007,6:94—95
[4]張超林,劉麗珍,陳俊杰.Web使用挖掘中網站結構和內容的作用