摘要: Web日志挖掘可以使我們發(fā)現(xiàn)Web用戶潛在的使用規(guī)律和模式。為了將存在著缺失、錯(cuò)誤、噪音的原始Web日志數(shù)據(jù)轉(zhuǎn)化為可靠、完整、準(zhǔn)確的用戶訪問(wèn)事務(wù)數(shù)據(jù)庫(kù),數(shù)據(jù)預(yù)處理工作是十分關(guān)鍵和重要的一步。文章就Web日志挖掘的預(yù)處理模型進(jìn)行了深入的研究,并將其應(yīng)用到實(shí)際日志數(shù)據(jù)預(yù)處理中,得到了理想的結(jié)果。
關(guān)鍵詞:Web日志挖掘;數(shù)據(jù)挖掘;數(shù)據(jù)預(yù)處理;研究
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2009)14-3602-03
Research and Practice on the Data Preprocessing Technology in Web log Mining
LI Jia-lin
(Nanjing Institute of Industry Technology, Nanjing 210046, China)
Abstract: Web log mining extracts web user’s interested access patterns for us. The original data from access log files exists deficiencies,errors,noise. So the data-preproeessing stage becomes a very critical and important step .This paper discusses data preprocessing model in Web log mining and gain ideal result by practical application.
Key words: Web log mining;data mining;data preprocessing; research
1 引言
Web日志挖掘(Web Log Mining)是目前Web數(shù)據(jù)挖掘中非常重要的一個(gè)研究領(lǐng)域和研究方向。Web站點(diǎn)的服務(wù)器日志數(shù)據(jù)記錄了瀏覽用戶對(duì)此Web站點(diǎn)訪問(wèn)時(shí)的大量路徑。通過(guò)分析和發(fā)現(xiàn)Web日志記錄中的規(guī)律,我們可以挖掘出Web用戶潛在的使用規(guī)律和模式。這方面的研究成果對(duì)于發(fā)現(xiàn)用戶瀏覽網(wǎng)站的行為規(guī)律,改善頁(yè)面之間的超鏈接結(jié)構(gòu),提高整個(gè)Web系統(tǒng)的性能等方面都有十分重要的意義。Web日志挖掘的研究依然遵循數(shù)據(jù)挖掘的研究思路,但與傳統(tǒng)的數(shù)據(jù)挖掘研究相比,也有明顯的不同之處。作為Web日志挖掘的對(duì)象,Web服務(wù)器日志文件與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)相比,不是完全結(jié)構(gòu) 化的數(shù)據(jù),而是半結(jié)構(gòu)化甚至是非結(jié)構(gòu)化的數(shù)據(jù)。因此,Web日志挖掘的的首要也是比較繁瑣的工作就是完成數(shù)據(jù)凈化、用戶識(shí)別、會(huì)話識(shí)別和路徑補(bǔ)充等數(shù)據(jù)預(yù)處理過(guò)程。
2 Web日志分析
由于Web世界的廣泛分布性,記錄了用戶訪問(wèn)行為的Web日志可能分布在客戶機(jī)(client)、代理服務(wù)器(Web proxy)或Web服務(wù)器(Web server)中。存儲(chǔ)在客戶機(jī)、代理服務(wù)器端的用戶訪問(wèn)信息往往比較分散,且難以獲取,因此人們更多是利用Web服務(wù)器端的日志文件作為數(shù)據(jù)挖掘的對(duì)象。
用戶瀏覽Web服務(wù)器時(shí),服務(wù)器方將會(huì)產(chǎn)生3種類型的日志文件:Server logs、Error logs和Cookie logs,這些日志文件用于記錄用戶訪問(wèn)服務(wù)器的IP地址、用戶名、訪問(wèn)時(shí)間及方法、服務(wù)器的狀態(tài)、請(qǐng)求、代理信息等基本情況。Web日志以文本文件的格式保存,擴(kuò)展名為.log,通常以天為單位記錄日志,文件的大小隨網(wǎng)站的訪問(wèn)量從幾MB到數(shù)GB不等。日志文件的命名包含了日期信息,其基本格式為ex+年份+月份+日期.log。例如文件名為ex070512.log的日志文件記錄的是2007年5月12日該服務(wù)器的訪問(wèn)信息。盡管Web日志文件沒(méi)有以關(guān)系數(shù)據(jù)庫(kù)二維表格形式來(lái)存放,但還是有一定的格式,按照這樣的格式,我們可以分析日志文件蘊(yùn)含的有用信息。日志文件的主要結(jié)構(gòu)如表1所示。
3 Web日志挖掘基本流程
在系統(tǒng)記錄Web日志后,一般用戶可以先期進(jìn)行簡(jiǎn)單的日志分析。例如,通過(guò)統(tǒng)計(jì)分析可以得到Web站點(diǎn)的總體運(yùn)行狀況,包括點(diǎn)擊率、頁(yè)面訪問(wèn)情況、每日流量等;可以對(duì)網(wǎng)站的客戶作出簡(jiǎn)單的統(tǒng)計(jì);可以對(duì)文件訪問(wèn)次數(shù)、下載次數(shù)作出統(tǒng)計(jì)等等。對(duì)于Web日志的一般統(tǒng)計(jì)分析,管理員可以借助一些簡(jiǎn)單的統(tǒng)計(jì)軟件或者SQL語(yǔ)句即可以完成,但如果我們要進(jìn)行網(wǎng)頁(yè)相關(guān)性分析、用戶訪問(wèn)模式分析、用戶歸類等較深層次的應(yīng)用,必須利用數(shù)據(jù)挖掘技術(shù)對(duì)Web日志數(shù)據(jù)進(jìn)行進(jìn)一步挖掘分析,才能得到更多有用的信息。Web日志挖掘和其他數(shù)據(jù)挖掘處理過(guò)程一樣,也需要經(jīng)過(guò)數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)預(yù)處理、模式發(fā)現(xiàn)和模式分析等基本過(guò)程,對(duì)Web日志進(jìn)行處理和分析來(lái)提取隱藏在日志數(shù)據(jù)背后的用戶對(duì)Web站點(diǎn)的訪問(wèn)行為、特征等有價(jià)值的信息。Web日志挖掘基本流程如圖1所示。
1)數(shù)據(jù)準(zhǔn)備
由于日志文件是以文本形式存儲(chǔ)的,并不便于數(shù)據(jù)預(yù)處理及挖掘算法的實(shí)現(xiàn),因此須將它轉(zhuǎn)換為一種比較容易編程實(shí)現(xiàn)的數(shù)據(jù)庫(kù)格式。對(duì)于Web日志這種半結(jié)構(gòu)化的文本數(shù)據(jù),可以根據(jù)日志文件的內(nèi)容信息,在數(shù)據(jù)表中構(gòu)建相應(yīng)的字段,再將文本數(shù)據(jù)導(dǎo)入到數(shù)據(jù)表中。
2)數(shù)據(jù)預(yù)處理
數(shù)據(jù)的預(yù)處理階段非常重要,它關(guān)系到之后挖掘算法的選取,這一步產(chǎn)生的數(shù)據(jù)質(zhì)量直接影響到最終挖掘的結(jié)果。數(shù)據(jù)預(yù)處理過(guò)程是把用戶的訪問(wèn)日志轉(zhuǎn)化為易于進(jìn)行挖掘的數(shù)據(jù)類型和結(jié)構(gòu),對(duì)用戶的訪問(wèn)日志進(jìn)行數(shù)據(jù)清理、過(guò)濾和轉(zhuǎn)換,從中獲得用戶感興趣的數(shù)據(jù)。
3)模式發(fā)現(xiàn)
Web日志挖掘的模式發(fā)現(xiàn)主要是利用數(shù)據(jù)挖掘的算法從上述數(shù)據(jù)預(yù)處理階段產(chǎn)生的用戶會(huì)話中發(fā)現(xiàn)知識(shí),尋找用戶的訪問(wèn)模式。模式發(fā)現(xiàn)采用了很多人工智能、數(shù)據(jù)挖掘、統(tǒng)計(jì)理論、序列模式、分類、聚類、模式識(shí)別的方法,主要的挖掘技術(shù)有路徑分析技術(shù)、關(guān)聯(lián)規(guī)則技術(shù)、序列模式技術(shù)等[1]。
4)模式分析
模式分析過(guò)程就是對(duì)發(fā)現(xiàn)的模式進(jìn)行分析,對(duì)模式進(jìn)行過(guò)濾和篩選,找到有用的、用戶感興趣的模式,并用可視化的工具以人們可以理解的形式表示出來(lái)。目前正在研究和應(yīng)用的模式分析技術(shù)主要有可視化技術(shù)、聯(lián)機(jī)分析(OLAP)技術(shù)、知識(shí)查詢等。
4 Web日志挖掘的預(yù)處理分析
為了將存在著缺失、錯(cuò)誤、噪音的原始Web日志數(shù)據(jù)轉(zhuǎn)化為可靠、完整、準(zhǔn)確的數(shù)據(jù)源,數(shù)據(jù)預(yù)處理工作是十分關(guān)鍵和重要的一步, 數(shù)據(jù)預(yù)處理的結(jié)果好壞直接影響了后續(xù)工作是否能得到理想的結(jié)果,同時(shí)也決定了最終挖掘出的知識(shí)的可信度。通常數(shù)據(jù)預(yù)處理過(guò)程主要包括數(shù)據(jù)清洗、用戶識(shí)別、用戶會(huì)話識(shí)別和路徑補(bǔ)充等幾個(gè)預(yù)處理步驟[2]。
1)數(shù)據(jù)清洗
數(shù)據(jù)清洗簡(jiǎn)單而言就是指刪除Web服務(wù)器日志中與挖掘算法無(wú)關(guān)的數(shù)據(jù),也就是根據(jù)具體的分析要求將Web日志文件數(shù)據(jù)中那些不一致的、有噪聲的、冗余的、不相關(guān)的數(shù)據(jù)去除掉,同時(shí)檢查是不是還有一些沒(méi)有被記錄下來(lái)的日志,并對(duì)錯(cuò)誤的數(shù)據(jù)進(jìn)行處理。將原始日志文件導(dǎo)入數(shù)據(jù)庫(kù)文件中后,需要根據(jù)數(shù)據(jù)表示、寫(xiě)入的對(duì)象差異以及用戶興趣和挖掘算法對(duì)數(shù)據(jù)要求的不同,確定合理的數(shù)據(jù)清洗策略。
首先,要清洗日志文件中無(wú)關(guān)的域。從表1我們可以看出,Web日志記錄記錄了用戶日期(date)、時(shí)間(time)、服務(wù)器IP地址(s-ip) 、用戶訪問(wèn)方式(cs-method))等信息,但這些屬性并不都是挖掘所需要的,與數(shù)據(jù)挖掘相關(guān)的一般只有用戶IP地址、用戶請(qǐng)求訪問(wèn)的頁(yè)面、訪問(wèn)時(shí)間等屬性,因此其他屬性可以被清除。
其次,要剔除不相關(guān)的記錄。通常日志文件都包含數(shù)萬(wàn)乃至千萬(wàn)條日志記錄,但并不是所有的記錄都反映了用戶的真正訪問(wèn)意圖。例如,當(dāng)用戶請(qǐng)求一個(gè)網(wǎng)頁(yè)時(shí),與這個(gè)網(wǎng)頁(yè)有關(guān)的圖片、音頻等信息會(huì)自動(dòng)下載,并記錄在日志文件中;而如果我們挖掘的目的是用戶訪問(wèn)模式,則這些信息對(duì)我們來(lái)說(shuō)顯然用處不大(除非圖片、音頻等是用戶顯式請(qǐng)求的,即用戶所需要的內(nèi)容正是這些圖片和音頻等文件),所以可以把日志中文件的后綴為.gif、jpg、jpeg等的記錄刪除。另外還有一些腳本文件對(duì)后面的分析處理也沒(méi)有太大作用,所以也可以將其刪除。這些腳本文件的后綴名通常為cgi、js、JS等。日志中還有一些是管理員維護(hù)網(wǎng)站時(shí)留下的信息,這些信息也是沒(méi)有用的,可以刪掉。另外,服務(wù)器對(duì)用戶請(qǐng)求響應(yīng)失敗的記錄(狀態(tài)碼格式不是2XX或3XX)以及請(qǐng)求方法不是GET的日志記錄,對(duì)后續(xù)分析不產(chǎn)生影響,都可將它們刪除。
實(shí)際應(yīng)用中,可以定義一個(gè)缺省的規(guī)則庫(kù)來(lái)幫助確定需刪除記錄,而且這個(gè)規(guī)則庫(kù)應(yīng)可以根據(jù)正在分析的網(wǎng)站類型進(jìn)行修改。例如,對(duì)于主要包含圖形的站點(diǎn),日志中的圖形文件可能代表了用戶的顯式請(qǐng)求,此時(shí)就不能將圖形文件刪除。我們可以預(yù)先將網(wǎng)站分為一般網(wǎng)站、圖片網(wǎng)站、音視頻網(wǎng)站等,分別建立對(duì)應(yīng)的規(guī)則庫(kù):確定要分析的網(wǎng)站屬于那一類,然后按照該類網(wǎng)站的規(guī)則庫(kù)進(jìn)行數(shù)據(jù)清理。當(dāng)然,還可以根據(jù)自己的需要對(duì)規(guī)則庫(kù)進(jìn)行刪改。
2)用戶識(shí)別
用戶是指通過(guò)瀏覽器訪問(wèn)一個(gè)或多個(gè)站點(diǎn)的個(gè)體。用戶識(shí)別(user identification)是從數(shù)據(jù)清洗過(guò)程得到的數(shù)據(jù)中識(shí)別每一個(gè)用戶。由于本地緩存、代理服務(wù)器和防火墻的存在,使得識(shí)別每一個(gè)用戶的任務(wù)變得很復(fù)雜。經(jīng)常遇到的情況是:不同的用戶可以在同一時(shí)間通過(guò)一個(gè)簡(jiǎn)單的代理訪問(wèn)Web服務(wù)器;同一個(gè)用戶可能在不同的機(jī)器上訪問(wèn)Web服務(wù)器;一個(gè)用戶可能在同一臺(tái)機(jī)器上使用不同的瀏覽器訪問(wèn)Web服務(wù)器;而當(dāng)不同的用戶使用同一臺(tái)機(jī)器瀏覽某一站點(diǎn)時(shí)也會(huì)造成混淆。
依賴用戶的合作來(lái)識(shí)別用戶是最好的解決方法,但是由于涉及到隱私,這種解決辦法往往難以進(jìn)行。一般最常被Web日志挖掘工具使用的技術(shù)就是基于日志/站點(diǎn)的方法,并輔助一些啟發(fā)式方法幫助識(shí)別用戶。基于Cookie的方法、基于IP和瀏覽器的方法、基于用戶瀏覽模式和網(wǎng)站拓樸結(jié)構(gòu)的方法都是典型的啟發(fā)式方法,這些啟發(fā)式方法一個(gè)總的原則是:若沒(méi)有證據(jù)表明是不同的用戶,就認(rèn)為是同一用戶[3]。
常用的一些啟發(fā)式規(guī)則包括:如果IP地址相同,但是代理(Agent)日志中表明用戶的瀏覽器或操作系統(tǒng)改變了,則認(rèn)為不同的代理表示不同的用戶;將用戶的訪問(wèn)日志、引用日志和站點(diǎn)的拓?fù)浣Y(jié)構(gòu)圖結(jié)合起來(lái),構(gòu)建用戶的瀏覽路徑,如果當(dāng)前請(qǐng)求的頁(yè)面同用戶已瀏覽的頁(yè)面之間沒(méi)有超鏈接關(guān)系,那么就認(rèn)為存在另外相同IP地址的用戶。
這里需要說(shuō)明的一點(diǎn)是,這些啟發(fā)規(guī)則的使用,并不能完全、準(zhǔn)確地識(shí)別出所有用戶。例如,具有相同IP地址的用戶若在同樣類型的機(jī)器上使用同種瀏覽器,并且請(qǐng)求的頁(yè)面集合相同,或者一個(gè)用戶使用兩種類型的瀏覽器,或是沒(méi)有使用站點(diǎn)的鏈接結(jié)構(gòu)直接輸U(kuò)RL,則容易被認(rèn)為是多個(gè)用戶,按照上述啟發(fā)式規(guī)則將會(huì)得到相反的結(jié)論。
3)會(huì)話識(shí)別
會(huì)話(Session)表示一個(gè)用戶在一段時(shí)間內(nèi)訪問(wèn)某一網(wǎng)站的網(wǎng)頁(yè)的一個(gè)有序集合。會(huì)話識(shí)別是將用戶的訪問(wèn)記錄分為單個(gè)會(huì)話。顯然,日志中的不同用戶訪問(wèn)頁(yè)面屬于不同的會(huì)話。
在跨越時(shí)間區(qū)段較大的Web服務(wù)器日志中,用戶有可能多次訪問(wèn)了該站點(diǎn),它沒(méi)有考慮時(shí)間因素,因此得到的結(jié)果是:一個(gè)頁(yè)面序列可能包含了該用戶訪問(wèn)站點(diǎn)的多次情況,并沒(méi)有將用戶的每次訪問(wèn)情況區(qū)分開(kāi)來(lái)。當(dāng)某個(gè)用戶的頁(yè)面請(qǐng)求在時(shí)間上相差比較大時(shí),就有可能是該用戶對(duì)這個(gè)站點(diǎn)進(jìn)行了多次訪問(wèn),這時(shí),可以將用戶的訪問(wèn)記錄劃分成多個(gè)會(huì)話。最簡(jiǎn)單的方法是利用超時(shí)法或者叫作時(shí)間戳方法。如果用戶訪問(wèn)兩個(gè)頁(yè)面的時(shí)間差超過(guò)了某個(gè)閾值就認(rèn)為用戶開(kāi)始了一個(gè)新的會(huì)話??梢愿鶕?jù)用戶使用記錄的反饋信息來(lái)調(diào)整這個(gè)閾值。該閾值一般設(shè)定為30分鐘,但是L.Catledge和J.Pitkow由實(shí)驗(yàn)得出設(shè)為25.5分鐘更合理一些[4]。
4)路徑補(bǔ)充
路徑補(bǔ)充檢查訪問(wèn)日志中是否有一些重要的請(qǐng)求沒(méi)有被記錄下來(lái),如果有遺漏,則根據(jù)用戶的訪問(wèn)模式將這些遺漏的請(qǐng)求補(bǔ)充進(jìn)去,從而獲得一個(gè)完整的用戶訪問(wèn)路徑。如果當(dāng)前請(qǐng)求的頁(yè)與用戶上一次請(qǐng)求的頁(yè)之間沒(méi)有超文本鏈接,那么用戶很可能使用了瀏覽器上的“BACK”按鈕調(diào)用緩存在本機(jī)中的頁(yè)面。檢查引用日志確定當(dāng)前請(qǐng)求來(lái)自哪一頁(yè),如果在用戶的歷史訪問(wèn)記錄上有多個(gè)頁(yè)面都包含與當(dāng)前請(qǐng)求頁(yè)的鏈接,則將請(qǐng)求時(shí)間最接近當(dāng)前請(qǐng)求頁(yè)的頁(yè)面作為當(dāng)前請(qǐng)求的來(lái)源。若引用日志不完整,可以使用站點(diǎn)的拓?fù)浣Y(jié)構(gòu)代替。通過(guò)這種方法將遺漏的頁(yè)面請(qǐng)求添加到用戶的會(huì)話文件中。
經(jīng)過(guò)對(duì)Web日志的預(yù)處理,形成相應(yīng)的事務(wù)集,就可以對(duì)這個(gè)事務(wù)集進(jìn)行關(guān)聯(lián)規(guī)則和序列模式發(fā)現(xiàn)發(fā)現(xiàn)等挖掘工作,從而得到Web用戶潛在的使用規(guī)律和模式。這方面的挖掘成果可被廣泛應(yīng)用于發(fā)現(xiàn)電子商務(wù)中的潛在客戶、提高Web服務(wù)的質(zhì)量和效率以及優(yōu)化企業(yè)信息門(mén)戶性能等領(lǐng)域。
5 應(yīng)用實(shí)例
本研究采用的的數(shù)據(jù)源為某學(xué)院網(wǎng)站的服務(wù)器日志文件, 選取2008年4月份1-10號(hào)的Web訪問(wèn)日志作為挖掘?qū)ο?。服?wù)器每天產(chǎn)生一個(gè)日志文件,例如文件ex080401.log表示2008年4月1日的訪問(wèn)日志數(shù)據(jù), 實(shí)驗(yàn)數(shù)據(jù)文件總大小為146Mb。日志文件是非結(jié)構(gòu)化的文本文件,我們?nèi)コ募_(kāi)頭與挖掘內(nèi)容無(wú)關(guān)的信息后,將其導(dǎo)入數(shù)據(jù)庫(kù)中,并合并至一個(gè)數(shù)據(jù)庫(kù)文件中,記錄總數(shù)為927646條。
接下來(lái)要做的工作是數(shù)據(jù)清洗。數(shù)據(jù)清洗首先清洗日志文件中無(wú)關(guān)的域。我們挖掘的日志源數(shù)據(jù)表共有13項(xiàng)數(shù)據(jù)域,根據(jù)挖掘的要求,我們只保留了與數(shù)據(jù)挖掘相關(guān)的訪問(wèn)時(shí)間、訪問(wèn)方式、用戶IP地址、用戶請(qǐng)求訪問(wèn)的頁(yè)面、瀏覽器類型等5個(gè)域,其他域均可以被清除。其次,要清除與挖掘目標(biāo)不相關(guān)的記錄。清除的主要對(duì)象有:
用戶請(qǐng)求訪問(wèn)的頁(yè)面后綴名為.gif、jpg、jpeg、bmp、ico等圖像文件及后綴名為cgi、js、JS等腳本文件的記錄;
服務(wù)器對(duì)用戶請(qǐng)求響應(yīng)失敗的記錄(狀態(tài)碼格式不是2XX或3XX);
請(qǐng)求方法不是GET的日志記錄,對(duì)后續(xù)分析不產(chǎn)生影響。
經(jīng)過(guò)以上數(shù)據(jù)清理之后,只包含39315條記錄,清除率96%。結(jié)果如圖2所示。
本次實(shí)驗(yàn)為了更簡(jiǎn)單有效地識(shí)別用戶,采用了如下的啟發(fā)式規(guī)則幫助識(shí)別用戶:
不同的IP地址代表不同的用戶;
用戶的IP地址相同, 但相應(yīng)的代理信息(Csagent)如果顯示用戶的操作系統(tǒng)或者瀏覽器類型改變了, 就代表不同的用戶
將用戶的訪問(wèn)日志、引用日志和站點(diǎn)的拓?fù)浣Y(jié)構(gòu)圖結(jié)合起來(lái),構(gòu)建用戶的瀏覽路徑,如果當(dāng)前請(qǐng)求的頁(yè)面同用戶已瀏覽的頁(yè)面之間沒(méi)有超鏈接關(guān)系,那么就認(rèn)為存在另外相同IP地址的用戶。
按照上述的規(guī)則識(shí)別用戶后,進(jìn)行用戶編號(hào)。同時(shí),為了便于信息處理,實(shí)驗(yàn)中將不同的訪問(wèn)頁(yè)面結(jié)合拓?fù)浣Y(jié)構(gòu)圖進(jìn)行采用“頁(yè)面層別+序號(hào)”的方式進(jìn)行編號(hào),例如編號(hào)為“001”為主頁(yè)(/index.asp),編號(hào)為“102”的頁(yè)面是指一級(jí)子頁(yè)面的第二頁(yè)面(/szdw.asp,教學(xué)科研中的師資隊(duì)伍頁(yè)面),依此類推。在識(shí)別用戶的同時(shí),還計(jì)算出了用戶訪問(wèn)每個(gè)頁(yè)面時(shí)所停留的時(shí)間,為后面的會(huì)話識(shí)別工作做準(zhǔn)備。相關(guān)數(shù)據(jù)如圖3所示。
會(huì)話識(shí)別采用的是最簡(jiǎn)單的方法——超時(shí)法或者叫作時(shí)間戳方法。設(shè)定用戶訪問(wèn)兩個(gè)頁(yè)面的時(shí)間差閾值為30分鐘,超過(guò)了30分鐘就認(rèn)為用戶開(kāi)始了一個(gè)新的會(huì)話。由于用戶在訪問(wèn)過(guò)程中很可能使用會(huì)瀏覽器上的“后退”按鈕調(diào)用緩存在本機(jī)中的頁(yè)面,因此要進(jìn)行路徑補(bǔ)充檢查訪問(wèn)日志中是否有一些重要的請(qǐng)求沒(méi)有被記錄下來(lái),如果有遺漏,則根據(jù)用戶的訪問(wèn)模式將這些遺漏的請(qǐng)求補(bǔ)充進(jìn)去,從而獲得一個(gè)完整的用戶訪問(wèn)路徑。
經(jīng)過(guò)會(huì)話識(shí)別后,利用最大向前引用方法(MFP)[5]進(jìn)一步將用戶會(huì)話劃分為語(yǔ)義上有意義的事務(wù),形成待挖掘的用戶訪問(wèn)事務(wù)數(shù)據(jù)庫(kù)。如圖4所示。
6 結(jié)束語(yǔ)
上文我們討論了數(shù)據(jù)挖掘過(guò)程中數(shù)據(jù)預(yù)處理的各種關(guān)鍵技術(shù),如數(shù)據(jù)清洗、用戶識(shí)別、會(huì)話識(shí)別等,將從一個(gè)典型的學(xué)院網(wǎng)站獲取的非結(jié)構(gòu)的日志文件導(dǎo)入到數(shù)據(jù)庫(kù)中,進(jìn)行數(shù)據(jù)清理、過(guò)濾和轉(zhuǎn)換,生成可直接進(jìn)行數(shù)據(jù)挖掘的用戶訪問(wèn)事務(wù)數(shù)據(jù)庫(kù),從而可以從中挖掘出用戶感興趣的數(shù)據(jù)與規(guī)則。作為一個(gè)全新的研究領(lǐng)域,Web日志挖掘的預(yù)處理技術(shù)還有很多方面值得我們深入研究。例如,前面討論的數(shù)據(jù)預(yù)處理的技術(shù)方法對(duì)于中小規(guī)模的網(wǎng)站日志處理得心應(yīng)手,但對(duì)于處理像一些大型門(mén)戶網(wǎng)站的海量日志數(shù)據(jù)是難以勝任的。另一方面,日志數(shù)據(jù)是動(dòng)態(tài)更新的,我們處理的往往是靜態(tài)數(shù)據(jù),不能反映網(wǎng)站實(shí)時(shí)訪問(wèn)情況,所采取的網(wǎng)站結(jié)構(gòu)優(yōu)化存在滯后現(xiàn)象,如何實(shí)現(xiàn)在線實(shí)時(shí)日志數(shù)據(jù)挖掘,也是一個(gè)值得深入研究與探討的課題。
參考文獻(xiàn):
[1] T.A.Runkler,J.C.Bezdek.Web mining with relational clustering.International Journal of Approximate Reasoning.2003,32(3):217-236.
[2] 紀(jì)良浩,王國(guó)撤,楊勇,等.基于協(xié)作過(guò)濾的Web日志數(shù)據(jù)預(yù)處理研究.重慶郵電學(xué)院學(xué)報(bào), 2006(10).
[3] 趙偉,何丕廉,陳霞,等.Web日志挖掘中的數(shù)據(jù)預(yù)處理技術(shù)研究.計(jì)算機(jī)應(yīng)用,2003,23(5):62-67.
[4] 趙紅玲,宋瀚濤,等.Web日志挖掘中數(shù)據(jù)預(yù)處理的研究[J].計(jì)算機(jī)應(yīng)用研究,2005,6:67-69.
[5] 劉立軍,周軍,等.Web 使用挖掘的數(shù)據(jù)預(yù)處理[J]. 計(jì)算機(jī)科學(xué),2007,Vol.34 No 15:200-201.