鄧 悅 趙井文
[摘要]隨著互聯(lián)網(wǎng)的飛速發(fā)展,互聯(lián)網(wǎng)和人們?nèi)粘5纳?、工作、學(xué)習(xí)等各方面的結(jié)合越來(lái)越緊密,Web用戶(hù)行為模式挖掘能更好的使互聯(lián)網(wǎng)服務(wù)于用戶(hù)(通過(guò)Web個(gè)性化服務(wù)等方式)。目前,Web用戶(hù)行為模式挖掘仍然是一個(gè)新興的研究領(lǐng)域,從模式挖掘結(jié)構(gòu)體系、模式挖掘過(guò)程,模式挖掘應(yīng)用等方面對(duì)Web用戶(hù)行為模式挖掘中關(guān)鍵問(wèn)題的研究進(jìn)行探討。
[關(guān)鍵詞]數(shù)據(jù)挖掘 Web挖掘 Web用戶(hù)行為模式挖掘
中圖分類(lèi)號(hào):TP3文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1671-7597(2009)0520034-01
一、引言
隨著Internet的飛速發(fā)展,網(wǎng)絡(luò)上的數(shù)據(jù)資源越來(lái)越豐富,其中蘊(yùn)涵著巨大潛在價(jià)值的信息。如何從浩瀚如煙的網(wǎng)絡(luò)信息中快速準(zhǔn)確地發(fā)現(xiàn)知識(shí),如何高效利用網(wǎng)絡(luò)資源服務(wù)于用戶(hù),是互聯(lián)網(wǎng)用戶(hù)迫切需要解決的一個(gè)重要課題。將傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)與Web技術(shù)相結(jié)合,進(jìn)行Web挖掘。根據(jù)用戶(hù)在瀏覽站點(diǎn)時(shí)的行為,掌握用戶(hù)使用互聯(lián)網(wǎng)的規(guī)律性特點(diǎn),將挖掘出的用戶(hù)訪問(wèn)模式應(yīng)用于網(wǎng)站上,可以提高站點(diǎn)的服務(wù)質(zhì)量,方便用戶(hù)的使用。
二、Web數(shù)據(jù)挖掘
Web挖掘是數(shù)據(jù)挖掘在Web上的應(yīng)用,指從大量非結(jié)構(gòu)化、異構(gòu)的Web信息資源中發(fā)現(xiàn)有效的、新穎的、潛在可用的及最終可理解的知識(shí)(包括概念、模式、規(guī)則、規(guī)律、約束及可視化等形式)的過(guò)程,涉及Web技術(shù)、數(shù)據(jù)挖掘、計(jì)算機(jī)語(yǔ)言學(xué)、信息學(xué)等多個(gè)領(lǐng)域,是一項(xiàng)綜合技術(shù)。
根據(jù)關(guān)注對(duì)象的不同,Web 挖掘一般可分為Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘和Web訪問(wèn)模式挖掘。Web訪問(wèn)模式挖掘是通過(guò)處理Web使用數(shù)據(jù),以發(fā)現(xiàn)用戶(hù)的訪問(wèn)模式,理解用戶(hù)的行為。用戶(hù)訪問(wèn)模式的挖掘過(guò)程就是通過(guò)數(shù)據(jù)挖掘技術(shù)從Web使用數(shù)據(jù)中自動(dòng)抽取訪問(wèn)模式的過(guò)程。
三、Web用戶(hù)行為模式挖掘結(jié)構(gòu)
目前的Web用戶(hù)行為模式挖掘系統(tǒng)結(jié)構(gòu)差別較大,但基本的Web用戶(hù)行為模式挖掘結(jié)構(gòu)由數(shù)據(jù)源、數(shù)據(jù)預(yù)處理、模式挖掘、模式分析和模式應(yīng)用幾部分構(gòu)成。
Web用戶(hù)行為模式挖掘基本體系結(jié)構(gòu)中所涉及原始文件主要包括 Web服務(wù)器日志等;所進(jìn)行的數(shù)據(jù)預(yù)處理過(guò)程一般包括數(shù)據(jù)清理、用戶(hù)識(shí)別、會(huì)話識(shí)別、路徑補(bǔ)充、事務(wù)識(shí)別等;對(duì)數(shù)據(jù)預(yù)處理的結(jié)果(事務(wù)文件等)進(jìn)行模式挖掘可采用的技術(shù)包括統(tǒng)計(jì)分析、關(guān)聯(lián)規(guī)則、序列模式、聚類(lèi)/分類(lèi)、依賴(lài)性建模等;對(duì)模式挖掘得出的結(jié)果即規(guī)則/模式可進(jìn)行olap等查詢(xún)和分析評(píng)估;對(duì)于有效的、用戶(hù)感興趣的模式可用于具體的應(yīng)用比如個(gè)性化服務(wù)等。
四、Web用戶(hù)行為模式挖掘過(guò)程
(一)數(shù)據(jù)預(yù)處理
在Web挖掘中,主要分析的數(shù)據(jù)源是服務(wù)器日志,但是由于服務(wù)器日志記錄的數(shù)據(jù)并不完整,直接在其上進(jìn)行挖掘非常困難。進(jìn)行預(yù)處理的結(jié)果直接影響到挖掘算法產(chǎn)生的規(guī)則與模式。主要包括以下步驟:(1)數(shù)據(jù)轉(zhuǎn)換:將原始日志文件導(dǎo)入數(shù)據(jù)庫(kù)。(2)數(shù)據(jù)清理:刪除與分析目的無(wú)關(guān)的記錄。(3)用戶(hù)識(shí)別:將用戶(hù)和請(qǐng)示的頁(yè)面相關(guān)聯(lián)。(4)會(huì)話識(shí)別:將用戶(hù)在一段時(shí)間內(nèi)的請(qǐng)示頁(yè)面分解成能反映實(shí)際瀏覽習(xí)慣的用戶(hù)會(huì)話。(5)路徑補(bǔ)充:將本地或者代理服務(wù)器中緩存而沒(méi)有被日志記錄的請(qǐng)求頁(yè)面增加到會(huì)話中。
(二)模式挖掘
1.通過(guò)路徑分析技術(shù)分析訪問(wèn)者的訪問(wèn)路徑。路徑分析技術(shù)利用鏈接日志文件項(xiàng)中訪問(wèn)者的訪問(wèn)路徑,并將路徑按時(shí)間排序??梢缘玫骄W(wǎng)站、特定頻道的頁(yè)面閱覽數(shù)、用戶(hù)會(huì)話數(shù)、頁(yè)面瀏覽時(shí)間、最常訪問(wèn)頁(yè)面等基本數(shù)據(jù)。其統(tǒng)計(jì)分析結(jié)果是理解、應(yīng)用后續(xù)挖掘出的模式的一個(gè)基礎(chǔ)。
2.通過(guò)關(guān)聯(lián)規(guī)則分析挖掘出頻繁頁(yè)面集。挖掘關(guān)聯(lián)規(guī)則的大多數(shù)算法是基于Apriori算法的。其主要思路是找出事務(wù)中頻繁(滿足規(guī)定的最小支持度的對(duì)象可以認(rèn)為是頻繁的)同時(shí)出現(xiàn)的頁(yè)面對(duì)象,在算法中稱(chēng)為頻繁集,之后在頻繁集中找出滿足置信度要求的規(guī)則,這些規(guī)則就是挖掘出的關(guān)聯(lián)規(guī)則。
3.通過(guò)聚類(lèi)分析挖掘出具有相似特征的客戶(hù)或者頁(yè)面。聚類(lèi)分析主要作用于具有類(lèi)似特征或行為的對(duì)象。其中的頁(yè)面聚類(lèi)則多應(yīng)用在搜索引擎方面。對(duì)于具有相似喜好的客戶(hù),企業(yè)可以為其動(dòng)態(tài)的提供個(gè)性化服務(wù)。常用的算法主要有劃分方法、基于密度的方法等。
4.通過(guò)分類(lèi)和預(yù)測(cè)。按照用戶(hù)的特征數(shù)據(jù)或者行為數(shù)據(jù)將用戶(hù)劃分到特定的類(lèi)別中,這對(duì)于為用戶(hù)提供個(gè)性化服務(wù)是一個(gè)極好的選擇。然后依賴(lài)關(guān)系建模建立能夠描述Web領(lǐng)域中變量之間的依賴(lài)關(guān)系模型,比如建立一個(gè)描述用戶(hù)在電子商務(wù)網(wǎng)站中消費(fèi)的模型 這有助于將潛在用戶(hù)轉(zhuǎn)化為真正的消費(fèi)用戶(hù)。
(三)模式應(yīng)用
1.網(wǎng)站設(shè)計(jì)的優(yōu)化。根據(jù)Web用戶(hù)行為模式挖掘結(jié)果,網(wǎng)站所有者可據(jù)實(shí)際瀏覽情況調(diào)整網(wǎng)站的網(wǎng)頁(yè)鏈接結(jié)構(gòu)、內(nèi)容和建立自適應(yīng)網(wǎng)站,對(duì)網(wǎng)站進(jìn)行優(yōu)化,從而更好地為用戶(hù)服務(wù)。
2.Web個(gè)性化?;赪eb用戶(hù)行為模式挖掘的個(gè)性化推薦服務(wù)中采用關(guān)聯(lián)規(guī)則技術(shù)的較多,但是所帶來(lái)的問(wèn)題也較多,比較典型的就是遺失重要模式、使用者對(duì)挖掘出的模式不感興趣等問(wèn)題而帶來(lái)的推薦效果差問(wèn)題;序列模式應(yīng)用于個(gè)性化推薦系統(tǒng)中準(zhǔn)確度比較高,但覆蓋率較低;聚類(lèi)技術(shù)應(yīng)用于個(gè)性化推薦服務(wù)中則在一定程度上改善覆蓋率問(wèn)題。因此目前出現(xiàn)一種將不同方法綜合應(yīng)用的思路。
3.電子商務(wù)方面的應(yīng)用。結(jié)合Web用戶(hù)行為模式挖掘,可以為商家更有效的確認(rèn)目標(biāo)市場(chǎng),對(duì)客戶(hù)進(jìn)行分類(lèi)分析,向客戶(hù)提供更有針對(duì)性的服務(wù),找到未來(lái)的潛在客戶(hù),最后保留客戶(hù)的駐留時(shí)間,從而確定用于特定消費(fèi)群體或個(gè)體進(jìn)行定向營(yíng)銷(xiāo)的決策。
4.系統(tǒng)優(yōu)化。用戶(hù)使用互聯(lián)網(wǎng)的滿意度,除了受到內(nèi)容的影響外,很大程度上受訪問(wèn)速度等性能的影響。目前,Web用戶(hù)行為模式挖掘的這類(lèi)應(yīng)用主要應(yīng)用于代理服務(wù)器提高性能(比如進(jìn)行頁(yè)面預(yù)取等)。
五、結(jié)束語(yǔ)
在互聯(lián)網(wǎng)域名數(shù)量、網(wǎng)站數(shù)量、網(wǎng)頁(yè)數(shù)量飛速增加的今天,如何使得用戶(hù)更好地使用互聯(lián)網(wǎng)是互聯(lián)網(wǎng)從業(yè)者必須要面對(duì)的問(wèn)題,Web用戶(hù)行為模式挖掘可以在一定程度上為此問(wèn)題的解決提供基礎(chǔ)。Web數(shù)據(jù)挖掘應(yīng)該著重在Web挖掘的內(nèi)在機(jī)制的研究及其實(shí)現(xiàn);Web挖掘算法在海量數(shù)據(jù)挖掘時(shí)的適應(yīng)性和時(shí)效性;關(guān)聯(lián)規(guī)則和序列模式在構(gòu)造自組織站點(diǎn)的研究等方面。
參考文獻(xiàn):
[1]曼麗春、朱宏、楊全勝,Web數(shù)據(jù)挖掘研究與探討[J].現(xiàn)代電子技術(shù),2005(8):3-6.
[2]夏火松,數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)[M].利學(xué)出版社,2004:207-227.
[3]Brian Pinkerton,Web Craw ler Finding Whate people want Ph.d Thesis[M].Universitv of Washington,2000.
[4]Chakrabarti S,Dom B E,Kumar S R,et al.Mining the Web's LinkStructure,Computer,1999.32(8):60-67.
作者簡(jiǎn)介:
鄧悅(1971-),女,河北遵化人,遼工大職業(yè)技術(shù)學(xué)院,講師。