尹曉婷+高洪旗
摘要:Web日志挖掘,是Web使用挖掘的一種,就是通過對(duì)Web日志記錄的挖掘,發(fā)現(xiàn)用戶訪問Web頁面的模式,從而進(jìn)一步分析和研究Web日志記錄中的規(guī)律,以期改進(jìn)Web站點(diǎn)的性能和組織結(jié)構(gòu),提高用戶查找信息的質(zhì)量和效率,并通過統(tǒng)計(jì)和關(guān)聯(lián)的分析找出特定用戶與特定地域、特定時(shí)間、特定頁面等要素之間的內(nèi)在聯(lián)系,這在電子商務(wù)等領(lǐng)域是大有作為的。
關(guān)鍵詞:Web日志挖掘,商務(wù)信息網(wǎng)站,數(shù)據(jù)
1.Web日志挖掘的概念
Web日志挖掘,是Web使用挖掘的一種,就是通過對(duì)Web日志記錄的挖掘,發(fā)現(xiàn)用戶訪問Web頁面的模式,從而進(jìn)一步分析和研究Web日志記錄中的規(guī)律,以期改進(jìn)Web站點(diǎn)的性能和組織結(jié)構(gòu),提高用戶查找信息的質(zhì)量和效率,并通過統(tǒng)計(jì)和關(guān)聯(lián)的分析找出特定用戶與特定地域、特定時(shí)間、特定頁面等要素之間的內(nèi)在聯(lián)系,這在電子商務(wù)等領(lǐng)域是大有作為的。
用戶使用Web獲取信息的過程中需要不停地從一個(gè)Web站點(diǎn)通過超文本鏈接跳轉(zhuǎn)到另一個(gè)站點(diǎn),這種過程存在一定的普遍性,發(fā)現(xiàn)此規(guī)律即是Web用戶訪問信息發(fā)現(xiàn)。web日志挖掘是關(guān)于用戶行為及潛在顧客信息的發(fā)現(xiàn),一般包括三個(gè)階段,即數(shù)據(jù)預(yù)處理、模式識(shí)別及模式分析。
2.Web日志挖掘的過程
Web日志挖掘通過分析和研究Web日志記錄中的規(guī)律,識(shí)別電子商務(wù)的潛在用戶,提高對(duì)最終用戶信息服務(wù)的質(zhì)量并改進(jìn)Web服務(wù)系統(tǒng)的性能和結(jié)構(gòu)。
2.1數(shù)據(jù)預(yù)處理
Web日志文件記錄中存儲(chǔ)的是用戶訪問站點(diǎn)信息的原始記錄,直接在這些數(shù)據(jù)上面進(jìn)行挖掘是比較困難的,在使用算法或工具對(duì)其進(jìn)行分析之前,必須進(jìn)行預(yù)處理。預(yù)處理過程是Web日志挖掘質(zhì)量保證的關(guān)鍵,因?yàn)樘幚砗蟮臄?shù)據(jù)好壞、全面與否,直接影響到數(shù)據(jù)挖掘的結(jié)果,進(jìn)而對(duì)網(wǎng)站決策者的決策造成直接影響。特別是中小型電子商務(wù)網(wǎng)站,其數(shù)據(jù)相對(duì)較少,因此數(shù)據(jù)處理的準(zhǔn)確性極為重要。Web日志預(yù)處理主要有4個(gè)步驟:數(shù)據(jù)凈化、用戶識(shí)別、會(huì)話識(shí)別和數(shù)據(jù)合并。
Web日志文件中包含一些不能反映用戶行為的記錄,數(shù)據(jù)凈化就是去掉這些記錄。而用戶識(shí)別的目的是對(duì)用戶的唯一性的識(shí)別。在通常情況下,只有通過分析日志文件中的IP地址、agent等信息來識(shí)別不同的用戶。會(huì)話識(shí)別是建立在對(duì)用戶識(shí)別的基礎(chǔ)上的,其目的是將用戶的訪問記錄分為單個(gè)會(huì)話。同時(shí),對(duì)于網(wǎng)站上繁雜的頁面,由于數(shù)量較多,而且有許多網(wǎng)頁的內(nèi)容有一定的聯(lián)系或相似之處,所以可以對(duì)其進(jìn)行一定程度的合并,從而將其分成能反映網(wǎng)站邏輯信息的同質(zhì)類別。特別是中小型電子商務(wù)網(wǎng)站的網(wǎng)頁,由于網(wǎng)站設(shè)計(jì)人員的知識(shí)架構(gòu)、技術(shù)層次以及對(duì)所要設(shè)計(jì)的網(wǎng)站內(nèi)容的了解程度的限制,很難建立一個(gè)完全無重復(fù)內(nèi)容網(wǎng)頁和完全反映網(wǎng)站邏輯信息的網(wǎng)站。
2.2模式發(fā)現(xiàn)
模式發(fā)現(xiàn)階段就是利用挖掘算法挖掘出有效的、新穎的、潛在的、有用的以及最終可以理解的信息和知識(shí)??捎糜赪eb的挖掘技術(shù)有路徑選擇、關(guān)聯(lián)分析、分類規(guī)則、聚類分析、序列分析、依賴性建模等。
2.3模式分析
模式分析是Web日志挖掘中的最后一項(xiàng)重要的步驟,主要是為了在模式發(fā)現(xiàn)算法找到的模式集合中發(fā)現(xiàn)有趣(有用)的模式。對(duì)于一個(gè)商務(wù)信息系統(tǒng),通過模式發(fā)現(xiàn)與模式分析,可以得到詳細(xì)的用戶反饋,幫助他們根據(jù)實(shí)際用戶的瀏覽情況,調(diào)整網(wǎng)站的網(wǎng)頁鏈接結(jié)構(gòu)和網(wǎng)頁內(nèi)容,對(duì)網(wǎng)站進(jìn)行優(yōu)化,從而延長用戶的駐留時(shí)間,挽留老用戶、吸引新州戶,并增加用戶的購買率,以此獲得電子商務(wù)網(wǎng)站的成功運(yùn)行;而通過對(duì)內(nèi)部管理系統(tǒng)用戶的聚類,可以明確網(wǎng)站運(yùn)營的缺陷在哪里,還有何可以改進(jìn)的地方。
3.Web日志挖掘技術(shù)在商務(wù)信息系統(tǒng)中的構(gòu)建
3.1建立個(gè)性化的網(wǎng)站模型
(1)用戶可以通過注冊(cè)后訪問網(wǎng)站,也可以不通過注冊(cè)直接訪問;(2)針對(duì)不同的用戶,網(wǎng)站提供不同的服務(wù);(3)根據(jù)用戶的訪問記錄信息,動(dòng)態(tài)調(diào)整網(wǎng)站的頁面,產(chǎn)生的個(gè)性化的網(wǎng)站使得用戶可以更容易地到達(dá)他所需服務(wù)的數(shù)據(jù)網(wǎng)頁;(4)挖掘用戶的Web訪問日志,在用戶定制區(qū)內(nèi)預(yù)測(cè)并推薦用戶的潛在訪問網(wǎng)頁鏈接。
3.2個(gè)性化網(wǎng)站系統(tǒng)的框架
系統(tǒng)主要由4個(gè)功能模塊組成,分別為用戶識(shí)別模塊,行為記錄模塊,興趣識(shí)別模塊和個(gè)性推薦模塊。各個(gè)模塊的說明如下。
(1)用戶識(shí)別模塊。用戶識(shí)別模塊處理用戶的基本信息并識(shí)別用戶。包括用戶的登錄名(注冊(cè)用戶有自己唯一對(duì)應(yīng)的name;非注冊(cè)用戶有一個(gè)共同的name,但有不同的Cookie值);用戶登錄密碼;用戶注冊(cè)個(gè)人信息時(shí)填入的喜好;以及為了更加準(zhǔn)確地識(shí)別用戶而獲取的關(guān)于用戶身份的其他一些基本信息,如MAC地址、IP地址、瀏覽器版本號(hào)和操作系統(tǒng)版本號(hào)等。用戶登錄后通過用戶名或Cookie值為每個(gè)用戶分配UserID,以方便其他模塊進(jìn)一步地調(diào)整網(wǎng)站的頁面以及在用戶定制區(qū)內(nèi)推薦該用戶可能訪問的鏈接。
(2)行為記錄模塊。用戶的訪問(行為記錄)日志是系統(tǒng)進(jìn)行用戶個(gè)性化特征分析的數(shù)據(jù)依據(jù)和數(shù)據(jù)基礎(chǔ)。訪問日志模塊處理用戶行為記錄的各項(xiàng)信息,包括用戶訪問某一頁面的時(shí)間以及在該頁面停留的時(shí)間,訪問某一頁面的次數(shù),用戶訪問網(wǎng)站的某頁面的URL地址,為其他相關(guān)模塊提供用戶信息,以及對(duì)大量數(shù)據(jù)保存方面的管理配置。
(3)興趣識(shí)別模塊。一個(gè)網(wǎng)站由眾多網(wǎng)頁構(gòu)成的結(jié)點(diǎn)組成,結(jié)點(diǎn)之間的聯(lián)系是通過頁面的鏈接來實(shí)現(xiàn)的。一些大型門戶網(wǎng)站首頁,大量的鏈接讓人跟花繚亂。在這類網(wǎng)站上讓用戶填寫興趣表單只會(huì)考驗(yàn)用戶的耐心。因此根據(jù)用戶在網(wǎng)站中各頁面的停留時(shí)間和訪問次數(shù)等特征,結(jié)合用戶參與、識(shí)別、建立、調(diào)整該用戶的喜好,可以避免用戶填寫一系列繁瑣的表單操作。
興趣的識(shí)別模塊將根據(jù)訪問日志模塊所給出的各個(gè)用戶不同信息計(jì)算得到該用戶的興趣強(qiáng)度,并且把識(shí)別的結(jié)果存儲(chǔ)在用戶興趣分類中,以便為頁面顯示提供數(shù)據(jù)源。
(4)個(gè)性推薦模塊。個(gè)性推薦模塊的功能包括興趣回顧和興趣推薦,根據(jù)用戶過去的行為預(yù)測(cè)用戶的將來行為。網(wǎng)站的用戶在登錄以后,個(gè)性推薦模塊根據(jù)用戶的UserlD查找用戶興趣庫中該用戶的歷史興趣,利用個(gè)性化推薦進(jìn)行興趣推薦。系統(tǒng)針對(duì)用戶的不同興趣提供相應(yīng)的服務(wù)。在頁面主顯示區(qū)和用戶定制區(qū)分別顯示相應(yīng)的內(nèi)容。免去用戶多次點(diǎn)擊鏈接的麻煩,使用戶的訪問更加有效率。
4.結(jié)束語
Web日志挖掘技術(shù)為商務(wù)信息網(wǎng)站構(gòu)建的合理性分析以及相關(guān)電子商務(wù)信息系統(tǒng)建設(shè)提供了重要的科學(xué)指導(dǎo)。實(shí)踐證明,通過對(duì)Web日志進(jìn)行預(yù)處理,清理、過濾以及重新組合不規(guī)范的記錄,并將Web日志中的數(shù)據(jù)轉(zhuǎn)換為挖掘算法可識(shí)別的形式來挖掘關(guān)聯(lián)規(guī)則,并對(duì)用戶進(jìn)行聚類和分類,能夠找出特定用戶與特定地域、特定時(shí)間、特定頁面等要素之間的內(nèi)在聯(lián)系,發(fā)現(xiàn)用戶訪問Web頁面的模式,從而改進(jìn)Web站點(diǎn)的性能和組織結(jié)構(gòu),提高用戶查找信息的質(zhì)量和效率。
參考文獻(xiàn)
[1] 陳京民.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)(第2版)[M].電子工業(yè)出版社,2007.
[2] Dunham Margaret H.數(shù)據(jù)挖掘教程.清華大學(xué)出版社,2005.
[3] 梁循.數(shù)據(jù)挖掘算法與應(yīng)用.北京大學(xué)出版社,2006.
[4] 戴永群.web挖掘研究與應(yīng)用.計(jì)算機(jī)與信息技術(shù),2007.
[5] 丁瑾.基于Web數(shù)據(jù)挖掘的綜述.科技開發(fā)情報(bào)與經(jīng)濟(jì),2004endprint