[摘 要] 在電子商務(wù)系統(tǒng)中,網(wǎng)站優(yōu)化是改進(jìn)網(wǎng)站設(shè)計和布局、方便用戶訪問站點(diǎn)、實現(xiàn)為客戶個性化服務(wù)的重要手段,而Web挖掘是實現(xiàn)網(wǎng)站優(yōu)化的關(guān)鍵技術(shù)。本文通過對Web數(shù)據(jù)的分析挖掘,提出實現(xiàn)確定回溯點(diǎn)和目標(biāo)頁的算法。實踐證明,該算法可以有效地實現(xiàn)網(wǎng)站優(yōu)化。
[關(guān)鍵詞] Web挖掘;電子商務(wù);網(wǎng)站優(yōu)化;個性化服務(wù)
[中圖分類號]F724.6[文獻(xiàn)標(biāo)識碼]A[文章編號]1673-0194(2008)15-0107-03
隨著 Internet及 Web技術(shù)的發(fā)展,各類電子商務(wù)網(wǎng)站紛紛出現(xiàn),電子商務(wù)在中國發(fā)展方興未艾。一個電子商務(wù)網(wǎng)站每天需要搜集和處理大量的數(shù)據(jù),激增的數(shù)據(jù)背后隱藏著許多重要的信息,人們希望能夠?qū)ζ溥M(jìn)行更高層次的分析,以便更好地利用這些數(shù)據(jù)。為了解決“數(shù)據(jù)爆炸但信息貧乏”的現(xiàn)象,數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。Web挖掘作為數(shù)據(jù)挖掘技術(shù)中最熱門的方向,在電子商務(wù)中有著廣泛的應(yīng)用前景。
在電子商務(wù)網(wǎng)站中,通過Web挖掘,可以分析網(wǎng)上客戶的行為模式,從中確定出不同的客戶群體以及客戶群體或個體的訪問模式和習(xí)慣,可以增加客戶感興趣的內(nèi)容,優(yōu)化網(wǎng)站的設(shè)計,實現(xiàn)網(wǎng)站個性化。
1 Web挖掘模式的應(yīng)用
1. 1發(fā)現(xiàn)潛在客戶
對一個電子商務(wù)網(wǎng)站來說,了解、關(guān)注在冊客戶群體非常重要,但從眾多的訪問者中發(fā)現(xiàn)潛在客戶群體也同樣非常關(guān)鍵。如果發(fā)現(xiàn)某些客戶為潛在客戶群體,就可以對這類客戶實施一定的策略,使他們盡快成為在冊客戶群體。對一個電子商務(wù)網(wǎng)站來說,也許就意味著訂單數(shù)的增多、效益的增加[1]。
為獲得這些潛在的客戶,通常的市場策略是利用分類技術(shù)先對已經(jīng)存在的訪問者進(jìn)行分類,一般分為3種:“no custom ”、“visitor once”和“visitor regular”。對于一個新的訪問者,通過在Web上的分類發(fā)現(xiàn),識別出這個客戶與已經(jīng)分類的老客戶的一些公共的描述,從而對這個新客戶進(jìn)行正確的分類。然后從它的分類判斷這個新客戶是有利可圖的客戶群還是無利可圖的客戶群,決定是否要把這個新客戶作為潛在的客戶來對待??蛻舻念愋痛_定后,就可以對客戶動態(tài)地展示W(wǎng)eb頁面,頁面的內(nèi)容取決于客戶與銷售商提供的產(chǎn)品和服務(wù)之間的關(guān)聯(lián)。
1. 2延長客戶的駐留時間
對客戶來說,傳統(tǒng)客戶與銷售商之間的空間距離在電子商務(wù)中已不復(fù)存在,Internet上每一個銷售商對于客戶來說都是一樣的,那么如何使客戶在自己的銷售站點(diǎn)上駐留更長的時間,這對銷售商來說將是一個挑戰(zhàn)。為了使客戶在自己的網(wǎng)站上駐留更長的時間,就應(yīng)該了解客戶的瀏覽行為,知道客戶的興趣及需求所在,動態(tài)地調(diào)整Web頁面,以滿足客戶的需要。通過對客戶訪問信息的挖掘,就能知道客戶的瀏覽行為,從而了解客戶的興趣及需求。
1. 3改進(jìn)站點(diǎn)設(shè)計
站點(diǎn)上頁面內(nèi)容的安排就如超級市場中物品在貨架上的擺設(shè)一樣,把具有一定支持度和信任度的相關(guān)聯(lián)物品擺放在一起有助于銷售,利用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)可以針對客戶動態(tài)調(diào)整站點(diǎn)的結(jié)構(gòu),使客戶訪問的有關(guān)聯(lián)的文件間的鏈接能夠比較直接,讓客戶更容易訪問到想訪問的頁面。網(wǎng)站如果具有這樣的便利性,就能給客戶留下較好的印象,增加了下次訪問的幾率[2]。
1. 4針對不同客戶提供個性化產(chǎn)品
銷售商可以獲知訪問者的個人愛好,更加充分地了解客戶地需要,根據(jù)各個細(xì)分市場,甚至是每一個顧客的獨(dú)特需求提供個性化產(chǎn)品,有利于提高客戶的滿意度。商家記錄著訪問者的特征及條款特征,這些特征可以從客戶登記注冊記錄中和Web日志中得到。應(yīng)用網(wǎng)絡(luò)信息挖掘技術(shù)分析這些數(shù)據(jù),可得到很多寶貴的信息,例如客戶的購買歷史、點(diǎn)擊流歷史。通過這些信息可以協(xié)助商家決策,提高銷售量。
綜上所述,Web挖掘技術(shù)推動了個性化推薦,使站點(diǎn)瀏覽者變?yōu)橘徺I者,增加交叉銷售和提升銷售,每一次購買都增加客戶的忠誠度。
2 面向電子商務(wù)的Web挖掘應(yīng)用系統(tǒng)模型
當(dāng)用戶訪問Web服務(wù)器時,Web服務(wù)器會自動建立訪問日志信息。隨著WWW技術(shù)的快速發(fā)展和時間的積累,Web服務(wù)器中Web日志文件將越來越大,基于Web的電子商務(wù)服務(wù)器將保存大量的Web訪問日志記錄。如何對這些大量的Web日志記錄進(jìn)行自動分析清理存儲并從中發(fā)現(xiàn)有用的、重要的知識,包括模式、規(guī)則和可視化結(jié)構(gòu)等是目前Web日志挖掘的主要任務(wù)。
面向電子商務(wù)的Web挖掘系統(tǒng)模型包括數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)存儲、模式發(fā)現(xiàn)、模式分析利用及客戶6個層次,見圖1。
數(shù)據(jù)采集層所采集的數(shù)據(jù)對象即為Web挖掘的源數(shù)據(jù)。Web挖掘的源數(shù)據(jù)有:Web服務(wù)器日志、客戶登記信息和交易數(shù)據(jù)庫。Web服務(wù)器日志是客戶訪問所產(chǎn)生的服務(wù)器日志數(shù)據(jù)??蛻舻怯浶畔⒈仨毢驮L問日志集成,以提高數(shù)據(jù)挖掘的準(zhǔn)確度。交易數(shù)據(jù)庫存儲用戶在商務(wù)網(wǎng)站上購買商品的信息,其內(nèi)容隨數(shù)據(jù)庫結(jié)構(gòu)的不同而有所不同,一般包括:用戶名、時間、商品ID、采購數(shù)量及價格等。
模式發(fā)現(xiàn)層次包括:路徑分析、關(guān)聯(lián)規(guī)則挖掘、序列模式挖掘以及聚類和分類分析。
數(shù)據(jù)處理層實現(xiàn)對數(shù)據(jù)采集層所采集的源數(shù)據(jù)進(jìn)行處理,包括日志文件的處理和數(shù)據(jù)倉庫的建立。日志文件處理得好壞直接影響挖掘算法產(chǎn)生的結(jié)果,其處理過程是保證Web挖掘質(zhì)量的關(guān)鍵。經(jīng)過處理后的數(shù)據(jù)由數(shù)據(jù)存儲層進(jìn)行保存和管理。Web挖掘應(yīng)用系統(tǒng)主要有3類存儲方式:關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫和事務(wù)數(shù)據(jù)庫。事務(wù)數(shù)據(jù)庫一般由一個文件組成,其中每個記錄代表一個事務(wù)。
模式分析利用層由兩部分組成:個性化網(wǎng)站及商業(yè)智能。這也代表了Web挖掘在電子商務(wù)中的兩大應(yīng)用方向。數(shù)據(jù)挖掘的結(jié)果可以幫助他們了解客戶,調(diào)整營銷策略,改進(jìn)促銷手段,從而達(dá)到贏得競爭的目的。
客戶層主要實現(xiàn)用戶瀏覽和商家決策支持,其結(jié)構(gòu)較簡單。
3 網(wǎng)站優(yōu)化算法
大型網(wǎng)站每日都有數(shù)以萬計的訪問量,如何合理安排網(wǎng)站組織結(jié)構(gòu)(即每個頁面都準(zhǔn)確定位到訪問者期望找到的位置),是一個非常困難的任務(wù)。另外,由于網(wǎng)站形式的多樣性(包括B2C, B2B,企業(yè)站點(diǎn)和目錄站點(diǎn)等),使得這個問題更加復(fù)雜化。
雖然網(wǎng)站在形式和內(nèi)容上有著很大差別,但它們的日志文件格式是相對確定的。通過對這些日志信息的分析和處理,可以提取出訪問者的WLP(Web Log Path)。由于某些瀏覽器具有緩存(Cache)功能,因此WLP并不能如實反映出訪問者的真實訪問過程。下面給出了一個GTPFWLP (Get True Path From Web Log Path)算法,實現(xiàn)了從WLP 到TP(True Path)的轉(zhuǎn)化。然后,又通過一個CBP(Confirm Backtrack Point)算法和閾值控制實現(xiàn)了回溯點(diǎn)和目標(biāo)頁的確定。最后,將支持度超過指定閾值的元組(回溯點(diǎn),目標(biāo)頁),提交給系統(tǒng)管理員,從而實現(xiàn)了網(wǎng)站物理結(jié)構(gòu)的調(diào)整和再組織。
3. 1訪問模式分析
對于確定的網(wǎng)站層次結(jié)構(gòu)(如圖2所示),訪問者經(jīng)過兩次回溯(3A 和3B)才最終找到了目標(biāo)頁面7。因此,可以將訪問者的執(zhí)行步驟定義如下:
While(C is not Target Page Tn)do
(1)If Exist Ti Link(C)and Seem_Under(Tn,Ti)do Follow(Ti)//Link(C)表示所有從C 引出的超鏈,Seem_Under(Tn,Ti)表示Tn可能在Ti 下,F(xiàn)ollow(Ti)表示沿著Ti向下尋找
(2)Else BackTrack
3. 2GTPFWLP 算法和回溯點(diǎn)的確定算法CBP
對于目標(biāo)的訪問(見圖2),其訪問路徑為:1A,2A,3A,2A,3B,2A,1A,2C,7 。最終到達(dá)目標(biāo)頁面7 ,可用TP(True Path)來表示。但是如果頁面被瀏覽器緩存后,則在Web日志中,僅記錄了如下訪問路徑:1A,2A,3A,3B,2C,7。為了得到完整的訪問路徑信息,可采用下面兩種方法:
(1)通過在網(wǎng)頁的<Meta>標(biāo)志中設(shè)置過期時間,使緩存失效,但這種做法顯然會增加網(wǎng)站的流量負(fù)荷;
(2)根據(jù)網(wǎng)站的物理鏈接結(jié)構(gòu),采用如下GTPFWLP算法獲得完整的訪問路徑信息。
1)GTPFWLP算法主要思想
①掃描WLP, 對于WLP中 任何連續(xù)兩點(diǎn)Wi Pi和
Wi+1 Pi+1,若在它們之間無物理鏈接,則說明訪問者一定在Wi Pi處進(jìn)行了回溯,考察Wi-1Pi-1和Wi Pi,若有Wi-1
②執(zhí)行過程①,直到對于WLP中的任何連續(xù)的兩點(diǎn)Wi Pi和Wi+1 Pi+1,在它們之間均有物理鏈接。此時WLP即 被改造為TP。
2)獲得TP后,給出一個確定回溯點(diǎn)的算法CBP
對于集合TP{P1,P2,…,Pn },其中Pn為目標(biāo)頁面B:=Φ//B為回溯點(diǎn)的集合
For i:=2 to n-2
begin
If(Pi-1=Pi+1)add Pi to B //Pi是一個回溯點(diǎn)
End
If(B not empty)For each Bi∈B ADD(Bi,Pn)to Result
//在挖掘結(jié)果表Result中添加記錄(Bi,Pn)
通過該算法,我們可以找到用戶的返回點(diǎn),這個位置可能是期望位置,也可能是目標(biāo)頁面,但可以通過確定時間閾值來解決這個問題。當(dāng)用戶在返回點(diǎn)停留的時間較長,超過指定的閾值,則認(rèn)為該頁面是目標(biāo)頁面,否則可以認(rèn)為該頁面是期望位置。通常用戶在瀏覽Web站點(diǎn)時,在第一期望位置找不到目標(biāo)頁面,就會在第二期望位置找,如果還找不到,會在第三期望位置找……其中我們最關(guān)心的是第一期望位置,而且是那些被第一期望且發(fā)生頻率高于系統(tǒng)設(shè)計者指定值的所有頁面。因此,尋找第一期望位置便成了我們關(guān)注的焦點(diǎn)。
3. 3發(fā)現(xiàn)第一期望位置算法
設(shè)Ei表示第一期望位置,算法如下:先以用戶的ID為主關(guān)鍵字,時間為次關(guān)鍵字,對Web日志文件建立索引,掃描Web日志索引文件,對每一個用戶ID,摘取出頁面序列。
For(I=1;I<=1;I++) // n為Web日志中的記錄數(shù)
{統(tǒng)計EI中所有頁面支持?jǐn)?shù);
sort page by support;
if support(P)>=SI // SI為Web設(shè)計者指定的閾值;
則P為被第一期望且發(fā)生頻率高于系統(tǒng)設(shè)計者指定值的頁面;}
根據(jù)該算法的挖掘結(jié)果,我們可以及時調(diào)整Web站點(diǎn)鏈接結(jié)構(gòu),在第一期望位置和實際位置之間增加導(dǎo)航鏈接,從而優(yōu)化Web站點(diǎn)的鏈接結(jié)構(gòu)。
4 結(jié)束語
通過Web數(shù)據(jù)挖掘,對總的用戶訪問行為、頻度、內(nèi)容等的分析,可以得到關(guān)于群體用戶訪問行為和方式的普遍知識,通過對這些用戶特征的理解和分析,可以有助于開展有針對性的電子商務(wù)活動,給每個用戶個性化的界面,提供個性化的電子商務(wù)服務(wù)。
本文提出了一種有效算法,該算法可以自動地從日志信息中找到訪問者在每次訪問路徑中的回溯點(diǎn)和目標(biāo)頁,對于期望鏈接支持度大于某設(shè)定閾值的數(shù)據(jù)元組(回溯點(diǎn),目標(biāo)頁),即為需要重新修改添加鏈接的地方。通過網(wǎng)站優(yōu)化,不僅提高了訪問者的查詢速度,節(jié)省了不必要的網(wǎng)絡(luò)開銷,而且對于提高網(wǎng)站自身的質(zhì)量和聲譽(yù)也是大有裨益的。
主要參考文獻(xiàn)
[1] 鄒顯春,謝中,周彥暉. 電子商務(wù)與Web數(shù)據(jù)挖掘[J]. 計算機(jī)應(yīng)用,2001(5):21-23.
[2] 鮑鈺,黃國興,張召.基于Web日志挖掘的網(wǎng)站結(jié)構(gòu)優(yōu)化方法[J]. 計算機(jī)工程,2003(12):82-84.
[3] Shahabi C,ZarkeshA M,Abidi J,et al.Knowledge Discovery from Users Web-page Naviagtion[C]. In Proceading of the 7th IEEE International Workshop on Research Issues in Data Engineering(RIDE),1997:20-29.
[4] Pei J,Han J,Mortazavi-asl B,et al. Mining Access Patterns Efficiently from Web Logs[C]. In Proceading of the 4th Pacific-Asia Conference on Knowledge Discovery and Data Mining,2000:396-407.
“本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文”