[摘 要] 本文討論了Web數(shù)據(jù)挖掘的一個重要分支—Web用法挖掘在電子商務(wù)客戶行為特征挖掘中的應(yīng)用。介紹了客戶行為特征挖掘的主要方法,并詳細(xì)描述了一個基于粗糙集的電子商務(wù)客戶行為特征挖掘模型。
[關(guān)鍵詞] 電子商務(wù) 客戶行為特征 Web 用法挖掘 粗糙集
一、Web用法挖掘的概念
Web使用記錄實際上是一種用戶瀏覽網(wǎng)站的操作流水記錄,它詳實地記錄著使用者對Web服務(wù)器訪問的細(xì)節(jié)情況。Web用法挖掘即Web使用記錄挖掘是指通過挖掘相關(guān)的Web日志記錄,來發(fā)現(xiàn)用戶訪問Web頁面的模式,通過分析日志記錄中的規(guī)律,來識別用戶的忠實度、喜好、滿意度,并發(fā)現(xiàn)潛在用戶,增強(qiáng)站點的服務(wù)競爭力。
Web使用記錄除了指服務(wù)器的日志記錄外,還包括代理服務(wù)器日志、瀏覽器端日志、注冊信息、用戶會話信息、交易信息、Cookie中的信息、用戶查詢、鼠標(biāo)點擊流等一切用戶與站點之間可能的交互記錄。
利用Web用法挖掘來對客戶的行為特征進(jìn)行挖掘是指從Web用戶的使用記錄集合C中發(fā)現(xiàn)隱含的模式P。如果將C看作輸入,P看作輸出,那么客戶行為特征挖掘的過程就是從輸入到輸出的一個映射:ε∶C→P
二、客戶行為特征挖掘的必要性
客戶行為類信息是指客戶的消費(fèi)行為、客戶偏好和生活方式,客戶滿意度、客戶忠誠度及與企業(yè)的聯(lián)絡(luò)記錄等相關(guān)信息。但這些信息并不等同于客戶行為特征信息。通過對上述信息進(jìn)行客戶行為模型與數(shù)據(jù)挖掘處理,才能提煉出客戶的行為特征信息,從而為企業(yè)的決策提供精確的數(shù)據(jù)支持??蛻粜袨樘卣魍诰虻闹匾泽w現(xiàn)在以下幾個方面:
1.發(fā)現(xiàn)潛在客戶,提高現(xiàn)有客戶忠誠度及滿意度。
2.對系統(tǒng)改進(jìn)提供決策依據(jù)。如通過分析網(wǎng)絡(luò)的非法入侵?jǐn)?shù)據(jù)找到系統(tǒng)弱點,從而改進(jìn)系統(tǒng)以提高站點安全性。
3.對改進(jìn)站點結(jié)構(gòu)與內(nèi)容提供決策依據(jù),使站點的結(jié)構(gòu)和內(nèi)容更加優(yōu)化與合理以方便用戶使用。
4.幫助銷售商合理安排銷售策略。聚類客戶,對不同類別客戶提供個性化服務(wù)。
5.識別競爭對手,保護(hù)企業(yè)敏感信息,有效地發(fā)現(xiàn)并阻止商業(yè)情報活動。
三、客戶行為特征挖掘的方法
利用Web用法挖掘技術(shù)來對客戶行為特征進(jìn)行挖掘是一個有效的方法?;赪eb的數(shù)據(jù)挖掘作為一個完整的技術(shù)體系,在進(jìn)行挖掘之前的信息獲得IR(Information Retrieval)和信息抽取IE(Information Extraction)相當(dāng)重要。信息獲得(IR)的目的在于找到相關(guān)Web文檔;而信息抽取(IE)的目的是對數(shù)據(jù)進(jìn)行濃縮并給出它的緊湊描述。
客戶行為特征挖掘大致可以分為數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)挖掘、和模式分析幾個主要步驟。
1.數(shù)據(jù)采集
數(shù)據(jù)采集是客戶行為特征挖掘流程中的重要部分。在數(shù)據(jù)采集時要盡可能地搜索所有與客戶行為特征有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù)。
(1)服務(wù)器端采集。服務(wù)器端的Web日志是客戶行為特征挖掘的的重要數(shù)據(jù)來源。在服務(wù)器端,客戶的行為可以被TCP/IP包監(jiān)測器跟蹤,以提取客戶的請求信息。服務(wù)器主要以Web日志的形式記錄客戶每一次的網(wǎng)頁請求信息。主要包括:客戶標(biāo)識、遠(yuǎn)程IP、請求日期和時間等,并且可以記錄COOKIES和查詢參數(shù)來描述各個不同客戶的行為。這些日志文件能夠以常用日志格式或擴(kuò)展日志格式存在。為了做好下一步數(shù)據(jù)清洗,可以根據(jù)客戶行為特征挖掘的具體目的來調(diào)整Web日志的記錄字段,這樣既可以將不必要的數(shù)據(jù)去掉,也可以增加一些在后面分析時可能用到的字段,這樣采集的數(shù)據(jù)更加便于后面的數(shù)據(jù)清洗。
使用服務(wù)器端數(shù)據(jù)采集可以實時采集數(shù)據(jù),并能把來自不同服務(wù)器的數(shù)據(jù)整合到一個日志中。但同時也存在獲取客戶信息失真及信息量不足等問題。
(2)客戶端采集??蛻舳藬?shù)據(jù)采集方法需要用戶的合作如自覺使用修改過的瀏覽器,或者實現(xiàn)javascript 和java applets的功能。在使用客戶端數(shù)據(jù)采集時可能會遇到客戶不配合及涉及客戶隱私等問題。
(3)代理器端采集。在代理器端可以采集多用戶甚至多網(wǎng)站的行為。代理器端數(shù)據(jù)采集適合有大量靜態(tài)頁面的網(wǎng)站。但使用代理器端數(shù)據(jù)采集時遇到的問題是不能區(qū)分代理器后端的不同的顧客(群)。
2.數(shù)據(jù)清洗
采集到的信息通常是非結(jié)構(gòu)化或半結(jié)構(gòu)化的、動態(tài)的、并且是容易造成混淆的,所以很難直接對采集到的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,而必須經(jīng)過必要的數(shù)據(jù)處理。數(shù)據(jù)清洗目的是從取得的原始數(shù)據(jù)中剔除無用信息和將信息進(jìn)行必要的整理。經(jīng)過數(shù)據(jù)凈化,數(shù)據(jù)可以十分集中。
在進(jìn)行客戶行為特征挖掘時,應(yīng)該根據(jù)分析需要,首先確定需要的行為,再確定這些行為出現(xiàn)的一些條件和特征,從而確立一些分析規(guī)則,將這些行為特征挖掘出來,對于不需要的行為數(shù)據(jù)應(yīng)該盡量過濾。
3.數(shù)據(jù)挖掘
客戶行為特征挖掘常用的分析規(guī)則有:遍歷路徑,關(guān)聯(lián)規(guī)則,聚集發(fā)現(xiàn)和分類發(fā)現(xiàn)。
(1)遍歷路徑。遍歷路徑分析的側(cè)重點在于分析用戶訪問路徑間的前后序列關(guān)系。通常,一個會話(Si)是一個以時間為順序的頁視圖(Vi)(單個用戶在某次訪問一個站點時所產(chǎn)生)的集合。而每個頁視圖Vi又具有標(biāo)志符vi,頁文件hj,首先訪問時間tf,最后訪問時間tl,視圖結(jié)束時間te的屬性。如下表示:
Si={V1,....Vn}
Vi=
對單用戶,可以將上述集合用一個有向圖來表示,Gi=(Si,Ei),
其中:Si是頁面的集合,Ei是頁面之間的超連接集合, 定義頁面為圖中的頂點,而頁面間的鏈接定義為圖中的有向邊。頂點Si的入邊表示對Si的引用,出邊表示Si引用了其他的頁面。
對于多用戶在某時間段訪問站點時產(chǎn)生的會話則可以用單用戶會話的集合Gi來表示, 即
G={G1, G2, … Gn}, 也即:
G={{S1,E1},{S2,E2} … {Sn,En}}。
從上式可以得到:
G={{S1,S2, … Sn}, {E1,E2, … En}}, 也即是 G={S, E}。
在遍歷路徑時,首先在每個用戶會話Gi中找出該用戶的所有最大向前路徑Ei, 然后在所有用戶會話G中的子集合--最大向前路徑E中,找出頻繁出現(xiàn)的連續(xù)子序列。要尋找這些頻繁遍歷路徑,必須定義這些連續(xù)子序列的長度和支持度,所謂支持度就是包含頻繁遍歷的用戶會話數(shù)目。
(2)關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則分析主要用于從用戶訪問序列數(shù)據(jù)庫的序列項中挖掘出相關(guān)的規(guī)則,也就是用戶的訪問頁面之間的潛在聯(lián)系,而這些頁面之間可能并不存在直接的參引(Reference)關(guān)系。
在客戶行為特征挖掘中,關(guān)聯(lián)規(guī)則指:只要頁面的支持度大于某個被給定的閥值,那么這些頁面就都被訪問。即只要訪問頁面A就有可能訪問B(和C...)。從Web日志中挖掘出最大頻繁訪問項集,這個項集就是關(guān)聯(lián)規(guī)則挖掘出來的用戶訪問模式。最常用的方法是用APRIOR算法。關(guān)聯(lián)規(guī)則能夠有助于Web設(shè)計者重新組織站點的內(nèi)容編排。
(3)聚集發(fā)現(xiàn)。聚集發(fā)現(xiàn)是把整個原數(shù)據(jù)分成不同的群組。它的目的是要在群與群之間差別很明顯,而同一個群內(nèi)的數(shù)據(jù)要盡量相似。在WEB方法挖掘中,主要涉及兩種聚類:用戶聚類和頁聚類。用戶聚類將具有相似訪問特性的用戶歸在一起,在站點的個性化服務(wù)中,這種技術(shù)尤其有用。頁聚類將內(nèi)容相關(guān)的頁面歸在一起,在搜索引擎和WEB結(jié)構(gòu)設(shè)計領(lǐng)域中,這種技術(shù)發(fā)揮著巨大作用。
此外聚集發(fā)現(xiàn)還可以作為其他算法(如特征和分類等)的預(yù)處理步驟。聚集發(fā)現(xiàn)比較常用的分析方法是組織神經(jīng)網(wǎng)絡(luò)方法和K-均值法。
(4)分類發(fā)現(xiàn)。與聚集發(fā)現(xiàn)不同,分類發(fā)現(xiàn)要解決的問題是為一個事件或?qū)ο蠓珠T別類地歸入預(yù)先設(shè)定好的幾個類中。分類方法是建立一個分類函數(shù)或分類模型(分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別中的某一個。分類發(fā)現(xiàn)可以從歷史數(shù)據(jù)中自動推導(dǎo)出對給定數(shù)據(jù)的推廣描述,從而能對未來數(shù)據(jù)進(jìn)行預(yù)測。在客戶行為特征挖掘中, 分類發(fā)現(xiàn)可以根據(jù)web日志得到的個人或共同的訪問模式,得出訪問某一服務(wù)器文件的用戶特征分類。
分類器的構(gòu)造方法有統(tǒng)計方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法、粗糙集方法等,它們使用不同的算發(fā)。其中粗糙集方法(Rough Set)是處理知識的有效方法,已在眾多領(lǐng)域得到廣泛的應(yīng)用, 所建立的基于粗糙集的客戶行為特征挖掘模型是有效、可行的。
4.模式分析
模式分析是客戶行為特征挖掘的最后步驟。它的目的是對模式發(fā)現(xiàn)過程中產(chǎn)生的規(guī)則和模式進(jìn)行過濾,從中濾除不感興趣的部分。
客戶行為特征挖掘的結(jié)果應(yīng)當(dāng)用一些直觀的、易于理解的可視化的方法提交給使用者。此外,應(yīng)當(dāng)讓用戶能夠以一種方便的方式參與挖掘分析過程,這樣可能會得到更好的、用戶更樂于接受的結(jié)果。
四、一種基于粗糙集的客戶行為特征挖掘模型
在進(jìn)行客戶行為特征挖掘方案設(shè)計時,可以根據(jù)客戶行為特征挖掘的具體目的對Web日志記錄字段進(jìn)行調(diào)整,增加一些在后面分析時可能需要用到的字段。如:客戶標(biāo)識、遠(yuǎn)程IP、請求日期和時間、頁視圖集合S={S1,S2,S3,S4}等。
假設(shè)通過遍歷路徑分析,我們得到了如表一所示的用戶瀏覽記錄,然后利用粗糙集的約簡算法對數(shù)據(jù)進(jìn)行清洗。
表1是經(jīng)過遍歷路徑分析后得到的用戶瀏覽記錄,S1,S2,S3,S4代表4種頁視圖集合S的子集。IP為Web日志中來訪客戶的IP地址。Yes表示該訪客瀏覽了某個頁視圖集合S的子集;No則表示沒有。
在利用粗糙集的約簡算法對數(shù)據(jù)進(jìn)行清洗時,主要是計算知識的約簡、核、上近似及下近似(正域)。本模型以決策規(guī)則為例說明S1、S2、S3、S4之間的從屬關(guān)系,也即訪問S1或S2或S3的用戶會不會訪問S4。
根據(jù)粗糙集理論,論域U={C1,C2,C3,C4,C5,C6,C7,C8},
條件屬性集C={S1,S2,S3},
決策屬性集D={S4}。
容易計算得出:
U關(guān)于等價關(guān)系C的劃分U/C={X1,X2,X3,X4,X5},
其中,X1={C1},
X2={C2,C3},
X3={C4},
X4={C5,C7},
X5={C6,C8}。
U關(guān)于等價關(guān)系D的劃分U/D={Y1,Y2},
其中,Y1={C2,C3,C6,C7,C8},
Y2={C1,C4,C5}。
類似地,U/{S1}={{C1,C2,C3},{C4,C5,C6,C7,C8}},
U/{S2}={{C1,C2,C3,C4,C6,C8},{C5,C7}},
U/{S3}={{C2,C3,C5,C6,C7,C8},{C1,C4}},
U/{S1,S2}={{C1,C2,C3},{C4,C6,C8},{C5,C7}},
U/{S1,S3}={{C1},{C2,C3},{C4},{C5,C6,C7,C8}},
U/{S2,S3}={{C1,C4},{C2,C3,C6,C8},{C5,C7}}
以下計算正域:
posC(D)={ C1,C2,C3,C4,C6,C8}
pos(C-{S1})(D)={ C1,C4,C2,C3,C6,C8}=posC(D)
pos(C-{S2})(D)={ C1,C2,C3,C4}≠posC(D)
pos(C-{S3})(D)=φ≠posC(D)
pos(C-{S1,S2})(D)={ C1,C4}≠posC(D)
pos(C-{S1,S3})(D)=φ≠posC(D)
pos(C-{S2,S3})(D)=φ≠posC(D)
因此,C的D約簡為{S2,S3}。故表1經(jīng)過粗糙集數(shù)據(jù)清洗后得到表2。
決策規(guī)則的提取
定義決策規(guī)則為:
Rij:des(Xi) → des(Yj),Xi∩Yj≠0。
其中,des()為對等價類的描述。
定義規(guī)則Rij的確定性因子μ(Xi,Yj)=| Xi∩Yj |/| Xi |。顯然,
0<μ(Xi,Yj)≤1。
根據(jù)粗糙集理論,當(dāng)確定性因子μ(Xi,Yj)=1時,Rij是確定的;當(dāng)0<μ(Xi,Yj)<1時,Rij是不確定的。
這樣,可以得到以下確定性規(guī)則:
R12:(訪問S2)且(不訪問S3)→ (不可能訪問S4)
R21:(訪問S2)且(訪問S3)→ (可能訪問S4)
R32:(訪問S2)且(不訪問S3)→ (不可能訪問S4)
R51:(訪問S2)且(訪問S3)→ (可能訪問S4)
不確定性規(guī)則為:
R41:(不訪問S2)且(訪問S3)→ (可能訪問S4),μ(X4,Y1)=0.5
R42:(不訪問S2)且(訪問S3)→ (不可能訪問S4),μ(X4,Y2)=0.5
模式解釋:
在實際應(yīng)用中挖掘到的模式和規(guī)則數(shù)量通常都很大,在模式解釋之前還必須對挖掘到的大量模式和規(guī)則進(jìn)行篩選與合并。就本例來說,經(jīng)過篩選、合并挖掘到的6條模式和規(guī)則后最終可以得到兩條確定性規(guī)則,即:
1.(訪問S2)且(訪問S3)→ (可能訪問S4)
2.(訪問S2)且(不訪問S3)→ (不可能訪問S4)
在進(jìn)行網(wǎng)站結(jié)構(gòu)改進(jìn)時,可基于這兩條確定性規(guī)則作出決策:S1與S2鏈接,而沒有必要與S3、S4、S4鏈接;S2與S3, S3和S4進(jìn)行鏈接;而將S2和S4的鏈接斷開以方便用戶使用。對于不確定規(guī)則,可作參考或直接刪除均可。
五、小結(jié)
使用Web用法挖掘技術(shù)來進(jìn)行電子商務(wù)客戶行為特征的挖掘是一項復(fù)雜的技術(shù)。本文通過給出的一個基于粗糙集的客戶行為特征挖掘模型來討論了數(shù)據(jù)挖掘在電子商務(wù)系統(tǒng)應(yīng)用中的一個重要分支—Web用法挖掘。并重點論述了客戶行為特征挖掘中的數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理及數(shù)據(jù)挖掘分析部分。運(yùn)用Web數(shù)據(jù)挖掘技術(shù)對電子商務(wù)網(wǎng)站上的各種數(shù)據(jù)源進(jìn)行挖掘,發(fā)現(xiàn)相關(guān)的一些知識模式,可以指導(dǎo)企業(yè)更好地運(yùn)作站點和向客戶提供更優(yōu)質(zhì)的個性化的服務(wù),能有效提高商業(yè)站點的競爭力。
參考文獻(xiàn):
[1]鄧鯤鵬 周延杰 嚴(yán)瑜莜:數(shù)據(jù)挖掘與電子商務(wù)[J].商場現(xiàn)代化,2007(9S)
[2]袁 柱:電子商務(wù)中Web數(shù)據(jù)挖掘的應(yīng)用研究[J].商場現(xiàn)代化,2007(8S)
[3]張文修等:粗糙集理論與方法[M].北京:科學(xué)出版社,2001
[4]高 燕 胡景濤:Web數(shù)據(jù)挖掘原理、方法及應(yīng)用[J].現(xiàn)代圖書情報技術(shù),2002
[5]王玉珍:Web數(shù)據(jù)挖掘的分析與探索[J].計算機(jī)發(fā)展與應(yīng)用,2003