摘要:數(shù)據(jù)挖掘是一個(gè)利用各種分析工具在海量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)間的關(guān)系的過程,使用這些模型和關(guān)系可以進(jìn)行預(yù)測,它幫助決策者尋找數(shù)據(jù)間潛在的關(guān)聯(lián),發(fā)現(xiàn)被忽略的因素,是解決當(dāng)今時(shí)代所面臨的數(shù)據(jù)爆炸而信息匱乏的問題的一種有效方法。這些技術(shù)在很多電子商務(wù)商品推薦系統(tǒng)中已經(jīng)得到了應(yīng)用,而且還取得了比較好的推薦效果。本文介紹了數(shù)據(jù)挖掘的相關(guān)知識,深入研究了Web數(shù)據(jù)挖掘及相關(guān)技術(shù),并對Web挖掘技術(shù)在新形勢下電子商務(wù)中的應(yīng)用做了詳細(xì)闡述。
關(guān)鍵詞:數(shù)據(jù)挖掘;電子商務(wù);應(yīng)用;探析
中圖分類號:TP274
文獻(xiàn)標(biāo)識號:A
數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取陷含在其中的、人們事先不知道但又有潛在作用的并最終可理解的信息和知識的非平凡過程。它是涉及面很廣的交叉科學(xué),包括機(jī)器學(xué)習(xí)、數(shù)據(jù)庫、統(tǒng)計(jì)學(xué)、模式識別、數(shù)據(jù)分析等相關(guān)技術(shù)。
數(shù)據(jù)挖掘是一個(gè)利用各種分析工具在海量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)間的關(guān)系的過程,使用這些模型和關(guān)系可以進(jìn)行預(yù)測,它幫助決策者尋找數(shù)據(jù)間潛在的關(guān)聯(lián),發(fā)現(xiàn)被忽略的因素,是解決當(dāng)今時(shí)代所面臨的數(shù)據(jù)爆炸而信息匱乏的問題的一種有效方法[1]。它是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其它模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù),是一種深層次的數(shù)據(jù)分析方法。鑒于數(shù)據(jù)、數(shù)據(jù)挖掘任務(wù)和數(shù)據(jù)挖掘方法的多樣性,給數(shù)據(jù)挖掘提出了許多挑戰(zhàn)性的課題。數(shù)據(jù)挖掘語言的設(shè)計(jì),高效而有用的數(shù)據(jù)挖掘方法和系統(tǒng)的開發(fā),交互和集成的數(shù)據(jù)挖掘環(huán)境的建立,以及應(yīng)用數(shù)據(jù)挖掘技術(shù)解決大型實(shí)際應(yīng)用問題,都是目前數(shù)據(jù)挖掘研究人員、系統(tǒng)和應(yīng)用開發(fā)人員所面臨的主要挑戰(zhàn)。
1 新形勢下的Web數(shù)據(jù)挖掘技術(shù)
目前,通過Web進(jìn)行商務(wù)活動帶來的便利和它所產(chǎn)生的交易速度已成為電子商務(wù)迅猛發(fā)展的關(guān)鍵推動力。另一方面,涉及客戶端的電子商務(wù)活動也正在進(jìn)行著巨大的革新。如果能夠跟蹤客戶在Web上的瀏覽行為并進(jìn)行模式分析,這樣將會縮短銷售商與客戶之間的距離,讓銷售商更了解自己客戶的需求,有針對性的開展電子商務(wù)活動。
Web數(shù)據(jù)挖掘技術(shù)可應(yīng)用到很多領(lǐng)域,尤其是商業(yè)領(lǐng)域。從某種意義上來說,商務(wù)領(lǐng)域?qū)eb挖掘的大量需求導(dǎo)致了該技術(shù)的研究熱潮。其主要特點(diǎn)包括:
(1)面向電子商務(wù)挖掘的任務(wù)更多表現(xiàn)在客戶關(guān)系管理方面。因此通過Web數(shù)據(jù)挖掘技術(shù)可以吸引新用戶,防止舊用戶的流失。
(2)由于電子商務(wù)是基于網(wǎng)絡(luò)的系統(tǒng),所以可以非常方便的獲取到人們想要的各種數(shù)據(jù)。
(3)通過對電子商務(wù)進(jìn)行挖掘,使用者可以通過電子商務(wù)推薦系統(tǒng)對客戶進(jìn)行適時(shí)的推薦,從而能吸引更多客戶,使企業(yè)立于不敗之地。
2 Web數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用
2.1尋找潛在客戶
在對Web的客戶訪問信息的挖掘中,利用分類技術(shù)可以在Internet上找到未來的潛在客戶,獲得這些潛在的客戶市場。
2.2改進(jìn)站點(diǎn)設(shè)計(jì)
通過路徑分析等技術(shù)可以判定出一類用戶對一個(gè)Web站點(diǎn)頻繁訪問的路徑,這些路徑反映這類用戶瀏覽頁面的順序和習(xí)慣,因此得到的導(dǎo)航模式可以指導(dǎo)網(wǎng)站設(shè)計(jì)人員改進(jìn)站點(diǎn)的設(shè)計(jì)結(jié)構(gòu),吸引用戶來訪問。
2.3提供個(gè)性化服務(wù)
Internet使得客戶與銷售商之間的空間距離消失了,那么如何使客戶能夠在自己的銷售站點(diǎn)上駐留更長的時(shí)間呢?首先必須了解客戶,知道其興趣所在,然后給其進(jìn)行動態(tài)的Web頁面調(diào)整以適合當(dāng)前客戶的需要。通過對客戶訪問信息的挖掘,就能知道客戶的瀏覽行為,從而了解客戶的興趣及需求。通過提供個(gè)性化服務(wù),延長客戶駐留時(shí)間。
2.4聚類客戶
在電子商務(wù)中客戶聚類是一個(gè)重要的方面。通過分組具有相似瀏覽行為的客戶,并分析組中客戶的共同特征,可以幫助電子商務(wù)的組織者更好地了解自己的客戶,向客戶提供更適合、更面向客戶的服務(wù)[2]。通過聚類可以對不同類別的客戶進(jìn)行不同的個(gè)性化服務(wù),使商務(wù)活動能夠在一定程序上滿足客戶的要求,這樣對客戶和銷售商來說才更有意義。
2.5提供高效訪問
通過訪問信息的挖掘,利用基于Web訪問信息挖掘的預(yù)推送技術(shù)可以更好的設(shè)計(jì)服務(wù)器以提高在大負(fù)載下的性能,通過改進(jìn)站點(diǎn)的拓?fù)浣Y(jié)構(gòu)可以有效地縮短用戶訪問時(shí)間。
3 電子商務(wù)中應(yīng)用的Web挖掘技術(shù)
隨著電子商務(wù)的不斷發(fā)展,許多人紛紛加入到電子商務(wù)推薦系統(tǒng)的研究中來。為了尋求更加準(zhǔn)確而且有效的推薦,已經(jīng)有許多技術(shù)被應(yīng)用到這個(gè)領(lǐng)域中。這些技術(shù)在很多電子商務(wù)商品推薦系統(tǒng)中已經(jīng)得到了應(yīng)用,而且還取得了比較好的推薦效果。目前,電子商務(wù)商品推薦系統(tǒng)中使用的技術(shù)主要有如下幾種。
3.1關(guān)聯(lián)規(guī)則
電子商務(wù)商品推薦系統(tǒng)中的關(guān)聯(lián)規(guī)則技術(shù)利用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法,根據(jù)用戶當(dāng)前的購習(xí)行為向該用戶提供推薦。基于關(guān)聯(lián)規(guī)則的推薦算法大都可以分為兩步:關(guān)聯(lián)規(guī)則形成和推薦形成。推薦形成階段,推薦系統(tǒng)根據(jù)規(guī)則計(jì)算當(dāng)前用戶未瀏覽商品的推薦度,并根據(jù)推薦度的大小對當(dāng)前用戶未瀏覽商品進(jìn)行推薦。在運(yùn)用關(guān)聯(lián)規(guī)則技術(shù)進(jìn)行推薦的過程中,關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)是最耗時(shí)的,也是算法的瓶頸,因此可以考慮離線進(jìn)行,一旦規(guī)則形成以后,推薦的實(shí)時(shí)性是比較好的。
3.2序列模式分析
在時(shí)間戳有序的事務(wù)集中,序列模式的發(fā)現(xiàn)就是指找到那些如“一些項(xiàng)跟隨另一個(gè)項(xiàng)”這樣的內(nèi)部事務(wù)模式。使用序列模式分析挖掘Web日志,能夠便于預(yù)測用戶的訪問模式,有助于開展針對這種模式的有針對性的廣告服務(wù)或者向客戶提供商品推薦。依賴于發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則和序列模式,能夠在服務(wù)器方動態(tài)的創(chuàng)立特定的有針對性的頁面,以滿足訪問者的特定需求[3]。
3.3分類分析
在電子商務(wù)中通過分類分析,得到客戶分類模式后,就可以針對不同類客戶的特點(diǎn)展開不同的商務(wù)活動,提供有針對性的個(gè)性化的信息服務(wù);得到客戶的分類模式后,還可以對新的客戶進(jìn)行分析,分析新的客戶屬于哪一個(gè)類別,從而有針對性的開展商務(wù)活動。
3.4聚類分析
通過聚類具有相似瀏覽行為的客戶,使管理員更多的了解客戶,提供客戶更滿意的服務(wù)。通過對Web用戶日志的挖掘,對網(wǎng)絡(luò)用戶進(jìn)行聚類,可以更好地了解用戶的需求,重新調(diào)整網(wǎng)站的頁面結(jié)構(gòu),從而為用戶提供方便、優(yōu)質(zhì)的服務(wù);通過聚類客戶資料,將具有相似愛好的客戶分配到相近的類中,根據(jù)類中其他客房對商品的評價(jià)就可以得到該客戶對該商品的評價(jià),向客戶推薦他可能感興趣的商品[3]。
3.5協(xié)作式過濾技術(shù)
協(xié)作式過濾技術(shù)是應(yīng)用最早并且最為成功的推薦技術(shù)之一[3]。電子商務(wù)商品推薦系統(tǒng)中的協(xié)作式過濾技術(shù)一般采用最鄰近原則,根據(jù)用戶的歷史喜好信息計(jì)算用戶之間的距離,然后利用用戶的最近鄰居對商品評價(jià)的加權(quán)平均值來預(yù)測該用戶對特定商品的喜好程度,最后推薦系統(tǒng)根據(jù)這一喜好程度來向用戶進(jìn)行推薦。
基于協(xié)作過濾的推薦算法大多可以分為形成近鄰和形成推薦兩個(gè)步驟。一般來說基于近鄰所運(yùn)用的技術(shù)決定了算法的主要性能,基于近鄰可以分為兩大類:基于內(nèi)存和基于模型的算法[5]。
3.6分類分析的聚類分析的有機(jī)結(jié)合
分類分析和聚類分析是互逆的過程。開始用聚類分析將數(shù)據(jù)進(jìn)行聚類,分成若干個(gè)簇,然后用分類分析該數(shù)據(jù)的集合,得到每個(gè)類別的描述,然后可以按照新數(shù)據(jù)的特點(diǎn)將其放到適合的類中去。也可以通過對類的描述作為新的分類規(guī)則重新對數(shù)據(jù)進(jìn)行分類,從而獲得更準(zhǔn)確的結(jié)果。這樣一直循環(huán)使用,直到獲得滿意的效果。
4Web挖掘的數(shù)據(jù)來源分類
電子商務(wù)是通過Internet進(jìn)行各項(xiàng)活動的,由于Web的特殊性,因些對其進(jìn)行的數(shù)據(jù)挖掘的數(shù)據(jù)源有著數(shù)據(jù)量大、類型多的特點(diǎn),其數(shù)據(jù)源大體可以分為以下幾類:
4.1服務(wù)器日志數(shù)據(jù)
個(gè)人瀏覽服務(wù)器時(shí),服務(wù)器方將會產(chǎn)生三種類型的日志文件:Server logs、Error logs和Cookie logs,這些日志用戶記錄用戶的基本情況,因些它們是進(jìn)行Web訪問信息挖掘的主要數(shù)據(jù)源。
4.1.1 Server logs
Web日志文件記錄了用戶訪問網(wǎng)站時(shí)每個(gè)頁面的請求信息,有服務(wù)器端的Server logs、Error logs和客戶端的Cookie三種類型的文件,從Web服務(wù)器日志的格式有通用日志格式CLF(Common Log Format)和擴(kuò)展通用日志格式ECLF(Externded Common Log Format)。通用日志格式如下表所示。
Service logs有兩種格式存儲,一種是普通日志文件格式,另一種是擴(kuò)展日志文件格式[4]。普通日志文件存儲了關(guān)于客戶連接的物理信息,如果能夠?qū)@個(gè)文件中存儲的一些項(xiàng)進(jìn)行請語法上的分析,如DNS,就可以知道客戶來源的區(qū)域。例如,域名www.jxust.cn被分析后就可以知道來自于教育行業(yè)。如果通過數(shù)據(jù)挖掘和這樣的語法分析,就知道了一某一產(chǎn)品它的購買者有80%是來自于大學(xué),那么接下來就可以根據(jù)此信息調(diào)整電子商務(wù)中的在線市場策略,調(diào)整對大學(xué)生客戶的商務(wù)活動。擴(kuò)展日志文件格式主要是支持關(guān)于日志文件信息的指令,如版本號、會話監(jiān)控開始和結(jié)束的日期、被記錄的域等。
4.1.2 Error logs
存取請求失敗的數(shù)據(jù),例如:丟失鏈接、授權(quán)失敗、超時(shí)。
4.1.3 Cookie logs
Cookies是一種軟件構(gòu)件,它能夠在客戶端存儲客戶訪問服務(wù)器的信息。服務(wù)器軟件上存儲關(guān)于Cookies的這部分,就叫做Cookie logs。Cookie logs的一般格式是:“name, expiry date, path, domain, Security level”。
4.2查詢數(shù)據(jù)
它是電子商務(wù)站點(diǎn)在服務(wù)器上產(chǎn)生的一種典型數(shù)據(jù)。例如,對于在線存儲的客戶也許會搜索一些產(chǎn)品或某些廣告信息,這些查詢信息就通過Cookies或登記信息連接到服務(wù)器的訪問日志上。目前還沒有一個(gè)標(biāo)準(zhǔn)的查詢數(shù)據(jù)格式[1]。
4.3市場數(shù)據(jù)
在線市場數(shù)據(jù)是指和市場活動相關(guān)的信息。不同目的的商務(wù)網(wǎng)站有不同的商務(wù)信息。但是,這類數(shù)據(jù)通常是用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫結(jié)構(gòu)來存儲數(shù)據(jù)。在線市場數(shù)據(jù)是業(yè)務(wù)數(shù)據(jù),是進(jìn)行業(yè)務(wù)相關(guān)分析的主體。用戶的挖掘目標(biāo)只是結(jié)合在線市場數(shù)據(jù)分析才能達(dá)到。
4.4頁面內(nèi)容
這類數(shù)據(jù)主要是指HTML和XML頁面的內(nèi)容,包括文本、圖片、語音、圖像等。由于HTML頁面包含文本和多媒體信息(圖片、語音、圖像),所以涉及到文本挖掘和多媒體挖掘。對Web頁面數(shù)據(jù)的挖掘還包括對Web頁面之間的超鏈接關(guān)系的挖掘。
4.5Web頁面結(jié)構(gòu)
Web頁面結(jié)構(gòu)包括WWW的組織結(jié)構(gòu)和鏈接關(guān)系。組織結(jié)構(gòu)是指頁面內(nèi)部各部分是如何組織的,表現(xiàn)為各HTML標(biāo)記間的關(guān)系,通常可組成一棵樹[6]。鏈接關(guān)系是指頁面之間存在的超級鏈接關(guān)系,這也是一種重要的資源。
4.6代理服務(wù)器端數(shù)據(jù)
代理服務(wù)器日志記錄用戶對所有網(wǎng)站的訪問。代理服務(wù)器相當(dāng)于在客戶瀏覽器和Web服務(wù)器之間提供了緩存功能的中介服務(wù)器,它的緩存功能減少了Web服務(wù)器的網(wǎng)絡(luò)流量,加快了網(wǎng)頁的運(yùn)行速度,同時(shí)將大量的用戶訪問信息通過代理日志的形式保存起來[7]。
4.7客戶登記信息
客戶登記信息是指客戶通過Web頁在屏幕上輸入的、要提交給服務(wù)器的相關(guān)信息。它在電子商務(wù)活動起著非常重要的作用,特別是在安全方面,或者在對客戶可訪問信息的限制方面。在Web的數(shù)據(jù)挖掘中,客戶登記信息必須和訪問日志集成,以提高數(shù)據(jù)挖掘的準(zhǔn)確度,能更進(jìn)一步的了解客戶。
5 結(jié)束語
Internet上的客戶都意識到,只要他們連接到一個(gè)在線市場的服務(wù)器上,就已經(jīng)在這個(gè)服務(wù)器上留下了一個(gè)“腳印”,這就是服務(wù)器的日志文件。這樣就可以對客戶訪問留下的這些日志文件進(jìn)行Web的數(shù)據(jù)挖掘,提取相關(guān)客戶的知識,對客戶的訪問行為、頻度、內(nèi)容等進(jìn)行分析,從而可以得到關(guān)于群體客戶行為和方式的普遍知識,以改進(jìn)Web服務(wù)方的設(shè)計(jì)。通過Web數(shù)據(jù)挖掘,就可以根據(jù)客戶的訪問興趣、訪問頻度、訪問時(shí)間動態(tài)地調(diào)整頁面結(jié)構(gòu),改進(jìn)服務(wù),給客戶個(gè)性化的界面,開展有針對性的電子商務(wù)以更好的滿足訪問者的需求,因而Web數(shù)據(jù)挖掘不可避免地和電子商務(wù)走到了一起。
參考文獻(xiàn)
[1]周世東. Web數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用研究[D]. 北京交通大學(xué),2008(6).
[2]趙東東. 電子商務(wù)中的Web數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)[J]. 微計(jì)算機(jī)信息,2007(2).
[3]何波,王越. 基于數(shù)據(jù)挖掘的Web個(gè)性化信息推薦系統(tǒng)[J]. 計(jì)算機(jī)工程與設(shè)計(jì),2006(2).
[4]Barry Smyth,Evelyn Balfe. Anonymous personalization in collaborative web search[J]. Information Retrieval, 2006(9).
[5]Alexander Pretschner, Susan Gauch. Personaliztion on the Web. Technical Report MC-FY, 2000-TR-13591-01,December,1999.
[6]李煊,汪曉巖,莊鎮(zhèn)泉,基于關(guān)聯(lián)規(guī)則挖掘的個(gè)性化智能推薦服務(wù)[J].計(jì)算機(jī)工程與應(yīng)用,2002(3).
[7]魯為. 協(xié)作過濾算法及其在個(gè)性化推薦系統(tǒng)中的應(yīng)用[D]. 北京郵電大學(xué),2007(3).