[摘 要] 隨著Internet的發(fā)展,個性化信息服務(wù)已經(jīng)被廣泛應(yīng)用到很多領(lǐng)域.本文闡述了電子商務(wù)個性化服務(wù)的數(shù)據(jù)挖掘方法,并對電子商務(wù)個性化服務(wù)的實現(xiàn)進(jìn)行了探討。
[關(guān)鍵詞] 數(shù)據(jù)挖掘 Web訪問信息挖掘 個性化服務(wù) 電子商務(wù)
一、引 言
隨著internet技術(shù)的發(fā)展,個性化信息服務(wù)已經(jīng)被廣泛應(yīng)用到很多領(lǐng)域:如個性化導(dǎo)航、個性化網(wǎng)站等。尤其是在電子商務(wù)領(lǐng)域,對用戶進(jìn)行個性化服務(wù),已經(jīng)成為許多電子商務(wù)企業(yè)追求的目標(biāo)。
WEB訪問信息挖掘就是對用戶訪問WEB時在服務(wù)方留下的訪問記錄進(jìn)行挖掘,即對用戶訪問WEB站點的存取方式進(jìn)行挖掘。挖掘?qū)ο笫窃诜?wù)器上的包括server log data等在內(nèi)的日志文件記錄。
二、電子商務(wù)個性化服務(wù)的數(shù)據(jù)挖掘方法
訪問信息挖掘是在電子商務(wù)上進(jìn)行知識發(fā)現(xiàn),最關(guān)鍵的是進(jìn)行客戶訪問信息的挖掘,得到客戶的瀏覽行為和訪問模式,從而發(fā)現(xiàn)客戶的興趣、愛好等有用的市場信息,最常用的挖掘方法有:
1.路徑分析
常用于判定在一個web站點中最頻繁訪問的路徑。如:80%的用戶在存取/company/prodcut1時是經(jīng)過/company/new。通過客戶訪問的路徑分析,可以改進(jìn)頁面和網(wǎng)站目錄結(jié)構(gòu)的設(shè)計,使用戶直奔所需,減少客戶的流失率。
2.關(guān)聯(lián)規(guī)則挖掘
使用關(guān)聯(lián)規(guī)則挖掘可以從WEB訪問事務(wù)集中,找到一般性的關(guān)聯(lián)知識。如:30%的客戶在訪問/company/prodcut1也訪問了/company/prodcut2。利用這些相關(guān)性,可更好地組織WEB空間,實施有效的營銷策略。
3.序列模式發(fā)現(xiàn)
序列模式發(fā)現(xiàn)就是在時間戳有序的事務(wù)集中,找到那些“一些項跟隨另一些項”的內(nèi)部事務(wù)模式,即挖掘出交易集之間有時間序列關(guān)系的模式。如:在company/prodcut1上進(jìn)行訂購的用戶中有60%的在一個月內(nèi)也訂購了company/prodcut2。序列模式發(fā)現(xiàn)能夠預(yù)測客戶的訪問模式,了解客戶的興趣及需求所在,采取有針對性的廣告服務(wù),以滿足訪問者的特定要求。
4.分類
分類就是為具有某些公共屬性的特定群體建立概要特征,這些特征可以用來對新增到數(shù)據(jù)庫里的數(shù)據(jù)項進(jìn)行分類。如學(xué)生用戶一般感興趣的頁面是company/prodcut1。分類能夠使商家根據(jù)訪問網(wǎng)站的人口統(tǒng)計學(xué)信息和用戶的訪問模式得出訪問某一商業(yè)網(wǎng)站的用戶輪廓特征。對用戶分類后,就可以發(fā)現(xiàn)未來的潛在客戶并開展有針對性的商務(wù)活動。
5.聚類分析
聚類分析可以從服務(wù)器訪問信息數(shù)據(jù)中聚集出具有相似特性的客戶組,即把有相似特性的用戶、數(shù)據(jù)項集合到一起。如自動給一個待定的顧客聚類發(fā)送銷售郵件。通過這些舉措使商務(wù)活動能夠在一定程度上滿足客戶的要求,實現(xiàn)目標(biāo)營銷。
三、電子商務(wù)個性化服務(wù)的實現(xiàn)
1.Web訪問信息挖掘基本步驟
Web訪問信息挖掘的基本步驟為:數(shù)據(jù)收集,數(shù)據(jù)預(yù)處理,模式識別,模式分析。
數(shù)據(jù)收集就是要記錄用戶訪問行為,主要方式有在服務(wù)器端進(jìn)行數(shù)據(jù)收集、在客戶端進(jìn)行數(shù)據(jù)收集、在代理端進(jìn)行數(shù)據(jù)收集等。原始數(shù)據(jù)需要經(jīng)過預(yù)處理后才能有效實施挖掘算法,數(shù)據(jù)預(yù)處理的質(zhì)量與Web挖掘的效率和結(jié)果緊密相關(guān),其內(nèi)容包括:數(shù)據(jù)凈化、用戶識別、會話識別、事務(wù)識別、路徑補充等。然后要對預(yù)處理后的數(shù)據(jù)進(jìn)行模式識別,即實施挖掘算法。模式分析的目的是根據(jù)實際應(yīng)用,通過觀察和選擇,把發(fā)現(xiàn)的統(tǒng)計結(jié)果、規(guī)則和模型轉(zhuǎn)換為知識,經(jīng)過篩選后用來指導(dǎo)實際的電子商務(wù)行為。常用的手段有:信息過濾、可視化、聯(lián)機分析處理等。
2.電子商務(wù)個性化系統(tǒng)結(jié)構(gòu)
電子商務(wù)個性化系統(tǒng)如下圖所示。
通過上圖可知,電子商務(wù)個性化系統(tǒng)一般分為兩個部分:
離線部分:用于挖掘用戶的特性信息。
在線部分:用于識別用戶,推薦個性化服務(wù)。
Web訪問信息挖掘是離線處理的,而當(dāng)用戶訪問該網(wǎng)站時通過在線推薦引擎進(jìn)行在線服務(wù)。挖掘算法和推薦策略可以根據(jù)不同類型站點的要求來具體選擇,挖掘結(jié)果和推薦集通過推薦引擎反饋給用戶。電子商務(wù)網(wǎng)站的會員用戶通過會員標(biāo)識登錄網(wǎng)站以后,其訪問信息將會被記錄到服務(wù)器端。這些數(shù)據(jù)將在經(jīng)過預(yù)處理后,在專用的數(shù)據(jù)挖掘模塊中,通過具體的挖掘算法和推薦策略來進(jìn)行模式識別和模式分析。用戶訪問信息也會傳到推薦引擎,推薦引擎根據(jù)用戶的會員標(biāo)識,向挖掘模塊抽取對應(yīng)用戶的挖掘結(jié)果和推薦集,將其可視化地反饋給用戶,達(dá)到個性化服務(wù)的目的。
四、結(jié)束語
隨著互聯(lián)網(wǎng)的普及和電子商務(wù)的發(fā)展,電子商務(wù)系統(tǒng)在為用戶提供越來越多選擇的同時,利用WEB訪問信息挖掘技術(shù),必然對電子商務(wù)網(wǎng)站提供個性化服務(wù)產(chǎn)生積極的影響。
參考文獻(xiàn):
[1]毛國君 段立娟:數(shù)據(jù)挖掘原理與算法[M].清華大學(xué)出版社,2005.7
[2]馮是聰 單松魏 張志剛:基于Web挖掘的個性化技術(shù)研究.計算機工程與設(shè)計, 2004 Vol.25 No.1