[摘 要] 本文分析了面向電子商務(wù)的數(shù)據(jù)挖掘的優(yōu)勢,論述了數(shù)據(jù)挖掘的步驟,設(shè)計(jì)了數(shù)據(jù)挖掘系統(tǒng)的三層結(jié)構(gòu),指出面向電子商務(wù)的數(shù)據(jù)挖掘系統(tǒng)能夠從大量繁雜的數(shù)據(jù)中找出真正有價(jià)值的信息和知識,更符合現(xiàn)代社會的競爭趨勢要求。
[關(guān)鍵詞] 電子商務(wù);數(shù)據(jù)挖掘;系統(tǒng)設(shè)計(jì)
[中圖分類號]F724.6[文獻(xiàn)標(biāo)識碼]A[文章編號]1673-0194(2008)18-0097-03
電子商務(wù)是指個(gè)人或企業(yè)通過Internet網(wǎng)絡(luò),采用數(shù)字化電子方式進(jìn)行商務(wù)數(shù)據(jù)交換和開展商務(wù)活動。電子商務(wù)的發(fā)展給企業(yè)、個(gè)人和社會帶來的好處是全方位的,它把人類真正地帶入信息化社會。然而電子商務(wù)在加速社會電子化進(jìn)程的同時(shí),也使“數(shù)據(jù)爆炸”問題進(jìn)一步加劇,促進(jìn)了對新技術(shù)的需求。此外,時(shí)代的發(fā)展賦予電子商務(wù)更廣泛的含義,它不僅包括電子貿(mào)易,還包括物流及供應(yīng)鏈管理(SCM)、企業(yè)資源規(guī)劃(ERP)、客戶關(guān)系管理(CRM)等。這些都迫使擁有海量數(shù)據(jù)的電子商務(wù)公司從已有數(shù)據(jù)中尋找某些規(guī)律性,以幫助決策層制訂計(jì)劃和策略,更好地開展商務(wù)活動。
數(shù)據(jù)挖掘,也稱知識發(fā)現(xiàn)(KDD,Knowledge Discovery in Databases),是從大量數(shù)據(jù)中提取或“挖掘”知識[1]。數(shù)據(jù)挖掘通過發(fā)現(xiàn)有用的新規(guī)律和新概念,提高了數(shù)據(jù)擁有者對大量原始數(shù)據(jù)的深層次理解、認(rèn)識和應(yīng)用。數(shù)據(jù)挖掘技術(shù)是目前國際上數(shù)據(jù)庫和信息決策領(lǐng)域最前沿的研究方向之一,引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。
在電子商務(wù)平臺上進(jìn)行數(shù)據(jù)挖掘也已成為一個(gè)研究熱點(diǎn)。對于電子商務(wù)公司每天處理的大量數(shù)據(jù),利用數(shù)據(jù)挖掘技術(shù)可以高度自動化地分析數(shù)據(jù),做出歸納性推理,從中挖掘出潛在的模式,并預(yù)測未來,幫助企業(yè)決策者調(diào)整市場策略,減少風(fēng)險(xiǎn),做出正確決策。
1 面向電子商務(wù)的數(shù)據(jù)挖掘的優(yōu)勢分析
1. 1提供海量的數(shù)據(jù)和信息
面向電子商務(wù)的數(shù)據(jù)挖掘最大優(yōu)勢在于電子商務(wù)行為將會產(chǎn)生海量數(shù)據(jù),而這正是進(jìn)行數(shù)據(jù)挖掘的基礎(chǔ)。現(xiàn)在海量數(shù)據(jù)至少是在100GB以上的數(shù)量級,在這種規(guī)模的數(shù)據(jù)上挖掘才是有意義的,通常情況下有條件進(jìn)行數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域并不是很多。據(jù)統(tǒng)計(jì),如果一個(gè)電子商務(wù)網(wǎng)站平均每小時(shí)賣出5件物品,那么它一個(gè)月的平均點(diǎn)擊量是160萬次。這個(gè)點(diǎn)擊量會產(chǎn)生巨大的Web日志(記載頁面訪問的情況)。如果電子商務(wù)站點(diǎn)設(shè)計(jì)得好,就可以獲得各種商務(wù)的或者是用戶訪問的信息。這些信息包括:商品和商品的屬性、商品的歸類信息(當(dāng)同時(shí)展示多種商品時(shí),歸類信息是非常有用的)、促銷信息、關(guān)于訪問的信息、關(guān)于客戶的信息等。在一個(gè)電子商務(wù)網(wǎng)站當(dāng)中,客戶訪問網(wǎng)站的一舉一動都可以記錄下來[2]。
1. 2產(chǎn)生良好的數(shù)據(jù)
從電子商務(wù)站點(diǎn)搜集的都是電子數(shù)據(jù),無需人工輸入或者從歷史系統(tǒng)進(jìn)行整合,從而也減少了一些人工輸入的錯(cuò)誤??梢酝ㄟ^良好的站點(diǎn)設(shè)計(jì),直接獲得跟數(shù)據(jù)挖掘有關(guān)的數(shù)據(jù)??梢酝ㄟ^良好的站點(diǎn)設(shè)計(jì),將數(shù)據(jù)采樣的顆粒度控制在用戶級別或者是Session級別,而不是頁面級別。
1. 3研究成果容易轉(zhuǎn)化
在電子商務(wù)中,很多知識發(fā)現(xiàn)都可以直接應(yīng)用。歷史上的數(shù)據(jù)挖掘研究有過很多的知識發(fā)現(xiàn),但是這些知識發(fā)現(xiàn)卻很少在實(shí)際的商業(yè)應(yīng)用中產(chǎn)生效果。要應(yīng)用這些發(fā)現(xiàn)的知識可能意味著要進(jìn)行復(fù)雜的系統(tǒng)更改、流程更改或是改變?nèi)藗兊霓k事習(xí)慣,這在現(xiàn)實(shí)中是非常困難的。而在電子商務(wù)中,很多知識發(fā)現(xiàn)都可以直接應(yīng)用。比如,改變站點(diǎn)的設(shè)計(jì)(改變布局,進(jìn)行個(gè)性化設(shè)計(jì)等),開始有目標(biāo)的促銷,根據(jù)對廣告效果的統(tǒng)計(jì)數(shù)據(jù)改變廣告策略,可以很容易地提供捆綁銷售。
1. 4投資收益容易衡量
在電子商務(wù)中衡量革新的投資收益非常容易,銷售變化的報(bào)表可以自動產(chǎn)生,客戶對電子郵件和電子調(diào)查的反饋都可以在短短的幾天內(nèi)得到,而不必等幾個(gè)月,電子商務(wù)乃至整個(gè)互聯(lián)網(wǎng)都是傳統(tǒng)商業(yè)的理想實(shí)驗(yàn)室。
2 面向電子商務(wù)的數(shù)據(jù)挖掘的步驟
2. 1數(shù)據(jù)預(yù)處理
我們所得到的數(shù)據(jù)一般都具有不完全性、冗余性和模糊性,要有效地挖掘出知識,就必須提供干凈、準(zhǔn)確、簡潔的數(shù)據(jù)。預(yù)處理主要對用戶訪問日志進(jìn)行數(shù)據(jù)清洗、用戶唯一性識別、用戶會話識別、完善訪問路徑和事務(wù)識別等處理。
2. 2模式發(fā)現(xiàn)
模式發(fā)現(xiàn)階段就是利用挖掘算法挖掘出有效的、新穎的、潛在的、有用的及最終可以理解的信息和知識。在經(jīng)過數(shù)據(jù)預(yù)處理階段后,可根據(jù)不同的需求選擇模式發(fā)現(xiàn)技
術(shù)[3],如統(tǒng)計(jì)分析、關(guān)聯(lián)規(guī)則、時(shí)序模式、路徑分析及聚類、分類技術(shù)。
2. 3用戶交互
數(shù)據(jù)挖掘過程需要用戶交互,這種交互主要有兩方面:一是用戶向挖掘系統(tǒng)提供參數(shù)或者約束條件指導(dǎo)挖掘;二是因?yàn)橥诰蚰康牟淮_定,所以挖掘有時(shí)會返回很多的結(jié)果,其中大部分不是用戶所想要的。同時(shí),對于挖掘系統(tǒng)來說,指定約束條件,也會有助于對結(jié)果的剪枝,淘汰不必要的結(jié)果,提高效率。因此,用戶在挖掘開始前和進(jìn)行的過程中都要根據(jù)需要給挖掘系統(tǒng)提出要求或者輸入?yún)?shù)。
2. 4用戶與電子商務(wù)系統(tǒng)的交互
挖掘系統(tǒng)與電子商務(wù)系統(tǒng)不直接發(fā)生聯(lián)系,這個(gè)過程由用戶來完成,得到挖掘結(jié)果以后,用戶還需要對結(jié)果作進(jìn)一步的處理,分析每一個(gè)簇所代表的客戶的性質(zhì),而且可能還需要對簇的結(jié)果進(jìn)行修改。在確定了客戶類別以后,用戶即可根據(jù)客戶類別的性質(zhì)對網(wǎng)站進(jìn)行修改,使得網(wǎng)站可以分辨出它所屬的類別,然后根據(jù)類別來給出提示,引導(dǎo)客戶進(jìn)入自己最需要的功能[4]。
3 面向電子商務(wù)的數(shù)據(jù)挖掘系統(tǒng)分析與設(shè)計(jì)
3. 1面向電子商務(wù)的數(shù)據(jù)挖掘系統(tǒng)功能分析
面向電子商務(wù)的數(shù)據(jù)挖掘系統(tǒng)的主要功能如圖1所示。
3. 1. 1用戶基本信息分析
運(yùn)用分類和聚類挖掘方法對用戶登記的基本信息進(jìn)行分析,可以得到用戶的一些特征。對用戶分類相當(dāng)于對具有某些公共屬性的用戶群體建立了概要特征描述,這些特征可以用來對新增的用戶進(jìn)行分類,可以發(fā)現(xiàn)未來的潛在用戶并開展有針對性的商務(wù)活動實(shí)現(xiàn)目標(biāo)營銷。
3. 1. 2用戶訪問情況分析
采用路徑分析技術(shù)判定用戶在一個(gè)電子商務(wù)網(wǎng)站中最頻繁訪問的路徑,通過對用戶訪問的路徑進(jìn)行分析,可以改進(jìn)頁面和網(wǎng)站目錄結(jié)構(gòu)的設(shè)計(jì),使用戶直奔所需,減少用戶的流失率。在網(wǎng)站日志里,用戶的訪問行為是以時(shí)間段來標(biāo)記的,經(jīng)數(shù)據(jù)清理和事務(wù)識別后是一個(gè)間斷的時(shí)間序列。通過序列模式挖掘可使電子商務(wù)公司預(yù)測用戶的訪問模式,了解用戶的興趣及需求所在,采取有針對性的廣告服務(wù),以滿足訪問者的特定要求,使用戶在自己的網(wǎng)站上駐留更長的時(shí)間。
3. 1. 3商品訪問情況分析
運(yùn)用關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)商品訪問中所有關(guān)聯(lián)和相聯(lián)系的規(guī)則,可以從交易事務(wù)數(shù)據(jù)庫中發(fā)現(xiàn)商品間的相互聯(lián)系。這對電子商務(wù)公司組織站點(diǎn)網(wǎng)頁結(jié)構(gòu)、采取有效的營銷策略非常有幫助。比如可利用這些關(guān)聯(lián)改進(jìn)網(wǎng)站的設(shè)計(jì),使站點(diǎn)上頁面內(nèi)容的安排和連接更加有助于銷售,也可提高促銷活動的效果。
3. 1. 4商品銷售情況分析
通過描述式數(shù)據(jù)挖掘方法面向?qū)傩詺w納技術(shù)對商品銷售數(shù)據(jù)概化分析,實(shí)現(xiàn)在不同維度上的統(tǒng)計(jì)查詢分析功能,進(jìn)而分析商品的銷售興趣度,得出不同的量化描述,從而輔助企業(yè)的生產(chǎn)經(jīng)營決策。
3. 1. 5物流配送點(diǎn)庫存預(yù)測
采用神經(jīng)網(wǎng)絡(luò)預(yù)測技術(shù),根據(jù)各物流配送點(diǎn)接到的網(wǎng)站用戶訂單來預(yù)測其庫存數(shù)量。預(yù)測信息可以為物流配送中心提供參考,用來合理地確定各配送點(diǎn)倉庫的庫存量,使各配送點(diǎn)的補(bǔ)貨能更加合理有序,降低物流成本,節(jié)約庫存費(fèi)用。
3. 2面向電子商務(wù)的數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)
現(xiàn)階段電子商務(wù)平臺通常基于3層體系結(jié)構(gòu)構(gòu)建,服務(wù)器端采用先進(jìn)的J2EE平臺構(gòu)架,由松耦合組件和完整的體系框架組成,具有很好的可擴(kuò)展性、互聯(lián)性和可維護(hù)性。因此,本文以3層體系結(jié)構(gòu)構(gòu)建面向電子商務(wù)的數(shù)據(jù)挖掘系統(tǒng),如圖2所示。面向電子商務(wù)的數(shù)據(jù)挖掘系統(tǒng)由數(shù)據(jù)庫服務(wù)器、應(yīng)用服務(wù)器和客戶端3層組成,整個(gè)體系結(jié)構(gòu)是以J2EE企業(yè)級的構(gòu)建技術(shù)為基礎(chǔ)。
數(shù)據(jù)庫服務(wù)器提供了對于所有數(shù)據(jù)的訪問,這里的數(shù)據(jù)不僅包含數(shù)據(jù)挖掘所需要的數(shù)據(jù)源,還包含了所有數(shù)據(jù)挖掘步驟的中間結(jié)果和最終結(jié)果。對數(shù)據(jù)挖掘過程中產(chǎn)生的數(shù)據(jù),采用獨(dú)立的數(shù)據(jù)挖掘庫表存放,這樣既不影響也不依賴數(shù)據(jù)挖掘的數(shù)據(jù)源。
應(yīng)用服務(wù)器完成所有的數(shù)據(jù)挖掘運(yùn)算,通過接受客戶端的設(shè)置,完成所有對數(shù)據(jù)進(jìn)行探索、轉(zhuǎn)換、挖掘的工作。數(shù)據(jù)挖掘系統(tǒng)的每個(gè)功能模塊都以EJB的形式進(jìn)行封裝,以實(shí)現(xiàn)分布式計(jì)算和負(fù)載平衡等分布式計(jì)算的要求,把具有繁重計(jì)算任務(wù)的模塊和用戶交互模塊分開[5]。
客戶端主要負(fù)責(zé)數(shù)據(jù)挖掘流程的創(chuàng)建工作、所有功能模塊參數(shù)的設(shè)定以及各種可視化結(jié)果的顯示。用戶可以根據(jù)自己的要求任意創(chuàng)建各種形式的挖掘流程,同時(shí)按照需要執(zhí)行某部分流程,獲取相應(yīng)的可視化分析結(jié)果。
4 結(jié) 論
為了適應(yīng)未來電子商務(wù)的發(fā)展趨勢和現(xiàn)代市場經(jīng)濟(jì)的特點(diǎn),提高企業(yè)的市場競爭能力和決策能力,電子商務(wù)平臺從更深、更廣的層次上充分發(fā)揮現(xiàn)代網(wǎng)絡(luò)技術(shù)帶來的潛能,利用數(shù)據(jù)挖掘技術(shù)為企業(yè)提供豐富的、多層次的信息匯總與行業(yè)數(shù)據(jù)分析,并為決策者提供豐富的決策支持和策略管理。通過研究面向電子商務(wù)的數(shù)據(jù)挖掘技術(shù),我們能夠從大量繁雜的數(shù)據(jù)中找出真正有價(jià)值的信息和知識,滿足現(xiàn)代社會的競爭要求。
主要參考文獻(xiàn)
[1] Jiawei Han,M Kamber. Data Mining:Concepts and Techniques[M]. 北京:機(jī)械工業(yè)出版社, 2001.
[2] 田地. 基于電子商務(wù)的Web數(shù)據(jù)挖掘技術(shù)研究[D]. 鄭州:鄭州大學(xué),2006.
[3] W H Inmon. Building the Data Warehouse[M]. 北京:機(jī)械工業(yè)出版社,2000.
[4] 李獻(xiàn)禮. 電子商務(wù)網(wǎng)站的Web數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)[J]. 西南師范大學(xué)學(xué)報(bào):自然科學(xué)版,2007(4).
[5] 龔曉君. 數(shù)據(jù)挖掘算法研究及在電子商務(wù)中的應(yīng)用[D]. 杭州:浙江大學(xué),2005.