徐文生
[摘 要] 本文對數(shù)據(jù)挖掘的基本特點(diǎn)與流程和電子商務(wù)中Web數(shù)據(jù)挖掘與數(shù)據(jù)源進(jìn)行了分析,并對數(shù)據(jù)挖掘技術(shù)在電子商務(wù)領(lǐng)域的應(yīng)用進(jìn)行了研究探討
[關(guān)鍵詞] 數(shù)據(jù)挖掘 電子商務(wù) 數(shù)據(jù)源 應(yīng)用
一、數(shù)據(jù)挖掘的基本特點(diǎn)與流程分析
數(shù)據(jù)挖掘定義為是從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中的大量數(shù)據(jù)中挖掘有趣知識的過程。
數(shù)據(jù)挖掘系統(tǒng)具有以下幾個主要部分:
1.數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫:這是一個或一組數(shù)據(jù)庫、數(shù)據(jù)倉庫、電子表格或其他類型的信息庫,可以在數(shù)據(jù)上進(jìn)行數(shù)據(jù)清理和集成。
2.數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器:以用戶為主導(dǎo)的交互式數(shù)據(jù)挖掘過程一般是通過系統(tǒng)的用戶界面模塊,將用戶的搜索指令轉(zhuǎn)化為一組標(biāo)準(zhǔn)的SQL語句,交由服務(wù)器去執(zhí)行。
3.數(shù)據(jù)挖掘引擎:這是數(shù)據(jù)挖掘系統(tǒng)的基本部分,是由一組以系統(tǒng)為主導(dǎo)的數(shù)據(jù)挖掘功能模塊組成的。
4.模式評估模塊:此模塊一般使用興趣度指標(biāo)并與數(shù)據(jù)挖掘模塊交互作用,指導(dǎo)數(shù)據(jù)挖掘引擎將搜索集中在感興趣的模式上。
5.知識庫:知識庫包含著領(lǐng)域知識,用于指導(dǎo)搜索過程,并計(jì)算評估結(jié)果模式的興趣度指標(biāo)。
6.圖形用戶界面:本模塊在用戶和數(shù)據(jù)挖掘系統(tǒng)之間通訊,允許用戶與系統(tǒng)交互,指定數(shù)據(jù)挖掘查詢或任務(wù),提供信息,幫助確定搜索目標(biāo),根據(jù)數(shù)據(jù)挖掘的中間結(jié)果進(jìn)行探索式的數(shù)據(jù)挖掘。
二、電子商務(wù)中的Web數(shù)據(jù)挖掘與數(shù)據(jù)源
根據(jù)對Web數(shù)據(jù)的感興趣程度不同,Web數(shù)據(jù)挖掘一般可以分為三類:Web內(nèi)容挖掘(Web Contentmining)、Web結(jié)構(gòu)挖掘(Web structure mining)、Web用法挖掘(Web usage Mining)。
1.Web內(nèi)容挖掘。Web內(nèi)容挖掘指從Web內(nèi)容中發(fā)現(xiàn)有用信息。Web上的信息由各種類型的數(shù)據(jù)源組成,包括WWW、FTP、Telnet等,比如政府信息服務(wù)、數(shù)字圖書館、電子商務(wù)數(shù)據(jù),以及其他通過Web可以訪問的數(shù)據(jù)庫。
2.Web結(jié)構(gòu)挖掘。從廣義上講,Web的結(jié)構(gòu)包含以下三個內(nèi)容;不同網(wǎng)頁間的超鏈接;網(wǎng)頁內(nèi)部的URL字符串中的目錄路徑結(jié)構(gòu)信息;網(wǎng)頁內(nèi)部內(nèi)容的可以用HTML、XML表示成的樹形結(jié)構(gòu)信息。
3.Web用法挖掘(Web usage Mining)。即Web使用紀(jì)錄挖掘,在新興的電子商務(wù)領(lǐng)域有重要意義,它通過挖掘相關(guān)的Web日志紀(jì)錄,來發(fā)現(xiàn)用戶訪問Web頁面的模式,通過分析日志紀(jì)錄中的規(guī)律,可以識別用戶的忠實(shí)度、喜好、滿意度,因而可以發(fā)現(xiàn)潛在用戶,增強(qiáng)站點(diǎn)的服務(wù)競爭力。
在數(shù)據(jù)挖掘中一個很重要的步驟就是采集數(shù)據(jù)。在Web上可以用來作為數(shù)據(jù)挖掘分析的數(shù)據(jù)量比較大,而且類型眾多。電子商務(wù)的數(shù)據(jù)挖掘技術(shù)中,數(shù)據(jù)的來源主要有以下幾個方面:
一是服務(wù)器數(shù)據(jù)??蛻粼L問站點(diǎn)時會在Web服務(wù)器上留下相應(yīng)的日志數(shù)據(jù),這些日志數(shù)據(jù)通常以文本文件的形式存儲在服務(wù)器上。一般包括sever logs、error logs、cookie logs等。
二是查詢數(shù)據(jù)。它是電子商務(wù)站點(diǎn)在服務(wù)器上產(chǎn)生的一種典型數(shù)據(jù)。
三是在線市場數(shù)據(jù)。這類數(shù)據(jù)主要是傳統(tǒng)關(guān)系數(shù)據(jù)庫里存儲的有關(guān)電子商務(wù)站點(diǎn)信息、用戶購買信息、商品信息等數(shù)據(jù)。
四是Web頁面。主要是指HTML和XML頁面的內(nèi)容,包括本文、圖片、語音、圖像等。
五是Web頁面超級鏈接關(guān)系。主要是指頁面之間存在的超級鏈接關(guān)系,這也是一種重要的資源。
六是客戶登記信息。客戶登記信息是指客戶通過Web網(wǎng)頁輸入的、要提交給服務(wù)器的相關(guān)用戶信息,這些信息通常是關(guān)于用戶的人口特征信息。
三、Web數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用
1.發(fā)現(xiàn)潛在客戶。通過Web數(shù)據(jù)挖掘,對新訪問者的網(wǎng)頁瀏覽紀(jì)錄進(jìn)行分析,就可以判斷出該訪問者是屬于哪一類客戶,是有利可圖的潛在客戶還是毫無價(jià)值的過客,從而挖掘潛在客戶。
2.個性化定制,提高客戶忠誠度。通過對客戶訪問信息的挖掘,就能知道客戶的瀏覽行為,從而識別用戶的忠實(shí)度、喜好、滿意度,了解客戶的興趣及需求,動態(tài)地調(diào)整Web頁面以滿足客戶的需要。
3.改進(jìn)站點(diǎn)設(shè)計(jì)。站點(diǎn)的結(jié)構(gòu)和內(nèi)容是吸引用戶的關(guān)鍵。Web挖掘技術(shù)通過挖掘用戶的行為紀(jì)錄和反饋情況為站點(diǎn)設(shè)計(jì)者提供改進(jìn)的依據(jù),比如頁面連接情況應(yīng)如何組織、那些頁面應(yīng)能夠直接訪問等。
4.聚類客戶。在電子商務(wù)中客戶聚類是一個重要的方面。通過分組具有相似瀏覽行為的客戶并分析組中客戶的共同特征,可以幫助電子商務(wù)的組織者更好地了解自己的客戶,及時調(diào)整頁面及頁面內(nèi)容使商務(wù)活動能夠在更大程度上滿足客戶的要求,向客戶提供更適合、更面向客戶的服務(wù),使商務(wù)活動對客戶和銷售商來說更具意義。
5.廣告效益評價(jià)。利用Web挖掘?qū)Υ罅肯M(fèi)行為模式進(jìn)行分析,可精確地評價(jià)各種廣告手段的效益,并組合設(shè)計(jì)出最佳的商品宣傳組合方案,根據(jù)關(guān)心某產(chǎn)品的訪問者的瀏覽模式來決定廣告的位置,增加廣告針對性,提高廣告的投資回報(bào)率。
無論Web挖掘技術(shù)還是基于它的電子商務(wù),都是綜合性很強(qiáng)的新技術(shù),需要進(jìn)一步的完善和發(fā)展。作為實(shí)現(xiàn)電子商務(wù)的關(guān)鍵技術(shù)之一,Web挖掘技術(shù)具有良好的發(fā)展和應(yīng)用前景,已受到并將越來越得到更加廣泛的關(guān)注。
參考文獻(xiàn):
[1]呂延杰:《電子商務(wù)教程》.電子工業(yè)出版社,2000年版
[2]王永慶:《人工智能原理與方法》.西安交通大學(xué)出版社,1998年版
[3]林杰斌 劉明德 陳 湘:《數(shù)據(jù)挖掘與OLAP理論與務(wù)實(shí)》,清華大學(xué)出版社,2003年版
[4]袁 柱:《電子商務(wù)中Web數(shù)據(jù)挖掘的應(yīng)用研究》.《商場現(xiàn)代化》,2007年第8S期
[5]姚國章:《中國企業(yè)電子商務(wù)發(fā)展戰(zhàn)略》.北京大學(xué)出版社,2001年版