[摘 要] 電子商務(wù)網(wǎng)站向用戶提供及時(shí)有效的信息,是提高網(wǎng)站聲譽(yù)和效益的基礎(chǔ)。Web挖掘可以通過分析用戶的使用偏好,幫助用戶高效地檢索到所關(guān)心的信息。本文深入討論了Web結(jié)構(gòu)挖掘、Web內(nèi)容挖掘和Web使用挖掘等技術(shù),并提出了商務(wù)網(wǎng)站基于Web挖掘技術(shù)為用戶提供個(gè)性化推薦的一種框架。
[關(guān)鍵詞] 電子商務(wù) WEB挖掘 個(gè)性化服務(wù)
一、引言
電子商務(wù)站點(diǎn)的成功很大程度上取決于保持已有用戶和將隨意瀏覽者轉(zhuǎn)化為現(xiàn)實(shí)購(gòu)買者的能力。因此,怎樣在電子商務(wù)環(huán)境中吸引新用戶,并確保自己可以提供足夠的產(chǎn)品或服務(wù)留住老用戶,成為許多電子商務(wù)站點(diǎn)所要關(guān)注的主要問題。另一方面,用戶面對(duì)電子商務(wù)站點(diǎn)所提供的眾多選擇,要從中挑選出自己真正需要的產(chǎn)品或服務(wù)猶如大海撈針。
人們?yōu)榱藢?shí)現(xiàn)從海量Web數(shù)據(jù)中,查找自己想要的數(shù)據(jù)和有用信息,提出了Web挖掘(Web Mining)。Web挖掘可以幫助人們從Web文檔和Web活動(dòng)中發(fā)現(xiàn)和抽取潛在的、有意義的模式和知識(shí)。它將傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)與Web結(jié)合起來,并綜合運(yùn)用了統(tǒng)計(jì)學(xué)、計(jì)算機(jī)網(wǎng)絡(luò)、數(shù)據(jù)庫與數(shù)據(jù)倉(cāng)庫、可視化等眾多領(lǐng)域的技術(shù),形成了Web結(jié)構(gòu)挖掘、Web內(nèi)容挖掘和Web使用挖掘的研究與應(yīng)用體系。
二、 Web結(jié)構(gòu)挖掘
由于Web頁面具有比純文本更為豐富的結(jié)構(gòu),不僅具有文本信息,而且具有表示頁面之間關(guān)系的鏈接,所以Web結(jié)構(gòu)挖掘主要是利用Web文檔之間的超鏈結(jié)構(gòu)進(jìn)行分析。大量的Web超鏈接信息提供了關(guān)于Web頁面內(nèi)容相關(guān)性、質(zhì)量和結(jié)構(gòu)方面的信息,反映了文檔之間的包含、引用或者從屬關(guān)系。引用文檔對(duì)被引用文檔的說明往往更客觀、更概括、更準(zhǔn)確。它有助于推斷出頁面的權(quán)威性。所謂權(quán)威頁面是在一個(gè)主題內(nèi)被高度引用或參考的頁面,與其相關(guān)的另一個(gè)概念是樞紐頁面,即:那些指向許多權(quán)威頁面的頁面。權(quán)威頁面和樞紐頁面展示了強(qiáng)烈的互增強(qiáng)關(guān)系;一個(gè)好的樞紐頁面指向了許多好的權(quán)威頁面;一個(gè)好的權(quán)威頁面被許多好的樞紐頁面所指。在信息檢索中往往將高權(quán)威分和樞紐分的頁面視為高質(zhì)量的頁面,可以考慮優(yōu)先提供給用戶。
三、Web內(nèi)容挖掘
Web內(nèi)容挖掘主要有兩種策略:1.直接挖掘Web文檔的內(nèi)容;2.在工具搜索的基礎(chǔ)上進(jìn)行改進(jìn)。采用第一種策略的有針對(duì)Web查詢語言利用啟發(fā)式規(guī)則的Ahoy等。采用第二種策略的方法主要是對(duì)搜索引擎的查詢結(jié)果進(jìn)行進(jìn)一步的處理,得到更為精確和有用的信息。共分為四個(gè)階段:
首先,對(duì)文本挖掘?qū)ο蠼⑻卣鞅硎?。為Web文本內(nèi)容建立特征表示是Web文本挖掘中的基本問題,常用的特征表示方法有:向量空間模型、布爾模型、聚類模型、概率模型和基于知識(shí)模型等。
其次,提取文檔特征并縮減。在目前所采用的文檔表示方法中,共同存在的瓶頸就是文檔特征向量維數(shù)過高。常用的特征提取與縮減方法有:信息增益、互信息、文本證據(jù)權(quán)、特征頻度、文本頻度,以及特征熵等。
再次,在完成文檔特征向量維數(shù)的縮減后,利用數(shù)據(jù)挖掘的方法(如分類、聚類、關(guān)聯(lián)規(guī)則等)提取面向特定應(yīng)用的知識(shí)模式。
最后,對(duì)挖掘結(jié)果進(jìn)行評(píng)價(jià),若評(píng)價(jià)結(jié)果滿足一定的要求則輸出,否則返回到之前的某個(gè)環(huán)節(jié),分析改進(jìn)后再進(jìn)行新一輪的挖掘工作。
四、 Web使用挖掘
Web使用挖掘的結(jié)果通常是用戶群體的共同行為和共性興趣,以及個(gè)人用戶的檢索偏好、習(xí)慣和模式等,已經(jīng)成為當(dāng)前電子商務(wù)個(gè)性化推薦的主流方法。Web使用挖掘主要通過分析用戶訪問Web的記錄了解用戶的興趣和習(xí)慣,對(duì)用戶行為進(jìn)行預(yù)測(cè),以便提供個(gè)性化的產(chǎn)品信息和服務(wù)。Web使用挖掘的方法可以分為兩類:
1.基于Web事務(wù)的方法
基于Web事務(wù)的Web使用挖掘技術(shù)通常應(yīng)用于Web服務(wù)器日志文件,引入最大向前引用算法MF,將用戶會(huì)話分割成一系列的事務(wù),然后采用與關(guān)聯(lián)規(guī)則相類似的方法挖掘頻繁訪問序列,從而取得用戶訪問模式。Web使用數(shù)據(jù)的采集和預(yù)處理是Web使用挖掘過程中非常關(guān)鍵的步驟。
2.基于數(shù)據(jù)立方體的方法
基于數(shù)據(jù)立方體的技術(shù)是根據(jù)Web服務(wù)器日志文件,建立數(shù)據(jù)立方體,然后對(duì)數(shù)據(jù)立方體進(jìn)行數(shù)據(jù)挖掘和聯(lián)機(jī)分析處理。這種方法從多角度、全面地進(jìn)行挖掘和分析,有利于Web挖掘與數(shù)據(jù)挖掘技術(shù)的迅速融合與發(fā)展。
五、語義Web挖掘
語義Web模型的一個(gè)重要思想就是以本體來表示語義信息,通過在語義Web中引入本體層來實(shí)現(xiàn)語義信息的共享,從而提高網(wǎng)絡(luò)信息服務(wù)的智能化與自動(dòng)化。語義Web挖掘的主要分為兩個(gè)層次:其一,探索能夠直接處理Web本體的Web挖掘算法;其二,在Web挖掘其他環(huán)節(jié)利用本體方法,以提高Web挖掘的效能。
要解決現(xiàn)有數(shù)據(jù)挖掘技術(shù)在語義Web環(huán)境下應(yīng)用,關(guān)鍵的問題是要求數(shù)據(jù)挖掘算法具有幾種能力:第一是使用的算法應(yīng)該具有處理比命題邏輯更有表達(dá)力的一階邏輯的能力;第二是在算法中具有利用背景知識(shí)數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘。
六、結(jié)論
電子商務(wù)個(gè)性化推薦可以根據(jù)用戶的偏好、歷史訪問數(shù)據(jù),以及相似用戶的相關(guān)信息,幫助用戶完成網(wǎng)上瀏覽、購(gòu)買等過程,為用戶提供個(gè)性化服務(wù)。WEB挖掘技術(shù)可以從不同的角度和層次對(duì)網(wǎng)站信息和用戶的使用偏好進(jìn)行分析,正在成為提高電子商務(wù)網(wǎng)站聲譽(yù)和效益的有效途徑之一。
參考文獻(xiàn):
[1]石 琳 王刊良:網(wǎng)上購(gòu)物與網(wǎng)上學(xué)習(xí)中的個(gè)人化推薦系統(tǒng)的比較.清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2006,46(S1)
[2]陳文偉 黃金才:數(shù)據(jù)倉(cāng)庫與數(shù)據(jù)挖掘.北京:人民郵電出版社,2004