[摘要] 本文從Web數(shù)據(jù)挖掘的概念入手,介紹了Web數(shù)據(jù)挖掘的一般流程及技術(shù),最后探討了Web數(shù)據(jù)挖掘在應(yīng)用中的幾個(gè)問(wèn)題。
[關(guān)鍵詞] 數(shù)據(jù)挖掘 Web數(shù)據(jù)挖掘 問(wèn)題
一、引言
隨著Web技術(shù)的飛速發(fā)展,企業(yè)積累了大量的數(shù)據(jù),如何發(fā)現(xiàn)并利用隱藏在這些數(shù)據(jù)背后的知識(shí)成為當(dāng)前信息技術(shù)領(lǐng)域研究的熱點(diǎn)問(wèn)題之一。由于Web數(shù)據(jù)自身的特性,使得Web數(shù)據(jù)挖掘更加復(fù)雜,不同于傳統(tǒng)的基于數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘。為了解決這個(gè)問(wèn)題,把數(shù)據(jù)挖掘的理論和技術(shù)應(yīng)用于WWW,出現(xiàn)了一個(gè)新的研究領(lǐng)域——Web數(shù)據(jù)挖掘。
二、Web數(shù)據(jù)挖掘的概念
Web數(shù)據(jù)挖掘(Web Data Mining),是數(shù)據(jù)挖掘技術(shù)在Web環(huán)境下的應(yīng)用,是集Web技術(shù)、數(shù)據(jù)挖掘技術(shù)、信息科學(xué)等多個(gè)領(lǐng)域的一項(xiàng)技術(shù),從大量的Web文檔集合和在站點(diǎn)內(nèi)進(jìn)行瀏覽的相關(guān)數(shù)據(jù)中發(fā)現(xiàn)蘊(yùn)涵的、未知的、有潛在應(yīng)用價(jià)值的模式。對(duì)Web數(shù)據(jù)挖掘定義如下:
Web數(shù)據(jù)挖掘是指從Web文檔結(jié)構(gòu)和使用的集合C中發(fā)現(xiàn)隱含的模式P。如果將C看作輸入,P看作輸出,那么Web數(shù)據(jù)挖掘的過(guò)程就是從輸入到輸出的一個(gè)映射:
ξ C → P
Web數(shù)據(jù)挖掘從數(shù)據(jù)挖掘發(fā)展而來(lái),都是在分析大量數(shù)據(jù)的基礎(chǔ)上,做出歸納性的推理,預(yù)測(cè)客戶的行為,幫助企業(yè)的決策者調(diào)整市場(chǎng)策略、減少風(fēng)險(xiǎn)并做出正確決策的過(guò)程。
三、Web數(shù)據(jù)挖掘的流程及常用技術(shù)
結(jié)合數(shù)據(jù)挖掘的一般流程,并根據(jù)Web數(shù)據(jù)的特點(diǎn),將Web數(shù)據(jù)挖掘流程分解5個(gè)環(huán)節(jié),包括獲取數(shù)據(jù)源、數(shù)據(jù)選擇和預(yù)處理、模式發(fā)現(xiàn)、模式分析和知識(shí)表達(dá)。
1.獲取數(shù)據(jù)源
根據(jù)用戶的要求,從Web資源中提取所需要的相關(guān)數(shù)據(jù),包括Web文檔、電子郵件、電子文檔、新聞組、網(wǎng)站日志、Web交易數(shù)據(jù)庫(kù)等。
2.數(shù)據(jù)選擇和預(yù)處理
去除目標(biāo)數(shù)據(jù)集中明顯的錯(cuò)誤數(shù)據(jù)和冗余數(shù)據(jù),選擇數(shù)據(jù)的有效部分,并將數(shù)據(jù)轉(zhuǎn)化成進(jìn)行數(shù)據(jù)挖掘和分析的有效形式,比如規(guī)整的邏輯形式甚至是關(guān)系表。
3.模式發(fā)現(xiàn)
對(duì)前面經(jīng)過(guò)預(yù)處理的數(shù)據(jù)自動(dòng)進(jìn)行模式發(fā)現(xiàn),可以在同一個(gè)站點(diǎn)內(nèi)部或在多個(gè)站點(diǎn)之間進(jìn)行。
4.模式分析
驗(yàn)證、解釋上一步驟發(fā)現(xiàn)的模式,必要時(shí)需要返回前面的某些步驟以反復(fù)提取??梢允菣C(jī)器自動(dòng)完成,也可以是與分析人員進(jìn)行交互來(lái)完成。
5.知識(shí)表達(dá)
最后將發(fā)現(xiàn)的知識(shí)以用戶能理解的方式提供給用戶。
Web數(shù)據(jù)挖掘的大部分技術(shù)來(lái)源于數(shù)據(jù)挖掘領(lǐng)域、數(shù)據(jù)庫(kù)領(lǐng)域和信息檢索領(lǐng)域,常用的有路徑分析、關(guān)聯(lián)規(guī)則挖掘、序列模式挖掘、聚類挖掘、預(yù)測(cè)建模和分類挖掘等技術(shù),其中路徑分析技術(shù)是針對(duì)Web數(shù)據(jù)挖掘?qū)iT設(shè)計(jì)的。隨著Web應(yīng)用不斷取得進(jìn)展,集成了不同類型數(shù)據(jù)的新的Web數(shù)據(jù)挖掘方法,也將被開發(fā)出來(lái)。
四、基于Web的數(shù)據(jù)挖掘在應(yīng)用中存在的幾個(gè)問(wèn)題
1.半結(jié)構(gòu)化的異構(gòu)數(shù)據(jù)源問(wèn)題
Web網(wǎng)站上的信息都可以看作一個(gè)數(shù)據(jù)庫(kù),每一個(gè)站點(diǎn)都是一個(gè)數(shù)據(jù)源,而且對(duì)數(shù)據(jù)的描述千差萬(wàn)別,沒(méi)有可遵循的特定模型。所以,Web網(wǎng)站上的每個(gè)數(shù)據(jù)源都是異構(gòu)的。同時(shí),Web上的數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)庫(kù)中的數(shù)據(jù)不同,傳統(tǒng)的數(shù)據(jù)庫(kù)中的數(shù)據(jù)結(jié)構(gòu)性很強(qiáng),而Web上的數(shù)據(jù)非常復(fù)雜,沒(méi)有特定的模型描述,每一站點(diǎn)的數(shù)據(jù)都各自獨(dú)立設(shè)計(jì)。雖然Web上的數(shù)據(jù)具有一定的結(jié)構(gòu)性,但因自述層次的存在,因而還是一種非完全結(jié)構(gòu)化的數(shù)據(jù),這也被稱之為半結(jié)構(gòu)化數(shù)據(jù)。顯然,面向Web的數(shù)據(jù)挖掘比面向單個(gè)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘要復(fù)雜得多。
如果想要利用這些數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,必須解決半結(jié)構(gòu)化和異構(gòu)數(shù)據(jù)源的問(wèn)題。首先,對(duì)于Web上的數(shù)據(jù)半結(jié)構(gòu)化問(wèn)題,必須要尋找一個(gè)半結(jié)構(gòu)化的數(shù)據(jù)模型,還要一種半結(jié)構(gòu)化模型抽取技術(shù),即自動(dòng)從現(xiàn)有數(shù)據(jù)中抽取半結(jié)構(gòu)化模型的技術(shù)。其次,必須要研究站點(diǎn)之間異構(gòu)數(shù)據(jù)的集成問(wèn)題。只有將這些站點(diǎn)的數(shù)據(jù)都集成起來(lái),提供給用戶一個(gè)統(tǒng)一的視圖,才有可能從巨大的數(shù)據(jù)資源中獲取所需的東西。解決Web上的異構(gòu)數(shù)據(jù)的集成問(wèn)題,就必須要有一個(gè)模型來(lái)清晰地描述Web上的數(shù)據(jù)。
目前,WEB站點(diǎn)上的數(shù)據(jù)信息一般采用HTML描述,信息只能在瀏覽器中提供數(shù)據(jù)的顯示方式。要想在這種方式下獲得數(shù)據(jù)描述,真正做到準(zhǔn)確、高效地挖掘是不可能的,而XML突破了HTML固定標(biāo)記集合的約束,可自行定義各種標(biāo)記描述數(shù)據(jù)元素和屬性,能夠反映一定的數(shù)據(jù)含義,組成一個(gè)完整的信息體系,從而獲得更大的靈活性和更強(qiáng)的功能。由于XML能夠使不同來(lái)源的結(jié)構(gòu)化數(shù)據(jù)很容易地結(jié)合,使搜索多樣不兼容的數(shù)據(jù)庫(kù)成為可能,也為半結(jié)構(gòu)化數(shù)據(jù)的處理提供了很好的解決方法。
2.Web中數(shù)據(jù)源的獲取問(wèn)題
用戶每次點(diǎn)擊網(wǎng)頁(yè)時(shí)都會(huì)產(chǎn)生很多信息,Web服務(wù)器可以記錄下來(lái)。我們可以利用這些信息對(duì)用戶進(jìn)行數(shù)據(jù)挖掘分析。但在Web上可以用作數(shù)據(jù)挖掘分析的數(shù)據(jù)量比較大,而且類型眾多,比較復(fù)雜。下面我們介紹幾種從Web站點(diǎn)中的獲取數(shù)據(jù)的途徑。
(1)訪問(wèn)日志。訪問(wèn)Web站點(diǎn)的用戶每次從Web服務(wù)器上請(qǐng)求一個(gè)文件,該文件條目放在一個(gè)稱為訪問(wèn)日志的ASCII文本文件中。在訪問(wèn)連接期間,每次事務(wù)操作都被順序地記錄在訪問(wèn)日志中,訪問(wèn)日志是發(fā)現(xiàn)誰(shuí)訪問(wèn)了Web站點(diǎn)、訪問(wèn)了什么頁(yè)面的關(guān)鍵組件。
(2)Cookies信息。Cookies是用戶訪問(wèn)站點(diǎn)時(shí)由Web服務(wù)器傳遞到用戶瀏覽器的少量信息,存儲(chǔ)在用戶自己硬盤中。Cookies詳細(xì)描述了用戶訪問(wèn)站點(diǎn)時(shí)瀏覽了哪些地方。大多數(shù)Web站點(diǎn)都己經(jīng)把Cookies作為提供個(gè)性化Web頁(yè)面和產(chǎn)品的關(guān)鍵營(yíng)銷工具。
(3)表單或用戶注冊(cè)信息。用戶在進(jìn)入站點(diǎn)時(shí)都需要注冊(cè)個(gè)人信息,如姓名、地址、職業(yè)等;另外,用戶在查詢或購(gòu)買商品時(shí)也需要填寫表單信息,Web站點(diǎn)能夠獲取這些數(shù)據(jù),為隨后的挖掘產(chǎn)生有價(jià)值的數(shù)據(jù)庫(kù)。
(4)電子郵件系統(tǒng)。許多Web站點(diǎn)都有電子郵件鏈接,它使得用戶能及時(shí)地查詢產(chǎn)品和服務(wù),并提供重要的反饋信息。Web數(shù)據(jù)挖掘技術(shù)能夠?qū)τ脩綦娮余]件反饋數(shù)據(jù)進(jìn)行挖掘和分析,而且Web站點(diǎn)可以將挖掘結(jié)果自動(dòng)地用電子郵件通知某些客戶,比如關(guān)心優(yōu)惠或打折信息的目標(biāo)客戶群體,并最終依據(jù)客戶對(duì)郵件的響應(yīng)來(lái)尋找更多的優(yōu)惠措施。
3.Web中的用戶身份識(shí)別問(wèn)題
如果位于Web上的每一臺(tái)客戶機(jī)都擁有自己唯一的IP地址,那么對(duì)Web上用戶識(shí)別就比較容易。但是客戶機(jī)器一般都是采用動(dòng)態(tài)IP技術(shù),用戶每次登錄Web時(shí)都擁有一個(gè)與上次不同的IP地址,這就使單獨(dú)使用IP地址來(lái)識(shí)別用戶的方法行不通。為了精確識(shí)別用戶,需要足夠的數(shù)據(jù),而收集這些數(shù)據(jù)遇到的最大的兩個(gè)問(wèn)題就是客戶端緩存和代理服務(wù)器緩存。
為了提高效率,客戶端瀏覽器采用了緩存技術(shù),即保存用戶最近訪問(wèn)的頁(yè)面,當(dāng)用戶“后退”時(shí),客戶端瀏覽器就不再向服務(wù)器發(fā)送請(qǐng)求,導(dǎo)致服務(wù)器無(wú)法探測(cè)到用戶的重復(fù)訪問(wèn)動(dòng)作,更無(wú)法在服務(wù)器日志中記錄。代理服務(wù)器提供了一個(gè)中間緩沖層,為識(shí)別用戶帶了更大的問(wèn)題,在服務(wù)器日志文件中,所有通過(guò)代理服務(wù)器發(fā)來(lái)的用戶請(qǐng)求均具有同樣的用戶標(biāo)志,即使這些請(qǐng)求是多個(gè)用戶發(fā)起的。
針對(duì)用戶身份識(shí)別過(guò)程中出現(xiàn)的種種情況,可以采用以下幾種Web技術(shù)來(lái)進(jìn)行處理:
(1)Cookies技術(shù)。Cookies在用戶第一次訪問(wèn)網(wǎng)站時(shí)設(shè)置一個(gè)唯一的標(biāo)識(shí),不能重復(fù)使用并且始終與該用戶有關(guān),有效期限應(yīng)該足夠長(zhǎng)以便使該Cookies在當(dāng)前訪問(wèn)和至少在下一次可能訪問(wèn)之間保持有效。這樣每當(dāng)用戶重復(fù)訪問(wèn)時(shí),不管它進(jìn)入網(wǎng)站的哪個(gè)頁(yè)面,其身份都能被識(shí)別。所以每當(dāng)用戶重返網(wǎng)站時(shí),在訪問(wèn)期間所瀏覽的所有網(wǎng)頁(yè)都會(huì)與一個(gè)具體的用戶相聯(lián)系。
(2)URL重寫技術(shù)。如果客戶端瀏覽器禁止Cookies的使用,那么可以使用URL重寫技術(shù)。它是將需要來(lái)回傳送的信息置入查詢字符串中,通過(guò)URL來(lái)進(jìn)行傳遞。如果企業(yè)想從一個(gè)網(wǎng)頁(yè)到另一個(gè)網(wǎng)頁(yè)對(duì)用戶進(jìn)行跟蹤,那么就可以把用戶名作為查詢字符串的一部分追加到這些網(wǎng)頁(yè)中的每一個(gè)鏈接中。這種技術(shù)可以用來(lái)跟蹤用戶訪問(wèn)Web站點(diǎn)的路徑,因?yàn)樵L問(wèn)過(guò)的每個(gè)頁(yè)面的URL都被記錄在服務(wù)器日志中,包括查詢字符串。。
(3)隱藏表單域技術(shù)。隱藏表單域是一種特殊的表單,其目的是在表單中添加一些對(duì)用戶不可見的信息以區(qū)分同一網(wǎng)頁(yè)上的多個(gè)表單。提交表單時(shí),隱藏域的值一同傳給表單處理程序,利用該值,可以在同一個(gè)表單處理程序中分別對(duì)不同的表單進(jìn)行處理。該方法允許企業(yè)網(wǎng)站將一些相關(guān)的值放入網(wǎng)頁(yè)上用戶不可見的一些表單域中,一旦用戶提交表單,這些值將會(huì)被送回Web服務(wù)器。
五、結(jié)束語(yǔ)
基于Web的數(shù)據(jù)挖掘是一個(gè)結(jié)合了數(shù)據(jù)挖掘和WWW的熱門研究主題,是一個(gè)新興的研究領(lǐng)域,至今還沒(méi)有形成成熟的理論和技術(shù)。本文從幾個(gè)不同的角度對(duì)面向Web的數(shù)據(jù)挖掘進(jìn)行了分析和探討。隨著基于Web的數(shù)據(jù)挖掘算法和技術(shù)的不斷發(fā)展和成熟,Web數(shù)據(jù)挖掘一定會(huì)有非常廣闊的應(yīng)用前景。
參考文獻(xiàn):
[1]何月順:計(jì)算機(jī)半結(jié)構(gòu)化數(shù)據(jù)源的數(shù)據(jù)挖掘技術(shù)研究[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2005(10)
[2]周琪鋒:基于Web的數(shù)據(jù)挖掘技術(shù)的研究[J].電腦知識(shí)與技術(shù),2007(1)
[3]陸楠:WEB數(shù)據(jù)挖掘中異構(gòu)數(shù)據(jù)集成問(wèn)題的研究[J].深圳大學(xué)學(xué)報(bào),2002(3)