摘 要 在數(shù)據(jù)挖掘系統(tǒng)中引用web服務(wù),使復(fù)雜的算法庫(kù)開(kāi)發(fā)簡(jiǎn)單化,為動(dòng)態(tài)管理算法庫(kù)帶來(lái)了便利?;趙eb的數(shù)據(jù)挖掘系統(tǒng)使任何語(yǔ)言都能夠?qū)?shù)據(jù)挖掘算法封裝到web中,與程序設(shè)計(jì)的語(yǔ)言分離,最大化的實(shí)現(xiàn)了算法設(shè)計(jì)的自由性。因此,基于web的數(shù)據(jù)挖掘系統(tǒng)具有非常重要的作用。
關(guān)鍵詞 web 數(shù)據(jù)挖掘 系統(tǒng) 設(shè)計(jì)
中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A
Web數(shù)據(jù)挖掘由于其優(yōu)良的特性,被廣泛的應(yīng)用于電子商務(wù)和企業(yè)的決策中。目前,企業(yè)管理客戶的主要方式就是通過(guò)web管理,企業(yè)針對(duì)客戶的訪問(wèn)情況和訪問(wèn)歷史,為不同的客戶提供不同的個(gè)性化服務(wù)。Web還可以用作企業(yè)與客戶間的交流工具,企業(yè)通過(guò)web實(shí)時(shí)與客戶進(jìn)行互動(dòng),以及時(shí)了解客戶的喜好。Web由于具有較低的成本,在企業(yè)的推廣中應(yīng)用也很廣泛。企業(yè)面臨的最大問(wèn)題是如何從web大量的信息庫(kù)中提取有利于企業(yè)發(fā)展的信息。
1數(shù)據(jù)挖掘系統(tǒng)的概述
Web數(shù)據(jù)挖掘是指用數(shù)據(jù)挖掘的方法對(duì)用戶訪問(wèn)信息、web頁(yè)面內(nèi)容、電子商務(wù)交易信息、用戶注冊(cè)信息、站點(diǎn)拓?fù)浣Y(jié)構(gòu)等方面的數(shù)據(jù)進(jìn)行挖掘和分析,并找出有用的信息的過(guò)程。人們可以利用web挖掘發(fā)現(xiàn)有用的信息、為客戶提供個(gè)性化的服務(wù)、改善站點(diǎn)的設(shè)計(jì)等等,web挖掘的方法可以分為結(jié)構(gòu)挖掘、內(nèi)容挖掘、使用挖掘三種方式。其中,web結(jié)構(gòu)挖掘指的是從web的鏈接關(guān)系和組織結(jié)構(gòu)中對(duì)知識(shí)進(jìn)行推導(dǎo)的過(guò)程。Web中包含的有用的信息不僅僅是頁(yè)面上的內(nèi)容,其結(jié)構(gòu)中也包含著大量有用的信息,需要對(duì)其結(jié)構(gòu)進(jìn)行推導(dǎo)才能發(fā)現(xiàn)。Web內(nèi)容挖掘指的是對(duì)web頁(yè)面的內(nèi)容進(jìn)行挖掘以找到有用的信息。Web使用挖掘指的是對(duì)客戶在web服務(wù)器上進(jìn)行訪問(wèn)的記錄通過(guò)web日志等方法進(jìn)行挖掘。
2web數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)
Web數(shù)據(jù)挖掘表現(xiàn)出顯著的優(yōu)勢(shì),因此,基于web的數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)也必然能夠更好滿足企業(yè)推廣一個(gè)用需求,而在設(shè)計(jì)數(shù)據(jù)挖掘系統(tǒng)的過(guò)程中也應(yīng)當(dāng)充分考慮每一個(gè)步驟,以確保設(shè)計(jì)的合理性。
3數(shù)據(jù)收集
Web數(shù)據(jù)挖掘需要挖掘的數(shù)據(jù)主要分兩方面,即用戶的活動(dòng)使用信息以及web頁(yè)面上包含的頁(yè)面拓?fù)浣Y(jié)構(gòu)和文檔。用戶的活動(dòng)使用信息主要表現(xiàn)為用戶在企業(yè)網(wǎng)站的數(shù)據(jù)庫(kù)的在線注冊(cè)、交易信息、電子郵件查詢、響應(yīng)數(shù)據(jù)和活動(dòng)信息,通常是記錄的形式。Web頁(yè)面上包含的頁(yè)面拓?fù)浣Y(jié)構(gòu)和文檔主要表現(xiàn)為web服務(wù)器的Cookies、日志文件和Error Logs。通常web服務(wù)器的日志文件中包括用戶瀏覽網(wǎng)頁(yè)的順序和鏈接的點(diǎn)擊順序,例如用戶使用的時(shí)間和日期、請(qǐng)求的類型和狀態(tài)、主機(jī)的地址以及發(fā)送的字節(jié)數(shù)等。數(shù)據(jù)的收集過(guò)程就是從web服務(wù)器日志文件中提取有用的信息并對(duì)客戶的活動(dòng)信息進(jìn)行分析的過(guò)程,產(chǎn)生的數(shù)據(jù)最終用來(lái)構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)。
4數(shù)據(jù)處理
點(diǎn)擊流是數(shù)據(jù)挖掘的重要信息,但由于其數(shù)據(jù)繁多,對(duì)數(shù)據(jù)挖掘工作者也是一種挑戰(zhàn)。使點(diǎn)擊流的數(shù)據(jù)進(jìn)入數(shù)據(jù)庫(kù)主要通過(guò)幾個(gè)方面的數(shù)據(jù)統(tǒng)計(jì),即客戶端、應(yīng)用服務(wù)器、數(shù)據(jù)倉(cāng)庫(kù)、web服務(wù)器四個(gè)方面??蛻舳耸侵赣脩敉ㄟ^(guò)智能工具或?yàn)g覽器等各種方式瀏覽企業(yè)的頁(yè)面所產(chǎn)生的點(diǎn)擊數(shù)據(jù),構(gòu)建數(shù)據(jù)庫(kù)的過(guò)程就是對(duì)web服務(wù)器的數(shù)據(jù)進(jìn)行預(yù)處理并轉(zhuǎn)移到數(shù)據(jù)倉(cāng)庫(kù)和程序服務(wù)器中的數(shù)據(jù)分析過(guò)程。由于數(shù)據(jù)的量較大,要在大量的數(shù)據(jù)中提取有用的信息十分困難,因此,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理非常重要。對(duì)數(shù)據(jù)預(yù)處理的方法有字符大小寫的轉(zhuǎn)換和類型轉(zhuǎn)換等,通過(guò)這些工具完成數(shù)據(jù)的轉(zhuǎn)換,實(shí)現(xiàn)數(shù)據(jù)的預(yù)處理。數(shù)據(jù)處理的過(guò)程需要注意的問(wèn)題有:首先,數(shù)據(jù)倉(cāng)庫(kù)必須采用大規(guī)模的并行處理機(jī),以滿足大量用戶的需求。其次,數(shù)據(jù)轉(zhuǎn)移的速率要高,可通過(guò)提高集成度或使用一些數(shù)據(jù)移動(dòng)軟件的方法提高數(shù)據(jù)的轉(zhuǎn)移速率。
5挖掘模式
企業(yè)開(kāi)發(fā)數(shù)據(jù)挖掘系統(tǒng)的主要目的就是應(yīng)用數(shù)據(jù)挖掘的算法對(duì)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)集進(jìn)行分析和挖掘,提取出有用的信息和模式為企業(yè)的決策提供依據(jù)。因此,選擇一種有效的挖掘模式具有重要的意義,下面有幾種可供選擇的模式,第一,對(duì)用戶的訪問(wèn)記錄利用路徑分析的方法進(jìn)行分析。路徑分析利用的是web的日志文件中用戶的訪問(wèn)記錄,并把用戶的訪問(wèn)路徑按時(shí)間的先后進(jìn)行排序。第二,對(duì)頻繁的頁(yè)面集利用關(guān)聯(lián)規(guī)則分析的方法進(jìn)行分析,如對(duì)于兩本不同的書A和B中的頁(yè)面1和2,利用關(guān)聯(lián)規(guī)則分析的方法得出(1,2)是頻繁頁(yè)面集,當(dāng)用戶瀏覽書A的頁(yè)面1時(shí),將書B(niǎo)的頁(yè)面2加以緩存,從而提高web的緩存性能。第三,對(duì)相似的客戶和頁(yè)面利用聚類分析的方法進(jìn)行分析。聚類分析包括客戶聚類和頁(yè)面聚類,主要分析具有相似性的客戶,對(duì)其相似的愛(ài)好提供個(gè)性化的服務(wù)。第四,對(duì)可能存在的潛在客戶利用分類和預(yù)測(cè)的方法進(jìn)行挖掘。分類和預(yù)測(cè)方法是指通過(guò)對(duì)客戶的購(gòu)買商品和訪問(wèn)特征對(duì)客戶加以分類,從而為潛在的客戶開(kāi)展促銷活動(dòng)并對(duì)銷售情況進(jìn)行預(yù)測(cè)。
6結(jié)束語(yǔ)
Web數(shù)據(jù)挖掘系統(tǒng)是目前較熱門的研究課題,具有廣闊的應(yīng)用和發(fā)展空間,市場(chǎng)潛力巨大。基于web的數(shù)據(jù)挖掘系統(tǒng)與傳統(tǒng)的數(shù)據(jù)挖掘系統(tǒng)相比具有能夠使數(shù)據(jù)、接口和算法分離的優(yōu)點(diǎn),簡(jiǎn)化了算法庫(kù)的開(kāi)發(fā)。web數(shù)據(jù)挖掘系統(tǒng)主要研究的內(nèi)容包括數(shù)據(jù)的預(yù)處理、收集和技術(shù)的開(kāi)發(fā)。目前我國(guó)的數(shù)據(jù)挖掘技術(shù)與發(fā)達(dá)國(guó)家相比還有一定差距,仍需不斷的發(fā)展和完善。
參考文獻(xiàn)
[1] 李新金.Web使用挖掘在網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)中的應(yīng)用研究[J].浙江師范大學(xué).2012,05(6):18.
[2] 劉天壘.基于Web的農(nóng)業(yè)數(shù)據(jù)挖掘系統(tǒng)的研究與實(shí)現(xiàn)[J].中國(guó)農(nóng)業(yè)科學(xué)院.2012,10(4):11.