程舒通
1.浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,浙江杭州 310027
2.杭州科技職業(yè)技術(shù)學(xué)院,浙江杭州 310012
隨著互聯(lián)網(wǎng)和電子商務(wù)的發(fā)展,對(duì)網(wǎng)站技術(shù)的開(kāi)發(fā)提出了更高的要求,建設(shè)一個(gè)更合理、注重個(gè)性化和相關(guān)性的網(wǎng)站成為研究的熱點(diǎn),很多的學(xué)者從不同角度、不同方向提出了網(wǎng)站結(jié)構(gòu)優(yōu)化技術(shù)[1-4],也開(kāi)發(fā)了相應(yīng)的系統(tǒng)或模型,但是尚未從整體上去把握網(wǎng)站結(jié)構(gòu)優(yōu)化技術(shù)。本文設(shè)計(jì)了一個(gè)較為常用的網(wǎng)站結(jié)構(gòu)優(yōu)化系統(tǒng),并仔細(xì)分析每一階段的特點(diǎn)。
我們認(rèn)為網(wǎng)站結(jié)構(gòu)優(yōu)化是指Web結(jié)構(gòu)挖掘內(nèi)容,其對(duì)象是網(wǎng)站本身的超連接,即對(duì)Web文檔的結(jié)構(gòu)進(jìn)行挖掘。我們利用相應(yīng)的算法,發(fā)現(xiàn)Web文檔之間鏈接情況的有用信息,由于文檔之間的超鏈接反映了文檔之間的包含、引用或者從屬關(guān)系,因此引用文檔對(duì)被引用文檔的說(shuō)明往往更客觀(guān)、更概括、更準(zhǔn)確。
本文設(shè)計(jì)的網(wǎng)站結(jié)構(gòu)優(yōu)化系統(tǒng),包括4個(gè)主要階段:分別是數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、模式發(fā)現(xiàn)和模式分析等。
圖1 網(wǎng)站結(jié)構(gòu)優(yōu)化系統(tǒng)基本框架圖
網(wǎng)站數(shù)據(jù)采集是網(wǎng)站結(jié)構(gòu)優(yōu)化的前期步驟,也是后續(xù)工作的基礎(chǔ)。簡(jiǎn)單的說(shuō)就是獲取網(wǎng)站的原始數(shù)據(jù)和相關(guān)信息。此階段主要分為四種形式,Web服務(wù)器端數(shù)據(jù)采集、客戶(hù)端的數(shù)據(jù)采集、應(yīng)用服務(wù)器數(shù)據(jù)采集以及代理服務(wù)器端數(shù)據(jù)采集等。Web服務(wù)器段數(shù)據(jù)采集是指從Web服務(wù)器獲取原始的日志文件,這些日志文件中記錄很了多的網(wǎng)站信息??蛻?hù)端的數(shù)據(jù)采集主要是根據(jù)客戶(hù)對(duì)網(wǎng)站服務(wù)器的點(diǎn)擊行為,產(chǎn)生的IP地址、點(diǎn)擊時(shí)間、次數(shù)以及點(diǎn)擊的序列,可以從中獲取用戶(hù)對(duì)網(wǎng)站不同頁(yè)面的關(guān)注度的數(shù)據(jù),從而得到相應(yīng)用戶(hù)的興趣度。針對(duì)網(wǎng)站數(shù)據(jù)采集設(shè)計(jì)的方法和系統(tǒng)很多,但是最為常見(jiàn)的還是Web服務(wù)器端和客戶(hù)端的數(shù)據(jù)采集,如文獻(xiàn)[5]闡述了通用網(wǎng)上商店自動(dòng)數(shù)據(jù)采集引擎的設(shè)計(jì)流程,提出了應(yīng)用XML和關(guān)系型數(shù)據(jù)庫(kù)的解決方案,為利用已有的大量廉價(jià)以至免費(fèi)的數(shù)據(jù)信息。文獻(xiàn)[6]提出基于用戶(hù)瀏覽行為的客戶(hù)端數(shù)據(jù)采集的方式,有效解決Web使用記錄挖掘中數(shù)據(jù)采集問(wèn)題。
從網(wǎng)站中獲取的信息比較復(fù)雜,包含各種各樣的錯(cuò)誤和無(wú)效信息。這些數(shù)據(jù)需要提前預(yù)處理,轉(zhuǎn)化成為適合數(shù)據(jù)挖掘的數(shù)據(jù)格式。數(shù)據(jù)預(yù)處理階段包括日志預(yù)處理、數(shù)據(jù)清理、識(shí)別用戶(hù)和路徑修補(bǔ)4個(gè)模塊:日志預(yù)處理模塊包括將日志文件導(dǎo)人到數(shù)據(jù)庫(kù)中,期間的字段根據(jù)日志格式中的字段進(jìn)行選擇定義;數(shù)據(jù)清理從Web日志文件中過(guò)濾無(wú)關(guān)的頁(yè)面請(qǐng)求(如圖形等)以及不成功的頁(yè)面請(qǐng)求,在某些文獻(xiàn)中被定義成為數(shù)據(jù)凈化,就是指刪除一些與Web日志挖掘無(wú)關(guān)的數(shù)據(jù);識(shí)別用戶(hù)是指從Web日志記錄中找出訪(fǎng)問(wèn)網(wǎng)站的用戶(hù),可以采用IP+Agent機(jī)制實(shí)現(xiàn);路徑修補(bǔ)(或者稱(chēng)為路徑完善)將由于緩沖而造成日志文件中丟失的重要用戶(hù)訪(fǎng)問(wèn)鏈接記錄根據(jù)站點(diǎn)結(jié)構(gòu)補(bǔ)充完整,以便后續(xù)結(jié)構(gòu)優(yōu)化模塊提供更為準(zhǔn)確的用戶(hù)訪(fǎng)問(wèn)記錄。很多的學(xué)者對(duì)Web數(shù)據(jù)的預(yù)處理做了相應(yīng)的研究,如文獻(xiàn)[7]設(shè)計(jì)了用戶(hù)識(shí)別、訪(fǎng)問(wèn)操作識(shí)別和路徑完善三個(gè)步驟的關(guān)鍵算法。
模式發(fā)現(xiàn)階段包括序列模式挖掘、關(guān)聯(lián)規(guī)則挖掘技術(shù)和聚類(lèi)分類(lèi)分析三部分,這三部分都是數(shù)據(jù)挖掘領(lǐng)域的研究熱點(diǎn)。
序列模式挖掘是指挖掘相對(duì)于時(shí)間或其他模式出現(xiàn)頻率高的模式。該技術(shù)被廣泛地應(yīng)用于各種序列數(shù)據(jù)集中,如以單詞作為文檔序列,研究在不同文檔中單詞序列的出現(xiàn)概率;網(wǎng)站點(diǎn)擊流數(shù)據(jù),用于挖掘用戶(hù)的頻繁點(diǎn)擊模式等。
在網(wǎng)站結(jié)構(gòu)優(yōu)化中,關(guān)聯(lián)規(guī)則主要用于發(fā)現(xiàn)用戶(hù)之間、頁(yè)面之間以及用戶(hù)瀏覽頁(yè)面和網(wǎng)上行為之間存在的潛在關(guān)系,即挖掘出用戶(hù)在一個(gè)訪(fǎng)問(wèn)期間(Session)從服務(wù)器上訪(fǎng)問(wèn)的頁(yè)面或文件之間的聯(lián)系。
聚類(lèi)是將數(shù)據(jù)分類(lèi)到不同的類(lèi)或者簇這樣的一個(gè)過(guò)程,所以同一個(gè)簇中的對(duì)象有很大的相似性,而不同簇間的對(duì)象有很大的相異性,而分類(lèi)也能起到相似的作用。
模式分析是從一批數(shù)據(jù)中尋找普遍關(guān)系的過(guò)程。它逐漸成為許多學(xué)科的核心,從神經(jīng)網(wǎng)絡(luò)到所謂句法模式識(shí)別,從統(tǒng)計(jì)模式識(shí)別到機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘,模式分析的應(yīng)用覆蓋了從生物信息學(xué)到文檔檢索的廣泛領(lǐng)域。我們這里所指的模式分析階段是指網(wǎng)站結(jié)構(gòu)優(yōu)化過(guò)程中的最后一個(gè)重要步驟包括序列模式分析和頻繁訪(fǎng)問(wèn)模式分析兩部分。
最常見(jiàn)的模式分析形式是像SQL那樣的知識(shí)查詢(xún)機(jī)制,另一種方法是把Web使用數(shù)據(jù)裝入數(shù)據(jù)倉(cāng)庫(kù),以便執(zhí)行OLAP 操作[8]。
梳理相關(guān)文獻(xiàn),不少學(xué)者和文獻(xiàn)都從本系統(tǒng)中的某一階段提出了相應(yīng)的優(yōu)化算法,有統(tǒng)計(jì)分析、人工神經(jīng)算法、關(guān)聯(lián)規(guī)則、決策規(guī)則、貝葉斯分類(lèi)、最近鄰分類(lèi)、聚類(lèi)分析、模糊集合、模糊邏輯、趨勢(shì)分析,轉(zhuǎn)折點(diǎn)檢測(cè)等,這些算法不外乎在我們?cè)O(shè)計(jì)的系統(tǒng)里面,覆蓋了每一個(gè)階段的內(nèi)容,其最終目的是尋找頻繁序列,即用戶(hù)點(diǎn)擊流產(chǎn)生的頻繁路徑,在削減算法的時(shí)空占用基礎(chǔ)上做到高效的數(shù)據(jù)挖掘。
文獻(xiàn)[9]利用云計(jì)算的分布式處理和虛擬化技術(shù)的優(yōu)勢(shì),設(shè)計(jì)一種基于云計(jì)算的Hadoop 集群框架的Web 日志分析平臺(tái),提出一種能夠在云計(jì)算環(huán)境中進(jìn)行分布式處理的混合算法。
文獻(xiàn)[10]提出一種基于待挖掘站點(diǎn)首頁(yè)的用戶(hù)會(huì)話(huà)識(shí)別方法。該方法根據(jù)用戶(hù)瀏覽站點(diǎn)的習(xí)慣,以站點(diǎn)首頁(yè)作為用戶(hù)新會(huì)話(huà)開(kāi)始標(biāo)識(shí),并增強(qiáng)了用戶(hù)會(huì)話(huà)的定義。
網(wǎng)站結(jié)構(gòu)優(yōu)化作為當(dāng)前一個(gè)非常重要的研究和應(yīng)用領(lǐng)域,產(chǎn)生了許多非常有價(jià)值的研究成果。未來(lái)的研究方向是如何提高每一階段算法的時(shí)間和空間效率,降低運(yùn)算的成本。本文論述了網(wǎng)站結(jié)構(gòu)優(yōu)化模型及特點(diǎn),目前完成了相應(yīng)的理論研究,我們接下來(lái)的工作就是針對(duì)每一個(gè)階段,對(duì)比前人的研究成果,設(shè)計(jì)出更為有效的算法。這對(duì)于開(kāi)發(fā)一些目的性強(qiáng)的網(wǎng)站具有較大幫助(如電子商務(wù)網(wǎng)站),可以提高web用戶(hù)的服務(wù)質(zhì)量,使用戶(hù)享用到滿(mǎn)意的個(gè)性化服務(wù)。
[1]N akayama T, Kato H, Yamane Y.Discovering the gap between Web site designers’expectations and users’behavior[J].Computer Networks, 2000, 33: 823-835.
[2]Garofalakis J, Kappos P, Mourloukos M.Web site optimization using page popularity [J].IEEE Internet Computing, 1999:22-29.
[3]Wang YW, Wang DW, Design strategy of web page for e-supermarket, Jiang Pingyu et.al, 2001 International Conference on eCommerce Engineering 2001.Xi’an: China Machine Press,2001.
[4]Kim J, Yoo B.Toward the optimal link structure of the cyber shopping mall [J].Int J.Human-Computer Studies,2000, 52: 531-551.
[5]李煜, 陸建德.通用網(wǎng)上商店自動(dòng)數(shù)據(jù)采集引擎的設(shè)計(jì)[J].計(jì)算機(jī)應(yīng)用研究,2001(11):100-103.
[6]李鵬,喬曉東,韓烽,王繼田,梁健,張寅生.基于用戶(hù)瀏覽行為的數(shù)據(jù)采集及應(yīng)用[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2008(11):56-59.
[7]何波,涂飛,程勇軍.Web 日志挖掘數(shù)據(jù)預(yù)處理研究[J].微電子學(xué)與計(jì)算機(jī),2011,28(4):111-114.
[8]陳恩紅,徐涌,王煦法.Web使用挖掘:從Web數(shù)據(jù)中發(fā)現(xiàn)用戶(hù)使用模式[J].計(jì)算機(jī)科學(xué),2001,28(5):85-88.
[9]程苗,陳華平.基于Hadoop的Web日志挖掘[J].計(jì)算機(jī)工程,2011,37(11):37-38.
[10]周愛(ài)武,程博,李孫長(zhǎng),夏松.Web日志挖掘中的會(huì)話(huà)識(shí)別方法[J].計(jì)算機(jī)工程與設(shè)計(jì),2010,31(5):936-938.