[摘要] 本文概述了Web結(jié)構(gòu)挖掘技術(shù)并描述了其常見算法。針對Web結(jié)構(gòu)挖掘算法,提出了提高網(wǎng)站結(jié)構(gòu)合理性的對策。使用戶通過優(yōu)化網(wǎng)站結(jié)構(gòu)來獲取更多有效客戶,擴大網(wǎng)站影響力,從而提升網(wǎng)站價值。
[關(guān)鍵詞] Web結(jié)構(gòu)挖掘 網(wǎng)站結(jié)構(gòu) 超鏈接 PageRank HITS
一、前言
網(wǎng)站的推廣對電子商務(wù)網(wǎng)站而言尤為重要。網(wǎng)站在常用搜索引擎上的排名會直接影響到網(wǎng)站的推廣和網(wǎng)站的運營效果。因網(wǎng)站的結(jié)構(gòu)不同,即使內(nèi)容相同,外觀相同的網(wǎng)站,在常用搜索引擎中的排名也會不同。網(wǎng)站結(jié)構(gòu)是否合理會影響到搜索引擎在網(wǎng)站頁面上抓取的結(jié)果,從而影響到網(wǎng)站的排名。在實際應(yīng)用中,常使用PR(Page Rank)值來判斷網(wǎng)站結(jié)構(gòu)是否合理, PR值越高說明網(wǎng)站結(jié)構(gòu)越合理,搜索引擎就會收錄該網(wǎng)站更多的頁面,為網(wǎng)站帶來更多的流量。因此,提高網(wǎng)站結(jié)構(gòu)的合理性,獲取更高的PR值就顯得尤為重要。只有用網(wǎng)站結(jié)構(gòu)優(yōu)化的理念去設(shè)計網(wǎng)站,才有可能設(shè)計一個成功的網(wǎng)站?;赪eb的數(shù)據(jù)挖掘技術(shù)中的Web結(jié)構(gòu)挖掘( Web Structure Mining)則是判斷網(wǎng)站結(jié)構(gòu)是否合理的一個有效方法。使用Web結(jié)構(gòu)挖掘方法可以提高網(wǎng)站結(jié)構(gòu)的合理性,增加網(wǎng)站的PR值,擴大網(wǎng)站的流量。
二、Web結(jié)構(gòu)挖掘的概念
基于Web的數(shù)據(jù)挖掘是指使用數(shù)據(jù)挖掘技術(shù)在Web數(shù)據(jù)中發(fā)現(xiàn)潛在的、有用的模式或信息?;赪eb的數(shù)據(jù)挖掘一般可以分為三類:Web內(nèi)容挖掘(Web Content Mining)、 Web結(jié)構(gòu)挖掘( Web Structure Mining)及 Web 用法挖掘(Web Usage Mining)。其中Web 結(jié)構(gòu)挖掘是對Web 的鏈接結(jié)構(gòu)進行分析, 以對超鏈接分析來評估Web 資源, 從而發(fā)現(xiàn)有用模式, 提高搜索質(zhì)量及提高網(wǎng)站被抓取的可能性。Web結(jié)構(gòu)包括不同網(wǎng)頁之間的超鏈接結(jié)構(gòu)和網(wǎng)頁內(nèi)部用HTML,XML表示的樹形結(jié)構(gòu),以及文檔URL中的目錄路徑結(jié)構(gòu)等。Web頁面之間的鏈接結(jié)構(gòu)中包含了許多有用的信息,Web結(jié)構(gòu)挖掘是從Web結(jié)構(gòu)中推導知識,即對Web文檔的結(jié)構(gòu)進行挖掘,挖掘Web潛在的鏈接結(jié)構(gòu)模式,通過分析網(wǎng)頁間鏈接數(shù)量及對象來建立網(wǎng)站自身的鏈接結(jié)構(gòu)模式。
Web結(jié)構(gòu)挖掘的基本思想是將Web看成是一個巨大的以Web頁面為節(jié)點、頁面之間超鏈接為有向邊所構(gòu)成的一個網(wǎng)狀結(jié)構(gòu)的有向圖,然后利用圖論對Web的拓撲結(jié)構(gòu)進行分析,從而確定其網(wǎng)站結(jié)構(gòu)的合理性。
Web結(jié)構(gòu)挖掘的算法一般可分為查詢相關(guān)算法和查詢無關(guān)算法兩類。HITS( Hypertext Induced Topic Search)和PageRank分別是查詢相關(guān)算法和查詢無關(guān)算法的代表。這些算法已經(jīng)在實際的系統(tǒng)中實現(xiàn)和使用,并且取得了良好的效果。
三、Web結(jié)構(gòu)挖掘算法描述
基于超鏈接分析的思想,Sergey Brin和Lawrence Page在1998年提出了PageRank算法,同年J. Kleinberg提出了HITS算法,其他一些學者也相繼提出了另外的鏈接分析算法,如SALSA,PHITS,Bayesian等算法。對超鏈接進行挖掘的兩個典型的算法是:PageRank算法及HITS算法。
1.PageRank算法
PageRank算法是Web超鏈接結(jié)構(gòu)分析中最成功的代表之一,該算法是評價網(wǎng)頁權(quán)威性的一種重要工具。Google、Yahoo、Baidu等都是基于該算法的搜索引擎。PageRank算法基于2個前提,一是若網(wǎng)頁A被多次引用,則A重要;若 A被重要網(wǎng)頁B引用,則A重要;B的重要性被平均的傳遞到它所引用的網(wǎng)頁。二是若用戶訪問網(wǎng)頁A,然后跟隨A的導出鏈接向后瀏覽網(wǎng)頁B而不退回A,那么瀏覽B的概率就是B的PageRank值。
PageRank在具體實現(xiàn)時會忽略掉頁面的文本和其他內(nèi)容,只考慮頁面間的超鏈接。但由于網(wǎng)頁的鏈接范圍領(lǐng)域很廣,鏈接的頁面價值參差不齊,所以僅以簡單的鏈接數(shù)量來判斷網(wǎng)頁的重要性是不真實客觀的,所以其他研究者對PageRank算法提出了改進。改進的PageRank算法不僅考慮了網(wǎng)頁引用數(shù)量,還根據(jù)頁面的導入鏈接的權(quán)重來計算頁面的重要性。頁面導入鏈接的權(quán)重由鏈接提供頁面的重要性所決定,即當前頁面的重要性主要由其他頁面的重要性來決定,PageRank算法就是從鏈接結(jié)構(gòu)中獲取網(wǎng)頁的重要性。
簡單PageRank算法描述如下:
PR(A) = (1-d) / N + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))
其中:PR(A):頁面A的PR值,
PR(Ti):頁面Ti的PR值,頁面Ti鏈向頁面A
C(Ti):頁面Ti鏈出的鏈接數(shù)量
d:阻尼系數(shù),取值在0-1之間
N:互聯(lián)網(wǎng)上所有網(wǎng)頁的數(shù)量
由此可見,PageRank算法不以站點排序,頁面PR值由獨立的頁面決定。頁面的PR值由鏈向它的頁面的PR值決定,但每個鏈入頁面的貢獻值是不同的。如果Ti頁面中鏈出越多,它對當前頁面A的貢獻就越小。A的鏈入頁面越多,其PR值也越高。阻尼系數(shù)的使用,減少了其他頁面對當前頁面A的排序貢獻。所有頁面的PR值形成了一個概率分布,所有頁面的PR值之和為1。
簡單PageRank算法也可以用矩陣來描述,設(shè)T為一個矩陣,T的行和列對應(yīng)頁面集的頁面。PageRank的算法是將T的行和列互換后得到的矩陣A。為了將各列矢量的總和變成1(全概率),把各個列矢量除以各自的鏈接數(shù)(非零要素數(shù)), 即如果網(wǎng)頁i有指向網(wǎng)頁j的一個鏈接,則Aij=1/Ni,否則Aij=0,就形成了一個 “推移概率行列”,各個行矢量表示頁面間的推移概率。由T倒置得到A的理由是,PageRank 并非重視“鏈接到多少地方”而是重視“被多少地方鏈接”。PR值的計算,就是求屬于這個推移概率行列最大特性值的固有矢量。
2.HITS算法
HITS算法綜合權(quán)衡了查詢內(nèi)容與頁面鏈接的關(guān)系。HITS算法認為網(wǎng)頁的重要性依賴于用戶提出的查詢請求。HITS算法通過兩個評價權(quán)值——內(nèi)容權(quán)威度(Authority)和鏈接權(quán)威度(Hub)來對網(wǎng)頁質(zhì)量進行評估。內(nèi)容權(quán)威度與網(wǎng)頁自身直接提供內(nèi)容信息的質(zhì)量相關(guān),被越多網(wǎng)頁所引用的網(wǎng)頁,其內(nèi)容權(quán)威度越高;鏈接權(quán)威度與網(wǎng)頁提供的超鏈接頁面的質(zhì)量相關(guān),引用越多高質(zhì)量頁面的網(wǎng)頁,其鏈接權(quán)威度越高。HITS算法認為對每一個網(wǎng)頁應(yīng)該將其內(nèi)容權(quán)威度和鏈接權(quán)威度分開來考慮,在對網(wǎng)頁內(nèi)容權(quán)威度做出評價的基礎(chǔ)上再對頁面的鏈接權(quán)威度進行評價,然后給出該頁面的綜合評價。
HITS算法是一個“迭代—收斂”的過程,在獲取了一個與查詢主題相關(guān)的返回頁面根集合(Root Set)S后,根據(jù)S中的頁面的鏈接關(guān)系再向集合S中擴充與S中頁面相鏈接的頁面, 將S擴展成一個更大的基礎(chǔ)集合(Base Set)T。可將T看作一個二分有向圖SG=(V1,V2,E),其中:頂點集Vl:T中的Hub網(wǎng)頁集;頂點集V2:T中的Authority網(wǎng)頁集;邊集E: Vl中的網(wǎng)頁到V2中的網(wǎng)頁的超鏈接。對V1中的任一個頂點v,用h(v)表示網(wǎng)頁v的Hub值,對V2中的頂點u,用a(u)表示網(wǎng)頁的Authority值。開始時h(v)=a(u)=1,對u執(zhí)行I操作修改它的a(u),對v執(zhí)行O操作修改它的h(v),然后規(guī)范化a(u),h(v),如此不斷的重復(fù)計算下面的操作I,O,直到a(u),h(v)收斂。
I 操作:(1)
O操作:(2)
每次迭代后需要對a(u),h(v)進行規(guī)范化處理:
式(1)反映了若一個網(wǎng)頁由很多好的Hub指向,則其權(quán)威值會相應(yīng)增加(即權(quán)威值增加為所有指向它的網(wǎng)頁的現(xiàn)有Hub值之和)。式(2)反映了若一個網(wǎng)頁指向許多好的權(quán)威頁,則Hub值也會相應(yīng)增加(即Hub值增加為該網(wǎng)頁鏈接的所有網(wǎng)頁的權(quán)威值之和)。HITS算法輸出一組具有較大Hub值的網(wǎng)頁和具有較大權(quán)威值的網(wǎng)頁。
HITS算法存在的主要問題:
(1)實際應(yīng)用中,由S生成T的時間開銷很昂貴;
(2)站點內(nèi)部網(wǎng)頁在權(quán)威度數(shù)值上可相互加強;
(3)網(wǎng)頁中一些無關(guān)的鏈接影響A,H值的計算;
(4)存在與查詢主題無關(guān)的網(wǎng)頁即主題漂移現(xiàn)象。
四、應(yīng)用WEB結(jié)構(gòu)挖掘算法提高網(wǎng)站價值
將WEB結(jié)構(gòu)挖掘算法應(yīng)用到自身網(wǎng)站的結(jié)構(gòu)優(yōu)化中來,對提高網(wǎng)站的價值有著重要意義。網(wǎng)站結(jié)構(gòu)優(yōu)化包括兩個方面,物理結(jié)構(gòu)的優(yōu)化與邏輯結(jié)構(gòu)的優(yōu)化。Web結(jié)構(gòu)挖掘所有算法都將網(wǎng)頁中的鏈接(邏輯結(jié)構(gòu))作為主要挖掘的對象,特別在實際應(yīng)用中,大多數(shù)用戶都是使用基于PageRank算法的Google、Yahoo和Baidu等搜索引擎。但網(wǎng)站物理結(jié)構(gòu)的合理性也是影響網(wǎng)站價值的一個重要因素。因此采取以下幾種策略,將有助于用戶將網(wǎng)站定位到相關(guān)主題的權(quán)威站點,從而獲得更高的PR值,以提高電子商務(wù)網(wǎng)站在搜索引擎的排名,提高檢索結(jié)果的質(zhì)量,提高網(wǎng)站的訪問率, 提升網(wǎng)站的檔次。
1.網(wǎng)站物理結(jié)構(gòu)優(yōu)化
網(wǎng)站物理結(jié)構(gòu)是指網(wǎng)站真實的目錄及文件所存儲的位置所決定的結(jié)構(gòu)。網(wǎng)站物理結(jié)構(gòu)優(yōu)化不但關(guān)系到網(wǎng)站的易用性,還會影響到網(wǎng)站在搜索引擎上的排名。合理的網(wǎng)站物理結(jié)構(gòu)可以讓Google等搜索引擎輕松搜索到你網(wǎng)站的大多內(nèi)容,收錄你大量的頁面,更多的關(guān)注你這個網(wǎng)站。雖然合理的鏈接可以取得一個比較理想的PR值,但由于Web結(jié)構(gòu)挖掘過程是由機器搜索引擎蜘蛛(Spider)自動完成,因此就需要構(gòu)建一個搜索引擎蜘蛛友好的網(wǎng)站物理結(jié)構(gòu)。
要合理安排網(wǎng)站文件目錄結(jié)構(gòu),使目錄結(jié)構(gòu)扁平,有序。網(wǎng)站的目錄結(jié)構(gòu)最好不要超過3層,因為每深一級目錄,PageRank降低1-2個分值。重要內(nèi)容放在頂級目錄。目錄文件夾命名應(yīng)含關(guān)鍵詞,網(wǎng)頁文件名也應(yīng)含關(guān)鍵詞。文件名是詞組時應(yīng)用短橫線而不要用下劃線隔開。使用英文而不是拼音字母來命名文件及目錄。如果目錄超過三層,就應(yīng)使用子域名來調(diào)整和簡化目錄結(jié)構(gòu)層數(shù)。
2.網(wǎng)站邏輯結(jié)構(gòu)優(yōu)化
網(wǎng)站的邏輯結(jié)構(gòu)(鏈接結(jié)構(gòu))是由網(wǎng)頁間鏈接所形成的邏輯的或鏈接的一個網(wǎng)狀結(jié)構(gòu)。一般來說網(wǎng)頁被一些“重量級”的網(wǎng)站鏈接的次數(shù)越多,PageRank的值就會越高;同樣,網(wǎng)頁的鏈接指向越多,PageRank的值也會很高。搜索引擎在決定一個網(wǎng)站的排名時,不僅要對網(wǎng)頁內(nèi)容和結(jié)構(gòu)進行分析,還圍繞網(wǎng)站的鏈接展開分析,并給出相應(yīng)的PR值。常用鏈接策略有:
(1)盡可能多地讓其他跟本站主題相關(guān)或互補的網(wǎng)站鏈接本站。
(2)同PR值更高的網(wǎng)站進行相互鏈接。
(3)在流量大、知名度高、頻繁更新的重要網(wǎng)站上出現(xiàn)本站鏈接。
(4)與內(nèi)容質(zhì)量高、PR值上升潛力大的網(wǎng)站鏈接。
(5)與以本站關(guān)鍵詞在搜索結(jié)果中排名前三頁的網(wǎng)站進行鏈接,有了這些網(wǎng)站鏈接,即使不向搜索引擎提交網(wǎng)站,搜索引擎也自然找到并給予好的排名。
(6)網(wǎng)站提供與主題相關(guān)的導出鏈接,尤其是被鏈接網(wǎng)站名稱(或者欄目名稱、文章摘要和標題等)中含有重要關(guān)鍵詞時,會豐富自己網(wǎng)站的關(guān)鍵詞并會被搜索引擎認為有豐富的與主題相關(guān)的內(nèi)容,也有利于排名。
(7)要確保網(wǎng)站內(nèi)沒有死鏈接,并保持網(wǎng)頁內(nèi)容或鏈接的穩(wěn)定性和持久性。
(8)站內(nèi)頁面鏈接可以為網(wǎng)頁創(chuàng)造盡可能多被收錄的機會。一個網(wǎng)站被收錄的網(wǎng)頁數(shù)量增加,即使網(wǎng)站首頁的PR值不高,也增加了網(wǎng)站總體的搜索引擎可見性。
網(wǎng)站地圖是所有頁面的快速入口,是搜索引擎更全面索引收錄網(wǎng)站的重要因素。它可以方便搜索引擎蜘蛛快速遍歷網(wǎng)站所有需要發(fā)布的內(nèi)容。網(wǎng)站地圖的三大因素:文本、鏈接、 關(guān)鍵詞,都極有利于搜索引擎抓取主要頁面內(nèi)容。動態(tài)生成目錄的網(wǎng)站尤其需要創(chuàng)建網(wǎng)站地圖。網(wǎng)站地圖的導航能力會使訪問者更容易找到所需的東西,且有利于搜索引擎收錄更多的頁面以及在搜索引擎中得到更高的PR值。將網(wǎng)站地圖生成為XML格式文件并存放在網(wǎng)站根目錄中,并向搜索引擎提交,將有助于搜索引擎蜘蛛更快地遍歷網(wǎng)站。
3.頁面代碼優(yōu)化
精簡代碼,減少頁面的體積,不但使得網(wǎng)頁可以得到更快的下載,而且還影響到搜索引擎對該頁面的收錄及直接影響網(wǎng)站排名。搜索引擎傾向于在頁面文件開始處查找本頁的關(guān)鍵性內(nèi)容,而不是文件的正文。因此要做到代碼和頁面分離,把javascript文件和css文件分別存放在js和css外部文件中,把重要的頁面內(nèi)容放到頁面頂部,以縮小文件體積,提高有效內(nèi)容占頁面體積的百分比,從而提高關(guān)鍵詞在頁面中的比重,以利于搜索引擎快速準確地抓取。另外格式化標簽也盡量少用。頁面布局應(yīng)采用DIV+CSS模式并減少表格嵌套, 盡量不要使用很難被搜索引擎收錄的IFRAME或Frame框架及對搜索引擎蜘蛛不友好的Flush動畫等,并保持頁面簡潔,以利于搜索引擎的收錄。
五、結(jié)語
目前各大搜索引擎都采用了Web結(jié)構(gòu)挖掘技術(shù)中的PageRank算法,為了提升自身網(wǎng)站在各大搜索引擎中的排名,用戶應(yīng)使用Web結(jié)構(gòu)挖掘技術(shù)來對自身網(wǎng)站進行評估,發(fā)現(xiàn)自身網(wǎng)站結(jié)構(gòu)的不足,并對優(yōu)化網(wǎng)站結(jié)構(gòu)提供決策依據(jù)。通過采取有效措施,提高自身網(wǎng)站結(jié)構(gòu)的合理性,從而提高網(wǎng)站在搜索引擎中的排名,以達到為網(wǎng)站帶來更大流量,發(fā)掘更多有效用戶的目的。隨著電子商務(wù)迅猛地發(fā)展,企業(yè)更應(yīng)該重視并采用這種被挖掘的技術(shù),以提高自身網(wǎng)站的價值。
參考文獻:
[1]何曉陽吳強吳治蓉:HITS算法與PageRank算法比較分析,情報雜志2004年第2期
[2]王曉宇周傲:萬維網(wǎng)的鏈接結(jié)構(gòu)分析及其應(yīng)用綜述,軟件學報
[3]曹軍:Google的PageRank技術(shù)剖析,情報雜志2002年第10期
[4]劉麗珍等:網(wǎng)絡(luò)結(jié)構(gòu)挖掘的關(guān)鍵分析.計算機應(yīng)用研究,2003(5) 116-118
[5]陳定權(quán):Web結(jié)構(gòu)挖掘研究.情報理論與實踐 ,2003(1) 59-61
[6]Sergey Brin,Lawrence Page,Google的技術(shù)剖析,http://www.51web.biz