• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    融合鏈接結(jié)構(gòu)的主題爬蟲算法

    2017-04-07 08:03:56劉韶濤李洪勝

    劉韶濤, 李洪勝

    (華僑大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 福建 廈門 361021)

    融合鏈接結(jié)構(gòu)的主題爬蟲算法

    劉韶濤, 李洪勝

    (華僑大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 福建 廈門 361021)

    通過分析基于內(nèi)容的鏈接選擇Best-First算法,引入能夠體現(xiàn)鏈接價(jià)值的HITS(hyperlink induced topic search)算法,提出了新的鏈接選擇策略.將兩種算法相結(jié)合,新的爬蟲不僅僅考慮頁(yè)面內(nèi)容,同時(shí)將鏈接結(jié)構(gòu)加入進(jìn)來,使得在下載的過程中能夠保證主題相關(guān)性和權(quán)威性,緩解爬蟲在爬行階段的“近視”現(xiàn)象.結(jié)果表明:新的爬行策略比單一的Best-First算法具有更好的性能表現(xiàn). 關(guān)鍵詞: Best-First算法; 鏈接結(jié)構(gòu); HITS算法; 爬行策略

    隨著互聯(lián)網(wǎng)的迅猛發(fā)展,網(wǎng)絡(luò)上的信息量也呈指數(shù)型增長(zhǎng),如何從數(shù)量巨大的網(wǎng)絡(luò)資源中獲取自己想要的信息一直是研究的熱點(diǎn).與此同時(shí),針對(duì)特定領(lǐng)域而制定的垂直搜索引擎應(yīng)運(yùn)而生.該搜索引擎具有領(lǐng)域特性,其特點(diǎn)是專,精,檢索范圍小,并且精度高,往往能給用戶帶來更好的體驗(yàn)[1].垂直搜索引擎通過分布在網(wǎng)絡(luò)上的主題爬蟲,下載用戶所要獲取的網(wǎng)頁(yè),與一般搜索引擎所使用的爬蟲不同[2],主題爬蟲能夠根據(jù)預(yù)先定義的領(lǐng)域主題.只爬取與主題相關(guān)的頁(yè)面,而忽略不相關(guān)的鏈接.目前使用比較廣泛的爬行策略算法大都是基于網(wǎng)頁(yè)內(nèi)容的,即通過頁(yè)面內(nèi)容或者鏈接的錨文本與主題的相似度決定所要爬取鏈接的優(yōu)先級(jí).用戶希望所下載的頁(yè)面不僅僅只是主題相關(guān),還應(yīng)該是在領(lǐng)域內(nèi)比較權(quán)威的,并能夠被其他網(wǎng)頁(yè)所認(rèn)可的,優(yōu)秀的爬蟲應(yīng)該具有持續(xù)發(fā)現(xiàn)更多相關(guān)頁(yè)面的能力.因此,本文基于內(nèi)容爬行Best-First算法的基礎(chǔ)上,融合一種能體現(xiàn)鏈接價(jià)值的HITS算法,提出一種新的爬行策略.

    1 主題爬行策略與問題分析

    1.1 主題爬行策略

    主題爬蟲根據(jù)不同的爬行策略決定要下載的鏈接[3].目前,主題爬蟲的爬行策略形式多樣,而絕大部分都是基于文本內(nèi)容的,其主要考慮以下3個(gè)要素:網(wǎng)頁(yè)正文,鏈接錨文本,以及錨文本上下文.分別計(jì)算這3部分與主題關(guān)鍵詞的相似度,決定待下載鏈接的下載權(quán)重.

    Best-First[4]算法是Cho提出的一種啟發(fā)式算法,以簡(jiǎn)潔高效的特點(diǎn)而著稱.它的主要思想是設(shè)置兩個(gè)隊(duì)列,一個(gè)為權(quán)重URL隊(duì)列,一個(gè)為已訪問URL隊(duì)列.每一個(gè)提取出的URL通過鏈接選擇策略,計(jì)算出一個(gè)得分,將其放入權(quán)重隊(duì)列,然后,每次從中選擇得分最高的一個(gè)下載.鏈接得分的計(jì)算目前有以下3種方法[5].

    1) 同一個(gè)頁(yè)面中的鏈接具有相同的權(quán)重分.

    2) 鏈接權(quán)重通過自身錨文本與主題的相似度計(jì)算得出,在這種情況下,同一個(gè)頁(yè)面中的鏈接可能會(huì)有不同的下載權(quán)重.

    3) 結(jié)合第1),2)策略,頁(yè)面P中第i個(gè)鏈接的權(quán)重等于頁(yè)面P自身的相似度得分加上鏈接自身錨文本的相似度得分,即

    (1)

    Best-First算法基于如下原理:如果一個(gè)頁(yè)面是主題相關(guān)的,那么,這個(gè)頁(yè)面指向相關(guān)頁(yè)面的可能性就比較大.除此之外,鏈接錨文本被看作是鏈接所指向頁(yè)面的一個(gè)總結(jié)與概括,而錨文本又不總是可以概括所指向的頁(yè)面內(nèi)容,因此,采用第3種頁(yè)面和錨文本相結(jié)合的方式效果最好.

    1.2 問題分析

    由于基于Best-First算法的爬蟲在爬行的過程中,所采用的爬行策略是單純基于文本內(nèi)容的,即對(duì)于候選鏈接的選擇主要考慮頁(yè)面內(nèi)容,以及鏈接的錨文本,這就使得爬蟲所爬取的鏈接雖然是主題相關(guān)的,但是不能確定這個(gè)頁(yè)面在所屬的領(lǐng)域是不是權(quán)威的,即能不能被其他相關(guān)頁(yè)面所認(rèn)可,缺乏鏈接價(jià)值方面的考慮.

    此外,由于網(wǎng)絡(luò)的結(jié)構(gòu)特性,相同主題的頁(yè)面往往聚集在一起,形成一個(gè)個(gè)主題團(tuán).爬蟲在爬行過程中,由于每次選擇得分最高的一個(gè)鏈接下載,導(dǎo)致在爬行的某些階段,爬蟲會(huì)出現(xiàn)局部最優(yōu)的問題[6].經(jīng)過分析發(fā)現(xiàn),爬蟲在碰到一些中心頁(yè)面時(shí),陷入了以中心頁(yè)面為中心的主題團(tuán),導(dǎo)致產(chǎn)生了“近視”現(xiàn)象[7],難以發(fā)現(xiàn)更多的相關(guān)頁(yè)面.

    因此,需要引入一個(gè)可以通過鏈接結(jié)構(gòu)體現(xiàn)鏈接價(jià)值的算法改善爬蟲的運(yùn)行.目前,PageRank算法[8]和HITS算法[9]是比較有代表性的兩個(gè)算法,主要是通過鏈接之間相互指向關(guān)系代表鏈接的重要性,它們是基于以下兩個(gè)假設(shè):

    1) 如果一個(gè)網(wǎng)頁(yè)被其他網(wǎng)頁(yè)指向,被指向得越多,說明這個(gè)網(wǎng)頁(yè)越權(quán)威(即有價(jià)值);

    2) 如果一個(gè)網(wǎng)頁(yè)和另外一個(gè)網(wǎng)頁(yè)有鏈接相連,說明這兩個(gè)網(wǎng)頁(yè)的主題是相似的.

    HITS算法與PageRank算法最大的不同在于:HITS算法是與主題相關(guān)的,即在某一個(gè)領(lǐng)域主題內(nèi)是有價(jià)值的,可以很好地體現(xiàn)網(wǎng)絡(luò)的結(jié)構(gòu)特性.

    2 HITS算法與爬行策略改進(jìn)

    2.1 HITS算法

    圖1 中心頁(yè)面和權(quán)威頁(yè)面Fig.1 Hub and authority pages

    HITS算法是由Kleinberg于1998年首先提出的,應(yīng)用于IBM研究中心的CLEVER工程組,用來權(quán)衡每一個(gè)頁(yè)面的重要性.它定義了兩個(gè)概念:權(quán)威值(Authority)和中心值(Hub).高權(quán)威值的權(quán)威頁(yè)面是指有很多入鏈的頁(yè)面,這些頁(yè)面在某一個(gè)主題或者領(lǐng)域中有很權(quán)威的內(nèi)容,其他網(wǎng)頁(yè)都很樂意去指向它;高中心值的中心頁(yè)面是指有很多出鏈的頁(yè)面,這些出鏈指向那些在某一主題領(lǐng)域擁有很大影響力的網(wǎng)頁(yè).通常來說,好的中心頁(yè)面會(huì)指向許多權(quán)威頁(yè)面,好的權(quán)威頁(yè)面會(huì)被許多中心頁(yè)面所指向[10],如圖1所示.

    HITS算法根據(jù)關(guān)鍵詞確定一網(wǎng)絡(luò)子圖G(V,E)(V為網(wǎng)絡(luò)子圖的節(jié)點(diǎn)集,E為邊集),然后,迭代計(jì)算每一個(gè)網(wǎng)頁(yè)的權(quán)威值和中心值,具體有如下4個(gè)流程.

    1) 使用領(lǐng)域主題關(guān)鍵詞在通用搜索引擎(如google,baidu)進(jìn)行查詢,提取K個(gè)鏈接作為root集.

    2) 使用鏈接分析擴(kuò)展root集,將鏈接的出鏈以及不多于d(d=50)個(gè)的入鏈加入到root集中,擴(kuò)展后的root集稱為base集.

    3) base集中的每個(gè)頁(yè)面都有兩個(gè)屬性ai,hi,它們分別代表頁(yè)面i的權(quán)威值和中心值.若G有n個(gè)節(jié)點(diǎn),設(shè)a,h為n維向量,并初始化a,h,a0=1,h0=1.然后,進(jìn)行I,O操作.即

    I操作為

    O操作為

    4) 權(quán)威值和中心值的計(jì)算式分別為

    頁(yè)面的價(jià)值可以通過計(jì)算出的權(quán)威值和中心值很好地體現(xiàn),并藉此進(jìn)行規(guī)范化.同時(shí),由于HITS算法的主題相關(guān)特性,使權(quán)威頁(yè)面和中心頁(yè)面同時(shí)在領(lǐng)域主題內(nèi)是主題相關(guān)的.正是由于這一特性,可以用來指導(dǎo)爬蟲的運(yùn)行.

    2.2 改進(jìn)的爬行策略

    傳統(tǒng)的主題爬蟲選擇候選鏈接主要是基于鏈接的以下兩個(gè)屬性:

    1) 鏈接所在頁(yè)面(即父頁(yè)面)的主題相似度;

    2) 鏈接自身錨文本的主題相似度,這是單純基于文本內(nèi)容的考量.

    如果從全局性出發(fā),通過鏈接結(jié)構(gòu)體現(xiàn)鏈接價(jià)值,每個(gè)鏈接還應(yīng)該有另外兩個(gè)屬性,也就是權(quán)威值和中心值.在鏈接權(quán)重得分的計(jì)算過程中,不僅需要考慮文本內(nèi)容,還要加入鏈接價(jià)值的考量.因此,網(wǎng)頁(yè)P(yáng)中第i個(gè)鏈接的權(quán)重得分應(yīng)該由以下兩部分組成:基于文本內(nèi)容的的權(quán)重得分和基于鏈接價(jià)值的權(quán)重得分.

    LinkScore(i)=LinkScoreText(P,i)+LinkScoreValue(i).

    為了實(shí)現(xiàn)在爬行過程中加入鏈接價(jià)值考量這一想法,提出了一種內(nèi)容與鏈接結(jié)構(gòu)相融合的主題爬蟲.通過將Best-First算法與HITS算法相結(jié)合,使得爬蟲除了考慮頁(yè)面文本內(nèi)容以外,還加入了鏈接的權(quán)威值和中心值.其中,文本內(nèi)容的考量通過父頁(yè)面與主題的相似度和鏈接錨文本與主題相似度體現(xiàn),鏈接價(jià)值通過HITS算法計(jì)算出的權(quán)威值和中心值體現(xiàn),新的鏈接分計(jì)算公式為

    LinkScore(Pi)=A×(SimPage_Content(P)+B×SimAnchor_Text(i))+

    (2)

    為了使新的算法能同時(shí)兼顧文本內(nèi)容和鏈接價(jià)值,對(duì)各個(gè)部分分別賦予不同的權(quán)重,其中參數(shù)A+B+C=1,用于控制父頁(yè)面、錨文本及HITS算法得分的比重,α和β用來控制權(quán)威值與中心值的權(quán)重,相對(duì)于α來說,β值設(shè)置的比較小,因?yàn)楦鶕?jù)HITS算法計(jì)算出來的權(quán)威值和中心值,會(huì)將網(wǎng)頁(yè)分為以下兩種類型:高權(quán)威值低中心值的權(quán)威頁(yè)面和低權(quán)威值高中心值的中心頁(yè)面.

    如果分別將它們用X,Y代替,那么,通過以上公式的計(jì)算,能夠保證X>Y,而這正是想要得到的結(jié)果.

    父頁(yè)面以及錨文本的得分是來源于父頁(yè)面、錨文本與主題的相似度[11].首先,將提取出來的文本內(nèi)容、錨文本進(jìn)行分詞、去停用詞處理;然后,映射到向量空間,使用訓(xùn)練好的TF-IDF主題模型計(jì)算每個(gè)詞的權(quán)重;最后,通過余弦相似度方法計(jì)算與主題的相似度,即

    (3)

    式(3)中:Text為文本內(nèi)容;t為主題表示;W1,k;W2,k分別為文本和主題中詞條k的權(quán)值.

    任何一個(gè)網(wǎng)頁(yè)正文都能用一個(gè)n維特征向量表示,因此,網(wǎng)頁(yè)與主題之間的相似度也就轉(zhuǎn)變成了向量間的距離計(jì)算.在計(jì)算過程中,將文本內(nèi)容和主題分別表示成向量,并賦予TF-IDF權(quán)重,然后,通過式(3)計(jì)算相似度.

    新算法描述如下:新算法通過維護(hù)3個(gè)隊(duì)列進(jìn)行爬行,分別為權(quán)重隊(duì)列、已下載隊(duì)列、錯(cuò)誤隊(duì)列,具體的實(shí)現(xiàn)由以下5個(gè)步驟組成.算法流程圖,如圖2所示.

    圖2 算法流程圖Fig.2 Process of algorithm

    步驟1 輸入.在主題爬蟲的開始階段,爬蟲需要接受一組種子鏈接作為爬蟲爬行過程的開始.人工篩選出關(guān)于“體育”、“財(cái)經(jīng)”主題的各9個(gè)鏈接作為種子鏈接,將這9個(gè)種子鏈接賦予權(quán)重1,放入權(quán)重隊(duì)列中;此外,這9個(gè)鏈接也將作為HITS算法的初始root集.

    步驟2 頁(yè)面下載.從權(quán)值隊(duì)列中根據(jù)式(2)提取得分最高的鏈接(在爬行初期,由于網(wǎng)頁(yè)數(shù)目較少,因此,使用式(1)計(jì)算得分),如果此鏈接在已下載隊(duì)列中,則結(jié)束當(dāng)前循環(huán);否則,對(duì)這個(gè)鏈接進(jìn)行下載,并將其放入已下載隊(duì)列中.然后,針對(duì)已下載的這個(gè)鏈接,提取出其中的網(wǎng)頁(yè)正文,并且對(duì)正文進(jìn)行分詞、去停用詞、去低頻詞處理.

    采用VSM(vector space model)向量空間模型將其轉(zhuǎn)化為空間向量,權(quán)值為TF-IDF權(quán)重(TF-IDF模型在爬行之前,通過主題相關(guān)的訓(xùn)練集可以得到),并通過式(3),計(jì)算此網(wǎng)頁(yè)與主題的相關(guān)度.如果相關(guān)度大于預(yù)先定義的閾值,那么,此網(wǎng)頁(yè)為主題相關(guān)頁(yè)面,并將此鏈接放入HITS算法節(jié)點(diǎn)集中,保存當(dāng)前網(wǎng)頁(yè).

    步驟3 鏈接處理.對(duì)于頁(yè)面相關(guān)度大于閾值的網(wǎng)頁(yè)(parent_page),提取其中的鏈接(child_page),根據(jù)鏈接自身錨文本計(jì)算與主題的相關(guān)度,得到錨文本的得分.將parent_page→child_page關(guān)系加入到HITS算法邊集中,然后,將child_page加入到節(jié)點(diǎn)集中.

    步驟4 權(quán)重分配.每當(dāng)頁(yè)面下載數(shù)為p的時(shí)候,進(jìn)行HITS算法的迭代計(jì)算,直到算法收斂(在爬行初期,此步可忽略).然后,根據(jù)式(2)計(jì)算出每個(gè)鏈接的最終得分,去除得分較低的鏈接,將其余的鏈接加入到權(quán)重隊(duì)列中.

    步驟5 擴(kuò)展. 重復(fù)步驟2~4,直到算法滿足停止的條件,即下載的頁(yè)面數(shù)達(dá)到最大值,或者權(quán)重隊(duì)列為空.

    3 實(shí)驗(yàn)部分

    3.1 實(shí)驗(yàn)準(zhǔn)備

    為檢驗(yàn)新算法的性能,設(shè)置3個(gè)實(shí)驗(yàn),分別基于Best-First算法、Best-NFirst算法及所設(shè)計(jì)的新算法.Best-NFirst算法是Best-First算法的改進(jìn)算法,其每次選擇得分最高的N個(gè)鏈接下載,意為改善Best-First算法的局部最優(yōu)現(xiàn)象.Best-First算法和Best-NFirst算法的爬蟲使用網(wǎng)頁(yè)內(nèi)容與鏈接錨文本得分決定權(quán)重隊(duì)列中鏈接下載的優(yōu)先級(jí).

    實(shí)驗(yàn)采用Python語言實(shí)現(xiàn),文本分詞時(shí),使用了Python編程領(lǐng)域中較為常用的jieba分詞系統(tǒng),jieba分詞支持3種分詞模式:精準(zhǔn)模式、全模式和搜索引擎模式,文中采用搜索引擎模式進(jìn)行分詞.硬件環(huán)境為:Intel 酷睿i3-2310 2.5 GHz主頻的CPU,4 GB內(nèi)存和500 GB硬盤.

    為檢驗(yàn)爬蟲的性能,設(shè)置爬蟲爬取5 000個(gè)網(wǎng)頁(yè)時(shí)自動(dòng)停止.在爬行開始之前,通過“搜狗實(shí)驗(yàn)室”提供的新聞分類語料庫(kù)對(duì)TF-IDF模型進(jìn)行訓(xùn)練,“搜狗實(shí)驗(yàn)室”提供的分類包含“教育”、“體育”、“娛樂”等10多個(gè)不同主題的訓(xùn)練文本.實(shí)驗(yàn)選擇對(duì)“體育”、“財(cái)經(jīng)”主題的網(wǎng)頁(yè)進(jìn)行搜集,因此在爬行的過程中,通過訓(xùn)練好的相應(yīng)的TF-IDF主題模型計(jì)算網(wǎng)頁(yè)正文內(nèi)容的相關(guān)度,如果相關(guān)度得分大于閾值,那么,認(rèn)為此網(wǎng)頁(yè)為主題相關(guān)頁(yè)面,閾值通過人工挑選的200個(gè)主題相關(guān)頁(yè)面的相似度得分確定,初始種子鏈接如表1所示.

    在性能評(píng)價(jià)方面,通過算法的查準(zhǔn)率、查全率以及算法的運(yùn)行時(shí)間綜合考量.查全率為爬取的主題相關(guān)頁(yè)面與所有相關(guān)頁(yè)面的比值,查準(zhǔn)率又稱為精確率,為所爬取得相關(guān)頁(yè)面與所有頁(yè)面的比值.

    表1 種子URL

    3.2 實(shí)驗(yàn)結(jié)果

    “體育”主題、“財(cái)經(jīng)”主題精確率對(duì)比圖,如圖3,4所示.圖3,4中:r為算法收獲率;n為下載網(wǎng)頁(yè)數(shù)目.由圖3,4可知:隨著n的增加,r變化;基于Best-First算法的爬蟲由于只是考慮了文本內(nèi)容信息,使得爬蟲過早的陷入了局部最優(yōu)的陷阱,導(dǎo)致在爬行的過程中收獲率下降得很快,難以發(fā)現(xiàn)更多的相關(guān)頁(yè)面,而Best-NFirst算法的爬蟲并沒有表現(xiàn)出預(yù)期的結(jié)果.可能是由于每次下載得分最高的N個(gè)鏈接,導(dǎo)致也將許多不相關(guān)頁(yè)面加入了進(jìn)來,影響了實(shí)驗(yàn)的結(jié)果.

    融合了HITS算法的新爬蟲由于加入了鏈接結(jié)構(gòu)使得爬蟲具有了全局特性,HITS算法是主題相關(guān)的,爬蟲在爬行過程中可以不斷的發(fā)現(xiàn)更多的相關(guān)頁(yè)面,取得了不錯(cuò)的效果.

    圖3 “體育”主題精確率對(duì)比圖 圖4 “財(cái)經(jīng)”主題精確率對(duì)比圖Fig.3 Comparing of precision Fig.4 Comparing of precision rate with sports theme rate with finance theme

    在查全率方面,由于爬蟲的爬行是一個(gè)動(dòng)態(tài)的過程,要想統(tǒng)計(jì)整個(gè)互聯(lián)網(wǎng)中所有的主題相關(guān)頁(yè)面幾乎是不可能完成的任務(wù),因此,挑選了一部分與主題相關(guān)網(wǎng)頁(yè)檢測(cè)爬蟲的查全率.經(jīng)過測(cè)試,Best-First算法的查全率為67%,Best-NFirst算法的查全率僅為69%,而融合了HITS算法的爬蟲的查全率為75%.這是由于HITS算法本身就是主題相關(guān)的,因此,對(duì)于相關(guān)網(wǎng)頁(yè)的判斷會(huì)更加準(zhǔn)確.算法運(yùn)行時(shí)間的對(duì)比,如表2所示.表2中:t為運(yùn)行時(shí)間.

    由表2可知:在運(yùn)行時(shí)間上,雖然新算法在收獲率上有較好的表現(xiàn),可是由于融合了HITS算法,導(dǎo)致爬蟲的運(yùn)行效率遠(yuǎn)遠(yuǎn)落后其他兩種算法,特別是隨著爬蟲的運(yùn)行,HITS算法的迭代會(huì)占用更多的時(shí)間,這也是以后需要改進(jìn)的方向.

    表2 算法運(yùn)行時(shí)間對(duì)比

    4 結(jié)束語

    基于內(nèi)容的主題爬蟲由于缺乏全局特性,使爬蟲在爬行過程中難以持續(xù)發(fā)現(xiàn)更多相關(guān)頁(yè)面問題,提出了一種新的爬蟲策略,引入鏈接全局特性的HITS算法,新的算法在爬蟲的收獲率上有較好的表現(xiàn).下一步將對(duì)新算法的時(shí)間復(fù)雜度做出優(yōu)化,使爬蟲具有更好的實(shí)用性.

    [1] 閔鈺麟,黃永峰.用戶定制主題聚焦爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與設(shè)計(jì),2015,36(1):17-21.

    [2] TAYLAN D,POYRAZ M,AKYOKUS S,etal.Intelligent focused crawler:learning which links to crawl[C]∥International Symposium on Innovations in Intelligent Systems and Applications.Madrid:IEEE Press,2011:504-508.

    [3] MENCZER F,PANT G,SRINIVASAN P,etal.Evaluating topic-driven web crawlers[C]∥Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.Queensland:ACM,2001:241-249.

    [4] RAWAT S,PATIL D R.Efficient focused crawling based on best first search[C]∥IEEE 3rd International of Advance Computing Conference.Ghaziabad:IEEE Press,2013:908-911.

    [5] BATSAKIS S,PETRAKIS E G M,MILIOS E.Improving the performance of focused web crawlers[J].Data and Knowledge Engineering,2009,68(10):1001-1013.

    [6] FILIPOWSKI K.Comparison of scheduling algorithms for domain specific web crawler[C]∥IEEE Conference Publications of Network Intelligence Conference.Nara:IEEE Press,2014:69-74.

    [7] 羅林波,陳綺,吳清秀.基于 Shark-Search 和 Hits 算法的主題爬蟲研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2010,20(11):76-79.

    [8] PAGE L,BRIN S,MOTWANI R,etal.The pagerank citation ranking: Bring order to the web[R].Washington D C:Computer Science,1998:66-73.

    [9] ZHENG Ling,BO Yang,ZHANG Ning.An improved link selection algorithm for vertical search engine[C]∥1st International Conference on Information Science and Engineering.Nanjing:IEEE Press,2009:778-781.

    [10] 林子皓.主題爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)技術(shù)與發(fā)展,2014,24(8):99-102.

    [11] DU Yajun,PEN Qiangqiang,GAO Zhaoqiong.A topic-specific crawling strategy based on semantics similarity[J].Data and Knowledge Engineering,2013,88(18):75-93.

    (責(zé)任編輯: 陳志賢 英文審校: 吳逢鐵)

    Topic Crawler Algorithm With Link Structure

    LIU Shaotao, LI Hongsheng

    (College of Computer Science and Technology, Huaqiao University, Xiamen 361021, China)

    By analyzing the content-based link selection Best-First algorithm, and introduce the HITS (hyperlink induced topic search) algorithm which can reflect the link value, a new kind of link selection strategy is proposed: Combination of two algorithms, new crawler not only consider the page content, but also the link structure, and can ensure topic relevance and authority in the process of downloading; at the same time, ease the “short-sighted” phenomenon in crawling stage. Experimental result shows the new crawling strategy has better performance than that of the single Best-First algorithm. Keywords: Best-First algorithm; link structure; HITS algorithm; crawling strategy

    10.11830/ISSN.1000-5013.201702012

    2015-06-24

    劉韶濤(1969-),男,副教授,主要從事軟件體系結(jié)構(gòu)與軟件復(fù)用的研究.E-mail:shaotaol@hqu.edu.cn.

    福建省科技廳科研基金資助項(xiàng)目(2011H6016)

    TP 311

    A

    1000-5013(2017)02-0195-06

    免费大片18禁| 亚洲精品自拍成人| 哪个播放器可以免费观看大片| 少妇的逼好多水| 99久久综合免费| 黄色视频在线播放观看不卡| 国产成人精品一,二区| 国产高清不卡午夜福利| 久久99蜜桃精品久久| 一级a做视频免费观看| 2021少妇久久久久久久久久久| 欧美亚洲日本最大视频资源| 国产成人一区二区在线| 丝袜人妻中文字幕| 久久热在线av| 性色av一级| 国产成人午夜福利电影在线观看| 精品酒店卫生间| 中文字幕另类日韩欧美亚洲嫩草| 成人毛片60女人毛片免费| 日韩中字成人| 中文字幕最新亚洲高清| 欧美丝袜亚洲另类| 免费在线观看完整版高清| 母亲3免费完整高清在线观看 | 成人毛片a级毛片在线播放| 女人精品久久久久毛片| 精品久久久精品久久久| 久久99热6这里只有精品| 婷婷成人精品国产| 午夜精品国产一区二区电影| 伊人久久国产一区二区| 在线观看免费视频网站a站| 高清视频免费观看一区二区| 99国产综合亚洲精品| 伊人亚洲综合成人网| 国产一区二区三区av在线| 免费播放大片免费观看视频在线观看| 亚洲一级一片aⅴ在线观看| 丰满乱子伦码专区| 亚洲色图综合在线观看| 99久久精品国产国产毛片| 秋霞在线观看毛片| 中文字幕免费在线视频6| 又黄又爽又刺激的免费视频.| 精品人妻在线不人妻| 国产精品国产av在线观看| 久久鲁丝午夜福利片| 成年美女黄网站色视频大全免费| 国产极品天堂在线| 久久精品久久久久久噜噜老黄| 大码成人一级视频| 亚洲国产精品一区三区| av卡一久久| 欧美日韩av久久| 国产精品国产三级国产专区5o| 18禁动态无遮挡网站| 一级爰片在线观看| 欧美激情 高清一区二区三区| 国产免费现黄频在线看| 人成视频在线观看免费观看| 欧美人与性动交α欧美精品济南到 | 九草在线视频观看| 亚洲,欧美,日韩| 亚洲成色77777| 九九在线视频观看精品| 免费观看在线日韩| a级毛片在线看网站| 久久免费观看电影| 亚洲精品久久久久久婷婷小说| 天天操日日干夜夜撸| 欧美精品人与动牲交sv欧美| 日本-黄色视频高清免费观看| 亚洲成色77777| 国产av精品麻豆| 纵有疾风起免费观看全集完整版| 欧美精品一区二区大全| 亚洲激情五月婷婷啪啪| 国产一区二区三区av在线| 亚洲国产精品专区欧美| 美女国产视频在线观看| 日韩三级伦理在线观看| 国产亚洲最大av| 国产精品女同一区二区软件| 黄色毛片三级朝国网站| 女性被躁到高潮视频| 最近的中文字幕免费完整| 久久精品国产亚洲av天美| 午夜影院在线不卡| 尾随美女入室| 免费大片黄手机在线观看| 亚洲av电影在线进入| 香蕉丝袜av| 免费观看av网站的网址| 亚洲欧美一区二区三区黑人 | 最近中文字幕2019免费版| 日韩av在线免费看完整版不卡| 日韩中字成人| 狂野欧美激情性xxxx在线观看| 一级毛片我不卡| 女性被躁到高潮视频| 久久久精品区二区三区| 九九爱精品视频在线观看| 久久国产精品男人的天堂亚洲 | av又黄又爽大尺度在线免费看| xxx大片免费视频| 欧美另类一区| 777米奇影视久久| 大片电影免费在线观看免费| 免费av中文字幕在线| 欧美少妇被猛烈插入视频| 色哟哟·www| www.熟女人妻精品国产 | 国产xxxxx性猛交| 久久婷婷青草| 97超碰精品成人国产| 国产不卡av网站在线观看| 少妇的逼水好多| 久久精品熟女亚洲av麻豆精品| 精品一品国产午夜福利视频| 久久狼人影院| 在线观看免费视频网站a站| 午夜福利乱码中文字幕| 精品人妻在线不人妻| 久久精品熟女亚洲av麻豆精品| 久久国产精品男人的天堂亚洲 | 久久久久久久久久久久大奶| 边亲边吃奶的免费视频| 国产女主播在线喷水免费视频网站| 亚洲精品乱码久久久久久按摩| 欧美人与性动交α欧美精品济南到 | 丰满少妇做爰视频| 大片免费播放器 马上看| 欧美 亚洲 国产 日韩一| 欧美国产精品va在线观看不卡| 美国免费a级毛片| 春色校园在线视频观看| 国产精品久久久久久精品电影小说| 国产精品一二三区在线看| 午夜精品国产一区二区电影| 国产高清三级在线| h视频一区二区三区| 国产精品一区二区在线观看99| 欧美亚洲 丝袜 人妻 在线| 我的女老师完整版在线观看| 午夜免费鲁丝| 欧美xxxx性猛交bbbb| 高清在线视频一区二区三区| 久久久欧美国产精品| 欧美最新免费一区二区三区| 免费观看a级毛片全部| 丰满乱子伦码专区| 欧美成人午夜免费资源| 国产免费一级a男人的天堂| 久久影院123| 自线自在国产av| 欧美人与善性xxx| 亚洲精品视频女| 最黄视频免费看| 大片电影免费在线观看免费| 亚洲婷婷狠狠爱综合网| 啦啦啦啦在线视频资源| 日本欧美视频一区| 你懂的网址亚洲精品在线观看| 久久久久久伊人网av| 啦啦啦中文免费视频观看日本| 热re99久久精品国产66热6| 90打野战视频偷拍视频| 亚洲精品国产色婷婷电影| 18禁动态无遮挡网站| 午夜福利在线观看免费完整高清在| www.熟女人妻精品国产 | 欧美日韩精品成人综合77777| 一二三四中文在线观看免费高清| 两个人免费观看高清视频| 香蕉国产在线看| 欧美日韩国产mv在线观看视频| 日韩视频在线欧美| 亚洲美女视频黄频| 青春草国产在线视频| 日韩熟女老妇一区二区性免费视频| xxx大片免费视频| 久久精品久久久久久久性| 夫妻性生交免费视频一级片| 国产国语露脸激情在线看| 国产1区2区3区精品| 国产老妇伦熟女老妇高清| 18禁动态无遮挡网站| 国产毛片在线视频| 男女边摸边吃奶| 亚洲国产欧美在线一区| 日韩免费高清中文字幕av| 久久久久久久国产电影| 精品一品国产午夜福利视频| 欧美激情极品国产一区二区三区 | 丰满少妇做爰视频| 国产成人欧美| 国产探花极品一区二区| 国产黄频视频在线观看| 青春草亚洲视频在线观看| 五月天丁香电影| 天天影视国产精品| 在线看a的网站| 亚洲av福利一区| 免费日韩欧美在线观看| 乱码一卡2卡4卡精品| 国产精品久久久久久久电影| 亚洲av成人精品一二三区| 黄色毛片三级朝国网站| 欧美3d第一页| 免费在线观看完整版高清| a级毛片在线看网站| 欧美另类一区| 亚洲欧美一区二区三区国产| 久久久欧美国产精品| av在线观看视频网站免费| 丰满乱子伦码专区| 秋霞在线观看毛片| 国产精品国产av在线观看| 久久99一区二区三区| 最黄视频免费看| 中文字幕av电影在线播放| 美女视频免费永久观看网站| 99re6热这里在线精品视频| 只有这里有精品99| 亚洲欧洲精品一区二区精品久久久 | 老司机影院成人| 国产日韩欧美在线精品| 国产免费一级a男人的天堂| 九色成人免费人妻av| 亚洲综合精品二区| 国产又爽黄色视频| 亚洲国产精品一区二区三区在线| 亚洲av福利一区| 国产精品久久久久久精品电影小说| 亚洲三级黄色毛片| 美女大奶头黄色视频| 一级毛片电影观看| 亚洲精品成人av观看孕妇| a级片在线免费高清观看视频| av在线观看视频网站免费| 免费大片18禁| 亚洲国产欧美日韩在线播放| 国产一区二区激情短视频 | 亚洲av日韩在线播放| 欧美精品国产亚洲| 亚洲国产色片| 80岁老熟妇乱子伦牲交| 日韩av不卡免费在线播放| 2018国产大陆天天弄谢| 男人爽女人下面视频在线观看| av视频免费观看在线观看| 欧美精品人与动牲交sv欧美| 欧美精品国产亚洲| 国产 精品1| 午夜免费男女啪啪视频观看| 久久久久久久久久久久大奶| 久久久精品94久久精品| a级毛色黄片| 久久亚洲国产成人精品v| 日本av免费视频播放| 亚洲精品久久久久久婷婷小说| 亚洲国产欧美在线一区| 18禁在线无遮挡免费观看视频| 在线 av 中文字幕| 亚洲国产精品国产精品| 日韩欧美一区视频在线观看| 国产成人精品久久久久久| 又粗又硬又长又爽又黄的视频| 午夜激情av网站| 国产又色又爽无遮挡免| av免费观看日本| 性色avwww在线观看| 精品国产一区二区三区四区第35| 国产av精品麻豆| 亚洲综合色网址| 三级国产精品片| 亚洲,欧美,日韩| 国产麻豆69| 在现免费观看毛片| 免费看不卡的av| 男人操女人黄网站| 国产免费一区二区三区四区乱码| 天天影视国产精品| 久久免费观看电影| 久久久久人妻精品一区果冻| 亚洲精品国产av蜜桃| 久久女婷五月综合色啪小说| 观看av在线不卡| 国产精品女同一区二区软件| 男人舔女人的私密视频| 99国产综合亚洲精品| 亚洲精品久久久久久婷婷小说| 成人漫画全彩无遮挡| 久热久热在线精品观看| 国产一区二区激情短视频 | 香蕉丝袜av| 精品久久国产蜜桃| 性色av一级| 亚洲中文av在线| 十分钟在线观看高清视频www| 亚洲综合精品二区| 人妻 亚洲 视频| 欧美日韩成人在线一区二区| 久久 成人 亚洲| 十八禁高潮呻吟视频| 亚洲av欧美aⅴ国产| 黑人欧美特级aaaaaa片| 国产成人欧美| 成人亚洲欧美一区二区av| 日韩精品有码人妻一区| 欧美人与性动交α欧美软件 | 久久久精品94久久精品| 亚洲av综合色区一区| 国产探花极品一区二区| 国产一区二区在线观看av| 亚洲精品日本国产第一区| 少妇的逼水好多| av福利片在线| 国产精品久久久久成人av| 80岁老熟妇乱子伦牲交| av免费观看日本| 99久久精品国产国产毛片| 午夜福利乱码中文字幕| 国产精品成人在线| 大片免费播放器 马上看| 欧美97在线视频| 成人手机av| 亚洲综合精品二区| 亚洲人成网站在线观看播放| 观看av在线不卡| 高清欧美精品videossex| 国产又色又爽无遮挡免| 亚洲av成人精品一二三区| 久久久久网色| 精品国产一区二区三区四区第35| 亚洲av国产av综合av卡| 天堂8中文在线网| 亚洲伊人色综图| a级毛片在线看网站| 91精品国产国语对白视频| 国产色婷婷99| 午夜av观看不卡| 日韩免费高清中文字幕av| 免费看不卡的av| 亚洲美女视频黄频| 水蜜桃什么品种好| 看免费成人av毛片| 99热网站在线观看| 久久久久国产精品人妻一区二区| 欧美老熟妇乱子伦牲交| 丝袜人妻中文字幕| 人人澡人人妻人| 蜜桃国产av成人99| 免费av不卡在线播放| 国产欧美另类精品又又久久亚洲欧美| 一本大道久久a久久精品| 日本欧美视频一区| av.在线天堂| 国产一区亚洲一区在线观看| 人妻人人澡人人爽人人| 新久久久久国产一级毛片| 色网站视频免费| 啦啦啦在线观看免费高清www| 侵犯人妻中文字幕一二三四区| 在线观看免费视频网站a站| 男女下面插进去视频免费观看 | 中文字幕制服av| av有码第一页| 国产亚洲欧美精品永久| 久久精品久久久久久久性| 美女脱内裤让男人舔精品视频| 国产精品秋霞免费鲁丝片| a 毛片基地| 欧美激情极品国产一区二区三区 | 人妻少妇偷人精品九色| 国产成人一区二区在线| 亚洲精品乱久久久久久| 亚洲五月色婷婷综合| 亚洲在久久综合| 成人国语在线视频| 国产精品一二三区在线看| 香蕉丝袜av| 免费久久久久久久精品成人欧美视频 | 青春草国产在线视频| 在线天堂最新版资源| 黑人欧美特级aaaaaa片| 欧美精品高潮呻吟av久久| 91国产中文字幕| 最近手机中文字幕大全| 国产又色又爽无遮挡免| 成人国产av品久久久| 亚洲久久久国产精品| 少妇的丰满在线观看| 欧美日韩亚洲高清精品| 永久免费av网站大全| 国产免费视频播放在线视频| 国产成人午夜福利电影在线观看| 国产一区二区在线观看av| 国产乱来视频区| 国产av码专区亚洲av| 久久久久人妻精品一区果冻| 极品少妇高潮喷水抽搐| 午夜日本视频在线| 亚洲欧美清纯卡通| 色5月婷婷丁香| 一本色道久久久久久精品综合| 天堂俺去俺来也www色官网| 日本免费在线观看一区| 精品第一国产精品| 日韩视频在线欧美| 最新中文字幕久久久久| 亚洲精品成人av观看孕妇| 老司机影院毛片| 成人18禁高潮啪啪吃奶动态图| 丝瓜视频免费看黄片| 日韩av在线免费看完整版不卡| 日韩欧美精品免费久久| 在线天堂中文资源库| 国产精品一区二区在线不卡| videos熟女内射| 亚洲色图 男人天堂 中文字幕 | 国产免费又黄又爽又色| 亚洲色图 男人天堂 中文字幕 | 巨乳人妻的诱惑在线观看| 男女边摸边吃奶| 日韩免费高清中文字幕av| 中文天堂在线官网| 久久综合国产亚洲精品| 涩涩av久久男人的天堂| 一区在线观看完整版| www日本在线高清视频| www.av在线官网国产| 久久影院123| 免费人成在线观看视频色| 少妇人妻 视频| 成人二区视频| 99国产综合亚洲精品| 午夜免费鲁丝| 亚洲精品久久成人aⅴ小说| 99热网站在线观看| 中文字幕免费在线视频6| 1024视频免费在线观看| 高清欧美精品videossex| 久久久久国产网址| 亚洲情色 制服丝袜| 日韩欧美一区视频在线观看| 中国三级夫妇交换| 亚洲图色成人| 欧美人与性动交α欧美精品济南到 | 国产欧美日韩综合在线一区二区| 久久人人爽人人片av| 久久久久久久久久久久大奶| 又黄又粗又硬又大视频| 色94色欧美一区二区| 日本爱情动作片www.在线观看| 考比视频在线观看| 在线观看三级黄色| 丝袜喷水一区| 亚洲国产av新网站| 飞空精品影院首页| 亚洲精品久久久久久婷婷小说| 国产老妇伦熟女老妇高清| 欧美日韩综合久久久久久| 国产免费视频播放在线视频| 午夜福利,免费看| 国产男女内射视频| 国产日韩欧美在线精品| 日本vs欧美在线观看视频| 亚洲成人一二三区av| 亚洲精品久久久久久婷婷小说| 国产 精品1| 最近最新中文字幕大全免费视频 | 国产老妇伦熟女老妇高清| 免费少妇av软件| 亚洲国产精品专区欧美| 国产爽快片一区二区三区| 婷婷色综合大香蕉| 热re99久久精品国产66热6| 男女啪啪激烈高潮av片| 久久久久精品性色| 久久人妻熟女aⅴ| 亚洲,一卡二卡三卡| 国产探花极品一区二区| 青春草亚洲视频在线观看| 久热这里只有精品99| 五月玫瑰六月丁香| 国产亚洲精品第一综合不卡 | 97人妻天天添夜夜摸| 波野结衣二区三区在线| 亚洲,一卡二卡三卡| 人妻一区二区av| 久久热在线av| 国产伦理片在线播放av一区| 国产精品欧美亚洲77777| 夜夜爽夜夜爽视频| av免费在线看不卡| 成人二区视频| 日韩一本色道免费dvd| 人妻人人澡人人爽人人| 免费大片黄手机在线观看| 男女边吃奶边做爰视频| 少妇精品久久久久久久| 制服诱惑二区| 水蜜桃什么品种好| 成年美女黄网站色视频大全免费| 精品少妇久久久久久888优播| 在线观看一区二区三区激情| 观看av在线不卡| a 毛片基地| 大话2 男鬼变身卡| 精品卡一卡二卡四卡免费| 国产毛片在线视频| 国产成人精品婷婷| 亚洲欧美色中文字幕在线| 久久久久精品久久久久真实原创| 国产日韩欧美视频二区| 美女脱内裤让男人舔精品视频| 久久午夜综合久久蜜桃| 亚洲丝袜综合中文字幕| 少妇的丰满在线观看| 丝瓜视频免费看黄片| 日韩中字成人| 天堂俺去俺来也www色官网| 母亲3免费完整高清在线观看 | 亚洲美女视频黄频| 啦啦啦啦在线视频资源| 日韩人妻精品一区2区三区| 久久国内精品自在自线图片| 国产欧美亚洲国产| 丰满迷人的少妇在线观看| 在线观看一区二区三区激情| 国产麻豆69| 99热这里只有是精品在线观看| 日韩av在线免费看完整版不卡| 亚洲欧美一区二区三区国产| 国产精品久久久久久久电影| 欧美日韩国产mv在线观看视频| 亚洲精品美女久久av网站| 夫妻午夜视频| 亚洲国产看品久久| 久久久国产一区二区| 丁香六月天网| 亚洲欧洲国产日韩| 免费黄网站久久成人精品| 国产极品粉嫩免费观看在线| 欧美3d第一页| 国产精品偷伦视频观看了| 久久精品夜色国产| 伊人亚洲综合成人网| 欧美 亚洲 国产 日韩一| 国产有黄有色有爽视频| 中文字幕精品免费在线观看视频 | 免费观看a级毛片全部| 国产欧美日韩一区二区三区在线| 日本与韩国留学比较| 国产精品一区www在线观看| 日本黄大片高清| 我要看黄色一级片免费的| 波野结衣二区三区在线| 久久精品久久精品一区二区三区| 国产精品国产av在线观看| 国产男女内射视频| 男人添女人高潮全过程视频| 国产成人91sexporn| 欧美成人午夜免费资源| 极品人妻少妇av视频| 国产无遮挡羞羞视频在线观看| 婷婷色麻豆天堂久久| 9热在线视频观看99| 18禁国产床啪视频网站| 97在线视频观看| 亚洲三级黄色毛片| 成人国语在线视频| av黄色大香蕉| 一级毛片 在线播放| 亚洲图色成人| 人人妻人人澡人人看| 女人被躁到高潮嗷嗷叫费观| 只有这里有精品99| 欧美成人午夜精品| 国产精品 国内视频| 亚洲欧美清纯卡通| 大陆偷拍与自拍| av卡一久久| 性高湖久久久久久久久免费观看| 人人澡人人妻人| 欧美激情 高清一区二区三区| 国产激情久久老熟女| tube8黄色片| www.色视频.com| 熟妇人妻不卡中文字幕| 亚洲欧美成人综合另类久久久| 午夜精品国产一区二区电影| av福利片在线| 欧美日韩亚洲高清精品| 久久精品久久久久久噜噜老黄| 久热久热在线精品观看| 日本色播在线视频| 欧美日韩亚洲高清精品| 日本色播在线视频| 欧美国产精品va在线观看不卡| 伦精品一区二区三区| 综合色丁香网| 国产一区有黄有色的免费视频| 91aial.com中文字幕在线观看| 国产精品国产三级国产专区5o| 日产精品乱码卡一卡2卡三| 亚洲精品第二区| 美女主播在线视频| 晚上一个人看的免费电影| 看非洲黑人一级黄片| 亚洲精品456在线播放app| 国产熟女午夜一区二区三区| 天堂俺去俺来也www色官网|