• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于語(yǔ)義的聚焦爬蟲算法研究

      2018-06-27 07:53:12孫紅光藏潤(rùn)強(qiáng)姬傳德楊鳳芹馮國(guó)忠
      關(guān)鍵詞:詞項(xiàng)爬蟲上位

      孫紅光,藏潤(rùn)強(qiáng),姬傳德,楊鳳芹,馮國(guó)忠

      (1.東北師范大學(xué)信息科學(xué)與技術(shù)學(xué)院,吉林 長(zhǎng)春 130117; 2.智能信息處理吉林省重點(diǎn)實(shí)驗(yàn)室,吉林 長(zhǎng)春 130117; 3.吉林大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,吉林 長(zhǎng)春 130012)

      0 概述

      傳統(tǒng)搜索引擎是通過(guò)關(guān)鍵字匹配對(duì)網(wǎng)頁(yè)進(jìn)行比對(duì)[1],結(jié)果將使搜索引擎返回大量無(wú)關(guān)的頁(yè)面而影響用戶使用,忽略了網(wǎng)頁(yè)的相關(guān)性和網(wǎng)頁(yè)的訪問(wèn)優(yōu)先次序.主題爬蟲(聚焦爬蟲)的出現(xiàn)正是由于互聯(lián)網(wǎng)中所有的信息資源并不都是用戶所感興趣的,因此需要一種機(jī)制可以面向用戶的需求而對(duì)獲取的資源進(jìn)行判斷.主題爬蟲可以使用未訪問(wèn)URLs的主題相關(guān)性判定機(jī)制確定其主題相關(guān)性,因此可以從互聯(lián)網(wǎng)中獲取更多用戶感興趣的信息資源.

      從主題爬蟲被提出到現(xiàn)在一直有很多學(xué)者對(duì)其進(jìn)行了研究,P.D.De Bra等[2]提出“fish-search”將主題爬蟲對(duì)于網(wǎng)絡(luò)資源的采集過(guò)程比作魚群覓食的過(guò)程;A.Patel等[3]通過(guò)對(duì)HTML文檔的標(biāo)簽和屬性等結(jié)構(gòu)信息進(jìn)行分析與應(yīng)用,提出基于應(yīng)用文檔的主題爬蟲;J.W.Lin等[4]提出在語(yǔ)義上比較標(biāo)記語(yǔ)料庫(kù)中輸入字段的相似性,自動(dòng)識(shí)別爬行過(guò)程中遇到的輸入字段;H.Dong等[5]在提出的半監(jiān)督主題爬蟲SOF中包含網(wǎng)絡(luò)信息格式化,是一種基于本體的半監(jiān)督學(xué)習(xí)框架和由支持向量機(jī)聚合的混合網(wǎng)頁(yè)分類方法;杜亞軍等[6]通過(guò)改進(jìn)文檔詞項(xiàng)與主題詞項(xiàng)的相似度計(jì)算公式,來(lái)改善爬蟲性能的SSVSM;林超等[7]提出主題爬蟲算法主要用于深度網(wǎng)絡(luò)資源信息的發(fā)現(xiàn);Ran Yu等[8]提出了一種自適應(yīng)的聚焦爬行方法,它考慮到種子列表的特征,從而改進(jìn)了爬蟲和相關(guān)排序方法.

      但是,基于語(yǔ)義的主題爬蟲仍然存在許多缺點(diǎn),如主題確定的隨意性,相似度計(jì)算模型存在不足,對(duì)于主題詞項(xiàng)細(xì)化過(guò)于苛刻,或者某些詞項(xiàng)會(huì)隱藏在一些不相關(guān)的詞項(xiàng)之后,會(huì)造成抓取的相關(guān)頁(yè)面數(shù)量不足以滿足用戶的需求,如何讓計(jì)算機(jī)能夠自動(dòng)解決成為主題爬蟲面臨的一個(gè)重要問(wèn)題之一.為彌補(bǔ)語(yǔ)義主題爬蟲存在的不足,本文提出主題爬蟲算法,首先使用LDA構(gòu)建主題模型,并將依據(jù)本體獲取的語(yǔ)義相似度加入到向量空間模型VSM中,從而對(duì)語(yǔ)義相似度計(jì)算模型進(jìn)行改進(jìn),另外加入上位詞替換模塊,以保證不出現(xiàn)主題過(guò)于細(xì)化導(dǎo)致檢索結(jié)果過(guò)少的情況,最后計(jì)算未訪問(wèn)URLs的全文本和錨文本與主題的相關(guān)程度,從而對(duì)未訪問(wèn)URLs的優(yōu)先級(jí)進(jìn)行排序.

      1 相關(guān)技術(shù)與研究

      1.1 基于LDA主題模型的主題構(gòu)建

      頁(yè)面文檔和主題文檔的相關(guān)性除了詞項(xiàng)間的重復(fù)關(guān)系外,還與文字的語(yǔ)義信息有關(guān),如挖掘相關(guān)聯(lián)的語(yǔ)義信息,爬蟲的抓取結(jié)果的準(zhǔn)確性將進(jìn)一步增加.主題模型是發(fā)現(xiàn)所包含的隱藏主題并對(duì)其進(jìn)行建模[9],它與傳統(tǒng)信息檢索的文檔相似度計(jì)算方法不同,性能更優(yōu),并且可以自動(dòng)發(fā)現(xiàn)互聯(lián)網(wǎng)資源中大量的文字間語(yǔ)義主題.

      首先,用生成模型分別對(duì)文檔和主題進(jìn)行描述.生成模型的主要思想是指文檔中每個(gè)詞語(yǔ)都以一定的概率指向一個(gè)主題,同時(shí)每個(gè)主題又都以一定的概率指向某一篇文檔,從文檔出發(fā),找出文檔所對(duì)應(yīng)的主題和主題所對(duì)應(yīng)的詞項(xiàng)構(gòu)成模型,LDA通過(guò)調(diào)整參數(shù)實(shí)現(xiàn)對(duì)模型參數(shù)的控制[10],計(jì)算公式為

      (1)

      圖1 文檔中詞語(yǔ)概率圖示

      公式(1)概率圖示見(jiàn)圖1.圖1中:左邊方框表示詞語(yǔ)在文章中出現(xiàn)的概率c是已知的;主題中每個(gè)詞語(yǔ)出現(xiàn)的概率用Φ矩陣表示,看做是文檔中主題所占的比例;主題模型的構(gòu)建就是通過(guò)訓(xùn)練大量已知的“詞語(yǔ)-文檔”矩陣,得出未知的“詞語(yǔ)-主題”矩陣Φ和“主題文檔”矩陣Θ.

      本文在給定主題爬蟲概念時(shí),首先使用維基百科或百度百科對(duì)該概念進(jìn)行解析,這里假設(shè)主題中對(duì)于某一個(gè)概念的描述是具體的、全面的.模型構(gòu)建過(guò)程是無(wú)監(jiān)督并跨語(yǔ)言、完全自動(dòng)化的,不需要人工進(jìn)行標(biāo)注,自動(dòng)計(jì)算多種概率.

      1.2 改進(jìn)的語(yǔ)義相似度向量空間模型

      向量空間模型沒(méi)有考慮任何語(yǔ)義信息,只要網(wǎng)頁(yè)中詞項(xiàng)不與主題詞項(xiàng)有重復(fù)就認(rèn)為網(wǎng)頁(yè)是與主題無(wú)關(guān)的,不考慮同義詞或近義詞而直接判定為主題無(wú)關(guān),這顯然不合理,例如更精確地指導(dǎo)爬蟲獲取與主題相關(guān)的網(wǎng)頁(yè)集合,此方法不夠完善.對(duì)于語(yǔ)義相似度檢索模型,即網(wǎng)頁(yè)詞項(xiàng)與主題詞項(xiàng)集集合之間都是同義詞或者重復(fù)詞項(xiàng),該模型雖考慮了語(yǔ)義信息卻忽略了能夠代表網(wǎng)頁(yè)與主題信息的詞項(xiàng)出現(xiàn)頻率比較高的事實(shí),按照語(yǔ)義相似度檢索模型將判定此時(shí)網(wǎng)頁(yè)與主題的相關(guān)性度為1,這顯然也是不合理的.最后可能導(dǎo)致網(wǎng)頁(yè)與主題間的相似度計(jì)算不準(zhǔn)確,從而導(dǎo)致主題爬蟲逐步發(fā)生主題漂移,繼續(xù)檢索返回的結(jié)果都是與主題無(wú)關(guān)的.

      為解決上述問(wèn)題,本文對(duì)語(yǔ)義相似度計(jì)算方法中使用模型進(jìn)行改進(jìn),提出改進(jìn)的語(yǔ)義相似度計(jì)算模型(SVSM).SVSM主要結(jié)合了向量空間模型(VSM)[11]和語(yǔ)義相似度檢索模型(SSRM)[12]的優(yōu)點(diǎn),同時(shí)彌補(bǔ)了兩者的缺陷.此模型首先構(gòu)建網(wǎng)頁(yè)與主題向量空間模型,并將主題的語(yǔ)義向量的語(yǔ)義值置1,通過(guò)計(jì)算網(wǎng)頁(yè)文本詞項(xiàng)與主題詞項(xiàng)的平均語(yǔ)義相似度后加入到構(gòu)建的向量空間模型中,形成具有語(yǔ)義與統(tǒng)計(jì)信息的語(yǔ)義向量空間模型,采用乘積的方法加入語(yǔ)義信息,對(duì)于向量空間模型中的每一個(gè)數(shù)值,都可以看做該詞項(xiàng)與主題詞項(xiàng)的平均語(yǔ)義相似度.最后,通過(guò)計(jì)算主題語(yǔ)義向量與頁(yè)面主題向量的夾角余弦值確定頁(yè)面與主題的相似度.

      1.2.1 語(yǔ)義向量構(gòu)建

      同時(shí)構(gòu)建頁(yè)面內(nèi)容和主題的向量空間模型并加入語(yǔ)義信息,從而得到文檔與主題的語(yǔ)義向量.語(yǔ)義向量構(gòu)建方法主要包括如下步驟(給定文檔d和主題t):

      STEP1:進(jìn)行預(yù)處理,包括分詞和去停用詞等獲取文檔詞項(xiàng)和主題詞項(xiàng);

      STEP2:使用相同詞項(xiàng)構(gòu)建頁(yè)面文檔與主題文檔的向量空間模型,使用TF-IDF計(jì)算詞項(xiàng)權(quán)重構(gòu)建文檔與主題向量空間模型;

      STEP3:獲取文檔詞項(xiàng)與主題詞項(xiàng)間的語(yǔ)義相似度;

      STEP4:計(jì)算主題語(yǔ)義向量,這里認(rèn)為一個(gè)主題與它自身的語(yǔ)義相似度為1,即形式上與向量空間模型相同;

      STEP5:計(jì)算文檔d的語(yǔ)義向量,計(jì)算出文檔d中的每一個(gè)詞項(xiàng)與主題中每個(gè)詞項(xiàng)的語(yǔ)義相似度并求出平均值,最后與對(duì)應(yīng)的詞項(xiàng)權(quán)重相乘,構(gòu)建文檔d的語(yǔ)義向量.

      現(xiàn)使用一個(gè)具體的例子對(duì)上述算法進(jìn)行描述.經(jīng)過(guò)STEP1后,STEP2構(gòu)建文檔與主題的向量空間模型的公式為:

      DT={term1,term2,…,termn},d= (Wk1,Wk2,Wkn,0,0,…,0);
      TT={term1,term2,…,termm},t= (Wt1,Wt2,Wtm,0,0,…,0).

      (2)

      文檔d的詞項(xiàng)集合用DT表示,主題t的詞項(xiàng)集合用TT表示,文檔d和主題t的向量分別用d和t表示,Wki(1≤i≤n)為在文檔dk中詞項(xiàng)i的TF-IDF值,Wtj(1≤j≤m)為主題t中詞項(xiàng)j的權(quán)重,n,m為文檔dk、主題t的詞項(xiàng)總數(shù),主題t中出現(xiàn)而文檔d中未出現(xiàn)的詞項(xiàng)和文檔d中出現(xiàn)而主題t中未出現(xiàn)的詞項(xiàng)集合用0表示.文檔向量與主題向量長(zhǎng)度相等,例如一個(gè)主題和一篇文檔,公式為:

      主題t:TT={平臺(tái),課程,文本}=(0.24,0.1,0.09,0,0,…,0);

      文檔d:DT={章節(jié),部分,步驟}=(1.4,1.1,0.4,0,0,0,…,0).

      (3)

      獲取文檔詞項(xiàng)與主題詞項(xiàng)間的語(yǔ)義相似度.詞項(xiàng)之間的語(yǔ)義相似度可以通過(guò)詞項(xiàng)在HowNet本體的位置信息獲得[13-14],上例的中文文檔詞項(xiàng)與主題詞項(xiàng)的語(yǔ)義相似度如表1所示.

      表1 文檔d和主題t的語(yǔ)義相似度

      STEP4中認(rèn)為一個(gè)主題與它自身的語(yǔ)義相似度為1,對(duì)于其他文檔而言,主題向量在被賦予語(yǔ)義信息(1,1,1,1,…,1)后沒(méi)有發(fā)生形式上的改變,所以得到主題語(yǔ)義向量,公式為

      STV=(0.24,0.1,0.09,…,0).

      (4)

      STEP5計(jì)算文檔d1的語(yǔ)義向量.首先計(jì)算出在文檔d中的詞項(xiàng)“章節(jié)”、“部分”,“步驟”與主題中各個(gè)詞項(xiàng)的平均語(yǔ)義相似度,其公式為

      ST=(0.645,0.089,0.679).

      (5)

      STEP5計(jì)算文檔d的語(yǔ)義向量,其公式為

      ST*DT=(0.645,0.089,0.679)*(1.4,1.1,0.4,0,0,…,0)=(0.916,0.039,0.184,0,0,…,0).

      (6)

      1.2.2 余弦相似度計(jì)算

      向量空間模型中將文檔和主題向量化,當(dāng)文檔與主題間的詞項(xiàng)發(fā)生重復(fù)時(shí),才可以對(duì)文檔與主題的相關(guān)度通過(guò)余弦相似度進(jìn)行計(jì)算.在SVSM 中,即使文檔和主題沒(méi)有共同詞項(xiàng),文檔和主題都是通過(guò)向量表示后再附加語(yǔ)義信息,因?yàn)榧尤肓苏Z(yǔ)義信息,兩語(yǔ)義向量的余弦相似度是可以計(jì)算的.因此可以通過(guò)計(jì)算文檔dk的語(yǔ)義向量、主題t的語(yǔ)義向量TSV的余弦值,獲取文檔dk與主題t的相似度,其公式為

      (7)

      (7)式中Sim(d,t) 為文檔dk的主題相似度,文檔詞項(xiàng)與主題詞項(xiàng)權(quán)重分別用Wdi和Wtj表示.通過(guò)(7)式獲得上一節(jié)例子中文檔d和主題t的相似度,其公式為:

      STV=TT=(0.24,0.1,0.09,0,…,0);
      SD=(0.916,0.039,0.184,0,0,0);
      Sim(d,t)=STV·SD=0.670.

      (8)

      SVSM首先使用TF-IDF值對(duì)詞項(xiàng)進(jìn)行加權(quán),加入詞項(xiàng)間的語(yǔ)義信息從而構(gòu)建文檔與詞項(xiàng)的語(yǔ)義向量,計(jì)算兩者語(yǔ)義向量的余弦值并作為網(wǎng)頁(yè)的主題相似度.此模型在一定程度上考慮到向量空間模型統(tǒng)計(jì)上的優(yōu)勢(shì),同時(shí)加入語(yǔ)義上的特征,使網(wǎng)頁(yè)與主題之間相似度的獲取更加合理,并減少計(jì)算時(shí)間,提高抓取網(wǎng)頁(yè)信息的速度,使主題爬蟲能滿足抓取大量主題相關(guān)頁(yè)面信息的需求.由于加入語(yǔ)義信息,可以獲取與主題語(yǔ)義相關(guān)的頁(yè)面,最終提升主題爬蟲的抓取速度、抓取網(wǎng)頁(yè)數(shù)量和抓取結(jié)果的質(zhì)量.

      1.3 上位詞替換

      1.3.1 知網(wǎng)(HowNet)的結(jié)構(gòu)特點(diǎn)

      圖2 上位詞和下位詞圖示

      HowNet是用于反映概念之間的相同點(diǎn)與不同點(diǎn)的網(wǎng)狀結(jié)構(gòu),比如“老師”和“學(xué)生”,“人”是它們的共性.一個(gè)比較簡(jiǎn)單的關(guān)系就是上下位關(guān)系,就是知網(wǎng)中概念與屬性的描述.其中相對(duì)于下位詞的延伸之一就是上位詞(hypernym),例如:“筆記本電腦”的上位詞可以是“電腦”,“魚”的上位詞可以是“水產(chǎn)”,“交響樂(lè)”的上位詞可以是“音樂(lè)”.上位詞是針對(duì)某一個(gè)主題衍生出的概念,也存在其他的關(guān)系.等同詞、上位詞、下位詞、同類詞是主題詞的4種變化.上位詞和下位詞之間的關(guān)系如圖2 所示.

      1.3.2 搜索中上位詞的使用

      搜索首先要提煉關(guān)鍵詞,要先知道找什么,并對(duì)信息之間的共性進(jìn)行分析,找出與其他信息不同的特性,對(duì)具有代表性的關(guān)鍵詞進(jìn)行提煉,這就是選擇搜索關(guān)鍵詞的原則,它將影響對(duì)定位的速度和查找的準(zhǔn)確性.

      細(xì)化搜索條件:指的是如果你將搜索的條件描述得越詳細(xì),所得到的搜索結(jié)果也越精確.對(duì)于檢索的細(xì)化過(guò)于苛刻時(shí),或者某些詞項(xiàng)會(huì)隱藏在一些不相關(guān)的詞項(xiàng)之后,就像是一個(gè)通道,需要穿過(guò)這個(gè)通道才能找到想要的搜索結(jié)果.這種情況的出現(xiàn),對(duì)于用戶而言增加了難度,需要增加相關(guān)的專業(yè)知識(shí)才能夠改變搜索條件,從而獲取更多的搜索結(jié)果.

      為了讓計(jì)算機(jī)能夠自動(dòng)地解決這個(gè)問(wèn)題,本文結(jié)合知網(wǎng)的結(jié)構(gòu)特性,提出上位詞替換的主題替換方法.利用本體中的上位/下位關(guān)系幫助主題爬蟲進(jìn)行主題概念詞替換,實(shí)現(xiàn)主題重定義.當(dāng)主題概念詞過(guò)于細(xì)化而導(dǎo)致搜索結(jié)果達(dá)不到目標(biāo)下限時(shí),主題爬蟲將使用該概念詞的上位詞重新進(jìn)行爬行,重復(fù)這一過(guò)程直到得到滿意的結(jié)果為止.通過(guò)上位詞的替換會(huì)避免爬蟲出現(xiàn)概念過(guò)度細(xì)化而導(dǎo)致搜索結(jié)果過(guò)少的情況,使得爬蟲具備一定的穿越隧道的能力.

      1.4 基于主題模型構(gòu)建的語(yǔ)義主題爬蟲

      圖3 基于主題模型構(gòu)建的語(yǔ)義主題爬蟲框圖

      基于主題擴(kuò)展的語(yǔ)義主題爬蟲,主要利用LDA模型對(duì)檢索關(guān)鍵詞進(jìn)行主題模型構(gòu)建,然后利用SVSM計(jì)算網(wǎng)頁(yè)各種文本與主題的相似度,從而確定待爬行頁(yè)面的全文本與標(biāo)題和主題的相關(guān)性,稱之為基于主題模型構(gòu)建的語(yǔ)義主題爬蟲,最后改進(jìn)為語(yǔ)義相似度計(jì)算模型并結(jié)合上位詞替換策略的聚焦爬蟲ESVSM,將主題與全文本的相關(guān)性和主題與錨文本的相關(guān)性進(jìn)行組合,據(jù)此對(duì)鏈接是否是主題相關(guān)進(jìn)行判斷,完整的流程如圖3所示.

      本文提出的基于主題模型構(gòu)建的語(yǔ)義主題爬蟲可以有效解決以下問(wèn)題:

      因?yàn)槿藶橹付〞r(shí)帶有很大的隨意性,并且要求用戶具備一定的專業(yè)知識(shí).雖然也有人使用統(tǒng)計(jì)的方法對(duì)主題詞匯進(jìn)行擴(kuò)展,但擴(kuò)展的準(zhǔn)確度僅僅依賴于詞項(xiàng)出現(xiàn)的頻率.本文提出的方法采用LDA模型對(duì)主題概念詞的描述文檔進(jìn)行降維,使得主題概念得到較準(zhǔn)確的擴(kuò)充,為頁(yè)面文檔與主題相似度的計(jì)算準(zhǔn)確性和頁(yè)面優(yōu)先級(jí)的計(jì)算提供依據(jù),充分體現(xiàn)基于語(yǔ)義的主題爬行算法準(zhǔn)確度高的優(yōu)勢(shì).再利用SVSM 的語(yǔ)義檢索優(yōu)點(diǎn),使得該主題爬蟲具備語(yǔ)義理解能力,并且結(jié)合知網(wǎng)的結(jié)構(gòu)特性,具有上位詞替換的特性,在保證檢索質(zhì)量的前提下,具備一定的通道穿越能力,有效地引導(dǎo)主題爬蟲從互聯(lián)網(wǎng)中檢索回大量與主題相關(guān)的網(wǎng)頁(yè).

      當(dāng)搜索達(dá)到某一條件下限時(shí),比如搜索頁(yè)面數(shù)量少于1 000并且平均搜索時(shí)間內(nèi)頁(yè)面數(shù)量不繼續(xù)增加時(shí),將爬蟲關(guān)鍵詞替換成它的直接上位詞,從而使搜索結(jié)果得到擴(kuò)充.當(dāng)搜索條件是“智能手機(jī)”時(shí),如果搜索結(jié)果滿足條件下限,“智能手機(jī)”將被直接上位詞“手機(jī)”替換.關(guān)于通道的穿越,一個(gè)典型的例子是,當(dāng)搜索某一所高校的某一個(gè)老師發(fā)表的論文或著作,使用這個(gè)老師的姓名進(jìn)行檢索時(shí),隱藏在通道后面的該名老師的主頁(yè)可能沒(méi)有被檢索到,將影響搜索結(jié)果,此時(shí),可以退回到該老師姓名的上位概念,例如學(xué)校名稱與學(xué)院名稱等,從而進(jìn)入這名老師的主頁(yè),關(guān)鍵詞得到匹配從而得到搜索結(jié)果,實(shí)現(xiàn)通道的穿越.

      1.5 計(jì)算排序優(yōu)先值模塊

      通過(guò)SVSM模型對(duì)文檔與主題相似度進(jìn)行計(jì)算,據(jù)此來(lái)判斷未訪問(wèn)URLs與主題的相關(guān)度.文檔內(nèi)容包括頁(yè)面的全文本和錨文本,本文對(duì)于未訪問(wèn)URLs優(yōu)先級(jí)的計(jì)算綜合考慮全文本和錨文本與主題的相似度,將全文本和錨文本與主題相似度進(jìn)行線性組合作為未訪問(wèn)URLs的排序優(yōu)先值,將加權(quán)因子設(shè)為0.5,計(jì)算公式為

      (9)

      未訪問(wèn)超鏈接l的優(yōu)先值用priority(l)表示,也就是鏈接l與主題的相關(guān)度,父網(wǎng)頁(yè)l全文本fp與主題t的相似度用Sim(fp,t)表示,包含鏈接l的父網(wǎng)頁(yè)的總數(shù)為N,鏈接l的錨文本a1與主題t的相似度用Sim(at,t)表示,這里將線性組合因子設(shè)定為λ1=λ2=1/2.

      給定2個(gè)加權(quán)因子,并使用相似度計(jì)算模型獲取網(wǎng)頁(yè)與主題的相關(guān)度值,然后使用加權(quán)因子將2個(gè)文檔的相關(guān)度進(jìn)行組合作為未訪問(wèn)URLs 的排序優(yōu)先值.此主題爬行方法結(jié)合相似度計(jì)算和優(yōu)先級(jí)判斷的優(yōu)勢(shì),使主題爬蟲可以實(shí)現(xiàn)語(yǔ)義理解,并且具備一定的通道穿越的能力,在主題爬蟲獲取頁(yè)面更準(zhǔn)確的情況下縮短了頁(yè)面抓取時(shí)間,提高主題爬蟲系統(tǒng)整體性能.

      2 實(shí)驗(yàn)結(jié)果及分析

      將本文提出的ESVSM爬蟲與其他4組爬蟲進(jìn)行對(duì)比分析:

      (1) 廣度優(yōu)先爬蟲[15](BF Crawler).在本文實(shí)驗(yàn)中作為基線爬蟲和其他爬蟲的參照,廣度優(yōu)先爬蟲算法的主要思想是利用圖的廣度優(yōu)先的策略對(duì)網(wǎng)頁(yè)進(jìn)行遍歷.

      (2) VSM主題爬蟲(VSM Crawler).VSM主題爬蟲算法的主要思想是通過(guò)構(gòu)建頁(yè)面與主題的向量空間模型VSM,并通過(guò)頁(yè)面與主題的余弦相似度確定與主題的相關(guān)性.

      (3) SSRM主題爬蟲(SSRM Crawler).SSRM主題爬蟲的主要思想是通過(guò)語(yǔ)義相似度檢索模型SSRM計(jì)算頁(yè)面與主題的相似性,頁(yè)面內(nèi)容包括全文本和錨文本.

      (4) SVSM主題爬蟲(SVSM Crawler).SVSM主題爬蟲通過(guò)本文提出的語(yǔ)義相似度計(jì)算方法計(jì)算頁(yè)面與主題的相關(guān)性,與ESVSM算法不同的是該算法并未使用LDA構(gòu)建主題模型,主要用于驗(yàn)證本文提出的主題爬蟲方法中主題模型構(gòu)建的有效性.

      (5) ESVSM主題爬蟲(ESVSM Crawler).ESVSM主題爬蟲算法由本文提出,算法的主要思想是先通過(guò)LDA構(gòu)建主題模型,然后通過(guò)本文提出的改進(jìn)語(yǔ)義相似度計(jì)算方法判斷未訪問(wèn)URLs的爬行優(yōu)先級(jí),最后加入上位詞替換策略防止由于主題描述過(guò)于細(xì)致所產(chǎn)生的檢索結(jié)果較少的情況.ESVSM主題爬蟲使用頁(yè)面的全文本和錨文本計(jì)算頁(yè)面與主題的相關(guān)性,通過(guò)本體計(jì)算詞項(xiàng)間的語(yǔ)義相似度,設(shè)置主題爬蟲ESVSM Crawler的實(shí)驗(yàn)參數(shù),將獲取結(jié)果上限設(shè)定為5 000,下限設(shè)定為1 000.當(dāng)爬行記錄中結(jié)果數(shù)量達(dá)到5 000時(shí)停止,在一定的時(shí)間內(nèi)(設(shè)定為15 s)不再增加并且未達(dá)到下限時(shí),將進(jìn)行主題詞匯替換,然后進(jìn)行主題擴(kuò)充再繼續(xù)檢索.

      2.1 數(shù)據(jù)集

      主題爬蟲從相同的主題出發(fā),設(shè)置相同的初始種子集.實(shí)驗(yàn)中選定5個(gè)不同主題分別為酷睿、計(jì)算機(jī)、文本挖掘、操作系統(tǒng)、人工智能.用于主題擴(kuò)展的描述文檔為百度百科文檔,使用百度搜索引擎檢索當(dāng)前的主題詞項(xiàng),得到前5個(gè)返回結(jié)果的URLs作為該主題的初始種子集合.實(shí)驗(yàn)中設(shè)定選擇經(jīng)LDA擴(kuò)展的主題模型中的前10個(gè)子話題,作為主題模型的子話題,每個(gè)子話題選擇頻率最高的前20個(gè)詞項(xiàng).

      2.2 評(píng)價(jià)指標(biāo)

      (10)

      2.3 實(shí)驗(yàn)結(jié)果與分析

      2.3.1 主題爬蟲獲取相關(guān)頁(yè)面數(shù)量對(duì)比分析

      圖4 所有爬蟲主題“作者姓名”獲取相關(guān)網(wǎng)頁(yè)數(shù)量對(duì)比

      為驗(yàn)證主題上位詞替換方法的有效性,先進(jìn)行如下實(shí)驗(yàn),本文將作者的名字作為主題,使用本文研究的主題爬蟲進(jìn)行頁(yè)面獲取,得到結(jié)果如圖4所示.

      從圖4中可以看出,由于網(wǎng)絡(luò)中不存在更多與作者姓名為主題的相關(guān)頁(yè)面,因此爬蟲不到500頁(yè)時(shí),所有爬蟲的頁(yè)面抓取數(shù)量都增加緩慢,此時(shí),將主題詞人為地替換為作者所在學(xué)校與院系并進(jìn)行主題擴(kuò)展,相關(guān)頁(yè)面數(shù)量呈明顯的上升趨勢(shì),證明了主題上位詞替換的有效性,使得ESVSM爬蟲具有一定的穿越通道的能力.但由于網(wǎng)絡(luò)中相關(guān)頁(yè)面數(shù)量較少,所以隨著檢索返回頁(yè)面數(shù)的增加,相關(guān)頁(yè)面數(shù)量沒(méi)有繼續(xù)增加,此時(shí)由于程序設(shè)定上位詞只替換一次,直到返回頁(yè)面數(shù)量達(dá)到5 000時(shí)退出程序.

      2.3.2 主題爬蟲獲取率對(duì)比分析

      爬蟲檢索相關(guān)頁(yè)面的速度可以用獲取率表示(見(jiàn)圖5).圖5中由于初始種子集合都是與主題相關(guān)的,所以在開(kāi)始階段VSM爬蟲表現(xiàn)最優(yōu),并且在檢索返回頁(yè)面達(dá)到500時(shí)最高,隨后開(kāi)始下降,并在1 000 以后,緩慢升高.本文提出的ESVSM爬蟲隨著檢索返回頁(yè)面數(shù)量的增加,一直呈上升趨勢(shì),尤其是返回前1 000 個(gè)頁(yè)面時(shí),之后上升速度略有降低.本文提出的ESVSM爬蟲與其他爬蟲相比,獲取率高出20%~30%.證明了ESVSM爬蟲的高效性.

      2.3.3 主題爬蟲獲取頁(yè)面平均相關(guān)度對(duì)比分析

      平均相關(guān)度能夠衡量爬行結(jié)果的質(zhì)量(見(jiàn)圖6).在爬行初始階段,各爬蟲爬行結(jié)果的平均相關(guān)度均較高,當(dāng)返回頁(yè)面數(shù)量超過(guò)2 500以后,ESVSM爬蟲爬行結(jié)果的平均相關(guān)度要高于其他爬蟲,并且隨頁(yè)面數(shù)量的增加呈上升趨勢(shì),平均準(zhǔn)確率可達(dá)到85%以上.

      圖5 主題爬蟲爬行獲取率對(duì)比

      3 結(jié)束語(yǔ)

      本文針對(duì)聚焦爬蟲算法存在的不足,提出ESVSM主題爬蟲算法,該算法通過(guò)LDA進(jìn)行主題模型構(gòu)建,并采用基于語(yǔ)義信息的向量空間模型計(jì)算文檔與主題的相似性,對(duì)于主題描述過(guò)于細(xì)化的情況,本文提出的主題爬蟲算法通過(guò)上位詞替換進(jìn)行解決.實(shí)驗(yàn)結(jié)果表明,本文提出的ESVSM爬蟲算法在爬行速度和爬行質(zhì)量上都有一定的提升.

      將來(lái)對(duì)網(wǎng)頁(yè)中其他的文檔如頁(yè)面內(nèi)容標(biāo)題等主題的相似度進(jìn)行判斷,并分析頁(yè)面中其他文檔對(duì)未訪問(wèn)URLs與主題相關(guān)性的影響.目前爬蟲的上位詞替換需要手動(dòng)檢索并替換,未來(lái)研究工作將實(shí)現(xiàn)上位詞的自動(dòng)替換.

      [參 考 文 獻(xiàn)]

      [1] RYAN G J,RYAN S W,RYAN C M,et al.Search engine:US,US6421675[P].2002-07-16.

      [2] DE BRA P M E,POST R D J.Information retrieval in the World-Wide Web:making client-based searching feasible[J].Computer Networks & Isdn Systems,1994,27(2):183-192.

      [3] PATEL A,TING P.Apparatus,method,and computer program for dynamic processing,selection,and/or manipulation of content:US,US20120209963[P].2012-08-16.

      [4] LIN J W,WANG F.Using semantic similarity for input topic identification in crawling-based web application testing[DB/OL].2016[2018-03-23].https://arxiv.org/abs/1608.06549.

      [5] DONG H,HUSSAIN F K.SOF:a semi-supervised ontology-learning-based focused crawler[J].Concurrency & Computation Practice & Experience,2013,25(12):1755-1770.

      [6] DU Y,LIU W,LYU X,et al.An improved focused crawler based on semantic similarity vector space model[J].Applied Soft Computing,2015,36:392-407.

      [7] 林超,趙朋朋,崔志明.Deep Web數(shù)據(jù)源聚焦爬蟲[J].計(jì)算機(jī)工程,2008,34(7):56-58.

      [8] YU R,GADIRAJU U,F(xiàn)ETAHU B,et al.Adaptive focused crawling of linked data[C]// International Conference on Web Information Systems Engineering.Berlin:Springer,2015:554-569.

      [9] HOFMANN T.Probabilistic topic maps:navigating through large text collections[C]// Advances in Intelligent Data Analysis.Berlin:Springer,1999:161-172.

      [10] BLEI D M,NG A Y,JORDAN M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022.

      [11] BRIN S,PAGE L.The anatomy of a large-scale hypertextual Web search engine[J].Computer Networks & Isdn Systems,1998,30(98):107-117.

      [12] KLEINBERG J M,KUMAR R,RAGHAVAN P,et al.The Web as a graph:measurements,models,and methods[C]// Proceedings of the 5th Annual International Conference on Computing and Combinatorics.Berlin:Springer,1999:1-17.

      [14] 殷耀明,張東站.基于關(guān)系向量模型的句子相似度計(jì)算[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(2):198-203.

      [15] CHO J,GARCIA-MOLINA H,PAGE L.Efficient crawling through URL ordering[J].Computer Networks & Isdn Systems,1998,30:161-172.

      [16] LIU W J,DU Y J.A novel focused crawler based on cell-like membrane computing optimization algorithm[J].Neurocomputing,2014,123:266-280.

      猜你喜歡
      詞項(xiàng)爬蟲上位
      利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說(shuō)
      基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
      自然種類詞項(xiàng)二難、卡茨解決與二維框架
      特斯拉 風(fēng)云之老阿姨上位
      車迷(2018年12期)2018-07-26 00:42:22
      利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
      大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
      電子制作(2017年9期)2017-04-17 03:00:46
      “三扶”齊上位 決戰(zhàn)必打贏
      基于ZigBee和VC上位機(jī)的教室智能監(jiān)測(cè)管理系統(tǒng)
      以新思路促推現(xiàn)代農(nóng)業(yè)上位
      英語(yǔ)詞項(xiàng)搭配范圍及可預(yù)見(jiàn)度
      色达县| 漳平市| 平江县| 罗江县| 乌兰察布市| 阜平县| 孝义市| 乐陵市| 廉江市| 田阳县| 上林县| 建始县| 高青县| 高密市| 孟州市| 西峡县| 邮箱| 景泰县| 萨迦县| 夏河县| 平度市| 水富县| 锦屏县| 穆棱市| 隆化县| 河津市| 海伦市| 扎鲁特旗| 高安市| 阿合奇县| 新绛县| 鄂温| 龙游县| 苍山县| 仙游县| 揭西县| 烟台市| 营山县| 柘荣县| 泰州市| 富裕县|