• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    開(kāi)源網(wǎng)絡(luò)爬蟲(chóng)在垂直搜索引擎應(yīng)用

    2015-05-30 16:14:34劉偉光

    [摘 要]分析了聚焦爬蟲(chóng)的工作原理和關(guān)鍵技術(shù),對(duì)幾種開(kāi)源網(wǎng)絡(luò)爬蟲(chóng)的功能特點(diǎn)和使用范圍進(jìn)行比較,而后通過(guò)改造Heritrix軟件的關(guān)鍵模塊和功能接口,以抓取中國(guó)西藏網(wǎng)新聞為例,實(shí)現(xiàn)了開(kāi)源爬蟲(chóng)軟件在垂直搜索的應(yīng)用。

    [關(guān)鍵詞]垂直搜索;聚焦爬蟲(chóng);Heritrix

    [中圖分類(lèi)號(hào)]TP393 [文獻(xiàn)標(biāo)志碼] A

    Application of the Open-Source Web Crawler on Vertical Search Engine

    Liu Weiguang

    (1.Library of Xizang Minzu University , Xianyang Shanxi 712082,China)

    Abstract: The thesis analyzes the working principle and key technology for focused crawler, and compares the characteristics function and use range for several kinds of open-source web crawler. After that, through modifying heritrix software module and function interface, the open-source web crawler has been applied in vertical search engine to test Chinese Tibet news Web as an example .

    Key words: Vertical Search Engine; Focused Crawler; Heritrix

    0 引 言

    在信息化時(shí)代,針對(duì)通用搜索引擎信息量大、查詢(xún)準(zhǔn)度和深度兼差等缺點(diǎn),垂直搜索引擎已進(jìn)入了用戶(hù)認(rèn)可和使用周期。垂直搜索是針對(duì)某一個(gè)行業(yè)的專(zhuān)業(yè)搜索引擎,是對(duì)網(wǎng)頁(yè)庫(kù)中的某類(lèi)專(zhuān)門(mén)的信息進(jìn)行一次整合,定向分字段抽取出需要的數(shù)據(jù)進(jìn)行處理后再以某種形式返回給用戶(hù)[1]。相比通用搜索引擎則顯得更加專(zhuān)注、具體和深入。目前,垂直搜索引擎多用于行業(yè)信息獲取和特色語(yǔ)料庫(kù)建設(shè)等方面,且已卓見(jiàn)現(xiàn)實(shí)深遠(yuǎn)成效。

    網(wǎng)絡(luò)爬蟲(chóng)是一個(gè)自動(dòng)提取和自動(dòng)下載網(wǎng)頁(yè)的程序,可為搜索引擎從互聯(lián)網(wǎng)上下載網(wǎng)頁(yè),并根據(jù)既定的抓取目標(biāo),有選擇地訪(fǎng)問(wèn)互聯(lián)網(wǎng)上的網(wǎng)頁(yè)與相關(guān)的鏈接,獲取所需要的信息。按照功能用途,網(wǎng)絡(luò)爬蟲(chóng)分為通用爬蟲(chóng)和聚焦爬蟲(chóng),這是搜索引擎一個(gè)核心組成部分。

    1聚焦爬蟲(chóng)的工作原理及關(guān)鍵技術(shù)分析

    1.1聚焦爬蟲(chóng)的工作原理

    聚焦爬蟲(chóng)是專(zhuān)門(mén)為查詢(xún)某一主題而設(shè)計(jì)的網(wǎng)頁(yè)采集工具,并不追求大范圍覆蓋,而是將目標(biāo)預(yù)定為抓取與某一特定主題內(nèi)容相關(guān)的網(wǎng)頁(yè),如此即為面向主題的用戶(hù)查詢(xún)準(zhǔn)備數(shù)據(jù)資源。垂直搜索引擎可利用其實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)主題信息的挖掘以及發(fā)現(xiàn),聚焦爬蟲(chóng)的工作原理是:

    (1)爬蟲(chóng)從一個(gè)或若干起始網(wǎng)頁(yè) URL 鏈接開(kāi)始工作;

    (2)通過(guò)特定的主題相關(guān)性算法判斷并過(guò)濾掉與主題無(wú)關(guān)的鏈接;

    (3)將有用鏈接加入待抓取的URL隊(duì)列;

    (4)根據(jù)一定的搜索策略從待抓取 URL 隊(duì)列中選擇下一步要抓取的網(wǎng)頁(yè) URL;

    重復(fù)以上步驟,直至滿(mǎn)足退出條件時(shí)停止[2]。

    1.2聚焦爬蟲(chóng)的幾個(gè)關(guān)鍵技術(shù)

    根據(jù)聚焦爬蟲(chóng)的工作原理,在設(shè)計(jì)聚焦爬蟲(chóng)時(shí),需要考慮問(wèn)題可做如下論述。

    1.2.1 待抓取網(wǎng)站目標(biāo)的定義與描述的問(wèn)題

    開(kāi)發(fā)聚焦爬蟲(chóng)時(shí),應(yīng)考慮對(duì)于抓取目標(biāo)的定義與描述,究竟是帶有目標(biāo)網(wǎng)頁(yè)特征的網(wǎng)頁(yè)級(jí)信息,還是針對(duì)目標(biāo)網(wǎng)頁(yè)上的結(jié)構(gòu)化數(shù)據(jù)。前者因其具有結(jié)構(gòu)化的數(shù)據(jù)信息特征,在爬蟲(chóng)抓取信息后,還需從結(jié)構(gòu)化的網(wǎng)頁(yè)中抽取相關(guān)信息;而對(duì)于后者,爬蟲(chóng)則直接解析Web 頁(yè)面,提取并加工相關(guān)的結(jié)構(gòu)化數(shù)據(jù)信息,該類(lèi)爬蟲(chóng)便于定制自適應(yīng)于特定網(wǎng)頁(yè)模板的結(jié)果網(wǎng)站。

    1.2.2 爬蟲(chóng)的URL搜索策略問(wèn)題

    開(kāi)發(fā)聚焦爬蟲(chóng)時(shí),常見(jiàn)的URL搜索策略主要包括深度優(yōu)先搜索策略、廣度優(yōu)先搜索策略、最佳優(yōu)先搜索策略等[3]。在此給出對(duì)應(yīng)策略的規(guī)則分析如下。

    (1) 深度優(yōu)先搜索策略

    該搜索策略采用了后進(jìn)先出的隊(duì)列方式,從起始 URL 出發(fā),不停搜索網(wǎng)頁(yè)的下一級(jí)頁(yè)面直至最后無(wú) URL 鏈接的網(wǎng)頁(yè)頁(yè)面結(jié)束;爬蟲(chóng)再回到起始 URL地址,繼續(xù)探尋 URL的其它URL 鏈接,直到不再有 URL 可搜索為止,當(dāng)所有頁(yè)面都結(jié)束時(shí),URL列表即按照倒敘的方式將搜索的URL隊(duì)列送入爬蟲(chóng)待抓取隊(duì)列。

    (2) 廣度優(yōu)先搜索策略

    該搜索策略采用了先進(jìn)先出的隊(duì)列方式,從起始 URL 出發(fā),在搜索了初始web的所有URL 鏈接后,再繼續(xù)搜索下一層 URL 鏈接,直至所有URL搜索完畢。URL列表將按照其進(jìn)入隊(duì)列的順序送入爬蟲(chóng)待抓取隊(duì)列。

    (3) 最佳優(yōu)先搜索策略

    該搜索策略采用了一種局部?jī)?yōu)先搜索算法,從起始 URL 出發(fā),按照一定的分析算法,對(duì)頁(yè)面候選的URL進(jìn)行預(yù)測(cè),預(yù)測(cè)目標(biāo)網(wǎng)頁(yè)的相似度或主題相關(guān)性,當(dāng)相關(guān)性達(dá)到一定的閾值后,URL列表則按照相關(guān)數(shù)值高低順序送入爬蟲(chóng)待抓取隊(duì)列。

    1.2.3 爬蟲(chóng)對(duì)網(wǎng)頁(yè)頁(yè)面的分析和主題相關(guān)性判斷算法

    聚焦爬蟲(chóng)在對(duì)網(wǎng)頁(yè)Web的URL進(jìn)行擴(kuò)展時(shí),還需要對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行分析和信息的提取,用以確定該獲取URL頁(yè)面是否與采集的主題相關(guān)。目前常用的網(wǎng)頁(yè)的分析算法包括:基于網(wǎng)絡(luò)拓?fù)洹⒒诰W(wǎng)頁(yè)內(nèi)容和基于領(lǐng)域概念的分析算法[4]。下面給出這三類(lèi)算法的原理實(shí)現(xiàn)。

    (1)基于網(wǎng)絡(luò)拓?fù)潢P(guān)系的分析算法

    基于網(wǎng)絡(luò)拓?fù)潢P(guān)系的分析算法就是可以通過(guò)已知的網(wǎng)頁(yè)頁(yè)面或數(shù)據(jù),對(duì)與其有直接或間接鏈接關(guān)系的對(duì)象作出評(píng)價(jià)的實(shí)現(xiàn)過(guò)程。該算法又分為網(wǎng)頁(yè)粒度、網(wǎng)站粒度和網(wǎng)頁(yè)塊粒度三種。著名的PageRank和HITS算法就是基于網(wǎng)絡(luò)拓?fù)潢P(guān)系的典型代表。

    (2)基于網(wǎng)頁(yè)內(nèi)容的分析算法

    基于網(wǎng)頁(yè)內(nèi)容的分析算法指的是利用網(wǎng)頁(yè)內(nèi)容(文本、數(shù)據(jù)等資源)特征進(jìn)行的網(wǎng)頁(yè)評(píng)價(jià)。該方法已從最初的文本檢索方法,向網(wǎng)頁(yè)數(shù)據(jù)抽取、數(shù)據(jù)挖掘和自然語(yǔ)言等多領(lǐng)域方向發(fā)展。

    (3)基于領(lǐng)域概念的分析算法

    基于領(lǐng)域概念的分析算法則是將領(lǐng)域本體分解為由不同的概念、實(shí)體及其之間的關(guān)系,包括與之對(duì)應(yīng)的詞匯項(xiàng)組成。網(wǎng)頁(yè)中的關(guān)鍵詞在通過(guò)與領(lǐng)域本體對(duì)應(yīng)的詞典分別轉(zhuǎn)換之后,將進(jìn)行計(jì)數(shù)和加權(quán),由此得出與所選領(lǐng)域的相關(guān)度。

    2幾種開(kāi)源網(wǎng)絡(luò)爬蟲(chóng)性能比較

    目前,互聯(lián)網(wǎng)上推出有許多的開(kāi)源網(wǎng)絡(luò)爬蟲(chóng),易于開(kāi)發(fā)和擴(kuò)展的主要包括Nutch、Larbin、Heritrix等,下面即針對(duì)這三類(lèi)爬蟲(chóng)進(jìn)行實(shí)用性?xún)?nèi)容介紹[5]:

    (1)Heritrix 是Java 開(kāi)發(fā)的開(kāi)源 Web 爬蟲(chóng)系統(tǒng),是Internet Archive 的一個(gè)爬蟲(chóng)項(xiàng)目。這是開(kāi)源、可擴(kuò)展、Web范圍內(nèi)并帶有存檔性質(zhì)的網(wǎng)絡(luò)爬蟲(chóng)。該系統(tǒng)允許用戶(hù)選擇擴(kuò)展各個(gè)組件,進(jìn)而實(shí)現(xiàn)自定的抓取邏輯。Heritrix默認(rèn)提供的組件能夠完成通用爬蟲(chóng)的功能,用戶(hù)即可根據(jù)實(shí)際需求定制相應(yīng)模塊,也可實(shí)現(xiàn)聚焦爬蟲(chóng)的功能。

    (2)Larbin是一種由C++開(kāi)發(fā)的開(kāi)源網(wǎng)絡(luò)爬蟲(chóng),larbin能夠跟蹤頁(yè)面的URL進(jìn)行擴(kuò)展的抓取,從而為搜索引擎提供廣泛的數(shù)據(jù)來(lái)源。該程序由法國(guó)人 Sébastien Ailleret獨(dú)立開(kāi)發(fā),只是2003年后,Labin已退出了更新。

    (3)Nutch是Apache的子項(xiàng)目之一,且是Lucene下的子項(xiàng)目,重點(diǎn)是其中自己提供了搜索引擎所需的全部工具,當(dāng)然,Nutch只獲取并保存可索引的內(nèi)容,卻無(wú)法保持抓取網(wǎng)頁(yè)原貌。

    在此,研究可得三種開(kāi)源網(wǎng)絡(luò)爬蟲(chóng)的功能特點(diǎn)和使用范圍比較,具體如表1所示。

    表1 三種開(kāi)源爬蟲(chóng)功能特點(diǎn)的和使用范圍

    Tab.1 Function characteristics and use range of three types of open source crawlers

    名稱(chēng) 使用平臺(tái) 開(kāi)發(fā)語(yǔ)言 效率 鏡像

    保存 分布抓取 功能

    單一 優(yōu)點(diǎn) 缺點(diǎn)

    Heritrix Windows/ Linux Java 中 是 否 是 高可擴(kuò)展性,性能穩(wěn)定,對(duì)抓取的控制性功能齊全。 對(duì)中文支持較差,容錯(cuò)性機(jī)制差。

    Larbin Linux C++ 高 是 否 是 爬蟲(chóng)性能好,穩(wěn)定性強(qiáng)。 沒(méi)有刪除功能,排重可能誤判。

    Nutch Windows/ Linux Java 低 否 是 否 爬蟲(chóng)和Lucene及Hadoop的結(jié)合很好,便于開(kāi)發(fā)搜索引擎。 系統(tǒng)不穩(wěn)定。

    通過(guò)如上內(nèi)容分析,可以得出以下結(jié)論:

    (1)從功能方面來(lái)說(shuō),Heritrix與Larbin的功能類(lèi)似,都是一個(gè)純粹的網(wǎng)絡(luò)爬蟲(chóng),提供網(wǎng)站的鏡像下載。Nutch則是一個(gè)網(wǎng)絡(luò)搜索引擎框架,爬取網(wǎng)頁(yè)只是其功能的一部分。

    (2)從分布式處理來(lái)說(shuō),Nutch支持分布式處理,而其它兩個(gè)尚不支持。

    (3)從爬取的網(wǎng)頁(yè)存儲(chǔ)方式來(lái)說(shuō),Heritrix和 Larbin都是將爬取所獲內(nèi)容保存為原始類(lèi)型的內(nèi)容。而Nutch是將內(nèi)容保存到其特定格式中去。

    (4)對(duì)于爬取所獲內(nèi)容的處理來(lái)說(shuō),Heritrix和 Larbin都是將爬取后的結(jié)果內(nèi)容不經(jīng)處理直接保存為原始內(nèi)容。而Nutch卻將對(duì)文本進(jìn)行包括鏈接分析、正文提取、建立索引等深層處理。

    (5)從爬取的效率來(lái)說(shuō),Larbin效率較高,因?yàn)槠鋵?shí)現(xiàn)語(yǔ)言是c++并且功能相對(duì)單一,但是該程序缺乏必要的更新服務(wù)。

    在進(jìn)行了有關(guān)軟件的擴(kuò)展性、鏡像保存方式及軟件更新等方面因素的綜合分析比對(duì)后,本文將擇取并利用Heritrix開(kāi)源軟件來(lái)實(shí)現(xiàn)聚焦爬蟲(chóng)的設(shè)計(jì)。

    3 基于Heritrix軟件聚焦爬蟲(chóng)的設(shè)計(jì)

    在利用開(kāi)源Heritrix軟件進(jìn)行聚焦爬蟲(chóng)設(shè)計(jì)時(shí), 以中國(guó)西藏網(wǎng)http://tb.tibet.cn/為例,針對(duì)有目標(biāo)網(wǎng)頁(yè)特征的網(wǎng)頁(yè)級(jí)信息配置正則表達(dá)式,采用深度優(yōu)先搜索策略進(jìn)行URL擴(kuò)展,利用網(wǎng)頁(yè)內(nèi)容關(guān)于“主題相關(guān)度”[6]的分析算法進(jìn)行主題判斷,實(shí)現(xiàn)聚焦爬蟲(chóng)的網(wǎng)站采集功能。

    3.1開(kāi)源Heritrix軟件工作原理

    Heritrix開(kāi)源軟件采集網(wǎng)頁(yè)的方法是采取深度優(yōu)先搜索策略,遍歷網(wǎng)站的每一個(gè)URI,分析并生成本地文件及相應(yīng)的日志信息等,Heritrix軟件抓取的是與原網(wǎng)頁(yè)一致的、完整的深度復(fù)制,包括圖像以及其他非文本內(nèi)容,抓取后并存儲(chǔ)相關(guān)的內(nèi)容。在網(wǎng)頁(yè)采集過(guò)程中,Heritrix軟件不對(duì)頁(yè)面上內(nèi)容進(jìn)行修改,爬行相同的URL不進(jìn)行替換。Heritrix軟件通過(guò)Web用戶(hù)界面啟動(dòng)、監(jiān)控、調(diào)整、允許彈性地定義要獲取的URL。Heritrix軟件包含核心模塊和插件模塊。核心模塊能夠配置但不能覆蓋,插入模塊配置是否加載,也可以由第三方模塊取代。

    3.2 開(kāi)源Heritrix 軟件關(guān)鍵模塊的改進(jìn)

    3.2.1 修改Extractor解析器

    修改Heritrix的Extractor解析器時(shí),可采用正則表達(dá)式的方式擴(kuò)展待抓取的網(wǎng)頁(yè)。例如,在抓取中國(guó)西藏網(wǎng)的新聞時(shí),在Extractor解析器配置正則表達(dá)式:http://tb.tibet.cn/[0-9a-z]*/[a-z/]*/[0-9]*/[0-9a-z-]*.htm(|l)$,這樣就把服務(wù)器域名下的網(wǎng)頁(yè)所有信息全部抓取下來(lái)。但是,考慮垂直搜索引擎的使用范圍和聚焦爬蟲(chóng)對(duì)網(wǎng)頁(yè)主題的過(guò)濾功能,需要設(shè)計(jì)與實(shí)際主題搜索應(yīng)用相匹配的專(zhuān)用解析器,專(zhuān)用解析器extract(CrawlURL)要實(shí)現(xiàn)以下功能:

    (1)對(duì)所有不含有要抓取的結(jié)構(gòu)化信息頁(yè)面的 URL、又不含有可以集中提取前者 URL 的種子型 URL,都不作處理。

    (2)從可以集中提取含結(jié)構(gòu)化信息頁(yè)面 URL 的種子型 URL(如地方新聞目錄 URL),提取全部的含結(jié)構(gòu)化信息頁(yè)面的 URL(如地方信息列表 URL)。

    (3)從含結(jié)構(gòu)化信息頁(yè)面的 URL 提取所需的結(jié)構(gòu)化信息,并加以記錄。

    3.2.2 擴(kuò)展 Frontierscheduler模塊

    FrontierScheduler 是一個(gè) PostProcessor,其作用是將 Extractor所分析得出的鏈接加入到 Frontier 中,以待繼續(xù)處理,聚焦爬蟲(chóng)實(shí)現(xiàn)關(guān)鍵詞對(duì)主題的判斷算法就在該模塊中構(gòu)建并執(zhí)行。主題相關(guān)度判斷的關(guān)鍵代碼如下:

    public void GetCount(String path,CandidateURI caUri)

    {//判斷待抓取網(wǎng)頁(yè)與主題是否相關(guān)

    try {

    String s=sb.getStrings();//s 取網(wǎng)頁(yè)正文字符

    Len=length(s);//求網(wǎng)頁(yè)字符數(shù)

    float d=0;//初始化 d,用于計(jì)算所有導(dǎo)向詞的權(quán)重和

    for(int i=0;i<100;i++)//遍歷選取 100 個(gè)導(dǎo)向詞

    {count=0,int j=1;//count為導(dǎo)向詞出現(xiàn)次數(shù),j 為導(dǎo)向詞在字符串的位置

    t= length(a[i]);//求第 i 個(gè)導(dǎo)向詞的字符個(gè)數(shù)

    While(j<=len){

    int index=s.indexOf(a[i],j,len);//查找字串在 j+1 到 end 之間第一個(gè)字符首次出現(xiàn)的位置

    if(index!=-1)//找到后,繼續(xù)在余下的字符串中找

    {count++;

    j=index+t+1;}

    Else

    Break;

    }

    D(i)=count*b(i);//D(i)是第 i 個(gè)導(dǎo)向詞的權(quán)重,b(i)表示 i 個(gè)導(dǎo)向詞的權(quán)值。

    d=d+ D(i);//將所有導(dǎo)向詞的權(quán)重求和

    }

    k=1/len * 1/100 * d;//k 是網(wǎng)頁(yè)主題相關(guān)度,len是文章字符數(shù),100個(gè)導(dǎo)向詞

    if(k>0.6) ; //相關(guān)度判斷

    {System.out.println("count:"+count);//表示輸出

    getController().getFrontier().schedule(caUri); //當(dāng)前 url 加入 heritix 采集隊(duì)列 }

    }

    3.3 Heritrix聚焦爬蟲(chóng)接口的設(shè)計(jì)

    Heritrix 網(wǎng)絡(luò)爬蟲(chóng)是一個(gè)通用的網(wǎng)頁(yè)采集工具,需要對(duì)Heritrix 抓取和分析網(wǎng)頁(yè)的行為進(jìn)行一定的控制,修改Extractor和 Frontierscheduler模塊后,需要對(duì)其各個(gè)功能接口進(jìn)行操作調(diào)試,由此保證聚焦爬蟲(chóng)功能的全面實(shí)現(xiàn)。下面即對(duì)重要功能接口進(jìn)行必要介紹。

    (1)應(yīng)用接口

    在設(shè)計(jì)聚焦爬蟲(chóng)時(shí),應(yīng)定制一個(gè)應(yīng)用接口模塊以供用戶(hù)使用,具體將負(fù)責(zé)與Heritrix 軟件關(guān)聯(lián),以提供啟、停爬蟲(chóng)、獲取網(wǎng)址、采集關(guān)鍵詞等功能實(shí)現(xiàn)。

    (2)數(shù)據(jù)庫(kù)查詢(xún)和修改接口

    在設(shè)計(jì)聚焦爬蟲(chóng)時(shí),應(yīng)設(shè)計(jì)相應(yīng)的數(shù)據(jù)庫(kù)接口,負(fù)責(zé)下載并發(fā)現(xiàn)與主題相關(guān)的網(wǎng)頁(yè)信息、再保存到數(shù)據(jù)庫(kù)的表中。存儲(chǔ)的字段包括:網(wǎng)頁(yè)URL,本地存儲(chǔ)相對(duì)路徑,下載時(shí)間,HTTP頭中抽取的網(wǎng)頁(yè)編碼,關(guān)鍵詞id等。

    (3)去重接口

    因?yàn)镠eritrix對(duì)相同的URL不進(jìn)行替換,爬蟲(chóng)工作時(shí)會(huì)下載大量重復(fù)的網(wǎng)頁(yè),為了節(jié)省空間、并獲取準(zhǔn)確的采集結(jié)果,就必須按照設(shè)定規(guī)則對(duì)重復(fù)下載的網(wǎng)頁(yè)進(jìn)行刪除。

    4 結(jié)束語(yǔ)

    通過(guò)以上對(duì)開(kāi)源Heritrix軟件的改進(jìn),聚焦爬蟲(chóng)已能根據(jù)預(yù)設(shè)的關(guān)鍵詞進(jìn)行網(wǎng)站抓取,并按照算法判斷,當(dāng)網(wǎng)頁(yè)的主題相關(guān)度閾值大于0.6時(shí),即聚焦爬蟲(chóng)下載網(wǎng)頁(yè),至此爬蟲(chóng)實(shí)現(xiàn)了指定網(wǎng)站的主題搜索。綜上可見(jiàn),可以改進(jìn)開(kāi)源網(wǎng)絡(luò)爬蟲(chóng)并使其在垂直搜索引擎中獲得成功立項(xiàng)使用。

    參考文獻(xiàn):

    [1]劉運(yùn)強(qiáng). 垂直搜索引擎的研究與設(shè)計(jì)[J]. 計(jì)算機(jī)應(yīng)用與軟件,2010, 127(7): 130-132.

    [2]劉偉光. 一種基于改進(jìn)向量空間模型的藏文主題網(wǎng)頁(yè)采集方法[J]. 圖書(shū)館學(xué)研究,2014, 16:55-62.

    [3]陳歡. 面向垂直搜索引擎的聚焦網(wǎng)絡(luò)爬蟲(chóng)關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D]. 華中師范大學(xué), 2014.

    [4] 焦賽美. 網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的研究[J]. 瓊州學(xué)院學(xué)報(bào), 2010, 18(5): 28-30.

    [5] 網(wǎng)絡(luò)爬蟲(chóng)淺析[EB/OL]. [2011-03-05].http://xiangxingchina.iteye.com/blog/941349.

    [6] 羅剛,王振東.自己手動(dòng)寫(xiě)網(wǎng)絡(luò)爬蟲(chóng)[M].北京:清華大學(xué)出版社,2010:34-36.

    亚洲av电影在线进入| 亚洲人成网站在线播放欧美日韩| 精品无人区乱码1区二区| 亚洲第一青青草原| 亚洲欧美一区二区三区黑人| 99精品欧美一区二区三区四区| 亚洲精品国产区一区二| 日本三级黄在线观看| av有码第一页| 美女大奶头视频| 亚洲精品在线观看二区| 免费一级毛片在线播放高清视频 | 亚洲成a人片在线一区二区| or卡值多少钱| 一进一出好大好爽视频| 日韩欧美国产一区二区入口| 午夜日韩欧美国产| 精品久久久久久成人av| 性色av乱码一区二区三区2| 成人国产一区最新在线观看| 国产免费男女视频| 国产片内射在线| 在线观看午夜福利视频| 在线视频色国产色| 老熟妇乱子伦视频在线观看| 精品国产乱子伦一区二区三区| 一本久久中文字幕| 99精品欧美一区二区三区四区| 久久久久亚洲av毛片大全| 黄色 视频免费看| 午夜视频精品福利| 国产亚洲精品av在线| 免费久久久久久久精品成人欧美视频| www国产在线视频色| 亚洲av电影不卡..在线观看| 国产欧美日韩一区二区精品| 国产欧美日韩一区二区三区在线| 看片在线看免费视频| 亚洲成国产人片在线观看| 夜夜夜夜夜久久久久| 一区在线观看完整版| 亚洲视频免费观看视频| 一区二区三区高清视频在线| 欧美一级a爱片免费观看看 | 天天一区二区日本电影三级 | 人人妻,人人澡人人爽秒播| 在线观看www视频免费| 9热在线视频观看99| 国产成人av激情在线播放| 色av中文字幕| 久久久久久久精品吃奶| 成在线人永久免费视频| 精品久久久久久久毛片微露脸| 亚洲中文av在线| 久久天堂一区二区三区四区| 亚洲三区欧美一区| 久久青草综合色| 十分钟在线观看高清视频www| 禁无遮挡网站| 变态另类丝袜制服| 91字幕亚洲| 97人妻天天添夜夜摸| 中文字幕av电影在线播放| 成人亚洲精品av一区二区| 欧美日韩一级在线毛片| 免费人成视频x8x8入口观看| 丰满的人妻完整版| 大型黄色视频在线免费观看| 一本大道久久a久久精品| 精品欧美一区二区三区在线| 一本久久中文字幕| 18禁美女被吸乳视频| 天堂√8在线中文| 一a级毛片在线观看| 激情视频va一区二区三区| 成人精品一区二区免费| 九色国产91popny在线| 99久久精品国产亚洲精品| 黑丝袜美女国产一区| 美女高潮喷水抽搐中文字幕| 国产精品久久久久久精品电影 | 国产亚洲精品综合一区在线观看 | 欧美午夜高清在线| 国产亚洲精品第一综合不卡| 欧美精品亚洲一区二区| 亚洲av电影不卡..在线观看| 又大又爽又粗| 久久久久久久久久久久大奶| 久久精品成人免费网站| 18禁裸乳无遮挡免费网站照片 | 国产精品98久久久久久宅男小说| 午夜福利影视在线免费观看| 高潮久久久久久久久久久不卡| 窝窝影院91人妻| 麻豆一二三区av精品| 在线观看舔阴道视频| 黑人欧美特级aaaaaa片| 国产精品 欧美亚洲| 国产精品一区二区在线不卡| 老司机午夜十八禁免费视频| 女警被强在线播放| 国产国语露脸激情在线看| aaaaa片日本免费| 国产成人av教育| 久久精品国产亚洲av高清一级| 国产一区二区三区综合在线观看| 久久狼人影院| 国产欧美日韩一区二区三| 精品国产美女av久久久久小说| 国产亚洲精品第一综合不卡| 亚洲全国av大片| 国产99白浆流出| 一二三四在线观看免费中文在| www日本在线高清视频| 女人爽到高潮嗷嗷叫在线视频| 看免费av毛片| 天堂影院成人在线观看| 免费在线观看日本一区| 天堂影院成人在线观看| www国产在线视频色| 美女 人体艺术 gogo| 午夜精品在线福利| 丝袜人妻中文字幕| 老鸭窝网址在线观看| 一夜夜www| 国产精品精品国产色婷婷| 国产精品自产拍在线观看55亚洲| 最近最新免费中文字幕在线| 欧美人与性动交α欧美精品济南到| 亚洲精华国产精华精| 欧美在线一区亚洲| 精品免费久久久久久久清纯| 嫩草影院精品99| 亚洲精品国产精品久久久不卡| 老汉色av国产亚洲站长工具| 一区二区日韩欧美中文字幕| 久久精品国产清高在天天线| 亚洲成av片中文字幕在线观看| 国产一区二区在线av高清观看| 亚洲av成人av| 黄片小视频在线播放| 久久人人精品亚洲av| 一a级毛片在线观看| 欧美黑人欧美精品刺激| 国产精品av久久久久免费| 69av精品久久久久久| 精品国产乱码久久久久久男人| 麻豆av在线久日| 18禁黄网站禁片午夜丰满| 91麻豆av在线| √禁漫天堂资源中文www| 久久香蕉激情| 高清毛片免费观看视频网站| a在线观看视频网站| 久久久精品国产亚洲av高清涩受| 色尼玛亚洲综合影院| 亚洲色图综合在线观看| 熟妇人妻久久中文字幕3abv| 久久青草综合色| netflix在线观看网站| 丝袜美足系列| 免费在线观看日本一区| 久久精品国产综合久久久| 国产精品1区2区在线观看.| 伊人久久大香线蕉亚洲五| 91成人精品电影| 国产一区在线观看成人免费| 欧美黑人欧美精品刺激| 久久久国产精品麻豆| 久久中文字幕人妻熟女| www.www免费av| 狂野欧美激情性xxxx| 免费观看精品视频网站| 午夜福利影视在线免费观看| 色播在线永久视频| 中文字幕av电影在线播放| 中文字幕高清在线视频| 九色亚洲精品在线播放| 此物有八面人人有两片| 色在线成人网| 美女大奶头视频| 国产精品香港三级国产av潘金莲| 亚洲国产看品久久| 亚洲,欧美精品.| 一二三四社区在线视频社区8| 久久久久久国产a免费观看| 日韩欧美免费精品| 久久亚洲真实| 母亲3免费完整高清在线观看| www.www免费av| 中文字幕人妻熟女乱码| bbb黄色大片| 97超级碰碰碰精品色视频在线观看| 少妇的丰满在线观看| 国产激情久久老熟女| 国产精品一区二区在线不卡| 亚洲欧美日韩高清在线视频| 91精品国产国语对白视频| 亚洲午夜理论影院| 在线国产一区二区在线| 日韩精品中文字幕看吧| 在线观看www视频免费| 一a级毛片在线观看| 国产精品香港三级国产av潘金莲| 午夜福利18| 午夜福利一区二区在线看| 亚洲av电影在线进入| 欧美乱妇无乱码| 欧美国产日韩亚洲一区| 搡老熟女国产l中国老女人| 欧美日韩瑟瑟在线播放| 成人av一区二区三区在线看| 国产精品久久久人人做人人爽| 国产一区二区三区综合在线观看| 久久久久久久久久久久大奶| 嫁个100分男人电影在线观看| 丝袜人妻中文字幕| 久99久视频精品免费| 97超级碰碰碰精品色视频在线观看| 精品一区二区三区av网在线观看| 一边摸一边抽搐一进一出视频| 97碰自拍视频| 国产一卡二卡三卡精品| 一进一出好大好爽视频| 国产精品爽爽va在线观看网站 | 在线观看66精品国产| 亚洲一区二区三区色噜噜| 男女做爰动态图高潮gif福利片 | 热99re8久久精品国产| 亚洲男人的天堂狠狠| 久久国产亚洲av麻豆专区| 成年版毛片免费区| 久久久久亚洲av毛片大全| 99国产精品免费福利视频| 亚洲中文av在线| 亚洲aⅴ乱码一区二区在线播放 | 伊人久久大香线蕉亚洲五| 中文字幕人妻丝袜一区二区| 国产一区二区三区在线臀色熟女| 丝袜美腿诱惑在线| a级毛片在线看网站| 男人操女人黄网站| 国产aⅴ精品一区二区三区波| 又黄又爽又免费观看的视频| 国产亚洲av高清不卡| 男女午夜视频在线观看| 亚洲第一青青草原| 女生性感内裤真人,穿戴方法视频| 韩国av一区二区三区四区| 国产亚洲精品一区二区www| 亚洲人成网站在线播放欧美日韩| 亚洲精品一区av在线观看| 色综合亚洲欧美另类图片| 国产精品av久久久久免费| 欧美色欧美亚洲另类二区 | 亚洲人成网站在线播放欧美日韩| 久久久久久人人人人人| 免费少妇av软件| 亚洲av美国av| 欧美日韩乱码在线| 两性夫妻黄色片| 久久久久久亚洲精品国产蜜桃av| 欧洲精品卡2卡3卡4卡5卡区| 看免费av毛片| 日韩国内少妇激情av| 日韩中文字幕欧美一区二区| 免费少妇av软件| 国产亚洲精品久久久久5区| 亚洲国产欧美一区二区综合| 在线观看免费日韩欧美大片| 给我免费播放毛片高清在线观看| 国产成人啪精品午夜网站| 亚洲一区二区三区不卡视频| 日本五十路高清| 日韩欧美三级三区| 叶爱在线成人免费视频播放| 日本 欧美在线| 免费不卡黄色视频| 搡老熟女国产l中国老女人| 纯流量卡能插随身wifi吗| 日韩 欧美 亚洲 中文字幕| 午夜福利,免费看| 91成年电影在线观看| 1024视频免费在线观看| 久久草成人影院| 国产伦一二天堂av在线观看| 亚洲精品在线观看二区| 亚洲中文av在线| 久久人妻福利社区极品人妻图片| 日韩av在线大香蕉| 国产高清有码在线观看视频 | 伦理电影免费视频| 老熟妇乱子伦视频在线观看| 婷婷六月久久综合丁香| 久久精品国产亚洲av高清一级| 欧美成狂野欧美在线观看| 亚洲av电影不卡..在线观看| 国产乱人伦免费视频| 欧美av亚洲av综合av国产av| 亚洲精品美女久久av网站| 午夜福利在线观看吧| 午夜久久久久精精品| 亚洲中文字幕日韩| 亚洲av成人av| 久久久久久久久久久久大奶| 欧美国产日韩亚洲一区| 韩国av一区二区三区四区| 国产成人欧美| 亚洲,欧美精品.| 男人的好看免费观看在线视频 | 丝袜在线中文字幕| av视频免费观看在线观看| 性色av乱码一区二区三区2| 欧美色欧美亚洲另类二区 | 美女高潮喷水抽搐中文字幕| 久久亚洲真实| 亚洲avbb在线观看| 欧美国产精品va在线观看不卡| 18禁观看日本| 男女床上黄色一级片免费看| 欧美色视频一区免费| 狂野欧美激情性xxxx| 看黄色毛片网站| 亚洲国产欧美日韩在线播放| 久久精品国产亚洲av香蕉五月| 一个人免费在线观看的高清视频| 真人一进一出gif抽搐免费| 成年女人毛片免费观看观看9| av天堂久久9| 成人精品一区二区免费| 老司机靠b影院| 国产精品久久久人人做人人爽| 久久精品国产亚洲av高清一级| 国产成人一区二区三区免费视频网站| 50天的宝宝边吃奶边哭怎么回事| 亚洲专区国产一区二区| 99re在线观看精品视频| 嫩草影院精品99| 国产亚洲av嫩草精品影院| 免费在线观看日本一区| 国产一级毛片七仙女欲春2 | 18禁观看日本| 久久久国产精品麻豆| 热99re8久久精品国产| 国产精品亚洲美女久久久| 身体一侧抽搐| 1024香蕉在线观看| 18美女黄网站色大片免费观看| 午夜久久久在线观看| 国产精品秋霞免费鲁丝片| 男男h啪啪无遮挡| 好男人电影高清在线观看| 午夜福利,免费看| 精品熟女少妇八av免费久了| 91九色精品人成在线观看| 国产精品香港三级国产av潘金莲| 麻豆av在线久日| 伦理电影免费视频| 一级a爱视频在线免费观看| 村上凉子中文字幕在线| 亚洲av日韩精品久久久久久密| 亚洲人成电影免费在线| 香蕉久久夜色| 一区二区日韩欧美中文字幕| 国产精华一区二区三区| 精品久久久久久久人妻蜜臀av | ponron亚洲| 一二三四社区在线视频社区8| 别揉我奶头~嗯~啊~动态视频| 一区二区三区国产精品乱码| 亚洲全国av大片| 亚洲av电影在线进入| 精品午夜福利视频在线观看一区| 国产精品1区2区在线观看.| 亚洲av成人av| 大香蕉久久成人网| 午夜免费鲁丝| www.自偷自拍.com| 亚洲精品中文字幕一二三四区| 校园春色视频在线观看| 曰老女人黄片| 亚洲第一青青草原| 午夜老司机福利片| 国产精品乱码一区二三区的特点 | 久久久国产成人免费| 好看av亚洲va欧美ⅴa在| 亚洲少妇的诱惑av| 俄罗斯特黄特色一大片| 国产精品久久电影中文字幕| 亚洲 欧美 日韩 在线 免费| 成人亚洲精品一区在线观看| 亚洲精品国产一区二区精华液| 亚洲欧美精品综合一区二区三区| 精品国产美女av久久久久小说| 桃红色精品国产亚洲av| 久久青草综合色| 日本五十路高清| av视频在线观看入口| √禁漫天堂资源中文www| 黄网站色视频无遮挡免费观看| 啦啦啦 在线观看视频| 99久久精品国产亚洲精品| 岛国在线观看网站| 宅男免费午夜| 亚洲人成电影免费在线| 757午夜福利合集在线观看| 婷婷六月久久综合丁香| 丝袜人妻中文字幕| 亚洲欧美日韩高清在线视频| 女人被躁到高潮嗷嗷叫费观| 亚洲第一欧美日韩一区二区三区| 欧美久久黑人一区二区| 欧美日韩黄片免| 国产三级黄色录像| 精品无人区乱码1区二区| 搞女人的毛片| 两个人免费观看高清视频| 午夜福利视频1000在线观看 | 涩涩av久久男人的天堂| 51午夜福利影视在线观看| 日本在线视频免费播放| 亚洲成人免费电影在线观看| АⅤ资源中文在线天堂| 国产成人一区二区三区免费视频网站| 精品国产国语对白av| 欧美在线黄色| 十八禁人妻一区二区| 国内精品久久久久精免费| 91字幕亚洲| 国产伦人伦偷精品视频| 亚洲第一欧美日韩一区二区三区| 激情在线观看视频在线高清| 久久天堂一区二区三区四区| 啪啪无遮挡十八禁网站| 人妻久久中文字幕网| 怎么达到女性高潮| 亚洲成人精品中文字幕电影| 十八禁人妻一区二区| 国产亚洲精品av在线| 宅男免费午夜| 午夜老司机福利片| 在线观看免费视频日本深夜| 色综合站精品国产| 午夜成年电影在线免费观看| 亚洲精品在线美女| 亚洲狠狠婷婷综合久久图片| 亚洲欧美精品综合久久99| 一级a爱视频在线免费观看| 91精品三级在线观看| 欧美一级毛片孕妇| 动漫黄色视频在线观看| 51午夜福利影视在线观看| 国产成人av激情在线播放| 涩涩av久久男人的天堂| 久久精品成人免费网站| 色综合婷婷激情| 日韩欧美一区二区三区在线观看| 黄色片一级片一级黄色片| 黑人巨大精品欧美一区二区mp4| 高清黄色对白视频在线免费看| 精品高清国产在线一区| 午夜免费观看网址| 欧美中文日本在线观看视频| 一二三四在线观看免费中文在| 日本精品一区二区三区蜜桃| 婷婷丁香在线五月| 天天躁夜夜躁狠狠躁躁| 最近最新免费中文字幕在线| 9191精品国产免费久久| 亚洲激情在线av| 亚洲成a人片在线一区二区| 国产视频一区二区在线看| 性色av乱码一区二区三区2| 亚洲在线自拍视频| 国产成人系列免费观看| 午夜福利视频1000在线观看 | 宅男免费午夜| 精品午夜福利视频在线观看一区| 午夜福利高清视频| 亚洲精华国产精华精| 亚洲国产日韩欧美精品在线观看 | 精品国产一区二区久久| 亚洲色图av天堂| 中文字幕另类日韩欧美亚洲嫩草| 脱女人内裤的视频| 亚洲少妇的诱惑av| 麻豆av在线久日| 91九色精品人成在线观看| 美女高潮喷水抽搐中文字幕| 可以免费在线观看a视频的电影网站| 老司机靠b影院| av超薄肉色丝袜交足视频| 日日摸夜夜添夜夜添小说| 两个人免费观看高清视频| e午夜精品久久久久久久| 黄网站色视频无遮挡免费观看| 亚洲欧美一区二区三区黑人| 中文字幕av电影在线播放| 国产精品香港三级国产av潘金莲| 国产极品粉嫩免费观看在线| 亚洲三区欧美一区| 亚洲国产欧美一区二区综合| 成人永久免费在线观看视频| 老汉色av国产亚洲站长工具| 国产精品久久电影中文字幕| 欧美一区二区精品小视频在线| av网站免费在线观看视频| 国产成人精品久久二区二区免费| 午夜福利一区二区在线看| 桃色一区二区三区在线观看| 国产99白浆流出| 亚洲黑人精品在线| 在线观看舔阴道视频| 亚洲av成人av| 国产精品永久免费网站| 日韩成人在线观看一区二区三区| 后天国语完整版免费观看| 国产精品99久久99久久久不卡| 香蕉丝袜av| 一级毛片高清免费大全| 日本精品一区二区三区蜜桃| 国产日韩一区二区三区精品不卡| 少妇被粗大的猛进出69影院| 最新在线观看一区二区三区| 少妇粗大呻吟视频| 久久久久九九精品影院| 激情在线观看视频在线高清| 制服丝袜大香蕉在线| 精品卡一卡二卡四卡免费| 国产黄a三级三级三级人| 人人澡人人妻人| 免费在线观看完整版高清| 伦理电影免费视频| 久久精品aⅴ一区二区三区四区| 老司机午夜十八禁免费视频| 每晚都被弄得嗷嗷叫到高潮| 午夜免费激情av| 国产视频一区二区在线看| 亚洲国产欧美一区二区综合| 日韩精品中文字幕看吧| а√天堂www在线а√下载| 亚洲自偷自拍图片 自拍| 黄色视频,在线免费观看| 国产精品电影一区二区三区| 人人妻人人爽人人添夜夜欢视频| 日本三级黄在线观看| 国产在线观看jvid| 免费不卡黄色视频| 男人舔女人下体高潮全视频| 国产精品美女特级片免费视频播放器 | 亚洲av熟女| 免费在线观看视频国产中文字幕亚洲| 亚洲性夜色夜夜综合| 国产成人免费无遮挡视频| 国产一区二区三区综合在线观看| 黄片播放在线免费| 亚洲激情在线av| 正在播放国产对白刺激| 在线永久观看黄色视频| 欧美中文综合在线视频| 99re在线观看精品视频| 精品午夜福利视频在线观看一区| 国产成人系列免费观看| 精品久久蜜臀av无| 美女大奶头视频| www国产在线视频色| 亚洲自拍偷在线| 日本撒尿小便嘘嘘汇集6| 亚洲av成人不卡在线观看播放网| 18禁黄网站禁片午夜丰满| 午夜福利高清视频| 好男人在线观看高清免费视频 | 亚洲五月色婷婷综合| 这个男人来自地球电影免费观看| 在线观看66精品国产| 又大又爽又粗| 999久久久精品免费观看国产| 香蕉国产在线看| 动漫黄色视频在线观看| 欧美乱妇无乱码| 精品国产超薄肉色丝袜足j| 亚洲成av人片免费观看| 在线观看免费视频日本深夜| 视频在线观看一区二区三区| 亚洲 欧美 日韩 在线 免费| 国产av又大| 日本免费一区二区三区高清不卡 | 激情视频va一区二区三区| 久久午夜亚洲精品久久| 身体一侧抽搐| 一区在线观看完整版| 12—13女人毛片做爰片一| 别揉我奶头~嗯~啊~动态视频| 国产欧美日韩一区二区三区在线| av福利片在线| 久久久久亚洲av毛片大全| 国产97色在线日韩免费| 亚洲国产毛片av蜜桃av| 人妻久久中文字幕网| 久久精品国产亚洲av香蕉五月| 天堂影院成人在线观看| 亚洲男人天堂网一区| 高潮久久久久久久久久久不卡| 中文字幕人妻丝袜一区二区| 亚洲欧美日韩高清在线视频| 亚洲熟妇熟女久久| 国产1区2区3区精品| 欧美日韩亚洲综合一区二区三区_| 欧美 亚洲 国产 日韩一| 国产成人精品久久二区二区91| 久久久久国产精品人妻aⅴ院| 亚洲aⅴ乱码一区二区在线播放 | 99国产综合亚洲精品| 好看av亚洲va欧美ⅴa在| 制服丝袜大香蕉在线|