• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于Redis的分布式搜索引擎研究

    2018-03-26 02:14:46李彥辰艾慶忠王少非
    軟件導(dǎo)刊 2018年3期
    關(guān)鍵詞:爬蟲(chóng)搜索引擎隊(duì)列

    李彥辰 艾慶忠 王少非

    摘要:

    針對(duì)互聯(lián)網(wǎng)網(wǎng)內(nèi)信息搜索效率低下問(wèn)題,設(shè)計(jì)了以Redis數(shù)據(jù)庫(kù)以及Mapreduce思想為核心的分布式搜索引擎框架。為了應(yīng)對(duì)互聯(lián)網(wǎng)信息時(shí)效性強(qiáng)、更新快、難以被準(zhǔn)確檢索的特點(diǎn),基于該框架設(shè)計(jì)了分布式爬蟲(chóng)、分布式索引建立、分布式鏈接分析算法。該框架明顯提高了信息處理的效率,為分布式搜索引擎的搭建提供有效模板。經(jīng)過(guò)測(cè)試,與以基于其它主流框架搭建分布式搜索引擎相比,基于Redis的分布式搜索引擎在爬蟲(chóng)爬取、索引生成、鏈接分析性能方面均有提升。

    關(guān)鍵詞:

    分布式搜索引擎;Redis數(shù)據(jù)庫(kù);Mapreduce思想

    DOIDOI:10.11907/rjdk.172561

    中圖分類號(hào):TP393

    文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2018)003020104

    英文摘要Abstract:To tackle the inefficiency of searching information through the Internet, a distributed search engine based on the Redis Data Base and mapreduce pattern was devised. To better adapt to the situation of the Internet at present, which is characterized by timesensitive,fastupdate and searching timeconsuming features, three techniques including distributed crawler, distributed index construction and distributed link analysis algorithm is applied within our distributed search engine. The framework greatly elevate the efficiency of the information processing and provide an effective template for the construction of the distributed search engine. After testing, compared with the search engines based on the other prevalent frameworks, the performances of three aspects including crawling, index generation and link analysis of the distributed search engine based on the Redis Data Base all have a obvious elevation.

    英文關(guān)鍵詞Key Words:distributed search engine;redis data base;Mapreduce pattern

    0引言

    2015年2月發(fā)布的《第35次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至2014年12月,中國(guó)網(wǎng)站總數(shù)已達(dá)335萬(wàn)個(gè),年增長(zhǎng)4.6%;域名總數(shù)增至2 060萬(wàn)個(gè),年増長(zhǎng)11.7%;網(wǎng)頁(yè)數(shù)量為1899億個(gè),年増長(zhǎng)26.6%[1];網(wǎng)頁(yè)長(zhǎng)(總字節(jié)數(shù))達(dá)到8.468PB。如此巨大的互聯(lián)網(wǎng)數(shù)據(jù),使網(wǎng)絡(luò)爬蟲(chóng)對(duì)頁(yè)面采集性能與效率的要求也越來(lái)越高,因此,對(duì)網(wǎng)頁(yè)采集與鏈接關(guān)系的處理必須由多機(jī)并行完成。目前,國(guó)內(nèi)外大型互聯(lián)網(wǎng)公司與相關(guān)研究機(jī)構(gòu)(如Google、百度)在此問(wèn)題上已有一些較為成熟的解決方案,但是出于商業(yè)機(jī)密等因素考慮,這些方案一般只能為用戶提供一種不可定制的搜索服務(wù),且并未公開(kāi)。

    本文通過(guò)研究搜索引擎基本體系機(jī)構(gòu)及分布式的思路與技術(shù),介紹了基于Redis的分布式搜索引擎框架,主要貢獻(xiàn)有:①總結(jié)了基于Mapreduce原理的分布式搜索引擎工作原理;②設(shè)計(jì)了基于Redis的高效分布式搜索引擎框架;③設(shè)計(jì)了基于該框架的分布式爬蟲(chóng)算法、索引算法、排序算法;④實(shí)驗(yàn)證明了該框架的可行性。

    1搜索引擎相關(guān)性技術(shù)

    1.1Mapreduce相關(guān)性研究

    Mapreduce(映射/規(guī)約)理念在于將計(jì)算分為Map、reduce兩個(gè)過(guò)程,通過(guò)鍵位值對(duì)說(shuō)明數(shù)據(jù)信息[2]。Mapreduce是采用并行方式計(jì)算大規(guī)模數(shù)據(jù)集的編程模型,也是一種分布式計(jì)算模型,其核心組成是Map函數(shù)與reduce函數(shù)[3]。Map過(guò)程先對(duì)客戶端信息進(jìn)行分割,將其分割為一種類型數(shù)據(jù)塊,分別調(diào)用Map函數(shù)將初始數(shù)據(jù)轉(zhuǎn)化為新的中間數(shù)據(jù)。Reduce過(guò)程調(diào)用Reduce函數(shù)對(duì)于中間數(shù)據(jù)按照規(guī)約整合,得到返回值。

    1.2分布式網(wǎng)絡(luò)爬蟲(chóng)

    分布式網(wǎng)絡(luò)爬蟲(chóng)整體設(shè)計(jì)重點(diǎn)在于爬蟲(chóng)如何進(jìn)行通信。目前按通信方式不同,分布式網(wǎng)絡(luò)爬蟲(chóng)可以分為主從模式、自治模式與混合模式3種[45],其中主從模式是搜索引擎常用模式。主從模式是指由一臺(tái)主機(jī)作為控制節(jié)點(diǎn)負(fù)責(zé)對(duì)所有運(yùn)行網(wǎng)絡(luò)爬蟲(chóng)的主機(jī)進(jìn)行管理,爬蟲(chóng)只需要從控制節(jié)點(diǎn)那里接收任務(wù),并把新生成任務(wù)提交給控制節(jié)點(diǎn)。在整個(gè)過(guò)程中不必與其它爬蟲(chóng)通信,這種方式實(shí)現(xiàn)簡(jiǎn)單,利于管理。而控制節(jié)點(diǎn)則需要與所有爬蟲(chóng)進(jìn)行通信,并用一個(gè)地址列表保存系統(tǒng)中所有爬蟲(chóng)信息。當(dāng)系統(tǒng)中爬蟲(chóng)數(shù)量發(fā)生變化時(shí),協(xié)調(diào)者需要更新地址列表里的數(shù)據(jù),這一過(guò)程對(duì)于系統(tǒng)中的爬蟲(chóng)是透明的。

    1.3倒排索引

    倒排索引(Inverted index)常被稱為反向索引、置入檔案或反向檔案,是一種索引方法,被用來(lái)存儲(chǔ)全文搜索中某個(gè)單詞在一個(gè)文檔或者一組文檔中存儲(chǔ)位置的映射[6]。它是文檔檢索系統(tǒng)中最常用的數(shù)據(jù)結(jié)構(gòu),通過(guò)倒排索引,可以根據(jù)關(guān)鍵詞快速獲取包含這個(gè)單詞的文檔列表。倒排索引主要由“單詞詞典”與“倒排文件”兩個(gè)部分組成。其主要思想是處理器得到一個(gè)網(wǎng)頁(yè)后,對(duì)該網(wǎng)頁(yè)進(jìn)行分析,對(duì)網(wǎng)頁(yè)中所有去停用詞后的詞語(yǔ)進(jìn)行分析,將其出現(xiàn)次數(shù)以及該網(wǎng)頁(yè)的url一同存儲(chǔ)入數(shù)據(jù)庫(kù),最終在數(shù)據(jù)庫(kù)中得到一個(gè)關(guān)鍵字key。其出現(xiàn)在網(wǎng)頁(yè)的url以及次數(shù)為value的數(shù)據(jù)庫(kù)文件,從而實(shí)現(xiàn)對(duì)所抓取網(wǎng)頁(yè)關(guān)鍵字的倒排索引構(gòu)建。

    2分布式搜索引擎設(shè)計(jì)框架

    本搜索引擎主要基于Redis,采用python編寫(xiě)的主從模式分布式搜索引擎,利用Redis內(nèi)存高速存儲(chǔ)讀取信息的特點(diǎn)[78],通過(guò)Redis進(jìn)行各個(gè)主機(jī)進(jìn)程之間的信息通信,達(dá)到mater對(duì)slaves的命令傳輸控制。

    本搜索引擎采用主從模式的分布式結(jié)構(gòu)。其中master命令主要以數(shù)據(jù)包的形式存儲(chǔ)在Redis數(shù)據(jù)庫(kù)中,slave通過(guò)對(duì)數(shù)據(jù)包的讀取分析,完成大量的數(shù)據(jù)運(yùn)算,降低mater的工作負(fù)擔(dān),然后將運(yùn)算結(jié)果傳遞給master。master只需要對(duì)slaves傳遞的信息進(jìn)行篩選與匯總,進(jìn)行任務(wù)的再分配,充分利用各個(gè)機(jī)器的性能,達(dá)到分布式運(yùn)算分析的目的,避免資源浪費(fèi),且構(gòu)成一個(gè)準(zhǔn)確高效的分布式整體[5]。

    數(shù)據(jù)在redis服務(wù)器中以隊(duì)列的形式存儲(chǔ),master向隊(duì)列尾部添加數(shù)據(jù),slave從隊(duì)列頭部讀取數(shù)據(jù)。通過(guò)這樣的形式,一方面可以避免因資源競(jìng)爭(zhēng)而導(dǎo)致分布式系統(tǒng)死鎖,保證了程序的可行性;另一方面確保了資源能在有限的時(shí)間內(nèi)被讀取到,避免資源浪費(fèi)的情況發(fā)生。在redis數(shù)據(jù)庫(kù)中時(shí)常存在這樣3個(gè)隊(duì)列:

    nrq= RedisQueue();

    srq= RedisQueue();

    trq=RedisQueue();

    其中,nrq是需要被處理的數(shù)據(jù)隊(duì)列,sqr是已經(jīng)被處理的數(shù)據(jù)隊(duì)列,trq是存儲(chǔ)共享的tag隊(duì)列。Slave通過(guò)讀取trq隊(duì)列獲得當(dāng)前唯一的工作序號(hào)tag,nrq隊(duì)列中的數(shù)據(jù)出隊(duì)讓salve獲取,這樣的工作流程避免了資源搶占的沖突;然后slave運(yùn)算的結(jié)果會(huì)入隊(duì)存儲(chǔ)在srq中,再出隊(duì)到master,讓master進(jìn)行數(shù)據(jù)匯總,完成分布式系統(tǒng)的工作。通過(guò)以上系統(tǒng)機(jī)制,Mapreduce的實(shí)現(xiàn)也成為可能。master對(duì)數(shù)據(jù)進(jìn)行Map操作,將類型數(shù)據(jù)塊存放到nrq隊(duì)列中,并由slave讀??;slave完成對(duì)的運(yùn)算后,將結(jié)果存入srq隊(duì)列中由master獲取來(lái)實(shí)現(xiàn)。

    3分布式搜索引擎設(shè)計(jì)與實(shí)現(xiàn)

    3.1分布式爬蟲(chóng)設(shè)計(jì)

    本研究中,分布式爬蟲(chóng)采用materslave模式,通過(guò)mater對(duì)slaves的主機(jī)進(jìn)行信息傳遞與資源分配。首先Slave需要爬取網(wǎng)頁(yè)的源代碼,并從中取出需要爬取的url加入爬取隊(duì)列中;其次對(duì)爬取到的url進(jìn)行去重,保證沒(méi)有重復(fù)的爬取。通過(guò)對(duì)master和slaves的分工設(shè)定,可以很好地解決這個(gè)資源搶占的矛盾。

    分布式爬蟲(chóng)的工作流程如圖1所示。首先,事先設(shè)定需要爬取的起始網(wǎng)頁(yè)url;然后將起始url寫(xiě)入隊(duì)列srq中,供slave讀取分析。slave的工作流程如下:

    (1)從srq隊(duì)列中爬取到url。

    (2)對(duì)url進(jìn)行訪問(wèn),如果url的服務(wù)器能夠訪問(wèn),下載網(wǎng)頁(yè)文本,并將網(wǎng)頁(yè)文本存儲(chǔ)到數(shù)據(jù)庫(kù)中。

    (3)對(duì)網(wǎng)頁(yè)文本內(nèi)容進(jìn)行分析,抓取其中格式正確并且符合預(yù)先設(shè)定的抓取要求的url,將這些url寫(xiě)入nrq隊(duì)列中。

    master工作流程的步驟有:①nrq隊(duì)列中取出一個(gè)url;②對(duì)url進(jìn)行去重(使用Bloom filter);③對(duì)url格式進(jìn)行判斷;④如果②、③的判斷都通過(guò),則將該url寫(xiě)入srq隊(duì)列中。

    3.2分布式索引構(gòu)建

    本研究以分布式方式構(gòu)建索引,其思路是利用Redis隊(duì)列對(duì)數(shù)據(jù)進(jìn)行并行運(yùn)算,但與爬蟲(chóng)的儲(chǔ)存控制有所不同。

    由于數(shù)據(jù)庫(kù)已經(jīng)事先儲(chǔ)存了網(wǎng)頁(yè)信息,所以需要分析時(shí)爬蟲(chóng)直接從數(shù)據(jù)庫(kù)讀取數(shù)據(jù)到一個(gè)隊(duì)列中,不再需要master對(duì)隊(duì)列進(jìn)行控制。在slave中,slave利用分詞模塊對(duì)網(wǎng)頁(yè)進(jìn)行分析,將網(wǎng)頁(yè)中某詞出現(xiàn)的網(wǎng)頁(yè)url編號(hào),該詞在網(wǎng)頁(yè)中出現(xiàn)的頻度,打包成預(yù)定好的數(shù)據(jù)格式,存儲(chǔ)到分析結(jié)果隊(duì)列中,然后由master讀取。再由master統(tǒng)一對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)操作以避免多主機(jī)對(duì)數(shù)據(jù)庫(kù)操作時(shí)造成的數(shù)據(jù)沖突。slave的核心結(jié)構(gòu)如圖2所示。

    其中,salve首先通過(guò)隊(duì)列srq獲取需要進(jìn)行分詞操作的文本;再通過(guò)隊(duì)列trq獲取唯一tag保證不予其它slave發(fā)生沖突;然后利用jieba分詞模塊對(duì)文本進(jìn)行分詞;最后將分詞統(tǒng)計(jì)結(jié)果儲(chǔ)存在數(shù)據(jù)塊中,并將該數(shù)據(jù)塊加入nrq隊(duì)列中,由master自行獲取。

    Master的核心結(jié)構(gòu)如圖3所示。

    其中,master直接從nrq隊(duì)列獲取由slave運(yùn)算得到的數(shù)據(jù)塊,將其匯總到了數(shù)據(jù)庫(kù)。在本文研究中將Mapreduce思想應(yīng)用到排序索引中,實(shí)現(xiàn)了分布式構(gòu)建索引。

    3.3分布式排序算法運(yùn)算設(shè)計(jì)

    鏈接分析算法在運(yùn)算時(shí)需要占用大量?jī)?nèi)存與時(shí)間,通過(guò)分布式系統(tǒng)的設(shè)計(jì)可以加快運(yùn)算速度,以提高計(jì)算分析效率。本文研究利用了Mapreduce的思想以及基于Redis的隊(duì)列數(shù)據(jù)傳輸設(shè)計(jì)分布式排序算法。

    排序算法采用的是Pagerank,是通過(guò)計(jì)算網(wǎng)站間的相關(guān)度進(jìn)行排序。如果一個(gè)網(wǎng)站被外鏈接的次數(shù)越多,說(shuō)明這個(gè)網(wǎng)站越重要。Pagerank算法首先需要生成網(wǎng)站出度網(wǎng)址的矩陣,然后生成設(shè)定每個(gè)網(wǎng)址的初始rank,最后通過(guò)迭代運(yùn)算得到最終排名[9]。將Pagerank算法用到Mapreduce的思想中也能提高計(jì)算分析效率,分為兩個(gè)步驟:

    (1)Map:將每次需要運(yùn)算的數(shù)據(jù)打包成約定格式的數(shù)據(jù)。需要打包的數(shù)據(jù)有:PAGERANK每輪對(duì)應(yīng)站點(diǎn)的運(yùn)算結(jié)果;對(duì)應(yīng)站點(diǎn)的url編號(hào);對(duì)應(yīng)站點(diǎn)的出度網(wǎng)頁(yè)編號(hào)。然后將這些數(shù)據(jù)包發(fā)送給slave運(yùn)算。

    (2)reduce:slave對(duì)收到的數(shù)據(jù)包進(jìn)行解析,將Pagerank值與其對(duì)應(yīng)的url編號(hào)返回,由master對(duì)運(yùn)算結(jié)果進(jìn)行匯總,完成該輪的Pagerank運(yùn)算。

    4分布式搜索引擎性能檢驗(yàn)

    4.1分布式爬蟲(chóng)性能檢驗(yàn)

    為了測(cè)試分布式爬蟲(chóng)的性能,在本研究中通過(guò)給定爬取起始網(wǎng)頁(yè)以及爬取深度,測(cè)試不同數(shù)量的slave對(duì)于爬蟲(chóng)性能提升的額度。

    在開(kāi)啟1個(gè)slave的情況下,起始種子url為http://zsb.jlu.edu.cn/list/45.html,數(shù)據(jù)在MYSQL數(shù)據(jù)庫(kù)中存儲(chǔ)。其中,網(wǎng)頁(yè)id為INT型,占4字節(jié);網(wǎng)頁(yè)url為VARCHAR類型;網(wǎng)頁(yè)內(nèi)容為L(zhǎng)ONGTEXT類型。

    對(duì)于深度為2的爬取設(shè)定,爬取708個(gè)網(wǎng)頁(yè),占25 600KB,平均速度為5.385個(gè)/s;在開(kāi)啟2個(gè)slave的情況下,速度達(dá)到了10.992 個(gè)/s;在開(kāi)啟3個(gè)slave的情況下,速度達(dá)到了14.118個(gè)/s;在開(kāi)啟4個(gè)slave的情況下,速度達(dá)到了17.079 個(gè)/s。由此可以看出網(wǎng)頁(yè)的爬取速度與slave的數(shù)量成正比,但是,隨著slave數(shù)量的增加,爬取速度增加的速率也會(huì)降低。當(dāng)slave的數(shù)量增加到一定大小時(shí),繼續(xù)增加slave的數(shù)量將不會(huì)加快爬取速度。由于本研究使用2臺(tái)主機(jī)導(dǎo)致爬去速度相對(duì)較慢,在實(shí)際應(yīng)用中,slave分布在多個(gè)主機(jī)上,爬取速度會(huì)比實(shí)驗(yàn)中的更快。slave的上限數(shù)是由master主機(jī)性能決定的,master主機(jī)的性能越強(qiáng)大,slave數(shù)的上限也會(huì)越大。

    4.2分布式索引生成性能檢驗(yàn)

    通過(guò)觀察固定數(shù)量網(wǎng)頁(yè)文本量,不同slave數(shù)量對(duì)于檢驗(yàn)索引生成速度存在差異。如4.2中所述,數(shù)據(jù)量為25 600KB,對(duì)于不同數(shù)量的slave分析文本速度進(jìn)行統(tǒng)計(jì)。在1個(gè)slave的情況下,速度為4.262個(gè)/s;2個(gè)slave的情況下速度為6.661個(gè)/s;3個(gè)slave的情況下速度為7.775個(gè)/s;4個(gè)slave的情況下速度為8.514個(gè)/s。由此可以看出對(duì)于索引生成的速度圖線平均斜率比爬蟲(chóng)的要小,主要原理是此算法對(duì)master的運(yùn)算負(fù)擔(dān)比較大,使用性能較強(qiáng)大的主機(jī)可以改善該問(wèn)題。

    4.3PAGERANK分布式算法性能檢驗(yàn)

    本研究以jlu.edu域名下的網(wǎng)站為分析源,分析Pagerank算法的性能。共有35 602個(gè)站點(diǎn),同樣使用不同數(shù)量的slave分析其分布式排序性能。在1個(gè)slave的情況下使用963.955s計(jì)算;在2個(gè)slave的情況下使用754.473s;在3個(gè)slave的情況下使用648.617s;在4個(gè)slave的情況下使用584.876s。由此可以看出隨著slave數(shù)量的增加,在網(wǎng)頁(yè)總數(shù)一定的情況下,Pagerank的計(jì)算速度有較為明顯的提高,說(shuō)明本研究的分布式系統(tǒng)能夠有效加快排序算法的運(yùn)算速度。

    4.4兩種引擎效果對(duì)比

    Apache Nutch是以Hadoop為基礎(chǔ)實(shí)現(xiàn)的分布式系統(tǒng),具有以Hadoop為基礎(chǔ)編寫(xiě)的分布式搜索引擎的代表性[11]。因此通過(guò)與基于Apache Nutch的分布式搜索引擎進(jìn)行對(duì)比,分析本研究的框架優(yōu)勢(shì)。

    在該實(shí)驗(yàn)中,分別對(duì)網(wǎng)頁(yè)爬蟲(chóng)爬取的IO密集型操作及Pagerank計(jì)算的運(yùn)算密集型操作進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)主機(jī)數(shù)量均為3臺(tái)。

    由此可以觀察到兩者的速度不相上下,證明了基于Redis的分布式系統(tǒng)在爬蟲(chóng)上的速度與基于Hadoop的分布式系統(tǒng)在爬蟲(chóng)上的速度是可以相提并論的。爬蟲(chóng)速度如圖4所示。

    在Pageranke算法的計(jì)算上,運(yùn)算結(jié)果如圖5所示。

    可見(jiàn)在Pagerank算法上計(jì)算Redis分布式優(yōu)于基于Hadoop集群分布式,Redis分布式在構(gòu)建分布式搜索引擎上比Hadoop集群更有優(yōu)勢(shì)。

    5結(jié)語(yǔ)

    本文主要研究了基于Redis的分布式搜索引擎,討論了在實(shí)際互聯(lián)網(wǎng)環(huán)境中的實(shí)踐效果以及可行性,包括基于Redis數(shù)據(jù)庫(kù)的分布式搜索引擎的框架設(shè)計(jì)、主從模式分布式爬蟲(chóng)的設(shè)計(jì)框架、排序索引的分布式生成、基于Mapreduce思想的分布式的Pagerank計(jì)算的實(shí)現(xiàn)框架,并實(shí)驗(yàn)證明了運(yùn)用分布式搜索引擎后在抓取網(wǎng)頁(yè),建立搜索引擎索引,Pagerank鏈接分析算法運(yùn)算在這幾個(gè)方面的性能提升,證明了本系統(tǒng)在分布式搜索引擎系統(tǒng)上的應(yīng)用優(yōu)于Hadoop集群系統(tǒng)。未來(lái)基于該框架應(yīng)當(dāng)能夠發(fā)展出更加完善的分布式搜索引擎。

    參考文獻(xiàn)參考文獻(xiàn):

    [1]BRIN S, PAGE L. Reprint of the anatomy of a largescale hypertextual web search engine[J]. Computer networks, 2012,56(18):38253833.

    [2]李明,唐軼.基于移動(dòng)Agent的分布式Web搜索模型的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用與軟件,2016,33(4):1821.

    [3]DEAN J, GHEMAWAT S. MapReduce simplified data processing on large clusters[J]. Communications of the ACM, 2008,51(1):107113.

    [4]蘇旋.分布式網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的研究與實(shí)現(xiàn)[D].哈爾濱:哈爾濱工業(yè)大學(xué),2006.

    [5]詹恒飛,楊岳湘,方宏.Nutch分布式網(wǎng)絡(luò)爬蟲(chóng)研究與優(yōu)化[J].計(jì)算機(jī)科學(xué)與探索,2011,5(1):6874.

    [6]周海松,劉建明,李龍.基于Lucene的垂直搜索引擎研究與實(shí)現(xiàn)[J].桂林電子科技大學(xué)學(xué)報(bào),2014,34(3):226229.

    [5]史寶明,賀元香,吳崇正.主題搜索引擎中爬蟲(chóng)搜索策略的研究[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(2):116119.

    [6]林子皓.主題爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)技術(shù)與發(fā)展,2014(8):99102.

    [7]成功,李小正,趙全軍.一種網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)中URL去重方法的研究[J].中國(guó)新技術(shù)新產(chǎn)品,2014(12):2323.

    [8]吳寶貴,丁振國(guó).基于Map/Reduce的分布式搜索引擎研究[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2007,2(8):5255.

    [9]PAGE L, BRIN S, MOTWANI R, et al. The pagerank citation ranking: bringing order to the web[J]. Stanford Digital Libraries Working Paper, 1998,9(1):114.

    [10]HAVELIWALA T H. Topicsensitive pagerank[C]Proceedings of the 11th International Conference on World Wide Web. ACM, 2002.

    [11]BORTHAKUR D. The hadoop distributed file system: architecture and design[J]. Hadoop Project Website, 2007,11: 21.

    責(zé)任編輯(責(zé)任編輯:劉亭亭)

    猜你喜歡
    爬蟲(chóng)搜索引擎隊(duì)列
    利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說(shuō)
    基于Python的網(wǎng)絡(luò)爬蟲(chóng)和反爬蟲(chóng)技術(shù)研究
    隊(duì)列里的小秘密
    基于多隊(duì)列切換的SDN擁塞控制*
    軟件(2020年3期)2020-04-20 00:58:44
    在隊(duì)列里
    利用爬蟲(chóng)技術(shù)的Geo-Gnutel la VANET流量采集
    豐田加速駛?cè)胱詣?dòng)駕駛隊(duì)列
    大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲(chóng)技術(shù)
    電子制作(2017年9期)2017-04-17 03:00:46
    網(wǎng)絡(luò)搜索引擎亟待規(guī)范
    基于Nutch的醫(yī)療搜索引擎的研究與開(kāi)發(fā)
    国产成人av激情在线播放| 男女高潮啪啪啪动态图| 两个人看的免费小视频| 国产成人精品在线电影| 国产老妇伦熟女老妇高清| 亚洲av成人精品一二三区| 大话2 男鬼变身卡| 国产在线免费精品| 一区二区日韩欧美中文字幕 | 少妇的丰满在线观看| 高清av免费在线| 国产一区二区激情短视频 | 青青草视频在线视频观看| 天天躁夜夜躁狠狠躁躁| 国产一区二区三区av在线| 国产精品熟女久久久久浪| 亚洲精品aⅴ在线观看| 女性被躁到高潮视频| 免费人妻精品一区二区三区视频| 91成人精品电影| 国国产精品蜜臀av免费| 欧美最新免费一区二区三区| 国产在线一区二区三区精| 国产亚洲欧美精品永久| 久久精品人人爽人人爽视色| 欧美3d第一页| 少妇的丰满在线观看| 午夜精品国产一区二区电影| 亚洲国产精品一区三区| 国产高清不卡午夜福利| 亚洲国产欧美日韩在线播放| xxxhd国产人妻xxx| 26uuu在线亚洲综合色| 色5月婷婷丁香| 亚洲 欧美一区二区三区| 精品酒店卫生间| 亚洲,一卡二卡三卡| 欧美日本中文国产一区发布| 午夜日本视频在线| 国产1区2区3区精品| 天天躁夜夜躁狠狠躁躁| 欧美日韩视频高清一区二区三区二| 精品熟女少妇av免费看| 精品一品国产午夜福利视频| 蜜桃国产av成人99| 欧美日韩av久久| 免费大片18禁| 99热网站在线观看| 寂寞人妻少妇视频99o| 一本一本久久a久久精品综合妖精 国产伦在线观看视频一区 | 肉色欧美久久久久久久蜜桃| av一本久久久久| 一区在线观看完整版| 国产av码专区亚洲av| 久热这里只有精品99| 国产精品一区www在线观看| 亚洲欧洲精品一区二区精品久久久 | 国产一区二区三区综合在线观看 | 狂野欧美激情性xxxx在线观看| 曰老女人黄片| 亚洲精品国产色婷婷电影| 桃花免费在线播放| 免费高清在线观看视频在线观看| 国产熟女欧美一区二区| 黄色一级大片看看| 成年动漫av网址| tube8黄色片| 亚洲国产精品国产精品| 婷婷色av中文字幕| 亚洲精品第二区| 91精品伊人久久大香线蕉| 多毛熟女@视频| 七月丁香在线播放| 日本wwww免费看| 一级a做视频免费观看| 中文天堂在线官网| 人人妻人人澡人人爽人人夜夜| 大香蕉久久网| 少妇高潮的动态图| 亚洲,欧美,日韩| 一级爰片在线观看| 在线观看人妻少妇| 亚洲美女搞黄在线观看| 婷婷成人精品国产| 侵犯人妻中文字幕一二三四区| 亚洲精品日本国产第一区| av卡一久久| 日日摸夜夜添夜夜爱| 欧美国产精品一级二级三级| 日本vs欧美在线观看视频| 国产麻豆69| 69精品国产乱码久久久| 久久久久久久久久久久大奶| 久久久久久久久久人人人人人人| 精品视频人人做人人爽| 国产日韩欧美在线精品| 日韩视频在线欧美| 免费看不卡的av| 国产精品 国内视频| 日本午夜av视频| av在线观看视频网站免费| 精品国产乱码久久久久久小说| 大香蕉久久成人网| av有码第一页| 亚洲国产精品999| 高清在线视频一区二区三区| 香蕉精品网在线| 一边摸一边做爽爽视频免费| 亚洲精品国产av成人精品| 狂野欧美激情性xxxx在线观看| 亚洲成国产人片在线观看| 久久精品久久久久久噜噜老黄| 青春草亚洲视频在线观看| 亚洲精品av麻豆狂野| 少妇 在线观看| 精品一区二区三卡| 久久鲁丝午夜福利片| 精品酒店卫生间| 中文字幕人妻熟女乱码| 色哟哟·www| 久久午夜综合久久蜜桃| 毛片一级片免费看久久久久| 国产老妇伦熟女老妇高清| 亚洲人与动物交配视频| 亚洲精品中文字幕在线视频| 内地一区二区视频在线| 自线自在国产av| 一级爰片在线观看| 日本黄色日本黄色录像| 精品酒店卫生间| 亚洲一码二码三码区别大吗| 天堂中文最新版在线下载| 人成视频在线观看免费观看| 亚洲精品aⅴ在线观看| 如日韩欧美国产精品一区二区三区| 国产精品欧美亚洲77777| av国产精品久久久久影院| 美国免费a级毛片| 欧美丝袜亚洲另类| 亚洲精品国产av蜜桃| 韩国精品一区二区三区 | 九九在线视频观看精品| 久久精品国产自在天天线| 国产日韩一区二区三区精品不卡| 久久精品国产综合久久久 | 免费高清在线观看日韩| 久久久久久久久久久久大奶| 日产精品乱码卡一卡2卡三| 精品国产乱码久久久久久小说| 色吧在线观看| 亚洲av男天堂| 黄片播放在线免费| 狂野欧美激情性bbbbbb| 亚洲第一av免费看| 女人久久www免费人成看片| 国产精品一国产av| 国产精品一区二区在线不卡| 中国国产av一级| 成人无遮挡网站| 欧美3d第一页| 热re99久久精品国产66热6| 亚洲国产成人一精品久久久| 精品一品国产午夜福利视频| 免费高清在线观看日韩| 亚洲美女黄色视频免费看| 国产精品偷伦视频观看了| 女人精品久久久久毛片| 99久久中文字幕三级久久日本| 国产精品三级大全| 男女边吃奶边做爰视频| 99九九在线精品视频| 美女国产高潮福利片在线看| 建设人人有责人人尽责人人享有的| 一级黄片播放器| 亚洲精品成人av观看孕妇| 欧美丝袜亚洲另类| 极品少妇高潮喷水抽搐| 人妻 亚洲 视频| 国产日韩欧美亚洲二区| 欧美日韩亚洲高清精品| 在线观看人妻少妇| 国产成人午夜福利电影在线观看| 亚洲,欧美,日韩| 亚洲成人av在线免费| 亚洲一码二码三码区别大吗| 精品久久蜜臀av无| 夜夜骑夜夜射夜夜干| 女的被弄到高潮叫床怎么办| 18禁观看日本| 亚洲欧美成人精品一区二区| 天天躁夜夜躁狠狠躁躁| 亚洲精品第二区| 丰满饥渴人妻一区二区三| 亚洲成人一二三区av| 中文字幕制服av| 18禁观看日本| 久久久久久久亚洲中文字幕| 欧美老熟妇乱子伦牲交| 欧美+日韩+精品| 亚洲国产精品一区二区三区在线| 免费人妻精品一区二区三区视频| 99久久中文字幕三级久久日本| 2018国产大陆天天弄谢| av卡一久久| 国产成人aa在线观看| 久久久久久久大尺度免费视频| 国产不卡av网站在线观看| 大话2 男鬼变身卡| 成人国产麻豆网| 中文字幕av电影在线播放| 麻豆精品久久久久久蜜桃| 亚洲精品一二三| 中文天堂在线官网| av片东京热男人的天堂| 男女国产视频网站| 精品国产国语对白av| 97精品久久久久久久久久精品| 精品亚洲成a人片在线观看| 男女午夜视频在线观看 | 欧美激情 高清一区二区三区| 大陆偷拍与自拍| 久久99一区二区三区| 亚洲成色77777| 亚洲精华国产精华液的使用体验| 日韩电影二区| 成人综合一区亚洲| 欧美激情 高清一区二区三区| 亚洲成人av在线免费| 精品福利永久在线观看| 亚洲天堂av无毛| 亚洲av福利一区| 久久韩国三级中文字幕| 久久久久久久大尺度免费视频| 久久毛片免费看一区二区三区| 亚洲欧美一区二区三区黑人 | 午夜福利在线观看免费完整高清在| 日本av免费视频播放| 99热网站在线观看| 黑人猛操日本美女一级片| av不卡在线播放| 欧美日韩亚洲高清精品| 乱码一卡2卡4卡精品| 大香蕉久久网| 婷婷色麻豆天堂久久| av又黄又爽大尺度在线免费看| av卡一久久| 极品少妇高潮喷水抽搐| 久久精品人人爽人人爽视色| 日产精品乱码卡一卡2卡三| 有码 亚洲区| 久久午夜福利片| 国产一级毛片在线| a级片在线免费高清观看视频| 日韩人妻精品一区2区三区| 精品久久久久久电影网| 国产1区2区3区精品| 成人二区视频| 久久久久精品人妻al黑| 大香蕉久久成人网| 国产片内射在线| 国产亚洲一区二区精品| 亚洲精品一二三| 婷婷色麻豆天堂久久| 伦理电影免费视频| 亚洲精品成人av观看孕妇| a级片在线免费高清观看视频| 91午夜精品亚洲一区二区三区| 大码成人一级视频| 人妻人人澡人人爽人人| 中文字幕免费在线视频6| 在线天堂中文资源库| 免费观看av网站的网址| 天天躁夜夜躁狠狠久久av| 国产国语露脸激情在线看| 国产成人91sexporn| 在线观看美女被高潮喷水网站| 卡戴珊不雅视频在线播放| 曰老女人黄片| 丝袜喷水一区| 亚洲精品美女久久久久99蜜臀 | 夫妻性生交免费视频一级片| 午夜福利在线观看免费完整高清在| 成人毛片60女人毛片免费| 亚洲熟女精品中文字幕| 2018国产大陆天天弄谢| 高清欧美精品videossex| 熟妇人妻不卡中文字幕| 色5月婷婷丁香| 边亲边吃奶的免费视频| 国产亚洲一区二区精品| tube8黄色片| videosex国产| 日韩av在线免费看完整版不卡| 日韩精品有码人妻一区| 高清不卡的av网站| 美女视频免费永久观看网站| 乱码一卡2卡4卡精品| 在线精品无人区一区二区三| 在线观看免费日韩欧美大片| 免费久久久久久久精品成人欧美视频 | 高清黄色对白视频在线免费看| 高清av免费在线| 一边摸一边做爽爽视频免费| 欧美人与善性xxx| 欧美人与性动交α欧美精品济南到 | 考比视频在线观看| 一级毛片黄色毛片免费观看视频| av又黄又爽大尺度在线免费看| 精品国产国语对白av| 国产色爽女视频免费观看| 精品国产一区二区三区久久久樱花| 女人精品久久久久毛片| 99久久精品国产国产毛片| 久热久热在线精品观看| 在线观看免费视频网站a站| 满18在线观看网站| 一区在线观看完整版| 日本av手机在线免费观看| 侵犯人妻中文字幕一二三四区| 久久毛片免费看一区二区三区| 两性夫妻黄色片 | av国产精品久久久久影院| 韩国av在线不卡| 欧美人与善性xxx| 超色免费av| 国产激情久久老熟女| 亚洲精品成人av观看孕妇| 国产精品久久久av美女十八| 久久精品人人爽人人爽视色| 美女国产视频在线观看| 亚洲国产精品成人久久小说| 国产成人午夜福利电影在线观看| 丝袜人妻中文字幕| 亚洲欧洲精品一区二区精品久久久 | 最近手机中文字幕大全| 亚洲国产看品久久| 人成视频在线观看免费观看| av国产精品久久久久影院| av在线老鸭窝| 一区在线观看完整版| 丝袜脚勾引网站| 精品酒店卫生间| av又黄又爽大尺度在线免费看| 国产亚洲一区二区精品| 岛国毛片在线播放| 亚洲av福利一区| 国产69精品久久久久777片| 狠狠婷婷综合久久久久久88av| 黑人欧美特级aaaaaa片| 久久久精品区二区三区| 久久国产精品大桥未久av| 成人影院久久| 久久久久久人妻| 亚洲激情五月婷婷啪啪| 精品少妇内射三级| 日韩精品免费视频一区二区三区 | 搡老乐熟女国产| av黄色大香蕉| 亚洲激情五月婷婷啪啪| 99久久综合免费| 美女中出高潮动态图| 美女主播在线视频| 国产老妇伦熟女老妇高清| 蜜桃在线观看..| 日本vs欧美在线观看视频| 一二三四在线观看免费中文在 | 欧美人与性动交α欧美精品济南到 | 一级毛片黄色毛片免费观看视频| 国产亚洲最大av| 自线自在国产av| 亚洲精品乱码久久久久久按摩| 91在线精品国自产拍蜜月| 精品一区二区三卡| 免费播放大片免费观看视频在线观看| 国产精品嫩草影院av在线观看| 十八禁网站网址无遮挡| 大码成人一级视频| 女的被弄到高潮叫床怎么办| 男的添女的下面高潮视频| 看免费av毛片| 午夜福利乱码中文字幕| 国产一区二区在线观看日韩| 女性被躁到高潮视频| 岛国毛片在线播放| 免费久久久久久久精品成人欧美视频 | 校园人妻丝袜中文字幕| av在线app专区| 男女免费视频国产| 男女高潮啪啪啪动态图| 热re99久久精品国产66热6| 亚洲在久久综合| 国产麻豆69| 在现免费观看毛片| 人妻 亚洲 视频| 亚洲熟女精品中文字幕| 一本大道久久a久久精品| 男女无遮挡免费网站观看| 亚洲精品久久久久久婷婷小说| 亚洲国产精品一区三区| 国产精品久久久久久久久免| 久久久久久久久久久免费av| av免费在线看不卡| 色婷婷久久久亚洲欧美| 考比视频在线观看| 欧美人与性动交α欧美精品济南到 | 精品人妻熟女毛片av久久网站| 中国三级夫妇交换| 51国产日韩欧美| 国产一区二区三区综合在线观看 | 婷婷色av中文字幕| 美女脱内裤让男人舔精品视频| av又黄又爽大尺度在线免费看| 亚洲欧美一区二区三区国产| 亚洲,欧美,日韩| av片东京热男人的天堂| 国产成人欧美| 精品人妻熟女毛片av久久网站| 亚洲伊人久久精品综合| 丝袜脚勾引网站| 深夜精品福利| 日本vs欧美在线观看视频| 国产老妇伦熟女老妇高清| 97超碰精品成人国产| 人人妻人人澡人人看| 大香蕉97超碰在线| 国产色婷婷99| 欧美日韩视频精品一区| 好男人视频免费观看在线| 日韩精品免费视频一区二区三区 | 国产亚洲欧美精品永久| 天堂俺去俺来也www色官网| 伦精品一区二区三区| 菩萨蛮人人尽说江南好唐韦庄| a级毛片黄视频| 精品少妇黑人巨大在线播放| 亚洲av男天堂| 51国产日韩欧美| 亚洲成av片中文字幕在线观看 | 人人妻人人澡人人爽人人夜夜| 久久人人爽人人爽人人片va| 国产无遮挡羞羞视频在线观看| 插逼视频在线观看| 伦理电影免费视频| 日韩制服丝袜自拍偷拍| 寂寞人妻少妇视频99o| 亚洲情色 制服丝袜| videos熟女内射| 日韩人妻精品一区2区三区| 国精品久久久久久国模美| 一区二区三区精品91| 国产欧美另类精品又又久久亚洲欧美| 99热这里只有是精品在线观看| 熟女电影av网| 天美传媒精品一区二区| 亚洲欧美色中文字幕在线| 91aial.com中文字幕在线观看| 亚洲四区av| 大香蕉久久网| 国产视频首页在线观看| av线在线观看网站| 亚洲av国产av综合av卡| 人妻人人澡人人爽人人| 欧美人与善性xxx| 有码 亚洲区| 韩国精品一区二区三区 | 国内精品宾馆在线| 少妇高潮的动态图| 日韩av免费高清视频| 成年av动漫网址| 国产黄色免费在线视频| 国语对白做爰xxxⅹ性视频网站| 亚洲精品一二三| 爱豆传媒免费全集在线观看| 中文字幕亚洲精品专区| 1024视频免费在线观看| 老司机影院成人| 免费看光身美女| 久久久久视频综合| 成人二区视频| 人成视频在线观看免费观看| 国产av国产精品国产| 久久久精品免费免费高清| 亚洲伊人久久精品综合| 黄网站色视频无遮挡免费观看| 日本-黄色视频高清免费观看| 黑人欧美特级aaaaaa片| 成年动漫av网址| 极品人妻少妇av视频| 激情视频va一区二区三区| 最近最新中文字幕大全免费视频 | 国精品久久久久久国模美| 人妻 亚洲 视频| 一本色道久久久久久精品综合| 欧美 日韩 精品 国产| 亚洲精品aⅴ在线观看| 日日爽夜夜爽网站| 熟女av电影| 中文精品一卡2卡3卡4更新| videos熟女内射| 日本午夜av视频| 国产无遮挡羞羞视频在线观看| 久久99精品国语久久久| 精品一区二区三区视频在线| 国产av码专区亚洲av| 久久午夜福利片| 不卡视频在线观看欧美| 久久久久人妻精品一区果冻| av在线老鸭窝| 国产成人91sexporn| 美女视频免费永久观看网站| 国产女主播在线喷水免费视频网站| 亚洲综合精品二区| 亚洲国产日韩一区二区| 有码 亚洲区| 涩涩av久久男人的天堂| 99香蕉大伊视频| 黄色视频在线播放观看不卡| 捣出白浆h1v1| 多毛熟女@视频| 天天影视国产精品| 精品久久久久久电影网| 如何舔出高潮| 亚洲精品自拍成人| 色婷婷久久久亚洲欧美| 香蕉丝袜av| xxxhd国产人妻xxx| 国产不卡av网站在线观看| 欧美少妇被猛烈插入视频| 国产高清三级在线| 亚洲伊人久久精品综合| 蜜桃国产av成人99| 精品福利永久在线观看| 大香蕉97超碰在线| 在线天堂最新版资源| 亚洲色图综合在线观看| 高清视频免费观看一区二区| 激情五月婷婷亚洲| 精品一区二区三卡| 中文精品一卡2卡3卡4更新| 男女午夜视频在线观看 | 建设人人有责人人尽责人人享有的| 国产精品 国内视频| 青春草亚洲视频在线观看| 日韩精品免费视频一区二区三区 | 精品国产国语对白av| 国产午夜精品一二区理论片| 国产男人的电影天堂91| 日本91视频免费播放| 菩萨蛮人人尽说江南好唐韦庄| 亚洲精品国产av蜜桃| 99香蕉大伊视频| 香蕉精品网在线| 制服诱惑二区| 少妇人妻精品综合一区二区| 一级片免费观看大全| 欧美人与性动交α欧美软件 | 亚洲精品av麻豆狂野| 久久久久久久久久成人| 黑人欧美特级aaaaaa片| 日韩在线高清观看一区二区三区| 色哟哟·www| 久久精品熟女亚洲av麻豆精品| 久久久久久伊人网av| 丝瓜视频免费看黄片| 日韩制服骚丝袜av| 天天躁夜夜躁狠狠躁躁| 69精品国产乱码久久久| 国产精品国产三级国产专区5o| 最新的欧美精品一区二区| 久久人人爽人人片av| 婷婷色麻豆天堂久久| 水蜜桃什么品种好| 精品人妻偷拍中文字幕| a 毛片基地| 成人毛片60女人毛片免费| 国内精品宾馆在线| a级毛片在线看网站| 欧美丝袜亚洲另类| 看非洲黑人一级黄片| 久久久久久久国产电影| 久久精品久久久久久噜噜老黄| 亚洲精品国产av蜜桃| 极品人妻少妇av视频| 高清在线视频一区二区三区| 美女国产视频在线观看| 丁香六月天网| 亚洲精品乱久久久久久| 日韩视频在线欧美| 国产亚洲午夜精品一区二区久久| 日韩电影二区| 久久久精品94久久精品| 两个人免费观看高清视频| 精品一区在线观看国产| 日韩在线高清观看一区二区三区| 欧美性感艳星| 久久久久精品人妻al黑| 18禁在线无遮挡免费观看视频| 免费观看在线日韩| 女性被躁到高潮视频| 亚洲精品日韩在线中文字幕| 国产精品一二三区在线看| 男人操女人黄网站| 久久久久久久国产电影| 菩萨蛮人人尽说江南好唐韦庄| 97在线人人人人妻| 一本色道久久久久久精品综合| 在线观看一区二区三区激情| 少妇的逼好多水| 久久久欧美国产精品| 久久综合国产亚洲精品| 亚洲伊人色综图| 免费不卡的大黄色大毛片视频在线观看| videos熟女内射| 日本猛色少妇xxxxx猛交久久| 赤兔流量卡办理|