• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于網(wǎng)絡(luò)爬蟲的導(dǎo)航深度服務(wù)信息自動(dòng)采集

    2015-03-28 06:10:48陳睿嘉康志忠張衛(wèi)濤
    測(cè)繪工程 2015年1期
    關(guān)鍵詞:字符串爬蟲名稱

    陳睿嘉,康志忠,張衛(wèi)濤

    (1.中國地質(zhì)大學(xué) 土地科學(xué)技術(shù)學(xué)院,北京100083;2.廣東瑞圖萬方科技股份有限公司,廣東 佛山528305)

    基于位置的服務(wù)(location based services,LBS)是集GIS技術(shù)、定位技術(shù)、通信技術(shù)、網(wǎng)絡(luò)技術(shù)等為一體的能提供多種形式服務(wù)的以位置信息為核心的信息服務(wù)框架[1]。如今,傳統(tǒng)地圖服務(wù)日漸無法跟上生活服務(wù)需求,楊小晴等提出將樓盤信息通過Google Map融合發(fā)布為地圖服務(wù)[2]。隨著互聯(lián)網(wǎng)發(fā)展,網(wǎng)絡(luò)中包含大量實(shí)時(shí)地理信息,互聯(lián)網(wǎng)環(huán)境下的地理信息Web服務(wù)搜索引擎已成為當(dāng)前的一個(gè)研究熱點(diǎn)[3]。主題爬蟲應(yīng)用策略作為地理信息搜索引擎應(yīng)用的核心和基礎(chǔ),是研究的重點(diǎn)之一。Refractions Research、GIDB、Skylab Mobile Systems等均基于Google API開發(fā)了支持OGC(Open GIS Consortiu m)標(biāo)準(zhǔn)的 Web地圖服務(wù)(Web Map Service,WMS)爬蟲[4];Li等根據(jù) 主題特征計(jì)算URL(Universal Resource Locator)及頁面的權(quán)重以優(yōu)化提取隊(duì)列[4];武昊等提出了一種基于主題相關(guān)度的地理信息Web服務(wù)爬蟲策略[5];張春菊等提出基于網(wǎng)絡(luò)爬蟲的地名數(shù)據(jù)庫維護(hù)方法[6];苗海等利用開源爬蟲NWeb Crawler定制正則表達(dá)式設(shè)計(jì)一種基于相似聚類算法的垂直搜索引擎

    本文基于傳統(tǒng)地理信息爬蟲在專題垂直搜索應(yīng)用中的不足,提出一種基于主題爬蟲設(shè)計(jì)思想,自動(dòng)采集各服務(wù)信息網(wǎng)站提供的POI深度服務(wù)信息的方法。

    1 深度服務(wù)信息定義及結(jié)構(gòu)

    導(dǎo)航興趣點(diǎn)(POI)是指在導(dǎo)航地圖中可以用查詢的方法檢索的信息關(guān)注點(diǎn),泛指一切可以抽象為點(diǎn)的地理對(duì)象,在導(dǎo)航地圖中以入口點(diǎn)或位置點(diǎn)的方式給出。POI結(jié)合導(dǎo)航功能的實(shí)現(xiàn),主要記錄內(nèi)容包括檢索點(diǎn)的絕對(duì)位置坐標(biāo)、所屬行政區(qū)劃編碼、名稱信息、地址信息、電話信息、類型編碼、對(duì)象唯一標(biāo)識(shí)碼、所對(duì)應(yīng)道路路網(wǎng)弧段ID號(hào)、點(diǎn)關(guān)系類型、顯示等級(jí)等相對(duì)長時(shí)間不會(huì)變動(dòng)的內(nèi)容。網(wǎng)絡(luò)中存在大量服務(wù)網(wǎng)站平臺(tái)發(fā)布與維護(hù)POI實(shí)時(shí)服務(wù)信息,如:時(shí)光網(wǎng)發(fā)布電影院當(dāng)天上映電影信息、中票在線發(fā)布劇場(chǎng)近期演出信息、去哪網(wǎng)發(fā)布酒店房間信息等,其最快更新頻率一般情況下為1 d。

    本文定義深度服務(wù)信息繼承POI結(jié)構(gòu),以天為周期從網(wǎng)絡(luò)抓取實(shí)時(shí)發(fā)布的服務(wù)信息,并獲取本地時(shí)間作為抓取日期字段,生成深度服務(wù)信息點(diǎn)特征入庫,其內(nèi)容如表1所示。

    表1 深度服務(wù)信息數(shù)據(jù)結(jié)構(gòu)

    本文內(nèi)容主要研究網(wǎng)絡(luò)信息抓取方法以及網(wǎng)絡(luò)信息與POI點(diǎn)匹配方法。

    2 深度服務(wù)信息自動(dòng)采集

    深度服務(wù)信息自動(dòng)采集流程如圖1所示。采集方法流程分為以下3步:

    1)根據(jù)原地圖矢量數(shù)據(jù)對(duì)POI的分類編碼檢索某一類POI點(diǎn)(如電影院)名稱、地址、經(jīng)緯度等數(shù)據(jù)按定義結(jié)構(gòu)生成深度服務(wù)信息點(diǎn),服務(wù)信息字段空缺。

    圖1 深度服務(wù)信息采集算法

    2)使用網(wǎng)絡(luò)爬蟲獲取該類主站下(如時(shí)光網(wǎng))發(fā)布服務(wù)信息的服務(wù)地點(diǎn)URL;并通過DOM技術(shù)[6]解析、提取每個(gè)URL中服務(wù)地點(diǎn)的名稱、地址及服務(wù)信息。

    3)對(duì)步驟1)中得到的每一深度服務(wù)信息點(diǎn)中的name、address字段依次與步驟2)中獲取的每個(gè)URL對(duì)應(yīng)的名稱、地址分別計(jì)算字符串相似度,選擇最優(yōu)URL頁面的深度服務(wù)信息填入當(dāng)前空缺服務(wù)信息字段,使用算法分別為編輯距離(Levenshtein距離)[8]和最大公共子序列(Longest Common Subsequence,LCS)[8]。

    2.1 網(wǎng)絡(luò)爬蟲設(shè)計(jì)

    網(wǎng)絡(luò)爬蟲是搜索引擎的重要組成部分,其基本原理是從一些“種子”站點(diǎn)出發(fā),通過HTTP等協(xié)議請(qǐng)求并獲取網(wǎng)頁資源,分析頁面內(nèi)容并提取鏈接,以循環(huán)迭代的方式訪問整個(gè)網(wǎng)絡(luò)[5]。主題網(wǎng)絡(luò)爬蟲根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接,保留主題相關(guān)的鏈接并將其放入待抓取的URL隊(duì)列中;然后根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁URL,并重復(fù)上述過程,直到達(dá)到系統(tǒng)的某一條件時(shí)停止[9]。本文設(shè)計(jì)的爬蟲采用廣度優(yōu)先策略,參考基于相似聚類算法的垂直搜索引擎中正則表達(dá)式的應(yīng)用[7],設(shè)計(jì)了兩個(gè)正則表達(dá)式,分別用于過濾外鏈與匹配目標(biāo)URL。

    URL是代表網(wǎng)頁地址的字符串,所需要的某一類服務(wù)地點(diǎn)URL具有相似的結(jié)構(gòu)。正則表達(dá)式正是用來描述或者匹配一系列符合某個(gè)句法規(guī)則的字符串的單個(gè)字符串,可用于識(shí)別相似的字符串結(jié)構(gòu)。以時(shí)光網(wǎng)為例,可以將表達(dá)式1設(shè)計(jì)為:“http://.*mti me.*”,即匹配包含“mti me”的 URL。對(duì)目標(biāo)URL進(jìn)行抽樣分析,如:新華國際影城大鐘寺店 URL 為 http://theater.mti me.co m/China_Beijing_Haidian/3129/,耀萊國際影城 URL為http://theater.mti me.com/China_Beijing_Haidian/2486/???將 表 達(dá) 式 2 設(shè) 計(jì) 為:“http://t heater.mti me.com/China_Beijing_[A-Z]?[a-z]+/[\d]+/”。提取出所有相似結(jié)構(gòu)的URL后,可使用網(wǎng)頁文本解析方法提取名稱、地址和服務(wù)信息。

    2.2 網(wǎng)頁文本解析

    網(wǎng)頁文本解析與提取通過DOM技術(shù)[6]實(shí)現(xiàn)。URL頁面通常是HT ML格式文本。HT ML(Hyper Text Markup Language)是超文本標(biāo)記語言,其基本思想是用描述標(biāo)記來提供描述文檔結(jié)構(gòu)的附加信息[10]。

    DOM技術(shù)是當(dāng)前用于解析HT ML網(wǎng)頁最常用的技術(shù),根據(jù)網(wǎng)頁結(jié)構(gòu)標(biāo)記將文本解析為樹形結(jié)構(gòu),形成以HT ML為根節(jié)點(diǎn)的結(jié)構(gòu)明晰、層次好的DOM標(biāo)記樹,樹中的每個(gè)節(jié)點(diǎn)由網(wǎng)頁中的所有標(biāo)記屬性對(duì)構(gòu)成,如圖2所示。

    圖2 DOM樹形結(jié)構(gòu)

    由于同一網(wǎng)站發(fā)布不同地點(diǎn)服務(wù)信息的網(wǎng)頁結(jié)構(gòu)一致,地點(diǎn)名稱、地址和服務(wù)信息存在于DOM樹某一固定葉子節(jié)點(diǎn)上。如國中票在線家大劇院主頁中一段源代碼:

    “<li class=“ticket_list_tu fl”>

    <a href= “http://www.chinaticket.co m/view/9958.ht ml”target=“_blank”title=“中國國家芭蕾舞團(tuán)《大紅燈籠高高掛》”class=“ticket_list_title”>中國國家芭蕾舞團(tuán)《大紅燈籠高高掛》</a>

    <span> 時(shí) 間:2013.01.18 - 2013.01.19&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;票價(jià):100.00元 -680.00元</span>

    </li>”

    顯然,只需從屬性為“ticket_list_t u fl”、標(biāo)簽為“<li>”的節(jié)點(diǎn)中提取完整語句,過濾標(biāo)簽符號(hào)。該地點(diǎn)的名稱、地址也可在其他葉子節(jié)點(diǎn)中獲得。

    2.3 基于目標(biāo)網(wǎng)頁名稱、地址的相關(guān)度計(jì)算方法

    Li等、武昊等、張春菊等以及苗海等設(shè)計(jì)的專題爬蟲對(duì)主題字符串進(jìn)行分詞,構(gòu)建向量空間模型,并利用TF-IDF算法計(jì)算網(wǎng)頁文本內(nèi)容與主題相似度[4-7]。向量空間模型法依賴于分詞詞庫的構(gòu)建,而TF-IDF向量定權(quán)法需要對(duì)網(wǎng)頁文本進(jìn)行大量取樣,整體復(fù)雜度較大。本文設(shè)計(jì)提取網(wǎng)頁對(duì)應(yīng)地點(diǎn)名稱、地址字符串計(jì)算與主題點(diǎn)特征相似度的方法,并對(duì)LCS算法計(jì)算地址相似度過程進(jìn)行改進(jìn)。

    在專題垂直搜索應(yīng)用中,目標(biāo)網(wǎng)頁內(nèi)容之間的差異相比傳統(tǒng)主題搜索具有更明顯的規(guī)律,其差異性主要表現(xiàn)在地點(diǎn)位置描述部分,即地點(diǎn)的名稱、地址字符串,可通過網(wǎng)頁中的名稱、地址與POI的名稱、地址相似程度判定該網(wǎng)頁服務(wù)信息與POI點(diǎn)的相關(guān)程度:將繼承自POI主體的name與address字段對(duì)每個(gè)URL文本中解析得到的名稱、地址字符串分別計(jì)算名稱相似度與地址相似度,并取兩者均值作為當(dāng)前點(diǎn)特征與當(dāng)前URL相關(guān)度,從URL列表中選擇相關(guān)度最大者作為最優(yōu)匹配結(jié)果,并將其解析得到的服務(wù)信息作為點(diǎn)特征服務(wù)信息字段。但若當(dāng)前特征點(diǎn)表示的地點(diǎn)在URL列表中不存在,將會(huì)選擇與之相似度最大的錯(cuò)誤頁面作為匹配結(jié)果,對(duì)此可設(shè)定一閾值,若結(jié)果大于閾值則匹配成功,否則放棄匹配。通過實(shí)驗(yàn)驗(yàn)證,閾值設(shè)定在0.5時(shí)就可得到正確結(jié)果。

    字符串相似度尋找兩個(gè)字符串的公共子串,利用公共子串的長度根據(jù)相應(yīng)的公式來衡量兩個(gè)字符串的相似程度。字符串相似度在很多領(lǐng)域都有廣泛的應(yīng)用,如在抄襲檢測(cè)系統(tǒng)、自動(dòng)評(píng)分系統(tǒng)、防代碼剽竊系統(tǒng)、數(shù)據(jù)清洗、網(wǎng)頁搜索和DNA序列匹配等。目前,字符串相似度度量算法有很多,如編輯距離算法(Levenshtein Distance)、最長公共子串算法(LCS,Longest Co mmon Subsequence)、Heckel算法、貪心字符串匹配算法(Greedy String Tiling,GST)及 RKR-GST算法(Running Karp-Rabin Greedy String Tiling,RKR-GST)等[10]。本文名稱的相似度使用編輯距離計(jì)算,地址相似度使用最大公共子序列計(jì)算,并針對(duì)地址相似度計(jì)算過程做出改進(jìn)。

    2.3.1 編輯距離計(jì)算名稱相似度

    編輯距離是用來計(jì)算從原字符串轉(zhuǎn)換到目標(biāo)字符串所需要的最少的插入、刪除和替換的數(shù)目。該算法能對(duì)順序匹配進(jìn)行有效查找,可準(zhǔn)確識(shí)別地點(diǎn)名稱描述相似程度。編輯距離算法步驟如下[8]:

    1)得到字符串1長度m,字符串2長度n,如果m=0,則編輯距離為n;如果n=0,則編輯距離為m。

    2)構(gòu)造一個(gè)(m+1)×(n+1)大小矩陣 Distance,矩陣第1行依次賦值為0,1,2,…,m,第1列依次賦值為0,1,2,…,n。

    3)對(duì)矩陣從左到右,每一列從上到下依次計(jì)算:設(shè)i為矩陣行號(hào),j為矩陣列號(hào),0≤i≤m,0≤j≤n,若字符串1第i個(gè)字符與字符串2第j個(gè)字符相同,按式(1)計(jì)算;若字符串1第i個(gè)字符與字符串2第j個(gè)字符不相同,則按式(2)計(jì)算。

    4)最后計(jì)算矩陣右下角的值即為兩字符串編輯距離,并通過式(3)計(jì)算相似度為

    然而,由于大量存在同商家分店,如:“新華國際影城大興店”與“新華國際影城良鄉(xiāng)店”相似度極高,卻不表示同一地點(diǎn),加入地址相似度作為參考,可提高匹配準(zhǔn)確度。

    2.3.2 最大公共子序列計(jì)算地址相似度

    地址匹配包括精確匹配和模糊匹配。當(dāng)?shù)刂沸畔⒈磉_(dá)符合編碼規(guī)則標(biāo)準(zhǔn)時(shí),直接將地址進(jìn)行標(biāo)準(zhǔn)化處理,處理成地址數(shù)據(jù)庫中表達(dá)的標(biāo)準(zhǔn)格式,從而實(shí)現(xiàn)與地址數(shù)據(jù)庫的精確匹配。當(dāng)?shù)刂沸畔⒈磉_(dá)不符合編碼規(guī)則標(biāo)準(zhǔn)時(shí),采用模糊匹配進(jìn)行處理[1]。

    而張春菊、唐旭日等使用條件隨機(jī)場(chǎng)模型(CRF)將地址識(shí)別為“北京市;東城區(qū);北三環(huán)東路;36號(hào)”的模式,分別對(duì)每一部分匹配[6,11]。此方法的準(zhǔn)確性依賴于完善的地名詞庫。本文通過改進(jìn)LCS算法計(jì)算地址相似度。

    最長公共子序列算法是將兩個(gè)給定字符串分別刪去零個(gè)或多個(gè)字符,但不改變剩余字符的順序后得到的長度最長的相同字符序列。其算法的運(yùn)行步驟如下[8]:

    1)得到字符串1長度m,字符串2長度n,如果m=0,n=0,則LCS為0。

    2)若m,n都不為0,構(gòu)造一個(gè)(m+1)×(n+1)大小矩陣LCS,將其第1行第1列的值置0。

    3)初始化矩陣LCS,設(shè)i為矩陣行號(hào),j為矩陣列號(hào),0≤i≤m,0≤j≤n,若字符串1第i個(gè)字符與字符串2第j個(gè)字符相同,則使LCSi,j=1,否則使LCSi,j=0。

    4)對(duì)矩陣從上到下,每一行從左到右依次計(jì)算:若字符串1第i個(gè)字符與字符串2第j個(gè)字符相 同,且 LCSi-1,j= LCSi-1,j-1,則 使 LCS i,j=LCSi,j-1,否則使 LCSi,j=Max(LCSi-1,j,LCSi,j-1),矩陣中最大值即為最大公共子序列。

    按LCS計(jì)算相似度原始方法,可按式(4)[8]計(jì)算相似度為

    可按此方法計(jì)算“北三環(huán)東路36號(hào)”與“北京市東城區(qū)北三環(huán)東路36號(hào)環(huán)球貿(mào)易中心E座B1/F1/F3”相似度僅為53%,但這兩種描述表達(dá)的是同一個(gè)地點(diǎn),極大影響了匹配準(zhǔn)確度。本文針對(duì)這一特征改進(jìn)LCS計(jì)算地址相似度方法,如式(5)所示。

    由此計(jì)算以上兩地址相似度為100%,有效地提高了地址相似度計(jì)算準(zhǔn)確度,最終通過取名稱、地址相似度均值,作為穩(wěn)健的匹配依據(jù)。

    3 實(shí)驗(yàn)與分析

    本文通過以上方法流程設(shè)計(jì)了基于網(wǎng)絡(luò)爬蟲的導(dǎo)航深度服務(wù)信息自動(dòng)采集系統(tǒng)原型,以北京市部分區(qū)域的導(dǎo)航地圖數(shù)據(jù)為POI數(shù)據(jù)來源,分別從時(shí) 光 網(wǎng) http://theater.mti me.com/China_Beijing/、中票在線htt p://www.chinaticket.co m/beijing/venue.ht ml中抓取電影信息與劇目信息為實(shí)驗(yàn),在Windows 7操作系統(tǒng)下使用java語言實(shí)現(xiàn),具有良好的可移植性。

    3.1 POI信息檢索

    通過SQL語言檢索導(dǎo)出基礎(chǔ)POI數(shù)據(jù)ID、Name、Type、X、Y字段內(nèi)容。獲取北京市150家電影院、136家劇場(chǎng)。圖3、圖4分別為電影院、劇場(chǎng)部分檢索結(jié)果。

    圖3 電影院POI數(shù)據(jù)

    圖4 劇場(chǎng)POI數(shù)據(jù)

    3.2 網(wǎng)絡(luò)爬蟲結(jié)果

    檢索POI數(shù)據(jù)的同時(shí),爬蟲開始抓取電影院主頁與劇場(chǎng)主頁URL。理論上只要爬行一定的深度就可得到所有主頁URL,為兼顧效率與數(shù)量,以爬行兩層為實(shí)驗(yàn),在時(shí)光網(wǎng)與中票在線中分別抓取到匹配以下兩正則表達(dá)式:“http://t heater.mti me.co m/China_Beijing_[A-Z]?[a-z]+/[\d]+/”、“http://www.chinaticket.co m/beijing/venue/[\d]+.ht ml”的URL列表,包括46個(gè)電影院主頁與70個(gè)劇場(chǎng)主頁,如圖5、圖6所示。

    圖5 電影院爬蟲結(jié)果

    3.3 網(wǎng)頁文本解析

    根據(jù)網(wǎng)頁文本解析模塊解析每個(gè)URL,圖7、圖8分別為圖5、圖6中第1個(gè)URL解析、提取名稱、地址、服務(wù)信息內(nèi)容與實(shí)際網(wǎng)頁顯示結(jié)果對(duì)比,證明了網(wǎng)頁文本解析方法的準(zhǔn)確性。圖7表示的網(wǎng)頁雖然包含了第2天的電影信息,但隱藏在其包含的另一 URL中,“http://theater.mti me.co m/Chi-na_Beijing_Daxing 3062?d=20130421 不影響 當(dāng)天抓取結(jié)果。

    圖6 劇場(chǎng)爬蟲結(jié)果

    圖7 電影院解析結(jié)果

    圖8 劇場(chǎng)解析結(jié)果

    3.4 基于目標(biāo)網(wǎng)頁名稱、地址的相關(guān)度計(jì)算結(jié)果

    根據(jù)基于目標(biāo)網(wǎng)頁名稱、地址的相關(guān)度計(jì)算方法對(duì)每個(gè)點(diǎn)特征與所有URL計(jì)算相關(guān)度,并匹配一最佳URL。圖9為“新華國際影城大興店”與URL相關(guān)度計(jì)算結(jié)果,其對(duì)應(yīng)POI點(diǎn)的name、address字段分別為“新華國際影城大興店”、“大興區(qū)黃村東大街”,左邊為每個(gè)URL解析得到的名稱、地址,右邊表達(dá)式表示“(名稱相似度+地址相似度)/2=相關(guān)度”。

    設(shè)定閾值為0.5以下時(shí),可能得到錯(cuò)誤匹配結(jié)果,如圖10所示,但若所取閾值越大,得到的匹配結(jié)果越少,可能舍棄了正確的匹配結(jié)果。圖11為相關(guān)度閾值為0.5時(shí)電影院、劇場(chǎng)對(duì)應(yīng)POI與其相關(guān)度最大的URL名稱、地址對(duì)比,結(jié)果全部正確。

    圖9 相似度計(jì)算結(jié)果

    圖10 閾值為0.4時(shí)錯(cuò)誤匹配結(jié)果

    圖11 電影院、劇場(chǎng)匹配結(jié)果

    3.5 入庫及更新

    最終,按以上相關(guān)度匹配結(jié)果依次將解析URL得到的服務(wù)信息作為匹配點(diǎn)特征的深度服務(wù)信息字段并入庫,并且以天為周期采集、更新。單次入庫結(jié)果如圖12所示,圖13為5月29日至31日對(duì)新華國際影城大興店連續(xù)3 d采集的服務(wù)信息結(jié)果。

    圖12 入庫結(jié)果

    圖13 連續(xù)采集結(jié)果

    4 結(jié) 論

    互聯(lián)網(wǎng)逐漸成為日常生活獲取信息的主要來源,搜索引擎以及爬蟲技術(shù)則是從互聯(lián)網(wǎng)上快速獲取深度服務(wù)信息的捷徑。本文通過實(shí)驗(yàn)取得了較好的結(jié)果,從理論、實(shí)驗(yàn)上證明了方法的準(zhǔn)確性和廣泛適用性。而采集得到的深度服務(wù)信息不但可以直接提供給用戶,更可以結(jié)合路徑規(guī)劃、實(shí)時(shí)交通信息等提供深度決策服務(wù),如:附近最便宜的旅館、附近可趕上的電影等。

    為了更快速、高效地獲取網(wǎng)絡(luò)信息,爬蟲性能優(yōu)化也是爬蟲技術(shù)的研究重點(diǎn)。本文爬蟲設(shè)計(jì)仍有較大性能優(yōu)化空間,甚至可以直接基于Nutch、Heritrix等成熟開源爬蟲進(jìn)行二次開發(fā)。

    [1] 李清泉,楊必勝,鄭年波.時(shí)空一體化GIS-T數(shù)據(jù)模型與應(yīng)用方法[J].武漢大學(xué)學(xué)報(bào):信息科學(xué)版,2007,32(11):1034-1041.

    [2] 楊小晴,羅畏,黃文嘉.基于Google Map的樓盤信息發(fā)布系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].測(cè)繪工程,2011,20(2):49-52.

    [3] 白玉琪,楊崇?。臻g信息搜索引擎研究[J].中國礦業(yè)大學(xué)學(xué)報(bào),2004,33(1):90-94.

    [4] LI W W,YANG C W,YANG C J.An active crawler for discovering geospatial Web services and their distribution patter n–A case study of OGC Web Map Ser vice[J].Inter national Jour nal of Geographical Infor mation Science,2010,24(8):1127-1147.

    [5] 武昊,廖安平,何超英,等.基于主題相關(guān)度的地理信息Web服務(wù)爬蟲研究[J].地理與地理信息科學(xué),2012,28(2):27-30.

    [6] 張春菊,張雪英,朱少楠,等.基于網(wǎng)絡(luò)爬蟲的地名數(shù)據(jù)庫維護(hù)方法研究[J].地球信息科學(xué)學(xué)報(bào),2011,13(4):492-499.

    [7] 苗海,張仰森,岳明.基于聚類算法的垂直搜索引擎技術(shù)研究[J].北京信息科技大學(xué)學(xué)報(bào),2013,28(1):41-44.

    [8] 牛永潔,張成.多種字符串相似度算法的比較研究[J].計(jì)算機(jī)與數(shù)字工程,2012,40(3):14-17.

    [9] 劉金紅,陸余良.主題網(wǎng)絡(luò)爬蟲研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2007,24(10):26-29,47.

    [10]王志琪,王永成.HT ML文件的文本信息預(yù)處理技術(shù)[J].計(jì)算機(jī)工程,2006,32(5):46-48,67.

    [11]唐旭日,陳小荷,張雪英.中文文本的地名解析方法研究[J].武漢大學(xué)學(xué)報(bào):信息科學(xué)版,2010,35(8):930-935,982.

    猜你喜歡
    字符串爬蟲名稱
    利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說
    基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
    利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
    大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
    電子制作(2017年9期)2017-04-17 03:00:46
    滬港通一周成交概況
    滬港通一周成交概況
    滬港通一周成交概況
    滬港通一周成交概況
    一種新的基于對(duì)稱性的字符串相似性處理算法
    依據(jù)字符串匹配的中文分詞模型研究
    90打野战视频偷拍视频| 国产视频首页在线观看| 99国产精品免费福利视频| 久久av网站| 日本黄色日本黄色录像| 欧美xxⅹ黑人| 永久免费av网站大全| 国产精品无大码| 五月伊人婷婷丁香| 成人国语在线视频| 天美传媒精品一区二区| 一本大道久久a久久精品| 欧美激情 高清一区二区三区| 伦理电影大哥的女人| 大香蕉久久网| 欧美激情高清一区二区三区 | 黄色配什么色好看| 亚洲av电影在线进入| 欧美精品人与动牲交sv欧美| 黄色毛片三级朝国网站| 色吧在线观看| 男女国产视频网站| 啦啦啦在线免费观看视频4| 精品国产国语对白av| 亚洲精品日本国产第一区| 在线亚洲精品国产二区图片欧美| 国产av一区二区精品久久| 伦理电影大哥的女人| 久久久久久久久久久久大奶| 国产精品无大码| 欧美精品国产亚洲| 久久这里只有精品19| 黑人猛操日本美女一级片| 亚洲国产欧美网| 少妇熟女欧美另类| 少妇精品久久久久久久| 亚洲精品美女久久av网站| 边亲边吃奶的免费视频| 99香蕉大伊视频| 国产精品免费大片| 日日摸夜夜添夜夜爱| 久久青草综合色| 国产精品久久久久成人av| 在线观看www视频免费| 少妇熟女欧美另类| 波多野结衣av一区二区av| 91精品三级在线观看| 国产成人精品久久久久久| 国产熟女午夜一区二区三区| 日本午夜av视频| 少妇人妻 视频| 亚洲人成电影观看| 人体艺术视频欧美日本| 制服丝袜香蕉在线| 久久精品国产自在天天线| 亚洲欧美成人综合另类久久久| 日本vs欧美在线观看视频| 精品第一国产精品| 在现免费观看毛片| 熟妇人妻不卡中文字幕| 久久国产精品男人的天堂亚洲| 精品亚洲成国产av| 男男h啪啪无遮挡| 免费在线观看视频国产中文字幕亚洲 | 亚洲视频免费观看视频| 久久婷婷青草| 一级爰片在线观看| 亚洲男人天堂网一区| 久久精品人人爽人人爽视色| 午夜福利网站1000一区二区三区| 欧美日韩视频精品一区| 性少妇av在线| 国产人伦9x9x在线观看 | 亚洲在久久综合| 成人手机av| 国产精品人妻久久久影院| 人人澡人人妻人| 亚洲一区中文字幕在线| 国产爽快片一区二区三区| 久久亚洲国产成人精品v| 美女脱内裤让男人舔精品视频| 亚洲精品,欧美精品| av免费在线看不卡| 久久青草综合色| 777久久人妻少妇嫩草av网站| 国产女主播在线喷水免费视频网站| 国产毛片在线视频| 国产一区二区激情短视频 | 婷婷色av中文字幕| 国产 精品1| 亚洲经典国产精华液单| 国产av码专区亚洲av| 制服诱惑二区| 成人国产av品久久久| 中文字幕精品免费在线观看视频| 国产精品99久久99久久久不卡 | 建设人人有责人人尽责人人享有的| 久久久久久免费高清国产稀缺| 咕卡用的链子| 王馨瑶露胸无遮挡在线观看| 欧美精品亚洲一区二区| 精品99又大又爽又粗少妇毛片| 国产野战对白在线观看| 久久毛片免费看一区二区三区| 永久免费av网站大全| 91aial.com中文字幕在线观看| 涩涩av久久男人的天堂| videos熟女内射| 国产又色又爽无遮挡免| 亚洲国产精品一区二区三区在线| 国产在线免费精品| 久久久亚洲精品成人影院| 99热国产这里只有精品6| 久久热在线av| 久久久久久免费高清国产稀缺| 欧美激情 高清一区二区三区| 久久精品人人爽人人爽视色| 欧美激情高清一区二区三区 | 成人亚洲精品一区在线观看| 亚洲精品自拍成人| 日韩一卡2卡3卡4卡2021年| 在线观看国产h片| av电影中文网址| 性色av一级| 欧美成人午夜免费资源| 桃花免费在线播放| 久久综合国产亚洲精品| 在现免费观看毛片| 国产亚洲精品第一综合不卡| 深夜精品福利| 欧美xxⅹ黑人| 最新中文字幕久久久久| 在线观看一区二区三区激情| 亚洲图色成人| 午夜福利乱码中文字幕| 中文字幕人妻丝袜制服| 中文精品一卡2卡3卡4更新| 久久国产亚洲av麻豆专区| 亚洲av免费高清在线观看| 波多野结衣av一区二区av| 国产在线免费精品| 日产精品乱码卡一卡2卡三| 欧美精品av麻豆av| 一二三四在线观看免费中文在| av视频免费观看在线观看| av网站免费在线观看视频| 伊人亚洲综合成人网| 一级毛片电影观看| 在线 av 中文字幕| 天天躁狠狠躁夜夜躁狠狠躁| 免费看不卡的av| 欧美激情高清一区二区三区 | 国产日韩欧美在线精品| 精品国产露脸久久av麻豆| 99久久中文字幕三级久久日本| 精品少妇内射三级| 欧美日韩精品网址| 亚洲伊人色综图| videosex国产| 少妇人妻 视频| 久久国产亚洲av麻豆专区| 黄网站色视频无遮挡免费观看| 亚洲国产精品999| 亚洲天堂av无毛| 国产片内射在线| 亚洲欧美一区二区三区久久| 亚洲国产毛片av蜜桃av| 国产av精品麻豆| 色吧在线观看| 国产片特级美女逼逼视频| 丝袜喷水一区| 久久国产精品大桥未久av| 亚洲精品乱久久久久久| av女优亚洲男人天堂| 国产精品不卡视频一区二区| 哪个播放器可以免费观看大片| 久久久久人妻精品一区果冻| 日韩一区二区三区影片| 80岁老熟妇乱子伦牲交| 老司机影院毛片| 亚洲av福利一区| 国语对白做爰xxxⅹ性视频网站| 老汉色∧v一级毛片| 久久这里有精品视频免费| 午夜福利在线观看免费完整高清在| 啦啦啦在线观看免费高清www| 观看美女的网站| 欧美激情 高清一区二区三区| av.在线天堂| 大码成人一级视频| 女性被躁到高潮视频| 久久狼人影院| 午夜福利网站1000一区二区三区| 精品国产一区二区久久| 啦啦啦中文免费视频观看日本| 在线亚洲精品国产二区图片欧美| 精品酒店卫生间| 亚洲av.av天堂| 夜夜骑夜夜射夜夜干| 天天躁狠狠躁夜夜躁狠狠躁| 中文天堂在线官网| 亚洲内射少妇av| 男人爽女人下面视频在线观看| 天天躁夜夜躁狠狠躁躁| 国产一区二区三区综合在线观看| 狠狠婷婷综合久久久久久88av| 国产欧美日韩综合在线一区二区| 国产日韩一区二区三区精品不卡| 国产精品免费视频内射| 国产成人午夜福利电影在线观看| 亚洲激情五月婷婷啪啪| 欧美中文综合在线视频| 一级黄片播放器| 亚洲,欧美,日韩| 日本av免费视频播放| 观看美女的网站| 女人被躁到高潮嗷嗷叫费观| 国产成人一区二区在线| 欧美人与性动交α欧美精品济南到 | 人成视频在线观看免费观看| 国产精品亚洲av一区麻豆 | 9191精品国产免费久久| 久久人人97超碰香蕉20202| 成人亚洲欧美一区二区av| 国产一区亚洲一区在线观看| av电影中文网址| 亚洲美女搞黄在线观看| 亚洲经典国产精华液单| 亚洲综合色惰| 国产成人a∨麻豆精品| 久久久久久人人人人人| 亚洲男人天堂网一区| 国产极品天堂在线| 一级毛片电影观看| 久久久久久免费高清国产稀缺| 久久精品国产亚洲av涩爱| 国产极品粉嫩免费观看在线| 亚洲精品国产色婷婷电影| 天天躁日日躁夜夜躁夜夜| 下体分泌物呈黄色| 青春草视频在线免费观看| 日韩在线高清观看一区二区三区| 麻豆av在线久日| 天堂8中文在线网| 天天影视国产精品| 久久这里只有精品19| 国产乱来视频区| 国产熟女欧美一区二区| av卡一久久| 亚洲人成网站在线观看播放| 国产精品人妻久久久影院| 在线亚洲精品国产二区图片欧美| 亚洲美女黄色视频免费看| 热99国产精品久久久久久7| 国产在线免费精品| 精品一区在线观看国产| 精品国产一区二区三区四区第35| 亚洲伊人久久精品综合| 亚洲国产成人一精品久久久| 成人手机av| 9热在线视频观看99| 亚洲av电影在线进入| 天堂8中文在线网| 久久狼人影院| 女人精品久久久久毛片| 99久久人妻综合| 街头女战士在线观看网站| 亚洲欧美清纯卡通| 亚洲精品美女久久av网站| 一级毛片电影观看| 亚洲精品久久成人aⅴ小说| 日本wwww免费看| 国产日韩欧美视频二区| 母亲3免费完整高清在线观看 | 国产精品不卡视频一区二区| 国产精品 欧美亚洲| 精品亚洲成国产av| 国产成人91sexporn| 成人二区视频| 黄片无遮挡物在线观看| 亚洲欧美日韩另类电影网站| 纵有疾风起免费观看全集完整版| 亚洲精品国产av成人精品| 久久久久精品人妻al黑| 久久久久人妻精品一区果冻| 国产午夜精品一二区理论片| √禁漫天堂资源中文www| 丁香六月天网| 精品一区二区三区四区五区乱码 | 最近中文字幕高清免费大全6| h视频一区二区三区| 最近最新中文字幕免费大全7| 国产精品久久久久久久久免| 青草久久国产| 最近2019中文字幕mv第一页| 永久免费av网站大全| 国语对白做爰xxxⅹ性视频网站| 岛国毛片在线播放| 久久精品久久精品一区二区三区| 深夜精品福利| 黄片播放在线免费| 欧美黄色片欧美黄色片| 国产精品 欧美亚洲| 久久久久久久亚洲中文字幕| 一本—道久久a久久精品蜜桃钙片| 国产精品蜜桃在线观看| 成人黄色视频免费在线看| 麻豆乱淫一区二区| 欧美日韩成人在线一区二区| 精品少妇一区二区三区视频日本电影 | 精品一品国产午夜福利视频| 中文精品一卡2卡3卡4更新| 女人高潮潮喷娇喘18禁视频| 久久久精品国产亚洲av高清涩受| 狠狠精品人妻久久久久久综合| 汤姆久久久久久久影院中文字幕| 国产日韩欧美视频二区| 欧美日韩成人在线一区二区| 建设人人有责人人尽责人人享有的| 电影成人av| 国产老妇伦熟女老妇高清| 丝袜美腿诱惑在线| 在线观看免费高清a一片| 欧美人与善性xxx| 一级毛片电影观看| 免费看不卡的av| √禁漫天堂资源中文www| 亚洲第一av免费看| av网站在线播放免费| 亚洲少妇的诱惑av| 69精品国产乱码久久久| 亚洲国产色片| 黄频高清免费视频| 国产在视频线精品| 叶爱在线成人免费视频播放| 夜夜骑夜夜射夜夜干| 高清视频免费观看一区二区| 有码 亚洲区| av在线app专区| 日韩精品有码人妻一区| 狠狠精品人妻久久久久久综合| 国产精品偷伦视频观看了| 九色亚洲精品在线播放| 美女大奶头黄色视频| 在线 av 中文字幕| 交换朋友夫妻互换小说| 水蜜桃什么品种好| 婷婷色麻豆天堂久久| 亚洲欧美精品综合一区二区三区 | 啦啦啦视频在线资源免费观看| 午夜福利,免费看| 久久午夜综合久久蜜桃| 宅男免费午夜| 黄片播放在线免费| 国产一区二区三区综合在线观看| 啦啦啦视频在线资源免费观看| 精品人妻熟女毛片av久久网站| 国产日韩一区二区三区精品不卡| 国产伦理片在线播放av一区| av天堂久久9| kizo精华| 综合色丁香网| 国产成人精品福利久久| 久久午夜综合久久蜜桃| 欧美人与善性xxx| 亚洲情色 制服丝袜| 国产不卡av网站在线观看| 丰满乱子伦码专区| av视频免费观看在线观看| 色吧在线观看| 亚洲国产成人一精品久久久| 极品少妇高潮喷水抽搐| av在线app专区| 日韩一本色道免费dvd| 啦啦啦视频在线资源免费观看| 精品亚洲成a人片在线观看| 只有这里有精品99| 一级毛片我不卡| 国产精品国产av在线观看| 菩萨蛮人人尽说江南好唐韦庄| 久久久久国产精品人妻一区二区| 看十八女毛片水多多多| 黑人猛操日本美女一级片| 亚洲图色成人| 日韩人妻精品一区2区三区| 亚洲国产欧美网| 宅男免费午夜| 亚洲av.av天堂| 老熟女久久久| 最黄视频免费看| 麻豆乱淫一区二区| 免费女性裸体啪啪无遮挡网站| 国产激情久久老熟女| 久久久久久久大尺度免费视频| 男的添女的下面高潮视频| 国产精品久久久久久av不卡| 国产午夜精品一二区理论片| 美女国产视频在线观看| 少妇熟女欧美另类| 在线看a的网站| 好男人视频免费观看在线| 国产成人精品在线电影| 午夜老司机福利剧场| 精品国产乱码久久久久久男人| 超碰成人久久| 亚洲一码二码三码区别大吗| 九色亚洲精品在线播放| 街头女战士在线观看网站| 美女视频免费永久观看网站| 又大又黄又爽视频免费| 丝袜喷水一区| 欧美国产精品一级二级三级| 高清视频免费观看一区二区| 在线观看免费高清a一片| 亚洲成人av在线免费| 一区二区三区乱码不卡18| 精品国产乱码久久久久久男人| 不卡av一区二区三区| 中文天堂在线官网| 精品国产超薄肉色丝袜足j| 免费观看a级毛片全部| 熟妇人妻不卡中文字幕| 一本—道久久a久久精品蜜桃钙片| 久久国产精品男人的天堂亚洲| 日韩av免费高清视频| 午夜免费观看性视频| 男女高潮啪啪啪动态图| 老汉色av国产亚洲站长工具| 好男人视频免费观看在线| av.在线天堂| 下体分泌物呈黄色| 中文欧美无线码| 丝袜在线中文字幕| 99热网站在线观看| 午夜福利乱码中文字幕| 国产成人av激情在线播放| 精品酒店卫生间| 一级毛片我不卡| 国产福利在线免费观看视频| 亚洲欧美一区二区三区国产| 日本色播在线视频| 涩涩av久久男人的天堂| 2018国产大陆天天弄谢| 深夜精品福利| 精品国产国语对白av| 国产免费福利视频在线观看| 久久久久网色| 这个男人来自地球电影免费观看 | 精品亚洲成国产av| √禁漫天堂资源中文www| 欧美黄色片欧美黄色片| 热re99久久国产66热| 熟女电影av网| 欧美日韩精品网址| 日本色播在线视频| 久久久国产欧美日韩av| 多毛熟女@视频| 国产成人午夜福利电影在线观看| 久久 成人 亚洲| 99精国产麻豆久久婷婷| 国产精品99久久99久久久不卡 | 精品少妇久久久久久888优播| 久久久国产精品麻豆| 亚洲精品国产av成人精品| 美女大奶头黄色视频| 另类精品久久| 美女国产视频在线观看| 80岁老熟妇乱子伦牲交| 亚洲,一卡二卡三卡| 色网站视频免费| 人妻少妇偷人精品九色| 国产熟女午夜一区二区三区| tube8黄色片| www.精华液| 99国产精品免费福利视频| 久久午夜福利片| 满18在线观看网站| 亚洲国产精品999| 丰满迷人的少妇在线观看| 国产精品.久久久| 国产精品久久久久成人av| 亚洲精品自拍成人| 久久久久久人妻| 在线观看三级黄色| 亚洲第一青青草原| 久久午夜综合久久蜜桃| 人妻一区二区av| 精品少妇久久久久久888优播| 国产探花极品一区二区| 日本av手机在线免费观看| 亚洲在久久综合| 久久97久久精品| 免费大片黄手机在线观看| 校园人妻丝袜中文字幕| 老汉色av国产亚洲站长工具| 久久久久久久精品精品| 午夜免费男女啪啪视频观看| 97在线视频观看| 亚洲国产看品久久| 一本色道久久久久久精品综合| 新久久久久国产一级毛片| 美女国产视频在线观看| 亚洲av在线观看美女高潮| 亚洲伊人久久精品综合| 高清在线视频一区二区三区| 亚洲国产av影院在线观看| 亚洲国产欧美在线一区| 久久久久久久亚洲中文字幕| 亚洲综合色网址| 青春草视频在线免费观看| 免费久久久久久久精品成人欧美视频| 美女中出高潮动态图| 高清av免费在线| 少妇被粗大的猛进出69影院| 激情五月婷婷亚洲| 久久亚洲国产成人精品v| 中文字幕最新亚洲高清| 亚洲人成网站在线观看播放| 2018国产大陆天天弄谢| 少妇精品久久久久久久| 又粗又硬又长又爽又黄的视频| 国产精品麻豆人妻色哟哟久久| 中文字幕色久视频| 国产一区有黄有色的免费视频| 亚洲精品乱久久久久久| 久久久久久久亚洲中文字幕| 777米奇影视久久| 国产精品香港三级国产av潘金莲 | 国产综合精华液| 免费少妇av软件| 一级毛片 在线播放| 黑人巨大精品欧美一区二区蜜桃| 欧美日韩一级在线毛片| av卡一久久| 亚洲精品一二三| 在线观看美女被高潮喷水网站| 人妻一区二区av| 国产视频首页在线观看| 国产成人午夜福利电影在线观看| 国产高清国产精品国产三级| 人妻一区二区av| 一区二区三区四区激情视频| 久久久久国产网址| 少妇猛男粗大的猛烈进出视频| 亚洲av电影在线进入| 一二三四中文在线观看免费高清| 女人久久www免费人成看片| 久久午夜福利片| 欧美日韩一区二区视频在线观看视频在线| 欧美 亚洲 国产 日韩一| 亚洲av日韩在线播放| 欧美日韩精品网址| 亚洲精品久久久久久婷婷小说| 妹子高潮喷水视频| 波多野结衣一区麻豆| 伊人久久大香线蕉亚洲五| 亚洲美女视频黄频| 少妇精品久久久久久久| 日本猛色少妇xxxxx猛交久久| 熟女av电影| 亚洲 欧美一区二区三区| 亚洲av电影在线进入| av不卡在线播放| 美女大奶头黄色视频| 黄色视频在线播放观看不卡| 蜜桃在线观看..| 久久99热这里只频精品6学生| 成人免费观看视频高清| av卡一久久| 久久人妻熟女aⅴ| 男人爽女人下面视频在线观看| 1024视频免费在线观看| 久久久久久免费高清国产稀缺| av免费在线看不卡| 伦精品一区二区三区| 亚洲精品日本国产第一区| 国产欧美日韩综合在线一区二区| 国产午夜精品一二区理论片| 一本久久精品| 欧美人与性动交α欧美精品济南到 | 国产成人午夜福利电影在线观看| 精品久久久精品久久久| 国产精品一国产av| 成年动漫av网址| 王馨瑶露胸无遮挡在线观看| 91国产中文字幕| 亚洲三级黄色毛片| 久久韩国三级中文字幕| 日产精品乱码卡一卡2卡三| 欧美精品高潮呻吟av久久| 色视频在线一区二区三区| 欧美日韩一区二区视频在线观看视频在线| 老汉色∧v一级毛片| 2018国产大陆天天弄谢| 欧美最新免费一区二区三区| 热re99久久精品国产66热6| 国产亚洲欧美精品永久| 精品人妻熟女毛片av久久网站| 午夜激情av网站| 七月丁香在线播放| 十八禁网站网址无遮挡| 国产黄色视频一区二区在线观看| 亚洲国产av新网站| 少妇的逼水好多| 美女福利国产在线| 最近最新中文字幕大全免费视频 | 色视频在线一区二区三区| 午夜福利视频在线观看免费| 亚洲av成人精品一二三区| 精品亚洲成国产av| 伦理电影免费视频| videosex国产| 少妇 在线观看| 美女国产视频在线观看| 宅男免费午夜|