• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于MapReduce虛擬機的Deep Web數(shù)據(jù)源發(fā)現(xiàn)方法

    2011-11-06 11:39:20辛潔崔志明趙朋朋張廣銘鮮學(xué)豐
    通信學(xué)報 2011年7期
    關(guān)鍵詞:頁面分類

    辛潔,崔志明,趙朋朋,張廣銘,鮮學(xué)豐

    (蘇州大學(xué) 智能信息處理及應(yīng)用研究所,江蘇 蘇州 215006)

    1 引言

    網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,海量數(shù)據(jù)使Web迅速的“深化”,這些由后臺數(shù)據(jù)庫動態(tài)產(chǎn)生的,對用戶隱藏不可見的數(shù)據(jù)不能被傳統(tǒng)的搜索引擎索引,只能通過表單提交查詢來獲得。如何從Deep Web中迅速有效地抽取信息,對數(shù)據(jù)源進行大規(guī)模的集成成為研究熱點,其中包括數(shù)據(jù)源發(fā)現(xiàn),查詢接口抽取,數(shù)據(jù)源分類,查詢轉(zhuǎn)換,結(jié)果合成等,而Deep Web 數(shù)據(jù)源發(fā)現(xiàn)是信息集成的第一步。

    Deep Web數(shù)據(jù)源的搜索和發(fā)現(xiàn)實際上是Web表單查詢接口的判定過程。這些接口是嵌入于Web 頁面中以Form表單形式出現(xiàn)的,因此整個過程是對數(shù)據(jù)按規(guī)則進行篩選,剔除,分類的操作。由于Deep Web數(shù)據(jù)動態(tài)產(chǎn)生且數(shù)量巨大,提高Deep Web入口發(fā)現(xiàn)的效率和精度應(yīng)不局限于僅從爬蟲本身進行結(jié)構(gòu)策略的優(yōu)化,還可從大規(guī)模數(shù)據(jù)的分布式并行處理,改善外部工作環(huán)境等方面下手。

    作為云計算的關(guān)鍵技術(shù)之一,MapReduce是Google開發(fā)的在超大集群下進行海量數(shù)據(jù)的分布式編程模式。它能夠?qū)﹂_發(fā)人員隱藏并行編程的具體工作方式,為編寫需要大規(guī)模并行處理的代碼提供了簡單的編程模式。在Google的集群上,每天都有 1 000多個 MapReduce程序在執(zhí)行,是Google最關(guān)鍵的技術(shù)之一[1]。MapReduce在Surface Web數(shù)據(jù)抓取方面取得了巨大的成功,對于信息量約 500倍于 Surface Web的 Deep Web來說[2],MapReduce模型應(yīng)更適合Deep Web的海量數(shù)據(jù)抽取。

    MapReduce計算往往在超大集群上并發(fā)執(zhí)行,虛擬化技術(shù)可實現(xiàn)虛擬集群的構(gòu)建以達到資源的最大利用。本文首先利用MapReduce架構(gòu)爬蟲框架結(jié)構(gòu)模型,通過對鏈接過濾分類,頁面過濾分類,表單過濾分類等3個MapReduce過程發(fā)現(xiàn)數(shù)據(jù)源接口,再利用服務(wù)器虛擬化技術(shù)創(chuàng)建由一臺服務(wù)器變成4臺相互隔離的虛擬服務(wù)器的集群進行并行測試。結(jié)果顯示本方法提高了爬蟲抓取 Deep Web數(shù)據(jù)源的能力,大幅度提高了服務(wù)器的資源利用率。

    本文的結(jié)構(gòu)如下:第2節(jié)簡述Deep Web爬蟲,MapReduce及虛擬化的相關(guān)研究;第 3節(jié)介紹MapReduce架構(gòu)的Deep Web數(shù)據(jù)源發(fā)現(xiàn)模型;第4節(jié)創(chuàng)建虛擬平臺并對該模型進行了性能測試;第5節(jié)是結(jié)束語。

    2 相關(guān)研究工作

    2.1 Deep Web爬蟲的數(shù)據(jù)源發(fā)現(xiàn)

    Deep Web數(shù)據(jù)源要通過查詢接口在線訪問站點后端的Web數(shù)據(jù)庫得到。數(shù)據(jù)源發(fā)現(xiàn)要求Deep Web爬蟲必須能跟蹤超鏈接,填寫表單,最后獲取和識別結(jié)果頁面[3],如圖1所示。

    圖1 Deep Web 爬蟲系統(tǒng)框架

    諸多研究集中于爬蟲爬行策略的改進,如實現(xiàn)網(wǎng)頁表單自動填寫,優(yōu)化數(shù)據(jù)源選擇方式等。這些研究都在已經(jīng)獲取到表單接口的前提下進行的。在判斷是表單是否是Deep Web查詢接口方面,文獻[4]提出了一種針對主題相關(guān)性及鏈接重要性的Deep Web的聚焦爬蟲可有效的提高Deep Web數(shù)據(jù)源發(fā)現(xiàn)效率和精度。Cope等人[5]提出基于查詢接口的特征利用C4.5決策樹實現(xiàn)了對查詢接口的識別。 Juliano等人[6]提出了一種根據(jù)啟發(fā)式規(guī)則來判斷網(wǎng)頁表單是否為查詢接口的方法。然而,再優(yōu)秀的算法面對PB級的數(shù)據(jù)量也顯得很無力,分布式并行計算勢在必行。MapReduce簡化了編程模型,降低了開發(fā)并行應(yīng)用的入門門檻,且虛擬化為MapReduc的架構(gòu)創(chuàng)造了條件。

    2.2 MapReduce和虛擬化

    MapReduce 的關(guān)鍵特點是它能夠?qū)﹂_發(fā)人員隱藏并行編程的具體工作方式,無需關(guān)心并行計算,容錯,數(shù)據(jù)分布,負載均衡等復(fù)雜細節(jié),只需設(shè)計自身的分布式計算任務(wù)表述。MapReduce實現(xiàn)了兩個功能。Map把一個函數(shù)應(yīng)用于集合中的所有成員,然后返回一個基于這個處理的結(jié)果集。而Reduce是把從2個或更多個Map中,通過多個線程,進程或者獨立系統(tǒng)并行執(zhí)行處理的結(jié)果集進行分類和歸納[1]。日前,Google宣布完成對1TB數(shù)據(jù)的排序處理只需要短短 68s,歸功于其最重要的技術(shù)MapReduce。其概念可以表達為:

    MapReduce的應(yīng)用非常廣泛,如簡單計算任務(wù),海量數(shù)據(jù)輸入,集群計算,文檔聚類,機器學(xué)習,基于統(tǒng)計的機器翻譯等[1]。但鮮有文章對Deep Web數(shù)據(jù)進行并行處理應(yīng)用。

    MapReduce在大規(guī)模的集群上表現(xiàn)良好,虛擬化技術(shù)系統(tǒng)安全性和可靠性,良好的擴展性為大型集群的架構(gòu)創(chuàng)造了基礎(chǔ)。文獻[7]利用Hadoop在虛擬機上測試了MapReduce的性能,提出了這2種技術(shù)的結(jié)合不僅提高了處理大規(guī)模數(shù)據(jù)的速度,保證了資源的有效使用,更不必重復(fù)執(zhí)行相同任務(wù),虛擬機的容錯性和動態(tài)遷移可提高系統(tǒng)的可靠性。文獻[8]在完全虛擬化的平臺上對 MapReduce進行檢查,對比了2、4、8、16個虛擬節(jié)點下的處理能力,證明每增加一臺MapReduce機器,其計算能力也相應(yīng)增加。這些研究都是基于單機虛擬,即一臺機器作為一個虛擬機,本文進一步將服務(wù)器虛擬化的概念引入,將一臺服務(wù)器虛擬為多臺相互隔離的集群,通過“資源池”共享,達到負載均衡,簡化管理和提高效率。

    3 Deep Web數(shù)據(jù)源發(fā)現(xiàn)MapReduce模型

    3.1 MapReduce過程框架

    Deep Web數(shù)據(jù)源發(fā)現(xiàn)指在Web中發(fā)現(xiàn)可訪問的Web數(shù)據(jù)庫。一是找到數(shù)據(jù)庫所在的網(wǎng)站,二是從網(wǎng)站中發(fā)現(xiàn)能夠?qū)?shù)據(jù)庫查詢的接口。引入MapReduce算法模型的好處在于:第一,將要執(zhí)行的問題分解成映射(map)和化簡(reduce)的方式,不需要考慮如何將輸入數(shù)據(jù)分塊、分配和調(diào)度,只需要指定Map和Reduce的操作得到高效率的并行計算,提高抽取和分類的效率;第二,MapReduce程序的輸入、輸出、中間數(shù)據(jù)都是以key/value的值對的形式出現(xiàn),方便對查詢接口進行定義和類別判定;第三,MapReduce構(gòu)架下的自動表單分類方法適用于大規(guī)模數(shù)據(jù)處理,因此對于Deep Web中大量表單分類時,在保證分類效果的情況下,可用獲得線性的加速比。借鑒文獻[4]的方法,利用鏈接MapReduce 分類, 頁面 MapReduce 分類及表單MapReduce 分類對網(wǎng)站進行挖掘過濾,具體過程描述如圖2所示。

    3.1.1 鏈接分類MapReduce

    該過程的目的是找到種子鏈接下的所有鏈接,通過對鏈接的分類過濾,剔除掉不含表單接口的鏈接如導(dǎo)航信息,廣告信息等。輸出結(jié)果應(yīng)滿足:1)鏈接深度小于等于 3(91.6%的查詢接口所在頁面深度小于等于 3[8]);2)含有特征文字(錨文本中含有類似“搜索”、“高級搜索”、“點擊這里搜索”等文字及鏈接中含有 search、finder、seek等文字均為Deep Web查詢接口的標志);3)主題相關(guān)。Maper1接收待訪問 URL種子列表,提取特征包括錨文本及鏈接上下文文本、URL地址、鏈接中的圖片地址,對上述信息進行分詞并統(tǒng)計詞頻,得到特征向量X。中間結(jié)果輸出鏈接的深度,特征文字抽取,相關(guān)性測試值。其中相關(guān)性的判定通過采用樸素貝葉斯分類算法,對于特征向量為 X=[x1,x2,…,xd]T的測試樣本,它屬于第Ci類的概率如下所示:

    圖2 Deep Web數(shù)據(jù)源發(fā)現(xiàn)MapReduce過程

    其中,P(Ci|X)代表X屬于類Ci的概率。因此,只有當 P(Ci|X)的最大值所在的 Ci類即為該鏈接所屬的類別。Reduce1在滿足以上條件的中間結(jié)果中將key值相同的結(jié)果合并,得到<<url, linkstoVisit>, html>值對送入到頁面分類MapReduce過程。

    3.1.2 頁面分類MapReduce

    二次過濾,使用與鏈接過濾MapReduce相同的方法,目的是縮小數(shù)據(jù)處理的范圍,找到與主題相關(guān)的頁面進行下一步的表單搜索。比較成熟的分類算法有決策樹分類算法,SVM算法,KNN算法,C4.5算法等。這里還是采用樸素貝葉斯方法,套用式(1), 得到該網(wǎng)頁屬于某一主題的概率值 P(Ci|X),給定一個閾值 θ(本文測試時 θ值為 0.5),只有當P(Ci|X)>θ時,該網(wǎng)頁才會被繼續(xù)處理。Maper2接受鏈接MapReduce處理好的中間結(jié)果,進行去html標記,和分詞操作。Reduce2對頁面進行分類判定,分入一個最相關(guān)的類別,并將具有相同key的頁面進行合并,輸出結(jié)果<<linkstoVisit, formName>,form>送入表單分類MapReduce過程。

    3.1.3 表單分類MapReduce

    表單分類服務(wù)器的功能是通過表單抽取器抽取頁面中的表單接口,剔除那些不合要求的表單,篩選出本文要研究的表單并進行分類。Deep Web數(shù)據(jù)源查詢接口的分類問題涉及2方面的內(nèi)容:特征抽取和機器學(xué)習。在對表單進行分類時,本文采取了非提交查詢的方法,直接利用網(wǎng)頁表單的結(jié)構(gòu)信息進行特征提取進行分類。

    首先,Internet中大多數(shù)的查詢接口以 HTML語言編寫的Form表單表示。由于表單的組成比較復(fù)雜,通常包含INPUT, SELECT, TEXTAREA 3類控件,其中 INPUT控件的類型元素有:文本框(textbox)、單選按鈕(radio)、復(fù)選框(checkbox)和下拉列表框(selection list)等。在表單中,每個控件都對應(yīng)一個標簽,并有一個或多個屬性值。因此,該控件和其對應(yīng)的屬性值在邏輯上形成關(guān)聯(lián),對應(yīng)了Deep Web后臺數(shù)據(jù)庫的一個字段。一個查詢接口可以抽象的表示為:F= (N, {A1,A2,…,An}),其中,N為表單的名字,Ai為查詢接口的屬性序列,Ai=(Li,{E1,E2,…,EK}),其中,Li為屬性標簽,Ej為表單控件。以某圖書搜索表單為例進行解釋:數(shù)據(jù)接口 F=(search, {A1,A2,…,An}),其中,Ai=(author, {textbox,radio1, radio2, radio3})。

    Maper3接收從頁面分類MapReduce的中間結(jié)果,提取如下表單特征:網(wǎng)頁表單<FORM>標簽中的name屬性值,action屬性值,出現(xiàn)的控件類型,INPUT控件的 name屬性值和 value屬性值,SELECT控件和TEXTAREA控件的name屬性值,存在于控件標簽之間的詞。

    其次,在自動分類過程中加入一些啟發(fā)式的規(guī)則可以進一步提升Deep Web查詢接口判定的效率和準確性。文獻[9]中提及的語義抽取方法,可設(shè)定如下規(guī)則。

    規(guī)則 1 給定一個閾值θ,具有n<θ的表單將被忽略不予考慮,n表示W(wǎng)eb表單中需要填寫的字段個數(shù)。該規(guī)則用于去除那些超負載的表單,如站內(nèi)搜索表單等。

    規(guī)則2 對于給定表單γ,如果γ含有字段元素對應(yīng)標簽名為用戶名、密碼等的HTML類型元素,γ表單將被忽略不予考慮。該規(guī)則用于去除那些保密的表單,如用戶注冊表單等。

    規(guī)則3 對于只含有一個復(fù)選框(checkbox)或只含有一個可選列表(selectlist)的輸入限制表單應(yīng)該拋棄。目的是去除一些超鏈接的轉(zhuǎn)向非搜索表單。

    最后,Reduce3將規(guī)則過濾后的中間記過向已知的接口手工分類訓(xùn)練集的特征進行機器學(xué)習,計算得到各類別先驗概率和各詞的特征權(quán)值,自行判斷接口是否屬于表單查詢接口。

    樸素貝葉斯分類器基于一個簡單的假定:在給定實例目標值的情況下,觀察得到聯(lián)合的ai(i=1,…,n)概率等于每個單獨屬性的概率乘積:

    樸素貝葉斯分類器輸出的目標值可以表示為

    假設(shè)Vyes為待分類網(wǎng)頁表單M是查詢接口的概率,Vno為待分類網(wǎng)頁表單M非查詢接口的概率,如Vyes>Vno,可就可以判定網(wǎng)頁表單M為查詢接口。Reduce3輸入的結(jié)果<formName, formAttri>即為Deep Web數(shù)據(jù)源的查詢接口。

    3.2 服務(wù)器虛擬化下單機集群架構(gòu)

    Hadoop是Google MapReduce框架的JAVA實現(xiàn),本文中的實現(xiàn)部分就是基于這個開源框架實現(xiàn)的。對于Hadoop的集群來說,可以分成兩大類角色:Master和 Slave,前者主要配置NameNode和JobTracker的角色,負責總管分布式數(shù)據(jù)和分解任務(wù)的執(zhí)行,后者配置DataNode和TaskTracker的角色,負責分布式數(shù)據(jù)存儲以及任務(wù)的執(zhí)行。本文所架構(gòu)的集群即為1個Master加3個Slave的結(jié)構(gòu)。服務(wù)器虛擬化后,一臺服務(wù)器虛擬為4臺具有獨立IP地址,獨立操作系統(tǒng)等,可通過區(qū)分資源的優(yōu)先次序即時將服務(wù)器資源分配給最需要它們的工作來簡化管理和提高效率。虛擬化后的結(jié)構(gòu)如圖3所示。

    圖3 服務(wù)器虛擬化單機集群結(jié)構(gòu)

    當用戶調(diào)用MapReduce 函數(shù)時,執(zhí)行步驟如下。

    1) 數(shù)據(jù)分片。

    將待分配URL列表按需分成幾個數(shù)據(jù)組。

    2) 主程序master分配任務(wù)給worker。

    圖2中的3個MapReduce過程都是由master將一個 Map 任務(wù)或 Reduce 任務(wù)分配給某一空閑的worker。

    3) worker執(zhí)行Map函數(shù)。

    被分配了map 任務(wù)的worker程序讀取相關(guān)的輸入數(shù)據(jù)片段,解析出各個過程中的 key/value值對,根據(jù)3個過程中各自Map 函數(shù)的定義,計算并輸出的中間數(shù)據(jù)存入內(nèi)存。

    4) 中間結(jié)果的處理。

    經(jīng)過3個MapReduce,中間結(jié)果被周期性地寫入到本地磁盤。master獲取其值對的存儲位置,并將信息傳至Reduce worker。

    5) Reduce worker讀取中間數(shù)據(jù)。

    根據(jù)接收到的存儲位置信息,Reduce worker從Map worker 所在主機的磁盤上讀取數(shù)據(jù)。然后對key 進行排序后并合并具有相同key值的數(shù)據(jù)。

    6) 執(zhí)行Reduce函數(shù)。

    Reduce worker 將處理好的結(jié)果集合傳遞給用戶自定義的 Reduce 函數(shù),各分類過濾后的結(jié)果被追加到所屬分區(qū)的輸出文件。

    7) master 喚醒用戶程序。

    4 性能測試與分析

    4.1 系統(tǒng)配置

    Deep Web爬蟲MapReduce系統(tǒng)實驗環(huán)境配置如下:一臺IBM system X3650 M2 (Xeon 5530 2.4GHz/2×2GB/1×146GB)服務(wù)器,基于 VMware ESX 2.0的虛擬化平臺,Hapood version 0.18.0搭建集群,校園網(wǎng)絡(luò)帶寬。

    由于Deep Web的數(shù)據(jù)庫具有主題多樣性,本實驗對其中的3個領(lǐng)域(飛機票、圖書和工作)進行測試。所采用的數(shù)據(jù)源如表1所示。

    表1 數(shù)據(jù)對象抽取的測試數(shù)據(jù)源

    設(shè)置爬行停止的條件為當某站點已發(fā)現(xiàn)的不同的查詢接口數(shù)多于5或下載的頁面數(shù)大于100時,該站點中的鏈接就不再處理。

    4.2 測試結(jié)果

    本測試主要針對3個方面對MapReduce模型下的Deep Web爬蟲進行測試:1) 對DeepWeb大規(guī)模數(shù)據(jù)并行的處理能力,對數(shù)據(jù)源接口的發(fā)現(xiàn)效率;2) 利用虛擬化技術(shù)構(gòu)建的Hapood單機集群的可靠性;3) 物理硬件資源的使用率。

    圖4為上述實驗環(huán)境中,深層網(wǎng)絡(luò)爬蟲,本地單機 MapReduce爬蟲(MR爬蟲)與虛擬機集群MapReduce爬蟲(虛擬MR爬蟲)分別從3個領(lǐng)域中聚焦爬蟲爬行到Deep Web數(shù)據(jù)源查詢接口數(shù)量的對比。從圖中可以看出,采取MapReduce框架后的本地單機爬蟲的表現(xiàn)平平,并沒有太多提高爬蟲的爬行能力,只有當數(shù)據(jù)量比較大時效果才體現(xiàn)出來。而經(jīng)過虛擬化改良構(gòu)建為單機集群的爬蟲可從每個領(lǐng)域中爬取到更多的查詢接口。爬蟲的數(shù)據(jù)源發(fā)現(xiàn)效率得到大幅度提升。

    圖4 3種模式下爬取Deep Web查詢接口數(shù)量對比

    圖 5為單位時間內(nèi),3種模式下爬取到的總的下載頁面數(shù)的對比。由圖5所知,改進后的模型可在同樣時間內(nèi)下載到更多的頁面。結(jié)合圖4,可以得到以下結(jié)論:MapReduce虛擬集群的具有更高的 Deep Web數(shù)據(jù)源發(fā)現(xiàn)能力,爬行效率有所提高。

    圖5 3種模式下爬取到的總的下載頁面數(shù)的對比

    除了對MapReduce框架下的爬蟲進行效率分析,本文也對獲得的數(shù)據(jù)進行精度評估,利用手工分類的方法從抓取到的表單接口中隨機抽取200個樣本,比較3種方式下的查全率(Recall)及準確率(Precision)。查全率是系統(tǒng)正確判定查詢接口的結(jié)果占所可能正確結(jié)果的比率,考察了不同算法下找全分類結(jié)果的能力。準確率是系統(tǒng)正確判定查詢接口占所有查詢表單的比例,考察了不同算法下找準分類結(jié)果的能力。F度量(F-measure)是2種融合。圖6為3個領(lǐng)域下3種模式的F值對比。

    其中,P為查全率,R為準確率。

    由圖6可知,本文所述的方法召回率和準確率都很高,F(xiàn)值也相應(yīng)得到提高,雖然提高的幅度不大,但亦表明,利用虛擬化技術(shù)構(gòu)建的Hapood單機集群的具有一定的可靠性,結(jié)果相對來說比較滿意。

    最后,表2為虛擬化前后服務(wù)器硬件使用率的對比。從表中可以看出,服務(wù)器進行虛擬化后,其CPU、內(nèi)存、存儲器及帶寬都得到相應(yīng)的提高。也就是說,通過WMware對服務(wù)器資源的規(guī)劃利用,服務(wù)器得到更為充分的使用。

    表2 虛擬化前后服務(wù)器使用率對比

    5 結(jié)束語

    Deep Web具有主題專一,信息質(zhì)量高,信息結(jié)構(gòu)化好等優(yōu)點,除了其信息量大,更新速度快會對高效率的發(fā)現(xiàn)數(shù)據(jù)源產(chǎn)生制約外,服務(wù)器工作效率,網(wǎng)絡(luò)帶寬等外界因素也對其效率產(chǎn)生影響。本文的主要貢獻在于首先將Surface Web中貢獻巨大的MapReduce框架借鑒入Deep web中,實現(xiàn)了大規(guī)模數(shù)據(jù)的并行處理,其次利用了虛擬化技術(shù)架構(gòu)了MapReduce單機集群,驗證了這2種技術(shù)的結(jié)合可大幅度提高機器的工作效率。

    虛擬化和MapReduce都是云計算的關(guān)鍵技術(shù),因此,云計算是可以在Deep Web數(shù)據(jù)挖掘方面發(fā)揮巨大作用的。數(shù)據(jù)源發(fā)現(xiàn)僅為Deep Web數(shù)據(jù)集成的一部分,數(shù)據(jù)源的管理,聚類分析等方面都可與云計算的方法融合處理。

    [1] DEAN J, GHEMAWAT S. Mapreduce: simplified data processing on large clusters[A]. Proceedings of the 6th Symposium on Operating System Design and Implementation[C]. San Francisco: USRNIX,2004. 137-150.

    [2] THANAA M, GHANEM, WALID G A. Databases deepen the Web[J].IEEE Computer, 2004, 73(1):116-117.

    [3] 鄭東東, 趙朋朋, 崔志明. Deep Web爬蟲研究與設(shè)計[J]. 清華大學(xué)學(xué)報(自然科學(xué)版), 2005,45(S1):1896-1902.ZHENG D D, ZHAO P P, CUI Z H. On the research and design of deep Web crawler[J]. Tsinghua Univ (Sci&Tech), 2005,45(S1):1896-1902.

    [4] BARBOSA L, FREIRE J. Searching for hidden-Web databases[A].Proceedings of Eighth International Workshop on the Web and Databases[C]. Baltimore, 2005. 1-6.

    [5] COPE J, CRASWELL N, HAWKING D. Automated discovery of search interfaces on the Web[A]. Proceedings of the 14th Australian Database Conference[C]. Adelaide, 2003.181-189.

    [6] JULIANO P L, ALTIGRAN S, DA S, et al. Automatic generation of agents for collecting hidden Web pages for data extraction[J]. Data &Knowledge Engineering, 2004, 49(2):177-196.

    [7] SHADI I, HAI J, LU L, et al. Evaluating mapreduce on virtual machines: the hadoop case[A]. Proceedings of Cloud Computing-first International Conference[C]. Beijing, China, 2009.519-528.

    [8] CHANG K C C, HE B, LI C, et al. Structured databases on the Web: observations and implications[J].SIGMOD Record,2004,33(3): 61-70.

    [9] WANG Y, PENG T. Schema extraction of DEEP Web query interface[A]. Proceedings of 2009 International Conference on Web Information Systems and Mining [C]. Shanghai, China, 2009. 391-395.

    猜你喜歡
    頁面分類
    微信群聊總是找不到,打開這個開關(guān)就好了
    大狗熊在睡覺
    刷新生活的頁面
    分類算一算
    垃圾分類的困惑你有嗎
    大眾健康(2021年6期)2021-06-08 19:30:06
    分類討論求坐標
    數(shù)據(jù)分析中的分類討論
    教你一招:數(shù)的分類
    給塑料分分類吧
    同一Word文檔 縱橫頁面并存
    亚洲欧美激情综合另类| 最近最新中文字幕大全免费视频| 国产亚洲欧美在线一区二区| 香蕉av资源在线| 热99在线观看视频| 一区二区三区高清视频在线| 亚洲一区二区三区色噜噜| 99久久久亚洲精品蜜臀av| 午夜福利高清视频| 男女午夜视频在线观看| 巨乳人妻的诱惑在线观看| 黄色视频,在线免费观看| 最近在线观看免费完整版| 久久热在线av| 一个人看的www免费观看视频| 亚洲成人中文字幕在线播放| 精品国产乱码久久久久久男人| 18禁黄网站禁片午夜丰满| 国产在线精品亚洲第一网站| 在线a可以看的网站| 午夜福利欧美成人| 国产精品自产拍在线观看55亚洲| 精品熟女少妇八av免费久了| 99热这里只有是精品50| 亚洲电影在线观看av| 日韩欧美一区二区三区在线观看| 一个人观看的视频www高清免费观看 | 国产精品精品国产色婷婷| 成人av在线播放网站| 国产精品一区二区免费欧美| 久久香蕉精品热| 婷婷六月久久综合丁香| 69av精品久久久久久| 99久国产av精品| 无限看片的www在线观看| 免费看a级黄色片| 淫秽高清视频在线观看| 亚洲人与动物交配视频| 真人做人爱边吃奶动态| 老熟妇仑乱视频hdxx| 天堂动漫精品| 亚洲欧美日韩高清专用| 人妻丰满熟妇av一区二区三区| 亚洲中文字幕日韩| 久久精品国产清高在天天线| 亚洲精品久久国产高清桃花| 级片在线观看| 国产视频一区二区在线看| 国产精品av视频在线免费观看| 免费搜索国产男女视频| 麻豆久久精品国产亚洲av| 久久久久久久久久黄片| 国产精华一区二区三区| xxx96com| 99视频精品全部免费 在线 | 可以在线观看毛片的网站| 成年女人看的毛片在线观看| 色吧在线观看| 免费观看的影片在线观看| 国产综合懂色| 亚洲国产高清在线一区二区三| 色吧在线观看| 亚洲成av人片免费观看| 真实男女啪啪啪动态图| 国产视频一区二区在线看| 香蕉av资源在线| 黄片大片在线免费观看| xxx96com| 国产精品98久久久久久宅男小说| 精品国产美女av久久久久小说| 国产精品久久视频播放| 国产人伦9x9x在线观看| 免费av不卡在线播放| 国产蜜桃级精品一区二区三区| 夜夜爽天天搞| 国产精品永久免费网站| av天堂中文字幕网| 18禁国产床啪视频网站| 青草久久国产| 怎么达到女性高潮| 久久久久久人人人人人| 成年女人永久免费观看视频| 中文字幕精品亚洲无线码一区| 中文字幕高清在线视频| 此物有八面人人有两片| 极品教师在线免费播放| 欧美丝袜亚洲另类 | 啪啪无遮挡十八禁网站| 亚洲精品乱码久久久v下载方式 | 1024香蕉在线观看| 给我免费播放毛片高清在线观看| 国产高清三级在线| 国内精品美女久久久久久| 国产av不卡久久| 在线观看免费午夜福利视频| 中文字幕高清在线视频| 精品久久久久久,| 欧美日韩乱码在线| 欧美日韩亚洲国产一区二区在线观看| 老熟妇乱子伦视频在线观看| 日韩欧美一区二区三区在线观看| 禁无遮挡网站| 高潮久久久久久久久久久不卡| 午夜视频精品福利| 九九热线精品视视频播放| 欧美色欧美亚洲另类二区| 国产伦在线观看视频一区| 美女免费视频网站| a级毛片在线看网站| 久久久久精品国产欧美久久久| 午夜两性在线视频| 十八禁网站免费在线| av女优亚洲男人天堂 | 国产成人精品无人区| 国产成人啪精品午夜网站| 麻豆成人av在线观看| 美女黄网站色视频| 最近在线观看免费完整版| 一级毛片高清免费大全| 最好的美女福利视频网| 99国产精品一区二区蜜桃av| 国产人伦9x9x在线观看| 日韩欧美 国产精品| 成人特级av手机在线观看| 99久久精品国产亚洲精品| 99国产精品一区二区三区| 国产不卡一卡二| 精品久久久久久久末码| 亚洲在线观看片| 男人舔奶头视频| 黄频高清免费视频| 黄色丝袜av网址大全| 日本黄色视频三级网站网址| 色综合站精品国产| 久久精品国产99精品国产亚洲性色| 欧美日韩精品网址| 亚洲,欧美精品.| 亚洲人成电影免费在线| 国产熟女xx| 中文字幕人成人乱码亚洲影| 日韩高清综合在线| 丁香六月欧美| 91av网一区二区| 国产精品久久视频播放| 国产激情欧美一区二区| 久久人人精品亚洲av| 亚洲国产欧美一区二区综合| 最近最新中文字幕大全电影3| 麻豆久久精品国产亚洲av| 亚洲av电影在线进入| 老司机福利观看| 亚洲 欧美 日韩 在线 免费| 淫秽高清视频在线观看| 国产激情久久老熟女| 亚洲电影在线观看av| 九九热线精品视视频播放| 91麻豆av在线| 亚洲电影在线观看av| 成人特级av手机在线观看| 中出人妻视频一区二区| 成人特级黄色片久久久久久久| 女生性感内裤真人,穿戴方法视频| 夜夜夜夜夜久久久久| 国语自产精品视频在线第100页| 欧美黑人欧美精品刺激| 国产视频内射| 亚洲专区国产一区二区| 哪里可以看免费的av片| 99久久综合精品五月天人人| 国产午夜福利久久久久久| 国产精品爽爽va在线观看网站| 色综合欧美亚洲国产小说| 99视频精品全部免费 在线 | 国产乱人伦免费视频| 一二三四社区在线视频社区8| 99热6这里只有精品| 白带黄色成豆腐渣| 九色成人免费人妻av| 久久久国产成人精品二区| 国产亚洲av高清不卡| 国产精品九九99| 亚洲欧美精品综合久久99| 全区人妻精品视频| 成在线人永久免费视频| 午夜久久久久精精品| 伊人久久大香线蕉亚洲五| av视频在线观看入口| 天堂影院成人在线观看| 12—13女人毛片做爰片一| 国产黄色小视频在线观看| 日韩欧美在线二视频| 一区二区三区高清视频在线| 欧美在线一区亚洲| 国产欧美日韩精品一区二区| 巨乳人妻的诱惑在线观看| 亚洲成av人片免费观看| 不卡av一区二区三区| 丰满人妻一区二区三区视频av | 国产成人啪精品午夜网站| 国产高潮美女av| 一个人免费在线观看电影 | 国产精品爽爽va在线观看网站| 蜜桃久久精品国产亚洲av| 黄色 视频免费看| 18禁美女被吸乳视频| 日本一本二区三区精品| 亚洲乱码一区二区免费版| 一边摸一边抽搐一进一小说| 亚洲国产欧美网| 欧美午夜高清在线| 夜夜夜夜夜久久久久| 九九在线视频观看精品| a级毛片a级免费在线| 日本在线视频免费播放| 国产精品久久久久久亚洲av鲁大| 色精品久久人妻99蜜桃| 91九色精品人成在线观看| 欧美午夜高清在线| 国产69精品久久久久777片 | 最新在线观看一区二区三区| 亚洲电影在线观看av| 欧美日韩乱码在线| 99精品在免费线老司机午夜| 美女午夜性视频免费| 在线观看免费午夜福利视频| 三级男女做爰猛烈吃奶摸视频| a级毛片a级免费在线| 日韩欧美国产在线观看| 少妇人妻一区二区三区视频| 久久久色成人| 又黄又爽又免费观看的视频| 九九热线精品视视频播放| 伦理电影免费视频| 村上凉子中文字幕在线| 男人和女人高潮做爰伦理| 久久久久国产精品人妻aⅴ院| 变态另类丝袜制服| www.精华液| www.自偷自拍.com| 男人的好看免费观看在线视频| 国产午夜精品论理片| 国产成年人精品一区二区| 亚洲欧美精品综合久久99| 午夜视频精品福利| 日韩高清综合在线| 不卡av一区二区三区| 国产一区二区在线av高清观看| 蜜桃久久精品国产亚洲av| 波多野结衣高清无吗| 亚洲五月天丁香| 成人欧美大片| 久久天堂一区二区三区四区| www国产在线视频色| 99久久久亚洲精品蜜臀av| 天天躁日日操中文字幕| 亚洲成av人片在线播放无| 97超视频在线观看视频| 两人在一起打扑克的视频| 色哟哟哟哟哟哟| 亚洲国产欧美一区二区综合| 国产午夜精品论理片| 99在线人妻在线中文字幕| 99热这里只有精品一区 | 好男人在线观看高清免费视频| 日韩精品中文字幕看吧| 欧美性猛交╳xxx乱大交人| 日本一本二区三区精品| 国产精品av视频在线免费观看| 两人在一起打扑克的视频| 不卡一级毛片| 久久亚洲真实| 好看av亚洲va欧美ⅴa在| 深夜精品福利| svipshipincom国产片| 男女午夜视频在线观看| 国产欧美日韩一区二区精品| 欧美日韩综合久久久久久 | 亚洲成av人片在线播放无| 99精品欧美一区二区三区四区| 色av中文字幕| 国产av在哪里看| 最近在线观看免费完整版| 亚洲专区国产一区二区| 岛国在线免费视频观看| 好看av亚洲va欧美ⅴa在| 九色成人免费人妻av| 日韩欧美国产在线观看| 久久亚洲精品不卡| 国产单亲对白刺激| 波多野结衣高清无吗| 真人一进一出gif抽搐免费| 亚洲欧美精品综合一区二区三区| 国产高清有码在线观看视频| 亚洲国产日韩欧美精品在线观看 | 麻豆成人午夜福利视频| 日韩中文字幕欧美一区二区| 亚洲精华国产精华精| 一个人看视频在线观看www免费 | 国产日本99.免费观看| 99久久久亚洲精品蜜臀av| www.www免费av| 在线十欧美十亚洲十日本专区| 亚洲无线在线观看| 中文字幕久久专区| 亚洲激情在线av| 精品99又大又爽又粗少妇毛片 | 99久久成人亚洲精品观看| 亚洲成人中文字幕在线播放| 在线看三级毛片| 免费在线观看影片大全网站| 国产精华一区二区三区| 九九在线视频观看精品| 欧美xxxx黑人xx丫x性爽| 国产毛片a区久久久久| 久久久精品欧美日韩精品| 亚洲 欧美一区二区三区| 美女黄网站色视频| 久久久久精品国产欧美久久久| 99re在线观看精品视频| av片东京热男人的天堂| 亚洲精品在线观看二区| 国产淫片久久久久久久久 | 天堂网av新在线| 亚洲国产精品久久男人天堂| 丁香欧美五月| 成人鲁丝片一二三区免费| 神马国产精品三级电影在线观看| 日韩有码中文字幕| 亚洲一区二区三区色噜噜| 俺也久久电影网| 国产精品98久久久久久宅男小说| 日韩av在线大香蕉| 少妇熟女aⅴ在线视频| 国产精品精品国产色婷婷| 久久久久久久久中文| 99在线人妻在线中文字幕| 亚洲av成人精品一区久久| 18禁国产床啪视频网站| 欧美成人性av电影在线观看| 国产精品亚洲美女久久久| 国产一区二区三区在线臀色熟女| 在线国产一区二区在线| 视频区欧美日本亚洲| 国产精品野战在线观看| 久久久久久国产a免费观看| 午夜精品一区二区三区免费看| 国产精品,欧美在线| 久久伊人香网站| 亚洲美女视频黄频| 国产精品永久免费网站| 在线永久观看黄色视频| 成人18禁在线播放| 国产欧美日韩一区二区三| 亚洲精品乱码久久久v下载方式 | 一边摸一边抽搐一进一小说| 精品不卡国产一区二区三区| a在线观看视频网站| av天堂中文字幕网| 成人无遮挡网站| 黄色成人免费大全| www.www免费av| 国产精品亚洲一级av第二区| 亚洲五月天丁香| 国产精品1区2区在线观看.| 亚洲国产精品成人综合色| 婷婷亚洲欧美| 老鸭窝网址在线观看| 国产黄片美女视频| 男女视频在线观看网站免费| 精品福利观看| 18美女黄网站色大片免费观看| 国产精品99久久99久久久不卡| 国产精品久久久久久人妻精品电影| 日本熟妇午夜| 欧美成人性av电影在线观看| 老熟妇乱子伦视频在线观看| 久久天躁狠狠躁夜夜2o2o| 亚洲精品一卡2卡三卡4卡5卡| 亚洲精华国产精华精| 变态另类成人亚洲欧美熟女| 午夜福利在线观看吧| av天堂中文字幕网| 俺也久久电影网| 亚洲电影在线观看av| 久久九九热精品免费| 亚洲 欧美 日韩 在线 免费| 久9热在线精品视频| 悠悠久久av| 熟女人妻精品中文字幕| 欧美+亚洲+日韩+国产| 免费在线观看成人毛片| 少妇人妻一区二区三区视频| 精品99又大又爽又粗少妇毛片 | 美女被艹到高潮喷水动态| 成年女人永久免费观看视频| 亚洲午夜理论影院| 亚洲九九香蕉| 两性午夜刺激爽爽歪歪视频在线观看| 色播亚洲综合网| av福利片在线观看| 美女cb高潮喷水在线观看 | 国产精品亚洲av一区麻豆| 色在线成人网| 亚洲男人的天堂狠狠| 久久这里只有精品中国| 天堂影院成人在线观看| 亚洲av成人av| 99久久99久久久精品蜜桃| 一个人免费在线观看的高清视频| 国产免费男女视频| 男女视频在线观看网站免费| 成人特级黄色片久久久久久久| 午夜精品在线福利| 日本免费一区二区三区高清不卡| 久久这里只有精品19| 亚洲精品在线观看二区| 亚洲欧美精品综合久久99| 最新中文字幕久久久久 | 一级a爱片免费观看的视频| 一卡2卡三卡四卡精品乱码亚洲| 草草在线视频免费看| 99久久成人亚洲精品观看| 欧美黄色片欧美黄色片| 啦啦啦韩国在线观看视频| 亚洲av日韩精品久久久久久密| 中文资源天堂在线| 日韩av在线大香蕉| 亚洲中文字幕日韩| bbb黄色大片| 免费看a级黄色片| 欧美一级毛片孕妇| 香蕉av资源在线| 日韩大尺度精品在线看网址| 中文字幕熟女人妻在线| 欧美日韩瑟瑟在线播放| 亚洲精品久久国产高清桃花| 99久久久亚洲精品蜜臀av| 亚洲人成伊人成综合网2020| 亚洲国产精品sss在线观看| 亚洲男人的天堂狠狠| 色吧在线观看| 中文字幕高清在线视频| 欧美成人性av电影在线观看| 久久香蕉精品热| av女优亚洲男人天堂 | 91字幕亚洲| 母亲3免费完整高清在线观看| 在线a可以看的网站| 真人一进一出gif抽搐免费| 国产三级中文精品| 亚洲av电影不卡..在线观看| 91麻豆精品激情在线观看国产| 一级毛片女人18水好多| 国产精品精品国产色婷婷| 色老头精品视频在线观看| 亚洲精品久久国产高清桃花| 精品电影一区二区在线| 国产精品亚洲av一区麻豆| 国产精品av视频在线免费观看| 精品久久久久久久久久免费视频| 噜噜噜噜噜久久久久久91| 亚洲国产精品合色在线| 国产亚洲av嫩草精品影院| 97碰自拍视频| 成人av在线播放网站| 12—13女人毛片做爰片一| 亚洲五月婷婷丁香| 特级一级黄色大片| 成人国产综合亚洲| 国产三级黄色录像| 91老司机精品| 99热只有精品国产| 国产高清三级在线| 十八禁网站免费在线| 啦啦啦观看免费观看视频高清| 亚洲国产欧洲综合997久久,| 最近最新中文字幕大全电影3| 在线视频色国产色| 午夜激情福利司机影院| 日韩中文字幕欧美一区二区| cao死你这个sao货| 一本综合久久免费| 欧美一区二区国产精品久久精品| 国产激情偷乱视频一区二区| 变态另类丝袜制服| 国产精品电影一区二区三区| www.999成人在线观看| 高潮久久久久久久久久久不卡| 97超视频在线观看视频| 国产在线精品亚洲第一网站| 美女黄网站色视频| 制服人妻中文乱码| 他把我摸到了高潮在线观看| 国产av一区在线观看免费| 久久这里只有精品中国| 欧美国产日韩亚洲一区| 久久亚洲精品不卡| 成人鲁丝片一二三区免费| 日本与韩国留学比较| 久久亚洲真实| 757午夜福利合集在线观看| 日本 av在线| 久久草成人影院| 啦啦啦免费观看视频1| 99热这里只有精品一区 | 老汉色av国产亚洲站长工具| 男女那种视频在线观看| 九色成人免费人妻av| 小蜜桃在线观看免费完整版高清| 一个人免费在线观看的高清视频| 成人永久免费在线观看视频| 亚洲精品中文字幕一二三四区| 国产黄片美女视频| 国产亚洲精品久久久com| 人妻夜夜爽99麻豆av| 午夜激情欧美在线| 亚洲真实伦在线观看| 成年免费大片在线观看| 日韩成人在线观看一区二区三区| aaaaa片日本免费| aaaaa片日本免费| 老汉色∧v一级毛片| 亚洲成av人片免费观看| 悠悠久久av| 免费在线观看亚洲国产| 亚洲国产精品sss在线观看| 亚洲人成伊人成综合网2020| 国产av在哪里看| 亚洲av电影不卡..在线观看| 亚洲欧美日韩无卡精品| 欧美3d第一页| 欧美av亚洲av综合av国产av| 欧美丝袜亚洲另类 | 18禁国产床啪视频网站| 亚洲 欧美一区二区三区| 俄罗斯特黄特色一大片| 无限看片的www在线观看| 亚洲狠狠婷婷综合久久图片| 亚洲国产欧美网| 日韩欧美免费精品| 91九色精品人成在线观看| 欧美激情在线99| 一二三四在线观看免费中文在| 啪啪无遮挡十八禁网站| 欧美不卡视频在线免费观看| 最近最新免费中文字幕在线| 在线观看66精品国产| 毛片女人毛片| 欧美+亚洲+日韩+国产| 操出白浆在线播放| 男女午夜视频在线观看| av片东京热男人的天堂| www日本黄色视频网| 国产综合懂色| 亚洲国产欧洲综合997久久,| 欧美最黄视频在线播放免费| 天堂√8在线中文| 国产精品野战在线观看| 亚洲七黄色美女视频| 波多野结衣巨乳人妻| 国产精品av久久久久免费| 在线十欧美十亚洲十日本专区| 观看美女的网站| 欧美绝顶高潮抽搐喷水| 性色avwww在线观看| 动漫黄色视频在线观看| 麻豆成人午夜福利视频| 成人av一区二区三区在线看| 精品无人区乱码1区二区| 亚洲片人在线观看| 国产精品一区二区免费欧美| 中文字幕人妻丝袜一区二区| 亚洲av成人一区二区三| 黄色视频,在线免费观看| 一个人看视频在线观看www免费 | 十八禁人妻一区二区| 午夜福利在线观看免费完整高清在 | 国产三级在线视频| 欧美色欧美亚洲另类二区| 亚洲真实伦在线观看| 国产淫片久久久久久久久 | 狠狠狠狠99中文字幕| 一个人看的www免费观看视频| 在线观看午夜福利视频| 国产精品久久久久久久电影 | 97超级碰碰碰精品色视频在线观看| 精华霜和精华液先用哪个| 国产av一区在线观看免费| 99在线人妻在线中文字幕| 一本综合久久免费| 亚洲国产欧美一区二区综合| 国产99白浆流出| 狂野欧美白嫩少妇大欣赏| 波多野结衣高清无吗| 国产69精品久久久久777片 | 亚洲成av人片在线播放无| 69av精品久久久久久| 又紧又爽又黄一区二区| 18禁黄网站禁片午夜丰满| 国产一区二区在线观看日韩 | cao死你这个sao货| 国产乱人伦免费视频| 国产成人精品无人区| 国产亚洲av高清不卡| 三级毛片av免费| 男女下面进入的视频免费午夜| 观看免费一级毛片| 成在线人永久免费视频| 网址你懂的国产日韩在线| 欧美成狂野欧美在线观看| 久久欧美精品欧美久久欧美| 欧美中文综合在线视频| 亚洲国产欧洲综合997久久,| 黑人操中国人逼视频| 最近最新免费中文字幕在线|