• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于屬性值序列圖模型的deep Web新數(shù)據(jù)發(fā)現(xiàn)策略

    2016-07-18 11:50:50鮮學(xué)豐崔志明趙朋朋方立剛楊元峰顧才東
    通信學(xué)報(bào) 2016年3期
    關(guān)鍵詞:序列圖數(shù)據(jù)源增量

    鮮學(xué)豐,崔志明,趙朋朋,方立剛,楊元峰,顧才東

    ?

    基于屬性值序列圖模型的deep Web新數(shù)據(jù)發(fā)現(xiàn)策略

    鮮學(xué)豐1,2,3,崔志明1,2,趙朋朋2,方立剛1,3,楊元峰1,3,顧才東1,3

    (1. 江蘇省現(xiàn)代企業(yè)信息化應(yīng)用支撐軟件工程技術(shù)研發(fā)中心,江蘇蘇州215104; 2. 蘇州大學(xué)智能信息處理及應(yīng)用研究所,江蘇蘇州215006;3. 蘇州市職業(yè)大學(xué)計(jì)算機(jī)工程學(xué)院,江蘇蘇州 215104)

    針對(duì)數(shù)據(jù)源新產(chǎn)生數(shù)據(jù)記錄的增量爬取問題,提出了一種deep Web新數(shù)據(jù)發(fā)現(xiàn)策略,該策略采用一種新的屬性值序列圖模型表示deep Web數(shù)據(jù)源,將新數(shù)據(jù)發(fā)現(xiàn)問題轉(zhuǎn)化為屬性值序列圖的遍歷問題,該模型僅與數(shù)據(jù)相關(guān),與現(xiàn)有查詢關(guān)聯(lián)圖模型相比,具有更強(qiáng)的適應(yīng)性和確定性,可適用于僅僅包含簡(jiǎn)單查詢接口的deep Web數(shù)據(jù)源。在此模型的基礎(chǔ)上,發(fā)現(xiàn)增長(zhǎng)節(jié)點(diǎn)并預(yù)測(cè)其新數(shù)據(jù)發(fā)現(xiàn)能力;利用互信息計(jì)算節(jié)點(diǎn)之間的依賴關(guān)系,查詢選擇時(shí)盡可能地降低查詢依賴帶來的負(fù)面影響。該策略提高了新數(shù)據(jù)爬取的效率,實(shí)驗(yàn)結(jié)果表明,在相同資源約束前提下,該策略能使本地?cái)?shù)據(jù)和遠(yuǎn)程數(shù)據(jù)保持最大化同步。

    deep Web;新數(shù)據(jù)發(fā)現(xiàn);數(shù)據(jù)獲取

    1 引言

    目前,主流搜索引擎還只能搜索Internet表面可索引的信息,在Internet深處還隱含著大量通過主流搜索引擎無法涉及的海量信息,這些信息稱之為深層網(wǎng)頁(deep Web,又稱為invisible Web 或hidden Web)。根據(jù)Bright Planet研究表明,deep Web信息量非常龐大,是可索引Web信息的500倍,并且這些deep Web內(nèi)容95%都是可以通過Internet無需付費(fèi)注冊(cè)就可以公開訪問的。deep Web的信息一般存儲(chǔ)在服務(wù)端Web數(shù)據(jù)庫中,與靜態(tài)頁面相比通常信息量更大、主題更專一、信息質(zhì)量和結(jié)構(gòu)更好。為了方便用戶快捷高效地使用deep Web信息,國(guó)內(nèi)外學(xué)者對(duì)deep Web數(shù)據(jù)集成進(jìn)行了廣泛的研究。目前,deep Web信息集成主要有2種實(shí)現(xiàn)方案。一種方案是基于元搜索的方法,針對(duì)某個(gè)領(lǐng)域提供統(tǒng)一的查詢接口,將用戶查詢經(jīng)過語義映射轉(zhuǎn)發(fā)到各個(gè)deep Web數(shù)據(jù)源上,返回的結(jié)果經(jīng)過抽取、語義標(biāo)注、去重合并呈現(xiàn)給用戶。該方案不需維護(hù)本地?cái)?shù)據(jù)庫,但存在如下不足:用戶的查詢響應(yīng)慢,響應(yīng)時(shí)間不可控,由遠(yuǎn)程數(shù)據(jù)源的服務(wù)質(zhì)量決定;建立和維護(hù)統(tǒng)一查詢接口模式與各個(gè)數(shù)據(jù)源接口模式的語義映射代價(jià)高。另一種方案是deep Web數(shù)據(jù)本地化集成方案[1~4],該方案將deep Web數(shù)據(jù)庫中內(nèi)容爬取出來,經(jīng)過數(shù)據(jù)抽取、語義標(biāo)注、實(shí)體識(shí)別和去重等處理后,使其以結(jié)構(gòu)化的形式存儲(chǔ)于本地?cái)?shù)據(jù)庫,它能在最短時(shí)間內(nèi)響應(yīng)用戶的查詢要求。Madhavan等[1]提出了一種新的基于DataSpace的數(shù)據(jù)集成框架PayGo,該集成框架具有Pay-As-You-Go和演化特性,具有構(gòu)建成本低、領(lǐng)域獨(dú)立、演化等特點(diǎn)。目前,第2種方案正受到越來越多國(guó)內(nèi)外研究學(xué)者的關(guān)注,將成為deep Web數(shù)據(jù)集成研究的主流。該方案中的關(guān)鍵問題是如何讓本地?cái)?shù)據(jù)和遠(yuǎn)程數(shù)據(jù)源中數(shù)據(jù)保持同步。本文將致力于該關(guān)鍵問題的研究,在相同更新資源條件下,使本地?cái)?shù)據(jù)和遠(yuǎn)程數(shù)據(jù)保持最大化同步。

    由于deep Web是自治的、獨(dú)立更新的,其數(shù)據(jù)經(jīng)常處于頻繁更新的狀態(tài),而用戶總是希望能夠得到當(dāng)前Web數(shù)據(jù)庫中最新的內(nèi)容。因此需要定期地更新本地?cái)?shù)據(jù)拷貝,以保持和遠(yuǎn)程數(shù)據(jù)源同步。由于不同的deep Web數(shù)據(jù)源或同一個(gè)deep Web數(shù)據(jù)源中的數(shù)據(jù)記錄變化頻率是不一樣的,按統(tǒng)一頻率更新本地存儲(chǔ)的所有數(shù)據(jù),這是非常耗費(fèi)資源的(包括帶寬、遠(yuǎn)程數(shù)據(jù)源服務(wù)器資源等)。deep Web處于快速動(dòng)態(tài)更新的狀態(tài),使增量維護(hù)變得更加復(fù)雜,因此亟需提出新的方法來自動(dòng)增量更新本地deep Web數(shù)據(jù),從而在相同資源約束前提下,提高本地?cái)?shù)據(jù)的時(shí)新性和新數(shù)據(jù)的發(fā)現(xiàn)效率。deep Web數(shù)據(jù)增量爬取主要包含2部分內(nèi)容:系統(tǒng)已集成的本地?cái)?shù)據(jù)(消失和改變的記錄)的增量更新和新數(shù)據(jù)發(fā)現(xiàn)。目前,新數(shù)據(jù)的增量發(fā)現(xiàn)問題還有待進(jìn)一步研究,因此本文將針對(duì)該問題開展研究,在相同資源約束前提下,獲得盡可能多的新數(shù)據(jù),使本地?cái)?shù)據(jù)和遠(yuǎn)程數(shù)據(jù)保持最大化同步。

    2 相關(guān)研究

    互聯(lián)網(wǎng)中信息量的快速增長(zhǎng)使增量信息爬取技術(shù)成為網(wǎng)上信息獲取的一種有效手段,針對(duì)淺層網(wǎng)頁(surface Web)的網(wǎng)頁變化和增量爬取技術(shù)已得到廣泛的關(guān)注和研究[5~7]。然而surface Web和deep Web存在較大的差異,數(shù)據(jù)增量爬取的最大區(qū)別為:surface Web頁面有固定的URL,更新一個(gè)本地網(wǎng)頁只需根據(jù)這個(gè)URL重新訪問。然而deep Web數(shù)據(jù)記錄無固定的URL,更新無法根據(jù)固定的URL來訪問。對(duì)于一個(gè)deep Web數(shù)據(jù)記錄,只能通過在deep Web數(shù)據(jù)源的查詢接口上提交與該數(shù)據(jù)記錄相關(guān)的查詢,才能更新該數(shù)據(jù)記錄。因此,不能直接應(yīng)用surface Web的增量爬取技術(shù)來實(shí)現(xiàn)deep Web數(shù)據(jù)增量爬取,不得不研究新的方法解決deep Web數(shù)據(jù)增量爬取問題。

    目前,國(guó)內(nèi)外學(xué)者對(duì)deep Web數(shù)據(jù)增量爬取也開展了一些探索性研究,文獻(xiàn)[8]提出一種基于查詢關(guān)聯(lián)圖模型的增量數(shù)據(jù)爬取方法,該方法首先建立數(shù)據(jù)源的查詢關(guān)聯(lián)圖模型,從而將增量爬取任務(wù)轉(zhuǎn)化為圖遍歷過程,然后通過分析deep Web數(shù)據(jù)源的歷史版本選擇查詢來增量爬取新記錄。該圖模型的復(fù)雜性由數(shù)據(jù)源的數(shù)據(jù)記錄數(shù)和查詢接口查詢能力決定。文獻(xiàn)[9]同樣基于查詢關(guān)聯(lián)圖模型,但與文獻(xiàn)[8]的查詢選擇依據(jù)不同,文獻(xiàn)[9]通過分析deep Web數(shù)據(jù)源的樣本選擇查詢爬取新記錄。該圖模型與deep Web數(shù)據(jù)源提供的查詢接口能力密切相關(guān),對(duì)于2個(gè)具有相同內(nèi)容deep Web數(shù)據(jù)源,如果它們的查詢接口在查詢能力上不同,那么所產(chǎn)生的查詢關(guān)聯(lián)圖模型也不相同。因此,這種圖模型不能獨(dú)立表示deep Web數(shù)據(jù)源的內(nèi)容,具有一定的不確定性;同時(shí)該圖模型不適用于僅僅包含簡(jiǎn)單查詢接口的deep Web數(shù)據(jù)源。文獻(xiàn)[10]把deep Web數(shù)據(jù)爬取表示為集合覆蓋問題,通過機(jī)器學(xué)習(xí)方法獲得增量回報(bào)模型,然后根據(jù)增量回報(bào)模型自動(dòng)選擇查詢爬取增量記錄。還有一些針對(duì)直接集成deep Web網(wǎng)頁集成系統(tǒng)的增量爬取的研究[11~13],文獻(xiàn)[11]提出一種基于URL分類的deep Web增量爬蟲,該爬蟲根據(jù)deep Web網(wǎng)頁的內(nèi)容將其分為列表頁面和葉子頁面,所有URL也被分為列表URL和葉子URL,該爬蟲根據(jù)列表頁面的更新頻率和葉子頁面的變化頻率爬取最新的deep Web頁面。這類研究的deep Web集成方式與本文不同,它屬于deep Web數(shù)據(jù)集成研究的另一個(gè)分支。雖然國(guó)內(nèi)外學(xué)者已對(duì)deep Web數(shù)據(jù)增量爬取問題進(jìn)行了一定的研究,但這些研究的新數(shù)據(jù)發(fā)現(xiàn)效率還有待進(jìn)一步提高。deep Web新數(shù)據(jù)發(fā)現(xiàn)問題研究目前仍處于探索階段,其中,許多問題仍需進(jìn)一步深入研究。

    本文提出了一種基于屬性值序列圖模型的deep Web新數(shù)據(jù)發(fā)現(xiàn)策略,該策略首先將deep Web數(shù)據(jù)源的本地?cái)?shù)據(jù)表示為數(shù)據(jù)記錄屬性值序列圖,然后根據(jù)歷史數(shù)據(jù)產(chǎn)生增長(zhǎng)節(jié)點(diǎn),并設(shè)計(jì)了增長(zhǎng)節(jié)點(diǎn)的新數(shù)據(jù)發(fā)現(xiàn)能力計(jì)算方法,最后基于增長(zhǎng)節(jié)點(diǎn)的新數(shù)據(jù)發(fā)現(xiàn)效率進(jìn)行選擇查詢節(jié)點(diǎn)以爬取新數(shù)據(jù)記錄。實(shí)驗(yàn)結(jié)果表明基于屬性值序列圖模型的deep Web新數(shù)據(jù)發(fā)現(xiàn)策略在相同資源約束前提下,提高了新數(shù)據(jù)的發(fā)現(xiàn)效率,使本地?cái)?shù)據(jù)和遠(yuǎn)程數(shù)據(jù)保持最大化同步。

    3 屬性值序列圖模型

    3.1 屬性值序列圖模型定義

    定義1 deep Web數(shù)據(jù)源的屬性值序列圖模型。結(jié)構(gòu)化的deep Web數(shù)據(jù)源(WDB)可看作一張關(guān)系數(shù)據(jù)表DB,DB包含的數(shù)據(jù)記錄為{1,2,…,r},每條記錄包含個(gè)屬性{1,2,…,a},WDB中所有不相同的屬性值組成的集合為。在Deep Web數(shù)據(jù)增量爬取中,對(duì)于一個(gè)給定WDB,它的屬性值序列圖模型可定義為一種帶權(quán)的有向連通圖,表示為(,,,),其中是節(jié)點(diǎn)的集合,每一個(gè)節(jié)點(diǎn)v∈都與WDB中的屬性值av∈一一對(duì)應(yīng)。(v)表示節(jié)點(diǎn)v∈的入度,(v)表示節(jié)點(diǎn)v∈的出度。每個(gè)節(jié)點(diǎn)附帶一個(gè)權(quán)值表示該節(jié)點(diǎn)對(duì)應(yīng)屬性值在WDB的數(shù)據(jù)記錄集合出現(xiàn)的次數(shù),如果不考慮同一個(gè)屬性值在一個(gè)數(shù)據(jù)記錄中出現(xiàn)多次的情況,則節(jié)點(diǎn)v∈的權(quán)值(v)為在WDB中出現(xiàn)屬性值av∈的數(shù)據(jù)記錄數(shù)。、分別為出現(xiàn)在單條數(shù)據(jù)記錄中的起點(diǎn)屬性值和終點(diǎn)屬性值的集合,為有向邊的集合,中的元素表示數(shù)據(jù)記錄中屬性值的接續(xù)關(guān)系,一個(gè)有向邊(v,v)∈當(dāng)且僅當(dāng)avav接續(xù)出現(xiàn)在一個(gè)數(shù)據(jù)記錄r∈中(如圖1所示)。每條邊也附帶一個(gè)權(quán)值表示該邊所關(guān)聯(lián)的節(jié)點(diǎn)間的關(guān)聯(lián)度,邊(v,v)∈的權(quán)值(v,v)為包含有向邊(v,v)∈的數(shù)據(jù)記錄數(shù)。

    屬性值序列圖模型具有如下特點(diǎn)。

    2) 對(duì)于屬性值序列圖任意一個(gè)節(jié)點(diǎn),有()(v)≥1。

    3) 每條數(shù)據(jù)記錄在屬性值序列圖中被表示為一個(gè)有序閉環(huán)。

    4) 對(duì)于屬性值序列圖中的任意一個(gè)節(jié)點(diǎn)v,根據(jù)、、數(shù)據(jù)記錄的長(zhǎng)度以及與v相關(guān)聯(lián)的有向邊,可以確定屬性值序列圖中包含節(jié)點(diǎn)v的所有數(shù)據(jù)記錄。

    5) 邊(v,v)∈和(v,v)∈屬于不同的邊,(v,v)∈≠(v,v)∈。

    3.2 圖模型的構(gòu)建

    對(duì)一個(gè)給定的結(jié)構(gòu)化的deep Web數(shù)據(jù)源,假設(shè)在前期的數(shù)據(jù)爬取中已獲得了該WDB的全部數(shù)據(jù)記錄,獲得的數(shù)據(jù)記錄集為{1,2,…,r}。首先基于中一條數(shù)據(jù)記錄生成初始屬性值序列圖(如圖1所示),然后依次從中提取各數(shù)據(jù)記錄,不斷向中的添加節(jié)點(diǎn)和邊,同時(shí)也更新節(jié)點(diǎn)和邊的權(quán)值,直到中所有數(shù)據(jù)記錄都已添加到,最終得到WDB的屬性值序列圖。屬性值序列圖構(gòu)建示意如圖1和圖2所示。

    圖1(a)為一個(gè)數(shù)據(jù)記錄r,包含4個(gè)屬性值。圖1(b)為圖1(a)數(shù)據(jù)記錄對(duì)應(yīng)的屬性值序列圖,1為起始節(jié)點(diǎn)1為終止節(jié)點(diǎn)。有向邊(v,v)∈當(dāng)且僅當(dāng)avav接續(xù)出現(xiàn)于一個(gè)數(shù)據(jù)記錄r∈中,數(shù)據(jù)記錄r在屬性值序列圖中被表示為一個(gè)有序閉環(huán)。在圖1(b)中所有節(jié)點(diǎn)和邊的權(quán)重都為1。

    圖2顯示了一個(gè)結(jié)構(gòu)化deep Web數(shù)據(jù)源(假定WDB包含4條記錄,每條記錄包含4個(gè)屬性值)和它所對(duì)應(yīng)的屬性值序列圖。圖2(b)中節(jié)點(diǎn)1的權(quán)重=3,節(jié)點(diǎn)2、2、1的權(quán)重=2,其他所有節(jié)點(diǎn)的權(quán)重=1;圖2(b)中邊(1、1)∈和(2,2)∈的權(quán)重=2,其他邊的權(quán)重都=1。屬性值序列圖的節(jié)點(diǎn)和邊的權(quán)重記錄了它們?cè)谝褬?gòu)建的所有記錄中的統(tǒng)計(jì)信息,這些信息將便于deep Web數(shù)據(jù)的增量爬取。

    對(duì)于一個(gè)給定的deep Web數(shù)據(jù)源,在第一次數(shù)據(jù)爬取結(jié)束后,通過上述圖模型的構(gòu)建方法可以得到該WDB的屬性值序列圖。隨著時(shí)間的推移deep Web數(shù)據(jù)源會(huì)產(chǎn)生大量的新數(shù)據(jù)記錄,需要進(jìn)行增量爬取。因此,本文以屬性值序列圖模型為基礎(chǔ),研究新的方法來自動(dòng)增量爬取新數(shù)據(jù)(新數(shù)據(jù)發(fā)現(xiàn)),以盡可能小的代價(jià)增量爬取deep Web數(shù)據(jù)源中新產(chǎn)生的數(shù)據(jù)記錄。從而在相同資源約束前提下,使本地?cái)?shù)據(jù)與遠(yuǎn)程數(shù)據(jù)保持最大化同步。

    4 deep Web新數(shù)據(jù)發(fā)現(xiàn)策略

    4.1 deep Web新數(shù)據(jù)發(fā)現(xiàn)的總體思路

    事物發(fā)展的趨勢(shì)可以分為3種:遞增、遞減和平穩(wěn)。趨勢(shì)的原因各式各樣,比如我國(guó)的人均收入、銀行的存款額每年隨著時(shí)間而增長(zhǎng),而我國(guó)貧困人口的數(shù)據(jù)趨勢(shì)逐年遞減,某地區(qū)的平均溫度以及平均降水量是基本平穩(wěn)的。值得注意的是,幾乎所有的事物在不同的發(fā)展階段都要經(jīng)過不同的趨勢(shì),一般來說初期具有向上增長(zhǎng)的趨勢(shì),經(jīng)過一段時(shí)間的成長(zhǎng)達(dá)到成熟期,成熟期呈現(xiàn)平穩(wěn)的趨勢(shì),到了末期則有向下減少的趨勢(shì)。因此,可以通過分析事物過去的發(fā)展情況,來預(yù)測(cè)將來的發(fā)展趨勢(shì)。假定deep Web數(shù)據(jù)源中包含某個(gè)關(guān)鍵詞的數(shù)據(jù)記錄數(shù)的變化趨勢(shì)已符合事物發(fā)展的一般規(guī)律,基于這個(gè)假定本文提出一種deep Web新數(shù)據(jù)發(fā)現(xiàn)策略,該策略的基本思路為通過分析deep Web數(shù)據(jù)源在最近個(gè)歷史版本對(duì)應(yīng)的屬性值序列圖,估計(jì)當(dāng)前屬性值序列圖(t?1)中哪些節(jié)點(diǎn)(查詢關(guān)鍵詞)為增長(zhǎng)節(jié)點(diǎn),增長(zhǎng)節(jié)點(diǎn)為目前在WDB中與該節(jié)點(diǎn)相匹配的數(shù)據(jù)記錄數(shù)處于遞增階段的節(jié)點(diǎn),換句話說,WDB在時(shí)刻t?1到時(shí)刻t期間產(chǎn)生的新數(shù)據(jù)記錄較大可能包含的節(jié)點(diǎn)。然后,對(duì)增長(zhǎng)節(jié)點(diǎn)的新數(shù)據(jù)發(fā)現(xiàn)能力進(jìn)行評(píng)估,最后選擇Top個(gè)具有最高新數(shù)據(jù)發(fā)現(xiàn)效率的增長(zhǎng)節(jié)點(diǎn)作為查詢節(jié)點(diǎn),通過提交查詢節(jié)點(diǎn)對(duì)應(yīng)的關(guān)鍵詞爬取新數(shù)據(jù)記錄。下面介紹基于屬性值序列圖模型的deep Web新數(shù)據(jù)發(fā)現(xiàn)策略。假定從本地?cái)?shù)據(jù)庫獲得deep Web數(shù)據(jù)源的個(gè)歷史版本,deep Web新數(shù)據(jù)發(fā)現(xiàn)問題能被描述為:給定的(0),(1), …,(t1),如何盡可能多地爬取在△=t?t?1時(shí)間區(qū)間內(nèi)產(chǎn)生的新數(shù)據(jù)記錄。新數(shù)據(jù)發(fā)現(xiàn)算法的具體描述如下。

    算法1 基于屬性值序列圖模型的deep Web新數(shù)據(jù)發(fā)現(xiàn)算法

    輸入:(t?L),(t?(L?1)), …,(t?1)//deep Web數(shù)據(jù)源最近個(gè)歷史版本

    輸出:;//為爬取的新數(shù)據(jù)記錄的集合

    Algorithm((t?L),(t?(L?1)),…,(t?1))

    1) begin

    2) 構(gòu)建(t?L),(t?(L?1)),…,(t1)對(duì)應(yīng)的屬性值序列圖(t),(t?(L?1)),…,(t?1)

    3)=((t?L),(t?(L?1)),…,(t?1)) //增長(zhǎng)節(jié)點(diǎn)選擇

    4)=() //增長(zhǎng)節(jié)點(diǎn)新數(shù)據(jù)發(fā)現(xiàn)能力估計(jì)

    5) whiledo //停止條件

    6)q=() //查詢節(jié)點(diǎn)選擇

    7)(,q)=(q,) //在上執(zhí)行查詢q

    8)=((,q)) //抽取執(zhí)行查詢q獲得的數(shù)據(jù)記錄

    9)=(t?1) //查詢q爬取的新記錄

    11)()()(q,)

    12) end while

    13) return

    end

    算法1為deep Web新數(shù)據(jù)發(fā)現(xiàn)算法,算法首先構(gòu)建deep Web數(shù)據(jù)源最近個(gè)歷史版本的屬性值序列(2)行),然后根據(jù)這個(gè)歷史版本的信息從(t?1)中選擇增長(zhǎng)節(jié)點(diǎn)并估計(jì)增長(zhǎng)節(jié)點(diǎn)的新數(shù)據(jù)發(fā)現(xiàn)能力(3)~4)行),最后根據(jù)增長(zhǎng)節(jié)點(diǎn)的新數(shù)據(jù)發(fā)現(xiàn)效率選擇查詢節(jié)點(diǎn),并提交查詢節(jié)點(diǎn)對(duì)應(yīng)的關(guān)鍵詞爬取新數(shù)據(jù)記錄(3)~5)行)。一次查詢的新數(shù)據(jù)爬取流程為:首先采用( )從增長(zhǎng)節(jié)點(diǎn)中選擇一個(gè)節(jié)點(diǎn)作為查詢節(jié)點(diǎn),提交該查詢節(jié)點(diǎn)對(duì)應(yīng)的關(guān)鍵詞到當(dāng)前的deep Web數(shù)據(jù)源,獲得返回結(jié)果頁面(6)~7)行)。然后從結(jié)果頁面中抽取該次查詢獲得的所有數(shù)據(jù)記錄,并篩選出新的數(shù)據(jù)記錄加入到中(8)~9)行),最后把該次數(shù)據(jù)爬取的代價(jià)(q,)計(jì)入爬取WDB已耗費(fèi)的總代價(jià)()。算法不斷重復(fù)該新數(shù)據(jù)爬取過程直到滿足停止條件,完成該次新數(shù)據(jù)發(fā)現(xiàn)。

    該算法主要由4個(gè)主要部分組成:( )、e ( )、( )和( )。

    ( ):通過分析Deep Web數(shù)據(jù)源的最近個(gè)歷史版本的屬性值序列圖,預(yù)測(cè)當(dāng)前版本的屬性值圖(t?1)中節(jié)點(diǎn)的變化趨勢(shì)并選擇增長(zhǎng)節(jié)點(diǎn),增長(zhǎng)節(jié)點(diǎn)為(t?1)中與WDB在時(shí)刻t?1到時(shí)刻t期間產(chǎn)生的新數(shù)據(jù)記錄具有最大可能性相匹配的節(jié)點(diǎn)。

    e( ):估計(jì)增長(zhǎng)節(jié)點(diǎn)可能產(chǎn)生新記錄的數(shù)量。

    ( ):從增長(zhǎng)節(jié)點(diǎn)集合中選擇最高新數(shù)據(jù)發(fā)現(xiàn)效率的節(jié)點(diǎn)。

    ( ):從結(jié)果頁面中抽取數(shù)據(jù)記錄。

    ( )已經(jīng)被廣泛研究,目前提出了許多解決方法,將不再討論數(shù)據(jù)記錄抽取問題。本文主要討論deep Web新數(shù)據(jù)發(fā)現(xiàn)的( )、e ( )和( )這3部分。

    新數(shù)據(jù)發(fā)現(xiàn)的停止條件如下。

    1) 如果系統(tǒng)分配給WDB的新數(shù)據(jù)爬取資源耗盡,即()≥c,c為分配給WDB的總資源,則結(jié)束WDB的數(shù)據(jù)爬取。

    2) 對(duì)于數(shù)據(jù)源WDB,如果()最近連續(xù)選擇的個(gè)節(jié)點(diǎn)(查詢關(guān)鍵詞)發(fā)現(xiàn)新數(shù)據(jù)記錄的效率低于閾值。

    3) 查詢節(jié)點(diǎn)集合為空,沒有可以提交的查詢節(jié)點(diǎn)。

    接下來將詳細(xì)介紹增長(zhǎng)節(jié)點(diǎn)選擇、增長(zhǎng)節(jié)點(diǎn)新數(shù)據(jù)發(fā)現(xiàn)能力估計(jì)和查詢節(jié)點(diǎn)選擇這3個(gè)關(guān)鍵問題。

    4.2 增長(zhǎng)節(jié)點(diǎn)選擇

    deep Web數(shù)據(jù)源當(dāng)前本地版本(t?1)的屬性值圖為(t?1),deep Web新數(shù)據(jù)發(fā)現(xiàn)的關(guān)鍵問題為:在時(shí)刻t,如何從圖(t?1)中選擇一個(gè)節(jié)點(diǎn),在WDB上提交該節(jié)點(diǎn)對(duì)應(yīng)的查詢關(guān)鍵詞可以獲得盡可能多的新記錄。根據(jù)4.1節(jié)敘述的事物發(fā)展的趨勢(shì)的一般規(guī)律,(t?1)中的所有節(jié)點(diǎn)根據(jù)目前所處的發(fā)展階段可分為3種類:增長(zhǎng)類、衰減類和平穩(wěn)類。對(duì)于(t?1)中屬于這3類的節(jié)點(diǎn)分別稱為:增長(zhǎng)節(jié)點(diǎn)、衰減節(jié)點(diǎn)和平穩(wěn)節(jié)點(diǎn)。如果圖(t?1)中的一個(gè)節(jié)點(diǎn)的出度(入度)在deep Web數(shù)據(jù)源最近的個(gè)歷史版本中都非常穩(wěn)定,根據(jù)事物發(fā)展的一般規(guī)律,那么該節(jié)點(diǎn)在(t)中存在大量新記錄與之相匹配的機(jī)會(huì)將很小,換句話說在時(shí)刻t?1到時(shí)刻t期間WDB不可能產(chǎn)生大量與該節(jié)點(diǎn)相匹配的數(shù)據(jù)記錄,這類節(jié)點(diǎn)即為“平穩(wěn)節(jié)點(diǎn)”,如果節(jié)點(diǎn)的出度(入度)在deep Web數(shù)據(jù)源最近的個(gè)歷史版本中的度逐漸減小或節(jié)點(diǎn)在最近的個(gè)歷史版本中,度的平均值與第+1版本相比減小,則稱該類節(jié)點(diǎn)為“衰減節(jié)點(diǎn)”,如果節(jié)點(diǎn)的出度(入度)在deep Web數(shù)據(jù)源最近的個(gè)歷史版本中的度逐漸增加,或節(jié)點(diǎn)在最近的個(gè)歷史版本中度的平均值大于第+1版本,則稱該類節(jié)點(diǎn)為“增長(zhǎng)節(jié)點(diǎn)”,顯然,在時(shí)刻t,WDB中與增長(zhǎng)節(jié)點(diǎn)相匹配的數(shù)據(jù)記錄數(shù)最有可能增加,即(t?1)中的增長(zhǎng)節(jié)點(diǎn)在WDB中更有可能與新產(chǎn)生的數(shù)據(jù)記錄相匹配。本文使用式(1)計(jì)算當(dāng)前版本(t?1)中節(jié)點(diǎn)從時(shí)刻t?L到時(shí)刻t?1區(qū)間的增長(zhǎng)度

    其中,D?i()為圖(t?i)中節(jié)點(diǎn)的入度(出度),即在(t?i)中與節(jié)點(diǎn)對(duì)應(yīng)關(guān)鍵詞相匹配的數(shù)據(jù)記錄數(shù);表示節(jié)點(diǎn)的增長(zhǎng)度的權(quán)重,與當(dāng)前版本越接近的版本之間的增長(zhǎng)度越重要;表示(t?i)與(t?(i+1))2個(gè)版本之間的增長(zhǎng)度;D?i()?D(?i+1)()為在(t?i)中與節(jié)點(diǎn)相匹配的新記錄數(shù);對(duì)于,用一個(gè)例子說明,假定(t?i)中2個(gè)節(jié)點(diǎn)1和2,D?i(1)=6,D(?i+1)(1)=2,D?i(2)=12,D(?i+1)(2)=4,顯然應(yīng)該優(yōu)先選擇2,因?yàn)樵赿eep Web數(shù)據(jù)源上提交2對(duì)應(yīng)的關(guān)鍵詞能獲得比提交1對(duì)應(yīng)的關(guān)鍵詞更多的新記錄,使(2)(1),同時(shí)避免當(dāng)?(t?i),D?i()0時(shí),公式除以0的情況。節(jié)點(diǎn)的增長(zhǎng)度如果大于增長(zhǎng)閾值,則認(rèn)為節(jié)點(diǎn)為增長(zhǎng)節(jié)點(diǎn)。增長(zhǎng)節(jié)點(diǎn)產(chǎn)生算法的具體描述如下。

    算法2 增長(zhǎng)節(jié)點(diǎn)產(chǎn)生算法

    輸入:(t?L),(t?(L?1)), …,(t?1),WDB的最近個(gè)歷史版本的屬性值圖

    輸出://為增長(zhǎng)節(jié)點(diǎn)集合

    Algorithm((t?L),(t?(L?1)),…,(t?1))

    1) begin

    2) for each vertexin(t?1)do

    3) Compute();

    4) if() ≥then //為增長(zhǎng)節(jié)點(diǎn)的閾值,如果() ≥,則為增長(zhǎng)節(jié)點(diǎn)

    5)∪添加節(jié)點(diǎn)到增長(zhǎng)節(jié)點(diǎn)集合

    6) end if

    7) end for

    8) return

    end

    在算法2中,首先輸入deep Web數(shù)據(jù)源最近個(gè)歷史版本的屬性值序列圖(t?L),(t?(L?1)),…,(t?1),計(jì)算deep Web 數(shù)據(jù)源當(dāng)前版本屬性值序列圖(t?1)中每個(gè)節(jié)點(diǎn)的增長(zhǎng)度,如果節(jié)點(diǎn)的增長(zhǎng)度大于等于增長(zhǎng)閾值,則將節(jié)點(diǎn)加入到增長(zhǎng)節(jié)點(diǎn)集合中。通過上述算法得到當(dāng)前版本屬性值序列圖(t?1)中與產(chǎn)生新記錄相匹配可能性較大的所有增長(zhǎng)節(jié)點(diǎn)。通過增長(zhǎng)度計(jì)算(t?1)中所有節(jié)點(diǎn)定性分為增長(zhǎng)節(jié)點(diǎn)、衰減節(jié)點(diǎn)和穩(wěn)定節(jié)點(diǎn)3類,在下一節(jié)中將預(yù)測(cè)增長(zhǎng)節(jié)點(diǎn)的新數(shù)據(jù)發(fā)現(xiàn)能力,即在(t)中與增長(zhǎng)節(jié)點(diǎn)相匹配的新數(shù)據(jù)記錄數(shù)量。

    4.3 增長(zhǎng)節(jié)點(diǎn)的新數(shù)據(jù)發(fā)現(xiàn)能力估計(jì)

    目前,人們對(duì)事物發(fā)展趨勢(shì)(如價(jià)格、宏觀經(jīng)濟(jì)等)的預(yù)測(cè)主要采用的預(yù)測(cè)模型有灰色系統(tǒng)預(yù)測(cè)模型、時(shí)間序列預(yù)測(cè)模型、回歸預(yù)測(cè)模型、神經(jīng)網(wǎng)絡(luò)模型等[14]。由于在實(shí)際應(yīng)用中常常存在序列相關(guān)性、異方差性、非線性等問題,不可避免地存在信息丟失。神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型由大量的處理單元以適當(dāng)?shù)姆绞交ヂ?lián)構(gòu)成,能模擬人的大腦及其活動(dòng),具有非線性和自適應(yīng)性的特點(diǎn)。在實(shí)際應(yīng)用中神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型與其他預(yù)測(cè)模型相比通常具有較好的擬合效果和精度。同時(shí),神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型具有如下優(yōu)點(diǎn):1)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型預(yù)測(cè)精度較高,并可以實(shí)現(xiàn)并行計(jì)算;2) 神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型相當(dāng)于一個(gè)黑盒,不要知道輸入和輸出變量之間的映射關(guān)系,只需對(duì)給定的訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,來自動(dòng)建立輸入和輸出變量之間的映射關(guān)系,直到實(shí)際輸出值與期望值的誤差滿足所需的精度要求;3) 神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型在建模的過程中只需要選取適當(dāng)?shù)妮斎胱兞亢洼敵鲎兞恳约跋鄳?yīng)的拓?fù)浣Y(jié)構(gòu)就能建立合適的模型,能減少人工干預(yù),降低人為假設(shè)的可能。

    由于deep Web數(shù)據(jù)變化的復(fù)雜性,本文采用BP神經(jīng)網(wǎng)絡(luò)模型來預(yù)測(cè)增長(zhǎng)節(jié)點(diǎn)的新數(shù)據(jù)發(fā)現(xiàn)能力。同時(shí),針對(duì)那些結(jié)果頁面包含與查詢關(guān)鍵詞相匹配的數(shù)據(jù)記錄數(shù)的deep Web數(shù)據(jù)源,采用一種更簡(jiǎn)潔的方法計(jì)算增長(zhǎng)節(jié)點(diǎn)的新數(shù)據(jù)發(fā)現(xiàn)能力,即增長(zhǎng)節(jié)點(diǎn)預(yù)提交方法。接下來將分別介紹這2種增長(zhǎng)節(jié)點(diǎn)新數(shù)據(jù)發(fā)現(xiàn)能力計(jì)算方法。

    4.3.1 基于BP神經(jīng)網(wǎng)絡(luò)的增長(zhǎng)節(jié)點(diǎn)新數(shù)據(jù)發(fā)現(xiàn)能力預(yù)測(cè)

    對(duì)于中一個(gè)節(jié)點(diǎn),預(yù)測(cè)其在(t)與之相關(guān)聯(lián)的數(shù)據(jù)記錄數(shù),即在(t)中的度。假定節(jié)點(diǎn)在最近個(gè)歷史版本的屬性值圖中度為:{ D?L(), D?(L?1)(),…,D?1()}。使用BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)D()的步驟如下。

    1) 利用歷史數(shù)據(jù)創(chuàng)建訓(xùn)練樣本

    用{ D?L(), D?(L?1)(),…,D()}作為建立BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型的訓(xùn)練樣本,其中,將D?L()作為起始,每連續(xù)個(gè)度作為一個(gè)樣本的輸入向量,接下來的(≥1)個(gè)度作為相應(yīng)的期望輸出向量,這樣的輸入向量和期望輸出向量組成一個(gè)樣本,然后起始位置向后退(≥1)個(gè),即從D?L+h()作為起始,再用上述方法建立第2個(gè)樣本,依次類推,最終創(chuàng)建出所有的訓(xùn)練樣本。

    2) BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)確定

    本文預(yù)測(cè)采用3層網(wǎng)絡(luò)結(jié)構(gòu):分別為輸入層、隱含層和輸出層。

    輸入層:輸入層有個(gè)節(jié)點(diǎn),對(duì)應(yīng)訓(xùn)練樣本的輸入向量。

    隱含層:采用經(jīng)驗(yàn)式lb(為隱含節(jié)點(diǎn)數(shù),為輸入層節(jié)點(diǎn)數(shù))確定隱含層節(jié)點(diǎn)數(shù)。

    輸出層:輸出層有個(gè)節(jié)點(diǎn),對(duì)應(yīng)訓(xùn)練樣本的期望輸出向量。本文設(shè)置=1,僅僅預(yù)測(cè)D?L+h+1()的值,如果需要一次預(yù)測(cè)D?L+h+1()和D?L+h+2()的值,則可以設(shè)置2。

    3) 訓(xùn)練相關(guān)參數(shù)選取與新數(shù)據(jù)發(fā)現(xiàn)能力預(yù)測(cè)

    選取對(duì)數(shù)型函數(shù)作為激勵(lì)函數(shù),選取梯度下降BP訓(xùn)練函數(shù),最大迭代次數(shù)100,精度為0.000 1。由于BP神經(jīng)網(wǎng)絡(luò)選取的型函數(shù)作為激勵(lì)函數(shù),而型激勵(lì)函數(shù)的值域?yàn)閇0,1],因此需要采用歸一法將樣本的輸入和輸出向量規(guī)范到[0,1]區(qū)間。然后利用處理好的樣本對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到訓(xùn)練好的神經(jīng)網(wǎng)絡(luò),再利用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測(cè),得出D?L+h+1()的預(yù)測(cè)值。在時(shí)刻t,對(duì)于IncrementV中的每一個(gè)增長(zhǎng)節(jié)點(diǎn),可以通過BP神經(jīng)網(wǎng)絡(luò)得到D()的預(yù)測(cè)值,因此,增長(zhǎng)節(jié)點(diǎn)的新數(shù)據(jù)發(fā)現(xiàn)能力為:D()?D?1()。

    使用基于BP神經(jīng)網(wǎng)絡(luò)的增長(zhǎng)節(jié)點(diǎn)新數(shù)據(jù)發(fā)現(xiàn)能力預(yù)測(cè)方法,需要對(duì)每一個(gè)增長(zhǎng)節(jié)點(diǎn)訓(xùn)練神經(jīng)網(wǎng)絡(luò),當(dāng)增長(zhǎng)節(jié)點(diǎn)數(shù)量較大時(shí),雖然BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練可以離線進(jìn)行,但仍然將十分耗時(shí)。因此,針對(duì)那些結(jié)果頁面包含與查詢關(guān)鍵詞相匹配的數(shù)據(jù)記錄數(shù)的deep Web數(shù)據(jù)源,本文采用一種更簡(jiǎn)潔的方法計(jì)算增長(zhǎng)節(jié)點(diǎn)的新數(shù)據(jù)發(fā)現(xiàn)能力,即增長(zhǎng)節(jié)點(diǎn)預(yù)提交方法。

    4.3.2 增長(zhǎng)節(jié)點(diǎn)預(yù)提交的方法

    對(duì)于一個(gè)deep Web數(shù)據(jù)源,當(dāng)查詢關(guān)鍵詞提交到WDB,WDB將返回與該查詢關(guān)鍵詞相匹配的數(shù)據(jù)記錄組成的結(jié)果頁面,據(jù)觀察,大多數(shù)結(jié)果頁除了包含與查詢關(guān)鍵詞相關(guān)的數(shù)據(jù)記錄外,還包含WDB中與該查詢關(guān)鍵詞相匹配的數(shù)據(jù)記錄總數(shù)。圖3為在互動(dòng)出版網(wǎng)(www.china-pub.com)的查詢接口提交查詢關(guān)鍵詞“java”后,互動(dòng)出版網(wǎng)返回的結(jié)果頁面(互動(dòng)出版網(wǎng)是一個(gè)圖書類電子商務(wù)網(wǎng)站)。如圖3所示,在結(jié)果頁面中除了顯示部分?jǐn)?shù)據(jù)記錄外,還包含在互動(dòng)出版網(wǎng)中與查詢關(guān)鍵詞“java”匹配的記錄總數(shù)(見粗線方框“使用java搜索,共有3 413種商品”)。通過統(tǒng)計(jì)分析發(fā)現(xiàn),現(xiàn)實(shí)世界中大多數(shù)的deep Web數(shù)據(jù)源的結(jié)果頁面中包含與提交到它的查詢關(guān)鍵詞相匹配的數(shù)據(jù)記錄總數(shù),記為。

    為了進(jìn)行高效的新數(shù)據(jù)發(fā)現(xiàn),需要獲得在時(shí)刻t,(t)中與增長(zhǎng)節(jié)點(diǎn)相匹配的數(shù)據(jù)記錄數(shù),即在(t)中增長(zhǎng)節(jié)點(diǎn)的度D()。因此,本文利用deep Web數(shù)據(jù)源的結(jié)果頁面中包含與提交到它的查詢關(guān)鍵詞相匹配的數(shù)據(jù)記錄總數(shù)的特點(diǎn),在時(shí)刻t,對(duì)于IncrementV中的每一個(gè)增長(zhǎng)節(jié)點(diǎn),進(jìn)行一次查詢提交,獲得該節(jié)點(diǎn)查詢提交的一個(gè)結(jié)果頁面,然后從結(jié)果頁面中抽取(t)中與增長(zhǎng)節(jié)點(diǎn)相匹配的數(shù)據(jù)記錄數(shù),等價(jià)于(t)中增長(zhǎng)節(jié)點(diǎn)的度D()。因此,在時(shí)刻t,增長(zhǎng)節(jié)點(diǎn)的新數(shù)據(jù)發(fā)現(xiàn)能力為:- D?1()。

    與基于BP神經(jīng)網(wǎng)絡(luò)的增長(zhǎng)節(jié)點(diǎn)新數(shù)據(jù)發(fā)現(xiàn)能力預(yù)測(cè)方法相比較,增長(zhǎng)節(jié)點(diǎn)預(yù)提交方法不需要通過歷史數(shù)據(jù)訓(xùn)練預(yù)測(cè)模型,只需要對(duì)所有增長(zhǎng)節(jié)點(diǎn)進(jìn)行一次查詢提交,爬取一個(gè)結(jié)果頁面即可獲得時(shí)刻t在WDB中與增長(zhǎng)節(jié)點(diǎn)相匹配數(shù)據(jù)記錄的準(zhǔn)確數(shù)量。因此,增長(zhǎng)節(jié)點(diǎn)預(yù)提交方法與基于BP神經(jīng)網(wǎng)絡(luò)的增長(zhǎng)節(jié)點(diǎn)新數(shù)據(jù)發(fā)現(xiàn)能力預(yù)測(cè)方法相比較, 增長(zhǎng)節(jié)點(diǎn)預(yù)提交方法使用更加簡(jiǎn)單方便,同時(shí)代價(jià)較低。更重要的是基于預(yù)測(cè)的方法存在一定的誤差,而增長(zhǎng)節(jié)點(diǎn)預(yù)提交方法則更為準(zhǔn)確。因此,對(duì)那些結(jié)果頁面包含與查詢關(guān)鍵詞相匹配的數(shù)據(jù)記錄數(shù)的deep Web數(shù)據(jù)源,本文使用增長(zhǎng)節(jié)點(diǎn)預(yù)提交方法獲得增長(zhǎng)節(jié)點(diǎn)的新數(shù)據(jù)發(fā)現(xiàn)能力,否則,使用基于BP神經(jīng)網(wǎng)絡(luò)的方法預(yù)測(cè)增長(zhǎng)節(jié)點(diǎn)的新數(shù)據(jù)發(fā)現(xiàn)能力。

    4.4 查詢節(jié)點(diǎn)選擇

    通過預(yù)測(cè)或預(yù)提交得到中每個(gè)節(jié)點(diǎn)在(t)中可能的入度(出度)后,可以通過D()?D?1()得到每個(gè)增長(zhǎng)節(jié)點(diǎn)的新數(shù)據(jù)發(fā)現(xiàn)能力,即時(shí)刻t,在(t)上提交節(jié)點(diǎn)能獲得新數(shù)據(jù)記錄數(shù)量。根據(jù)deep Web新數(shù)據(jù)發(fā)現(xiàn)策略的爬取代價(jià),查詢節(jié)點(diǎn)(關(guān)鍵詞)選擇的目標(biāo)為:每次在中選擇具有最高新數(shù)據(jù)發(fā)現(xiàn)效率的節(jié)點(diǎn),節(jié)點(diǎn)的新數(shù)據(jù)發(fā)現(xiàn)效率為爬取最少的總數(shù)據(jù)記錄,獲得最多的新數(shù)據(jù)記錄,即對(duì)于(t?i)中2個(gè)節(jié)點(diǎn)1和2,如果1和2爬取相同數(shù)量的新數(shù)據(jù)記錄,1爬取的總數(shù)據(jù)記錄數(shù)小于2,則認(rèn)為1的新數(shù)據(jù)發(fā)現(xiàn)效率高于2。顯然,應(yīng)該優(yōu)先選擇1。節(jié)點(diǎn)的新數(shù)據(jù)發(fā)現(xiàn)效率定義為

    其中,D?1()為在時(shí)刻t?1圖(t?1)中增長(zhǎng)節(jié)點(diǎn)的入度(出度),D()為在時(shí)刻t在deep Web數(shù)據(jù)源上提交與增長(zhǎng)節(jié)點(diǎn)相對(duì)應(yīng)的查詢關(guān)鍵詞所返回的總記錄數(shù)。D()可由4.3節(jié)得到。D()?D?1()為時(shí)刻t在(t)上提交節(jié)點(diǎn)能獲得新數(shù)據(jù)記錄數(shù)量。

    在理論上,只需按照中每個(gè)增長(zhǎng)節(jié)點(diǎn)的新數(shù)據(jù)發(fā)現(xiàn)效率從大到小選擇節(jié)點(diǎn),在deep Web數(shù)據(jù)源上提交與該節(jié)點(diǎn)對(duì)應(yīng)的查詢關(guān)鍵詞,爬取新記錄。不斷重復(fù)該過程,直到滿足停止條件。然而,上述新數(shù)據(jù)爬取的查詢選擇方法在進(jìn)行查詢選擇時(shí)沒有考慮選擇提交的下一個(gè)查詢節(jié)點(diǎn)(關(guān)鍵詞)與已經(jīng)選擇提交的查詢節(jié)點(diǎn)之間的依賴關(guān)系。根據(jù)文獻(xiàn)[15],在實(shí)際應(yīng)用中,屬性值之間的依賴關(guān)系十分普遍,例如:許多作者通常一起發(fā)表論文,當(dāng)一個(gè)作者名字被提交查詢后,其他的作者名字即便是具有較高新數(shù)據(jù)爬取效率,也不是一個(gè)好的選擇。提交它們作為查詢不但不能爬取更多的新數(shù)據(jù),反而需要系統(tǒng)處理大量重復(fù)數(shù)據(jù)。因此,在進(jìn)行查詢節(jié)點(diǎn)選擇時(shí),必須要考慮查詢節(jié)點(diǎn)與其他已提交查詢節(jié)點(diǎn)之間的依賴關(guān)系,降低查詢依賴帶來的負(fù)面影響。

    本文使用Mutual Information計(jì)算2個(gè)查詢節(jié)點(diǎn)(關(guān)鍵詞)之間的依賴性,2個(gè)查詢節(jié)點(diǎn)1和2的依賴度可由它們共同出現(xiàn)在(t?1)中一個(gè)有序圈(一條數(shù)據(jù)記錄)中的概率決定。對(duì)于IncrementV中的每個(gè)節(jié)點(diǎn)v與所有已提交的節(jié)點(diǎn)之間的依賴關(guān)系(v,IncrementV[1,2,…,m])可由式(3)計(jì)算得到

    (v,IncrementV[1, 2,…,m])

    其中,IncrementV為中還沒有被選擇提交的增長(zhǎng)節(jié)點(diǎn)集合,IncrementV[1,2,…,m]為所有已提交的個(gè)查詢節(jié)點(diǎn)集合,v∈(v,IncrementV[1,2,…,m]),(v|G(t?1))和(v|G(t?1))分別為vv在(t?1)中出現(xiàn)的概率,(v,v,(t?1))為vv在(t?1)中同時(shí)出現(xiàn)在一個(gè)有序圈(一條數(shù)據(jù)記錄)中的概率。IncrementV中所有節(jié)點(diǎn)的依賴度都基于(t?1)計(jì)算得到。

    本文在進(jìn)行查詢選擇時(shí)需要懲罰那些具有較強(qiáng)依賴關(guān)系的節(jié)點(diǎn),因此,對(duì)于IncrementV中的每個(gè)節(jié)點(diǎn)賦予它一個(gè)優(yōu)先級(jí)分?jǐn)?shù)(,IncrementV[1,2,…,m]),IncrementV中的所有節(jié)點(diǎn)按照(,IncrementV[1,2,…,m])降序排列,deep Web數(shù)據(jù)增量爬蟲每次從IncrementV中選擇(,IncrementV[1,2,…,m])最大的節(jié)點(diǎn)作為查詢節(jié)點(diǎn)。(, IncrementV[1,2,…,m])的計(jì)算式為

    (,IncrementV[1,2,…,m])

    =()(1?(v,IncrementV[1,2,…,m])) (4)

    該方法從IncrementV中每次選擇具有最大值的節(jié)點(diǎn)作為查詢節(jié)點(diǎn)提交后,需要重新計(jì)算IncrementV中所有節(jié)點(diǎn)的值,以便選擇下一個(gè)節(jié)點(diǎn),這樣計(jì)算量將非常大,因此,在具體應(yīng)用中設(shè)置一個(gè)重計(jì)算節(jié)點(diǎn)值的步長(zhǎng),即提交次查詢節(jié)點(diǎn)后,再重新計(jì)算IncrementV中所有節(jié)點(diǎn)的值。該方法在適當(dāng)犧牲系統(tǒng)效率的情況下,大幅降低系統(tǒng)的計(jì)算代價(jià)。在新數(shù)據(jù)爬取過程中步長(zhǎng)的值可以動(dòng)態(tài)調(diào)整,以提高新數(shù)據(jù)爬取的效率。

    5 實(shí)驗(yàn)

    為了對(duì)本文提出的基于屬性值序列圖模型的deep Web新數(shù)據(jù)發(fā)現(xiàn)策略的性能進(jìn)行評(píng)估,主要從以下3個(gè)方面進(jìn)行實(shí)驗(yàn)測(cè)試:1)算法關(guān)鍵參數(shù)(和)分析;2)新數(shù)據(jù)發(fā)現(xiàn)策略的性能分析;3)AVM與HVMIHM算法的同步率比較。本節(jié)首先介紹實(shí)驗(yàn)所使用的數(shù)據(jù)集,然后給出各項(xiàng)實(shí)驗(yàn)以及實(shí)驗(yàn)結(jié)果分析。

    5.1 數(shù)據(jù)準(zhǔn)備

    為了評(píng)估本文提出方法的性能,本文采用專利領(lǐng)域和鞋類電子商務(wù)領(lǐng)域的5個(gè)真實(shí)deep Web數(shù)據(jù)源的歷史版本數(shù)據(jù),這些歷史版本數(shù)據(jù)來至搜鞋客(www.soxieke.com)和明智慧——生物醫(yī)藥科技信息服務(wù)平臺(tái)(www. Mingzh.com)2個(gè)數(shù)據(jù)集成系統(tǒng)。鞋類電子商務(wù)領(lǐng)域選擇的Deep Web數(shù)據(jù)源為:好樂買(www.okbuy.com)、樂淘(www.letao.com)和搜鞋客(系統(tǒng)已集成的鞋類數(shù)據(jù)約95萬余條數(shù)據(jù));專利領(lǐng)域選擇的deep Web數(shù)據(jù)源為:中國(guó)知識(shí)產(chǎn)權(quán)局專利數(shù)據(jù)源的生物醫(yī)藥類別(www.sipo.gov.cn/zljs)和明智慧(系統(tǒng)已集成的七國(guó)兩組織生物醫(yī)藥專利數(shù)據(jù)約369萬余條數(shù)據(jù))。這些數(shù)據(jù)取于系統(tǒng)2013年5月1日往后的系統(tǒng)集成數(shù)據(jù),對(duì)于專利領(lǐng)域,每間隔2個(gè)星期選擇一個(gè)時(shí)間點(diǎn),獲得連續(xù)20個(gè)歷史版本數(shù)據(jù);由于電子商務(wù)領(lǐng)域的數(shù)據(jù)變化快于專利領(lǐng)域,因此,對(duì)于鞋類電子商務(wù)領(lǐng)域,每間隔一個(gè)星期選擇一個(gè)時(shí)間點(diǎn),獲得連續(xù)20個(gè)歷史版本數(shù)據(jù)。下面將基于以上數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),以驗(yàn)證本文提出方法的有效性。

    5.2 新數(shù)據(jù)發(fā)現(xiàn)的效率評(píng)估指標(biāo)

    deep Web新數(shù)據(jù)發(fā)現(xiàn)的主要目標(biāo)為在盡可能小的代價(jià)下獲得盡可能多的新數(shù)據(jù),為了評(píng)估新數(shù)據(jù)發(fā)現(xiàn)的效率,2個(gè)因素必須被考慮:覆蓋率和爬取代價(jià)。

    新數(shù)據(jù)發(fā)現(xiàn)策略的覆蓋率為

    =(5)

    其中,N為增量爬蟲發(fā)現(xiàn)的新數(shù)據(jù)記錄數(shù),N為時(shí)間到時(shí)間1期間實(shí)際產(chǎn)生的新數(shù)據(jù)記錄數(shù)。

    新數(shù)據(jù)發(fā)現(xiàn)策略的爬取代價(jià)為

    =(6)

    其中,N為增量爬蟲發(fā)現(xiàn)的新數(shù)據(jù)記錄數(shù),N為爬蟲發(fā)現(xiàn)N個(gè)新數(shù)據(jù)記錄總共爬取的數(shù)據(jù)記錄數(shù)。

    顯然,如果給定一個(gè)值,越大,則爬蟲新數(shù)據(jù)發(fā)現(xiàn)的效率越高。

    5.3 實(shí)驗(yàn)結(jié)果

    然后實(shí)驗(yàn)分析不同值對(duì)覆蓋率的影響,如圖4所示,在相同值的情況下,值越小覆蓋率越高,其變化趨勢(shì)與值對(duì)覆蓋率的影響相似,當(dāng)值到達(dá)一個(gè)臨界值后繼續(xù)減小值,對(duì)覆蓋率的影響變的非常小,因此,對(duì)于一個(gè)數(shù)據(jù)源值也有一個(gè)臨界值。與值對(duì)代價(jià)影響一致,隨著值的增加,尤其是值大于臨界之后,值的增加會(huì)使代價(jià)顯著增加。在5個(gè)不同的數(shù)據(jù)源上的實(shí)驗(yàn)結(jié)果得到了基本一致的結(jié)論,因此,在后續(xù)的新數(shù)據(jù)發(fā)現(xiàn)算法效率比較時(shí),選擇和的臨界值作為最理想取值。

    5.3.2 新數(shù)據(jù)發(fā)現(xiàn)策略的性能分析

    1) 新數(shù)據(jù)發(fā)現(xiàn)算法的有效性分析

    首先比較本文提出的基于屬性值序列圖模型的deep Web新數(shù)據(jù)發(fā)現(xiàn)策略(AVM)與現(xiàn)有2種deep Web數(shù)據(jù)增量爬取方法HVM(model history version)[8],IHM(incremental harvest model)[10]的性能并分析其有效性。上述3種方法通過各自策略選擇下一個(gè)最可能發(fā)現(xiàn)新數(shù)據(jù)的關(guān)鍵詞,以發(fā)現(xiàn)新數(shù)據(jù),反復(fù)執(zhí)行該過程,直到滿足停止條件。該實(shí)驗(yàn)的停止條件為實(shí)驗(yàn)deep Web數(shù)據(jù)源的新數(shù)據(jù)覆蓋率達(dá)到95%,為了便于比較當(dāng)某一種爬取方法的新數(shù)據(jù)覆蓋率達(dá)到停止條件時(shí),同時(shí)已結(jié)束其他2種增量爬取方法的爬取。為了避免AVM滿足停止條件而過早停止,保證實(shí)驗(yàn)在相同的停止條件下進(jìn)行比較,在實(shí)驗(yàn)中值設(shè)置為10,閾值設(shè)置為1%,重計(jì)算節(jié)點(diǎn)值的步長(zhǎng)值設(shè)置為12。

    圖5給出了3種方法在5個(gè)實(shí)驗(yàn)數(shù)據(jù)源最近一個(gè)歷史版本上的實(shí)驗(yàn)結(jié)果。從圖5可以得出基于屬性值序列圖模型的deep Web新數(shù)據(jù)發(fā)現(xiàn)策略在5個(gè)數(shù)據(jù)源上都最先獲得95%左右的新數(shù)據(jù)。在Sipo數(shù)據(jù)源上當(dāng)其Sipo的新覆蓋率達(dá)到95%時(shí),HVM達(dá)到83%,IHM為85.5%,在其他數(shù)據(jù)源上,基于屬性值序列圖模型的deep Web新數(shù)據(jù)發(fā)現(xiàn)策略已取得了與IHM數(shù)據(jù)源類似的結(jié)果。與HVM和IHM相比AVM的具有更好有效性和效率。

    從Sipo數(shù)據(jù)源的實(shí)驗(yàn)中可以看出當(dāng)查詢提交900次左右時(shí),Sipo的覆蓋率已達(dá)到90%以上,在這個(gè)查詢次數(shù)下取得這樣的新數(shù)據(jù)覆蓋率已經(jīng)是非常理想的結(jié)果,而其他2種算法此時(shí)取得覆蓋率與AVM相差甚遠(yuǎn),甚至提交成倍的查詢次數(shù)也很難取得相同的覆蓋率。在其他數(shù)據(jù)源上,AVM算法都在較少的提交次數(shù)下獲得了90%以上的覆蓋率。因此說明本文提出的AVM算法能在較少查詢提交次數(shù)下獲得較高的覆蓋率,具有較強(qiáng)的有效性。

    2) 在多個(gè)歷史版本上驗(yàn)證新數(shù)據(jù)發(fā)現(xiàn)策略的效率

    在以下2個(gè)實(shí)驗(yàn)中根據(jù)5.3.1節(jié)的實(shí)驗(yàn)結(jié)論,設(shè)置新數(shù)據(jù)發(fā)現(xiàn)算法的值為6,值為5%,重計(jì)算節(jié)點(diǎn)值的步長(zhǎng)值為12。

    在上述5個(gè)數(shù)據(jù)源上,利用新數(shù)據(jù)發(fā)現(xiàn)效率評(píng)估指標(biāo)來評(píng)價(jià)本文提出的新數(shù)據(jù)發(fā)現(xiàn)策略的性能。該實(shí)驗(yàn)使用(t?6),(t?5),(t?4),(t?3),(t?2)和(t?1)最近連續(xù)6個(gè)歷史版本數(shù)據(jù)作為統(tǒng)計(jì)信息來爬取(t)中新產(chǎn)生的數(shù)據(jù)記錄。在時(shí)刻7、10和15這3個(gè)時(shí)間點(diǎn)上進(jìn)行實(shí)驗(yàn)得到的結(jié)果如表1所示。本文提出的新數(shù)據(jù)發(fā)現(xiàn)策略在新數(shù)據(jù)發(fā)現(xiàn)策略的覆蓋率(NR_Coverage)和新數(shù)據(jù)發(fā)現(xiàn)策略的爬取代價(jià)(NR_Cost)2個(gè)方面都取得了非常高的效率。在這5個(gè)數(shù)據(jù)源上的所有實(shí)驗(yàn)表明,本文提出新數(shù)據(jù)發(fā)現(xiàn)策略的覆蓋率NR_Coverage都超過了87%,最高為92.5%。新數(shù)據(jù)發(fā)現(xiàn)策略的爬取代價(jià)NR_Cost最高的僅為39.7%。

    表1 新數(shù)據(jù)發(fā)現(xiàn)策略的性能

    5.3.3 AVM與HVMIHM算法的同步率比較

    在相同增量爬取資源約束下,分別在5個(gè)數(shù)據(jù)源上,比較本文提出AVM與現(xiàn)有2種deep Web數(shù)據(jù)增量爬取方法HVM和IHM的數(shù)據(jù)同步率。

    定義2 本地?cái)?shù)據(jù)與遠(yuǎn)程數(shù)據(jù)的同步率。假定在時(shí)刻t,經(jīng)過增量爬取后得到的本地?cái)?shù)據(jù)為(t),而此時(shí)遠(yuǎn)程數(shù)據(jù)源中的實(shí)際數(shù)據(jù)為(t)。則本地?cái)?shù)據(jù)與遠(yuǎn)程數(shù)據(jù)的同步率(t)可定義為

    (t)(7)

    其中,|(t)為在時(shí)刻t,的數(shù)據(jù)記錄總數(shù);|(t)∩WDB(t)|為在時(shí)刻t,本地?cái)?shù)據(jù)與遠(yuǎn)程數(shù)據(jù)相同數(shù)據(jù)記錄總數(shù)。

    在實(shí)驗(yàn)中,對(duì)每個(gè)數(shù)據(jù)源設(shè)置增量更新資源為20萬條數(shù)據(jù)記錄,即在時(shí)刻t,增量爬蟲從(t)中爬取20萬條數(shù)據(jù)記錄更新(t?1),增量爬取后得到本地?cái)?shù)據(jù)為WDB(t)。然后比較本地?cái)?shù)據(jù)WDB(t)與遠(yuǎn)程數(shù)據(jù)(t)的同步率。在實(shí)驗(yàn)中,從(t)中爬取20萬條數(shù)據(jù)記錄可通過分析WDB的第個(gè)歷史版本獲得,并不需要真實(shí)的爬取過程。在9時(shí)刻獲得的實(shí)驗(yàn)結(jié)果如圖6所示。

    從圖6中可以看出,本文提出的AVM方法,在5個(gè)數(shù)據(jù)源上都取得了非常高的數(shù)據(jù)同步率,并都優(yōu)于HVM和IHM。在Sipo數(shù)據(jù)源,AVM、HVM和IHM 3種增量爬取方法的同步率比較接近,AVM略優(yōu)于IHM和HVM。但在Letao數(shù)據(jù)源的實(shí)驗(yàn)結(jié)果與在Sipo數(shù)據(jù)源上存在較大的差異,在Letao數(shù)據(jù)源,AVM和IHM明顯優(yōu)于HVM,在相同更新資源的約束下,HVM取得的數(shù)據(jù)同步率最低,僅為75.2%,AVM和IHM 分別為94.4%和82.7%。對(duì)于HVM方法,本文在這些數(shù)據(jù)源分別選擇不同的查詢接口進(jìn)行實(shí)驗(yàn)得到差異較大的實(shí)驗(yàn)結(jié)果,究其原因HVM方法與查詢接口能力密切相關(guān),不能獨(dú)立表示deep Web數(shù)據(jù)源的內(nèi)容,具有一定的不確定性。在Mingzh數(shù)據(jù)源,AVM明顯優(yōu)于HVM和IHM,但是與其他4個(gè)數(shù)據(jù)源比較,這3種方法的同步率都較低,究其原因?yàn)镸ingzh的數(shù)據(jù)量遠(yuǎn)遠(yuǎn)大于其他數(shù)據(jù)源,在相同的更新資源下,取得的同步率應(yīng)該低于其他數(shù)據(jù)源。從在Mingzh數(shù)據(jù)源上的實(shí)驗(yàn)結(jié)果中可以看出,當(dāng)數(shù)據(jù)量較大時(shí),本文方法的效率優(yōu)勢(shì)更加明顯,能較好地適應(yīng)大數(shù)據(jù)量情況下的增量更新。在其他時(shí)間點(diǎn)上的實(shí)驗(yàn)與在9時(shí)刻的實(shí)驗(yàn)結(jié)果類似,本文將不再這里贅述。綜上所述,本文提出的新數(shù)據(jù)發(fā)現(xiàn)方法都取得了非常高的同步率。

    6 結(jié)束語

    由于deep Web是自治的、獨(dú)立更新的,其數(shù)據(jù)經(jīng)常處于頻繁更新的狀態(tài)(不斷有新數(shù)據(jù)記錄產(chǎn)生),同時(shí)也有一些數(shù)據(jù)記錄消失或改變,而用戶總是希望能夠得到當(dāng)前deep Web數(shù)據(jù)源中最新的內(nèi)容。因此需要定期地爬取遠(yuǎn)程數(shù)據(jù)源的數(shù)據(jù),更新本地?cái)?shù)據(jù)拷貝,以保持本地?cái)?shù)據(jù)與遠(yuǎn)程數(shù)據(jù)同步。deep Web數(shù)據(jù)增量爬取需要處理新產(chǎn)生的、消失的和改變的3類數(shù)據(jù)記錄。本文以屬性值序列圖模型為基礎(chǔ),針對(duì)新產(chǎn)生記錄的爬取,提出了一種新數(shù)據(jù)發(fā)現(xiàn)策略,實(shí)驗(yàn)表明在相同資源約束前提下,可有效提高本地?cái)?shù)據(jù)的時(shí)新性和新數(shù)據(jù)的發(fā)現(xiàn)效率,使本地?cái)?shù)據(jù)和遠(yuǎn)程數(shù)據(jù)保持最大化同步。同時(shí)本文提出的屬性值序列圖模型僅與數(shù)據(jù)相關(guān),可適用于僅僅包含簡(jiǎn)單查詢接口的deep Web數(shù)據(jù)源,拓展了新數(shù)據(jù)發(fā)現(xiàn)的應(yīng)用范圍。

    [1] MADHAVAN J, COHEN S, DONG X L, et al . Web-scale data integration: you can afford to pay as you go[C]//The 3rd International Conference Innovative Data Systems Research. Asilomar, CA, c2007: 342-350.

    [2] MADHAVAN J, KO D, KOT L, et al. Google's deep-Web crawl[C]//The 34th International Conference on Very Large Data Bases. Auckland, New Zealand, Springer, c2008: 1241-1252.

    [3] PAVAI G, GEETHA T V. A unified architecture for surfacing the con-tents of deep Web databases[C]//International Conference on Advances in Communication. Network, and Computing, Chennai, India, c2013.

    [4] ANDREA C, DAVIDE M, RICCARDO T. Keyword search in the deep Web[C]//AMW2015 Alberto Mendelzon International Workshop on Foundations of Data Management .Lima Peru, c2015: 205-208.

    [5] EDWARDS J, MCCURLEY K, TOMLIN J. An adaptive model for optimizing performance of an incremental Web crawler[C]//The 10th Conference on World Wide Web. Hong Kong, China, c2001: 106-113.

    [6] SINGHAL N, DIXIT A, SHARMA A K. Design of a priority based frequency regulated incremental crawler[J]. International Journal of Computer Applications, 2010, 1 (1): 42-47.

    [7] JAGANATHAN P, KARTHIKEYAN T. Highly efficient architecture for scalable focused crawling using incremental parallel Web crawler[J]. Journal of Computer Science, 2015, 11 (1): 120-126.

    [8] LIU W, XIAO J G, YANG J W. Incremental structured Web database crawling via history versions[C]//The 11th International Conference on Web Information Systems Engineering. c2010: 524-533.

    [9] LIU W, XIAO J G, YANG J W. A sample-guided approach to incremental structured Web database crawling[C]//International Conference on Information and Automation ,Harbin, c2010: 890-895.

    [10] HUANG Q Y, LI Q Z, LI H, et al. An approach to incremental deep Web crawling based on incremental harvest model[J]. Procedia Engineering, 2012, (29): 1081-1087.

    [11] ZHANG Z X, DONG G Q, PENG Z H, et al. A framework for incremental deep Web crawler based on URL classification[J]. Lecture Notes in Computer Science, 2011, 6988: 302-310.

    [12] 張志瀟.面向領(lǐng)域的Deep Web的增量爬取[D].濟(jì)南:山東大學(xué),2012.

    ZHANG Z X. Domain-specific deep Web incremental crawler[D]. JiNan: Shandong University,2012.

    [13] YOGESH K, MANOJ K R, JITENDRA D. Novel approach for data source integration system update strategy in hidden Web[J]. International Journal of Engineering Universe for Scientific Research and Management.2015,2(7):1-5.

    [14] 徐國(guó)強(qiáng). 統(tǒng)計(jì)預(yù)測(cè)和決策[M]. 上海;上海財(cái)經(jīng)大學(xué)出版社.2008.

    XU G Q. Statistical forecasting and decision-making [M]. Shanghai: Shanghai University of Finance and Economics press, 2003.

    [15] WU P, WEN J R, LIU H, et al. Query selection techniques for efficient crawling of structured Web sources[C]//The 22th International Conference on Data Engineering. Atlanta, GA, USA, c2006: 47-56.

    Deep Web new data discovery strategy based on the graph model of data attribute value lists

    XIAN Xue-feng1,2,3, CUI Zhi-ming1,2, ZHAO Peng-peng2, FANG Li-gang1,3, YANG Yuan-feng1,3, GU Cai-dong1,3

    (1. Jiangsu Province Support Software Engineering R&D Center for Modern Information Technology Application in Enterprise, Suzhou 215104,China; 2. Institute of Intelligent Information Processing and Application, Soochow University, Suzhou 215006, China; 3. School of Computer Engineering, Suzhou Vocational University, Suzhou 215104, China)

    A novel deep Web data discovery strategy was proposed for new generated data record in resources. In the approach, a new graph model of deep Web data attribute value lists was used to indicate the deep Web data source, an new data crawling task was transformed into a graph traversal process. This model was only related to the data, compared with the existing query-related graph model had better adaptability and certainty, applicable to contain only a simple query interface of deep Web data sources. Based on this model, which could discovery incremental nodes and predict new data mutual information was used to compute the dependencies between nodes. When the query selects, as much as possible to reduce the negative impact brought by the query-dependent. This strategy improves the data crawling efficiency. Experimental results show that this strategy could maximize the synchronization between local and remote data under the same restriction.

    deep Web, new data discovery, data acquisition

    TP392

    A

    10.11959/j.issn.1000-436x.2016049

    2015-04-20;

    2015-10-28

    崔志明,CZM@jssvc.edu.cn

    國(guó)家自然科學(xué)基金資助項(xiàng)目(No.61440053, No.61472268, No.41201338);江蘇省自然科學(xué)基金資助項(xiàng)目(No.BK2012164);蘇州市科技計(jì)劃基金資助項(xiàng)目(No.SYG201342, No.SYG201343, No.SS201344)

    The National Natural Science Foundation of China (No.61440053, No.61472268, No.41201338), The Natural Science Foundation of Jiangsu Province (No.BK2012164), Suzhou Foundation for Development of Science and Technology (No.SYG201342, No.SYG201343, No.SS201344)

    鮮學(xué)豐(1980-),男,四川南充人,博士,蘇州市職業(yè)大學(xué)副教授,主要研究方向?yàn)閃eb數(shù)據(jù)管理、數(shù)據(jù)挖掘和智能信息處理。

    崔志明(1961-),男,上海人,蘇州大學(xué)教授、博士生導(dǎo)師,主要研究方向?yàn)橹悄苄畔⑻幚砗陀?jì)算機(jī)網(wǎng)絡(luò)。

    趙朋朋(1980-),男,江蘇南通人,博士,蘇州大學(xué)副教授,主要研究方向?yàn)閐eep Web和Web數(shù)據(jù)挖掘。

    方立剛(1980-),男,安徽黃山人,博士,蘇州市職業(yè)大學(xué)副教授,主要研究方向?yàn)橛?jì)算機(jī)網(wǎng)絡(luò)和Web GIS。

    楊元峰(1973-),男,江蘇鹽城人,蘇州市職業(yè)大學(xué)副教授,主要研究方向?yàn)橹悄苄畔⑻幚怼?/p>

    顧才東(1963-),男,寧夏吳忠人,蘇州市職業(yè)大學(xué)教授,主要研究方向?yàn)橹悄苄畔⑻幚砗臀锫?lián)網(wǎng)。

    猜你喜歡
    序列圖數(shù)據(jù)源增量
    基于 ROADS 的面向場(chǎng)景業(yè)務(wù)架構(gòu)建模方法
    提質(zhì)和增量之間的“辯證”
    基于SPSS序列法的商務(wù)談判實(shí)務(wù)課程混合教學(xué)模式實(shí)證研究
    物流科技(2021年10期)2021-05-12 08:41:06
    “價(jià)增量減”型應(yīng)用題點(diǎn)撥
    Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
    應(yīng)用ETDFA生成CBTC聯(lián)鎖軟件形式化模型的方法
    基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評(píng)價(jià)研究
    思維游戲
    喜劇世界(2016年24期)2017-01-04 05:06:56
    基于均衡增量近鄰查詢的位置隱私保護(hù)方法
    基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評(píng)價(jià)算法
    天堂av国产一区二区熟女人妻| 亚洲欧美日韩高清专用| 国产69精品久久久久777片| 中文字幕免费在线视频6| 精品人妻一区二区三区麻豆 | 91久久精品电影网| 久久久成人免费电影| 淫秽高清视频在线观看| 女人十人毛片免费观看3o分钟| 毛片女人毛片| 亚洲av电影不卡..在线观看| 午夜视频国产福利| 免费av不卡在线播放| 亚洲国产精品合色在线| 国产爱豆传媒在线观看| 91麻豆精品激情在线观看国产| 一个人免费在线观看电影| 亚洲五月婷婷丁香| 91麻豆av在线| 亚洲久久久久久中文字幕| 欧美+日韩+精品| 中文亚洲av片在线观看爽| 欧美+亚洲+日韩+国产| 97人妻精品一区二区三区麻豆| 90打野战视频偷拍视频| 欧美乱妇无乱码| 精品午夜福利视频在线观看一区| 欧美日韩瑟瑟在线播放| 久久热精品热| 88av欧美| 国产欧美日韩一区二区精品| 国产精品久久电影中文字幕| 老师上课跳d突然被开到最大视频 久久午夜综合久久蜜桃 | 国产精品国产高清国产av| 每晚都被弄得嗷嗷叫到高潮| 亚洲av免费在线观看| 欧美日韩中文字幕国产精品一区二区三区| 一边摸一边抽搐一进一小说| 男人和女人高潮做爰伦理| 国产在视频线在精品| 好看av亚洲va欧美ⅴa在| 757午夜福利合集在线观看| 动漫黄色视频在线观看| 亚洲av.av天堂| 免费看美女性在线毛片视频| 男插女下体视频免费在线播放| 成人鲁丝片一二三区免费| 亚洲av成人精品一区久久| 免费av观看视频| 激情在线观看视频在线高清| 精品国产三级普通话版| 免费大片18禁| 亚洲人成电影免费在线| 怎么达到女性高潮| 亚洲成人免费电影在线观看| 在线观看av片永久免费下载| 国产精品自产拍在线观看55亚洲| 欧美xxxx性猛交bbbb| 欧洲精品卡2卡3卡4卡5卡区| 免费av不卡在线播放| 亚洲成人精品中文字幕电影| 我要看日韩黄色一级片| 亚洲一区高清亚洲精品| 又黄又爽又刺激的免费视频.| 99久久99久久久精品蜜桃| 久久久久亚洲av毛片大全| 免费电影在线观看免费观看| 一个人观看的视频www高清免费观看| 久久99热6这里只有精品| 99精品在免费线老司机午夜| 亚洲第一区二区三区不卡| 88av欧美| 亚洲成av人片免费观看| 午夜久久久久精精品| 在线观看免费视频日本深夜| 久久精品国产清高在天天线| www.www免费av| 国产精品伦人一区二区| av在线老鸭窝| 在线天堂最新版资源| 91字幕亚洲| 国产91精品成人一区二区三区| 91在线精品国自产拍蜜月| 十八禁人妻一区二区| 乱码一卡2卡4卡精品| 在线十欧美十亚洲十日本专区| 亚洲 国产 在线| 亚洲激情在线av| 搡老妇女老女人老熟妇| 欧美3d第一页| .国产精品久久| 搡老岳熟女国产| 欧美日韩中文字幕国产精品一区二区三区| 桃色一区二区三区在线观看| 老司机深夜福利视频在线观看| 国产乱人视频| 日韩欧美免费精品| 成人鲁丝片一二三区免费| 赤兔流量卡办理| 亚洲精品在线观看二区| 久久精品综合一区二区三区| 91在线精品国自产拍蜜月| 免费黄网站久久成人精品 | 欧美色欧美亚洲另类二区| 在线观看舔阴道视频| 国产精品1区2区在线观看.| 精品久久久久久,| 久久99热这里只有精品18| 18美女黄网站色大片免费观看| 校园春色视频在线观看| 久久久久免费精品人妻一区二区| 男人舔奶头视频| 长腿黑丝高跟| 美女cb高潮喷水在线观看| 国产综合懂色| 久久精品91蜜桃| 久久人人精品亚洲av| 免费看美女性在线毛片视频| 色综合欧美亚洲国产小说| 少妇的逼水好多| 日本五十路高清| 国产一区二区亚洲精品在线观看| 麻豆成人午夜福利视频| 9191精品国产免费久久| 久久久久久九九精品二区国产| 88av欧美| 一级av片app| 国产午夜精品论理片| 亚洲精品亚洲一区二区| 女人十人毛片免费观看3o分钟| 又爽又黄无遮挡网站| 波多野结衣巨乳人妻| 无遮挡黄片免费观看| 中文字幕熟女人妻在线| 又爽又黄无遮挡网站| 国产精品1区2区在线观看.| avwww免费| 18禁在线播放成人免费| 别揉我奶头 嗯啊视频| 国产毛片a区久久久久| av天堂在线播放| 亚洲av第一区精品v没综合| 桃色一区二区三区在线观看| 又黄又爽又免费观看的视频| 有码 亚洲区| 成人性生交大片免费视频hd| 中文字幕高清在线视频| av在线观看视频网站免费| 国产精品自产拍在线观看55亚洲| 成年女人毛片免费观看观看9| 国产乱人伦免费视频| 中文字幕人成人乱码亚洲影| 亚洲精品影视一区二区三区av| 夜夜躁狠狠躁天天躁| 国产午夜福利久久久久久| 欧美黄色片欧美黄色片| 国产精品伦人一区二区| 白带黄色成豆腐渣| 久久精品国产亚洲av香蕉五月| 精品免费久久久久久久清纯| 免费看日本二区| 99精品在免费线老司机午夜| 国产av在哪里看| 国产一区二区激情短视频| 18美女黄网站色大片免费观看| 观看免费一级毛片| a级一级毛片免费在线观看| 色综合婷婷激情| 精品久久久久久久人妻蜜臀av| 好看av亚洲va欧美ⅴa在| 又紧又爽又黄一区二区| 国产精品国产高清国产av| 真实男女啪啪啪动态图| 在现免费观看毛片| 很黄的视频免费| 亚洲av成人精品一区久久| 国产午夜精品论理片| 一个人看的www免费观看视频| 国产免费一级a男人的天堂| 欧美又色又爽又黄视频| 一级a爱片免费观看的视频| 十八禁网站免费在线| 深爱激情五月婷婷| 久久这里只有精品中国| av天堂在线播放| 在线观看66精品国产| 午夜久久久久精精品| 中国美女看黄片| 一个人免费在线观看的高清视频| 真实男女啪啪啪动态图| 日日干狠狠操夜夜爽| 在线观看66精品国产| 真人做人爱边吃奶动态| 直男gayav资源| 亚洲精品乱码久久久v下载方式| 国产 一区 欧美 日韩| 成人欧美大片| 亚洲在线自拍视频| 黄色一级大片看看| 精品一区二区三区视频在线观看免费| 国产老妇女一区| 日韩精品中文字幕看吧| 中文字幕av成人在线电影| 久久精品久久久久久噜噜老黄 | 国产乱人视频| 国产蜜桃级精品一区二区三区| 亚洲aⅴ乱码一区二区在线播放| 亚洲国产精品久久男人天堂| 又紧又爽又黄一区二区| 国产精品爽爽va在线观看网站| 一级黄片播放器| 欧美最黄视频在线播放免费| www日本黄色视频网| 搡老妇女老女人老熟妇| 亚洲在线自拍视频| 精品人妻1区二区| 最新在线观看一区二区三区| 又黄又爽又免费观看的视频| www.色视频.com| 久久久色成人| 久久久久久久久中文| 日韩人妻高清精品专区| 制服丝袜大香蕉在线| 亚洲美女搞黄在线观看 | 国产淫片久久久久久久久 | 成人精品一区二区免费| 国产91精品成人一区二区三区| 给我免费播放毛片高清在线观看| 欧美3d第一页| 又粗又爽又猛毛片免费看| 免费看美女性在线毛片视频| 天堂影院成人在线观看| 午夜免费成人在线视频| 亚洲av第一区精品v没综合| 免费黄网站久久成人精品 | 国产成人aa在线观看| 91九色精品人成在线观看| 少妇人妻一区二区三区视频| 啪啪无遮挡十八禁网站| 中文字幕av在线有码专区| 国产三级在线视频| 国产精品久久久久久人妻精品电影| 中文字幕久久专区| 无遮挡黄片免费观看| a级毛片免费高清观看在线播放| 久久精品国产亚洲av天美| 国产亚洲精品久久久久久毛片| 欧美黑人欧美精品刺激| 在线免费观看不下载黄p国产 | 99riav亚洲国产免费| 国产亚洲精品久久久com| 精品久久久久久成人av| 亚洲成人久久爱视频| 国产在视频线在精品| 国产免费男女视频| 久久国产乱子伦精品免费另类| 亚洲内射少妇av| 日韩欧美精品免费久久 | 亚洲专区国产一区二区| 亚洲成人精品中文字幕电影| 国产三级黄色录像| 亚洲最大成人手机在线| 日本三级黄在线观看| 国产伦一二天堂av在线观看| 成人毛片a级毛片在线播放| 3wmmmm亚洲av在线观看| 性色avwww在线观看| 搞女人的毛片| 精品午夜福利在线看| 极品教师在线视频| 国产精品一区二区性色av| 久久精品影院6| 久久伊人香网站| 国产一级毛片七仙女欲春2| 舔av片在线| 直男gayav资源| 国产爱豆传媒在线观看| 精品久久久久久久末码| 欧美日韩国产亚洲二区| 有码 亚洲区| 91麻豆av在线| 每晚都被弄得嗷嗷叫到高潮| 亚洲av免费高清在线观看| 亚洲国产日韩欧美精品在线观看| 久久精品国产清高在天天线| 久久久久性生活片| 小说图片视频综合网站| 精品久久久久久久末码| 韩国av一区二区三区四区| 免费电影在线观看免费观看| 老司机午夜福利在线观看视频| 变态另类成人亚洲欧美熟女| 99国产综合亚洲精品| 国内久久婷婷六月综合欲色啪| 亚洲自拍偷在线| 亚洲精品久久国产高清桃花| 在线观看舔阴道视频| 久久这里只有精品中国| 亚洲av不卡在线观看| 国产精品一区二区性色av| 一区二区三区免费毛片| 国产精品亚洲美女久久久| 国产私拍福利视频在线观看| 麻豆av噜噜一区二区三区| 三级男女做爰猛烈吃奶摸视频| 一个人免费在线观看电影| 又黄又爽又刺激的免费视频.| 少妇人妻一区二区三区视频| 国产淫片久久久久久久久 | 国内精品美女久久久久久| 欧美成人a在线观看| 成人一区二区视频在线观看| 日韩成人在线观看一区二区三区| 国产69精品久久久久777片| h日本视频在线播放| 日本免费a在线| 十八禁国产超污无遮挡网站| 99国产极品粉嫩在线观看| 桃红色精品国产亚洲av| 黄色配什么色好看| 亚洲精品粉嫩美女一区| 欧美日韩亚洲国产一区二区在线观看| 一个人看的www免费观看视频| 搡老妇女老女人老熟妇| 看黄色毛片网站| 天堂动漫精品| 欧美国产日韩亚洲一区| 亚洲成人中文字幕在线播放| 日韩亚洲欧美综合| 赤兔流量卡办理| 精品久久久久久久久av| 一级av片app| 网址你懂的国产日韩在线| 国产精品女同一区二区软件 | 色综合婷婷激情| 国产伦精品一区二区三区视频9| 久9热在线精品视频| 在线观看66精品国产| 嫩草影院精品99| 麻豆一二三区av精品| 国产蜜桃级精品一区二区三区| 欧美黄色淫秽网站| 欧美又色又爽又黄视频| 最近在线观看免费完整版| 一区二区三区激情视频| 日韩欧美免费精品| 淫妇啪啪啪对白视频| 丰满人妻一区二区三区视频av| 又爽又黄无遮挡网站| 在线观看66精品国产| av视频在线观看入口| 美女被艹到高潮喷水动态| 国产高清视频在线观看网站| 美女 人体艺术 gogo| 国产亚洲精品久久久久久毛片| 国产精品久久视频播放| 欧美激情久久久久久爽电影| 亚洲av美国av| 美女被艹到高潮喷水动态| 欧美午夜高清在线| 久久人妻av系列| 久久久久久久久大av| 国产久久久一区二区三区| 亚洲人成网站在线播放欧美日韩| 午夜免费激情av| 欧美日韩国产亚洲二区| 观看美女的网站| 男女那种视频在线观看| www.999成人在线观看| 人妻久久中文字幕网| 精品久久久久久,| 精品人妻熟女av久视频| 欧美最新免费一区二区三区 | 国内久久婷婷六月综合欲色啪| 中文字幕av成人在线电影| 熟女人妻精品中文字幕| 亚洲国产高清在线一区二区三| 欧美成人一区二区免费高清观看| 一个人看视频在线观看www免费| 色哟哟·www| 九色国产91popny在线| 欧美日本亚洲视频在线播放| 国产精品亚洲av一区麻豆| 国产精品亚洲一级av第二区| 日韩欧美精品免费久久 | 久久天躁狠狠躁夜夜2o2o| 久久久久久久久中文| 久久久久久久久久黄片| 国产大屁股一区二区在线视频| 日韩成人在线观看一区二区三区| 精品日产1卡2卡| 神马国产精品三级电影在线观看| 一本久久中文字幕| 精品一区二区三区视频在线观看免费| 性色avwww在线观看| 全区人妻精品视频| 男女视频在线观看网站免费| 日韩欧美在线乱码| 嫩草影院新地址| 免费观看精品视频网站| 有码 亚洲区| 九色国产91popny在线| 美女高潮喷水抽搐中文字幕| 国产视频内射| 91午夜精品亚洲一区二区三区 | 无人区码免费观看不卡| 91字幕亚洲| 亚洲av免费高清在线观看| 悠悠久久av| 99久久无色码亚洲精品果冻| 国产精品不卡视频一区二区 | 国产精品不卡视频一区二区 | 99热这里只有精品一区| 久久国产乱子免费精品| 久久伊人香网站| 美女免费视频网站| 国产精品永久免费网站| 一a级毛片在线观看| 国内久久婷婷六月综合欲色啪| 97人妻精品一区二区三区麻豆| 亚洲av电影不卡..在线观看| 搡老岳熟女国产| 欧美高清性xxxxhd video| 亚洲国产精品999在线| 99久国产av精品| 日本与韩国留学比较| 国产单亲对白刺激| 亚洲欧美日韩无卡精品| 三级毛片av免费| 午夜福利18| aaaaa片日本免费| 丁香欧美五月| 99热这里只有是精品在线观看 | 少妇人妻精品综合一区二区 | 亚洲在线自拍视频| 欧美一区二区国产精品久久精品| 可以在线观看毛片的网站| 午夜福利免费观看在线| 欧美潮喷喷水| av在线天堂中文字幕| 中文字幕人成人乱码亚洲影| 精品无人区乱码1区二区| 91久久精品电影网| 中文字幕精品亚洲无线码一区| av在线蜜桃| 日韩欧美精品免费久久 | 97热精品久久久久久| 精品国产亚洲在线| 亚洲最大成人手机在线| 日本成人三级电影网站| 国产精品久久视频播放| 日韩欧美在线乱码| 欧美在线一区亚洲| 757午夜福利合集在线观看| 欧美xxxx黑人xx丫x性爽| 国产精品国产高清国产av| 中国美女看黄片| 亚洲人成网站在线播放欧美日韩| 18美女黄网站色大片免费观看| 亚洲第一区二区三区不卡| 桃红色精品国产亚洲av| 日本免费一区二区三区高清不卡| 欧美乱妇无乱码| 动漫黄色视频在线观看| 国产淫片久久久久久久久 | 亚洲综合色惰| 脱女人内裤的视频| 免费高清视频大片| 日日摸夜夜添夜夜添av毛片 | 午夜亚洲福利在线播放| 麻豆一二三区av精品| 99在线人妻在线中文字幕| 国产熟女xx| 深爱激情五月婷婷| 又紧又爽又黄一区二区| 嫁个100分男人电影在线观看| 亚洲成人久久性| 国产欧美日韩一区二区精品| 亚洲经典国产精华液单 | 在线天堂最新版资源| 午夜精品久久久久久毛片777| 身体一侧抽搐| 午夜精品在线福利| 色在线成人网| 久久久国产成人精品二区| 少妇丰满av| 亚洲美女搞黄在线观看 | 人妻制服诱惑在线中文字幕| 听说在线观看完整版免费高清| 久久久久免费精品人妻一区二区| 深夜精品福利| 午夜福利成人在线免费观看| 在线观看66精品国产| 亚洲七黄色美女视频| 99久久99久久久精品蜜桃| 久久久精品欧美日韩精品| 婷婷亚洲欧美| 性色avwww在线观看| 老熟妇仑乱视频hdxx| 无人区码免费观看不卡| 色在线成人网| 亚洲avbb在线观看| 成人三级黄色视频| 99热这里只有是精品50| 亚州av有码| 搡老熟女国产l中国老女人| 观看美女的网站| 九九在线视频观看精品| 亚洲五月婷婷丁香| 99久久九九国产精品国产免费| 精品欧美国产一区二区三| 成人av一区二区三区在线看| 欧美3d第一页| 最新中文字幕久久久久| 国内精品久久久久精免费| 亚洲精品粉嫩美女一区| 赤兔流量卡办理| 99久久无色码亚洲精品果冻| 欧美日韩综合久久久久久 | 国产日本99.免费观看| 亚洲美女视频黄频| 99热精品在线国产| 久久久久久久精品吃奶| 欧美一区二区精品小视频在线| 国产真实乱freesex| 无遮挡黄片免费观看| 成熟少妇高潮喷水视频| 国内揄拍国产精品人妻在线| 国产在视频线在精品| 男女床上黄色一级片免费看| 国产成+人综合+亚洲专区| 欧美zozozo另类| 国产一级毛片七仙女欲春2| 无人区码免费观看不卡| av中文乱码字幕在线| 久久草成人影院| 亚洲欧美日韩无卡精品| 99热这里只有是精品50| 色哟哟·www| 白带黄色成豆腐渣| 亚洲欧美清纯卡通| 村上凉子中文字幕在线| 色综合欧美亚洲国产小说| 亚洲熟妇熟女久久| 91在线观看av| a在线观看视频网站| 亚洲电影在线观看av| 国产精品亚洲av一区麻豆| 少妇丰满av| 国产精品电影一区二区三区| 美女xxoo啪啪120秒动态图 | 欧美性猛交╳xxx乱大交人| 欧美乱色亚洲激情| 我要搜黄色片| 动漫黄色视频在线观看| 毛片女人毛片| 老熟妇仑乱视频hdxx| 一卡2卡三卡四卡精品乱码亚洲| 久久精品国产清高在天天线| 人人妻人人看人人澡| 日本与韩国留学比较| 在线播放国产精品三级| 欧美bdsm另类| 麻豆一二三区av精品| 观看美女的网站| 麻豆久久精品国产亚洲av| 欧美成狂野欧美在线观看| 婷婷色综合大香蕉| 首页视频小说图片口味搜索| 美女高潮喷水抽搐中文字幕| 真人做人爱边吃奶动态| 两个人视频免费观看高清| 国产高清视频在线播放一区| 又爽又黄无遮挡网站| 国产精品一区二区三区四区久久| 午夜免费男女啪啪视频观看 | 国产高清视频在线播放一区| 国产日本99.免费观看| 美女高潮喷水抽搐中文字幕| 757午夜福利合集在线观看| 亚洲成人久久爱视频| 丰满的人妻完整版| 久久久久久久久中文| 男插女下体视频免费在线播放| 亚洲精品日韩av片在线观看| 啦啦啦韩国在线观看视频| 欧美黑人巨大hd| 精品人妻1区二区| 国产成人a区在线观看| 99国产精品一区二区蜜桃av| 国产精品综合久久久久久久免费| 欧美国产日韩亚洲一区| 一级毛片久久久久久久久女| 两个人的视频大全免费| 日韩欧美在线二视频| 美女xxoo啪啪120秒动态图 | 在线看三级毛片| 天堂动漫精品| 国产精品1区2区在线观看.| 桃色一区二区三区在线观看| 国产欧美日韩精品亚洲av| 国产精品1区2区在线观看.| 欧美丝袜亚洲另类 | 给我免费播放毛片高清在线观看| 3wmmmm亚洲av在线观看| 久久久久久久久中文| 国产亚洲av嫩草精品影院| 亚洲精品成人久久久久久| 可以在线观看毛片的网站| 嫩草影院精品99| 我的老师免费观看完整版| 久久99热6这里只有精品| 哪里可以看免费的av片| 免费av观看视频| 麻豆国产av国片精品|