• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于視覺(jué)信息和標(biāo)簽路徑的數(shù)據(jù)抽取*

    2015-03-20 00:49:37鄒曉明談鳳真
    關(guān)鍵詞:數(shù)據(jù)項(xiàng)網(wǎng)頁(yè)頁(yè)面

    張 巍, 鄒曉明, 談鳳真

    (中國(guó)海洋大學(xué)信息科學(xué)與工程學(xué)院,山東 青島 266100)

    ?

    基于視覺(jué)信息和標(biāo)簽路徑的數(shù)據(jù)抽取*

    張 巍, 鄒曉明, 談鳳真

    (中國(guó)海洋大學(xué)信息科學(xué)與工程學(xué)院,山東 青島 266100)

    結(jié)合網(wǎng)頁(yè)的視覺(jué)信息和DOM樹(shù)結(jié)構(gòu),研究從Deep Web查詢(xún)結(jié)果頁(yè)面中抽取半結(jié)構(gòu)化數(shù)據(jù)的問(wèn)題。通過(guò)視覺(jué)塊與整個(gè)網(wǎng)頁(yè)的面積比定位數(shù)據(jù)區(qū)域。根據(jù)數(shù)據(jù)記錄兩兩相鄰等視覺(jué)特征找到包含數(shù)據(jù)記錄的一組節(jié)點(diǎn),并通過(guò)比較各節(jié)點(diǎn)的DOM樹(shù)結(jié)構(gòu)的相似度去除噪音節(jié)點(diǎn)。根據(jù)xpath屬性將各條數(shù)據(jù)記錄的數(shù)據(jù)項(xiàng)對(duì)齊。對(duì)整個(gè)抽取過(guò)程生成模板,可以使抽取效率得到很大提高。對(duì)8個(gè)Deep Web網(wǎng)站進(jìn)行了抽取數(shù)據(jù)實(shí)驗(yàn),結(jié)果表明本文方法是有效的。

    Deep Web; 數(shù)據(jù)抽??; 視覺(jué)信息; 標(biāo)簽路徑

    隨著互聯(lián)網(wǎng)的飛速發(fā)展,其中蘊(yùn)含了海量的信息可供利用。與Surface Web 相比, Deep Web 蘊(yùn)含的信息量是它的400~500 倍,并且其信息質(zhì)量和增長(zhǎng)速度要遠(yuǎn)遠(yuǎn)高于Surface Web。Deep Web覆蓋了現(xiàn)實(shí)世界中的各個(gè)領(lǐng)域,比如商業(yè)、教育、政府等,并且95%的信息可以公開(kāi)訪問(wèn),因此如何有效獲取Deep Web信息并加以利用備受人們關(guān)注[1]。

    Deep Web網(wǎng)頁(yè)的數(shù)據(jù)抽取一般有3種方法。手工方法:由編程人員通過(guò)觀察網(wǎng)頁(yè)的HTML源碼找出能夠定位目標(biāo)數(shù)據(jù)的一些模式,并根據(jù)這些模式抽取數(shù)據(jù),這種方法能夠準(zhǔn)確地抽取數(shù)據(jù),但是需要花費(fèi)大量的人力,并且抽取數(shù)據(jù)所用的模式不能適應(yīng)網(wǎng)頁(yè)的變化,所以不適合用于網(wǎng)頁(yè)的自動(dòng)抽取。半自動(dòng)方法:首先人工標(biāo)注一些網(wǎng)頁(yè),并利用機(jī)器學(xué)習(xí)的算法學(xué)習(xí)到一組抽取數(shù)據(jù)的規(guī)則,然后利用這些規(guī)則從具有類(lèi)似格式的網(wǎng)頁(yè)中抽取數(shù)據(jù),文獻(xiàn)[2-3]分別基于決策樹(shù)、SVM和CRF對(duì)數(shù)據(jù)的自動(dòng)抽取進(jìn)行了研究,這類(lèi)方法在一定程度上可以適應(yīng)網(wǎng)頁(yè)的變化,但是要得到一個(gè)好的模型,通常需要大量的人工標(biāo)注。全自動(dòng)方法:根據(jù)Deep Web頁(yè)面的特點(diǎn)自動(dòng)從網(wǎng)頁(yè)中尋找數(shù)據(jù)記錄,并將數(shù)據(jù)項(xiàng)對(duì)齊輸出。這種方法不需要手工參與,適合大量站點(diǎn)的自動(dòng)抽取。RoadRunner[4]通過(guò)比較多個(gè)樣本頁(yè)面的HTML結(jié)構(gòu)來(lái)推測(cè)共同模式。但隨著樣本數(shù)量的增加,效率會(huì)急劇下降。IEPAD[5]首先把頁(yè)面解析成HTML標(biāo)簽串,然后提出一種通過(guò)PAT樹(shù)進(jìn)行字符串匹配的方法識(shí)別數(shù)據(jù)記錄并抽取數(shù)據(jù)項(xiàng)。MDR[6]實(shí)現(xiàn)了數(shù)據(jù)記錄的抽取,通過(guò)挖掘多個(gè)相似的廣義節(jié)點(diǎn)來(lái)識(shí)別數(shù)據(jù)區(qū)域,其中每一個(gè)廣義節(jié)點(diǎn)對(duì)應(yīng)一條數(shù)據(jù)記錄。DEPTA[7]在MDR的基礎(chǔ)上,通過(guò)簡(jiǎn)單樹(shù)匹配算法對(duì)齊DOM子樹(shù)實(shí)現(xiàn)了數(shù)據(jù)項(xiàng)的對(duì)齊和抽取。但這2種方法都需要遍歷大量的節(jié)點(diǎn),效率較低,而且也沒(méi)有實(shí)現(xiàn)模板,從而使每一個(gè)頁(yè)面都需要重復(fù)執(zhí)行復(fù)雜的抽取過(guò)程。VIPS[8]通過(guò)比較網(wǎng)頁(yè)元素的字體、顏色、是否超鏈接等視覺(jué)特征將頁(yè)面劃分成不同的視覺(jué)塊。ViDE[9]基于VIPS提出一種基于視覺(jué)信息的數(shù)據(jù)抽取方法,該方法在一定程度上克服了現(xiàn)有方法對(duì)HTML源文件的依賴(lài),但是每次抽取數(shù)據(jù)都需要先計(jì)算頁(yè)面的視覺(jué)信息,這需要花費(fèi)大量的時(shí)間。

    本文結(jié)合網(wǎng)頁(yè)的視覺(jué)信息和DOM樹(shù)結(jié)構(gòu),提出一種從Deep Web查詢(xún)結(jié)果頁(yè)面中抽取半結(jié)構(gòu)化數(shù)據(jù)的自動(dòng)化方法。首先根據(jù)網(wǎng)頁(yè)的視覺(jué)特征來(lái)定位數(shù)據(jù)區(qū)域和數(shù)據(jù)記錄,然后利用數(shù)據(jù)記錄DOM樹(shù)結(jié)構(gòu)的相似性去除噪音節(jié)點(diǎn),再通過(guò)xpath屬性來(lái)對(duì)齊數(shù)據(jù)項(xiàng)。最后生成抽取數(shù)據(jù)模板,從而可以對(duì)Deep Web頁(yè)面進(jìn)行高效、準(zhǔn)確地?cái)?shù)據(jù)抽取。

    1 概述

    Deep Web網(wǎng)站最顯著的特征是用戶向服務(wù)器提交關(guān)鍵字查詢(xún),服務(wù)器查詢(xún)Web數(shù)據(jù)庫(kù),并將結(jié)果加上格式控制后以網(wǎng)頁(yè)的形式返回,瀏覽器通過(guò)渲染網(wǎng)頁(yè)把結(jié)果表現(xiàn)出來(lái)。其中Web數(shù)據(jù)庫(kù)存放的是結(jié)構(gòu)化數(shù)據(jù),但是返回結(jié)果是網(wǎng)頁(yè)形式的半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)有一定的結(jié)構(gòu),但是不同記錄的相應(yīng)字段沒(méi)有明確的對(duì)應(yīng)關(guān)系,各記錄的字段數(shù)目也不一樣,所以它們無(wú)法直接被利用,需要將其結(jié)構(gòu)化,并用圖5所示的存儲(chǔ)結(jié)構(gòu)保存為結(jié)構(gòu)化數(shù)據(jù)。網(wǎng)頁(yè)中顯示查詢(xún)結(jié)果的部分稱(chēng)為數(shù)據(jù)區(qū)域,通常由標(biāo)題、查詢(xún)結(jié)果列表、導(dǎo)航信息等組成。其中查詢(xún)結(jié)果列表稱(chēng)為數(shù)據(jù)記錄,也就是所要抽取的半結(jié)構(gòu)化數(shù)據(jù),其它的是數(shù)據(jù)區(qū)域中的噪音。數(shù)據(jù)記錄的抽取,通??梢酝ㄟ^(guò)以下三步來(lái)完成:

    首先,定位數(shù)據(jù)區(qū)域。由于查詢(xún)結(jié)果頁(yè)面最主要的目的是突出查詢(xún)結(jié)果以方便用戶查看,所以其數(shù)據(jù)區(qū)域一般會(huì)放在頁(yè)面的明顯位置,并且占據(jù)網(wǎng)頁(yè)的大部分區(qū)域。根據(jù)Deep Web頁(yè)面的這個(gè)特點(diǎn),可以通過(guò)查找與整個(gè)網(wǎng)頁(yè)的面積比大于某一個(gè)閾值的區(qū)域來(lái)定位到數(shù)據(jù)區(qū)域,如果這樣的區(qū)域有多個(gè),則選擇面積最小的[6]。

    第二,定位數(shù)據(jù)記錄。數(shù)據(jù)記錄是數(shù)據(jù)區(qū)域中的列表部分,這些數(shù)據(jù)記錄有相似的格式控制,即具有相似的標(biāo)簽名和樣式。將每一條數(shù)據(jù)記錄看作一棵DOM子樹(shù),那么這些子樹(shù)除了葉子節(jié)點(diǎn)(數(shù)據(jù)項(xiàng))的值不同,其DOM樹(shù)結(jié)構(gòu)十分相似。所以遍歷數(shù)據(jù)區(qū)域得到它所有的孩子節(jié)點(diǎn),并按標(biāo)簽名分類(lèi),則數(shù)據(jù)記錄節(jié)點(diǎn)會(huì)在同一個(gè)類(lèi)別中。從數(shù)據(jù)記錄的視覺(jué)信息來(lái)看,無(wú)論他們?cè)趺磁帕?,其位置總是相鄰的。所以再將按?biāo)簽名得到的分類(lèi)按是否相鄰分類(lèi),得到的互相相鄰并且面積之和大于數(shù)據(jù)區(qū)域面積的1/2以上的一組節(jié)點(diǎn)就會(huì)包含數(shù)據(jù)記錄,但是這組節(jié)點(diǎn)里還可能包含噪音。由于數(shù)據(jù)記錄節(jié)點(diǎn)之間的DOM樹(shù)結(jié)構(gòu)十分相似,而與噪音節(jié)點(diǎn)相差較大,所以通過(guò)比較他們的DOM樹(shù)的相似度,可以把噪音節(jié)點(diǎn)去除掉。

    第三,對(duì)齊數(shù)據(jù)項(xiàng)。數(shù)據(jù)記錄由語(yǔ)義各不相同的項(xiàng)組成,每一個(gè)具有單獨(dú)語(yǔ)義的項(xiàng)稱(chēng)為數(shù)據(jù)項(xiàng)。例如當(dāng)當(dāng)網(wǎng)中關(guān)于一本書(shū)的數(shù)據(jù)記錄是“C++程序設(shè)計(jì) 2010年 清華大學(xué)出版社 價(jià)格:¥20 折扣:9折 ...”。這樣一條記錄顯然無(wú)法在實(shí)際中直接使用。需要進(jìn)一步把數(shù)據(jù)記錄分成不同的語(yǔ)義單位,例如“C++程序設(shè)計(jì)”、“ 清華大學(xué)出版社”、“價(jià)格:¥20”,并且將不同數(shù)據(jù)記錄的相同語(yǔ)義的數(shù)據(jù)項(xiàng)對(duì)齊。

    另外,由于同一個(gè)Deep Web網(wǎng)站的查詢(xún)結(jié)果頁(yè)面的結(jié)構(gòu)十分相似,因此可以將首次抽取的網(wǎng)頁(yè)的一些參數(shù)保留下來(lái)作為模板,在其它類(lèi)似頁(yè)面的抽取中直接用來(lái)定位和對(duì)齊數(shù)據(jù),這樣就不需要每一頁(yè)都重復(fù)復(fù)雜的抽取過(guò)程,可以大幅提高抽取效率。

    2 定位數(shù)據(jù)區(qū)域

    對(duì)于Deep Web的查詢(xún)結(jié)果頁(yè)面,按照功能一般可以分為以下幾部分:查詢(xún)區(qū)域、查詢(xún)結(jié)果的分類(lèi)、查詢(xún)結(jié)果列表以及廣告等。查詢(xún)區(qū)域包括搜索文本框、高級(jí)搜索、以及熱門(mén)搜索關(guān)鍵詞等,一般位于網(wǎng)頁(yè)的頂部;查詢(xún)結(jié)果的分類(lèi)是指將查詢(xún)結(jié)果按照地區(qū)或價(jià)格等屬性進(jìn)行分類(lèi),點(diǎn)擊分類(lèi)中可以得到更具體的查詢(xún)結(jié)果。例如當(dāng)查詢(xún)一個(gè)城市的餐飲時(shí),可以把查詢(xún)結(jié)果再按價(jià)格或中西餐分類(lèi),當(dāng)點(diǎn)擊分類(lèi)時(shí),可以得到更精確的查詢(xún)結(jié)果。查詢(xún)結(jié)果列表是整個(gè)頁(yè)面中最主要的部分,也就是我們要找的數(shù)據(jù)區(qū)域。

    數(shù)據(jù)區(qū)域具有明顯的視覺(jué)特征。為了突出查詢(xún)結(jié)果,數(shù)據(jù)區(qū)域一般是頁(yè)面中面積最大的部分,并且它不會(huì)只位于網(wǎng)頁(yè)中線的一側(cè)。本文通過(guò)如下方法找到包含數(shù)據(jù)區(qū)域的節(jié)點(diǎn):遍歷DOM樹(shù),找到滿足下面條件的節(jié)點(diǎn):

    Area(node)/Area(body)>Tregion

    如果這樣的節(jié)點(diǎn)有多個(gè),將面積比最小的作為數(shù)據(jù)區(qū)域的節(jié)點(diǎn)。采集50個(gè)Deep Web查詢(xún)結(jié)果頁(yè)面作為樣本,并訓(xùn)練得到通過(guò)視覺(jué)信息定位數(shù)據(jù)區(qū)域的決策樹(shù),當(dāng)Tregion為0.4時(shí),可以準(zhǔn)確地定位到數(shù)據(jù)區(qū)域。

    3 定位數(shù)據(jù)記錄

    數(shù)據(jù)區(qū)域通常包括標(biāo)題、查詢(xún)結(jié)果列表、導(dǎo)航信息等,其中的查詢(xún)結(jié)果列表就是要抽取的數(shù)據(jù)記錄,定位數(shù)據(jù)記錄需要從數(shù)據(jù)區(qū)域中找到數(shù)據(jù)記錄的節(jié)點(diǎn)。通常分為兩步:

    (1)將數(shù)據(jù)區(qū)域的所有孩子節(jié)點(diǎn)中標(biāo)簽名相同的分為一類(lèi)。由于數(shù)據(jù)記錄是由Web數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化數(shù)據(jù)加上統(tǒng)一的格式控制產(chǎn)生,所以他們的DOM樹(shù)除了葉子節(jié)點(diǎn)(數(shù)據(jù)記錄的具體描述)外,其結(jié)構(gòu)十分相似,并且其根節(jié)點(diǎn)具有相同的標(biāo)簽名。在數(shù)據(jù)區(qū)域的DOM樹(shù)中,數(shù)據(jù)記錄節(jié)點(diǎn)的位置不盡相同,可能在同一個(gè)父節(jié)點(diǎn)下,也可能有不同的父節(jié)點(diǎn)(見(jiàn)圖1)。但如果將數(shù)據(jù)區(qū)域的孩子節(jié)點(diǎn)按標(biāo)簽名分類(lèi),那么所有數(shù)據(jù)記錄節(jié)點(diǎn)會(huì)分在同一類(lèi)別中;

    圖1 數(shù)據(jù)記錄節(jié)點(diǎn)在DOM樹(shù)中的位置Fig.1 Position of data record nodes in the DOM tree

    (2)通過(guò)分析數(shù)據(jù)記錄的視覺(jué)特征,從第一步的分類(lèi)結(jié)果中找到包含數(shù)據(jù)記錄的類(lèi)別。這些視覺(jué)特征有:

    ①數(shù)據(jù)記錄是相鄰的,常見(jiàn)的數(shù)據(jù)記錄的排列方式有兩種:垂直分布和均勻分布,也會(huì)有其他的不規(guī)則的排列,如圖2所示。雖然數(shù)據(jù)記錄在網(wǎng)頁(yè)中的分布排列越來(lái)越豐富,但是這些排列方式共有的特點(diǎn)是每一條數(shù)據(jù)記錄都至少可以找到另外一條數(shù)據(jù)記錄與其相鄰。所以把對(duì)按標(biāo)簽名得到分類(lèi)再按是否相鄰分類(lèi),則數(shù)據(jù)記錄節(jié)點(diǎn)位于標(biāo)簽名相同并且互相相鄰的類(lèi)別中;

    圖2 數(shù)據(jù)記錄的分布

    ②數(shù)據(jù)區(qū)域一般包含標(biāo)題、數(shù)據(jù)記錄、導(dǎo)航信息等,但是數(shù)據(jù)記錄占數(shù)據(jù)區(qū)域的大部分,因此對(duì)于第1步得到標(biāo)簽名相同并且相鄰的分類(lèi),如果分類(lèi)內(nèi)節(jié)點(diǎn)的面積之和大于數(shù)據(jù)區(qū)域面積的50%,就可以確定數(shù)據(jù)記錄包含在這一組節(jié)點(diǎn)中,但是這些節(jié)點(diǎn)中還可能包含標(biāo)題等噪音數(shù)據(jù)。定位數(shù)據(jù)記錄具體算法(見(jiàn)圖3)。

    圖3 定位數(shù)據(jù)記錄的算法

    該算法首先深度遍歷數(shù)據(jù)區(qū)域節(jié)點(diǎn),得到其所有孩子節(jié)點(diǎn)。將這些孩子節(jié)點(diǎn)按標(biāo)簽名分類(lèi),得到{Ci|0≤i

    另外,在按相鄰位置分類(lèi)時(shí),不需要判斷每一個(gè)標(biāo)簽名的分類(lèi)。因?yàn)镠TML標(biāo)簽按照標(biāo)記內(nèi)容的不同可以分為塊級(jí)元素和內(nèi)聯(lián)元素。塊級(jí)元素顯示的為一塊內(nèi)容,通常用于布局,如div,table等。內(nèi)聯(lián)元素是語(yǔ)義級(jí)的元素,它只能容納文本或者其他內(nèi)聯(lián)元素,如a,font等。顯然,數(shù)據(jù)記錄是對(duì)實(shí)體的具體描述,通常會(huì)包含多個(gè)數(shù)據(jù)項(xiàng),只可能是塊級(jí)元素,因此只需考察塊級(jí)元素的分類(lèi)。

    4 對(duì)齊數(shù)據(jù)項(xiàng)

    4.1 去噪

    數(shù)據(jù)區(qū)域通常由標(biāo)題、查詢(xún)結(jié)果列表、導(dǎo)航信息等組成。例如,在當(dāng)當(dāng)網(wǎng)的查詢(xún)結(jié)果頁(yè)面中,標(biāo)題是對(duì)數(shù)據(jù)記錄列屬性的說(shuō)明,如書(shū)名、價(jià)格等。查詢(xún)結(jié)果列表是對(duì)各屬性的具體描述。導(dǎo)航信息指“上一頁(yè) 下一頁(yè)”等。其中查詢(xún)結(jié)果列表以外的部分稱(chēng)為數(shù)據(jù)區(qū)域中的噪音。由于數(shù)據(jù)記錄的產(chǎn)生有統(tǒng)一的格式規(guī)則,所以各條數(shù)據(jù)記錄的DOM樹(shù)結(jié)構(gòu)十分相似。通過(guò)比較數(shù)據(jù)記錄節(jié)點(diǎn)和噪音節(jié)點(diǎn)的DOM樹(shù)結(jié)構(gòu)相似度就可以把兩者區(qū)分開(kāi)來(lái)。

    圖4 數(shù)據(jù)記錄的DOM樹(shù)

    (1)將數(shù)據(jù)記錄表示成xpath的集合。一條xpath是指從DOM樹(shù)的根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的標(biāo)簽路徑。數(shù)據(jù)記錄的根節(jié)點(diǎn)到所有葉子節(jié)點(diǎn)的xpath的集合記為xpaths,可以用{xpathij|0≤j

    (2)由于數(shù)據(jù)項(xiàng)中可選項(xiàng)的存在,兩條數(shù)據(jù)記錄的DOM樹(shù)結(jié)構(gòu)可能不會(huì)完全相同,因此只要xpaths1和xpaths2的相似度大于一個(gè)閾值,就可以認(rèn)為二者具有相似的DOM樹(shù)結(jié)構(gòu)。本文中采用的閾值為0.6。xpaths1和xpaths2的相似度計(jì)算公式是:

    intersection是指xpaths1和xpaths2中相同的xpath的數(shù)目;union是指xpaths1和xpaths2形成的集合中xpath的數(shù)目。只有2條xpath完全一致時(shí)才認(rèn)為相等。

    4.2 對(duì)齊數(shù)據(jù)項(xiàng)

    在查詢(xún)結(jié)果頁(yè)面中,每一條數(shù)據(jù)記錄包含若干個(gè)數(shù)據(jù)項(xiàng),由于可選項(xiàng)的存在,各條數(shù)據(jù)記錄中包含的數(shù)據(jù)項(xiàng)的個(gè)數(shù)不一定相同。例如當(dāng)當(dāng)網(wǎng)中,每一條數(shù)據(jù)記錄包含的數(shù)據(jù)項(xiàng)是:書(shū)名、出版時(shí)間、出版社、作者、價(jià)格、折扣等,其中折扣是可選項(xiàng),某些數(shù)據(jù)記錄中可能不包含折扣信息;另外,有的網(wǎng)站中每本圖書(shū)會(huì)有一個(gè)標(biāo)簽,如“專(zhuān)業(yè) 最新 適合入門(mén)”,作為讀者對(duì)該書(shū)的評(píng)價(jià),顯然所有的評(píng)價(jià)應(yīng)該作為一個(gè)數(shù)據(jù)項(xiàng),但是每本書(shū)的評(píng)價(jià)關(guān)鍵詞的數(shù)量是不一定的,在數(shù)據(jù)項(xiàng)對(duì)齊之前先要確定將那幾個(gè)項(xiàng)作為一個(gè)數(shù)據(jù)項(xiàng)。所以可選項(xiàng)的存在和數(shù)據(jù)項(xiàng)的長(zhǎng)度(指一個(gè)語(yǔ)義完整的數(shù)據(jù)項(xiàng)包含的項(xiàng)的個(gè)數(shù))可變是數(shù)據(jù)項(xiàng)對(duì)齊的主要問(wèn)題。

    (1)確定數(shù)據(jù)項(xiàng)的粒度,即一條數(shù)據(jù)記錄中那幾項(xiàng)可以作為一個(gè)數(shù)據(jù)項(xiàng)。將數(shù)據(jù)記錄中的每一個(gè)葉子節(jié)點(diǎn)看作一個(gè)項(xiàng),它是數(shù)據(jù)記錄中的最小單位。其中某些項(xiàng)關(guān)系比較密切,應(yīng)該把它們做為一個(gè)數(shù)據(jù)項(xiàng)來(lái)看。理想的情況是將通常人所觀察到的語(yǔ)義單位作為一個(gè)數(shù)據(jù)項(xiàng),這樣的一個(gè)數(shù)據(jù)項(xiàng)可能包含一個(gè)或多個(gè)項(xiàng)。例如數(shù)據(jù)項(xiàng)“標(biāo)簽:專(zhuān)業(yè) 最新 適合入門(mén)”,其中每個(gè)詞語(yǔ)為一個(gè)項(xiàng),由于這幾個(gè)項(xiàng)之間語(yǔ)義聯(lián)系緊密,就作為一個(gè)數(shù)據(jù)項(xiàng)來(lái)看。從數(shù)據(jù)記錄的產(chǎn)生來(lái)看,數(shù)據(jù)項(xiàng)之間的區(qū)分主要是給不同的數(shù)據(jù)項(xiàng)加上不同的格式控制,使同一數(shù)據(jù)項(xiàng)的各個(gè)項(xiàng)之間的視覺(jué)特征相似,并且同一數(shù)據(jù)項(xiàng)的項(xiàng)的間隔較小,不同的數(shù)據(jù)項(xiàng)的間隔較大。但是視覺(jué)信息對(duì)數(shù)據(jù)項(xiàng)的區(qū)分只是起到輔助作用,更主要的是人對(duì)數(shù)據(jù)項(xiàng)的語(yǔ)義的理解。假如將“標(biāo)簽:專(zhuān)業(yè) 最新”換成“標(biāo)簽:專(zhuān)業(yè) 清華大學(xué)出版社”,雖然這個(gè)數(shù)據(jù)項(xiàng)的視覺(jué)特征沒(méi)有變,但是我們會(huì)把后面的理解成兩個(gè)數(shù)據(jù)項(xiàng)。由于語(yǔ)義的處理較為復(fù)雜,本文采用一種較簡(jiǎn)單的方法來(lái)確定數(shù)據(jù)項(xiàng)。

    遍歷數(shù)據(jù)記錄的孩子節(jié)點(diǎn),如果遇到文本節(jié)點(diǎn),就將它的父節(jié)點(diǎn)的內(nèi)容作為一個(gè)數(shù)據(jù)項(xiàng)。這樣得到的數(shù)據(jù)項(xiàng)可能將理想的數(shù)據(jù)項(xiàng)分成多個(gè),如將“標(biāo)簽:專(zhuān)業(yè) 最新”分成“標(biāo)簽:”“專(zhuān)業(yè)”“最新”。再將得到的數(shù)據(jù)項(xiàng),按照其在網(wǎng)頁(yè)中的位置從上到下、從左到右排列。這樣雖然這三個(gè)數(shù)據(jù)項(xiàng)是分開(kāi)的,但他們?cè)跀?shù)據(jù)記錄中的位置仍然是相鄰的,可以再根據(jù)語(yǔ)義將它們合并,本文暫不做討論。

    (2)得到數(shù)據(jù)項(xiàng)的xpath,并將它作為數(shù)據(jù)項(xiàng)的對(duì)齊屬性。數(shù)據(jù)項(xiàng)的xpath是指從數(shù)據(jù)記錄的根節(jié)點(diǎn)到數(shù)據(jù)項(xiàng)(葉子節(jié)點(diǎn))之間的標(biāo)簽路徑。在一條數(shù)據(jù)記錄的DOM樹(shù)中,對(duì)于兩個(gè)不同的葉子節(jié)點(diǎn),從根節(jié)點(diǎn)到他們的標(biāo)簽路徑可能完全一樣,所以數(shù)據(jù)項(xiàng)的xpath有可能重復(fù)。在Deep Web頁(yè)面中,不同的數(shù)據(jù)項(xiàng)一般會(huì)通過(guò)元素的class屬性對(duì)其有不同的格式控制,因此對(duì)xpath上的每個(gè)元素取兩個(gè)值:標(biāo)簽名和節(jié)點(diǎn)的class屬性。這樣xpath就能很好的區(qū)分不同的數(shù)據(jù)項(xiàng)。

    (3)對(duì)齊算法。得到所有的數(shù)據(jù)項(xiàng)及其xpath后,需要將不同數(shù)據(jù)記錄中相應(yīng)數(shù)據(jù)項(xiàng)對(duì)齊。首先將每條數(shù)據(jù)記錄的數(shù)據(jù)項(xiàng)按照其在網(wǎng)頁(yè)中的位置從上至下、從左至右排列。為了便于對(duì)齊,設(shè)計(jì)了一個(gè)類(lèi)似二維數(shù)組的數(shù)據(jù)結(jié)構(gòu)來(lái)保存數(shù)據(jù)項(xiàng),如圖5,記為Record[m+1][n],m表示數(shù)據(jù)記錄的條數(shù),n表示數(shù)據(jù)記錄的xpath的條數(shù)。Record[0] [J]表示xpathj的屬性信息,并與Record[i] [J] (0

    圖5 保存數(shù)據(jù)項(xiàng)的存儲(chǔ)結(jié)構(gòu)

    圖6 對(duì)齊數(shù)據(jù)項(xiàng)的算法Fig.6 Algorithm of aligning data items

    當(dāng)插入數(shù)據(jù)記錄DRi的第j個(gè)數(shù)據(jù)項(xiàng)時(shí),首先查找xpath[n2]中是否存在該數(shù)據(jù)項(xiàng)對(duì)應(yīng)的xpath,如果存在,直接在Record2的相應(yīng)位置存入數(shù)據(jù)項(xiàng)的值;否則說(shuō)明此數(shù)據(jù)項(xiàng)是一個(gè)可選項(xiàng),先在Record2中上次插入的位置之后新建一列,然后保存此數(shù)據(jù)項(xiàng),并將其xpath也插入到xpath[n2]中。

    5 模板

    在Deep Web數(shù)據(jù)抽取中,由程序自動(dòng)定位數(shù)據(jù)區(qū)域和數(shù)據(jù)記錄以及對(duì)齊數(shù)據(jù)項(xiàng),這個(gè)過(guò)程需要對(duì)各個(gè)節(jié)點(diǎn)進(jìn)行大量的遍歷和計(jì)算。由于Deep Web頁(yè)面是動(dòng)態(tài)生成的,所以數(shù)據(jù)記錄都有固定的模式。當(dāng)數(shù)據(jù)區(qū)和數(shù)據(jù)記錄定位后,可以把相關(guān)的屬性保存下來(lái)作為模板參數(shù),利用模板抽取同一網(wǎng)站的其他頁(yè)面,可以使抽取的效率大幅提高。

    5.1 數(shù)據(jù)區(qū)域和數(shù)據(jù)記錄的模板

    Deep Web網(wǎng)頁(yè)最顯著的特點(diǎn)是它們是查詢(xún)Web數(shù)據(jù)庫(kù)后動(dòng)態(tài)生成的,有統(tǒng)一的格式控制,所以對(duì)于同一網(wǎng)站的不同頁(yè)面,數(shù)據(jù)區(qū)域部分的網(wǎng)頁(yè)格式是基本一樣的。當(dāng)數(shù)據(jù)區(qū)域定位以后,可以記錄數(shù)據(jù)區(qū)域的節(jié)點(diǎn)信息作為模板,如標(biāo)簽名、BODY節(jié)點(diǎn)到數(shù)據(jù)區(qū)域節(jié)點(diǎn)的標(biāo)簽路徑等。由于每個(gè)頁(yè)面的數(shù)據(jù)區(qū)域節(jié)點(diǎn)有相同的格式,因此可以根據(jù)模板信息直接定位數(shù)據(jù)區(qū)域,而不必遍歷所有的節(jié)點(diǎn)。

    同樣,同一網(wǎng)站的數(shù)據(jù)記錄也有相同的格式控制,把數(shù)據(jù)記錄的節(jié)點(diǎn)信息作為它的模板,則定位數(shù)據(jù)記錄時(shí)只需要判斷符合模板信息的節(jié)點(diǎn)。

    5.2 對(duì)齊數(shù)據(jù)項(xiàng)的模板

    由于可選項(xiàng)的存在,不同數(shù)據(jù)記錄所包含的數(shù)據(jù)項(xiàng)的個(gè)數(shù)不同,所以需要對(duì)齊。但是,數(shù)據(jù)記錄中的可選項(xiàng)只是少數(shù),一般是1~2項(xiàng),而且包含可選項(xiàng)的數(shù)據(jù)記錄可以認(rèn)為是信息比較豐富的,一般會(huì)放在查詢(xún)結(jié)果列表中比較靠前的位置。這樣通過(guò)第一頁(yè)的抽取,基本所有的可選項(xiàng)都會(huì)出現(xiàn)。

    將第一頁(yè)的數(shù)據(jù)項(xiàng)對(duì)齊后所有數(shù)據(jù)項(xiàng)的xpath作為對(duì)齊數(shù)據(jù)項(xiàng)的模板,這個(gè)模板基本包含所有的可選項(xiàng)。當(dāng)利用該模板對(duì)齊其他頁(yè)面的數(shù)據(jù)時(shí),若出現(xiàn)新的可選項(xiàng),也將其xpath插入來(lái)更新模板。另外,利用模板來(lái)對(duì)齊數(shù)據(jù)的好處是可以對(duì)齊多頁(yè)數(shù)據(jù)。

    總之,當(dāng)首次抽取某個(gè)Deep Web網(wǎng)站的數(shù)據(jù)時(shí),首先定位數(shù)據(jù)區(qū)域和數(shù)據(jù)記錄,然后對(duì)齊和保存數(shù)據(jù)項(xiàng),并保存相應(yīng)的模板。由于Deep Web網(wǎng)站的數(shù)據(jù)一般會(huì)分頁(yè)顯示,通常會(huì)有“下一頁(yè)”“Next”等關(guān)鍵字提示,可以利用啟發(fā)式規(guī)則自動(dòng)點(diǎn)擊翻頁(yè)。當(dāng)抽取后面的類(lèi)似結(jié)構(gòu)網(wǎng)頁(yè)時(shí),就可以利用已經(jīng)保存的模板來(lái)抽取數(shù)據(jù),使抽取效率得到很大提高。若由于網(wǎng)站改版等原因使網(wǎng)頁(yè)的結(jié)構(gòu)發(fā)生變化,已保存的模板不能抽取當(dāng)前頁(yè)面的內(nèi)容,則需要重新進(jìn)行定位數(shù)據(jù)區(qū)域等操作,并得到新的模板。

    6 實(shí)驗(yàn)

    為了驗(yàn)證基于視覺(jué)信息和標(biāo)簽路徑的數(shù)據(jù)抽取算法的準(zhǔn)確率,本文通過(guò)Webbrowser控件來(lái)渲染網(wǎng)頁(yè),實(shí)現(xiàn)了原型系統(tǒng)。本節(jié)給出實(shí)驗(yàn)結(jié)果。

    6.1 實(shí)驗(yàn)數(shù)據(jù)

    實(shí)驗(yàn)的數(shù)據(jù)來(lái)自購(gòu)物、招聘等8個(gè)Deep Web網(wǎng)站,通過(guò)對(duì)每個(gè)網(wǎng)站的查詢(xún)?nèi)肟谔峤魂P(guān)鍵詞獲得查詢(xún)結(jié)果頁(yè)面。通常情況下,若數(shù)據(jù)記錄中包含可選項(xiàng),在前兩頁(yè)中都會(huì)出現(xiàn),因此,對(duì)每個(gè)網(wǎng)站抽取前兩頁(yè)數(shù)據(jù)作測(cè)試。

    6.2 數(shù)據(jù)記錄的實(shí)驗(yàn)結(jié)果

    選用DEPTA算法作為對(duì)比,因?yàn)樗抢肈OM樹(shù)抽取數(shù)據(jù)的典型算法。查準(zhǔn)率是指抽取的數(shù)據(jù)記錄占抽取的所有記錄的比例,查全率是指抽取的數(shù)據(jù)記錄占網(wǎng)頁(yè)中所有數(shù)據(jù)記錄的比例。表1是對(duì)八個(gè)網(wǎng)站(見(jiàn)表2)進(jìn)行抽取實(shí)驗(yàn)后兩種算法的比較:

    表1 本文算法和DEPTA的比較Table 1 Comparison of our method and DEPTA /%

    從表中可以看出,本文的方法能夠準(zhǔn)確地定位數(shù)據(jù)區(qū)域和去除噪音,因而抽取的數(shù)據(jù)記錄有較高的準(zhǔn)確率,但是也有部分?jǐn)?shù)據(jù)記錄沒(méi)有找到。這是因?yàn)?,有個(gè)別網(wǎng)頁(yè)使用WebBrowser不能正確渲染,得不到相應(yīng)的DOM樹(shù),無(wú)法抽取數(shù)據(jù)。

    6.3 數(shù)據(jù)項(xiàng)的對(duì)齊實(shí)驗(yàn)

    找到數(shù)據(jù)記錄后,遍歷其子節(jié)點(diǎn)就可以得到數(shù)據(jù)項(xiàng),因此數(shù)據(jù)項(xiàng)的查準(zhǔn)率、查全率和數(shù)據(jù)記錄基本相同。但是對(duì)于數(shù)據(jù)項(xiàng),更關(guān)注不同數(shù)據(jù)記錄的數(shù)據(jù)項(xiàng)是否對(duì)齊,因?yàn)榧词顾械臄?shù)據(jù)項(xiàng)都找到并且全部準(zhǔn)確,如果具有相同語(yǔ)義的項(xiàng)沒(méi)有對(duì)齊,這樣的數(shù)據(jù)也無(wú)法利用。表2列出了選取的8個(gè)網(wǎng)站的對(duì)齊結(jié)果,第二列是本文算法得到的數(shù)據(jù)項(xiàng)的列數(shù),第三列是能夠?qū)R的列數(shù)。

    從表中可以得到,對(duì)齊的平均準(zhǔn)確率只有84.5%。由于本文對(duì)齊的依據(jù)是數(shù)據(jù)項(xiàng)的xpath,但是xpath不是唯一的,不同的數(shù)據(jù)項(xiàng)可能有相同的標(biāo)簽名和class屬性,使不同的數(shù)據(jù)項(xiàng)放在同一列。而且同一列數(shù)據(jù)項(xiàng)的class屬性也可能不一樣,這樣會(huì)使相同的數(shù)據(jù)項(xiàng)放在不同列??傊?,如何確定數(shù)據(jù)項(xiàng)的分割粒度以及對(duì)齊所依賴(lài)的屬性還有待進(jìn)一步的研究。

    表2 數(shù)據(jù)項(xiàng)對(duì)齊的準(zhǔn)確率Table 2 Alignment accuracy of data item

    7 結(jié)語(yǔ)

    本文針對(duì)從Deep Web頁(yè)面中抽取半結(jié)構(gòu)化數(shù)據(jù)的問(wèn)題,提出了一種通過(guò)視覺(jué)信息和標(biāo)簽路徑進(jìn)行自動(dòng)抽取的方法。首先通過(guò)計(jì)算視覺(jué)塊與整個(gè)網(wǎng)頁(yè)的面積比定位數(shù)據(jù)區(qū)域。然后根據(jù)數(shù)據(jù)記錄兩兩相鄰等視覺(jué)特征找到包含數(shù)據(jù)記錄的一組節(jié)點(diǎn),并通過(guò)比較各節(jié)點(diǎn)的DOM樹(shù)結(jié)構(gòu)的相似度去除噪音節(jié)點(diǎn)。再根據(jù)xpath屬性將各條數(shù)據(jù)記錄的數(shù)據(jù)項(xiàng)對(duì)齊,最后對(duì)抽取過(guò)程生成模板。實(shí)驗(yàn)表明,本文抽取的數(shù)據(jù)記錄達(dá)到了較高的準(zhǔn)確率。未來(lái)的工作將考慮通過(guò)數(shù)據(jù)項(xiàng)的語(yǔ)義來(lái)劃分?jǐn)?shù)據(jù)記錄,并提高數(shù)據(jù)項(xiàng)對(duì)齊的準(zhǔn)確率。

    [1] 劉偉. Deep Web數(shù)據(jù)集成研究綜述 [J]. 計(jì)算機(jī)學(xué)報(bào), 2007, 30(9): 1475-1489.

    [2] Wang Y, Hu J. A machine learning based approach for table detection on the Web [C].//Proc of the 11th Int Conf on World Wide Web. New York: ACM, 2002: 242-250.

    [3] Pinto D, McCallum A, Wei X. Table extraction using conditional random fields [C].//Proc of the 26th Annual Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2003: 235-242.

    [4] Crescenzi V, Mecca G, Merialdo P. Road-runner: Towards Automatic Data Extraction from Large Web Sites[C].//Proc of the 26th Int'l Conf. on Very Large Database Systems. Roma, Italy: [s.n.], 2001: 109-118.

    [5] Chang Chia-Hui, Lui C. IEPAD: Information Extraction Based on Pattern Discovery[C].//Proceedings of the 10th International Conference on World Wide Web. Hong Kong: [s.n.], 2001: 681-688.

    [6] Liu B, Grossman R L, Zhai Yanhong. Mining data records in Web pages [C].// Proc of the 9th Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2003: 601-606.

    [7] Zhai Y, Liu B. Web data extraction based on partial tree alignment [C].// Proc of the 14th Int Conf on World Wide Web. New York: ACM, 2005: 76-85.

    [8] Cai D, Yu S, Wen J R, et al. VIPS: a vision-based page segmentation algorithm [R]. Microsoft Technical Report, MSR-TR-2003-79, 2003.

    [9] Liu W, Meng X, Meng W. Vision-based Web data records extraction [C].// Proc of the 9th Int Workshop in Web and Databases. New York: ACM, 2006: 20-25.

    責(zé)任編輯 陳呈超

    Data Extraction Based on Vision and Tag Path

    ZHANG Wei, ZOU Xiao-Ming, TAN Feng-Zhen

    (College of Information Science and Engineering, Ocean University of China, Qingdao 266100, China)

    Semi-structured data extracted from Deep Web query results page is studied, based on the visual information and DOM tree structure of pages. The data region is determined by the ratio of visual block area to the entire page. A set of nodes with data records are identified according to visual features, such as adjacency. Noise nodes are eliminated by comparing the similarity of nodes’ DOM tree structure. According to xpath attributes, all data items are aligned. Template is generated for the process of extraction, which significantly improves the extraction efficiency. Experiments of data extraction were conducted with eight Deep Web websites, the results of which fully testify the effectiveness of our method.

    Deep Web; data extraction; visual feature; tag path

    山東省自然科學(xué)基金項(xiàng)目(ZR2012FM016)資助

    2013-10-30;

    2014-09-20

    張 巍(1975-),男,副教授。E-mail: ihcil@ouc.edu.cn

    TV149.2

    A

    1672-5174(2015)05-114-06

    10.16441/j.cnki.hdxb.20130395

    猜你喜歡
    數(shù)據(jù)項(xiàng)網(wǎng)頁(yè)頁(yè)面
    刷新生活的頁(yè)面
    一種多功能抽簽選擇器軟件系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
    甘肅科技(2020年19期)2020-03-11 09:42:42
    非完整數(shù)據(jù)庫(kù)Skyline-join查詢(xún)*
    基于Python的Asterix Cat 021數(shù)據(jù)格式解析分析與實(shí)現(xiàn)
    基于CSS的網(wǎng)頁(yè)導(dǎo)航欄的設(shè)計(jì)
    電子制作(2018年10期)2018-08-04 03:24:38
    基于URL和網(wǎng)頁(yè)類(lèi)型的網(wǎng)頁(yè)信息采集研究
    電子制作(2017年2期)2017-05-17 03:54:56
    網(wǎng)頁(yè)制作在英語(yǔ)教學(xué)中的應(yīng)用
    10個(gè)必知的網(wǎng)頁(yè)設(shè)計(jì)術(shù)語(yǔ)
    多數(shù)據(jù)項(xiàng)請(qǐng)求的多信道并行廣播調(diào)度算法
    同一Word文檔 縱橫頁(yè)面并存
    高清av免费在线| 欧美精品啪啪一区二区三区| 国产无遮挡羞羞视频在线观看| 九色亚洲精品在线播放| 人人妻,人人澡人人爽秒播| 免费在线观看完整版高清| 国产成人精品久久二区二区91| 亚洲人成电影观看| 在线播放国产精品三级| 曰老女人黄片| 亚洲伊人色综图| 亚洲熟妇中文字幕五十中出 | 天堂√8在线中文| 人成视频在线观看免费观看| 欧美一级毛片孕妇| 一本综合久久免费| av天堂在线播放| 精品人妻熟女毛片av久久网站| 黑丝袜美女国产一区| 亚洲黑人精品在线| 777米奇影视久久| √禁漫天堂资源中文www| 99精品在免费线老司机午夜| 在线看a的网站| 国产成人影院久久av| 久久久久国产一级毛片高清牌| 精品少妇久久久久久888优播| 亚洲va日本ⅴa欧美va伊人久久| 久久婷婷成人综合色麻豆| 成年动漫av网址| 国产av精品麻豆| 青草久久国产| 脱女人内裤的视频| 丝袜在线中文字幕| a级片在线免费高清观看视频| 91av网站免费观看| av片东京热男人的天堂| 亚洲欧美一区二区三区久久| 国产日韩欧美亚洲二区| 国产免费现黄频在线看| 欧美日韩一级在线毛片| 最新美女视频免费是黄的| 亚洲精品av麻豆狂野| 色尼玛亚洲综合影院| e午夜精品久久久久久久| 黄色怎么调成土黄色| 夜夜躁狠狠躁天天躁| 91在线观看av| 亚洲精品中文字幕在线视频| 国产精品久久久av美女十八| 他把我摸到了高潮在线观看| 精品久久久久久久毛片微露脸| av视频免费观看在线观看| 一进一出好大好爽视频| 美女午夜性视频免费| 在线观看免费视频网站a站| 999久久久国产精品视频| 人人妻人人添人人爽欧美一区卜| 亚洲成人手机| 亚洲午夜理论影院| 一本大道久久a久久精品| 久久国产精品人妻蜜桃| 欧美激情久久久久久爽电影 | videosex国产| 亚洲精品自拍成人| 欧美一级毛片孕妇| 一区二区三区国产精品乱码| 亚洲欧美精品综合一区二区三区| 最新在线观看一区二区三区| 国产在线观看jvid| av天堂久久9| 黄色片一级片一级黄色片| 国产男女超爽视频在线观看| 亚洲熟女毛片儿| 精品国内亚洲2022精品成人 | cao死你这个sao货| 捣出白浆h1v1| 999久久久国产精品视频| 亚洲熟女毛片儿| 日日爽夜夜爽网站| 欧美成狂野欧美在线观看| 69av精品久久久久久| 久久人妻福利社区极品人妻图片| 在线观看免费视频网站a站| 老汉色∧v一级毛片| av不卡在线播放| 久久人人爽av亚洲精品天堂| aaaaa片日本免费| 18在线观看网站| 91av网站免费观看| 精品久久久久久久毛片微露脸| 欧美在线黄色| 又黄又爽又免费观看的视频| 欧美一级毛片孕妇| 国产亚洲精品久久久久5区| 精品一区二区三区视频在线观看免费 | 午夜福利乱码中文字幕| 午夜福利影视在线免费观看| 国产精品免费大片| 亚洲人成电影观看| 十八禁人妻一区二区| 亚洲aⅴ乱码一区二区在线播放 | 精品福利永久在线观看| 亚洲精品自拍成人| 69精品国产乱码久久久| 亚洲av欧美aⅴ国产| 99香蕉大伊视频| 亚洲人成电影免费在线| 国产aⅴ精品一区二区三区波| 中文字幕最新亚洲高清| 精品少妇久久久久久888优播| 国产亚洲欧美精品永久| 亚洲一区高清亚洲精品| av片东京热男人的天堂| 十分钟在线观看高清视频www| 中亚洲国语对白在线视频| 日韩大码丰满熟妇| 国产精品偷伦视频观看了| 99国产精品免费福利视频| 久久精品国产清高在天天线| 少妇被粗大的猛进出69影院| av天堂在线播放| 亚洲国产欧美日韩在线播放| 亚洲色图av天堂| 国产精品国产高清国产av | 久久精品熟女亚洲av麻豆精品| 妹子高潮喷水视频| 无限看片的www在线观看| 最新美女视频免费是黄的| 免费观看精品视频网站| 成人三级做爰电影| 精品熟女少妇八av免费久了| 久久香蕉激情| 欧美色视频一区免费| 一进一出抽搐动态| 久久久精品国产亚洲av高清涩受| 日韩人妻精品一区2区三区| 一边摸一边抽搐一进一小说 | 美女高潮到喷水免费观看| 亚洲久久久国产精品| 久久精品国产亚洲av香蕉五月 | 极品教师在线免费播放| 亚洲精品美女久久av网站| 亚洲av美国av| 欧美激情 高清一区二区三区| 精品一品国产午夜福利视频| 国产精品影院久久| 亚洲少妇的诱惑av| 天天躁夜夜躁狠狠躁躁| 国产高清视频在线播放一区| 久久久久久人人人人人| 午夜视频精品福利| 自线自在国产av| 操美女的视频在线观看| 国产精华一区二区三区| 精品国产乱码久久久久久男人| 精品乱码久久久久久99久播| av欧美777| 亚洲三区欧美一区| av网站在线播放免费| 高清在线国产一区| 别揉我奶头~嗯~啊~动态视频| 精品国产一区二区三区久久久樱花| 国产亚洲精品一区二区www | 人人妻人人爽人人添夜夜欢视频| 国产男女内射视频| 久久国产乱子伦精品免费另类| 免费日韩欧美在线观看| 一级毛片女人18水好多| 9色porny在线观看| 大香蕉久久成人网| 后天国语完整版免费观看| 欧美色视频一区免费| 久久香蕉激情| 91国产中文字幕| 极品教师在线免费播放| 亚洲一区二区三区欧美精品| 成人亚洲精品一区在线观看| 露出奶头的视频| 99国产精品免费福利视频| 午夜福利视频在线观看免费| 午夜福利视频在线观看免费| 精品国产美女av久久久久小说| 极品少妇高潮喷水抽搐| 亚洲国产欧美日韩在线播放| 国产亚洲精品第一综合不卡| 亚洲少妇的诱惑av| 亚洲精品中文字幕在线视频| 九色亚洲精品在线播放| 麻豆乱淫一区二区| 久久国产精品影院| 老司机在亚洲福利影院| 国精品久久久久久国模美| 久久久久国产一级毛片高清牌| 免费在线观看黄色视频的| 老司机福利观看| 很黄的视频免费| 欧美人与性动交α欧美精品济南到| 免费人成视频x8x8入口观看| 高清视频免费观看一区二区| 嫩草影视91久久| 一区二区三区国产精品乱码| 欧美日韩瑟瑟在线播放| 日日夜夜操网爽| 男男h啪啪无遮挡| 欧美一级毛片孕妇| 男人操女人黄网站| 色婷婷av一区二区三区视频| 亚洲国产欧美一区二区综合| 99国产精品一区二区蜜桃av | 一本一本久久a久久精品综合妖精| 久久国产乱子伦精品免费另类| 又紧又爽又黄一区二区| 久久精品亚洲精品国产色婷小说| 午夜老司机福利片| 狂野欧美激情性xxxx| 精品一区二区三区四区五区乱码| 久99久视频精品免费| 夜夜夜夜夜久久久久| 99国产精品一区二区蜜桃av | 久久人人97超碰香蕉20202| 97人妻天天添夜夜摸| 国产亚洲精品久久久久久毛片 | 免费女性裸体啪啪无遮挡网站| 精品久久久久久久毛片微露脸| 王馨瑶露胸无遮挡在线观看| 午夜激情av网站| 成人永久免费在线观看视频| www日本在线高清视频| 精品一区二区三区视频在线观看免费 | 日韩熟女老妇一区二区性免费视频| 91精品三级在线观看| 老司机影院毛片| 黑丝袜美女国产一区| 国产av精品麻豆| 亚洲美女黄片视频| 如日韩欧美国产精品一区二区三区| 国产高清激情床上av| 中文亚洲av片在线观看爽 | 777米奇影视久久| 很黄的视频免费| x7x7x7水蜜桃| 多毛熟女@视频| 怎么达到女性高潮| 91在线观看av| 免费日韩欧美在线观看| 国产精品98久久久久久宅男小说| 一边摸一边做爽爽视频免费| 久热爱精品视频在线9| 久久精品亚洲熟妇少妇任你| 老司机靠b影院| 777久久人妻少妇嫩草av网站| 热99re8久久精品国产| 免费女性裸体啪啪无遮挡网站| 国产真人三级小视频在线观看| 精品国产一区二区久久| 夜夜爽天天搞| 精品亚洲成国产av| 亚洲成人手机| 免费一级毛片在线播放高清视频 | 一级毛片精品| 国产高清videossex| 亚洲成国产人片在线观看| bbb黄色大片| 天堂中文最新版在线下载| 国精品久久久久久国模美| 欧美日韩一级在线毛片| 久久久国产成人精品二区 | 欧美国产精品va在线观看不卡| 中文字幕精品免费在线观看视频| 淫妇啪啪啪对白视频| 久久久精品国产亚洲av高清涩受| 天堂中文最新版在线下载| 电影成人av| 欧美国产精品一级二级三级| 亚洲va日本ⅴa欧美va伊人久久| 国产精品1区2区在线观看. | 午夜影院日韩av| 久久久久久久国产电影| 久久ye,这里只有精品| 婷婷精品国产亚洲av在线 | 老熟女久久久| 在线永久观看黄色视频| 国内毛片毛片毛片毛片毛片| 精品人妻在线不人妻| 午夜福利乱码中文字幕| 亚洲久久久国产精品| 国产一区二区三区综合在线观看| 每晚都被弄得嗷嗷叫到高潮| av中文乱码字幕在线| 国产精品国产av在线观看| 99国产精品免费福利视频| 免费女性裸体啪啪无遮挡网站| 女性生殖器流出的白浆| 亚洲久久久国产精品| 久久精品人人爽人人爽视色| 亚洲人成电影观看| 国产成人免费观看mmmm| 18禁黄网站禁片午夜丰满| 18禁裸乳无遮挡动漫免费视频| 久99久视频精品免费| 欧美一级毛片孕妇| 成人精品一区二区免费| 午夜激情av网站| 精品电影一区二区在线| 日韩欧美一区二区三区在线观看 | 又紧又爽又黄一区二区| 精品一品国产午夜福利视频| 天天躁狠狠躁夜夜躁狠狠躁| 亚洲精品美女久久av网站| 亚洲欧美一区二区三区黑人| 欧美乱妇无乱码| 日韩有码中文字幕| 久久久国产一区二区| 男女高潮啪啪啪动态图| 国产成人精品久久二区二区免费| 女性被躁到高潮视频| 日本黄色视频三级网站网址 | 亚洲三区欧美一区| 12—13女人毛片做爰片一| 亚洲成人国产一区在线观看| 人成视频在线观看免费观看| 久久久久视频综合| 嫁个100分男人电影在线观看| 免费看十八禁软件| 色综合欧美亚洲国产小说| 我的亚洲天堂| 色尼玛亚洲综合影院| 中文字幕av电影在线播放| 国产国语露脸激情在线看| 亚洲色图综合在线观看| 最新美女视频免费是黄的| av电影中文网址| 欧美+亚洲+日韩+国产| 亚洲精品在线观看二区| 岛国毛片在线播放| 久久久久久人人人人人| 国产亚洲精品久久久久久毛片 | 国产精品国产av在线观看| 超碰97精品在线观看| 欧美激情久久久久久爽电影 | av福利片在线| 99精品在免费线老司机午夜| 女同久久另类99精品国产91| 两个人免费观看高清视频| 午夜福利免费观看在线| 国产精品秋霞免费鲁丝片| 美女扒开内裤让男人捅视频| 亚洲中文日韩欧美视频| 美女视频免费永久观看网站| videos熟女内射| 国产亚洲欧美在线一区二区| 国产色视频综合| 久久青草综合色| 亚洲精品成人av观看孕妇| 女同久久另类99精品国产91| 色在线成人网| 国产一区二区激情短视频| 免费在线观看完整版高清| 日本欧美视频一区| 国产精品香港三级国产av潘金莲| 日韩欧美三级三区| 91av网站免费观看| 这个男人来自地球电影免费观看| 在线永久观看黄色视频| 天天操日日干夜夜撸| 两人在一起打扑克的视频| 在线播放国产精品三级| 国产亚洲精品久久久久久毛片 | 午夜激情av网站| 涩涩av久久男人的天堂| 不卡一级毛片| 精品亚洲成a人片在线观看| 夜夜爽天天搞| 怎么达到女性高潮| 国产av一区二区精品久久| 国产av又大| 天天躁日日躁夜夜躁夜夜| 另类亚洲欧美激情| 久9热在线精品视频| 国产在视频线精品| 深夜精品福利| 老司机午夜福利在线观看视频| 老司机在亚洲福利影院| 欧美老熟妇乱子伦牲交| 日本精品一区二区三区蜜桃| 久久久水蜜桃国产精品网| 最新的欧美精品一区二区| 在线观看日韩欧美| 欧美大码av| 亚洲自偷自拍图片 自拍| 飞空精品影院首页| 大香蕉久久网| 桃红色精品国产亚洲av| 午夜成年电影在线免费观看| 高清欧美精品videossex| 天堂俺去俺来也www色官网| 国产成人欧美| 亚洲伊人色综图| 99在线人妻在线中文字幕 | 99精品欧美一区二区三区四区| 亚洲精品美女久久久久99蜜臀| 天堂√8在线中文| 亚洲av欧美aⅴ国产| 国产区一区二久久| 免费在线观看日本一区| 建设人人有责人人尽责人人享有的| 老熟妇仑乱视频hdxx| 久久中文字幕一级| 精品欧美一区二区三区在线| 色老头精品视频在线观看| 另类亚洲欧美激情| 精品国产乱码久久久久久男人| 视频区图区小说| 在线国产一区二区在线| 人人妻,人人澡人人爽秒播| 国产成人精品在线电影| 很黄的视频免费| 欧美日韩国产mv在线观看视频| 变态另类成人亚洲欧美熟女 | 欧美日韩福利视频一区二区| 国产99久久九九免费精品| 一区二区三区激情视频| 另类亚洲欧美激情| 久久中文字幕一级| 日本一区二区免费在线视频| 精品国产一区二区三区久久久樱花| 最近最新中文字幕大全免费视频| 亚洲黑人精品在线| 在线av久久热| 在线观看免费高清a一片| 少妇 在线观看| ponron亚洲| 99热只有精品国产| 中亚洲国语对白在线视频| 国产真人三级小视频在线观看| 亚洲伊人色综图| 一区二区日韩欧美中文字幕| 香蕉丝袜av| 99久久综合精品五月天人人| 欧美乱码精品一区二区三区| 成年版毛片免费区| 欧美av亚洲av综合av国产av| 黑丝袜美女国产一区| 丝袜人妻中文字幕| av一本久久久久| 又黄又爽又免费观看的视频| 亚洲国产精品sss在线观看 | 久久九九热精品免费| 国产精品永久免费网站| 精品一区二区三区视频在线观看免费 | 精品久久久久久久久久免费视频 | 国产1区2区3区精品| 亚洲人成77777在线视频| 老司机午夜十八禁免费视频| 一区二区三区国产精品乱码| 国产日韩欧美亚洲二区| 丁香欧美五月| 亚洲av美国av| 国产精品成人在线| 大片电影免费在线观看免费| 国产精品欧美亚洲77777| 成人精品一区二区免费| 久久人人97超碰香蕉20202| 在线天堂中文资源库| 国产成人一区二区三区免费视频网站| 国产日韩一区二区三区精品不卡| 美女福利国产在线| 高清欧美精品videossex| 建设人人有责人人尽责人人享有的| 无遮挡黄片免费观看| 精品国产一区二区三区久久久樱花| 久99久视频精品免费| 一区二区三区国产精品乱码| 老汉色∧v一级毛片| 欧美激情极品国产一区二区三区| 久久午夜综合久久蜜桃| 美女福利国产在线| 亚洲熟女毛片儿| 欧美黄色片欧美黄色片| 大香蕉久久成人网| 少妇猛男粗大的猛烈进出视频| 999久久久精品免费观看国产| 丝袜美腿诱惑在线| 精品一区二区三区四区五区乱码| 欧美激情久久久久久爽电影 | 波多野结衣一区麻豆| 久久久久精品国产欧美久久久| 精品一区二区三区视频在线观看免费 | 午夜福利影视在线免费观看| 在线观看免费视频网站a站| 亚洲精品中文字幕一二三四区| 成熟少妇高潮喷水视频| 欧美国产精品va在线观看不卡| 亚洲国产毛片av蜜桃av| 欧美日韩亚洲综合一区二区三区_| 99久久国产精品久久久| 国产成人精品久久二区二区免费| 久久久久国产精品人妻aⅴ院 | 露出奶头的视频| 正在播放国产对白刺激| 国产视频一区二区在线看| 99久久人妻综合| 欧美日韩中文字幕国产精品一区二区三区 | 99久久国产精品久久久| 99精品在免费线老司机午夜| 男人舔女人的私密视频| 两个人免费观看高清视频| e午夜精品久久久久久久| 好看av亚洲va欧美ⅴa在| 亚洲国产毛片av蜜桃av| 俄罗斯特黄特色一大片| bbb黄色大片| 久久精品国产综合久久久| a级片在线免费高清观看视频| 最近最新中文字幕大全免费视频| 亚洲精品国产一区二区精华液| 久热爱精品视频在线9| 欧美在线黄色| 中文字幕人妻熟女乱码| 久久精品国产综合久久久| 国产一区有黄有色的免费视频| 叶爱在线成人免费视频播放| 欧美中文综合在线视频| 美国免费a级毛片| 亚洲精品久久成人aⅴ小说| 可以免费在线观看a视频的电影网站| 丁香六月欧美| 精品人妻1区二区| 午夜精品久久久久久毛片777| 国产精品一区二区免费欧美| av视频免费观看在线观看| 亚洲精品自拍成人| 777久久人妻少妇嫩草av网站| 精品一品国产午夜福利视频| 老司机午夜十八禁免费视频| 最新美女视频免费是黄的| 国产免费av片在线观看野外av| 女性生殖器流出的白浆| 亚洲成a人片在线一区二区| 每晚都被弄得嗷嗷叫到高潮| tocl精华| 成年版毛片免费区| 露出奶头的视频| 亚洲精品久久午夜乱码| 国产日韩欧美亚洲二区| 中亚洲国语对白在线视频| 手机成人av网站| 国产伦人伦偷精品视频| 岛国在线观看网站| 电影成人av| 看片在线看免费视频| 久久天堂一区二区三区四区| av片东京热男人的天堂| 精品亚洲成国产av| 男女下面插进去视频免费观看| 国产精品久久久久成人av| 中文字幕人妻丝袜一区二区| 最新美女视频免费是黄的| 99re在线观看精品视频| 啦啦啦 在线观看视频| 亚洲精品国产一区二区精华液| 亚洲精品一卡2卡三卡4卡5卡| 久久精品国产亚洲av高清一级| 我的亚洲天堂| 日韩视频一区二区在线观看| 高潮久久久久久久久久久不卡| 99热只有精品国产| 婷婷丁香在线五月| 国产在线观看jvid| 中文字幕人妻熟女乱码| www.自偷自拍.com| e午夜精品久久久久久久| 精品少妇一区二区三区视频日本电影| 极品教师在线免费播放| 久久久久久久久免费视频了| 宅男免费午夜| 777米奇影视久久| 亚洲伊人色综图| 久久中文看片网| www.精华液| 亚洲精品一二三| 美女 人体艺术 gogo| 精品久久久久久,| 18禁黄网站禁片午夜丰满| 国产男靠女视频免费网站| 久久九九热精品免费| 欧美+亚洲+日韩+国产| 国产97色在线日韩免费| 男人舔女人的私密视频| 亚洲欧美激情综合另类| 飞空精品影院首页| 亚洲欧美激情综合另类| 日韩免费av在线播放| 国产精品秋霞免费鲁丝片| 激情视频va一区二区三区| 国产熟女午夜一区二区三区| 一级黄色大片毛片| 免费观看a级毛片全部| 精品国产超薄肉色丝袜足j| 亚洲一卡2卡3卡4卡5卡精品中文| 国产免费男女视频| 高清毛片免费观看视频网站 | 五月开心婷婷网| 9191精品国产免费久久| 最近最新免费中文字幕在线| 黄网站色视频无遮挡免费观看| 亚洲人成电影免费在线| 一二三四在线观看免费中文在| 亚洲熟女精品中文字幕| 亚洲美女黄片视频| 高清av免费在线| 国产一区在线观看成人免费| 久久久精品国产亚洲av高清涩受| 自线自在国产av|