• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于視覺特征的網(wǎng)頁信息抽取方法研究

    2019-06-03 10:52:54王憲發(fā)俞曉明程學(xué)旗
    中文信息學(xué)報(bào) 2019年5期
    關(guān)鍵詞:頁面特征信息

    王憲發(fā),郭 巖,劉 悅,俞曉明,程學(xué)旗

    (1. 中國科學(xué)院大學(xué) 計(jì)算機(jī)與控制學(xué)院,北京 100049;2. 中國科學(xué)院 計(jì)算技術(shù)研究所 中國科學(xué)院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100190)

    0 引言

    互聯(lián)網(wǎng)在我國已成為人們生活中不可或缺的一部分。互聯(lián)網(wǎng)上存在著海量的數(shù)據(jù),且每天都在爆炸式增長中。這些信息既豐富又實(shí)時(shí),是信息檢索、數(shù)據(jù)挖掘等很多網(wǎng)絡(luò)應(yīng)用的基礎(chǔ)數(shù)據(jù)。對這些數(shù)據(jù)進(jìn)行深入的分析,可獲得很多更有價(jià)值的深層信息。然而,由于數(shù)據(jù)非常龐大,網(wǎng)頁本身又不是結(jié)構(gòu)化的數(shù)據(jù)格式且包含噪音信息,故我們需對網(wǎng)頁進(jìn)行信息抽取,提取網(wǎng)頁中的關(guān)鍵信息并將其轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)再應(yīng)用于后續(xù)的數(shù)據(jù)分析等工作。

    目前,學(xué)者提出的大部分抽取方法都是基于HTML源碼或者基于將源碼解析后生成的DOM樹,使用網(wǎng)頁的文本特征或結(jié)構(gòu)特征進(jìn)行抽取。事實(shí)上,網(wǎng)頁還有一類非常重要的特征可以用于信息抽取,即為視覺特征。視覺特征同時(shí)表明了網(wǎng)頁內(nèi)容的重要性,如部分新聞網(wǎng)站會(huì)將重要的頭條事件放在醒目的位置并用大號(hào)字體加粗或高亮,部分論壇網(wǎng)站會(huì)將熱門的帖子置頂或高亮。因此,利用這些視覺特征進(jìn)行網(wǎng)頁信息抽取能夠更好地模擬人對網(wǎng)頁內(nèi)容的識(shí)別,進(jìn)而提高抽取效果,這是僅基于HTML源碼或DOM樹無法達(dá)到的效果。近些年來,已有學(xué)者提出了一些基于視覺特征的抽取算法。如VIPS[1]、VIDE[2]等方法,相比于傳統(tǒng)的基于HTML源碼和DOM樹的抽取方法來說,這些方法不依賴于具體的網(wǎng)頁編程語言,且更加契合HTML這種幫助表現(xiàn)和展示的語言。但這些方法存在以下兩個(gè)問題:

    (1) 通用性較差: 大多數(shù)方法是基于視覺特征,使用啟發(fā)式規(guī)則對網(wǎng)頁進(jìn)行分塊,但由于網(wǎng)頁的形式是十分多樣化的,這些方法并不是十分通用。

    (2) 實(shí)用性較差: 因經(jīng)過瀏覽器渲染解析的時(shí)間成本較高,獲取網(wǎng)頁快照等視覺特征需要消耗的時(shí)間過長,故目前基于視覺特征的信息抽取方法的抽取效率過低,導(dǎo)致無法很好地應(yīng)用在工業(yè)界。

    針對以上兩個(gè)問題,我們做了深入研究。首先,通過觀察,我們發(fā)現(xiàn)同一類型的不同網(wǎng)站的數(shù)據(jù)區(qū)域?qū)?yīng)的網(wǎng)頁元素具有相似的視覺特征。如圖1是來自兩個(gè)論壇網(wǎng)站頁面中的帖子記錄。從圖中可發(fā)現(xiàn)它們在視覺特征上十分相似。如作者信息、發(fā)帖時(shí)間、帖子正文等信息在頁面中的相對位置均十分相似。因此,本文利用不同網(wǎng)站的視覺特征的相似性,提出一種基于視覺特征的使用有監(jiān)督機(jī)器學(xué)習(xí)的網(wǎng)頁信息抽取框架WEMLVF(Web Extraction by Machine Learning and Visual Features),該框架具有良好的通用性。本文通過論壇網(wǎng)站和新聞評(píng)論網(wǎng)站的信息抽取實(shí)驗(yàn),驗(yàn)證了框架WEMLVF的有效性。然后,針對實(shí)用性差的問題,本文使用框架WEMLVF,分別提出基于XPath和基于經(jīng)典包裝器歸納算法SoftMealy的自動(dòng)生成信息抽取模板的方法。這兩種方法使用視覺特征自動(dòng)生成信息抽取模板,但模板的表達(dá)并不包含視覺特征,使得在使用模板進(jìn)行信息抽取的過程中無需提取網(wǎng)頁的視覺特征,從而顯著提升了信息抽取的效率,實(shí)驗(yàn)結(jié)果驗(yàn)證了這一結(jié)論。

    圖1 不同論壇頁面的帖子記錄

    1 相關(guān)工作

    網(wǎng)頁信息抽取是信息抽取中一個(gè)非常重要的研究領(lǐng)域。對網(wǎng)頁信息抽取的技術(shù)有很多種分類方法[3-5]。我們按照是否使用網(wǎng)頁的視覺特征對抽取技術(shù)進(jìn)行分類,主要分為不使用網(wǎng)頁視覺特征的方法和基于網(wǎng)頁視覺特征的方法。

    對于不使用網(wǎng)頁視覺特征的方法,大多都是基于HTML源碼或者基于將源碼解析生成的DOM樹,然后利用DOM樹的結(jié)構(gòu)特征或是使用自然語言處理的方法對網(wǎng)頁進(jìn)行信息抽取。根據(jù)是否使用模板,我們可以將抽取的方法分為模板相關(guān)和模板無關(guān)兩類抽取方法。模板相關(guān)的方法主要有基于包裝器歸納的SoftMealy[6]、STALKER[7]等,以及自動(dòng)生成模板的RoadRunner[8]等方法,基于模板的網(wǎng)頁信息抽取方法在模板的生成和維護(hù)方面都是費(fèi)時(shí)費(fèi)力的,人工難以滿足實(shí)際需求。模板無關(guān)的方法如MDR[9],在DOM樹中尋找相似的重復(fù)串來定位數(shù)據(jù)區(qū)域,如郗家貞[10]等提出的一種基于時(shí)間串的論壇信息抽取方法Tristor,該方法主要是基于時(shí)間串進(jìn)行聚類來定位記錄區(qū)域,以及使用機(jī)器學(xué)習(xí)的方法如CRF[11]和神經(jīng)網(wǎng)絡(luò)[12]、決策樹[13]等對網(wǎng)頁進(jìn)行抽取,但這些算法對數(shù)據(jù)的假設(shè)較高,抽取精度不高,效率較低。

    基于視覺特征的網(wǎng)頁抽取方法包括基于視覺分塊的VIPS、VIDE等,但由于網(wǎng)頁形式的多樣化,且提取視覺特征的效率較低,導(dǎo)致這些基于分塊的方法并不是十分通用。近幾年,相繼有學(xué)者提出基于網(wǎng)頁在視覺上的相似度,使用卷積神經(jīng)網(wǎng)絡(luò)的方法,通過對網(wǎng)頁快照進(jìn)行訓(xùn)練來對網(wǎng)頁進(jìn)行抽取,如Zehuan Cai[14]等提出了使用卷積神經(jīng)網(wǎng)絡(luò)定位數(shù)據(jù)塊的位置;Tomas Gogar[15]等提出了Text Map;Jin Liu[16]等提出通過R-CNN的方法在網(wǎng)頁快照中定位數(shù)據(jù)節(jié)點(diǎn)。這些方法在對模型未見過但是視覺上相似的網(wǎng)站中的抽取準(zhǔn)確率較高,但這些方法在訓(xùn)練時(shí)只考慮了網(wǎng)頁快照的特征,而沒有使用網(wǎng)頁元素,即DOM樹節(jié)點(diǎn)的特征,而且卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度較慢,故在實(shí)際工程中并不適用。

    2 基于視覺特征的網(wǎng)頁信息抽取方法

    網(wǎng)頁的特征包含很多,不同網(wǎng)頁的特點(diǎn)也不同。啟發(fā)式規(guī)則無法完全通用,且針對不同網(wǎng)站提出各種不同的規(guī)則是十分費(fèi)力的事情。有監(jiān)督機(jī)器學(xué)習(xí)[17]是一種機(jī)器學(xué)習(xí)的方法,與無監(jiān)督機(jī)器學(xué)習(xí)不同。它基于提供的包含標(biāo)注樣本的輸入輸出來學(xué)習(xí)一個(gè)映射函數(shù),而無監(jiān)督機(jī)器學(xué)習(xí)的樣本不包含標(biāo)注信息。在有監(jiān)督的機(jī)器學(xué)習(xí)中,每個(gè)樣本都包含一個(gè)期望的輸出(標(biāo)記),模型通過對樣本進(jìn)行學(xué)習(xí)得到一個(gè)映射函數(shù)來對新的樣本進(jìn)行預(yù)測。通過有監(jiān)督的機(jī)器學(xué)習(xí)的方法能夠幫助我們從這些特征中自動(dòng)學(xué)習(xí)網(wǎng)頁的潛在規(guī)律來幫助完成抽取。對于不同類型的網(wǎng)頁,我們只需要使用不同的訓(xùn)練集即可實(shí)現(xiàn)不同類型網(wǎng)頁的抽取。

    因此,本文提出一種基于網(wǎng)頁視覺特征的使用有監(jiān)督機(jī)器學(xué)習(xí)的網(wǎng)頁信息抽取框架WEMLVF。該框架主要結(jié)合網(wǎng)頁的視覺特征和結(jié)構(gòu)特征,包括但不限于網(wǎng)頁元素對應(yīng)矩形區(qū)域的位置、大小、長、寬等視覺特征,以及網(wǎng)頁節(jié)點(diǎn)相似度等結(jié)構(gòu)特征,對元素節(jié)點(diǎn)進(jìn)行標(biāo)注是否是數(shù)據(jù)節(jié)點(diǎn),生成訓(xùn)練數(shù)據(jù),使用機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練得到網(wǎng)頁元素分類器。在定位網(wǎng)頁數(shù)據(jù)節(jié)點(diǎn)后,再使用基于DOM樹的抽取算法抽取出結(jié)構(gòu)化數(shù)據(jù)。

    圖2為WEMLVF的框架圖。該方法將以網(wǎng)頁源碼解析后生成的DOM樹上的節(jié)點(diǎn)作為樣本,通過對樣本標(biāo)記0/1表示是否是要抽取的數(shù)據(jù)區(qū)域,將網(wǎng)頁抽取問題轉(zhuǎn)化為一個(gè)傳統(tǒng)的二分類問題(即判斷每個(gè)DOM樹節(jié)點(diǎn)是否是數(shù)據(jù)區(qū)域),利用機(jī)器學(xué)習(xí)的方法訓(xùn)練生成網(wǎng)頁節(jié)點(diǎn)的分類器來定位要抽取的網(wǎng)頁數(shù)據(jù)區(qū)域。具體方法的流程如下:

    (1) 解析網(wǎng)頁源碼生成Dom樹,并進(jìn)行預(yù)處理;

    (2) 使用啟發(fā)式規(guī)則召回候選節(jié)點(diǎn);

    (3) 獲取候選節(jié)點(diǎn)的視覺特征與結(jié)構(gòu)特征,包括但不限于網(wǎng)頁快照,網(wǎng)頁元素的位置、大小、長、寬等視覺特征,以及網(wǎng)頁節(jié)點(diǎn)相似度等結(jié)構(gòu)特征;

    (4) 對數(shù)據(jù)區(qū)域所在節(jié)點(diǎn)進(jìn)行標(biāo)注;

    (5) 使用機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練得到網(wǎng)頁節(jié)點(diǎn)分類器;

    (6) 使用分類器定位網(wǎng)頁數(shù)據(jù)節(jié)點(diǎn)后,再使用基于Dom樹的抽取算法或基于視覺特征的啟發(fā)式規(guī)則抽取出結(jié)構(gòu)化數(shù)據(jù)。

    圖2 框架WEMLVF流程圖

    該算法提出的是一套抽取方法框架,該框架具有良好的通用性,針對不同的應(yīng)用場景,僅需調(diào)整框架中的一些處理方法即可滿足需求??烧{(diào)整的部分如下:

    (1) 解析網(wǎng)頁源碼生成Dom樹,針對不同類型的網(wǎng)站,我們可以使用不同的預(yù)處理方法,包括刪除無用標(biāo)簽、刪除不可見節(jié)點(diǎn)等。

    (2) 使用啟發(fā)式規(guī)則召回候選節(jié)點(diǎn)。我們可以針對不同的應(yīng)用場景,使用不同的啟發(fā)式規(guī)則對節(jié)點(diǎn)進(jìn)行召回,如本文后續(xù)對論壇頁面和新聞評(píng)論頁面使用基于時(shí)間串的方法召回候選節(jié)點(diǎn)。

    (3) 獲取候選節(jié)點(diǎn)的視覺特征與結(jié)構(gòu)特征。我們可以針對具體的應(yīng)用場景,提取不同的能夠區(qū)分和幫助我們找到記錄節(jié)點(diǎn)的特征,包括視覺特征及網(wǎng)頁HTML的結(jié)構(gòu)特征。

    (4) 對數(shù)據(jù)區(qū)域所在節(jié)點(diǎn)進(jìn)行標(biāo)注。我們需要針對具體的問題來對需要尋找的節(jié)點(diǎn)進(jìn)行標(biāo)注。在本文后續(xù)的內(nèi)容中,我們希望得到一個(gè)二分類器用來判斷某個(gè)節(jié)點(diǎn)是否是我們要抽取的記錄節(jié)點(diǎn)。因此,我們在標(biāo)注時(shí)是對節(jié)點(diǎn)標(biāo)注為0/1,表示是否是要抽取的數(shù)據(jù)區(qū)域。

    (5) 使用機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練得到網(wǎng)頁節(jié)點(diǎn)分類器。對于不同的特征類型,我們可以使用不同的機(jī)器學(xué)習(xí)模型。對于連續(xù)型的數(shù)值特征(如節(jié)點(diǎn)對應(yīng)的矩形區(qū)域的高度、寬度、字體大小等),我們可以使用邏輯回歸、決策樹、BP神經(jīng)網(wǎng)絡(luò)等模型,如本文之后使用了BP神經(jīng)網(wǎng)絡(luò)來訓(xùn)練網(wǎng)頁節(jié)點(diǎn)的分類器;對于網(wǎng)頁快照類的圖像特征,我們可以使用卷積神經(jīng)網(wǎng)絡(luò)等模型。

    (6) 使用分類器定位網(wǎng)頁數(shù)據(jù)節(jié)點(diǎn)后,再使用基于DOM樹的抽取算法抽取出結(jié)構(gòu)化數(shù)據(jù)。在本章后續(xù)部分,我們使用了基于DOM樹的方法結(jié)合基于視覺特征的啟發(fā)式規(guī)則來抽取了論壇、評(píng)論頁面的發(fā)布時(shí)間、作者和正文。

    2.1 論壇頁面、新聞評(píng)論頁面的信息抽取

    圖3 新聞評(píng)論頁面示例

    通過觀察論壇帖子頁面和新聞評(píng)論頁面,我們發(fā)現(xiàn)這些記錄在視覺特征上十分相似。如圖3所示,上邊是騰訊新聞的評(píng)論頁面,下邊是今日頭條的評(píng)論頁面。我們總結(jié)了一些不同論壇網(wǎng)站中的帖子記錄和新聞網(wǎng)站的評(píng)論記錄在視覺特征和網(wǎng)頁結(jié)構(gòu)特征上的一些共性,總結(jié)如下:

    (1) 記錄居中,不同的論壇網(wǎng)站的帖子和新聞網(wǎng)站的評(píng)論信息在頁面中均處于頁面的中間位置。

    (2) 記錄的寬度相似。

    (3) 均包含時(shí)間串,且時(shí)間一般具體到分鐘。如2018/3/4 00:00,時(shí)間串一般位于帖子的頂部或底部。這是非常重要的一個(gè)特點(diǎn),我們將利用這個(gè)特性來召回可能是記錄的那些節(jié)點(diǎn)。

    (4) 在網(wǎng)頁HTML源碼中一般是兄弟關(guān)系,Tristor算法便是基于這個(gè)特性來對記錄節(jié)點(diǎn)來定位的。

    (5) 記錄一般完整的包含在一個(gè)標(biāo)簽節(jié)點(diǎn)下,記錄的標(biāo)簽一般為

  • 、
      、之一。

      因此,利用上述共性特征,我們提出基于框架WEMLVF的論壇網(wǎng)頁和新聞評(píng)論頁面的信息抽取算法,算法的主要步驟遵循框架WEMLVF的主要流程。

      在召回候選節(jié)點(diǎn)部分,我們發(fā)現(xiàn)多數(shù)論壇網(wǎng)站和新聞評(píng)論網(wǎng)頁的記錄大都包含時(shí)間串,且位于同一個(gè)父親節(jié)點(diǎn)下。部分論壇網(wǎng)站的主帖與跟帖不在一個(gè)父親節(jié)點(diǎn)下,如圖4。最后,我們使用算法1對節(jié)點(diǎn)進(jìn)行召回。算法主要是使用由文本節(jié)點(diǎn)的字體和字體顏色拼成的字符串來作為key,算法實(shí)際是按key對兄弟節(jié)點(diǎn)進(jìn)行聚類,尋找出現(xiàn)類別大于1次的所有兄弟節(jié)點(diǎn)來召回,而對于只出現(xiàn)一次的我們單獨(dú)進(jìn)行處理。

      圖4 記錄節(jié)點(diǎn)DOM樹結(jié)構(gòu)

      在特征與模型方面,由于論壇網(wǎng)站和新聞評(píng)論頁面在視覺特征方面存在一些差異,特征無法完全通用。而且,對應(yīng)的噪音信息也不同。因此,我們除了總結(jié)上述共性特征,還分別對論壇網(wǎng)站和新聞評(píng)論頁面提取個(gè)性化特征。

      基于論壇網(wǎng)站的特性,我們提取以下特征:

      (1) 節(jié)點(diǎn)在網(wǎng)頁快照中對應(yīng)的矩形框的寬度和高度。

      (2) 節(jié)點(diǎn)距離頁面左側(cè)和頂部的距離。

      (3) 令(x1,y1),(x2,y2)表示節(jié)點(diǎn)對應(yīng)矩形區(qū)域的左上角和右下角,tnode表示時(shí)間串節(jié)點(diǎn),rnode表示記錄節(jié)點(diǎn),abs表示絕對值函數(shù),則我們提取,如式(1)所示。

      (1)

      (4) 統(tǒng)計(jì)記錄節(jié)點(diǎn)下的時(shí)間串節(jié)點(diǎn)個(gè)數(shù)。

      基于新聞評(píng)論網(wǎng)站的特性,我們提取以下特征:

      (1) 節(jié)點(diǎn)在網(wǎng)頁快照中對應(yīng)的矩形框的寬度和高度。

      (2) 節(jié)點(diǎn)在網(wǎng)頁快照中對應(yīng)的矩形框的位置,即距離頁面左側(cè)和頂部的距離。

      (3) 提取節(jié)點(diǎn)的寬度與父親節(jié)點(diǎn)的寬度的差,這個(gè)主要是用于區(qū)分評(píng)論記錄中的嵌套評(píng)論或引用評(píng)論。

      (4) 節(jié)點(diǎn)中所有文字字體尺寸的最大值。

      模型方面,考慮到使用的特征均為連續(xù)型特征,經(jīng)過對比,我們選擇了使用BP全連接神經(jīng)網(wǎng)絡(luò)來進(jìn)行訓(xùn)練得到網(wǎng)頁元素分類器。在實(shí)驗(yàn)中,我們使用如圖5的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行訓(xùn)練。

      圖5 實(shí)驗(yàn)網(wǎng)絡(luò)結(jié)構(gòu)

      在最終抽取結(jié)構(gòu)化數(shù)據(jù)時(shí),由于模型提取了節(jié)點(diǎn)的兄弟時(shí)間串統(tǒng)計(jì)特征,故時(shí)間可以直接得到;對于作者信息,我們首先使用正則表達(dá)式對作者的URL進(jìn)行正則匹配。若不存在匹配的結(jié)果,則利用節(jié)點(diǎn)的視覺信息尋找記錄節(jié)點(diǎn)中位于最左上角的文字節(jié)點(diǎn)作為作者信息;對于正文信息,我們主要使用了基于視覺特征的啟發(fā)式規(guī)則和文本密度的方法進(jìn)行抽取。令Chari表示節(jié)點(diǎn)i下的文本長度,Tagi表示節(jié)點(diǎn)i下的標(biāo)簽個(gè)數(shù),通過計(jì)算每個(gè)節(jié)點(diǎn)作為根的子樹中所有文本的文本長度與標(biāo)簽個(gè)數(shù)的比值作為當(dāng)前節(jié)點(diǎn)的文本密度,如式(2)所示。

      (2)

      3 自動(dòng)生成網(wǎng)頁信息抽取模板的方法

      在第2節(jié)中,我們提出一種基于視覺特征使用有監(jiān)督機(jī)器學(xué)習(xí)的網(wǎng)頁信息抽取框架WEMLVF。該框架具有良好的通用性,但與其他基于視覺特征的信息抽取方法一樣,基于該框架的信息抽取算法仍然沒有較好的實(shí)用性。因?yàn)槠湓谛畔⒊槿∵^程中,首先要花費(fèi)相當(dāng)高的時(shí)間代價(jià)經(jīng)過瀏覽器的復(fù)雜解析過程獲取網(wǎng)頁的視覺特征,這一步驟導(dǎo)致基于框架WEMLVF的信息抽取算法在抽取效率方面表現(xiàn)較差。為了提高信息抽取的效率,同時(shí)保留算法的準(zhǔn)確率,我們希望找到一種在信息抽取過程中能減少或不使用視覺特征的方法?;谀0宓男畔⒊槿》椒ㄊ峭瑫r(shí)兼具高準(zhǔn)確率和高效率的很好的方法之一。模板的生成通常是離線的,不用過多考慮效率問題。因此,我們可以在生成模板時(shí)結(jié)合基于框架WEMLVF的信息抽取算法,既能充分利用視覺特征,又能保證信息抽取模板的質(zhì)量。同時(shí),在模板表達(dá)時(shí)并不使用視覺特征,這樣能夠在實(shí)際抽取過程中完全回避獲取視覺特征的步驟,從而達(dá)到提高信息抽取效率的目的。

      基于以上分析,我們結(jié)合框架WEMLVF,提出兩種模板自動(dòng)生成方法,即基于XPath的自動(dòng)生成網(wǎng)頁抽取模板的方法和基于包裝器歸納的自動(dòng)生成網(wǎng)頁抽取模板的方法,如圖6。在這兩種方法中,基于框架WEMLVF的信息抽取算法都在抽取模板生成過程中起到了自動(dòng)標(biāo)注網(wǎng)頁的作用,即替代了人工標(biāo)注網(wǎng)頁的步驟。

      圖6 自動(dòng)生成模板流程

      3.1 基于XPath的自動(dòng)生成模板方法

      經(jīng)過觀察我們發(fā)現(xiàn)大部分論壇網(wǎng)站和新聞評(píng)論網(wǎng)站的網(wǎng)頁源碼中的記錄節(jié)點(diǎn)或其祖先節(jié)點(diǎn)標(biāo)簽大多帶有class屬性。于是,我們基于WEMLVF的預(yù)測結(jié)果直接生成記錄節(jié)點(diǎn)XPath以及時(shí)間、作者、正文的XPath。同時(shí),得到訓(xùn)練集中每個(gè)XPath的出現(xiàn)次數(shù)。然后,對集合按照出現(xiàn)次數(shù)降序排序,我們即得到對應(yīng)網(wǎng)頁集合的XPath抽取模板。在預(yù)測時(shí),我們優(yōu)先選擇出現(xiàn)次數(shù)最多的XPath來找到預(yù)測節(jié)點(diǎn)。

      3.2 基于包裝器歸納的自動(dòng)生成模板方法

      我們在SoftMealy算法的基礎(chǔ)上對網(wǎng)頁源碼分詞后建立有限狀態(tài)轉(zhuǎn)換器(Finite-State Transducer,F(xiàn)ST)來構(gòu)建抽取模板。在構(gòu)建FST時(shí),我們可以得到每個(gè)標(biāo)記狀態(tài)對應(yīng)的關(guān)聯(lián)規(guī)則。統(tǒng)計(jì)每一對關(guān)聯(lián)規(guī)則(SL,SR),記錄他們在所有的訓(xùn)練集中的出現(xiàn)次數(shù)c(SL,SR)。然后,在預(yù)測時(shí)間、作者、正文時(shí),由于算法本身可能存在預(yù)測錯(cuò)誤的情況,可能會(huì)引入標(biāo)注錯(cuò)誤。在FST中進(jìn)行匹配時(shí),會(huì)出現(xiàn)多條匹配路徑。一條匹配路徑可以表示為:

      其中,author、time、content的順序在不同的網(wǎng)頁中可能不同。為了盡可能地減少模型引入的誤差,我們找到權(quán)重最大的那條路徑,路徑權(quán)重定義如式(3)所示。

      (3)

      即路徑中,所有狀態(tài)對應(yīng)匹配的關(guān)聯(lián)規(guī)則出現(xiàn)次數(shù)之和,見算法2。

      4 實(shí)驗(yàn)

      4.1 實(shí)驗(yàn)設(shè)計(jì)

      我們的實(shí)驗(yàn)主要是為了驗(yàn)證本文提出的信息抽取框架WEMLVF對論壇、新聞評(píng)論網(wǎng)站的時(shí)間、作者、正文的抽取效果。目前,提出的基于視覺特征的方法,如VIPS主要是對網(wǎng)頁進(jìn)行分塊,但并沒有介紹對單條記錄的定位以及對時(shí)間、作者、正文的抽取方法;經(jīng)典的全自動(dòng)信息抽取算法MDR提出了基于網(wǎng)頁結(jié)構(gòu)相似性的方法來定位記錄區(qū)域,但并沒有介紹對時(shí)間、作者、正文的抽取方法;Tristor算法提出了基于時(shí)間串聚類的方法,且介紹了對時(shí)間、作者、正文的抽取方法,與我們的目標(biāo)一致。因此,我們設(shè)計(jì)了如下的實(shí)驗(yàn):

      (1) 對比WEMLVF、MDR和Tristor在節(jié)點(diǎn)定位方面的準(zhǔn)確率;

      (2) 對比WEMLVF和Tristor在時(shí)間、作者、正文抽取方面的準(zhǔn)確率。

      同時(shí),為了驗(yàn)證我們的方法同樣能夠應(yīng)用在未知的網(wǎng)站中,我們使用交叉驗(yàn)證的方法,將樣本按照網(wǎng)站切分為20折,每次使用其中的19折進(jìn)行訓(xùn)練,然后對剩下的1折進(jìn)行預(yù)測。

      為了驗(yàn)證自動(dòng)生成模板的方法對論壇、新聞評(píng)論網(wǎng)站的時(shí)間、作者、正文的抽取效果及效率,我們設(shè)計(jì)了如下的實(shí)驗(yàn):

      (1) 對基于XPath和基于包裝器歸納的自動(dòng)生成模板的方法在抽取的準(zhǔn)確率方面與WEMLVF進(jìn)行了實(shí)驗(yàn)對比。

      (2) 對使用抽取模板的基于XPath和基于包裝器歸納的自動(dòng)生成模板的方法與不使用抽取模板的方法在抽取網(wǎng)頁的時(shí)間代價(jià)方面進(jìn)行了實(shí)驗(yàn)對比。

      在測試中我們同樣按照網(wǎng)站切分了20折,用其中19折訓(xùn)練,預(yù)測剩下的1折。對于剩下的1折,我們將其隨機(jī)切分成2部分交叉驗(yàn)證。

      4.2 實(shí)驗(yàn)數(shù)據(jù)

      我們從知名網(wǎng)站“站長之家”中的論壇排行榜和新聞門戶排行榜選取了20個(gè)國內(nèi)知名的論壇網(wǎng)站和20個(gè)國內(nèi)知名的新聞門戶網(wǎng)站,從中隨機(jī)選取關(guān)鍵詞。在百度搜索時(shí),指定站點(diǎn)(如“key site:www.gusuwang.com”)對每個(gè)網(wǎng)站采集了若干個(gè)頁面,總計(jì)有4 164個(gè)論壇網(wǎng)頁和1 027個(gè)新聞評(píng)論頁面。由此看出數(shù)據(jù)來源十分多樣,且覆蓋了國內(nèi)的主要論壇和新聞門戶網(wǎng)站,互聯(lián)網(wǎng)中每天產(chǎn)生的數(shù)據(jù)有很大一部分都是來自于這些網(wǎng)站。

      4.3 實(shí)驗(yàn)流程

      我們以騰訊新聞為例,騰訊新聞評(píng)論頁面中評(píng)論部分的HTML源碼主要是如下的結(jié)構(gòu),其中,

      節(jié)點(diǎn)即為我們要抽取的每一條評(píng)論:

      3小時(shí)前

      基于WEMLVF框架,我們使用基于時(shí)間串匹配的方法匹配“3小時(shí)前”,并召回其所有父親節(jié)點(diǎn)。然后,提取節(jié)點(diǎn)的特征并使用模型訓(xùn)練,最終預(yù)測得到

      對應(yīng)的節(jié)點(diǎn)為評(píng)論數(shù)據(jù)節(jié)點(diǎn),再使用啟發(fā)式規(guī)則的方法定位時(shí)間、作者、正文所在節(jié)點(diǎn)。然后,利用這些預(yù)測節(jié)點(diǎn)的信息,我們分別使用基于XPath和基于包裝器歸納的自動(dòng)生成模板的方法生成對應(yīng)的時(shí)間、作者、正文的模板。在上述例子中,我們可以得到騰訊新聞評(píng)論頁面回帖時(shí)間的XPath模板為:

      //div[@class='comment']/div[@class='comment-user']/div[@class='comment-time']

      包裝器歸納模板為:

      SL=Html(

      )|Html(
      )|Html()

      SR=Html()|Html(

      )|Html(
      )

      4.4 實(shí)驗(yàn)環(huán)境

      我們使用phantomJS來采集網(wǎng)頁和提取網(wǎng)頁的視覺特征。對于模型,使用Keras提供的神經(jīng)網(wǎng)絡(luò)框架,構(gòu)建了三層全連接的神經(jīng)網(wǎng)絡(luò)模型。我們的實(shí)驗(yàn)在Macbook Pro,3.1 GHz Intel Core i5,16G內(nèi)存的機(jī)器上運(yùn)行。對于XPath的處理,我們使用了Python的lxml庫;對于html源碼的預(yù)處理和解析,使用了Python的BeautifulSoup庫;基于包裝器歸納的方法生成模板的實(shí)驗(yàn)中,使用了實(shí)驗(yàn)室開發(fā)的基于SoftMealy的抽取組件mask。

      4.5 評(píng)價(jià)指標(biāo)

      我們主要關(guān)注網(wǎng)站的發(fā)帖時(shí)間、作者、正文,最終對這三個(gè)屬性分別使用F1值來進(jìn)行評(píng)價(jià)。對單個(gè)網(wǎng)頁,如式(4)所示。

      (4)

      其中,Ei為模型預(yù)測結(jié)果,Li為我們的標(biāo)注集。以網(wǎng)頁為單位進(jìn)行評(píng)價(jià),最終我們統(tǒng)計(jì)網(wǎng)頁的準(zhǔn)確率如式(5)所示。

      (5)

      其中,N為網(wǎng)頁的個(gè)數(shù)。

      4.6 實(shí)驗(yàn)結(jié)果與分析

      我們的實(shí)驗(yàn)首先比較了WEMLVF與MDR、Tristor在節(jié)點(diǎn)定位上的準(zhǔn)確率,實(shí)驗(yàn)結(jié)果如下:

      圖7 記錄定位結(jié)果對比

      可以看出,WEMLVF在節(jié)點(diǎn)定位的準(zhǔn)確率上要比MDR與Tristor高。MDR基于網(wǎng)頁結(jié)構(gòu)相似度來定位記錄節(jié)點(diǎn),對于網(wǎng)頁內(nèi)記錄數(shù)較少時(shí),無法基于相似度進(jìn)行定位,故準(zhǔn)確率不高;Tristor會(huì)先判斷頁面類型,對于頁面內(nèi)記錄較少時(shí)會(huì)單獨(dú)進(jìn)行處理,故效果比MDR好,但仍然有可能定位到噪音信息。

      隨后我們比較了WEMLVF和Tristor對論壇網(wǎng)頁和新聞評(píng)論網(wǎng)頁中記錄的時(shí)間、作者、正文的抽取準(zhǔn)確率,實(shí)驗(yàn)結(jié)果如下:

      圖8 WEMLVF抽取結(jié)果對比

      從實(shí)驗(yàn)結(jié)果中可以看出,基于視覺特征的抽取算法WEMLVF在帖子時(shí)間、作者和正文的抽取上都較Tristor有一定的提升。算法抽取錯(cuò)誤的地方主要在于頁面評(píng)論只有1條時(shí),我們召回了所有的{node | 以node為根的子樹包含時(shí)間串}。此時(shí),容易引入一些噪聲,降低抽取的準(zhǔn)確率,如召回了新聞?wù)牡陌l(fā)布時(shí)間所在的區(qū)域等。另一個(gè)主要錯(cuò)誤的原因是部分論壇網(wǎng)站的主貼與跟帖的視覺特征不盡相同,如圖4所示,部分論壇網(wǎng)站的主帖與跟帖不在同一個(gè)父親節(jié)點(diǎn)下。因此,對于部分論壇網(wǎng)站主帖的抽取可能會(huì)引入誤差。

      從圖9中可看出,基于包裝器歸納的方法和基于XPath兩種自動(dòng)生成模板的方法的抽取效果與WEMLVF相當(dāng)?;赬Path和基于包裝器歸納是兩種不同的定位節(jié)點(diǎn)方法,因不同網(wǎng)頁的HTML源碼結(jié)構(gòu)不同,基于XPath的方法使用了網(wǎng)頁標(biāo)簽的屬性來定位,如class等。而基于包裝器歸納的方法使用了左規(guī)則和右規(guī)則,即節(jié)點(diǎn)上下文的標(biāo)簽序列來定位。因此,對于不同的網(wǎng)頁兩種方法效果有部分差異。

      圖9 自動(dòng)生成模板的方法實(shí)驗(yàn)結(jié)果

      算法平均抽取時(shí)間/網(wǎng)頁WEMLVF4 840ms基于XPath自動(dòng)生成模板295ms基于包裝器歸納自動(dòng)生成模板105ms

      從表1可以看出,自動(dòng)生成模板的方法對于單個(gè)網(wǎng)頁抽取的運(yùn)行時(shí)間較WEMLVF有明顯提升,因?yàn)?,在抽取過程中自動(dòng)生成模板的方法不需要提取視覺特征?;诎b器歸納的方法運(yùn)行速度比基于XPath的要快,因?yàn)榛诎b器歸納的方法無需解析HTML源碼構(gòu)建DOM樹,只需對網(wǎng)頁進(jìn)行分詞得到Token序列來構(gòu)建FST。

      5 結(jié)論與展望

      本文提出了基于視覺特征的網(wǎng)頁信息抽取算法框架WEMLVF,并在論壇和新聞評(píng)論網(wǎng)頁抽取中進(jìn)行了實(shí)驗(yàn),驗(yàn)證了該框架的有效性。提出了基于WEMLVF框架,分別使用基于XPath和基于包裝器歸納的兩種自動(dòng)生成網(wǎng)頁抽取模板的方法,使得在網(wǎng)頁抽取過程中不需對網(wǎng)頁提取視覺特征,顯著加速了網(wǎng)頁抽取的效率。通過實(shí)驗(yàn)表明,該方法在抽取精度方面能取得與WEMLVF相當(dāng)?shù)男Ч?,且抽取效率遠(yuǎn)高于WEMLVF。

      在本文的實(shí)驗(yàn)過程中,我們還嘗試了通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取網(wǎng)頁節(jié)點(diǎn)快照中節(jié)點(diǎn)對應(yīng)矩形區(qū)域的圖片特征。然后,結(jié)合所提出的視覺特征共同訓(xùn)練,但最終效果提升不明顯。我們希望在未來的工作中能夠再對網(wǎng)頁快照特征進(jìn)行更深入的研究,從而在網(wǎng)頁信息抽取中更好地利用視覺特征。

      猜你喜歡
      頁面特征信息
      大狗熊在睡覺
      刷新生活的頁面
      如何表達(dá)“特征”
      不忠誠的四個(gè)特征
      抓住特征巧觀察
      訂閱信息
      中華手工(2017年2期)2017-06-06 23:00:31
      展會(huì)信息
      線性代數(shù)的應(yīng)用特征
      河南科技(2014年23期)2014-02-27 14:19:15
      同一Word文檔 縱橫頁面并存
      淺析ASP.NET頁面導(dǎo)航技術(shù)
  • 中文字幕人成人乱码亚洲影| 亚洲九九香蕉| 在线观看免费日韩欧美大片| 欧美日韩亚洲国产一区二区在线观看| 婷婷亚洲欧美| 少妇人妻一区二区三区视频| 制服丝袜大香蕉在线| 欧美色视频一区免费| 色尼玛亚洲综合影院| 成人高潮视频无遮挡免费网站| 亚洲精品在线观看二区| 天天添夜夜摸| xxxwww97欧美| 特级一级黄色大片| 国产野战对白在线观看| 51午夜福利影视在线观看| 亚洲免费av在线视频| 亚洲av中文字字幕乱码综合| 日韩免费av在线播放| 88av欧美| 日本一二三区视频观看| 免费在线观看日本一区| 欧美+亚洲+日韩+国产| 哪里可以看免费的av片| 亚洲人与动物交配视频| 国产成人精品久久二区二区免费| 婷婷精品国产亚洲av在线| 视频区欧美日本亚洲| 午夜精品久久久久久毛片777| 最新美女视频免费是黄的| 国产黄片美女视频| 国产精品,欧美在线| 岛国在线免费视频观看| 国内久久婷婷六月综合欲色啪| 色老头精品视频在线观看| 久久国产乱子伦精品免费另类| 九九热线精品视视频播放| 亚洲人成电影免费在线| 在线观看舔阴道视频| 97碰自拍视频| 我要搜黄色片| 欧美极品一区二区三区四区| 三级男女做爰猛烈吃奶摸视频| 男女做爰动态图高潮gif福利片| 岛国在线免费视频观看| 亚洲国产中文字幕在线视频| 国产视频一区二区在线看| 午夜免费观看网址| 好男人在线观看高清免费视频| xxx96com| 亚洲成人久久性| 亚洲av美国av| 香蕉丝袜av| 18禁黄网站禁片午夜丰满| 免费看日本二区| 黄色毛片三级朝国网站| 色在线成人网| 99久久无色码亚洲精品果冻| 久久国产精品人妻蜜桃| 精品电影一区二区在线| 日韩欧美免费精品| 欧美中文综合在线视频| 久久精品91蜜桃| 在线免费观看的www视频| 桃红色精品国产亚洲av| 日日夜夜操网爽| 国产爱豆传媒在线观看 | 熟女少妇亚洲综合色aaa.| 欧美精品啪啪一区二区三区| 丰满的人妻完整版| 国产熟女午夜一区二区三区| 91在线观看av| 色噜噜av男人的天堂激情| 欧美zozozo另类| 亚洲男人的天堂狠狠| 白带黄色成豆腐渣| 久久99热这里只有精品18| 久久精品91无色码中文字幕| 九色国产91popny在线| 身体一侧抽搐| 叶爱在线成人免费视频播放| 色av中文字幕| 国产99白浆流出| 久久精品影院6| 日韩有码中文字幕| 老司机深夜福利视频在线观看| 女人高潮潮喷娇喘18禁视频| 国产高清有码在线观看视频 | 久久欧美精品欧美久久欧美| 日日干狠狠操夜夜爽| 校园春色视频在线观看| 人人妻,人人澡人人爽秒播| 亚洲国产欧美人成| 国产精品亚洲av一区麻豆| 日本熟妇午夜| 宅男免费午夜| 国产麻豆成人av免费视频| 久久久久久久久中文| 午夜免费成人在线视频| 精品免费久久久久久久清纯| xxx96com| 亚洲 国产 在线| 舔av片在线| 国产成人欧美在线观看| 国产视频一区二区在线看| 欧美午夜高清在线| 俺也久久电影网| 午夜精品一区二区三区免费看| 两个人的视频大全免费| 嫩草影院精品99| 国产v大片淫在线免费观看| 白带黄色成豆腐渣| 19禁男女啪啪无遮挡网站| 一进一出抽搐动态| 亚洲国产精品合色在线| 中文字幕人妻丝袜一区二区| 国产区一区二久久| 成人高潮视频无遮挡免费网站| 两个人免费观看高清视频| 丝袜人妻中文字幕| 在线国产一区二区在线| 国产av一区二区精品久久| 黄片大片在线免费观看| 窝窝影院91人妻| 大型黄色视频在线免费观看| 69av精品久久久久久| 中文字幕最新亚洲高清| 少妇粗大呻吟视频| 日本a在线网址| 国产精品 欧美亚洲| 国产亚洲精品久久久久久毛片| 一二三四社区在线视频社区8| 可以在线观看的亚洲视频| 91九色精品人成在线观看| 啦啦啦免费观看视频1| 久久精品成人免费网站| 国产亚洲精品av在线| 亚洲色图av天堂| 久久天堂一区二区三区四区| 后天国语完整版免费观看| 天堂av国产一区二区熟女人妻 | 国产熟女午夜一区二区三区| 亚洲最大成人中文| 国产一区二区在线av高清观看| 老司机午夜十八禁免费视频| 亚洲专区国产一区二区| 淫秽高清视频在线观看| 国产激情久久老熟女| 夜夜看夜夜爽夜夜摸| 国产黄a三级三级三级人| aaaaa片日本免费| 免费无遮挡裸体视频| 中文字幕人妻丝袜一区二区| 两人在一起打扑克的视频| 成人国产综合亚洲| 亚洲av成人av| 精品午夜福利视频在线观看一区| 久久久久久人人人人人| 黄频高清免费视频| 伦理电影免费视频| 最好的美女福利视频网| 色播亚洲综合网| 欧美一级a爱片免费观看看 | 怎么达到女性高潮| 国产一区在线观看成人免费| 欧美日韩福利视频一区二区| av免费在线观看网站| 长腿黑丝高跟| 少妇的丰满在线观看| 全区人妻精品视频| 日本免费a在线| 在线播放国产精品三级| 亚洲美女黄片视频| 青草久久国产| 亚洲一区中文字幕在线| 欧美性猛交黑人性爽| 成熟少妇高潮喷水视频| 男人舔奶头视频| 99国产精品一区二区蜜桃av| 波多野结衣巨乳人妻| 啦啦啦免费观看视频1| 两性夫妻黄色片| 91在线观看av| 亚洲国产欧洲综合997久久,| 国产精品久久电影中文字幕| 女人高潮潮喷娇喘18禁视频| 好男人在线观看高清免费视频| 又黄又粗又硬又大视频| 亚洲精品国产精品久久久不卡| 欧美一级毛片孕妇| 天天躁夜夜躁狠狠躁躁| 老鸭窝网址在线观看| 精品国内亚洲2022精品成人| 日韩欧美一区二区三区在线观看| 狂野欧美白嫩少妇大欣赏| 亚洲国产精品合色在线| 嫩草影院精品99| 国产人伦9x9x在线观看| 成人三级黄色视频| 可以在线观看的亚洲视频| 欧美不卡视频在线免费观看 | 成人永久免费在线观看视频| 亚洲精品美女久久久久99蜜臀| 亚洲免费av在线视频| 中文亚洲av片在线观看爽| 亚洲无线在线观看| 亚洲av成人精品一区久久| 欧美日本亚洲视频在线播放| 午夜精品久久久久久毛片777| 国内精品一区二区在线观看| 一个人免费在线观看的高清视频| 国产久久久一区二区三区| 成人国产一区最新在线观看| 久久午夜亚洲精品久久| 日本熟妇午夜| 19禁男女啪啪无遮挡网站| 亚洲avbb在线观看| 97碰自拍视频| tocl精华| 久久久久国产精品人妻aⅴ院| 88av欧美| 久久久久精品国产欧美久久久| 欧美+亚洲+日韩+国产| 1024视频免费在线观看| 99国产精品一区二区三区| 亚洲国产欧洲综合997久久,| 国产高清videossex| 男人舔奶头视频| 日韩大码丰满熟妇| 婷婷亚洲欧美| 少妇裸体淫交视频免费看高清 | 草草在线视频免费看| 日本一区二区免费在线视频| 动漫黄色视频在线观看| 久久精品91无色码中文字幕| 岛国在线观看网站| 我要搜黄色片| 9191精品国产免费久久| 国产精品一及| 欧美中文综合在线视频| 丁香欧美五月| 免费在线观看成人毛片| 亚洲精品中文字幕在线视频| 国产单亲对白刺激| 波多野结衣高清无吗| 黄片大片在线免费观看| 欧美日韩瑟瑟在线播放| 国产一区二区在线av高清观看| 高清在线国产一区| 国产野战对白在线观看| 99热6这里只有精品| 国产精品亚洲一级av第二区| 免费搜索国产男女视频| 香蕉久久夜色| 我的老师免费观看完整版| 大型av网站在线播放| 天堂av国产一区二区熟女人妻 | 欧美日韩亚洲国产一区二区在线观看| 亚洲美女黄片视频| 免费在线观看成人毛片| 又粗又爽又猛毛片免费看| 欧美成人一区二区免费高清观看 | www日本黄色视频网| 亚洲人成电影免费在线| 老汉色∧v一级毛片| 母亲3免费完整高清在线观看| 在线国产一区二区在线| 日本精品一区二区三区蜜桃| 国产片内射在线| 天天躁狠狠躁夜夜躁狠狠躁| 夜夜夜夜夜久久久久| 妹子高潮喷水视频| 十八禁人妻一区二区| 国内精品一区二区在线观看| 国产黄色小视频在线观看| 可以在线观看毛片的网站| 国产私拍福利视频在线观看| www.熟女人妻精品国产| 国产主播在线观看一区二区| 亚洲免费av在线视频| 久久久久久九九精品二区国产 | 男人舔奶头视频| 一本一本综合久久| 熟女电影av网| 中国美女看黄片| 熟妇人妻久久中文字幕3abv| 99国产综合亚洲精品| 中文字幕久久专区| 美女高潮喷水抽搐中文字幕| 亚洲天堂国产精品一区在线| 少妇被粗大的猛进出69影院| 国产精品久久电影中文字幕| 亚洲国产看品久久| 久久久久久亚洲精品国产蜜桃av| 99久久久亚洲精品蜜臀av| 18美女黄网站色大片免费观看| 国产精品乱码一区二三区的特点| 性色av乱码一区二区三区2| 丁香六月欧美| av有码第一页| 亚洲 欧美一区二区三区| 亚洲成人国产一区在线观看| 亚洲第一电影网av| 国产高清激情床上av| 又爽又黄无遮挡网站| 日韩精品青青久久久久久| 久久久国产成人免费| 麻豆成人av在线观看| 亚洲欧美一区二区三区黑人| 搞女人的毛片| 日本免费a在线| 久久精品国产综合久久久| АⅤ资源中文在线天堂| 国产精品电影一区二区三区| 亚洲熟妇熟女久久| 中文字幕久久专区| 九色成人免费人妻av| 最新美女视频免费是黄的| 草草在线视频免费看| 精品午夜福利视频在线观看一区| 巨乳人妻的诱惑在线观看| 亚洲一区高清亚洲精品| 久久国产乱子伦精品免费另类| 99热6这里只有精品| 午夜视频精品福利| 亚洲成人久久爱视频| 99久久久亚洲精品蜜臀av| 国产亚洲av嫩草精品影院| 婷婷精品国产亚洲av| 狠狠狠狠99中文字幕| 欧美日韩国产亚洲二区| 亚洲九九香蕉| 免费在线观看视频国产中文字幕亚洲| 91av网站免费观看| 91九色精品人成在线观看| 90打野战视频偷拍视频| 在线观看舔阴道视频| 亚洲人成77777在线视频| 真人做人爱边吃奶动态| 国产精品日韩av在线免费观看| 99热这里只有是精品50| 久久精品影院6| 人妻丰满熟妇av一区二区三区| 国产精品,欧美在线| 俺也久久电影网| 777久久人妻少妇嫩草av网站| 69av精品久久久久久| 亚洲va日本ⅴa欧美va伊人久久| 免费看美女性在线毛片视频| 两性午夜刺激爽爽歪歪视频在线观看 | 亚洲一卡2卡3卡4卡5卡精品中文| 黄色 视频免费看| 在线观看午夜福利视频| 夜夜看夜夜爽夜夜摸| 嫁个100分男人电影在线观看| 在线观看免费视频日本深夜| 在线观看免费日韩欧美大片| 我的老师免费观看完整版| 成年人黄色毛片网站| 亚洲国产高清在线一区二区三| 高清毛片免费观看视频网站| 国产午夜福利久久久久久| 91国产中文字幕| 欧美三级亚洲精品| 一级作爱视频免费观看| 午夜福利高清视频| 热99re8久久精品国产| 天天躁夜夜躁狠狠躁躁| 国产日本99.免费观看| 97碰自拍视频| 成人国语在线视频| 国产又色又爽无遮挡免费看| 日本三级黄在线观看| 国产av一区二区精品久久| 国内久久婷婷六月综合欲色啪| 婷婷六月久久综合丁香| 正在播放国产对白刺激| 亚洲男人天堂网一区| 黑人欧美特级aaaaaa片| 免费高清视频大片| 免费一级毛片在线播放高清视频| 精品久久久久久久毛片微露脸| 精品高清国产在线一区| 国内毛片毛片毛片毛片毛片| 一本综合久久免费| 69av精品久久久久久| 国产黄片美女视频| 男插女下体视频免费在线播放| 熟女电影av网| 国产熟女午夜一区二区三区| 日韩欧美国产一区二区入口| 国产精品亚洲av一区麻豆| 搡老岳熟女国产| 91麻豆av在线| 国产蜜桃级精品一区二区三区| 国产片内射在线| 亚洲,欧美精品.| 黄色a级毛片大全视频| 国产欧美日韩精品亚洲av| 丁香六月欧美| 香蕉丝袜av| 成人高潮视频无遮挡免费网站| 日韩av在线大香蕉| 黄色成人免费大全| 91国产中文字幕| 成人av一区二区三区在线看| 久久久精品国产亚洲av高清涩受| 国产野战对白在线观看| 精品久久久久久成人av| 91麻豆精品激情在线观看国产| 国产在线精品亚洲第一网站| 欧美一区二区国产精品久久精品 | 国产黄a三级三级三级人| 精品久久久久久久人妻蜜臀av| 嫩草影院精品99| 两性午夜刺激爽爽歪歪视频在线观看 | 99国产精品99久久久久| 久久中文字幕一级| 777久久人妻少妇嫩草av网站| 99riav亚洲国产免费| 精品国产超薄肉色丝袜足j| 别揉我奶头~嗯~啊~动态视频| 亚洲专区中文字幕在线| 亚洲免费av在线视频| 中文字幕人成人乱码亚洲影| 成人18禁高潮啪啪吃奶动态图| 亚洲男人天堂网一区| 日日爽夜夜爽网站| 麻豆国产av国片精品| 国产一级毛片七仙女欲春2| 别揉我奶头~嗯~啊~动态视频| 久久欧美精品欧美久久欧美| 99久久综合精品五月天人人| 久久精品国产清高在天天线| 啦啦啦观看免费观看视频高清| 亚洲无线在线观看| 757午夜福利合集在线观看| 啪啪无遮挡十八禁网站| 欧美三级亚洲精品| 美女 人体艺术 gogo| 亚洲乱码一区二区免费版| 午夜福利成人在线免费观看| 亚洲成人国产一区在线观看| 99国产精品99久久久久| 日本免费a在线| 婷婷精品国产亚洲av| 国产亚洲av嫩草精品影院| 亚洲全国av大片| 欧美中文日本在线观看视频| 久久99热这里只有精品18| 50天的宝宝边吃奶边哭怎么回事| 午夜福利免费观看在线| 日韩精品中文字幕看吧| 精品久久久久久久末码| 老汉色∧v一级毛片| 久久久久性生活片| 欧美在线黄色| 精品久久久久久久久久免费视频| 舔av片在线| 激情在线观看视频在线高清| e午夜精品久久久久久久| 欧美日本亚洲视频在线播放| svipshipincom国产片| www.999成人在线观看| 天堂av国产一区二区熟女人妻 | 日韩欧美在线乱码| 欧美在线一区亚洲| 久久婷婷成人综合色麻豆| 午夜老司机福利片| 男女下面进入的视频免费午夜| 午夜久久久久精精品| av有码第一页| 日韩精品中文字幕看吧| tocl精华| 欧美av亚洲av综合av国产av| 正在播放国产对白刺激| videosex国产| 国产精品一区二区三区四区免费观看 | 久久精品国产清高在天天线| 精品久久久久久久人妻蜜臀av| 午夜亚洲福利在线播放| 亚洲成人免费电影在线观看| 很黄的视频免费| 日本 av在线| 亚洲在线自拍视频| 久久人妻福利社区极品人妻图片| 国产精品1区2区在线观看.| 久久午夜亚洲精品久久| 无遮挡黄片免费观看| 天堂影院成人在线观看| 久久久久久久午夜电影| 国产精品国产高清国产av| 在线观看免费日韩欧美大片| 最好的美女福利视频网| 黄色丝袜av网址大全| 国产精品九九99| 成人高潮视频无遮挡免费网站| 黄片大片在线免费观看| 最好的美女福利视频网| 亚洲天堂国产精品一区在线| 舔av片在线| 亚洲专区国产一区二区| 午夜老司机福利片| 婷婷六月久久综合丁香| 麻豆一二三区av精品| 国产成人精品无人区| 精品国产超薄肉色丝袜足j| av片东京热男人的天堂| 日韩欧美一区二区三区在线观看| 看片在线看免费视频| 亚洲七黄色美女视频| 国产午夜福利久久久久久| e午夜精品久久久久久久| 精品国产美女av久久久久小说| 波多野结衣巨乳人妻| 国产精品久久久久久人妻精品电影| 人妻夜夜爽99麻豆av| 欧美一级毛片孕妇| 免费高清视频大片| 久久久久国产精品人妻aⅴ院| 1024手机看黄色片| 国产成人系列免费观看| 日本一本二区三区精品| 制服丝袜大香蕉在线| 亚洲电影在线观看av| av片东京热男人的天堂| 国产精品免费一区二区三区在线| 欧美乱码精品一区二区三区| 99riav亚洲国产免费| 女人高潮潮喷娇喘18禁视频| 最新美女视频免费是黄的| 俄罗斯特黄特色一大片| 亚洲电影在线观看av| 女人被狂操c到高潮| 深夜精品福利| 又黄又粗又硬又大视频| 真人一进一出gif抽搐免费| 精华霜和精华液先用哪个| 亚洲在线自拍视频| 久久精品国产亚洲av高清一级| 麻豆久久精品国产亚洲av| 久久精品国产99精品国产亚洲性色| 美女高潮喷水抽搐中文字幕| 不卡av一区二区三区| 久久午夜亚洲精品久久| 美女午夜性视频免费| 成人一区二区视频在线观看| 欧美在线一区亚洲| 伊人久久大香线蕉亚洲五| 欧洲精品卡2卡3卡4卡5卡区| 琪琪午夜伦伦电影理论片6080| 亚洲欧美精品综合一区二区三区| 老司机午夜十八禁免费视频| 国产精品免费一区二区三区在线| 欧美绝顶高潮抽搐喷水| 久久久国产成人免费| avwww免费| 麻豆一二三区av精品| 欧美成人一区二区免费高清观看 | 欧美日韩乱码在线| 精品国产超薄肉色丝袜足j| 免费看日本二区| 天堂√8在线中文| 老熟妇乱子伦视频在线观看| 非洲黑人性xxxx精品又粗又长| 久久精品国产清高在天天线| 欧美乱色亚洲激情| 国产熟女午夜一区二区三区| 欧美黑人精品巨大| 看片在线看免费视频| 国模一区二区三区四区视频 | 亚洲欧美一区二区三区黑人| ponron亚洲| 在线播放国产精品三级| 免费看美女性在线毛片视频| 人妻夜夜爽99麻豆av| www.精华液| 欧美性猛交╳xxx乱大交人| 亚洲中文字幕日韩| 国产成人欧美在线观看| 19禁男女啪啪无遮挡网站| 黄色成人免费大全| 欧美丝袜亚洲另类 | 久9热在线精品视频| 欧美黑人精品巨大| 久久久久免费精品人妻一区二区| 成年人黄色毛片网站| 国产精品香港三级国产av潘金莲| 中文字幕av在线有码专区| 在线观看午夜福利视频| 亚洲国产精品sss在线观看| 成人欧美大片| 日韩高清综合在线| 国产在线观看jvid| 波多野结衣巨乳人妻| 日本一二三区视频观看| 国产不卡一卡二| 久久久久久久久中文| 两性夫妻黄色片| 久久亚洲精品不卡| 91在线观看av| 欧美人与性动交α欧美精品济南到| 国产av一区二区精品久久| 亚洲国产欧美网| 母亲3免费完整高清在线观看| 身体一侧抽搐| 亚洲第一欧美日韩一区二区三区| 床上黄色一级片| 久热爱精品视频在线9| 久久香蕉激情| 精华霜和精华液先用哪个| 精品一区二区三区av网在线观看| 欧美zozozo另类| 人人妻人人澡欧美一区二区| 啦啦啦韩国在线观看视频|