• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    可擴(kuò)展的網(wǎng)頁關(guān)鍵信息抽取研究

    2015-04-25 08:23:59郭少華李海燕程學(xué)旗
    中文信息學(xué)報(bào) 2015年1期
    關(guān)鍵詞:全自動(dòng)正文網(wǎng)頁

    郭少華,郭 巖,李海燕,劉 悅,張 瑾,程學(xué)旗

    (1. 中國科學(xué)院計(jì)算技術(shù)研究所,北京 100190;2. 中國科學(xué)院大學(xué),北京 100049)

    ?

    可擴(kuò)展的網(wǎng)頁關(guān)鍵信息抽取研究

    郭少華1,2,郭 巖1,李海燕1,劉 悅1,張 瑾1,程學(xué)旗1

    (1. 中國科學(xué)院計(jì)算技術(shù)研究所,北京 100190;2. 中國科學(xué)院大學(xué),北京 100049)

    該文提出了一種可擴(kuò)展的網(wǎng)頁關(guān)鍵信息抽取框架。該框架很好地融合了模板無關(guān)的全自動(dòng)信息抽取算法和基于模板的信息抽取算法,從本質(zhì)上提高抽取精度和抽取效率。該框架中的一些關(guān)鍵環(huán)節(jié)可根據(jù)需求進(jìn)行替換,因此該框架具有很好的可擴(kuò)展性。同時(shí),該文還提出了模板的正交過濾算法。將該算法引入基于模板的抽取算法中,能夠從本質(zhì)上提高生成的模板的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果驗(yàn)證了上述結(jié)論。

    關(guān)鍵信息;信息抽?。豢蓴U(kuò)展框架;正交過濾

    1 引言

    網(wǎng)頁的關(guān)鍵信息是網(wǎng)頁的最基本的信息,它體現(xiàn)了該網(wǎng)頁和其他網(wǎng)頁的差別。常見的關(guān)鍵信息有正文、作者、來源、發(fā)布時(shí)間等。在網(wǎng)絡(luò)輿情監(jiān)控、網(wǎng)絡(luò)情報(bào)分析、搜索引擎等重大網(wǎng)絡(luò)應(yīng)用中,這些關(guān)鍵信息都是后期分析挖掘必不可少的基礎(chǔ)數(shù)據(jù)。需要利用網(wǎng)絡(luò)信息抽取技術(shù)[1-2]從網(wǎng)頁中抽取出這些關(guān)鍵信息。從某種角度上講,關(guān)鍵信息的抽取質(zhì)量直接決定了網(wǎng)絡(luò)應(yīng)用服務(wù)的效果。因此,網(wǎng)頁的關(guān)鍵信息抽取研究具有重大的應(yīng)用價(jià)值。

    隨著網(wǎng)頁規(guī)模呈指數(shù)級(jí)增長,在網(wǎng)絡(luò)應(yīng)用中,模板無關(guān)的全自動(dòng)信息抽取算法和基于模板的信息抽取算法以其特有的優(yōu)勢成為信息抽取環(huán)節(jié)的主流算法。該算法通常針對(duì)特定需求,利用一些經(jīng)驗(yàn)規(guī)則處理特定領(lǐng)域或特定格式的網(wǎng)頁[3-5]。因?yàn)槌槿∵^程無需人工干預(yù),所以此類算法越來越多地應(yīng)用于實(shí)際網(wǎng)絡(luò)環(huán)境中?;谀0宓男畔⒊槿∷惴ǔ浞掷昧藙?dòng)態(tài)網(wǎng)頁的規(guī)律[6-7]: 網(wǎng)頁是由同一個(gè)模板生成的,屬于模板的符號(hào)不會(huì)變化,變化的只是模板中填充的數(shù)據(jù)。因此,該算法在對(duì)動(dòng)態(tài)網(wǎng)頁進(jìn)行抽取時(shí)能夠取得較高的精度。

    但是,這兩類抽取算法也存在著其固有的缺陷。模板無關(guān)的全自動(dòng)抽取算法通?;谶^強(qiáng)的假設(shè)。在處理多樣性日益顯著的網(wǎng)頁時(shí),常常因?yàn)槟承┚W(wǎng)頁不符合假設(shè),而導(dǎo)致出現(xiàn)抽取精度不能滿足需求的情況;并且由于使用過多規(guī)則,導(dǎo)致抽取效率低的情況。使用基于模板的信息抽取算法進(jìn)行抽取時(shí),需先針對(duì)某類網(wǎng)頁學(xué)習(xí)出模板,后人工標(biāo)注。面對(duì)日益增多的數(shù)據(jù)源,會(huì)導(dǎo)致網(wǎng)絡(luò)應(yīng)用的運(yùn)維代價(jià)過大;同時(shí)日益復(fù)雜的網(wǎng)頁使得模板的準(zhǔn)確性下降,從而導(dǎo)致抽取精度下降。

    針對(duì)上述模板無關(guān)的全自動(dòng)信息抽取算法和基于模板的信息抽取算法的缺陷,本文進(jìn)行了深入研究。本文的貢獻(xiàn)主要有以下兩點(diǎn)。

    首先,提出了一種可擴(kuò)展的網(wǎng)頁關(guān)鍵信息抽取框架。該框架通過輸入訓(xùn)練網(wǎng)頁或其他算法的抽取結(jié)果,生成關(guān)鍵信息模板集。再通過模板的正交過濾算法,生成候選的關(guān)鍵信息模板。最后通過模板的特征過濾算法,生成最終的關(guān)鍵信息模板。利用該模板可快速、準(zhǔn)確地從同類型網(wǎng)頁中抽取關(guān)鍵信息。該框架很好地融合了模板無關(guān)的全自動(dòng)信息抽取算法和基于模板的信息抽取算法,使得兩類算法能夠充分發(fā)揮各自的優(yōu)點(diǎn),并在缺點(diǎn)方面互相彌補(bǔ)。實(shí)驗(yàn)結(jié)果表明,該框架能夠在抽取精度、抽取效率方面有本質(zhì)上的提高。此外,該框架具有很好的可擴(kuò)展性,框架中的一些關(guān)鍵環(huán)節(jié)可根據(jù)需求進(jìn)行替換。

    其次,本文提出了模板的正交過濾算法,該算法將訓(xùn)練網(wǎng)頁或其他算法的抽取結(jié)果分成若干份,生成若干個(gè)模板,再通過模板的正交過濾算法,過濾掉模板中的噪音部分,得到候選模板。將該算法引入基于模板的抽取算法中,能夠從本質(zhì)上提高生成的模板的準(zhǔn)確性,最后的實(shí)驗(yàn)結(jié)果也充分驗(yàn)證了這一結(jié)論。

    本文的組織結(jié)構(gòu)如下: 第1節(jié)介紹了本文提出的可擴(kuò)展的網(wǎng)頁關(guān)鍵信息抽取框架的背景及意義,并簡單介紹該框架及核心算法。第2節(jié)介紹主要的相關(guān)工作。第3節(jié)詳細(xì)介紹可擴(kuò)展的網(wǎng)頁關(guān)鍵信息抽取框架,重點(diǎn)介紹框架中的關(guān)鍵技術(shù)點(diǎn)。第4節(jié)介紹實(shí)驗(yàn)與結(jié)果分析。第5節(jié)對(duì)本文工作進(jìn)行總結(jié),并介紹未來工作。

    2 相關(guān)工作

    網(wǎng)頁信息抽取是一種針對(duì)網(wǎng)絡(luò)數(shù)據(jù)源和網(wǎng)頁進(jìn)行深度處理和加工的過程。由于網(wǎng)頁的復(fù)雜性和多樣性,使得網(wǎng)頁信息抽取算法[1-2]也越來越多。常見的網(wǎng)頁信息抽取算法主要可分為4類: 包裝器語言、包裝器歸納、基于模板的信息抽取和模板無關(guān)的全自動(dòng)信息抽取。由于包裝器語言和包裝器歸納都需要過多的人工干預(yù),所以在實(shí)際的工程應(yīng)用中,基于模板的信息抽取算法和模板無關(guān)的全自動(dòng)信息抽取算法以其較強(qiáng)的實(shí)用性占據(jù)了主流的位置。

    基于模板的信息抽取通常基于這樣的假設(shè): 待抽取的網(wǎng)頁是由同一個(gè)模板生成的,屬于模板的符號(hào)不會(huì)變化,變化的只是模板中填充的數(shù)據(jù)。符合這種生成模型的網(wǎng)頁都可以利用網(wǎng)頁模板分析方法來抽取?;ヂ?lián)網(wǎng)上大量存在的動(dòng)態(tài)網(wǎng)頁是由機(jī)器生成的(例如論壇)網(wǎng)頁?;谀0宓男畔⒊槿〉墓ぷ髁鞒淌牵?1) 利用多個(gè)同類型網(wǎng)頁中具有共性的不變的部分生成一個(gè)模板;2)根據(jù)模板對(duì)同類型網(wǎng)頁進(jìn)行抽取。因?yàn)榇祟愃惴ㄟ^濾了網(wǎng)頁中的大量模板,只留下了數(shù)據(jù),同時(shí)自動(dòng)還原出了數(shù)據(jù)的結(jié)構(gòu),使得用戶在付出較小人工代價(jià)的同時(shí),能夠獲得較為準(zhǔn)確的關(guān)鍵信息。因此此類算法[6-7]一直都是網(wǎng)絡(luò)應(yīng)用中的主流算法。但是該類算法具有這樣的缺陷: 首先需要針對(duì)同類型的網(wǎng)頁生成一個(gè)模板。模板的準(zhǔn)確性直接決定了后續(xù)信息抽取的精確度。隨著網(wǎng)頁復(fù)雜性以及同一類型網(wǎng)頁的差異性的增大,生成的模板準(zhǔn)確性隨之降低。

    模板無關(guān)的全自動(dòng)信息抽取算法進(jìn)一步提高了信息抽取的自動(dòng)化程度。此類算法通常利用一些經(jīng)驗(yàn)規(guī)則處理特定領(lǐng)域或特定格式的網(wǎng)頁,例如,經(jīng)典的全自動(dòng)信息抽取算法MDR[8]。該算法的缺陷在于通?;谶^強(qiáng)的假設(shè)。以網(wǎng)頁正文抽取為例。網(wǎng)頁的正文往往是各大網(wǎng)絡(luò)應(yīng)用都需要的關(guān)鍵信息,有不少針對(duì)正文抽取的模板無關(guān)的全自動(dòng)抽取算法[3-5]。CoreEx[5]是通過計(jì)算DOM樹中的鏈接文本比來確定正文所在的范圍。CETR[4]是通過標(biāo)簽的密度來確定正文所在的范圍。CETD[3]結(jié)合了二者優(yōu)點(diǎn)。這些算法自動(dòng)化程度高,通用性強(qiáng),但是效率較低,且假設(shè)過強(qiáng),精確度不如基于模板的算法。VIPS[9]是一種通用性較強(qiáng)的算法,但是它需要渲染網(wǎng)頁。因此這種方法的效率較低。

    在以往的文獻(xiàn)中,較少看到將模板無關(guān)的全自動(dòng)信息抽取算法和基于模板的信息抽取算法結(jié)合使用的相關(guān)研究。在本文提出的框架中,巧妙地將這兩種算法有機(jī)地結(jié)合起來,使得二者能夠取長補(bǔ)短,從本質(zhì)上提高信息抽取的質(zhì)量。

    3 可擴(kuò)展的網(wǎng)頁關(guān)鍵信息抽取框架

    3.1 框架概述

    如圖1所示,框架的輸入是一批原始訓(xùn)練網(wǎng)頁,或者其他信息抽取算法的抽取結(jié)果。需要說明的是,這些抽取結(jié)果帶有HTML標(biāo)簽結(jié)構(gòu),如圖2和圖3所示。然后將這些訓(xùn)練網(wǎng)頁或抽取結(jié)果隨機(jī)平均分成k份,每一份均通過模板生成算法,生成關(guān)鍵信息模板集。再通過模板的正交過濾算法,生成候選的關(guān)鍵信息模板。接著通過模板的特征過濾算法,生成最終的關(guān)鍵信息模板。最后根據(jù)最終模板對(duì)同類型網(wǎng)頁進(jìn)行抽取。

    圖1 可擴(kuò)展的網(wǎng)頁關(guān)鍵信息抽取框架的架構(gòu)圖

    圖2 HTML網(wǎng)頁源碼

    圖3 帶HTML標(biāo)簽的抽取結(jié)果

    該框架具有很好的擴(kuò)展性,主要體現(xiàn)在以下幾個(gè)方面。

    (1) 關(guān)鍵信息模板集合生成算法的輸入部分,是一批原始訓(xùn)練網(wǎng)頁,或者其他信息抽取算法的抽取結(jié)果。這里的抽取算法一般是模板無關(guān)的全自動(dòng)抽取算法。這些算法已經(jīng)根據(jù)需求對(duì)原始網(wǎng)頁進(jìn)行了一次噪音過濾。因此,對(duì)于框架中的模板生成環(huán)節(jié),把這些抽取結(jié)果作為訓(xùn)練數(shù)據(jù)輸入,和把原始網(wǎng)頁作為輸入相比較,能夠獲得更精確的模板。另一方面,用模板無關(guān)的全自動(dòng)抽取算法處理不符合算法假設(shè)的網(wǎng)頁時(shí),噪音過濾的效果不夠好。對(duì)于這種情況,通過把抽取結(jié)果輸入到框架中,經(jīng)過后期一系列的模板生成、基于模板的抽取,能夠進(jìn)一步過濾掉噪音,從而增強(qiáng)了模板無關(guān)的全自動(dòng)抽取算法的適應(yīng)性。這兩方面結(jié)論在第5節(jié)的實(shí)驗(yàn)結(jié)果將有展示。

    (2) 特征過濾算法部分,可以根據(jù)要抽取的信息特征,替換相應(yīng)的算法。

    (3) 在模板生成過程中,框架將關(guān)鍵信息模板集、候選的關(guān)鍵信息模板等中間結(jié)果存入磁盤,當(dāng)再次遇到同類型網(wǎng)頁時(shí),可以直接從磁盤上讀取模板的中間結(jié)果。

    (4) 基于模板的信息抽取算法的輸入可以是框架中生成的模板,也可以是人工配置的模板。

    框架中的關(guān)鍵技術(shù)點(diǎn)有模板的表示、關(guān)鍵信息模板集合的生成算法、模板的正交過濾算法、模板的特征過濾算法,以及基于模板的抽取算法。

    3.2 關(guān)鍵技術(shù)點(diǎn)

    3.2.1 模板的表示

    模板T定義:

    T是輸入的網(wǎng)頁所有關(guān)鍵信息的模板,它是由n個(gè)關(guān)鍵信息槽Sloti組成的。

    i表示第i個(gè)關(guān)鍵信息,每個(gè)關(guān)鍵信息槽Sloti由信息槽名稱Namei和m個(gè)節(jié)點(diǎn)組成。

    每個(gè)節(jié)點(diǎn)Nodej是由可定位的相對(duì)路徑XPath、標(biāo)簽Tag和關(guān)鍵信息的前后Label組成。例如,“

    ”,Xpath是“div/div[0]/span”,Tag是“span”,Label是“作者:”。

    3.2.2 關(guān)鍵信息的模板集合生成算法

    單記錄頁面生成關(guān)鍵信息模板集合的算法如下:

    首先建立DOM樹。刪除CSS、Script等節(jié)點(diǎn)。去掉br和p節(jié)點(diǎn),將相鄰的段落合并,即合并相鄰的葉子節(jié)點(diǎn)。標(biāo)簽名和屬性名、屬性值一樣的相鄰節(jié)點(diǎn),則將它們合并成一個(gè)節(jié)點(diǎn)。這樣可以盡可能保證各關(guān)鍵信息不被分割。接著將M棵DOM樹對(duì)齊并合并。

    將對(duì)齊后每一個(gè)位置對(duì)應(yīng)的n個(gè)節(jié)點(diǎn),有選擇地插入到站點(diǎn)版塊風(fēng)格樹SBSTree(site board style tree)中(圖4中的數(shù)字代表該節(jié)點(diǎn)重復(fù)度dump,即該節(jié)點(diǎn)出現(xiàn)的次數(shù)): 如果全是標(biāo)簽節(jié)點(diǎn),則將第一個(gè)標(biāo)簽節(jié)點(diǎn)插入到SBSTree中相應(yīng)位置;如果全是文本葉子節(jié)點(diǎn),則統(tǒng)計(jì)并記錄每個(gè)文本葉子節(jié)點(diǎn)出現(xiàn)的次數(shù),并將內(nèi)容互不重復(fù)的文本葉子節(jié)點(diǎn)全部插入到SBSTree中相應(yīng)位置 (同一個(gè)父節(jié)點(diǎn)下) ;如果部分是文本葉子節(jié)點(diǎn)部分是標(biāo)簽節(jié)點(diǎn),則選擇第一個(gè)標(biāo)簽節(jié)點(diǎn)插入到SBSTree中相應(yīng)位置,統(tǒng)計(jì)并記錄每個(gè)文本葉子節(jié)點(diǎn)出現(xiàn)的次數(shù),并將內(nèi)容互不重復(fù)的葉子節(jié)點(diǎn)也全部插入到SBSTree中相應(yīng)位置 (同一個(gè)父節(jié)點(diǎn)下)。

    圖4 DOM樹合并

    合并后的DOM樹具有如下特征: 對(duì)于網(wǎng)頁中公共的信息,例如,導(dǎo)航、網(wǎng)站聲明,其對(duì)應(yīng)的合并后的樹中的葉子節(jié)點(diǎn)的重復(fù)度dump為M,并且該節(jié)點(diǎn)的父節(jié)點(diǎn)只有一個(gè)葉子節(jié)點(diǎn)。而各個(gè)網(wǎng)頁的關(guān)鍵信息,由于不相同,因此它們的父節(jié)點(diǎn)的葉子節(jié)點(diǎn)個(gè)數(shù)小于M,并且大部分葉子節(jié)點(diǎn)的重復(fù)度為1。計(jì)算每個(gè)重復(fù)度大于1的葉子節(jié)點(diǎn)的平均重復(fù)度dump。最后將所有子節(jié)點(diǎn)含有重復(fù)度大于dump的葉子的節(jié)點(diǎn)轉(zhuǎn)換成模板。

    多記錄頁面生成所有關(guān)鍵信息模板算法如下:

    首先,建立DOM樹。刪除CSS、Script等節(jié)點(diǎn)。其次將M棵DOM樹中含有style和class屬性,且所有屬性名和屬性值一樣的節(jié)點(diǎn)各自聚類。橫向比較每一類節(jié)點(diǎn)在M棵DOM樹中的數(shù)量及其葉子內(nèi)容的變化,并記錄個(gè)數(shù)相關(guān)的節(jié)點(diǎn)類,它的節(jié)點(diǎn)個(gè)數(shù)隨著記錄個(gè)數(shù)的變化而變化。例如,跟帖的正文節(jié)點(diǎn)、跟帖的作者ID節(jié)點(diǎn)的數(shù)量和正文的節(jié)點(diǎn)數(shù)量是一致的。而那些非關(guān)鍵信息,有一部分節(jié)點(diǎn)個(gè)數(shù)和記錄個(gè)數(shù)保持一致,但是內(nèi)容基本不變,另一部分出現(xiàn)的次數(shù)和正文節(jié)點(diǎn)無關(guān)。最后對(duì)于每棵DOM樹中,節(jié)點(diǎn)數(shù)量和內(nèi)容都有變化的節(jié)點(diǎn),認(rèn)為是所有關(guān)鍵信息節(jié)點(diǎn)。將其轉(zhuǎn)換成模板。

    3.2.3 模板的正交過濾算法

    一般的全自動(dòng)模板生成算法,都是通過訓(xùn)練輸入的所有網(wǎng)頁,生成一個(gè)包含所有關(guān)鍵信息的模板集合。這種做法生成的模板精度較低,模板的結(jié)果受輸入的訓(xùn)練網(wǎng)頁的影響較大。在此我們提出了正交過濾算法,該算法對(duì)生成的關(guān)鍵信息模板集合進(jìn)行正交過濾,以保證獲得更加準(zhǔn)確的候選模板。

    圖5 模板正交過濾算法

    3.2.4 模板的特征過濾算法

    對(duì)于候選的關(guān)鍵信息模板集合T,可能我們只需要部分關(guān)鍵信息的模板,因此在模板集合中找出我們所需要的模板至關(guān)重要。由于我們的框架具有很強(qiáng)的靈活性,因此能夠很好地和已有的根據(jù)網(wǎng)頁特征抽取關(guān)鍵信息的算法相結(jié)合。比如可以在用候選模板集合T抽取關(guān)鍵信息的過程中,利用關(guān)鍵信息的視覺特征,獲得最可能的模板。最常見的關(guān)鍵信息一般是正文。因此這里以新聞和論壇的正文為例,我們根據(jù)它們的特征,計(jì)算出正文的最終模板。

    a) 新聞?wù)牡奶卣鬟^濾算法:

    先用模板集合(T1,T2,T3,…,Tm)去抽取輸入的k個(gè)網(wǎng)頁,抽取出結(jié)果。每個(gè)模板Ti都對(duì)應(yīng)k個(gè)抽取結(jié)果。計(jì)算每個(gè)結(jié)果的重要度。

    重要度定義:Importance(Ti)=D(Doci)×logm(E(Doci)+m)

    Doci是模板Ti抽取出來的文本節(jié)點(diǎn)信息。D(Doci)是模板Ti抽取出的k個(gè)文本節(jié)點(diǎn)的方差,m是這棵樹是該模板集合的模板個(gè)數(shù),E(Doci)是Ti模板抽取出的k個(gè)文本節(jié)點(diǎn)的平均長度。取Importance(Ti)值最大的模板為新聞?wù)牡哪0濉?/p>

    b) 論壇正文的特征過濾算法:

    論壇主帖和新聞?lì)愃?,都屬于單記錄結(jié)構(gòu),因此它的模板與新聞?wù)牡哪0暹x擇算法一樣。論壇的跟帖屬于多記錄結(jié)構(gòu),其正文特征有別于單記錄結(jié)構(gòu)的正文特征。

    先用模板集合T={T1,T2,T3,…,Tm}去抽取輸入的k個(gè)網(wǎng)頁,抽取出結(jié)果。每個(gè)模板Ti都對(duì)應(yīng)k個(gè)抽取結(jié)果。由于是多記錄結(jié)構(gòu),每個(gè)模板每個(gè)頁面會(huì)抽取到Nfloor(Nfloor≥1)個(gè)結(jié)果。抽取的過程中,會(huì)得到該模板對(duì)應(yīng)的節(jié)點(diǎn)之下的所有標(biāo)簽數(shù)量。計(jì)算每個(gè)結(jié)果的重要度。

    分別計(jì)算每個(gè)關(guān)鍵信息節(jié)點(diǎn)及其style和class屬性的子孫節(jié)點(diǎn)的重要度。

    Doci是模板Ti抽取出來的文本節(jié)點(diǎn)信息。D(Doci)和E(Doci)分別是模板Ti抽取出的k個(gè)文本節(jié)點(diǎn)的方差和均值,m是這棵樹是該模板集合的模板個(gè)數(shù),Nfloori是模板Ti抽取出來的記錄個(gè)數(shù),NPi是模板Ti抽取出來的段落個(gè)數(shù),Ntagi是模板Ti抽取時(shí)候遍歷的HTML標(biāo)簽個(gè)數(shù)。取Importance(Ti)值最大的模板為論壇跟帖的模板。

    3.2.5 基于模板的抽取算法

    對(duì)于輸入的網(wǎng)頁,建DOM樹后遍歷DOM樹,若是某一個(gè)節(jié)點(diǎn)與模板中的某個(gè)關(guān)鍵信息槽的相對(duì)路徑、標(biāo)簽名和標(biāo)簽屬性一致,將該節(jié)點(diǎn)下面的文本去掉Label,即為該關(guān)鍵信息槽對(duì)應(yīng)的關(guān)鍵信息。

    4 實(shí)驗(yàn)

    為了驗(yàn)證本文提出的可擴(kuò)展的網(wǎng)頁關(guān)鍵信息抽取框架的有效性,我們以抽取新聞的正文為例在該框架上進(jìn)行了實(shí)驗(yàn)。

    CETD[3]是目前較新的全自動(dòng)的網(wǎng)頁正文抽取算法,文獻(xiàn)[3]表明該算法能夠獲得較好的抽取效果。為了展示本框架能夠增強(qiáng)模板無關(guān)的全自動(dòng)抽取算法的適應(yīng)性,我們使用算法CETD[3]作為對(duì)比算法,并將其作為框架中的模板無關(guān)的全自動(dòng)抽取算法。

    4.1 實(shí)驗(yàn)數(shù)據(jù)與環(huán)境

    新聞的實(shí)驗(yàn)數(shù)據(jù)是來自10個(gè)新聞網(wǎng)站的國際頻道的網(wǎng)頁共2 000個(gè)。這些網(wǎng)站覆蓋了各大主流的新聞網(wǎng)站,且網(wǎng)頁在HTML結(jié)構(gòu)方面也幾乎覆蓋了各種情況,因此,保證了實(shí)驗(yàn)數(shù)據(jù)的多樣性。實(shí)驗(yàn)機(jī)器配置為Intel Q9300雙核CPU,4GB內(nèi)存,運(yùn)行環(huán)境為ubuntu平臺(tái),程序由C++開發(fā)實(shí)現(xiàn),編譯器為gcc。

    4.2 評(píng)價(jià)方法

    通過人工標(biāo)注,我們獲得2 000個(gè)網(wǎng)頁的正文作為參考結(jié)果。

    假設(shè)a是參考結(jié)果,b是抽取結(jié)果,那么準(zhǔn)確率P、召回率R和F值分別如式(1)、式(2)、式(3)所示。

    LcsLength(a,b)為字符串a(chǎn)和字符串b的最大公共子串的長度,Length(a)為字符串a(chǎn)的長度,Length(b)為字符串b的長度。

    4.3 實(shí)驗(yàn)結(jié)果與分析

    為了檢驗(yàn)本文提出的信息抽取框架的有效性,我們?cè)O(shè)計(jì)了4組實(shí)驗(yàn),如表1所示。

    1) 使用本框架生成的模板進(jìn)行信息抽取的實(shí)驗(yàn)

    2) 使用模板無關(guān)的全自動(dòng)抽取算法(CETD)抽取

    3) 使用模板無關(guān)的全自動(dòng)抽取算法的抽取結(jié)果作為訓(xùn)練網(wǎng)頁生成模板的實(shí)驗(yàn)

    4) 使用本框架,但是沒有對(duì)模板進(jìn)行正交過濾

    其中第1組和第3組的對(duì)比實(shí)驗(yàn)用于檢驗(yàn)利用模板無關(guān)的全自動(dòng)抽取結(jié)果作為訓(xùn)練樣例生成模板的有效性。第1組和第4組的對(duì)比實(shí)驗(yàn)用于檢驗(yàn)正交過濾算法的有效性。第2組和第3組的對(duì)比實(shí)驗(yàn)用于檢驗(yàn)整個(gè)框架的有效性。

    表1 四種方案的結(jié)果

    從結(jié)果中,我們可以得出以下結(jié)論。

    (1) 從第3組和第1組實(shí)驗(yàn)結(jié)果可以看出,使用模板無關(guān)的全自動(dòng)抽取算法的抽取結(jié)果作為訓(xùn)練網(wǎng)頁生成模板的抽取結(jié)果要好于直接用訓(xùn)練網(wǎng)頁生成模板的抽取結(jié)果。

    (2) 從第4組和第1組實(shí)驗(yàn)的結(jié)果可以看出,引入正交過濾算法后,生成的模板的抽取結(jié)果要好于沒有對(duì)模板進(jìn)行正交過濾的抽取結(jié)果。

    (3) 從第1組和第2組實(shí)驗(yàn)的結(jié)果可以看出,該框架的整體抽取結(jié)果要好于模板無關(guān)的全自動(dòng)抽取結(jié)果。

    (4) 通過對(duì)抽取結(jié)果錯(cuò)誤的網(wǎng)頁進(jìn)行分析發(fā)現(xiàn),抽取錯(cuò)誤的主要因素有如下3點(diǎn): 1)有些 HTML 頁面標(biāo)簽缺失,從而造成部分標(biāo)簽被當(dāng)作正文抽取出來。2)有些網(wǎng)頁的正文開頭或結(jié)尾的作者、來源等噪音和正文是連在一起的。3)有些網(wǎng)頁的副標(biāo)題或者摘要僅通過換行標(biāo)簽和正文區(qū)分開來,和正文沒有區(qū)別。

    (5) 全自動(dòng)抽取算法的抽取結(jié)果作為訓(xùn)練網(wǎng)頁以及正交過濾算法對(duì)一小部分板塊的網(wǎng)頁抽取效果不明顯,但是從十個(gè)板塊的平均值上可以看出,這兩種算法對(duì)結(jié)果的正確率和召回率都有一定的提高。

    在運(yùn)行效率方面,我們也做了實(shí)驗(yàn)。該框架生成的模板平均每個(gè)頁面的處理時(shí)間為8.59ms, 而模板無關(guān)的全自動(dòng)抽取算法平均每個(gè)頁面的處理時(shí)間為24.72ms??梢缘贸鲞@樣的結(jié)論,在在線抽取過程中,用該框架生成的模板對(duì)網(wǎng)頁進(jìn)行抽取,比用模板無關(guān)的全自動(dòng)抽取算法抽取的速度快近2倍。

    5 結(jié)論與未來工作

    本文提出了一種可擴(kuò)展的網(wǎng)頁關(guān)鍵信息抽取框架,該框架很好地融合模板無關(guān)的全自動(dòng)信息抽取算法和基于模板的信息抽取算法。實(shí)驗(yàn)結(jié)果表明,該框架能夠在抽取精度和效率方面有本質(zhì)上的提高。該框架中一些關(guān)鍵環(huán)節(jié)可根據(jù)需求進(jìn)行替換,因此該框架具有很好的可擴(kuò)展性。同時(shí),本文還提出了模板的正交過濾算法,將該算法引入基于模板的抽取算法中,能夠從本質(zhì)上提高生成的模板的準(zhǔn)確性,最后的實(shí)驗(yàn)結(jié)果也充分驗(yàn)證了這一結(jié)論。

    在未來工作中,我們將針對(duì)輸入的訓(xùn)練網(wǎng)頁進(jìn)行聚類以及引入視覺特征,以改進(jìn)關(guān)鍵信息模板集合的生成算法和模板的正交過濾算法,從而進(jìn)一步提高生成的模板的精度。

    [1] Laender A H F, et al. A brief survey of web data extraction tools[C]//Proceedings of the ACM Sigmod Record, 2002. 31(2): 84-93, ACM New York, NY, USA.

    [2] Chang C H, et al. A survey of web information extraction systems[J]. Knowledge and Data Engineering, IEEE Transactions, 2006, 18(10): 1411-1428.

    [3] Fei S, Dandan S, Lejian L. DOM Based Content Extraction via Text Density[C]//Proceedings of the 34th international ACM SIGIR conference on Research and development in Information Retrieval, ACM New York, NY, USA 2011: 245-254.

    [4] Tim W, William H, Jiawei H. CETR-Content Extraction via Tag Ratios[C]//Proceedings of the 19th international conference on World wide web, New York, NY, USA 2010: 971-980.

    [5] Jyotika P, Andreas P. CoreEx: Content Extraction from Online News Articles[C]//Proceedings of the 17th ACM conference on Information and knowledge management, ACM New York, NY, USA 2008: 1391-1392.

    [6] Valter C, Giansalvatore M, Paolo M. RoadRunner: Towards Automatic Data Extraction from Large Web Sites[C]//Proceedings of the 27th International Conference on Very Large Data Bases, Morgan Kaufmann Publishers Inc. San Francisco, CA, USA 2001: 109-118.

    [7] Yang S, Lin H, Han Y. Automatic data extraction from template-generated Web pages[J]. Journal of Software, 2008,19(2):209-223.

    [8] Bing L, Robert G, Yanhong Z. Mining data records in Web pages[C]//Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining, ACM New York, NY, USA 2003:601-606.

    [9] Deng C, Shipeng Y, Jirong W, et al. Extracting content structure for web pages based on visual representation[C]//Proceedings of the 5th Asia-Pacific web conference on Web technologies and applications, Springer-Verlag Berlin, Heidelberg 2003: 406-417.

    Research on Extensible Web Key Information Extraction

    GUO Shaohua1,2, GUO Yan1, LI Haiyan1, LIU Yue1, ZHANG Jin1, CHENG Xueqi1

    (1. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China;2. University of Chinese Academy of Sciences, Beijing 100049, China)

    An extensible framework of web key information extraction is presented in this paper. This framework combine automatic information extraction algorithms and template detection algorithms, essentially improving the precision and efficiency of extraction. Some key parts of this framework can be replaced as required, therefore it has excellent extensibility. Furthermore, this paper also describes an orthogonal filter algorithm, which improves the precision of template generation. And the experiments provide positive results for this method.

    key information;information extraction;extensible framework;orthogonal filter

    郭少華(1984—),碩士研究生,主要研究領(lǐng)域?yàn)樾畔⒊槿?、網(wǎng)絡(luò)數(shù)據(jù)挖掘。E?mail:guoshaohua@software.ict.a(chǎn)c.cn郭巖(1974—),博士,助理研究員,主要研究領(lǐng)域?yàn)樾畔⒊槿?、網(wǎng)絡(luò)數(shù)據(jù)挖掘。E?mail:guoy@ict.a(chǎn)c.cn李海燕(1985—),碩士,助理工程師,主要研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘和信息抽取。E?mail:lhytiancai@163.com

    1003-0077(2015)01-0097-07

    2013-03-20 定稿日期: 2013-06-18

    國家自然科學(xué)基金(61100083);國家863計(jì)劃基金(2012AA011003)

    TP391

    A

    猜你喜歡
    全自動(dòng)正文網(wǎng)頁
    更正聲明
    傳媒論壇(2022年9期)2022-02-17 19:47:54
    更正啟事
    咔吱兔的全自動(dòng)生活
    快樂語文(2021年15期)2021-06-15 10:19:38
    全自動(dòng)發(fā)明機(jī)
    童話世界(2020年13期)2020-06-15 11:54:32
    全自動(dòng)洗衣機(jī)
    故事大王(2019年4期)2019-05-14 16:38:48
    全自動(dòng)運(yùn)行系統(tǒng)的興起與未來之路
    基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計(jì)
    電子制作(2018年10期)2018-08-04 03:24:38
    基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
    電子制作(2017年2期)2017-05-17 03:54:56
    網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
    電子測試(2015年18期)2016-01-14 01:22:58
    10個(gè)必知的網(wǎng)頁設(shè)計(jì)術(shù)語
    成人国产一区最新在线观看| 日韩欧美精品v在线| 俺也久久电影网| 国产伦人伦偷精品视频| 在线免费观看的www视频| 亚洲精品久久成人aⅴ小说| 亚洲全国av大片| 在线观看66精品国产| 一区二区三区国产精品乱码| 免费在线观看日本一区| 久久久久久久久免费视频了| 99国产精品99久久久久| 不卡一级毛片| 美女高潮喷水抽搐中文字幕| 在线观看免费日韩欧美大片| 久久人妻av系列| 成人国产综合亚洲| 99re在线观看精品视频| 叶爱在线成人免费视频播放| 操出白浆在线播放| 亚洲av中文字字幕乱码综合| 国产一级毛片七仙女欲春2| 国产高清激情床上av| 日本免费a在线| 一级作爱视频免费观看| 免费在线观看日本一区| 欧美一区二区精品小视频在线| 1024香蕉在线观看| 18禁裸乳无遮挡免费网站照片| 亚洲av电影不卡..在线观看| 老熟妇乱子伦视频在线观看| 男女下面进入的视频免费午夜| 叶爱在线成人免费视频播放| 国产成人欧美在线观看| 欧美性长视频在线观看| 国产一区二区在线观看日韩 | 不卡av一区二区三区| 国产三级中文精品| 国产一区二区在线av高清观看| 日韩高清综合在线| 黑人欧美特级aaaaaa片| 亚洲精品在线美女| 久久精品影院6| 亚洲五月婷婷丁香| 高潮久久久久久久久久久不卡| 国产精品1区2区在线观看.| av国产免费在线观看| 亚洲人成77777在线视频| 99精品久久久久人妻精品| 精品一区二区三区av网在线观看| 999久久久精品免费观看国产| 他把我摸到了高潮在线观看| 禁无遮挡网站| 精品国产乱子伦一区二区三区| 小说图片视频综合网站| 精品乱码久久久久久99久播| 精品欧美国产一区二区三| 正在播放国产对白刺激| 精品国产亚洲在线| 国产一区二区在线av高清观看| 香蕉国产在线看| 日韩欧美国产在线观看| 日本成人三级电影网站| 国产av一区二区精品久久| 亚洲av熟女| 欧美中文日本在线观看视频| 国产精品一区二区三区四区免费观看 | 在线国产一区二区在线| 每晚都被弄得嗷嗷叫到高潮| 亚洲专区中文字幕在线| 亚洲美女黄片视频| 欧美在线黄色| 美女黄网站色视频| 最近在线观看免费完整版| 91大片在线观看| 日韩欧美在线乱码| 丁香欧美五月| 精品免费久久久久久久清纯| 一进一出抽搐动态| 看片在线看免费视频| 色哟哟哟哟哟哟| 免费在线观看完整版高清| 午夜免费激情av| 正在播放国产对白刺激| 日本黄大片高清| 亚洲,欧美精品.| 国模一区二区三区四区视频 | 国产激情欧美一区二区| www.自偷自拍.com| 琪琪午夜伦伦电影理论片6080| 中国美女看黄片| 国产人伦9x9x在线观看| 精品一区二区三区视频在线观看免费| 深夜精品福利| 免费在线观看成人毛片| 亚洲最大成人中文| 色综合亚洲欧美另类图片| 一级片免费观看大全| 亚洲avbb在线观看| 一区二区三区激情视频| 床上黄色一级片| 亚洲人与动物交配视频| 国产精品亚洲美女久久久| 村上凉子中文字幕在线| 亚洲国产欧美一区二区综合| 亚洲在线自拍视频| 老熟妇仑乱视频hdxx| 国产三级在线视频| 国产三级黄色录像| 中文字幕精品亚洲无线码一区| 波多野结衣巨乳人妻| 久久欧美精品欧美久久欧美| 最近最新中文字幕大全免费视频| 国产久久久一区二区三区| 精品不卡国产一区二区三区| 免费av毛片视频| 黄片大片在线免费观看| 久久精品国产综合久久久| 丁香欧美五月| 中国美女看黄片| 人妻丰满熟妇av一区二区三区| 好男人电影高清在线观看| 国产一区二区激情短视频| 中文字幕人妻丝袜一区二区| 欧美在线一区亚洲| xxxwww97欧美| 亚洲人成网站在线播放欧美日韩| 琪琪午夜伦伦电影理论片6080| 成年免费大片在线观看| 亚洲欧美精品综合一区二区三区| 国产高清视频在线观看网站| 国产成人一区二区三区免费视频网站| 免费无遮挡裸体视频| 国产精品久久久久久精品电影| 国产精品 国内视频| 国产精品一区二区免费欧美| 在线观看www视频免费| 变态另类丝袜制服| 欧美另类亚洲清纯唯美| 日韩欧美 国产精品| 淫秽高清视频在线观看| 丰满人妻熟妇乱又伦精品不卡| 一区二区三区激情视频| 听说在线观看完整版免费高清| 人妻久久中文字幕网| 婷婷精品国产亚洲av| 男女床上黄色一级片免费看| 亚洲一区高清亚洲精品| 国产精品98久久久久久宅男小说| 波多野结衣高清作品| 日本一区二区免费在线视频| 一本综合久久免费| 久久久久久久久久黄片| 少妇的丰满在线观看| 亚洲欧美精品综合一区二区三区| 亚洲精品美女久久av网站| 久久午夜亚洲精品久久| 制服人妻中文乱码| 久久久久国产精品人妻aⅴ院| 久久久精品国产亚洲av高清涩受| 99久久精品国产亚洲精品| 狂野欧美白嫩少妇大欣赏| 亚洲精品国产一区二区精华液| 中文字幕av在线有码专区| 午夜两性在线视频| 亚洲人成77777在线视频| av福利片在线| 国产激情欧美一区二区| 亚洲国产高清在线一区二区三| 亚洲精品国产精品久久久不卡| 中国美女看黄片| 老司机福利观看| netflix在线观看网站| 身体一侧抽搐| 1024香蕉在线观看| 国产亚洲欧美98| 国产av麻豆久久久久久久| 久久香蕉精品热| 美女大奶头视频| 亚洲av电影在线进入| 真人一进一出gif抽搐免费| 一卡2卡三卡四卡精品乱码亚洲| 亚洲av中文字字幕乱码综合| www.自偷自拍.com| 免费观看人在逋| 成年免费大片在线观看| av福利片在线观看| 久久精品aⅴ一区二区三区四区| 51午夜福利影视在线观看| 99久久精品国产亚洲精品| 日韩欧美在线乱码| 国产一级毛片七仙女欲春2| 叶爱在线成人免费视频播放| 成年免费大片在线观看| 国产精品一区二区三区四区免费观看 | 女生性感内裤真人,穿戴方法视频| 手机成人av网站| 国产精品综合久久久久久久免费| 九色成人免费人妻av| 亚洲成av人片免费观看| 精品国产美女av久久久久小说| АⅤ资源中文在线天堂| 欧美乱妇无乱码| 久久久久久久久免费视频了| 男女视频在线观看网站免费 | 亚洲国产精品999在线| 熟女少妇亚洲综合色aaa.| 看片在线看免费视频| 动漫黄色视频在线观看| 精品乱码久久久久久99久播| 成人手机av| 亚洲中文字幕一区二区三区有码在线看 | 国产伦人伦偷精品视频| 色在线成人网| 天天添夜夜摸| 校园春色视频在线观看| 成人国产一区最新在线观看| 黄色视频不卡| av福利片在线| 一二三四在线观看免费中文在| 国产精品一及| a在线观看视频网站| 亚洲av成人一区二区三| 亚洲精品在线观看二区| 两个人视频免费观看高清| 91老司机精品| 18禁美女被吸乳视频| xxx96com| 日韩精品免费视频一区二区三区| 18美女黄网站色大片免费观看| 久久热在线av| 久久精品91蜜桃| 视频区欧美日本亚洲| 精品无人区乱码1区二区| 成年版毛片免费区| 国产高清激情床上av| 国产成人精品无人区| 国产又黄又爽又无遮挡在线| 久久精品91蜜桃| 国产精品av视频在线免费观看| 亚洲av熟女| 级片在线观看| 巨乳人妻的诱惑在线观看| 男女之事视频高清在线观看| 欧美另类亚洲清纯唯美| av天堂在线播放| 亚洲av电影在线进入| 少妇裸体淫交视频免费看高清 | 看免费av毛片| 一二三四在线观看免费中文在| 国产精品一及| 久久久国产成人免费| 窝窝影院91人妻| 日本 av在线| a在线观看视频网站| 国产精品一区二区免费欧美| 国产亚洲精品久久久久久毛片| 99热只有精品国产| 人妻久久中文字幕网| 一二三四在线观看免费中文在| 久久久久久久久久黄片| 99在线视频只有这里精品首页| 久久精品国产99精品国产亚洲性色| 精品一区二区三区视频在线观看免费| 久久久久久久午夜电影| 夜夜夜夜夜久久久久| 91九色精品人成在线观看| 神马国产精品三级电影在线观看 | 中文字幕高清在线视频| 嫩草影视91久久| 久久久久久大精品| 亚洲男人的天堂狠狠| 曰老女人黄片| 麻豆久久精品国产亚洲av| 在线国产一区二区在线| 日本熟妇午夜| 91麻豆精品激情在线观看国产| avwww免费| 亚洲av成人av| 色播亚洲综合网| 亚洲成人精品中文字幕电影| 熟女少妇亚洲综合色aaa.| 老司机午夜福利在线观看视频| 久久天躁狠狠躁夜夜2o2o| 国产精品自产拍在线观看55亚洲| 妹子高潮喷水视频| 国产一级毛片七仙女欲春2| 中文字幕久久专区| 亚洲av片天天在线观看| 国产精品亚洲av一区麻豆| 免费在线观看成人毛片| 99久久无色码亚洲精品果冻| 麻豆成人午夜福利视频| 精品熟女少妇八av免费久了| 欧美大码av| 在线观看免费视频日本深夜| 19禁男女啪啪无遮挡网站| 狂野欧美白嫩少妇大欣赏| 国产亚洲精品一区二区www| 波多野结衣高清无吗| 亚洲精品中文字幕一二三四区| 脱女人内裤的视频| 亚洲乱码一区二区免费版| 麻豆国产av国片精品| 可以在线观看毛片的网站| 日韩欧美三级三区| 欧美色欧美亚洲另类二区| 看片在线看免费视频| 男女床上黄色一级片免费看| 可以免费在线观看a视频的电影网站| 欧美一区二区精品小视频在线| 91av网站免费观看| 夜夜躁狠狠躁天天躁| 色噜噜av男人的天堂激情| 久久性视频一级片| 国产精品98久久久久久宅男小说| 亚洲无线在线观看| 精品欧美国产一区二区三| 黑人巨大精品欧美一区二区mp4| 久久香蕉国产精品| 黄色a级毛片大全视频| 欧美日本亚洲视频在线播放| 这个男人来自地球电影免费观看| 老熟妇乱子伦视频在线观看| 亚洲av成人av| 午夜精品一区二区三区免费看| 大型黄色视频在线免费观看| 性色av乱码一区二区三区2| 亚洲中文日韩欧美视频| 亚洲激情在线av| 亚洲免费av在线视频| 精品少妇一区二区三区视频日本电影| 午夜福利免费观看在线| 亚洲欧美日韩高清在线视频| 美女大奶头视频| 99久久无色码亚洲精品果冻| 亚洲av五月六月丁香网| 九九热线精品视视频播放| 毛片女人毛片| 免费无遮挡裸体视频| 两个人视频免费观看高清| 91老司机精品| 99在线人妻在线中文字幕| 久久久久国产一级毛片高清牌| 亚洲美女黄片视频| 国产av又大| 动漫黄色视频在线观看| 狠狠狠狠99中文字幕| 两个人看的免费小视频| www日本在线高清视频| 国产99白浆流出| 久久精品人妻少妇| 久久久久久久久中文| 久久热在线av| 中文字幕av在线有码专区| 老熟妇仑乱视频hdxx| 欧美黄色片欧美黄色片| 欧美zozozo另类| 国产区一区二久久| 国产精品一区二区免费欧美| 熟妇人妻久久中文字幕3abv| 老熟妇仑乱视频hdxx| 亚洲美女视频黄频| 舔av片在线| 久久精品成人免费网站| 夜夜爽天天搞| 在线观看美女被高潮喷水网站 | 久久久国产精品麻豆| 老司机午夜福利在线观看视频| 无遮挡黄片免费观看| 成人午夜高清在线视频| 欧美黄色淫秽网站| 国产成人系列免费观看| 热99re8久久精品国产| 好男人电影高清在线观看| 亚洲国产精品成人综合色| 男女那种视频在线观看| 欧美日韩精品网址| 欧美日韩亚洲综合一区二区三区_| 91九色精品人成在线观看| 国产免费av片在线观看野外av| 国产熟女午夜一区二区三区| 国产三级中文精品| 三级毛片av免费| 18禁观看日本| 精品乱码久久久久久99久播| 国产成人啪精品午夜网站| 老司机在亚洲福利影院| www.999成人在线观看| 成年人黄色毛片网站| 又黄又粗又硬又大视频| 三级男女做爰猛烈吃奶摸视频| 看黄色毛片网站| 熟女电影av网| 天堂动漫精品| 淫妇啪啪啪对白视频| 成人永久免费在线观看视频| 美女黄网站色视频| 中亚洲国语对白在线视频| 日韩欧美在线二视频| 亚洲自偷自拍图片 自拍| 国产精品 国内视频| 91麻豆av在线| 两性午夜刺激爽爽歪歪视频在线观看 | 国产1区2区3区精品| 天天躁狠狠躁夜夜躁狠狠躁| av福利片在线| 国产精品影院久久| 欧美乱妇无乱码| 99久久久亚洲精品蜜臀av| 亚洲国产欧美一区二区综合| 精品不卡国产一区二区三区| 亚洲一码二码三码区别大吗| 手机成人av网站| 天天添夜夜摸| 日韩国内少妇激情av| 天堂√8在线中文| 成人欧美大片| 99热只有精品国产| 日日爽夜夜爽网站| 深夜精品福利| 国内精品久久久久精免费| 一a级毛片在线观看| 好男人在线观看高清免费视频| 久热爱精品视频在线9| 19禁男女啪啪无遮挡网站| 亚洲av中文字字幕乱码综合| 五月玫瑰六月丁香| 看黄色毛片网站| 久久中文看片网| 欧美大码av| 国产一区二区在线观看日韩 | 麻豆成人av在线观看| 露出奶头的视频| 搡老熟女国产l中国老女人| 久久亚洲精品不卡| 热99re8久久精品国产| 日本五十路高清| 色播亚洲综合网| 精品福利观看| 性色av乱码一区二区三区2| 亚洲午夜精品一区,二区,三区| 免费在线观看完整版高清| 可以在线观看毛片的网站| 午夜免费观看网址| 亚洲 欧美一区二区三区| 麻豆久久精品国产亚洲av| 成年人黄色毛片网站| 久久香蕉精品热| or卡值多少钱| 一级毛片女人18水好多| 欧美黑人精品巨大| 国产在线精品亚洲第一网站| 日韩欧美一区二区三区在线观看| 50天的宝宝边吃奶边哭怎么回事| 久久亚洲精品不卡| 日韩大尺度精品在线看网址| 国产精品久久久久久精品电影| 日韩大尺度精品在线看网址| 精品国产美女av久久久久小说| 亚洲人成网站高清观看| 色综合亚洲欧美另类图片| 首页视频小说图片口味搜索| 精品国产美女av久久久久小说| 国产区一区二久久| 少妇被粗大的猛进出69影院| 女人被狂操c到高潮| 超碰成人久久| 精品久久久久久,| 国产v大片淫在线免费观看| 我的老师免费观看完整版| 国产精品一区二区免费欧美| 男女下面进入的视频免费午夜| 国产亚洲欧美98| 亚洲美女视频黄频| 国产久久久一区二区三区| 国产精品一区二区三区四区久久| 久久人妻av系列| videosex国产| 国产精品电影一区二区三区| 性色av乱码一区二区三区2| 在线观看舔阴道视频| 成人午夜高清在线视频| 国产伦在线观看视频一区| 最近最新免费中文字幕在线| 成年版毛片免费区| 国产欧美日韩一区二区精品| 欧美日韩黄片免| 国产成人av教育| 麻豆久久精品国产亚洲av| 99久久精品国产亚洲精品| 好男人电影高清在线观看| 中文字幕久久专区| 日本精品一区二区三区蜜桃| 国产亚洲精品综合一区在线观看 | 精品一区二区三区av网在线观看| 久久亚洲精品不卡| 欧美乱妇无乱码| 国产一区二区三区视频了| 两人在一起打扑克的视频| 日韩欧美国产一区二区入口| 欧美极品一区二区三区四区| 国产亚洲精品第一综合不卡| 级片在线观看| 日韩欧美三级三区| 国产亚洲精品一区二区www| 久久久久久国产a免费观看| 搞女人的毛片| 精品免费久久久久久久清纯| 国产99白浆流出| 一个人观看的视频www高清免费观看 | 俺也久久电影网| 在线a可以看的网站| 成人av在线播放网站| 国产午夜福利久久久久久| aaaaa片日本免费| 亚洲av成人不卡在线观看播放网| 91麻豆av在线| 国产一区在线观看成人免费| 欧美一级a爱片免费观看看 | 看片在线看免费视频| 亚洲精品美女久久久久99蜜臀| 久久草成人影院| 中文字幕人成人乱码亚洲影| 国产aⅴ精品一区二区三区波| 免费在线观看完整版高清| 欧美高清成人免费视频www| 91av网站免费观看| 成人特级黄色片久久久久久久| 桃红色精品国产亚洲av| 97碰自拍视频| 在线看三级毛片| 午夜免费观看网址| 日本一本二区三区精品| 国产伦人伦偷精品视频| www日本在线高清视频| 麻豆国产av国片精品| 国产精品亚洲一级av第二区| 亚洲成a人片在线一区二区| 国产男靠女视频免费网站| 国产精品永久免费网站| 久久99热这里只有精品18| 国产片内射在线| 国产一区二区三区在线臀色熟女| 在线国产一区二区在线| 视频区欧美日本亚洲| 亚洲专区国产一区二区| 久久久久国内视频| 国产爱豆传媒在线观看 | 国产亚洲精品久久久久久毛片| 后天国语完整版免费观看| 黄色 视频免费看| 亚洲色图 男人天堂 中文字幕| 18禁黄网站禁片免费观看直播| 成人三级做爰电影| 亚洲av成人不卡在线观看播放网| 午夜成年电影在线免费观看| 日本 av在线| 国产精品久久电影中文字幕| 亚洲精品美女久久久久99蜜臀| 亚洲欧美日韩高清在线视频| 麻豆国产97在线/欧美 | 亚洲熟女毛片儿| xxxwww97欧美| 国产在线观看jvid| 人妻丰满熟妇av一区二区三区| 五月玫瑰六月丁香| 成人精品一区二区免费| 欧美性猛交黑人性爽| 777久久人妻少妇嫩草av网站| 一级片免费观看大全| 女同久久另类99精品国产91| 黄色片一级片一级黄色片| 成人国产一区最新在线观看| 无人区码免费观看不卡| 久久99热这里只有精品18| 观看免费一级毛片| 五月玫瑰六月丁香| 色老头精品视频在线观看| 亚洲aⅴ乱码一区二区在线播放 | 国产免费av片在线观看野外av| 国产成人精品久久二区二区免费| 亚洲九九香蕉| 久久久久久久久中文| 麻豆av在线久日| 动漫黄色视频在线观看| 成熟少妇高潮喷水视频| 国产精品久久久人人做人人爽| 免费看日本二区| 国产三级黄色录像| 丁香六月欧美| 老汉色av国产亚洲站长工具| 精品国产乱子伦一区二区三区| 久久久久久国产a免费观看| 亚洲精品av麻豆狂野| 久久久久久久精品吃奶| 亚洲午夜精品一区,二区,三区| 99久久无色码亚洲精品果冻| 亚洲 国产 在线| 精品一区二区三区四区五区乱码| 欧美一区二区精品小视频在线| 伦理电影免费视频| 免费在线观看完整版高清| 又黄又爽又免费观看的视频| 久久精品成人免费网站| 在线观看66精品国产| 麻豆国产av国片精品| 婷婷精品国产亚洲av| 亚洲性夜色夜夜综合| 黄色a级毛片大全视频| av中文乱码字幕在线| 久久久国产成人免费| 波多野结衣巨乳人妻| 99久久久亚洲精品蜜臀av| 丰满的人妻完整版|