• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于雙語(yǔ)URL匹配模式可信度的平行網(wǎng)頁(yè)識(shí)別研究

    2018-05-04 06:46:25章成志馬舒天揭春雨姚旭晨
    中文信息學(xué)報(bào) 2018年3期
    關(guān)鍵詞:平行網(wǎng)頁(yè)雙語(yǔ)

    章成志,馬舒天,揭春雨,姚旭晨,3

    (1. 南京理工大學(xué) 信息管理系,江蘇 南京,210094;2. 香港城市大學(xué) 翻譯及語(yǔ)言學(xué)系,香港;3. 百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司,北京 100085)

    0 引言

    平行語(yǔ)料庫(kù)是指兩種或多種語(yǔ)言在段落、句子甚至單詞短語(yǔ)層面上互為翻譯的語(yǔ)料。作為自然語(yǔ)言處理領(lǐng)域中的寶貴資源,平行語(yǔ)料在統(tǒng)計(jì)機(jī)器翻譯[1]和跨語(yǔ)言檢索[2]等任務(wù)中扮演著重要的角色。已有的平行語(yǔ)料庫(kù),無論在語(yǔ)種數(shù)量、語(yǔ)料規(guī)模、質(zhì)量還是覆蓋領(lǐng)域等方面,都仍需不斷完善擴(kuò)充,以滿足實(shí)際需求。

    過往的研究利用雙語(yǔ)或多語(yǔ)網(wǎng)站來獲取平行語(yǔ)料(包括雙語(yǔ)平行和雙語(yǔ)混合網(wǎng)頁(yè)),并搭建了一些雙語(yǔ)網(wǎng)頁(yè)獲取系統(tǒng),如STRAND[3]、BITS[4]、PTMiner[5]、PTI[6]及WPDE[7]等。另外一種代表性方法則依據(jù)URL組成的模式,通過啟發(fā)式規(guī)則從雙語(yǔ)網(wǎng)站上自動(dòng)發(fā)現(xiàn)雙語(yǔ)網(wǎng)頁(yè),相比手工制定啟發(fā)式規(guī)則,通過機(jī)器自動(dòng)發(fā)現(xiàn)規(guī)則,能在一定程度上減少計(jì)算資源的開銷[8-9]。

    本文基于后一種方法,對(duì)雙語(yǔ)URL匹配模式探測(cè)、模式可信度計(jì)算及應(yīng)用等方面,進(jìn)行比較全面的設(shè)計(jì)和實(shí)驗(yàn)[8-10]。首先,計(jì)算雙語(yǔ)URL匹配模式的可信度;其次,在此基礎(chǔ)上提出四種雙語(yǔ)網(wǎng)頁(yè)識(shí)別方法;然后,利用搜索引擎以及少量的高可信度雙語(yǔ)URL匹配模式快速識(shí)別雙語(yǔ)網(wǎng)頁(yè),以降低對(duì)匹配模式的過分依賴;最后,利用網(wǎng)頁(yè)鏈接與高可信度的URL匹配模式計(jì)算候選網(wǎng)頁(yè)對(duì)的雙語(yǔ)相似度,由此來過濾非雙語(yǔ)網(wǎng)頁(yè)對(duì),以進(jìn)一步提高候選雙語(yǔ)網(wǎng)頁(yè)對(duì)的準(zhǔn)確率。通過一系列實(shí)驗(yàn),我們驗(yàn)證了所提方法的有效性。

    1 相關(guān)研究概述

    STRAND[3]是最早用于識(shí)別雙語(yǔ)平行網(wǎng)頁(yè)的系統(tǒng)之一,該系統(tǒng)通過搜索引擎檢索指向不同語(yǔ)種版本鏈接的網(wǎng)頁(yè),然后將文本語(yǔ)種比較、URL配對(duì)以及文本長(zhǎng)度作為判別特征,生成候選平行網(wǎng)頁(yè)對(duì),最后利用網(wǎng)頁(yè)結(jié)構(gòu)進(jìn)行過濾。PTMiner[5]首先利用鏈接錨文本來識(shí)別候選雙語(yǔ)網(wǎng)站,通過搜索引擎得到這些網(wǎng)站下的網(wǎng)頁(yè),并利用URL模式找出平行對(duì),最后通過網(wǎng)頁(yè)內(nèi)外部特征進(jìn)行過濾。類似的挖掘系統(tǒng)還有BITS[4]、PTI[6]、WPDE[7]等。另外,平行網(wǎng)頁(yè)的識(shí)別方法也在不斷更新,例如通過DOM樹對(duì)齊模型來識(shí)別互譯文本和兩個(gè)平行DOM樹之間的鏈接[11],利用HTML結(jié)構(gòu)實(shí)現(xiàn)平行網(wǎng)頁(yè)的遞歸訪問,使用URL模式優(yōu)化遍歷平行網(wǎng)站的拓?fù)漤樞?,來獲取平行網(wǎng)頁(yè)[12]。另外,網(wǎng)頁(yè)之間的鏈接關(guān)系也被用于計(jì)算網(wǎng)頁(yè)之間的相似程度,迭代挖掘出平行網(wǎng)頁(yè)[13]。

    這些方法大多獨(dú)立于語(yǔ)言,具體步驟為: 抓取和識(shí)別候選雙語(yǔ)網(wǎng)站、提取候選平行網(wǎng)頁(yè)對(duì),進(jìn)而驗(yàn)證。其中,平行網(wǎng)頁(yè)網(wǎng)址的先驗(yàn)知識(shí)常用于網(wǎng)頁(yè)抓取或過濾。已有研究主要依靠?jī)深愋畔慝@取平行網(wǎng)頁(yè): 一是單個(gè)網(wǎng)頁(yè)信息,包括網(wǎng)址和網(wǎng)頁(yè)內(nèi)容;二是多個(gè)網(wǎng)頁(yè)信息,主要是網(wǎng)頁(yè)之間的鏈接關(guān)系。也有很多研究者利用搜索引擎檢索表示語(yǔ)言類別的錨文本來定位候選雙語(yǔ)網(wǎng)站。此外,網(wǎng)址中是否含有預(yù)先定義的雙語(yǔ)URL模式也常被用來判斷候選平行網(wǎng)頁(yè)。然而,這些預(yù)定義的規(guī)則不可能涵蓋所有情況,很多網(wǎng)站甚至沒有任何關(guān)于語(yǔ)言類別的錨文本標(biāo)記。因此,我們?cè)噲D通過機(jī)器自動(dòng)發(fā)現(xiàn)規(guī)則,來降低基于雙語(yǔ)URL匹配模式的方法對(duì)外部先驗(yàn)知識(shí)的依賴性[8-9]。同時(shí),我們還依據(jù)少量匹配模式,快速識(shí)別雙語(yǔ)網(wǎng)頁(yè)[10]。另外,為進(jìn)一步提高這些方法所識(shí)別出的候選雙語(yǔ)網(wǎng)頁(yè)對(duì)的準(zhǔn)確率,我們提出非雙語(yǔ)網(wǎng)頁(yè)對(duì)過濾算法。

    2 研究總體框架

    如圖1所示,雙語(yǔ)網(wǎng)頁(yè)在雙語(yǔ)網(wǎng)站上有多種出現(xiàn)模式,根據(jù)源語(yǔ)言與目標(biāo)語(yǔ)言網(wǎng)頁(yè)結(jié)構(gòu)對(duì)應(yīng)強(qiáng)度的不同,可以分為強(qiáng)、弱和無對(duì)應(yīng)關(guān)系的雙語(yǔ)網(wǎng)頁(yè)(深層網(wǎng)頁(yè))。我們根據(jù)網(wǎng)頁(yè)的URL結(jié)構(gòu),計(jì)算雙語(yǔ)URL匹配模式可信度,并據(jù)此提出五種識(shí)別雙語(yǔ)網(wǎng)頁(yè)的算法,開發(fā)了相應(yīng)的雙語(yǔ)網(wǎng)頁(yè)獲取與評(píng)估系統(tǒng)Pupsniffer*https: //code.google.com/p/pupsniffer/。該系統(tǒng)基于先前工作[8]并對(duì)其算法進(jìn)行了優(yōu)化,是一個(gè)很有用的多語(yǔ)網(wǎng)頁(yè)自動(dòng)挖掘工具[9]。

    圖1 候選雙語(yǔ)網(wǎng)站的網(wǎng)頁(yè)對(duì)應(yīng)結(jié)構(gòu)示意圖

    如圖2所示,Pupsniffer系統(tǒng)分為三個(gè)模塊,第一個(gè)模塊是雙語(yǔ)網(wǎng)頁(yè)挖掘,根據(jù)所給的種子網(wǎng)站列表進(jìn)行網(wǎng)頁(yè)爬取,結(jié)合鏈接分析與雙語(yǔ)URL匹配模式,利用五個(gè)主要算法獲取雙語(yǔ)網(wǎng)頁(yè),即: 基于模式局部可信度的雙語(yǔ)網(wǎng)頁(yè)發(fā)現(xiàn)算法[8]和兩個(gè)優(yōu)化方法,分別是弱匹配模式救回算法和深層雙語(yǔ)網(wǎng)頁(yè)檢測(cè)算法,以及深層雙語(yǔ)網(wǎng)頁(yè)發(fā)現(xiàn)增量算法[9]和僅考慮少量先驗(yàn)知識(shí)的雙語(yǔ)網(wǎng)頁(yè)獲取方法[10]。第二個(gè)模塊是非雙語(yǔ)網(wǎng)頁(yè)的過濾,利用網(wǎng)頁(yè)鏈接,以及雙語(yǔ)URL匹配模式進(jìn)行過濾(圖2⑥)。第三個(gè)模塊是候選雙語(yǔ)網(wǎng)頁(yè)測(cè)評(píng),即對(duì)所得到的雙語(yǔ)網(wǎng)頁(yè)URL進(jìn)行隨機(jī)抽樣并人工測(cè)評(píng),最后得到測(cè)評(píng)結(jié)果。

    圖2 雙語(yǔ)網(wǎng)頁(yè)獲取與評(píng)估系統(tǒng)總體框架圖

    3 雙語(yǔ)URL匹配模式的可信度計(jì)算方法

    針對(duì)某個(gè)網(wǎng)站下采集得到的網(wǎng)頁(yè),我們首先對(duì)其內(nèi)容進(jìn)行簡(jiǎn)單的語(yǔ)言識(shí)別,即: 網(wǎng)頁(yè)內(nèi)容中超過50%的字符為英文字母,則判斷該網(wǎng)頁(yè)為英文網(wǎng)頁(yè),否則為中文網(wǎng)頁(yè)[8]。然后,我們對(duì)網(wǎng)頁(yè)URL進(jìn)行切分等預(yù)處理,得到兩個(gè)字符串單元集合,即網(wǎng)址路徑的單元集合和網(wǎng)址文件名的單元集合,接著分別對(duì)這兩個(gè)集合及其總集合進(jìn)行雙語(yǔ)URL匹配模式的識(shí)別[8]。

    定義1(雙語(yǔ)URL匹配模式): 給定一個(gè)雙語(yǔ)網(wǎng)站的源語(yǔ)言與目標(biāo)語(yǔ)言網(wǎng)頁(yè)URL集合為U和U′,相應(yīng)的字符串單元集合為T和T′,若從一個(gè)候選雙語(yǔ)URL對(duì)π=〈u,u′〉∈U×U′中抽去一個(gè)單元對(duì)k=〈t,t′〉∈T×T′后,剩下的單元集合相同,即u-{t}=u′-{t′},則該單元對(duì)k記為一個(gè)候選的雙語(yǔ)URL匹配模式。

    相應(yīng)地,一個(gè)雙語(yǔ)URL匹配模式k=〈t,t′〉的得分計(jì)算可形式化為:

    (1)

    其中,u-{t}和u′-{t′}分別為從網(wǎng)址u和u′中抽去模式〈t,t′〉中的字串t和t′后剩下的單元集合。舉例來說,給出如下一對(duì)網(wǎng)址:

    英文URL: http: //www.legco.gov.hk/yr99-00/english/fc/esc/minutes/es061099.htm

    中文URL: http: //www.legco.gov.hk/yr99-00/chinese/fc/esc/minutes/es061099.htm

    其中所含的“english”和“chinese”兩個(gè)字符串顯示出這兩個(gè)網(wǎng)址所對(duì)應(yīng)的語(yǔ)種及平行關(guān)系,根據(jù)以上定義,我們將“”這樣的字符串單元對(duì)選為一個(gè)候選雙語(yǔ)URL對(duì)的匹配模式,或稱匹配鍵(key)。遍歷一個(gè)雙語(yǔ)網(wǎng)站中所有的候選雙語(yǔ)URL對(duì)后,每個(gè)匹配鍵得到一個(gè)總得分,即其在該網(wǎng)站中可能匹配上的雙語(yǔ)URL對(duì)的總數(shù)。

    定義2(雙語(yǔ)URL匹配模式的頻次): 雙語(yǔ)URL匹配模式k(簡(jiǎn)稱模式k)的頻次為遍歷給定網(wǎng)站w中所有的候選雙語(yǔ)URL對(duì)后模式k的總得分,即其在w中可能匹配上的雙語(yǔ)URL對(duì)的總對(duì)數(shù),計(jì)算如式(2)所示。

    (2)

    定義3(雙語(yǔ)URL匹配模式的局部可信度): 模式k的局部可信度為給定網(wǎng)站w中k可能匹配上的雙語(yǔ)網(wǎng)頁(yè)數(shù)與w中URL總數(shù)的比值,計(jì)算如式(3)所示。

    (3)

    其中,N(k,w)為網(wǎng)站w中k可能匹配上的雙語(yǔ)網(wǎng)頁(yè)數(shù),是雙語(yǔ)URL對(duì)數(shù)目的兩倍,即:N(k,w)=2*pπ∈U×U′(k,w),|w|為網(wǎng)站w的網(wǎng)頁(yè)總數(shù)。

    通常,在某一個(gè)網(wǎng)站上可信度高的雙語(yǔ)URL匹配模式,不一定在所有的網(wǎng)站上都具有較高的可信度,而在大多數(shù)網(wǎng)站上都出現(xiàn)的匹配模式一般來說其可信度都較高?;谶@個(gè)假設(shè),我們給出雙語(yǔ)URL匹配模式的全局可信度概念。

    定義4(雙語(yǔ)URL匹配模式的全局可信度): 對(duì)候選網(wǎng)站集合W中每個(gè)網(wǎng)站,將模式k可能匹配上的URL總數(shù)歸一化后,與k的局部可信度相乘,然后對(duì)所有乘積求和,該乘積和稱為模式k的全局可信度,計(jì)算如式(4)所示。

    (4)

    其中,N為候選網(wǎng)站集合W中所有網(wǎng)站網(wǎng)頁(yè)總數(shù),wi為候選網(wǎng)站集合中第i個(gè)網(wǎng)站。由于N為常量值,不影響模式k全局可信度的排序結(jié)果,實(shí)驗(yàn)中無需加入計(jì)算。

    定義5(網(wǎng)站的雙語(yǔ)可信度): 網(wǎng)站w的雙語(yǔ)可信度為其中所有雙語(yǔ)URL匹配模式的局部可信度最大值,計(jì)算如式(5)所示。

    C(w)=maxkC(k,w)

    (5)

    4 基于雙語(yǔ)URL匹配模式可信度的雙語(yǔ)網(wǎng)頁(yè)識(shí)別方法

    在雙語(yǔ)URL匹配模式可信度計(jì)算的基礎(chǔ)上,我們提出四種適用于不同場(chǎng)景的雙語(yǔ)網(wǎng)頁(yè)識(shí)別方法。

    4.1 基于雙語(yǔ)URL匹配模式局部可信度的雙語(yǔ)網(wǎng)頁(yè)識(shí)別算法

    基于雙語(yǔ)URL匹配模式局部可信度的雙語(yǔ)網(wǎng)頁(yè)發(fā)現(xiàn)算法(圖2①)假設(shè)雙語(yǔ)網(wǎng)站中的雙語(yǔ)平行網(wǎng)頁(yè)對(duì)通常包含固定的URL匹配模式。該算法原理如下:

    給定從雙語(yǔ)網(wǎng)站w采集到的所有URL地址,若其中的一對(duì)網(wǎng)址u與v只有一處不同,則此不同處為可能的雙語(yǔ)URL匹配模式。然后,我們計(jì)算網(wǎng)站w中的雙語(yǔ)匹配模式的局部可信度,給定閾值(實(shí)驗(yàn)中設(shè)為0.1),得到雙語(yǔ)匹配模式局部可信度超過該閾值的候選雙語(yǔ)匹配模式,最后根據(jù)候選模式,得到候選雙語(yǔ)網(wǎng)頁(yè)[8]。

    4.2 弱匹配模式救回算法

    在初始算法中,設(shè)置局部可信度閾值顯然會(huì)過濾掉局部可信度低但全局可信度可能較高的雙語(yǔ)匹配模式及其對(duì)應(yīng)的雙語(yǔ)網(wǎng)頁(yè)。為此,我們提出兩種方法來解決這一問題。

    首先,對(duì)于這樣的匹配模式,我們?cè)O(shè)定一個(gè)全局可信度閾值θ(實(shí)驗(yàn)中設(shè)為500)*我們給出θ=100時(shí)對(duì)應(yīng)的雙語(yǔ)匹配模式及其全局可信度: http: //mega.lt.cityu.edu.hk/~czhang22/pupsniffer-eval/Data/Pattern_Credibility_LargeThan100.txt,若其可信度不低于θ,則仍保留該匹配模式及其對(duì)應(yīng)的雙語(yǔ)網(wǎng)頁(yè)。

    其次,對(duì)于兩種可信度都較低但當(dāng)前網(wǎng)站對(duì)應(yīng)域名的可信度較高*我們通過雙語(yǔ)URL匹配模式的可信度與域名進(jìn)行關(guān)聯(lián)統(tǒng)計(jì),得到URL集合中每個(gè)域名的可信度。的情況,由于這種類型的網(wǎng)站可能包含大量的雙語(yǔ)URL對(duì),例如“gov.hk”域名,我們降低局部可信度閾值,從而獲取更多可能的雙語(yǔ)網(wǎng)頁(yè)。

    4.3 深層雙語(yǔ)網(wǎng)頁(yè)檢測(cè)算法

    有些網(wǎng)頁(yè)只有通過數(shù)據(jù)庫(kù)檢索才能臨時(shí)生成,這類網(wǎng)頁(yè)稱為深層網(wǎng)頁(yè)*https: //en.wikipedia.org/wiki/Deep_web_%28search%29。在雙語(yǔ)網(wǎng)站中,深層網(wǎng)頁(yè)包括如下幾種情況: (1)全子樹深層網(wǎng)頁(yè),即網(wǎng)站的單語(yǔ)子目錄無法被抓?。?2)部分子樹深層網(wǎng)頁(yè),即部分子樹對(duì)應(yīng)網(wǎng)頁(yè)不能被抓?。?3)部分節(jié)點(diǎn)深層網(wǎng)頁(yè),即雙語(yǔ)網(wǎng)站的某些網(wǎng)頁(yè)無法被抓取,尤其是動(dòng)態(tài)創(chuàng)建的網(wǎng)頁(yè)。

    我們利用全局可信度高的雙語(yǔ)URL匹配模式,生成深層網(wǎng)頁(yè)URL對(duì)應(yīng)的另一語(yǔ)種的網(wǎng)頁(yè)URL。實(shí)驗(yàn)中我們?nèi)∪挚尚哦惹?0位的雙語(yǔ)匹配模式進(jìn)行深層雙語(yǔ)網(wǎng)頁(yè)檢測(cè)。例如,中文網(wǎng)頁(yè)http: //www.fehd.gov.hk/tc_chi/LLB_web/cagenda_20070904.htm所對(duì)應(yīng)的英文網(wǎng)頁(yè)如果爬蟲爬不到,則選擇全局可信度高的雙語(yǔ)匹配模式“”,用“english”替換“tc_chi”來生成英文URL*對(duì)應(yīng)英文URL為: http: //www.fehd.gov.hk/english/LLB_web/cagenda_20070904.htm,目前該網(wǎng)頁(yè)已失效。,然后用超文本傳輸協(xié)議檢查生成的URL是否有效,若有效,則收集到候選雙語(yǔ)網(wǎng)頁(yè)對(duì)中。目前,大多數(shù)雙語(yǔ)網(wǎng)頁(yè)發(fā)現(xiàn)方法都是基于網(wǎng)頁(yè)結(jié)構(gòu)和內(nèi)容的相似度計(jì)算,而沒有事先獲得候選URL對(duì),因此都無法發(fā)現(xiàn)深層雙語(yǔ)網(wǎng)頁(yè)。我們把深層雙語(yǔ)網(wǎng)頁(yè)檢測(cè)整合到雙語(yǔ)網(wǎng)頁(yè)發(fā)現(xiàn)方法中,可挖掘出更多高可信度的雙語(yǔ)網(wǎng)頁(yè)。

    4.4 深層雙語(yǔ)網(wǎng)頁(yè)發(fā)現(xiàn)增量算法

    雙語(yǔ)網(wǎng)站往往與其他的雙語(yǔ)網(wǎng)站存在鏈接關(guān)系。因此,如果給定雙語(yǔ)網(wǎng)站列表,可以通過解析網(wǎng)站中的網(wǎng)頁(yè)來采集外部網(wǎng)站,從而發(fā)現(xiàn)更多的雙語(yǔ)網(wǎng)站?;谠撓敕?,我們利用鏈接分析,結(jié)合網(wǎng)站可信度獲得更多的候選雙語(yǔ)網(wǎng)頁(yè)。

    定義6(網(wǎng)站的鏈出數(shù)): 給定種子網(wǎng)站集合Wseed={w1,w2,...,wi,…,wN},其中網(wǎng)站wi的鏈出數(shù)是指從網(wǎng)站wi鏈接到Wseed中其他網(wǎng)站的數(shù)量總和,記為L(zhǎng)inkout(wi)。

    定義7(網(wǎng)站的權(quán)威度): 網(wǎng)站wi的權(quán)威度為其PageRank值[14],記作PR(wi)。

    定義8(考慮可信度的網(wǎng)站權(quán)威度): 考慮可信度的網(wǎng)站wi權(quán)威度為wi可信度與其PageRank值的乘積,即加權(quán)的(weighted)PR值,記作WPR(wi),計(jì)算公式如式(6)所示。

    WPR(wi)=C(wi)PR(wi)

    (6)

    為了減少系統(tǒng)開銷,Linkout(wi)和PR(wi)的計(jì)算僅依據(jù)種子網(wǎng)站之間的鏈接關(guān)系。根據(jù)定義6~8,網(wǎng)站wi包含Linkout(wi)、PR(wi)和WPR(wi)三個(gè)量值。依此,我們分別使用這三個(gè)指標(biāo)來度量一個(gè)相關(guān)外部網(wǎng)站的可信度,即其各指標(biāo)的總和: ∑Linkout、∑PR和∑WPR值。

    使用這些指標(biāo)的雙語(yǔ)網(wǎng)頁(yè)獲取增量算法的具體步驟如表1所示。在每次迭代中,計(jì)算相關(guān)參數(shù)并得到新的候選種子網(wǎng)站及其網(wǎng)頁(yè)。其中,預(yù)設(shè)的從外部網(wǎng)站選取候選網(wǎng)站的個(gè)數(shù)K可以換成一個(gè)適當(dāng)?shù)谋壤担驗(yàn)樗缅噙x指標(biāo)的一個(gè)經(jīng)驗(yàn)閾值。在我們的實(shí)驗(yàn)中,為了簡(jiǎn)化處理過程,該算法一次運(yùn)行中同時(shí)計(jì)算三個(gè)遴選指標(biāo)并輸出結(jié)果,K設(shè)定為500,迭代次數(shù)設(shè)定為1次。

    我們邀請(qǐng)了兩位碩士研究生分別評(píng)估這樣獲得的候選相關(guān)雙語(yǔ)網(wǎng)站的前500個(gè)。依照上述三個(gè)指標(biāo),圖3顯示所識(shí)別的前N個(gè)候選網(wǎng)站中真正雙語(yǔ)網(wǎng)站的數(shù)量走勢(shì),圖4顯示所識(shí)別的雙語(yǔ)網(wǎng)站的正確率??梢钥闯?,∑WPR指標(biāo)優(yōu)于其他兩種指標(biāo),在前500個(gè)候選網(wǎng)站中,識(shí)別出為真雙語(yǔ)網(wǎng)站的準(zhǔn)確率接近50%。

    表1 深層雙語(yǔ)網(wǎng)站發(fā)現(xiàn)增量算法描述

    圖3 前N個(gè)候選網(wǎng)站中真正雙語(yǔ)網(wǎng)站的數(shù)量走勢(shì)

    圖4 前N個(gè)候選雙語(yǔ)網(wǎng)站的正確率

    4.5 基于少量先驗(yàn)知識(shí)的雙語(yǔ)網(wǎng)頁(yè)獲取算法

    為降低對(duì)初始種子網(wǎng)站和雙語(yǔ)URL匹配模式的過度依賴,我們利用搜索引擎的優(yōu)勢(shì),僅依據(jù)少量的高可信度雙語(yǔ)URL匹配模式,快速識(shí)別雙語(yǔ)網(wǎng)頁(yè)[10],具體步驟如下:

    (1) 獲取雙語(yǔ)URL匹配模式中目標(biāo)語(yǔ)言的標(biāo)識(shí)符

    URL中標(biāo)識(shí)語(yǔ)種類型的字符串通常為該語(yǔ)言的英文單詞或縮寫,例如英文網(wǎng)頁(yè)URL中可能包含“english”“eng”“en”等字符串。為此,我們可從雙語(yǔ)URL匹配模式中獲取目標(biāo)語(yǔ)言的標(biāo)識(shí)符。根據(jù)雙語(yǔ)匹配模式及其全局可信度的計(jì)算結(jié)果,得到可信度排名靠前的雙語(yǔ)URL模式,如“”“” “”等,其英文標(biāo)識(shí)分別為“en”“eng”“english”。

    (2) 依據(jù)搜索引擎快速獲取候選雙語(yǔ)種子站點(diǎn)

    通過搜索引擎的搜索規(guī)則,構(gòu)造查詢式,我們可以快速獲取候選的雙語(yǔ)種子站點(diǎn)。例如: 通過“site:”限定方式,可將搜索范圍限定在香港政府(gov.hk)、教育(edu.hk)等類型的網(wǎng)站;通過“inurl:”來保證URL中含有“en”“eng”“english”等語(yǔ)言標(biāo)識(shí)符;此外通過“filetype:”限定URL對(duì)應(yīng)的文件類型。通過查詢式“inurl: en site: gov.hk filetype: html”,我們能在Google上快速得到香港政府相關(guān)網(wǎng)頁(yè),在此基礎(chǔ)上得到候選雙語(yǔ)種子站點(diǎn)列表。

    (3) 獲取候選雙語(yǔ)網(wǎng)頁(yè)

    依據(jù)雙語(yǔ)匹配模式的全局可信度計(jì)算結(jié)果,我們得到與目標(biāo)語(yǔ)言標(biāo)識(shí)對(duì)應(yīng)的排名前N(實(shí)驗(yàn)中設(shè)為5)的雙語(yǔ)URL匹配模式。對(duì)候選雙語(yǔ)網(wǎng)站的目標(biāo)語(yǔ)言網(wǎng)址,按照可信度由高到低的順序,將目標(biāo)語(yǔ)言標(biāo)識(shí)符替換為源語(yǔ)言標(biāo)識(shí)符,從而得到候選的源語(yǔ)言網(wǎng)頁(yè)URL。根據(jù)HTTP協(xié)議判斷源語(yǔ)言網(wǎng)頁(yè)URL是否有效,將有效的URL對(duì)作為候選的雙語(yǔ)網(wǎng)頁(yè)URL。

    5 基于網(wǎng)頁(yè)鏈接與雙語(yǔ)URL匹配模式的非雙語(yǔ)網(wǎng)頁(yè)對(duì)過濾方法

    一對(duì)平行雙語(yǔ)網(wǎng)頁(yè)所具有的網(wǎng)頁(yè)鏈接往往互為平行網(wǎng)頁(yè)。我們還可以根據(jù)識(shí)別出的候選平行網(wǎng)頁(yè)對(duì)中各自的網(wǎng)頁(yè)鏈接,借助少量高可信度雙語(yǔ)URL匹配模式計(jì)算候選網(wǎng)頁(yè)對(duì)中源語(yǔ)言與目標(biāo)語(yǔ)言網(wǎng)頁(yè)的雙語(yǔ)相似度。然后,通過閾值進(jìn)一步從候選網(wǎng)頁(yè)對(duì)中過濾出非雙語(yǔ)網(wǎng)頁(yè),以提高準(zhǔn)確率。

    定義9(候選雙語(yǔ)網(wǎng)頁(yè)對(duì)的雙語(yǔ)相似度): 給定一對(duì)候選雙語(yǔ)網(wǎng)頁(yè)對(duì)(目標(biāo)語(yǔ)言網(wǎng)頁(yè)wT和源語(yǔ)言網(wǎng)頁(yè)wS),其雙語(yǔ)相似度定義為它們的網(wǎng)頁(yè)鏈接(分別為L(zhǎng)T和LS)中共同網(wǎng)頁(yè)的相似度與利用雙語(yǔ)URL匹配模式匹配上的雙語(yǔ)網(wǎng)頁(yè)相似度之和:

    (7)

    其中,α是兩者的相對(duì)權(quán)重(實(shí)驗(yàn)中,設(shè)為0.5),Sim_Same(LT,LS)為L(zhǎng)T和LS中共同網(wǎng)頁(yè)對(duì)的總網(wǎng)頁(yè)數(shù)與LT和LS總網(wǎng)頁(yè)數(shù)的比值:

    (8)

    對(duì)LT和LS中所有能夠利用雙語(yǔ)URL匹配模式匹配得上的雙語(yǔ)網(wǎng)頁(yè)對(duì)π,將其匹配模式k匹配上的URL總數(shù)N(k,π)=2×p(k,LT∪LS)與k的全局可信度C(k)相乘,將所有這樣的乘積和與總網(wǎng)頁(yè)數(shù)的比值記作:

    (9)

    這個(gè)基于雙語(yǔ)相似度的非雙語(yǔ)網(wǎng)頁(yè)對(duì)過濾算法適用于以上所有的雙語(yǔ)網(wǎng)頁(yè)對(duì)發(fā)現(xiàn)算法的輸出。

    6 結(jié)果評(píng)估與分析

    我們對(duì)上面提出的四種雙語(yǔ)網(wǎng)頁(yè)發(fā)現(xiàn)方法、基于少量先驗(yàn)知識(shí)的雙語(yǔ)網(wǎng)頁(yè)發(fā)現(xiàn)算法以及基于網(wǎng)頁(yè)鏈接及匹配模式的非雙語(yǔ)網(wǎng)頁(yè)對(duì)過濾方法,進(jìn)行一系列實(shí)驗(yàn),本節(jié)報(bào)告試驗(yàn)結(jié)果,并進(jìn)行評(píng)估與分析。

    6.1 基于四種不同雙語(yǔ)網(wǎng)頁(yè)發(fā)現(xiàn)

    實(shí)驗(yàn)中,我們基于12 800個(gè)種子網(wǎng)站分別對(duì)以上四種方法所發(fā)現(xiàn)的雙語(yǔ)網(wǎng)頁(yè)進(jìn)行質(zhì)量評(píng)估。這些種子網(wǎng)站來源于香港,從如下兩個(gè)途徑獲得: 一個(gè)是香港網(wǎng)站目錄*http: //www.852.com/,截止2010年7月17日,該目錄列出了9 922個(gè)網(wǎng)站;另一個(gè)是香港萬維網(wǎng)數(shù)據(jù)庫(kù)*http: //www.cuhk.edu.hk/hkwww.htm,注: 該網(wǎng)頁(yè)現(xiàn)已失效。中的4 230個(gè)網(wǎng)站列表。刪除無效網(wǎng)站后,共獲得大約12 800個(gè)候選種子網(wǎng)站*http: //mega.lt.cityu.edu.hk/~czhang22/pupsniffer-eval/Data/All_Seed_Websites_List.txt。

    我們開發(fā)了雙語(yǔ)網(wǎng)頁(yè)的質(zhì)量評(píng)估網(wǎng)站*http: //mega.lt.cityu.edu.hk/~czhang22/pupsniffer-eval/,通過隨機(jī)抽樣方式對(duì)雙語(yǔ)網(wǎng)頁(yè)識(shí)別方法進(jìn)行評(píng)估。我們邀請(qǐng)了五人(一位博士和四位碩士生)參加評(píng)估。評(píng)估人員需要判斷候選雙語(yǔ)網(wǎng)頁(yè)對(duì)是否為真實(shí)的雙語(yǔ)網(wǎng)頁(yè)對(duì)。

    經(jīng)過實(shí)驗(yàn),我們共發(fā)現(xiàn)348 058對(duì)候選雙語(yǔ)網(wǎng)頁(yè)。表2給出了不同方法的統(tǒng)計(jì)數(shù)據(jù)和正確率。可以看出,四個(gè)方法的整體正確率為94.72%,基于雙語(yǔ)URL匹配模式局部可信度的雙語(yǔ)網(wǎng)頁(yè)發(fā)現(xiàn)算法的正確率為94.06%,利用弱匹配模式救回算法、深層雙語(yǔ)網(wǎng)頁(yè)檢測(cè)算法以及深層雙語(yǔ)網(wǎng)頁(yè)發(fā)現(xiàn)增量算法,能額外多發(fā)現(xiàn)21.82%的高可信度雙語(yǔ)網(wǎng)頁(yè)。

    我們也分析了實(shí)驗(yàn)結(jié)果中910個(gè)的虛假雙語(yǔ)URL對(duì),將它們分為五類,其中: “語(yǔ)言識(shí)別錯(cuò)誤”,是由于Pupsniffer語(yǔ)言識(shí)別模塊存在識(shí)別結(jié)果錯(cuò)誤而造成的;“無效URL”,是指由于網(wǎng)頁(yè)采集時(shí)網(wǎng)站正在維護(hù)或者它們本身就不存在,造成源語(yǔ)言或目標(biāo)語(yǔ)言URL無效;“只有單語(yǔ)”,是指URL對(duì)所對(duì)應(yīng)的候選雙語(yǔ)網(wǎng)頁(yè)實(shí)際上都是同一語(yǔ)種網(wǎng)頁(yè);“內(nèi)容提取錯(cuò)誤”,是指有些候選網(wǎng)頁(yè)是非純文本文件;“虛假雙語(yǔ)文本”,是指從網(wǎng)頁(yè)內(nèi)容來看候選雙語(yǔ)網(wǎng)頁(yè)不是真實(shí)的雙語(yǔ)網(wǎng)頁(yè)。經(jīng)過統(tǒng)計(jì)發(fā)現(xiàn),約80%的虛假雙語(yǔ)URL對(duì)是由于語(yǔ)言識(shí)別錯(cuò)誤造成的,因此從理論上來說,如果能夠解決這種類型的錯(cuò)誤,識(shí)別出的雙語(yǔ)網(wǎng)頁(yè)正確率將提高至98.79%。

    表2 不同雙語(yǔ)網(wǎng)頁(yè)發(fā)現(xiàn)算法的質(zhì)量評(píng)估

    6.2 基于少量先驗(yàn)知識(shí)的雙語(yǔ)網(wǎng)頁(yè)獲取

    我們依據(jù)目標(biāo)語(yǔ)言的標(biāo)識(shí)符(如“english”“eng”“en”等)及其對(duì)應(yīng)全局可信度排名前五的雙語(yǔ)匹配模式,利用Google搜索引擎檢索到88 915對(duì)中英文URL*檢索日期為2014年2月。。同樣,我們通過隨機(jī)抽樣來評(píng)估所發(fā)現(xiàn)的雙語(yǔ)網(wǎng)頁(yè),結(jié)果如表3所示: 4 460個(gè)中英文URL對(duì)中,有4 051對(duì)為真實(shí)的中英文雙語(yǔ)網(wǎng)頁(yè)對(duì),雙語(yǔ)網(wǎng)頁(yè)發(fā)現(xiàn)的正確率為90.83%。雖然該方法相比于[8-9]的結(jié)果較低,但該方法僅考慮少量先驗(yàn)知識(shí)、以較少的系統(tǒng)開銷即可發(fā)現(xiàn)一定規(guī)模的雙語(yǔ)網(wǎng)頁(yè)。

    表3 不同雙語(yǔ)網(wǎng)頁(yè)發(fā)現(xiàn)方法的結(jié)果比較

    對(duì)虛假雙語(yǔ)URL對(duì)的錯(cuò)誤進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)虛假雙語(yǔ)URL對(duì)的錯(cuò)誤主要集中在“只有單語(yǔ)”與“內(nèi)容提取錯(cuò)誤”這兩種類型。

    6.3 非雙語(yǔ)網(wǎng)頁(yè)過濾

    基于網(wǎng)頁(yè)鏈接與雙語(yǔ)URL匹配模式的雙語(yǔ)網(wǎng)頁(yè)過濾方法,可以對(duì)以上各雙語(yǔ)網(wǎng)頁(yè)發(fā)現(xiàn)算法的候選結(jié)果進(jìn)行進(jìn)一步過濾。本節(jié)僅報(bào)告針對(duì)7.2節(jié)中的候選雙語(yǔ)網(wǎng)頁(yè)對(duì)所進(jìn)行過濾的結(jié)果。根據(jù)該節(jié)得到的候選網(wǎng)頁(yè)對(duì),我們爬取到69 847*有部分網(wǎng)頁(yè)對(duì)未爬取到,原因是其中一個(gè)網(wǎng)頁(yè)失效,或兩個(gè)網(wǎng)頁(yè)均失效,爬蟲爬取時(shí)無反應(yīng)。對(duì)有效的鏈接網(wǎng)址*網(wǎng)頁(yè)抓取日期為2016年9月。。在進(jìn)行高可信度雙語(yǔ)URL模式匹配時(shí),我們首先排除雙語(yǔ)匹配模式中非中文英文對(duì)的模式,然后選擇了全局可信度排名前30的雙語(yǔ)匹配模式來進(jìn)行雙語(yǔ)候選網(wǎng)頁(yè)對(duì)頁(yè)面鏈接的匹配。

    在計(jì)算候選雙語(yǔ)網(wǎng)頁(yè)對(duì)雙語(yǔ)相似度時(shí),為了降低計(jì)算復(fù)雜度,我們?cè)趯?shí)驗(yàn)中沒有考慮各個(gè)模式的可信度,不同模式可信度均為1。我們將候選雙語(yǔ)網(wǎng)頁(yè)對(duì)的雙語(yǔ)相似度閾值設(shè)置為0,即相似度為0時(shí)將該候選對(duì)濾掉。69 847對(duì)候選對(duì)中一共有2 664對(duì)的雙語(yǔ)相似度為0。這些過濾掉的網(wǎng)頁(yè)中,2 275對(duì)確實(shí)為非雙語(yǔ)候選網(wǎng)頁(yè)對(duì),過濾的正確率達(dá)85.40%,它們的類型分布如表4所示。該方法僅利用網(wǎng)頁(yè)鏈接和部分高可信度URL匹配模式,即可過濾掉一定規(guī)模的非雙語(yǔ)網(wǎng)頁(yè),顯然能進(jìn)一步提高候選雙語(yǔ)網(wǎng)頁(yè)對(duì)的準(zhǔn)確率。

    表4 非雙語(yǔ)網(wǎng)頁(yè)對(duì)的類型分布

    7 結(jié)論與未來工作

    本文對(duì)基于URL組成模式的雙語(yǔ)網(wǎng)頁(yè)發(fā)現(xiàn)方法進(jìn)行了比較全面的設(shè)計(jì)和實(shí)驗(yàn): (1)計(jì)算雙語(yǔ)URL匹配模式的可信度;(2)在可信度計(jì)算的基礎(chǔ)上,提出四種不同的雙語(yǔ)網(wǎng)頁(yè)識(shí)別算法;(3)利用搜索引擎的優(yōu)勢(shì)、僅依據(jù)少量的高可信度雙語(yǔ)URL匹配模式,快速識(shí)別雙語(yǔ)網(wǎng)頁(yè);(4)最后,利用雙語(yǔ)候選網(wǎng)頁(yè)的雙語(yǔ)相似度,進(jìn)一步過濾非雙語(yǔ)網(wǎng)頁(yè)對(duì)。通過實(shí)驗(yàn),我們驗(yàn)證了所提方法的有效性。

    今后的主要研究方向包括: (1)獲取更多候選雙語(yǔ)種子網(wǎng)站: 一方面可以通過提出的增量算法尋找雙語(yǔ)網(wǎng)站和網(wǎng)頁(yè);另一方面我們可以從網(wǎng)上公開目錄得到候選網(wǎng)站列表;(2)進(jìn)一步優(yōu)化雙語(yǔ)URL匹配模式可信度以及網(wǎng)站的雙語(yǔ)可信度計(jì)算方法,比如: 利用候選雙語(yǔ)網(wǎng)頁(yè)的鏈接關(guān)系來計(jì)算每個(gè)頁(yè)面的PageRank值,然后利用PageRank值對(duì)雙語(yǔ)URL匹配模式可信度進(jìn)行加權(quán);優(yōu)化雙語(yǔ)匹配模式全局可信度的計(jì)算方法;另外,在同一網(wǎng)站中考慮更多的雙語(yǔ)匹配模式作為雙語(yǔ)網(wǎng)站可信度計(jì)算依據(jù)。(3)研究在不需要雙語(yǔ)種子網(wǎng)站或者盡量少的雙語(yǔ)種子網(wǎng)站的情況下,獲取大規(guī)模雙語(yǔ)網(wǎng)頁(yè)的方法。(4)在本文基礎(chǔ)上,進(jìn)一步抽取雙語(yǔ)平行網(wǎng)頁(yè)的正文、生成平行句對(duì),最后利用標(biāo)準(zhǔn)數(shù)據(jù)集測(cè)試機(jī)器翻譯結(jié)果的BLEU值,從側(cè)面來評(píng)估本文最終生成的平行語(yǔ)料的質(zhì)量。

    [1] Brown P F,Pietra V J D.Pietra S A D,etal.The mathematics of statistical machine translation: Parameter estimation[J].Computational linguistics,1993,19(2),263-311.

    [2] Davis M W,Dunning T E.ATREC evaluation of query translation methods for multi-lingual text retrieval[C]//Proceedings of the TREC-4,1995: 483-498.

    [3] Resnik P.Parallel strands: A preliminary investigation into mining the web for bilingual text[C]//Proceedings of the AMTA 1998: MachineTranslation and the Information Soup,1998: 72-82.

    [4] Ma X,Liberman M.Bits: A method for bilingual text search over the web[C]//Proceedings of the Machine Translation Summit VII,1999: 538-542.

    [5] ChenJ,NieJ-Y.Parallel web text mining for cross-language IR[C]//Proceedings of the RIAO2000,2000: 62-77.

    [6] Chen J,Chau R,Yeh C-H.Discovering parallel text from the WorldWideWeb[C]//Proceedings of the 2nd Workshop on Australasian Information Security,Data Mining and Web Intelligence,and Software Interna-tionalisation,2004(32): 157-161.

    [7] Zhang Y,Wu K,Gao J,etal. Automatic acquisition of Chinese-English parallel corpus from the web [C]//Proceedings of the 2006 European Conference on Advances in Information Retrieval. 2006: 420-431.

    [8] Kit C,Ng J Y H.An intelligent web agent to mine bilingual parallel pages via automatic discovery of URL pairing patterns[C]//Proceedings of the 2007 IEEE/WIC/ACM International Conferences on Web Intelligence & Intelligent Agent Technology Workshops,2008: 526-529.

    [9] Zhang C,Yao X,Kit C.Finding more bilingual webpages with high credibility via link analysis [C]// Proceedings of the Sixth Workshop on Building and Using Comparable Corpora,2013: 138-143.

    [10] Ma S,Zhang C.Automatic collection of the parallel corpus with little prior knowledge[C]//Proceedings of the 2014 China National Conference on Computational Linguistics,2014: 95-106.

    [11] Shi L,Niu C,Zhou M,etal.A DOM tree alignment model for mining parallel data from the web[C]//Proceedings of the 2006 International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics.2006: 489-496.

    [12] 劉奇,劉洋,孫茂松.URL模式與HTML結(jié)構(gòu)相結(jié)合的平行網(wǎng)頁(yè)獲取方法[J].中文信息學(xué)報(bào),2013,27(3),91-99.

    [13] Liu L,Hong Y ,Lu J,Lang J,Ji H ,&Yao J.An iterative link-based method for parallel web page mining. [C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing.2014: 1216-1224.

    [14] Brin S,Page L.The anatomy of alarge-scale hyper-textual web search engine[J].Computer networks and ISDN systems,1998,30(1),107-117.

    猜你喜歡
    平行網(wǎng)頁(yè)雙語(yǔ)
    向量的平行與垂直
    平行
    逃離平行世界
    基于CSS的網(wǎng)頁(yè)導(dǎo)航欄的設(shè)計(jì)
    電子制作(2018年10期)2018-08-04 03:24:38
    基于URL和網(wǎng)頁(yè)類型的網(wǎng)頁(yè)信息采集研究
    電子制作(2017年2期)2017-05-17 03:54:56
    再頂平行進(jìn)口
    汽車觀察(2016年3期)2016-02-28 13:16:36
    網(wǎng)頁(yè)制作在英語(yǔ)教學(xué)中的應(yīng)用
    快樂雙語(yǔ)
    新晨(2013年7期)2014-09-29 06:19:50
    快樂雙語(yǔ)
    新晨(2013年5期)2014-09-29 06:19:50
    快樂雙語(yǔ)
    新晨(2013年10期)2014-09-29 02:50:54
    精品久久久久久久久久久久久 | 国产精品久久久人人做人人爽| 男人操女人黄网站| 国产av在哪里看| 国产亚洲欧美精品永久| 国产一区二区激情短视频| 丝袜在线中文字幕| 天堂影院成人在线观看| 免费搜索国产男女视频| 亚洲av成人不卡在线观看播放网| 两个人看的免费小视频| 国产av又大| 亚洲成av片中文字幕在线观看| 中文资源天堂在线| xxxwww97欧美| 黄频高清免费视频| 婷婷六月久久综合丁香| 又黄又爽又免费观看的视频| 女警被强在线播放| 女性生殖器流出的白浆| 欧美日韩黄片免| 国产精品 欧美亚洲| 成人手机av| or卡值多少钱| 一区福利在线观看| 国产亚洲精品久久久久久毛片| 欧美久久黑人一区二区| 一级作爱视频免费观看| 亚洲中文av在线| 国产亚洲精品久久久久久毛片| 十分钟在线观看高清视频www| 亚洲av日韩精品久久久久久密| 欧美一区二区精品小视频在线| 午夜久久久久精精品| 免费电影在线观看免费观看| 窝窝影院91人妻| 精品无人区乱码1区二区| 亚洲熟妇中文字幕五十中出| 神马国产精品三级电影在线观看 | 国产黄片美女视频| 国产日本99.免费观看| 亚洲性夜色夜夜综合| 欧美日本亚洲视频在线播放| 在线观看舔阴道视频| 亚洲欧美激情综合另类| 欧美激情极品国产一区二区三区| 久久精品人妻少妇| 两性午夜刺激爽爽歪歪视频在线观看 | 亚洲电影在线观看av| 成人18禁高潮啪啪吃奶动态图| 日韩欧美国产在线观看| 美女扒开内裤让男人捅视频| aaaaa片日本免费| 精品熟女少妇八av免费久了| 午夜精品久久久久久毛片777| 中亚洲国语对白在线视频| 国产成人精品无人区| 99riav亚洲国产免费| 色综合站精品国产| 丝袜美腿诱惑在线| 午夜福利在线在线| av欧美777| 亚洲色图av天堂| 天天躁夜夜躁狠狠躁躁| 午夜福利在线在线| 美女免费视频网站| 中文亚洲av片在线观看爽| 黑人巨大精品欧美一区二区mp4| 搡老熟女国产l中国老女人| 色播在线永久视频| 精品卡一卡二卡四卡免费| 国产激情偷乱视频一区二区| 高潮久久久久久久久久久不卡| 又黄又粗又硬又大视频| 成人国产综合亚洲| 欧美绝顶高潮抽搐喷水| 亚洲av五月六月丁香网| 久久久久久免费高清国产稀缺| 老熟妇仑乱视频hdxx| 变态另类成人亚洲欧美熟女| 日本黄色视频三级网站网址| 欧美国产精品va在线观看不卡| 脱女人内裤的视频| 人人澡人人妻人| 国产成人精品久久二区二区免费| 国产亚洲精品综合一区在线观看 | 国产激情欧美一区二区| 精品久久久久久久人妻蜜臀av| 韩国av一区二区三区四区| 熟妇人妻久久中文字幕3abv| netflix在线观看网站| 亚洲av片天天在线观看| 欧美日韩瑟瑟在线播放| 女性被躁到高潮视频| 欧美成人午夜精品| 12—13女人毛片做爰片一| 色哟哟哟哟哟哟| 久热爱精品视频在线9| 在线十欧美十亚洲十日本专区| 亚洲欧美日韩高清在线视频| 色播在线永久视频| 在线观看免费视频日本深夜| 一进一出抽搐gif免费好疼| 午夜免费成人在线视频| 亚洲国产看品久久| 久久天堂一区二区三区四区| 19禁男女啪啪无遮挡网站| 欧美性猛交黑人性爽| 国产精品爽爽va在线观看网站 | 欧美成狂野欧美在线观看| 免费在线观看黄色视频的| 久久草成人影院| 欧美中文日本在线观看视频| 日本在线视频免费播放| 国产在线精品亚洲第一网站| 精品高清国产在线一区| 国产熟女xx| 国产精品98久久久久久宅男小说| 亚洲成人久久性| 免费看a级黄色片| 日韩欧美一区视频在线观看| 亚洲熟妇中文字幕五十中出| 大型av网站在线播放| 俺也久久电影网| 精品欧美国产一区二区三| 久久久精品国产亚洲av高清涩受| 91麻豆av在线| e午夜精品久久久久久久| 女人被狂操c到高潮| xxx96com| 看片在线看免费视频| 女人爽到高潮嗷嗷叫在线视频| 美国免费a级毛片| 精品少妇一区二区三区视频日本电影| 国产精品野战在线观看| 国产精品98久久久久久宅男小说| 国产单亲对白刺激| 日韩国内少妇激情av| 亚洲精品中文字幕一二三四区| 欧美性猛交╳xxx乱大交人| 精品免费久久久久久久清纯| 欧美性猛交黑人性爽| 女生性感内裤真人,穿戴方法视频| 一个人免费在线观看的高清视频| 女生性感内裤真人,穿戴方法视频| 国产亚洲精品久久久久5区| 99国产精品一区二区蜜桃av| 天天添夜夜摸| 大香蕉久久成人网| 亚洲人成电影免费在线| 亚洲五月婷婷丁香| 国产精品久久视频播放| 国产精品爽爽va在线观看网站 | 国内精品久久久久久久电影| 国产av一区在线观看免费| 热re99久久国产66热| 国产精品1区2区在线观看.| 一区二区三区高清视频在线| 国产高清激情床上av| 亚洲国产欧洲综合997久久, | 国产成人啪精品午夜网站| 中文字幕久久专区| 手机成人av网站| 999精品在线视频| 亚洲国产精品999在线| 欧美黄色片欧美黄色片| 成人亚洲精品一区在线观看| 欧美在线一区亚洲| 男人操女人黄网站| 亚洲一区高清亚洲精品| 精品久久久久久久久久久久久 | 老熟妇仑乱视频hdxx| av欧美777| 19禁男女啪啪无遮挡网站| 亚洲黑人精品在线| 成人手机av| 一级作爱视频免费观看| 国产激情久久老熟女| 我的亚洲天堂| 国产1区2区3区精品| 精品少妇一区二区三区视频日本电影| 国产精品影院久久| 欧美黄色片欧美黄色片| 欧美在线一区亚洲| 亚洲人成伊人成综合网2020| 欧美大码av| 美女国产高潮福利片在线看| 国产午夜福利久久久久久| 日本五十路高清| 婷婷六月久久综合丁香| 99国产综合亚洲精品| 又大又爽又粗| 黄色片一级片一级黄色片| 黑人欧美特级aaaaaa片| 色老头精品视频在线观看| 一a级毛片在线观看| 久久久水蜜桃国产精品网| 亚洲av熟女| 国产精品久久视频播放| 99久久精品国产亚洲精品| 午夜成年电影在线免费观看| 日日夜夜操网爽| 亚洲专区国产一区二区| 精华霜和精华液先用哪个| 丁香欧美五月| 99热只有精品国产| 老鸭窝网址在线观看| 欧美乱妇无乱码| 亚洲avbb在线观看| 久久精品国产综合久久久| 亚洲 欧美 日韩 在线 免费| 一进一出好大好爽视频| 一夜夜www| 欧美日韩一级在线毛片| 国产高清videossex| 少妇熟女aⅴ在线视频| 亚洲av成人不卡在线观看播放网| 99热只有精品国产| 午夜免费激情av| 国产亚洲欧美精品永久| 亚洲自偷自拍图片 自拍| 男人舔女人的私密视频| 国产成年人精品一区二区| 18禁美女被吸乳视频| 一级片免费观看大全| 午夜久久久在线观看| 欧美日本视频| 国产成人欧美| 免费av毛片视频| 精品免费久久久久久久清纯| 国产成人av教育| 高潮久久久久久久久久久不卡| 一级a爱视频在线免费观看| 久久久国产欧美日韩av| 国产一区二区在线av高清观看| 久久精品成人免费网站| 美女扒开内裤让男人捅视频| 亚洲色图av天堂| 18禁国产床啪视频网站| 欧美黄色片欧美黄色片| 久久性视频一级片| 国产av一区在线观看免费| 日韩国内少妇激情av| 国产成人系列免费观看| 精品国产一区二区三区四区第35| 一个人免费在线观看的高清视频| 可以在线观看的亚洲视频| 观看免费一级毛片| 欧美日韩瑟瑟在线播放| 久久欧美精品欧美久久欧美| 亚洲精品美女久久久久99蜜臀| www.www免费av| 在线播放国产精品三级| 老司机在亚洲福利影院| 精品国产一区二区三区四区第35| 美女高潮到喷水免费观看| 成年人黄色毛片网站| 精品久久久久久成人av| 好看av亚洲va欧美ⅴa在| 亚洲自拍偷在线| 深夜精品福利| 久久天躁狠狠躁夜夜2o2o| 国产v大片淫在线免费观看| 亚洲午夜理论影院| 神马国产精品三级电影在线观看 | 他把我摸到了高潮在线观看| 免费人成视频x8x8入口观看| 成人国语在线视频| 国产成+人综合+亚洲专区| 日本五十路高清| 丝袜美腿诱惑在线| 日本撒尿小便嘘嘘汇集6| 精品高清国产在线一区| 欧美一区二区精品小视频在线| 亚洲av美国av| 麻豆av在线久日| 国产激情久久老熟女| 亚洲人成网站在线播放欧美日韩| 精品乱码久久久久久99久播| 男人的好看免费观看在线视频 | 后天国语完整版免费观看| √禁漫天堂资源中文www| 白带黄色成豆腐渣| 一区二区日韩欧美中文字幕| 一个人观看的视频www高清免费观看 | 精品免费久久久久久久清纯| 久久草成人影院| 91在线观看av| 午夜免费成人在线视频| 成人亚洲精品一区在线观看| 日本一区二区免费在线视频| 国产人伦9x9x在线观看| 欧美激情久久久久久爽电影| 一区福利在线观看| 1024视频免费在线观看| 99久久综合精品五月天人人| 熟妇人妻久久中文字幕3abv| 中文字幕人成人乱码亚洲影| 国内毛片毛片毛片毛片毛片| 国产97色在线日韩免费| 搡老熟女国产l中国老女人| 91成人精品电影| 久久人妻福利社区极品人妻图片| 在线av久久热| 不卡av一区二区三区| 一区福利在线观看| 啪啪无遮挡十八禁网站| 精品日产1卡2卡| 老熟妇乱子伦视频在线观看| 免费av毛片视频| 在线观看免费日韩欧美大片| 午夜免费鲁丝| 亚洲精品国产区一区二| 国产一区二区激情短视频| 99热6这里只有精品| 国产亚洲精品一区二区www| 日韩 欧美 亚洲 中文字幕| 亚洲精品粉嫩美女一区| 欧美日韩福利视频一区二区| 真人做人爱边吃奶动态| 国产av在哪里看| 亚洲av熟女| 亚洲精品国产一区二区精华液| 欧美三级亚洲精品| 国产一区二区在线av高清观看| 无人区码免费观看不卡| 超碰成人久久| 精品国产一区二区三区四区第35| 一区二区三区精品91| 日日夜夜操网爽| 国产野战对白在线观看| 亚洲一码二码三码区别大吗| 亚洲国产精品久久男人天堂| 国产精品1区2区在线观看.| 在线永久观看黄色视频| 香蕉国产在线看| 中文资源天堂在线| 一a级毛片在线观看| 国产av又大| 国产熟女xx| 午夜a级毛片| 欧美乱妇无乱码| 精品高清国产在线一区| 美女大奶头视频| 国产成人精品无人区| 九色国产91popny在线| 久久欧美精品欧美久久欧美| 国产成人精品无人区| 一级毛片精品| 18禁黄网站禁片免费观看直播| 午夜福利视频1000在线观看| 国产aⅴ精品一区二区三区波| ponron亚洲| 国产亚洲精品久久久久5区| 制服人妻中文乱码| 嫩草影视91久久| 18禁美女被吸乳视频| 国产99久久九九免费精品| 91字幕亚洲| 最近最新中文字幕大全免费视频| 制服人妻中文乱码| 国产精品久久久久久亚洲av鲁大| 欧美成人性av电影在线观看| 日本在线视频免费播放| 麻豆久久精品国产亚洲av| 叶爱在线成人免费视频播放| 欧美国产日韩亚洲一区| 国产一区二区三区视频了| 久久精品国产亚洲av高清一级| 在线播放国产精品三级| 午夜福利高清视频| 亚洲五月天丁香| 99国产精品99久久久久| 在线观看一区二区三区| 国产真实乱freesex| 国产成人精品久久二区二区免费| 亚洲片人在线观看| 精品熟女少妇八av免费久了| 亚洲自偷自拍图片 自拍| 亚洲成人国产一区在线观看| 人人妻人人澡人人看| 日韩国内少妇激情av| www.999成人在线观看| 精品欧美一区二区三区在线| 99久久久亚洲精品蜜臀av| 亚洲av熟女| 久久国产亚洲av麻豆专区| www日本黄色视频网| 欧美日韩福利视频一区二区| 国产私拍福利视频在线观看| 女警被强在线播放| 一二三四在线观看免费中文在| 免费高清视频大片| 亚洲人成伊人成综合网2020| 成年版毛片免费区| 成年人黄色毛片网站| 可以在线观看毛片的网站| 美女大奶头视频| 俺也久久电影网| 日韩国内少妇激情av| 99在线人妻在线中文字幕| bbb黄色大片| 在线观看66精品国产| 久久久水蜜桃国产精品网| 亚洲成国产人片在线观看| 黄网站色视频无遮挡免费观看| 欧美性猛交黑人性爽| 国内久久婷婷六月综合欲色啪| 亚洲成人免费电影在线观看| 嫩草影院精品99| 午夜久久久久精精品| 色在线成人网| 俺也久久电影网| 久久精品亚洲精品国产色婷小说| 精品国产美女av久久久久小说| 老司机午夜十八禁免费视频| av免费在线观看网站| 亚洲无线在线观看| 一本精品99久久精品77| 日韩成人在线观看一区二区三区| 久久精品成人免费网站| 中文字幕精品免费在线观看视频| 国产三级黄色录像| 91麻豆av在线| 亚洲 国产 在线| 在线观看午夜福利视频| 看免费av毛片| 亚洲片人在线观看| 亚洲欧美激情综合另类| 亚洲成人免费电影在线观看| 日本免费a在线| 精品一区二区三区av网在线观看| 男女下面进入的视频免费午夜 | 国产精品电影一区二区三区| 一进一出好大好爽视频| 欧美黄色淫秽网站| 老汉色∧v一级毛片| www.www免费av| 欧美精品啪啪一区二区三区| 哪里可以看免费的av片| 精品久久久久久久久久久久久 | av视频在线观看入口| 亚洲中文日韩欧美视频| 亚洲成av片中文字幕在线观看| 国产v大片淫在线免费观看| 日韩欧美国产一区二区入口| 亚洲国产欧美一区二区综合| 淫妇啪啪啪对白视频| 黄色女人牲交| 制服人妻中文乱码| a级毛片在线看网站| 中文字幕av电影在线播放| 草草在线视频免费看| 免费在线观看亚洲国产| 久久国产精品影院| videosex国产| 免费看日本二区| 欧美+亚洲+日韩+国产| 国产亚洲av嫩草精品影院| 成年版毛片免费区| 听说在线观看完整版免费高清| 观看免费一级毛片| 国产又色又爽无遮挡免费看| 人人妻人人澡人人看| 黄网站色视频无遮挡免费观看| 母亲3免费完整高清在线观看| 国产伦在线观看视频一区| 亚洲熟妇熟女久久| 亚洲国产中文字幕在线视频| 久久久久亚洲av毛片大全| 国产极品粉嫩免费观看在线| 一区二区三区激情视频| 欧美zozozo另类| 欧美性长视频在线观看| 女生性感内裤真人,穿戴方法视频| 黑人欧美特级aaaaaa片| avwww免费| 人妻久久中文字幕网| 国产精品久久久久久亚洲av鲁大| 真人一进一出gif抽搐免费| 精品少妇一区二区三区视频日本电影| а√天堂www在线а√下载| 色播在线永久视频| 美女高潮到喷水免费观看| 窝窝影院91人妻| 亚洲中文av在线| 亚洲欧美日韩高清在线视频| 人人妻人人澡欧美一区二区| 黄色片一级片一级黄色片| 日韩欧美 国产精品| 欧美成狂野欧美在线观看| 免费无遮挡裸体视频| 18禁美女被吸乳视频| 久久久久免费精品人妻一区二区 | 欧美成狂野欧美在线观看| 欧美日韩精品网址| 大型av网站在线播放| 欧美绝顶高潮抽搐喷水| 久久香蕉国产精品| 中文字幕久久专区| 88av欧美| 91老司机精品| 欧美黄色片欧美黄色片| 中文字幕最新亚洲高清| 久热这里只有精品99| 国产成人欧美在线观看| 免费看a级黄色片| 亚洲人成伊人成综合网2020| 午夜视频精品福利| 一本久久中文字幕| 一级黄色大片毛片| av超薄肉色丝袜交足视频| 成年版毛片免费区| 亚洲一码二码三码区别大吗| 国产精品亚洲美女久久久| 听说在线观看完整版免费高清| 中文字幕高清在线视频| 国产精品九九99| 亚洲 欧美一区二区三区| АⅤ资源中文在线天堂| 观看免费一级毛片| 国产蜜桃级精品一区二区三区| 亚洲avbb在线观看| 国产成人系列免费观看| 国产成人欧美在线观看| 国产欧美日韩一区二区三| 国产视频内射| 亚洲av成人不卡在线观看播放网| 国产成人一区二区三区免费视频网站| 男人舔女人的私密视频| 国产麻豆成人av免费视频| 日本免费一区二区三区高清不卡| 欧美日韩福利视频一区二区| 亚洲精品中文字幕在线视频| 一本一本综合久久| 精品国产超薄肉色丝袜足j| 久久久久九九精品影院| 亚洲中文字幕日韩| 成人手机av| 亚洲精品国产区一区二| 久久香蕉激情| 老司机靠b影院| 一级作爱视频免费观看| 久久婷婷成人综合色麻豆| 午夜精品久久久久久毛片777| 身体一侧抽搐| 别揉我奶头~嗯~啊~动态视频| 日本黄色视频三级网站网址| 这个男人来自地球电影免费观看| 久热爱精品视频在线9| 日韩高清综合在线| 精品不卡国产一区二区三区| 高清毛片免费观看视频网站| 黑人巨大精品欧美一区二区mp4| 免费看十八禁软件| 老司机在亚洲福利影院| 日韩av在线大香蕉| 免费无遮挡裸体视频| 亚洲精华国产精华精| 精品少妇一区二区三区视频日本电影| 久久久久国内视频| 999精品在线视频| 一进一出抽搐动态| 人人妻,人人澡人人爽秒播| xxxwww97欧美| 在线视频色国产色| 国产成人欧美在线观看| 搡老岳熟女国产| 丰满人妻熟妇乱又伦精品不卡| 国产精品免费一区二区三区在线| 精品国内亚洲2022精品成人| 美女高潮到喷水免费观看| 看黄色毛片网站| videosex国产| 香蕉久久夜色| 久久久久久久精品吃奶| 在线观看66精品国产| 亚洲成av人片免费观看| 午夜视频精品福利| 黄色片一级片一级黄色片| 2021天堂中文幕一二区在线观 | 2021天堂中文幕一二区在线观 | 中文字幕人成人乱码亚洲影| 亚洲国产中文字幕在线视频| 午夜免费观看网址| 成人一区二区视频在线观看| 国产精品日韩av在线免费观看| 精品久久久久久久人妻蜜臀av| 极品教师在线免费播放| 久久久久国产精品人妻aⅴ院| 中亚洲国语对白在线视频| 动漫黄色视频在线观看| 在线观看免费午夜福利视频| 久久久久久久久久黄片| а√天堂www在线а√下载| 九色国产91popny在线| 97碰自拍视频| 在线观看免费日韩欧美大片| 最新美女视频免费是黄的| 日本熟妇午夜| 制服丝袜大香蕉在线| 91在线观看av| 听说在线观看完整版免费高清| 免费在线观看日本一区| 男女午夜视频在线观看| 性欧美人与动物交配| 国产在线观看jvid| 日本撒尿小便嘘嘘汇集6| 人人妻,人人澡人人爽秒播| 免费在线观看成人毛片| 亚洲 国产 在线| 可以在线观看的亚洲视频| 日韩欧美国产一区二区入口| 欧美日韩福利视频一区二区| 亚洲专区中文字幕在线|