• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一個(gè)面向信息抽取的中文跨文本指代語(yǔ)料庫(kù)

    2015-04-25 09:57:27趙知緯錢龍華周國(guó)棟
    中文信息學(xué)報(bào) 2015年1期
    關(guān)鍵詞:歧義指代語(yǔ)料

    趙知緯,錢龍華,周國(guó)棟

    (1.蘇州大學(xué) 自然語(yǔ)言處理實(shí)驗(yàn)室,江蘇 蘇州 215006)(2.蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)

    ?

    一個(gè)面向信息抽取的中文跨文本指代語(yǔ)料庫(kù)

    趙知緯,錢龍華,周國(guó)棟

    (1.蘇州大學(xué) 自然語(yǔ)言處理實(shí)驗(yàn)室,江蘇 蘇州 215006)(2.蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)

    跨文本指代(Cross Document Coreference, CDC)消解是信息集成和信息融合的重要環(huán)節(jié),相應(yīng)地,CDC語(yǔ)料庫(kù)是進(jìn)行跨文本指代消解研究和評(píng)估所不可或缺的平臺(tái)。由于目前還沒有一個(gè)公開發(fā)布的面向信息抽取的中文CDC語(yǔ)料庫(kù),因此該文在ACE 2005語(yǔ)料庫(kù)的基礎(chǔ)上,采用自動(dòng)生成和人工標(biāo)注相結(jié)合的方法,構(gòu)建了一個(gè)面向信息抽取的涵蓋所有ACE實(shí)體類型的中文CDC語(yǔ)料庫(kù),并將該語(yǔ)料庫(kù)公開發(fā)布,旨在促進(jìn)中文跨文本指代消解研究的發(fā)展。同時(shí),該文以該語(yǔ)料庫(kù)為基礎(chǔ),分析了中文環(huán)境下跨文本指代現(xiàn)象的類型和特點(diǎn),提出了用“多名困惑度”和“重名困惑度”兩個(gè)指標(biāo)來(lái)衡量跨文本指代消解任務(wù)的難度,為今后的跨文本指代消解研究提供一些啟示。

    跨文本指代;信息抽取;語(yǔ)料庫(kù)標(biāo)注;困惑度

    1 引言

    指代是一種常見的語(yǔ)言現(xiàn)象,即在文章中多個(gè)指代詞指向同一個(gè)實(shí)體。指代消解的任務(wù)就是把所有指向相同實(shí)體的詞組合在一起形成一個(gè)指代鏈[1]。指代消解可以分為文本內(nèi)的指代消解和跨文本的指代消解。以往大量的研究工作都集中于文本內(nèi)的指代消解[2],取得了一定的成就。隨著信息抽取技術(shù)向信息融合和知識(shí)工程等方向發(fā)展,跨文本指代消解也獲得了廣泛的重視[3]。所謂跨文本指代消解是指將不同文章內(nèi)指向同一實(shí)體的所有指代詞歸入同一個(gè)指代鏈。MUC-6[4]就提出把跨文本指代(Cross Document Co-reference,CDC)消解作為一個(gè)潛在的任務(wù),之后在ACE2008[5]中引入的全局實(shí)體檢測(cè)和識(shí)別(Global Entity Detection and Recognition,GEDR)任務(wù)就包含了跨文本指代消解任務(wù)??缥谋局复獠粌H是信息抽取和信息融合中的關(guān)鍵任務(wù),對(duì)信息檢索、文本摘要等其他應(yīng)用也有重要作用。

    跨文本指代通常包含兩種情況,“多名”現(xiàn)象和“重名”現(xiàn)象。前者指的是同一實(shí)體在不同文本中有不同的指代詞,例如,“藍(lán)色巨人”和“國(guó)際商業(yè)機(jī)器”均指代IBM公司;而后者則是指不同文檔中的相同指代詞指向不同的實(shí)體,例如,“比爾”可能指代“比爾·克林頓”,也有可能指代“比爾·蓋茨”。因此,跨文本指代消解系統(tǒng)既需要將指代一個(gè)實(shí)體的多個(gè)名稱歸入到同一個(gè)指代鏈中,稱為“多名聚合”,也需要將相同名稱的不同實(shí)體歸入到各自的指代鏈,稱為“重名消歧”。

    無(wú)論是采用有監(jiān)督的學(xué)習(xí)方法,還是采用無(wú)監(jiān)督的方法,跨文本指代消解都需要一個(gè)標(biāo)準(zhǔn)的語(yǔ)料庫(kù)進(jìn)行學(xué)習(xí)或評(píng)估。為此,近十年來(lái),研究人員收集和標(biāo)注了大量的跨文本指代語(yǔ)料庫(kù),并在這些語(yǔ)料庫(kù)上利用各種方法進(jìn)行跨文本指代消解的研究[3,5-8]。由于人工標(biāo)注大規(guī)模的CDC語(yǔ)料庫(kù)是一個(gè)費(fèi)時(shí)費(fèi)力的工作,因而大部分的語(yǔ)料庫(kù)都是面向信息檢索、用于人名“重名”消歧的英文CDC語(yǔ)料庫(kù)[6-7,9-10]。而NIST組織的ACE2008任務(wù)GEDR則包含了面向信息抽取的、同時(shí)用于多名聚合和重名消歧的英文和阿拉伯文的CDC語(yǔ)料庫(kù)。同樣,JHU在ACE2005英文語(yǔ)料的基礎(chǔ)上標(biāo)注了一個(gè)小規(guī)模的實(shí)驗(yàn)性英文CDC語(yǔ)料庫(kù)。到目前為止,還沒有面向信息抽取的中文CDC語(yǔ)料庫(kù)。

    本文的研究工作就是要彌補(bǔ)這一方面的缺陷,其出發(fā)點(diǎn)是利用ACE2005的中文語(yǔ)料庫(kù),構(gòu)建一個(gè)面向信息抽取、包含多名聚合和重名消歧兩個(gè)子任務(wù)以及具有多種實(shí)體類型的實(shí)驗(yàn)性中文CDC語(yǔ)料庫(kù),稱為ACE2005中文CDC語(yǔ)料庫(kù),并且將該語(yǔ)料庫(kù)在蘇州大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室網(wǎng)站上公開發(fā)布*http://nlp.suda.edu.cn/~qianlonghua/ACE2005-CDC.zip,以使同行可以使用該語(yǔ)料庫(kù)進(jìn)行中文跨文本指代消解的研究工作。盡管受ACE2005中文語(yǔ)料的限制,語(yǔ)料庫(kù)規(guī)模較小,我們希望,本文的初步研究工作可以為面向信息抽取的跨文本指代消解提供一個(gè)開放的基準(zhǔn)語(yǔ)料庫(kù),從而促進(jìn)中文跨文本指代消解研究的發(fā)展。

    2 相關(guān)工作

    為了更清楚地比較目前的跨文本指代消解研究中所用到的語(yǔ)料庫(kù),我們按語(yǔ)料庫(kù)的不同口徑,例如,語(yǔ)料庫(kù)規(guī)模、語(yǔ)料來(lái)源、所用語(yǔ)言、實(shí)體類型、消解任務(wù)、面向應(yīng)用、標(biāo)注粒度和標(biāo)注方式等,對(duì)其進(jìn)行分類和比較,結(jié)果如表1所示。

    表1 各CDC語(yǔ)料庫(kù)的比較

    續(xù)表

    總體上講,CDC語(yǔ)料庫(kù)可分為WEB挖掘型和人工收集型,下面分這兩種情況進(jìn)行說明:

    a) WEB挖掘型: 即按一定的查詢條件從WEB中檢索到語(yǔ)料,然后再進(jìn)行手工或自動(dòng)標(biāo)注。這一類型語(yǔ)料庫(kù)以小規(guī)模的手工John Smiths語(yǔ)料庫(kù)[6]和大規(guī)模的自動(dòng)Wiki Link語(yǔ)料庫(kù)[11]為典型代表。前者還包括用于評(píng)測(cè)任務(wù)的WePS[9]和CIPS[10]語(yǔ)料,其主要特點(diǎn)是:

    ? 語(yǔ)料庫(kù)的基本構(gòu)建方法是挑選一個(gè)至數(shù)個(gè)人名作為查詢條件從搜索引擎里面搜集相關(guān)網(wǎng)頁(yè),再用人工的方法將同一姓名而不同人物的網(wǎng)頁(yè)分別歸類,最后形成語(yǔ)料庫(kù);

    ? 人力的有限,以及各研究者很難自行構(gòu)建具有規(guī)模的語(yǔ)料庫(kù),催生了Person-X[7]這樣的人工增加歧義的方法。具體做法是選擇幾個(gè)人名,然后在被選中的人名所在文檔中將該人名人工替換為Person-X以增加歧義;

    ? 面向信息檢索任務(wù),因而標(biāo)注的粒度限于篇章級(jí)。

    為了克服小規(guī)模CDC語(yǔ)料庫(kù)中存在的實(shí)體分布單一和只有重名消歧的缺陷,Singh[11]提出了從海量的互聯(lián)網(wǎng)數(shù)據(jù)中自動(dòng)挖掘出一個(gè)大規(guī)模的高可靠性的CDC語(yǔ)料庫(kù)。其具體做法是,針對(duì)不同網(wǎng)頁(yè)中指向同一個(gè)維基百科實(shí)體條目的超鏈接,抽取錨點(diǎn)文本作為該實(shí)體的一個(gè)名稱引用,將超鏈接附近的上下文作為該實(shí)體所在的文本,從而構(gòu)造出一個(gè)CDC語(yǔ)料庫(kù)。

    b) 人工收集型: 由于構(gòu)建大規(guī)模的CDC基準(zhǔn)語(yǔ)料庫(kù)需要相當(dāng)大的精力和時(shí)間,這部分的工作主要由NIST通過相關(guān)的評(píng)測(cè)任務(wù)來(lái)完成。特別地,ACE2008引入了GEDR和GRDR(Global Relation Detection and Recognition)兩個(gè)跨文本的評(píng)測(cè)任務(wù),即跨文本的實(shí)體識(shí)別和跨文本的關(guān)系識(shí)別。相比之前的CDC消解任務(wù),ACE2008特點(diǎn)主要體現(xiàn)在:

    ? 將實(shí)體類型從單一的人名(PER)擴(kuò)展為人名和機(jī)構(gòu)名(ORG);

    ? 面向信息抽取任務(wù),因而將標(biāo)注粒度從文本級(jí)別細(xì)化到句子級(jí)別,即同一個(gè)文本內(nèi)的同一名稱也可歸入到不同的指代鏈;

    ? 引入“多名聚合”任務(wù),即除了考慮“重名消歧”外,也同時(shí)將同一實(shí)體的不同名稱歸入到同一個(gè)指代鏈中;

    ? 語(yǔ)料規(guī)模較大,包含10 000篇不同來(lái)源的文本,且根據(jù)文本所包含的實(shí)體進(jìn)行精心挑選,因而保證了實(shí)體分布的多樣性。

    在ACE2008之前,JHU 2007 CLSP暑期研討會(huì)[12]會(huì)議,以ACE2005英文語(yǔ)料庫(kù)為基礎(chǔ),構(gòu)建了一個(gè)實(shí)驗(yàn)性的英文ACE2005 CDC語(yǔ)料庫(kù)。此語(yǔ)料庫(kù)雖然規(guī)模較小,但卻具備了多種特點(diǎn),如面向信息抽取、多種來(lái)源和多種實(shí)體類型等。鑒于此,本文以ACE2005中文語(yǔ)料為基礎(chǔ)構(gòu)建一個(gè)實(shí)驗(yàn)性的中文CDC語(yǔ)料庫(kù),選擇ACE2005中文語(yǔ)料的主要原因有以下幾點(diǎn):

    ? 鮮有在中文方面信息抽取任務(wù)的CDC消解研究,相關(guān)語(yǔ)料庫(kù)的缺失是一個(gè)主要問題,而ACE2008語(yǔ)料庫(kù)很遺憾地沒有提供對(duì)中文的支持;

    ? 希望研究多種類型的實(shí)體出現(xiàn)CDC現(xiàn)象的語(yǔ)言特征,而不是僅限于PER和ORG,結(jié)果表明GPE實(shí)體也擁有相當(dāng)豐富的CDC歧義現(xiàn)象: 該類型實(shí)體不僅占據(jù)了最多的實(shí)體引用數(shù)量,達(dá)到2 419個(gè),而且其內(nèi)部的具有跨文本指代的實(shí)體引用數(shù)量比例也高達(dá)85.4%;

    ? 進(jìn)一步比較中文和英文在CDC現(xiàn)象上所呈現(xiàn)的語(yǔ)言特征的同異點(diǎn),揭示CDC的跨語(yǔ)言共性;

    ? ACE2005語(yǔ)料庫(kù)已經(jīng)完成了文本內(nèi)的指代標(biāo)注工作,因而有助于快速地進(jìn)行跨文本指代的標(biāo)注。

    值得一提的是,與跨文本指代消解相關(guān),TAC (Text Analysis Conference) 評(píng)測(cè)的KBP (Knowledge Base Population)[13]任務(wù)中就有一個(gè)稱為實(shí)體鏈接(Entity Linking)的子任務(wù),其目的就是將在文本中出現(xiàn)的實(shí)體名稱映射到一個(gè)包含大量實(shí)體的知識(shí)庫(kù)中,從而為豐富知識(shí)庫(kù)中的實(shí)體信息打好基礎(chǔ)。由于同一名稱往往對(duì)應(yīng)知識(shí)庫(kù)中的不同實(shí)體,因此同跨文本指代消解類似,實(shí)體鏈接也是解決實(shí)體消岐(Entity Disambiguation)[14]的兩條途徑之一。通常情況下,知識(shí)庫(kù)中的實(shí)體來(lái)源于維基百科中的條目,其信息從信息盒(Infobox)中提取。實(shí)體鏈接與跨文本指代消解相比,雖然都涉及到實(shí)體名稱的消岐,但前者是將文本中出現(xiàn)的實(shí)體名稱歸入到知識(shí)庫(kù)中已有的某一實(shí)體下,該實(shí)體往往具有豐富的信息,這些信息有助于實(shí)體的鏈接;而后者是將一個(gè)文檔集合中的同一實(shí)體歸并起來(lái),其所依賴的信息只有實(shí)體名稱和上下文信息。另外,從語(yǔ)料的差異性上來(lái)看,實(shí)體鏈接大多使用維基百科中的網(wǎng)頁(yè)作為訓(xùn)練和測(cè)試語(yǔ)料[15-16],也有一些使用了Web上的鏈接信息以及領(lǐng)域特定語(yǔ)料庫(kù)[14];而跨文本指代消解一般使用從Web上檢索到的網(wǎng)頁(yè)文本作為訓(xùn)練和測(cè)試語(yǔ)料[9],維基百科的網(wǎng)頁(yè)比普通Web網(wǎng)頁(yè)更規(guī)范,結(jié)構(gòu)性更好。

    3 標(biāo)注方法及過程

    基于ACE2005中文語(yǔ)料庫(kù)的跨文本指代語(yǔ)料的標(biāo)注過程分為語(yǔ)料庫(kù)預(yù)處理、初始指代鏈生成、指代鏈?zhǔn)止ふ{(diào)整和指代鏈輸出等四個(gè)過程。

    3.1 語(yǔ)料庫(kù)預(yù)處理

    原始的ACE語(yǔ)料庫(kù)均使用XML標(biāo)注方式,即所有的實(shí)體及實(shí)體對(duì)之間的語(yǔ)義關(guān)系等信息均以XML標(biāo)記的形式嵌入到自由文本中,目的是提高標(biāo)記的通用性、可讀性及標(biāo)注效率。為了處理方便,我們首先把含有XML標(biāo)記的文本轉(zhuǎn)換成不含標(biāo)記的純文本。這樣,每個(gè)文檔就得到兩種形式: 一個(gè)是文本文件,其中每一個(gè)句子占據(jù)一行,并且所有單詞成分(包括標(biāo)點(diǎn)符號(hào)等)之間都用空格分隔;另一個(gè)是標(biāo)注文件,其中包含實(shí)體和關(guān)系的標(biāo)注信息,并且實(shí)體之間通過相同的ID號(hào)來(lái)表明其指代關(guān)系。

    3.2 初始指代鏈生成

    首先,為每個(gè)文本的每個(gè)實(shí)體確定中心詞,挑選原則是文本中某個(gè)實(shí)體中字符長(zhǎng)度最長(zhǎng)的名稱引用。然后,就是按照字符串完全匹配的簡(jiǎn)單規(guī)則,將不同文本之間的相同中心詞的實(shí)體鏈接在一起,形成初始的跨文本指代鏈。

    3.3 指代鏈?zhǔn)止ふ{(diào)整

    這是真正的人工語(yǔ)料標(biāo)注階段。安排兩位標(biāo)注者A和B,要求他們逐一查看每一項(xiàng)實(shí)體,然后僅憑實(shí)體所在的文本信息來(lái)判斷初始指代鏈?zhǔn)欠翊嬖阱e(cuò)誤,并且對(duì)不當(dāng)?shù)闹复溩龀鲂薷?。該過程中,兩位標(biāo)注者不得相互討論,也不能借助于外部資料。在標(biāo)注者完成人工標(biāo)注完成后,仲裁者C介入。仲裁者首先要找出兩標(biāo)注者之間的差異,針對(duì)這些差異,仲裁者尋求外部知識(shí)來(lái)解決分歧,確定最終的指代鏈。

    如圖1所示的語(yǔ)料標(biāo)注工具是由我們專門為此任務(wù)開發(fā)的,它由三個(gè)部分組成。第一部分列出指代鏈的中心詞(headword);第二部分列出的是每個(gè)中心詞下面的指代鏈信息;第三部分是文本,即某一實(shí)體指代鏈中的某一引用所在的整個(gè)文本。根據(jù)預(yù)處理所得到的標(biāo)注文件以及ACE定義的七大實(shí)體類型,將不同類型的實(shí)體以不同色彩來(lái)顯示以增加清晰度。

    圖1 CDC標(biāo)注界面

    在標(biāo)注過程中,經(jīng)常會(huì)遇到指代鏈分解和合并等兩種情況:

    a) 分解: 在初始指代鏈生成的時(shí)候,具有相同名稱的實(shí)體引用全部歸入到同一指代鏈中。當(dāng)標(biāo)注者發(fā)現(xiàn)其中部分引用名稱指向另一實(shí)體時(shí),就需要將它們歸入已有的另一個(gè)指代鏈或者為其新建一個(gè)指代鏈。例如,“中國(guó)隊(duì)”,這個(gè)時(shí)候只有上下文賦予其特定的含義: 中國(guó)跳水隊(duì)或者中國(guó)游泳隊(duì)等,碰到這樣的例子是就需要進(jìn)行分解的操作。

    b) 合并: 當(dāng)標(biāo)注者發(fā)現(xiàn)兩個(gè)不同的名稱引用指向同一個(gè)實(shí)體時(shí),就需要將其合并成一條指代鏈。如“重慶”和“渝”是同一個(gè)GPE實(shí)體的不同名稱,需要將它們進(jìn)行合并。

    在實(shí)際的標(biāo)注過程中,由于指代現(xiàn)象的復(fù)雜性,兩種情況還會(huì)嵌套出現(xiàn),特別是一些意義非常多樣化的實(shí)體引用上。例如,“中國(guó)”和“北京”,兩者可能指向不同的地理實(shí)體,也可能同時(shí)指向“中國(guó)政府”這一概念。

    3.4 指代鏈輸出

    標(biāo)注完成后生成如圖2所示的標(biāo)注文件。其中一級(jí)標(biāo)記CDC中的ID屬性表示某個(gè)實(shí)體在整個(gè)語(yǔ)料庫(kù)中的編號(hào),ENT_TYPE表示實(shí)體類型;次級(jí)標(biāo)記ENTITY中的DOC屬性表示指代鏈實(shí)體所在的文本名稱,ID表示該實(shí)體在該文本中的實(shí)體編號(hào),MENTION表示該實(shí)體在該文檔中的字符串長(zhǎng)度最大的引用名稱。

    圖2 CDC標(biāo)注結(jié)果

    4 語(yǔ)料庫(kù)統(tǒng)計(jì)與分析

    本節(jié)首先對(duì)標(biāo)注得到的CDC語(yǔ)料庫(kù)按不同口徑進(jìn)行統(tǒng)計(jì),然后對(duì)該語(yǔ)料庫(kù)上的跨文本指代消解任務(wù)的難度進(jìn)行分析。

    4.1 一致性檢驗(yàn)

    為了衡量跨文本指代標(biāo)注結(jié)果的一致性,我們讓兩位標(biāo)注者同時(shí)對(duì)整個(gè)語(yǔ)料庫(kù)進(jìn)行標(biāo)注。根據(jù)Passoneau[17]提出的語(yǔ)料庫(kù)指代標(biāo)注的可靠性計(jì)算方法,采用Krippendorff[18]的alpha系數(shù)來(lái)表示兩位標(biāo)注者之間的一致性。該系數(shù)通過計(jì)算指代鏈之間的相似度距離來(lái)表示不同標(biāo)注者之間的一致性。Passoneau的相似度距離度量原則為:

    ? 當(dāng)兩條指代鏈完全吻合時(shí)距離為0;

    ? 當(dāng)一條指代鏈?zhǔn)橇硪粭l指代鏈的子集時(shí)則距離設(shè)為0.33;

    ? 當(dāng)兩條指代鏈不互相包含且有公共的非空子集時(shí),則距離設(shè)為0.67;

    ? 否則當(dāng)兩條指代鏈交集為空集時(shí),距離值設(shè)為1。

    使用以上方法,我們計(jì)算得到兩位標(biāo)注者的標(biāo)注結(jié)果的alpha系數(shù)為96%。Krippendorff認(rèn)為,低于67%的alpha系數(shù)表明標(biāo)注結(jié)果不可靠,因此我們認(rèn)為兩位標(biāo)注者的標(biāo)注結(jié)果是高度一致的。

    4.2 語(yǔ)料庫(kù)統(tǒng)計(jì)

    4.2.1 按實(shí)體類型分布情況

    在最終的語(yǔ)料庫(kù)中,共有3 618個(gè)實(shí)體和6 771個(gè)實(shí)體引用(名稱)。在所有實(shí)體引用中,F(xiàn)AC類型占299個(gè),GPE有2 419個(gè),LOC有233個(gè),ORG有1 939個(gè),PER有1 860個(gè),VEH和WEA分別為17個(gè)和4個(gè)。從實(shí)體引用是否具有跨文本指代的角度來(lái)看,有2 795個(gè)引用對(duì)應(yīng)2 795個(gè)孤立實(shí)體,這些引用不存在“重名”,對(duì)應(yīng)的這些實(shí)體也不存在“多名”,即名稱和實(shí)體是完全的一對(duì)一映射的關(guān)系。這部分孤立實(shí)體的引用占總數(shù)的41.3%,其余3 976個(gè)引用對(duì)應(yīng)643個(gè)實(shí)體,即存在“多名”或者“重名”的跨文本指代現(xiàn)象。

    圖3顯示了各個(gè)實(shí)體類型中,存在跨文本指代消解現(xiàn)象的引用所占的比例。從圖中可以看出,對(duì)于不同的實(shí)體類型,跨文本指代現(xiàn)象的分布不盡相同。GPE類型的實(shí)體引用存在指代的比例高達(dá)85%,占據(jù)了所有實(shí)體引用指代的55%;ORG和PER次之,而LOC和FAC則最小??梢?,GPE類型的實(shí)體指代消解性能將會(huì)對(duì)整個(gè)系統(tǒng)的性能造成較大的影響。

    4.2.2 “多名”指代的分類及分布

    圖3 CDC按實(shí)體類型分布圖

    在整個(gè)語(yǔ)料庫(kù)中, 具有跨文本指代的實(shí)體一共有643個(gè),其中“多名”實(shí)體,即擁有多個(gè)名稱的實(shí)體數(shù)量為255個(gè),占CDC實(shí)體總數(shù)的40%,占整個(gè)語(yǔ)料庫(kù)所有實(shí)體的7%。通過對(duì)這些實(shí)體名稱進(jìn)行分析可以發(fā)現(xiàn),具有“多名”指代的實(shí)體名稱可以分為以下四種類型:

    ? 名字省略,即兩個(gè)名稱之間具有包含關(guān)系,但指向同一個(gè)實(shí)體,例如,“山東省”和“山東”均指向同一個(gè)GPE實(shí)體;

    ? 翻譯差異,主要表現(xiàn)在兩個(gè)方面,一是外來(lái)詞音譯時(shí)的用詞差異,例如,“班達(dá)亞齊”和“班達(dá)雅奇”均指印尼的Banda Aceh;二是港澳臺(tái)地區(qū)和大陸地區(qū)的不同翻譯,比如“朝鮮”和“北韓”分別是大陸地區(qū)和臺(tái)灣地區(qū)對(duì)DPRK(Democratic People’s Republic of Korea)的不同稱呼;

    ? 錯(cuò)別字,例如,“宏基”和“宏碁”,后者是臺(tái)灣宏碁公司的正式名稱,而前者是別字;

    ? 別稱或者轉(zhuǎn)喻,即字串間的交集為各字串的真子集,例如,“重慶”和“渝”,“北京”或指“中國(guó)”;

    我們注意到,有些實(shí)體會(huì)出現(xiàn)一種以上的多名指代現(xiàn)象。

    表2列出了四種多名指代類型在總數(shù)中所占的比例,從中可以看出,多名現(xiàn)象中“名稱省略”占了大多數(shù),而“別稱”所占比例最小,因此解決名字的省略問題可以顯著提高該語(yǔ)料庫(kù)中的跨文本指代消解的性能。

    表2 多名指代的分布

    4.2.3 “重名”歧義中的分類及分布

    整個(gè)語(yǔ)料庫(kù)中出現(xiàn)的所有實(shí)體引用可歸結(jié)為 3 795種不同的名稱。這3 795種名稱,在語(yǔ)料庫(kù)里面出現(xiàn)次數(shù)大于1的名稱為666個(gè),這其中具有“重名”歧義的共有70個(gè),這說明重名歧義的現(xiàn)象相當(dāng)少。我們的分析表明,該語(yǔ)料庫(kù)中具有“重名”歧義的實(shí)體名稱可以分為三種類型:

    ? 名稱轉(zhuǎn)喻所引起的重名歧義,例如,“北京”既可以指北京這個(gè)城市,在外媒中往往又代表中國(guó)政府;

    ? 名稱省略而導(dǎo)致的重名歧義,這個(gè)類型比較復(fù)雜,在各ACE實(shí)體類型中表現(xiàn)不同: 在ORG實(shí)體中,省略定語(yǔ)等修飾詞的實(shí)體名稱,如“共產(chǎn)黨”可以是中國(guó)共產(chǎn)黨也可以是古巴共產(chǎn)黨;在GPE實(shí)體中,地名簡(jiǎn)稱造成了重名歧義,例如,“蘇”可以指江蘇,或者指蘇州,也可以是指蘇聯(lián);在PER實(shí)體中,用姓來(lái)稱呼人,例如,姓“布萊爾”的人,可以有不同的名,亦如“張某”,可能指向不同的張姓人士;

    ? 不當(dāng)標(biāo)注而造成的重名歧義,例如在語(yǔ)料庫(kù)中存在二個(gè)實(shí)體引用“利馬”,其中一處說的是秘魯首都,而另一處說的是馬來(lái)西亞的“利馬航展”,ACE在標(biāo)注時(shí)把“利馬”和后面的被修飾成分分開不太合適。由于不同語(yǔ)言之間語(yǔ)言現(xiàn)象的復(fù)雜性和差異性,我們認(rèn)為ACE的某些標(biāo)注原則在中文環(huán)境下欠妥。

    還有一種在人名中較為常見的,名稱完全相同造成的重名歧義,在本語(yǔ)料庫(kù)中并未出現(xiàn)。

    表3統(tǒng)計(jì)了這三類“重名”歧義現(xiàn)象在總數(shù)中的分布情況,其中省略所占的比例最高,而轉(zhuǎn)喻則比例最低。有趣的是,名稱省略也是引起“多名”現(xiàn)象的主要原因,因此有效解決省略問題能顯著提高跨文本指代消解的整體性能。

    表3 重名歧義的分布情況

    4.3 語(yǔ)料庫(kù)的困惑度分析

    Popescu[19]在研究人名的重名消歧問題時(shí),將一種名稱所對(duì)應(yīng)的實(shí)體數(shù)量稱為“困惑度”,并且認(rèn)為人名的“困惑度”與進(jìn)行消歧所需的特征數(shù)量成正比。為了更好地考察在本文所構(gòu)造的語(yǔ)料庫(kù)上進(jìn)行跨文本指代消解的難度,我們結(jié)合Popescu的觀點(diǎn)以及信息論中困惑度的概念,提出了衡量“多名聚合”和“重名消歧”復(fù)雜度的“多名困惑度”和“重名困惑度”以及“CDC語(yǔ)料庫(kù)等效模型”等概念。

    4.3.1 多名困惑度

    要衡量某一實(shí)體的不同引用的分布,不僅要考慮該實(shí)體有多少個(gè)不同名稱,還要考慮每種名稱所占的比例,這兩個(gè)因素都會(huì)對(duì)跨文本指代消解系統(tǒng)的性能產(chǎn)生影響。為了更好地描述問題,引用下列形式化表示:

    根據(jù)上述公式計(jì)算得到整個(gè)語(yǔ)料庫(kù)的“多名困惑度”為1.19。由于語(yǔ)料庫(kù)中存在2 795個(gè)既沒有“多名”也沒有“重名”的孤立實(shí)體,把這些孤立實(shí)體排除后語(yǔ)料庫(kù)的“多名困惑度”上升為1.36。語(yǔ)料庫(kù)的“多名困惑度”可以直觀的理解為每個(gè)實(shí)體平均擁有多少個(gè)等概率出現(xiàn)的名稱。由此可見,上述計(jì)算結(jié)果表明語(yǔ)料庫(kù)中一個(gè)實(shí)體平均擁有1.19個(gè)引用名稱,把孤立實(shí)體排除后,多名現(xiàn)象加重,一個(gè)實(shí)體平均擁有1.36個(gè)引用名稱。

    4.3.2 重名困惑度

    與“多名困惑度”不同的是,“重名困惑度”衡量一個(gè)名稱被不同實(shí)體所引用的不確定性,但其實(shí)只是將實(shí)體和引用的位置進(jìn)行了互換,因此可以采用與“多名困惑度”相同的方法進(jìn)行計(jì)算,即對(duì)于語(yǔ)料庫(kù)中的一個(gè)名稱Mi,計(jì)算其被不同實(shí)體引用的數(shù)量分布。由此,我們得到整個(gè)語(yǔ)料庫(kù)的“重名困惑度”(PPr)等于1.06,排除孤立實(shí)體后,語(yǔ)料庫(kù)的“重名困惑度”上升到1.10,它表明一個(gè)名稱分別對(duì)應(yīng)于1.06或1.10個(gè)實(shí)體。

    4.4 基準(zhǔn)性能

    為了評(píng)估在該語(yǔ)料庫(kù)上進(jìn)行跨文本指代消解的難度,我們使用理論計(jì)算、字符串精確匹配以及向量空間模型等三種方法進(jìn)行基準(zhǔn)性能的評(píng)估。

    首先從計(jì)算基準(zhǔn)性能的理論值,根據(jù)上一節(jié)分析所得到的原始語(yǔ)料庫(kù)中的實(shí)體以及名稱引用的概率分布,本文用信息熵的辦法將原始語(yǔ)料轉(zhuǎn)換成與原始語(yǔ)料庫(kù)“等效”的虛擬語(yǔ)料庫(kù)。在這個(gè)語(yǔ)料庫(kù)中,|Ce|個(gè)實(shí)體等概率出現(xiàn),而且每個(gè)實(shí)體的所有引用也是等概率分布的——即每個(gè)實(shí)體平均擁有PPv種等概率出現(xiàn)的名稱;從名稱的角度來(lái)說,|Cm|種名稱等概率出現(xiàn),并且每種名稱平均對(duì)應(yīng)PPr個(gè)等概率出現(xiàn)的實(shí)體。假設(shè)對(duì)該語(yǔ)料庫(kù)采用字符串精確匹配的方法進(jìn)行跨文本指代消解,即將具有相同名稱的實(shí)體都?xì)w入同一個(gè)指代鏈,遵循B3打分方法[20]的思想,那么其精度就是該指代鏈中所含實(shí)體的純度,即精度就是“重名困惑度”(PPr)的倒數(shù),而其召回率參考指代鏈中名稱引用的純度,即為“多名困惑度”(PPv)的倒數(shù)。

    需要注意的是,在計(jì)算性能的時(shí)候,我們通常使用去除了孤立實(shí)體后的重名困惑度和多名困惑度。原因是孤立實(shí)體在字符串匹配方法中必然100%匹配成功,因而不考慮在內(nèi)。同樣,下面實(shí)驗(yàn)中的性能評(píng)估也使用這一原則: 如果孤立實(shí)體匹配成功則不計(jì)算其帶來(lái)的性能收益,若匹配錯(cuò)誤則計(jì)算其帶來(lái)的性能損失。

    接著,我們使用字符串精確匹配的方法來(lái)進(jìn)行跨文本指代消解,也就是認(rèn)為具有完全相同名稱的實(shí)體為同一實(shí)體,實(shí)驗(yàn)結(jié)果使用B3打分方法進(jìn)行評(píng)估。

    最后,在不考慮實(shí)體名稱的前提下,我們使用了廣泛采用的向量空間模型來(lái)進(jìn)行跨文本指代消解,具體方法為: 首先在一個(gè)特定的窗口范圍內(nèi)抽取待消解實(shí)體名稱的上下文特征詞;然后計(jì)算TF*IDF衡量每個(gè)特征的權(quán)值并由此構(gòu)成每個(gè)實(shí)體的特征向量;最后使用層次聚類的辦法合并實(shí)體名稱。在此過程中通過調(diào)節(jié)窗口大小以及聚類閾值來(lái)獲得最佳性能。實(shí)驗(yàn)結(jié)果同樣使用B3打分方法進(jìn)行評(píng)估,三種方法的性能如表4所示。

    表4 跨文本指代消解的基準(zhǔn)性能比較

    從實(shí)驗(yàn)結(jié)果可以看出:

    ? 字符串精確匹配方法的性能明顯高于理論分析的結(jié)果,這是由于CDC語(yǔ)料庫(kù)中實(shí)體和引用分布的“長(zhǎng)尾效應(yīng)”[3,21]所導(dǎo)致的,即每種名稱總是對(duì)應(yīng)于某個(gè)占統(tǒng)治地位的實(shí)體,同時(shí)每個(gè)實(shí)體中總是對(duì)應(yīng)于某個(gè)占統(tǒng)治地位的名稱,因此原始語(yǔ)料庫(kù)上的CDC消解要比虛擬語(yǔ)料庫(kù)上的CDC消解來(lái)得簡(jiǎn)單。

    ? 無(wú)論是采用哪種方法計(jì)算基準(zhǔn)性能,精度值都顯著大于召回率,這是由于語(yǔ)料庫(kù)中的“重名”歧義現(xiàn)象較少(“重名困惑度”較小),即使武斷地將相同的名稱都聚到同一實(shí)體鏈下,也能獲得較高的精度。而“多名”指代現(xiàn)象略微豐富一些(“多名困惑度”稍高),于是召回率明顯低于精度。

    ? 采用向量空間模型得到的性能明顯低于另二種方法得到的性能,其主要原因有二個(gè),一是主題多樣性。同一實(shí)體,如“臺(tái)灣”,既可能出現(xiàn)在政治和經(jīng)濟(jì)新聞,也可能出現(xiàn)在社會(huì)、娛樂和體育新聞中。不同主題的文檔語(yǔ)境不同,上下文迥異;二是上下文稀疏性。很多情況下,一個(gè)待消解的實(shí)體名稱在文檔中僅僅是順便提到,其上下文信息也就非常稀疏。

    雖然簡(jiǎn)單的字符串匹配就能取得較好的性能,而且就信息檢索的角度來(lái)看,能夠捕獲文本中的最主要實(shí)體及其引用在某些情況下已經(jīng)足夠了,但是,本語(yǔ)料庫(kù)的出發(fā)點(diǎn)是面向信息抽取的跨文本指代消解,因而其最終目的是為信息集成和信息融合提供服務(wù),即將分布在不同文本的實(shí)體及其相關(guān)信息通過跨文本指代消解構(gòu)成一個(gè)內(nèi)容更豐富的知識(shí)庫(kù)。為確保信息的可靠性和豐富性,信息融合對(duì)跨文本指代消解的性能特別是召回率有更高的要求,因此,我們下一步的工作是如何進(jìn)一步提高面向信息抽取的跨文本指代消解的性能。

    5 結(jié)論和下一步的工作

    本文在ACE2005中文語(yǔ)料庫(kù)的基礎(chǔ)上,采用自動(dòng)生成和人工標(biāo)注相結(jié)合的方法,構(gòu)建了一個(gè)面向信息抽取的中文CDC語(yǔ)料庫(kù),并將該語(yǔ)料庫(kù)公開發(fā)布,旨在促進(jìn)中文跨文本指代消解研究的發(fā)展。通過對(duì)該語(yǔ)料庫(kù)的進(jìn)一步統(tǒng)計(jì)和分析發(fā)現(xiàn),在所有的ACE實(shí)體類型中,跨文本指代現(xiàn)象較為嚴(yán)重的類型依次為GPE、ORG和PER等,且實(shí)體的多名現(xiàn)象和重名現(xiàn)象主要是由于名稱省略而引起的,因而有效地解決名稱省略問題能顯著提高跨文本指代消解的性能。另外,本文還提出了“多名困惑度”和“重名困惑度”兩個(gè)指標(biāo),以便從理論上衡量跨文本指代消解的難度,在此基礎(chǔ)上分析了理論分析和實(shí)驗(yàn)方法所得到的性能之間的差異。

    不足之處在于,由于本文所構(gòu)建的CDC語(yǔ)料庫(kù)是基于現(xiàn)有的ACE 2005語(yǔ)料庫(kù),因而其規(guī)模較小,因此今后的工作重點(diǎn)是一方面利用自動(dòng)或手工的方法進(jìn)一步擴(kuò)充其規(guī)模,另一方面,在該語(yǔ)料庫(kù)上嘗試使用不同的方法來(lái)提高中文跨文本指代消解的性能。

    [1] Dagan I, Itai A. Automatic Processing of Large Corpora for the Resolution of Anaphora References[C]//Proceedings of the 13th conference on Computational linguistics. Stroudsburg, PA, USA: Hans Karlgren, 1990: 330-332.

    [2] 王厚峰.漢語(yǔ)指代消解與省略恢復(fù)研究[D]. 中國(guó)科學(xué)院聲學(xué)研究所2000屆博士后出站報(bào)告.

    [3] Mayfield J, Alexander D, Dorr B, et al. Cross-Document Coreference Resolution: A Key Technology for Learning by Reading[C]//Proceedings of the AAAI 2009 Spring Symposium on Learning by Reading and Learning to Read. Stanford, California: March 23, 2009: 65-70.

    [4] Grishman R, Beth S. Message Understanding Conference-6: a brief history[C]//Proceedings of the 16th Conference on Computational Linguistics (COLING'96). Copenhagen, Denmark: August, 1996: 05-09.

    [5] NIST Speech Group. The ACE 2008 evaluation plan: Assessment of Detection and Recognition of Entities and Relations Within and Across Documents[EB/OL]. http://www.nist.gov/speech/tests/ace/2008/doc/ace08-evalplan.v1.2d.pdf, 2008.

    [6] Bagga A, Baldwin B. Entity-Based Cross-Document Coreferencing Using the Vector Space Model[C]//Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and the 17th International Conference on Computational Linguistics (COLING-ACL'98). Montréal, Québec, Canada: 1998: 79-85.

    [7] Gooi C H, Allan J. Cross-Document Coreference on a Large Scale Corpus[C]//Proceedings of HLT-NAACL 2004. USA,2004: 9-16.

    [8] Batista-Navarro R T, Ananiadou S. Building a Coreference-Annotated Corpus from the Domain of Biochemistry[C]//Proceedings of the 2011 Workshop on Biomedical Natural Language Processing, ACL-HLT 2011. Portland, Oregon, USA: June 23-24, 2011: 83-91.

    [9] Artiles J, Gonzalo J, Sekine S. Web People Search Task at SemEval-2007[EB/OL]. http://nlp.uned.es/weps/weps2007_data_readme_1.1.txt, 2007

    [10] CIPS-SIGHAN Joint Conference on Chinese Language Processing (CLP2010)[EB/OL]. http://www.cipsc.org.cn/clp2010/task3_ch.htm, 2010.

    [11] Singh S, Subramanya A, Pereira F, et al. Large-Scale Cross-Document Coreference Using Distributed Inference and Hierarchical Models[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics. Portland, Oregon: 2011: 793-803.

    [12] CLSP Summer Workshop. Exploiting Lexical & Encyclopedic Resources for Entity Disambiguation[EB/OL]. http://www.clsp.jhu.edu/ws2007/groups/elerfed/documents/ELERFED-CDC-Overview.v2.ppt, 2007.

    [13] Task Description for Knowledge Base Population at TAC 2009[EB/OL]. http://apl.jhu.edu/~paulmac/kbp/090601-KBPTaskGuidelines.pdf, 2009

    [14] 趙軍, 劉康, 周光有, 等. 開放式文本信息抽取[J]. 中文信息學(xué)報(bào), 2011, 25(6): 98-110.

    [15] Rao D, McNamee P, Dredze M. Entity Linking: Finding Extracted Entities in a Knowledge Base, Multi-source, Multi-lingual Information Extraction and Summarization[M]. Germany, Springer, 2011.

    [16] Cucerzan S. Large-Scale Named Entity Disambiguation Based on Wikipedia Data[C]//Proceedings of Empirical Methods in Natural Language Processing. Prague: June 28-30, 2007: 708-716.

    [17] Passoneau R J. Computing reliability for coreference annotation[C]//Proceedings of the International Conference on Language Resouces (LREC). Lisbon, Portugal: May 2004.

    [18] Krippendorff K H. Content Analysis: An Introduction to Its Methodology[M]. Beverly Hills, CA: Sage Publications, 1980.

    [19] Popescu O. Person Cross Document Coreference with Name Perplexity Estimates[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing. Singapore: 6-7 August 2009: 997-1006.

    [20] Bagga A. Evaluation of Coreferences and Coreference Resolution Systems[C]//Proceedings of the First Language Resource and Evaluation Conference. Granada, Spain: May 1998.

    [21] Baron A, Freedman M. Who is Who and What is What: Experiments in Cross-Document Co-Reference[C]//Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing. Honolulu: October 2008: 274-283.

    Construction of Information Extraction-orientated Chinese Cross Document Coreference Corpus

    ZHAO Zhiwei, QIAN Longhua, ZHOU Guodong

    (1. Natural Language Processing Laboratory, Soochow University, Suzhou, Jiangsu 215006, China;2. School of Computer Science & Technology, Soochow University, Suzhou, Jiangsu 215006, China)

    Cross Document Coreference(CDC) resolution is an important step in information integration and information fusion. As a consequence, a CDC corpus is indispensable for research and evaluation of CDC resolution. Given the fact that no Chinese CDC corpus is publicly available oriented for information extraction, this paper describes how to build a CDC corpus based on the ACE2005 Chinese corpus via automatic generation and manual annotation, which covers all the ACE entity types. The corpus is made publicly available to advance the research on Chinese CDC resolution. In addition, this paper analyses the types and characteristics of CDC in Chinese text as well as proposes the concept of two metrics, i.e., “variation perplexity” and “ambiguity perplexity”, to evaluate the difficulty of Chinese CDC resolution, providing some insights for further CDC research.

    cross document coreference; information extraction; corpora annotation; perplexity

    趙知緯(1987—),碩士研究生,主要研究領(lǐng)域?yàn)樾畔⒊槿?。E?mail:none.zhao@gmail.com錢龍華(1966—),通訊作者,副教授,碩士生導(dǎo)師,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理。E?mail:qianlonghua@suda.edu.cn周國(guó)棟(1967—),教授,博士生導(dǎo)師,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理。E?mail:gdzhou@suda.edu.cn

    1003-0077(2015)01-0057-10

    2012-04-09 定稿日期: 2012-08-06

    國(guó)家自然科學(xué)基金(60873150,90920004);江蘇省自然科學(xué)基金(BK2010219,11KJA520003)

    TP391

    A

    猜你喜歡
    歧義指代語(yǔ)料
    Let’s Save Food To Fight Hunger
    奧卡姆和布列丹對(duì)指代劃分的比較
    eUCP條款歧義剖析
    English Jokes: Homonyms
    基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
    “那么大”的語(yǔ)義模糊與歧義分析
    華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
    “不一而足”話討論
    《苗防備覽》中的湘西語(yǔ)料
    國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
    中文字幕av电影在线播放| 精品亚洲成国产av| 精品一区二区三区视频在线| 免费黄色在线免费观看| 99热全是精品| 欧美 日韩 精品 国产| 亚洲丝袜综合中文字幕| 国产伦在线观看视频一区| 欧美日韩综合久久久久久| 男女边摸边吃奶| 亚洲av国产av综合av卡| av播播在线观看一区| 中文精品一卡2卡3卡4更新| 在线观看国产h片| 久久韩国三级中文字幕| 视频中文字幕在线观看| 99热网站在线观看| 亚洲精品乱久久久久久| 国产男女内射视频| 亚洲情色 制服丝袜| 欧美日韩视频高清一区二区三区二| 一二三四中文在线观看免费高清| 插阴视频在线观看视频| 一本大道久久a久久精品| 在线免费观看不下载黄p国产| 一级av片app| 新久久久久国产一级毛片| av专区在线播放| 天堂中文最新版在线下载| 亚洲精品乱久久久久久| 五月天丁香电影| 免费少妇av软件| 高清午夜精品一区二区三区| 精品午夜福利在线看| 高清欧美精品videossex| 涩涩av久久男人的天堂| 人妻夜夜爽99麻豆av| 国产免费又黄又爽又色| 国产一区二区在线观看av| 妹子高潮喷水视频| 中文精品一卡2卡3卡4更新| 成人免费观看视频高清| 我要看黄色一级片免费的| 免费观看a级毛片全部| 免费大片黄手机在线观看| 如何舔出高潮| 精品久久久久久久久av| 久久久亚洲精品成人影院| 熟女av电影| 亚洲精品国产av蜜桃| 精品久久久精品久久久| xxx大片免费视频| 最新的欧美精品一区二区| 国产成人精品福利久久| 乱码一卡2卡4卡精品| 欧美日韩av久久| 免费大片18禁| 色婷婷av一区二区三区视频| 精品人妻偷拍中文字幕| 久久久久久久久久成人| 中文字幕亚洲精品专区| 精品久久久精品久久久| 欧美国产精品一级二级三级 | 91精品国产九色| 国产成人a∨麻豆精品| 日韩大片免费观看网站| 欧美精品人与动牲交sv欧美| 伦精品一区二区三区| 亚洲不卡免费看| 男人爽女人下面视频在线观看| 18禁在线播放成人免费| 亚洲欧美成人综合另类久久久| 成人亚洲精品一区在线观看| 日日啪夜夜爽| 欧美3d第一页| 午夜激情福利司机影院| 大片免费播放器 马上看| 亚洲精品乱久久久久久| 国产极品天堂在线| 高清午夜精品一区二区三区| 日韩在线高清观看一区二区三区| 久久久国产欧美日韩av| 欧美日韩av久久| 91在线精品国自产拍蜜月| 我的女老师完整版在线观看| 精品人妻偷拍中文字幕| 国产成人精品福利久久| 成人综合一区亚洲| 女的被弄到高潮叫床怎么办| 亚洲综合精品二区| 久久久久人妻精品一区果冻| 亚洲av.av天堂| a级毛片在线看网站| 免费看光身美女| 中文字幕人妻熟人妻熟丝袜美| 51国产日韩欧美| 国精品久久久久久国模美| av天堂久久9| 午夜久久久在线观看| 深夜a级毛片| 日日啪夜夜撸| 亚洲精品乱码久久久久久按摩| .国产精品久久| 精品一品国产午夜福利视频| 99久久人妻综合| 最近2019中文字幕mv第一页| 免费在线观看成人毛片| 麻豆乱淫一区二区| 韩国av在线不卡| 国产淫片久久久久久久久| 男人和女人高潮做爰伦理| 2021少妇久久久久久久久久久| 一二三四中文在线观看免费高清| 哪个播放器可以免费观看大片| 日日啪夜夜撸| 九九久久精品国产亚洲av麻豆| 国产精品三级大全| 99九九在线精品视频 | 少妇被粗大的猛进出69影院 | 成人亚洲欧美一区二区av| 亚洲精品乱码久久久久久按摩| 九九在线视频观看精品| av专区在线播放| 校园人妻丝袜中文字幕| 国产精品人妻久久久影院| 国产成人91sexporn| 精品人妻熟女av久视频| 天堂8中文在线网| 青春草亚洲视频在线观看| 久久青草综合色| 一级毛片久久久久久久久女| 亚洲欧洲精品一区二区精品久久久 | 女的被弄到高潮叫床怎么办| 久久久国产欧美日韩av| 午夜视频国产福利| 亚洲欧美成人精品一区二区| 日日摸夜夜添夜夜添av毛片| 新久久久久国产一级毛片| 中文在线观看免费www的网站| 大又大粗又爽又黄少妇毛片口| 少妇的逼水好多| 尾随美女入室| 国产极品天堂在线| 一级毛片我不卡| 欧美97在线视频| 午夜福利网站1000一区二区三区| 综合色丁香网| 午夜影院在线不卡| 国产 一区精品| 国产成人免费无遮挡视频| 伊人久久国产一区二区| 国产永久视频网站| 国产精品久久久久久av不卡| 日韩一区二区视频免费看| 国产一区二区三区av在线| av国产精品久久久久影院| 亚洲国产精品国产精品| 亚洲精品亚洲一区二区| 日日摸夜夜添夜夜爱| 免费黄频网站在线观看国产| 免费人妻精品一区二区三区视频| 六月丁香七月| 久久av网站| 亚洲怡红院男人天堂| 热99国产精品久久久久久7| 久久精品熟女亚洲av麻豆精品| 蜜臀久久99精品久久宅男| 高清不卡的av网站| 赤兔流量卡办理| 久久精品久久久久久噜噜老黄| 亚洲欧美清纯卡通| 亚洲精华国产精华液的使用体验| 草草在线视频免费看| 丝袜脚勾引网站| 亚洲无线观看免费| 色吧在线观看| 99热这里只有是精品在线观看| 国产黄片美女视频| 97在线视频观看| 纯流量卡能插随身wifi吗| 日本免费在线观看一区| 久久影院123| 99热这里只有精品一区| 国产免费一级a男人的天堂| 国产综合精华液| 中文字幕人妻熟人妻熟丝袜美| 91午夜精品亚洲一区二区三区| 国精品久久久久久国模美| 精品久久久噜噜| 日本与韩国留学比较| 午夜老司机福利剧场| 欧美高清成人免费视频www| 亚洲美女视频黄频| 99热这里只有是精品在线观看| 黑丝袜美女国产一区| 黑人猛操日本美女一级片| 国产爽快片一区二区三区| 91久久精品电影网| 高清不卡的av网站| 欧美精品高潮呻吟av久久| 夫妻性生交免费视频一级片| 欧美日韩视频精品一区| 免费av中文字幕在线| 国产淫片久久久久久久久| 国产欧美日韩一区二区三区在线 | 在线观看免费视频网站a站| 伊人久久精品亚洲午夜| 免费人妻精品一区二区三区视频| 国产高清国产精品国产三级| 少妇人妻精品综合一区二区| 亚洲人成网站在线观看播放| 国产黄色免费在线视频| 久久人人爽人人爽人人片va| 久久6这里有精品| 国产无遮挡羞羞视频在线观看| 久久久久久久久久成人| 日本与韩国留学比较| 久久人人爽av亚洲精品天堂| 天堂俺去俺来也www色官网| 国产在线一区二区三区精| av网站免费在线观看视频| 啦啦啦中文免费视频观看日本| 少妇精品久久久久久久| 最黄视频免费看| 久久午夜综合久久蜜桃| 精品一区二区三卡| 国产一区二区在线观看av| 麻豆乱淫一区二区| 久久久久久久久久久久大奶| 一级毛片我不卡| 欧美激情国产日韩精品一区| 精品一区在线观看国产| 精品久久久噜噜| 国产欧美日韩综合在线一区二区 | 国产精品人妻久久久久久| 久久99精品国语久久久| 精品午夜福利在线看| 精品久久久精品久久久| 精品一区二区三卡| 只有这里有精品99| 日日摸夜夜添夜夜爱| 日日啪夜夜爽| 亚洲电影在线观看av| 一区二区av电影网| 日韩中文字幕视频在线看片| 热99国产精品久久久久久7| 午夜视频国产福利| 性高湖久久久久久久久免费观看| 午夜av观看不卡| 国精品久久久久久国模美| 国产乱人偷精品视频| 亚洲欧美一区二区三区黑人 | 黄色一级大片看看| 精品久久久久久电影网| 成人漫画全彩无遮挡| 日韩免费高清中文字幕av| 天堂俺去俺来也www色官网| 国产在线免费精品| 少妇人妻一区二区三区视频| 最近中文字幕高清免费大全6| 久久久久久久久久久丰满| 最近中文字幕2019免费版| 18禁裸乳无遮挡动漫免费视频| 男人和女人高潮做爰伦理| 久久久国产欧美日韩av| 边亲边吃奶的免费视频| 各种免费的搞黄视频| 亚洲综合精品二区| 老熟女久久久| av福利片在线观看| 国产成人免费观看mmmm| 婷婷色综合www| 国产欧美日韩精品一区二区| av网站免费在线观看视频| 日韩强制内射视频| 久久久久久久亚洲中文字幕| 精品久久久久久电影网| 欧美成人午夜免费资源| 国产欧美日韩综合在线一区二区 | 精品国产一区二区三区久久久樱花| 亚洲欧洲精品一区二区精品久久久 | 国产无遮挡羞羞视频在线观看| 男的添女的下面高潮视频| 日日摸夜夜添夜夜爱| 乱人伦中国视频| 伊人久久精品亚洲午夜| freevideosex欧美| 亚洲色图综合在线观看| av线在线观看网站| 中文天堂在线官网| 亚洲精品国产成人久久av| 成人二区视频| 波野结衣二区三区在线| 中文精品一卡2卡3卡4更新| 久久久久国产精品人妻一区二区| 国产成人一区二区在线| 午夜日本视频在线| 亚洲精品久久午夜乱码| 国产欧美日韩一区二区三区在线 | 亚洲国产精品一区二区三区在线| 丰满乱子伦码专区| 嘟嘟电影网在线观看| 少妇高潮的动态图| 免费不卡的大黄色大毛片视频在线观看| 男人爽女人下面视频在线观看| 久久亚洲国产成人精品v| 国产欧美日韩综合在线一区二区 | 国产免费又黄又爽又色| 2022亚洲国产成人精品| 91久久精品国产一区二区成人| 丁香六月天网| 国内少妇人妻偷人精品xxx网站| 人人澡人人妻人| 老熟女久久久| 国内少妇人妻偷人精品xxx网站| 嫩草影院新地址| 国产日韩欧美亚洲二区| 美女大奶头黄色视频| 久久99热这里只频精品6学生| 久久精品国产a三级三级三级| 亚洲欧美精品自产自拍| 国产高清国产精品国产三级| 国产91av在线免费观看| 免费观看在线日韩| 中国国产av一级| 亚洲av在线观看美女高潮| 午夜福利网站1000一区二区三区| 国产精品女同一区二区软件| 亚洲美女搞黄在线观看| 天堂中文最新版在线下载| 成人影院久久| 99热这里只有精品一区| 欧美日韩一区二区视频在线观看视频在线| 国产亚洲欧美精品永久| 国产精品一二三区在线看| 国产男女超爽视频在线观看| 国产精品三级大全| 18禁动态无遮挡网站| 亚洲国产精品一区二区三区在线| 免费大片18禁| 亚洲国产毛片av蜜桃av| 汤姆久久久久久久影院中文字幕| 国产精品久久久久久av不卡| 日韩一区二区视频免费看| av福利片在线| 熟女人妻精品中文字幕| 久久亚洲国产成人精品v| 极品人妻少妇av视频| 午夜激情福利司机影院| 波野结衣二区三区在线| 国产精品欧美亚洲77777| 久久久久久久大尺度免费视频| 肉色欧美久久久久久久蜜桃| 青春草亚洲视频在线观看| 97在线人人人人妻| 交换朋友夫妻互换小说| 黄色怎么调成土黄色| 国产高清三级在线| 黄片无遮挡物在线观看| 午夜老司机福利剧场| 91精品一卡2卡3卡4卡| 国产成人免费观看mmmm| 99热这里只有是精品在线观看| 人体艺术视频欧美日本| av一本久久久久| 十八禁高潮呻吟视频 | 青春草国产在线视频| av天堂中文字幕网| 国产精品一区二区在线不卡| 国产亚洲av片在线观看秒播厂| 日日啪夜夜撸| 高清欧美精品videossex| 内射极品少妇av片p| 各种免费的搞黄视频| 晚上一个人看的免费电影| 两个人的视频大全免费| 国精品久久久久久国模美| 99久久精品一区二区三区| 草草在线视频免费看| 少妇熟女欧美另类| 亚洲成人av在线免费| 激情五月婷婷亚洲| 国产日韩欧美亚洲二区| 街头女战士在线观看网站| 亚洲va在线va天堂va国产| 国产精品99久久久久久久久| 五月玫瑰六月丁香| 纯流量卡能插随身wifi吗| 一级,二级,三级黄色视频| 丰满少妇做爰视频| 国产精品99久久久久久久久| 国产国拍精品亚洲av在线观看| 特大巨黑吊av在线直播| 日韩一本色道免费dvd| 久久国产亚洲av麻豆专区| 久久精品熟女亚洲av麻豆精品| 亚洲av国产av综合av卡| 国产欧美亚洲国产| 国产男女内射视频| 国产精品蜜桃在线观看| 欧美精品一区二区大全| 啦啦啦视频在线资源免费观看| 成人午夜精彩视频在线观看| 精品国产一区二区久久| 亚洲欧美一区二区三区国产| 亚洲经典国产精华液单| 亚洲国产精品一区三区| 成人综合一区亚洲| 一区二区av电影网| 啦啦啦啦在线视频资源| 久久99一区二区三区| 综合色丁香网| 国产av一区二区精品久久| 18禁裸乳无遮挡动漫免费视频| 亚洲国产成人一精品久久久| a级毛片在线看网站| 中文字幕精品免费在线观看视频 | 国产精品熟女久久久久浪| 免费看光身美女| 黑人猛操日本美女一级片| 久久国产精品男人的天堂亚洲 | 国产探花极品一区二区| 又粗又硬又长又爽又黄的视频| 狠狠精品人妻久久久久久综合| 亚洲精品亚洲一区二区| 亚洲四区av| 在线精品无人区一区二区三| 午夜久久久在线观看| 国语对白做爰xxxⅹ性视频网站| 麻豆乱淫一区二区| 成人毛片60女人毛片免费| 最后的刺客免费高清国语| 日韩在线高清观看一区二区三区| 国产男人的电影天堂91| 乱人伦中国视频| 精华霜和精华液先用哪个| 熟女人妻精品中文字幕| 又粗又硬又长又爽又黄的视频| 免费播放大片免费观看视频在线观看| 免费黄色在线免费观看| 一级毛片黄色毛片免费观看视频| av在线播放精品| 在线播放无遮挡| 国产精品三级大全| 中文字幕久久专区| 精品一区二区免费观看| 免费看日本二区| 男女啪啪激烈高潮av片| 大香蕉97超碰在线| h日本视频在线播放| 人人澡人人妻人| kizo精华| 成人特级av手机在线观看| 黄色欧美视频在线观看| 久久久久久久久大av| 丝瓜视频免费看黄片| 免费观看a级毛片全部| 纯流量卡能插随身wifi吗| av免费在线看不卡| 午夜视频国产福利| 久久6这里有精品| 一级毛片黄色毛片免费观看视频| 在线免费观看不下载黄p国产| 69精品国产乱码久久久| 观看免费一级毛片| 国产精品欧美亚洲77777| 久久精品国产亚洲av涩爱| 国产成人a∨麻豆精品| 制服丝袜香蕉在线| 性色av一级| 99久久精品热视频| 久久久精品免费免费高清| 嫩草影院新地址| 美女脱内裤让男人舔精品视频| 简卡轻食公司| 深夜a级毛片| av在线app专区| 欧美另类一区| 国产精品.久久久| 国产精品熟女久久久久浪| 亚洲真实伦在线观看| 高清毛片免费看| 中文精品一卡2卡3卡4更新| 日日摸夜夜添夜夜添av毛片| av国产久精品久网站免费入址| 欧美精品一区二区大全| 欧美日韩亚洲高清精品| 亚洲av福利一区| 午夜福利,免费看| 精品国产国语对白av| 天天操日日干夜夜撸| 一级av片app| 最近最新中文字幕免费大全7| 另类亚洲欧美激情| av国产精品久久久久影院| 免费观看在线日韩| 啦啦啦啦在线视频资源| 中国三级夫妇交换| 亚洲国产精品999| 在线观看免费高清a一片| 99视频精品全部免费 在线| 少妇人妻精品综合一区二区| 国产精品秋霞免费鲁丝片| 中文字幕久久专区| 久久精品久久精品一区二区三区| 亚洲第一区二区三区不卡| a级毛色黄片| 哪个播放器可以免费观看大片| 少妇精品久久久久久久| 青青草视频在线视频观看| 最近中文字幕2019免费版| 亚洲av免费高清在线观看| 男女边摸边吃奶| 亚洲人成网站在线播| 国产男女内射视频| 亚洲中文av在线| 成年人午夜在线观看视频| 亚洲精品,欧美精品| 丁香六月天网| 久久综合国产亚洲精品| 欧美日韩综合久久久久久| 国产淫片久久久久久久久| 69精品国产乱码久久久| 大又大粗又爽又黄少妇毛片口| 日本爱情动作片www.在线观看| 熟女电影av网| 丰满饥渴人妻一区二区三| 久久久久久久久大av| a级片在线免费高清观看视频| 国产日韩一区二区三区精品不卡 | 亚洲欧美日韩另类电影网站| 国产永久视频网站| 最近的中文字幕免费完整| 午夜日本视频在线| 国产亚洲一区二区精品| 日本色播在线视频| 国产91av在线免费观看| 亚洲av成人精品一二三区| 高清在线视频一区二区三区| 精品一区二区免费观看| 亚洲国产毛片av蜜桃av| 国产亚洲午夜精品一区二区久久| 亚洲中文av在线| 最近2019中文字幕mv第一页| 精品一区二区免费观看| 日日摸夜夜添夜夜添av毛片| 免费观看的影片在线观看| 国产黄频视频在线观看| 在线观看一区二区三区激情| 久久影院123| 欧美日韩一区二区视频在线观看视频在线| 免费看av在线观看网站| 一级片'在线观看视频| 大香蕉久久网| 狂野欧美白嫩少妇大欣赏| www.色视频.com| 亚洲av成人精品一区久久| 久久青草综合色| av网站免费在线观看视频| 黑人巨大精品欧美一区二区蜜桃 | 自拍欧美九色日韩亚洲蝌蚪91 | 亚洲精品日本国产第一区| 欧美日韩精品成人综合77777| 日韩一区二区视频免费看| 18禁在线无遮挡免费观看视频| 亚洲精品久久久久久婷婷小说| 老女人水多毛片| 久久99热这里只频精品6学生| 亚洲精品aⅴ在线观看| 自线自在国产av| 我要看日韩黄色一级片| 亚洲欧美成人精品一区二区| 国产日韩欧美视频二区| 日韩不卡一区二区三区视频在线| 欧美高清成人免费视频www| 春色校园在线视频观看| 观看av在线不卡| 久久这里有精品视频免费| 久久午夜福利片| 国产午夜精品久久久久久一区二区三区| 在线观看人妻少妇| 亚洲色图综合在线观看| 亚洲精品视频女| 国产亚洲av片在线观看秒播厂| 精品少妇久久久久久888优播| av网站免费在线观看视频| 亚洲精品一区蜜桃| 少妇裸体淫交视频免费看高清| 日本黄大片高清| 高清毛片免费看| 一级二级三级毛片免费看| av.在线天堂| 午夜精品国产一区二区电影| 国产高清国产精品国产三级| 成年美女黄网站色视频大全免费 | 老司机影院毛片| 在线免费观看不下载黄p国产| 亚洲精品乱久久久久久| 大香蕉久久网| 亚洲欧美一区二区三区国产| 五月伊人婷婷丁香| videos熟女内射| 久久ye,这里只有精品| 国产成人精品福利久久| 热99国产精品久久久久久7| 亚洲精品乱码久久久久久按摩| 中文字幕人妻熟人妻熟丝袜美| 久久青草综合色| 国产黄色免费在线视频| 日本欧美视频一区| 大片免费播放器 马上看| 如日韩欧美国产精品一区二区三区 | 欧美 日韩 精品 国产| 国产亚洲最大av| av.在线天堂|