• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    限定域關(guān)系抽取研究綜述①

    2021-10-11 06:46:16袁清波杜曉明
    關(guān)鍵詞:實(shí)體語義遠(yuǎn)程

    袁清波,杜曉明,楊 帆

    (陸軍工程大學(xué) 指揮控制工程學(xué)院,南京 210007)

    隨著計(jì)算機(jī)和互聯(lián)網(wǎng)的快速發(fā)展,人類產(chǎn)生、創(chuàng)造的數(shù)據(jù)量呈爆炸式增長.如何對這些海量異構(gòu)數(shù)據(jù)進(jìn)行高效利用,是當(dāng)前亟需解決的問題,也是信息抽取(Information Extraction,IE)研究的重要內(nèi)容之一.關(guān)系抽取(Relation Extraction,RE)作為信息抽取的重要子任務(wù),主要完成從非結(jié)構(gòu)化數(shù)據(jù)中抽取出實(shí)體間的語義關(guān)系,目前已廣泛應(yīng)用于搜索引擎、智能推薦、機(jī)器翻譯和問答服務(wù)等領(lǐng)域.

    當(dāng)前,知識圖譜技術(shù)研究較為熱門,關(guān)系抽取作為其中的一個(gè)重要方向,引起了研究者們廣泛關(guān)注.對關(guān)系抽取的開拓性探索是FASTUS 系統(tǒng)[1]的基于模板關(guān)系抽取方法,該方法能夠在小規(guī)模特定領(lǐng)域取得較好效果,但是存在開發(fā)周期長、準(zhǔn)確率較低、可移植性差等問題.因此,研究者們繼而提出了有監(jiān)督、弱監(jiān)督和無監(jiān)督等機(jī)器學(xué)習(xí)關(guān)系抽取方法.有監(jiān)督的關(guān)系抽取方法最初主要基于傳統(tǒng)的機(jī)器學(xué)習(xí),包括Miller 等人[2]的基于特征向量關(guān)系抽取方法和Zelenko 等人[3]的基于核函數(shù)關(guān)系抽取方法.基于傳統(tǒng)的機(jī)器學(xué)習(xí)關(guān)系抽取方法比較依賴于人工構(gòu)建的各種特征,近年來基于深度學(xué)習(xí)的關(guān)系抽取方法開始被研究者們提出,使關(guān)系抽取的性能取得了較大提高.深度學(xué)習(xí)關(guān)系抽取方法不需要人工構(gòu)建特征,其輸入一般包括句子中的詞向量和位置向量表示,分為流水線(pipeline)方法和聯(lián)合(joint)方法兩種,其比較有代表性的是Zeng 等人[4]提出的卷積深度神經(jīng)網(wǎng)絡(luò)模型,通過提取詞匯和句子級別的特征以進(jìn)行關(guān)系抽取.有監(jiān)督學(xué)習(xí)關(guān)系抽取方法的缺點(diǎn)是需要大量有標(biāo)注的訓(xùn)練語料,而人工標(biāo)注這些語料則耗時(shí)耗力.當(dāng)訓(xùn)練語料較少時(shí),則可以利用弱監(jiān)督學(xué)習(xí)方法來進(jìn)行關(guān)系抽取,該方法主要包括Mintz 等人[5]的基于遠(yuǎn)程監(jiān)督(distant supervision)關(guān)系抽取方法和Brin 等人[6]基于Bootstrapping 關(guān)系抽取方法.無監(jiān)督的關(guān)系抽取方法,不需要人工標(biāo)注數(shù)據(jù),通過聚類方法把相同關(guān)系類型聚合在起來.

    近年來,一些研究者對關(guān)系抽取方法進(jìn)行過梳理,如莊傳志等人[7]梳理了深度學(xué)習(xí)方法,白龍等人[8]梳理了遠(yuǎn)程監(jiān)督方法,但缺少對關(guān)系抽取方法整體發(fā)展脈絡(luò)的系統(tǒng)歸納與總結(jié).

    本文主要利用時(shí)間順序法對限定域條件下二元關(guān)系抽取方法進(jìn)行歸納總結(jié).首先對關(guān)系抽取進(jìn)行簡要介紹;其次對其相關(guān)方法進(jìn)行詳細(xì)歸納總結(jié),重點(diǎn)是目前研究較熱的深度學(xué)習(xí)關(guān)系抽取方法;最后對其應(yīng)用領(lǐng)域和未來研究方向進(jìn)行分析展望.

    1 概念定義

    Bach 等人[9]將關(guān)系以元組t=(e1,e2,…,en)的形式定義,其中實(shí)體ei之間在文檔D中具有某種預(yù)先定義關(guān)系r.二元關(guān)系可表示為<e1,r,e2>的三元組形式,其中e1、e2表示兩個(gè)實(shí)體,r為預(yù)定義目標(biāo)關(guān)系類型.根據(jù)實(shí)體數(shù)量的多少關(guān)系抽取可分為二元關(guān)系抽取和多元關(guān)系抽取,目前大多數(shù)研究者都專注于二元關(guān)系抽取.

    關(guān)系抽取的任務(wù)是從一段文本中提取出發(fā)生在兩個(gè)實(shí)體或多個(gè)實(shí)體之間的語義關(guān)系.完整的關(guān)系抽取包括兩個(gè)子過程,首先從非結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行命名實(shí)體識別,而后對所識別出的實(shí)體進(jìn)行語義關(guān)系判別.其中關(guān)系判別的過程,也可稱為關(guān)系分類(relation classification),即判斷實(shí)體之間屬于哪種關(guān)系,屬于一種多分類問題.

    如圖1所示,對于給定句子“姚明出生于上海的一個(gè)籃球世家”.命名實(shí)體識別子過程識別出句子中具有“姚明”和“上?!眱蓚€(gè)實(shí)體;語義關(guān)系判別子過程判斷出“姚明”和“上?!眱蓚€(gè)實(shí)體間是“出生地”關(guān)系.在閱讀關(guān)系抽取相關(guān)論文時(shí)發(fā)現(xiàn),大多數(shù)的方法默認(rèn)命名實(shí)體識別子過程已完成,所做研究主要在于關(guān)系判別子過程,即關(guān)系分類子過程.

    圖1 關(guān)系抽取示例

    2 數(shù)據(jù)集

    關(guān)系抽取的公開主流評測數(shù)據(jù)集主要有ACE2005數(shù)據(jù)集、SemEval-2010 任務(wù)8 數(shù)據(jù)集、NYT2010 數(shù)據(jù)集等.

    ACE 2005 數(shù)據(jù)集[10]是一種多語種訓(xùn)練語料庫,包含完整的英語、阿拉伯語和漢語訓(xùn)練數(shù)據(jù).ACE 2005數(shù)據(jù)集中英文語料來源包括廣播新聞、廣播談話、新聞專線、網(wǎng)站博客、新聞組和電話對話語音等共6 個(gè)領(lǐng)域,共包含599 篇與上述領(lǐng)域內(nèi)容相關(guān)的文檔.ACE 2005 數(shù)據(jù)集里共定義了7 大類實(shí)體和7 大類、19 小類關(guān)系.

    SemEval-2010 任務(wù)8 數(shù)據(jù)集[11]包含10 717 個(gè)帶注釋的示例,其中訓(xùn)練集包含8000 個(gè)示例,測試集包含2717 個(gè)示例.共定義有9 種關(guān)系類型,每種類型都有兩個(gè)方向;不屬于這些關(guān)系類型的示例被標(biāo)記為“Other”.每個(gè)示例都包含標(biāo)有兩個(gè)名詞e1和e2的句子,任務(wù)是在考慮方向性的情況下來預(yù)測e1和e2間關(guān)系.在考慮方向性的情況下,SemEval-2010 任務(wù)8 數(shù)據(jù)集共有19 種關(guān)系類型.

    紐約時(shí)報(bào)(New York Times,NYT) 2010 數(shù)據(jù)集是用于遠(yuǎn)程監(jiān)督關(guān)系抽取的標(biāo)準(zhǔn)語料庫,由Riedel 等人[12]發(fā)布于2010年.該數(shù)據(jù)集是通過將Freebase 知識庫與紐約時(shí)報(bào)語料庫對齊而形成,使用斯坦福NER 系統(tǒng)從文本中提取的命名實(shí)體,并自動(dòng)鏈接到Freebase 知識庫中的實(shí)體.該數(shù)據(jù)集中共有53 種可能的關(guān)系類型,包括一種特殊的關(guān)系NA,它表示實(shí)體對之間沒有任何關(guān)系.

    3 評價(jià)指標(biāo)

    關(guān)系抽取任務(wù)經(jīng)常采用的評價(jià)指標(biāo)有正確率(Accuracy)、準(zhǔn)確率(Precision)、召回率(Recall)、F值(F-Measure).

    (1)正確率

    正確率是最常見的評價(jià)指標(biāo),而且很容易理解,就是被正確抽取的樣本數(shù)除以所有的樣本數(shù),通常來說,正確率越高,分類器越好.其計(jì)算公式為:

    (2)準(zhǔn)確率

    準(zhǔn)確率又稱為查準(zhǔn)率,是針對抽取結(jié)果而言的,它表示的是抽取結(jié)果為關(guān)系R的樣本中有多少是對的.把抽取結(jié)果集中正確抽取的記為TP(True Positive),錯(cuò)誤抽取的記為FP(False Positive).其計(jì)算公式為:

    (3)召回率

    召回率又稱為查全率,是針對原來的樣本而言的,它表示的是存在關(guān)系R的樣本中有多少被正確抽取了.把存在關(guān)系R的樣本集中正確抽取的記為TP,錯(cuò)誤抽取的記為FN(False Negative).其計(jì)算公式為:

    (4)F值

    對于關(guān)系抽取來說,準(zhǔn)確率和召回率兩個(gè)指標(biāo)有時(shí)候會(huì)出現(xiàn)相互矛盾的情況,二者實(shí)際上為互補(bǔ)關(guān)系.這樣就需要綜合考慮它們,最常見的方法就是F值,又稱為F-Score.其計(jì)算公式為:

    其中,β是用來平衡準(zhǔn)確率和召回率在F值計(jì)算中的權(quán)重.在關(guān)系抽取任務(wù)中,一般β取1,認(rèn)為兩個(gè)指標(biāo)一樣重要.此時(shí)F值計(jì)算公式為:

    4 相關(guān)方法

    關(guān)系抽取發(fā)展至今,總體可以分為基于模板的關(guān)系抽取方法和基于機(jī)器學(xué)習(xí)的關(guān)系抽取方法,具體如圖2所示.基于機(jī)器學(xué)習(xí)的抽取方法按照對語料的依賴程度分為3 類:有監(jiān)督的關(guān)系抽取、弱監(jiān)督的關(guān)系抽取和無監(jiān)督的關(guān)系抽取.在傳統(tǒng)機(jī)器學(xué)習(xí)方法之后,隨著深度學(xué)習(xí)抽取方法的廣泛應(yīng)用,關(guān)系抽取的性能得到了較大提高.

    圖2 關(guān)系抽取相關(guān)方法

    4.1 基于模板的方法

    早期的實(shí)體關(guān)系抽取方法大都采用基于模板匹配的方法實(shí)現(xiàn).該方法又稱為基于規(guī)則或模式匹配的方法,基于語言學(xué)知識和專業(yè)領(lǐng)域知識,由專家手工編寫模板,構(gòu)造出基于詞語、詞性或語義的模板集合,來實(shí)現(xiàn)特定關(guān)系實(shí)體對的抽取.方法對比如表1所示.

    表1 基于模板的關(guān)系抽取方法對比

    在1995年MUC-6 會(huì)議上,Appelt 等人[1]提出了FASTUS 抽取系統(tǒng),并引入了“宏”這一概念,用戶只需在“宏”中修改相應(yīng)參數(shù),即可快速配置好特定領(lǐng)域?qū)嶓w間的關(guān)系抽取模板.在1998年MUC-7 會(huì)議上,Yangarber 等人[13]提出了Proteus 抽取系統(tǒng),采用基于樣本泛化的思想來構(gòu)建關(guān)系抽取模板,用戶通過分析含有關(guān)系的例句,進(jìn)而對識別出的要素進(jìn)行泛化后而形成關(guān)系抽取模板,這進(jìn)一步改善了關(guān)系抽取的通用性.Aone 等人[14]提出了IE2抽取系統(tǒng),通過人工編寫關(guān)系抽取模板,從文本中抽取與模板匹配的關(guān)系實(shí)例.Fukumoto 等人[15]提出了Oki 抽取系統(tǒng),通過利用實(shí)體之間的謂語信息來判定兩個(gè)實(shí)體間的語義關(guān)系.Humphreys 等人[16]提出了LaSIE-Ⅱ抽取系統(tǒng),通過對句子進(jìn)行相應(yīng)句法分析,從而人工構(gòu)造出復(fù)雜的句法規(guī)則來識別出實(shí)體間的語義關(guān)系.

    總體來說,基于模板的關(guān)系抽取方法能夠在小規(guī)模特定領(lǐng)域取得較好效果,但是存在以下問題:第一,開發(fā)人員需在特定領(lǐng)域?qū)<业闹笇?dǎo)下手工編寫關(guān)系抽取模板集合,人工參與量大,系統(tǒng)開發(fā)周期長;第二,當(dāng)抽取模板集合較小時(shí),模板的覆蓋范圍不夠,系統(tǒng)召回率不高;當(dāng)抽取模板集合比較復(fù)雜時(shí),不同模板之間容易產(chǎn)生沖突,導(dǎo)致系統(tǒng)準(zhǔn)確率降低;第三,當(dāng)系統(tǒng)移植到其他領(lǐng)域時(shí),需要重新編寫抽取模板,系統(tǒng)可移植性較差,難以得到廣泛使用.

    雖然基于模板的關(guān)系抽取方法存在一定缺陷,但卻對后續(xù)基于機(jī)器學(xué)習(xí)的關(guān)系抽取研究起到了相應(yīng)促進(jìn)作用.

    4.2 基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法

    基于傳統(tǒng)機(jī)器學(xué)習(xí)的關(guān)系抽取方法屬于有監(jiān)督的關(guān)系抽取方法,將二元關(guān)系抽取看作是分類問題,其主要工作在于如何抽取出表征兩個(gè)實(shí)體間語義關(guān)系的有效特征.該方法通常分為基于特征向量(feature-based)的方法和基于核函數(shù)(kernel-based)的方法.

    基于傳統(tǒng)機(jī)器學(xué)習(xí)的關(guān)系抽取方法如表2所示.

    表2 基于傳統(tǒng)機(jī)器學(xué)習(xí)的關(guān)系抽取方法對比

    (1)基于特征向量的方法

    基于特征向量的方法通過使用空間向量模型(vector space model),將自然句子轉(zhuǎn)換為特征向量.該方法進(jìn)行關(guān)系抽取通常分為以下3 個(gè)步驟:第1 步是特征提取,即從訓(xùn)練集句子中提取出如詞匯、句法和語義等特征;第2 步是模型訓(xùn)練,即利用第1 步提取出的有效特征來訓(xùn)練我們的分類器模型;第3 步是關(guān)系抽取,即利用訓(xùn)練好的模型對測試集中的句子進(jìn)行分類,進(jìn)而完成實(shí)體關(guān)系抽取.基于特征向量的方法根據(jù)分類器模型的不同可分為:基于句法解析增強(qiáng)的方法、基于最大熵(maximum entropy)的方法、基于支持向量機(jī)(Support Vector Machine,SVM)的方法及基于條件隨機(jī)場(Conditional Random Fields,CRF)的方法等.

    Miller 等人[2]在2000年設(shè)計(jì)了一個(gè)聯(lián)合模型(joint model)進(jìn)行關(guān)系抽取,主要解決傳統(tǒng)流水線模型(pipeline model)中前一步操作會(huì)傳播到后一步操作的錯(cuò)誤問題.Kambhatla[17]在2004年基于最大熵模型并結(jié)合詞匯、句法和語義特征進(jìn)行關(guān)系抽取,只使用非常簡單的詞匯特征也取得了較高準(zhǔn)確率,大大降低了對句法分析樹的依賴.Zhou 等人[18]在2005年基于支持向量機(jī)模型并通過融合不同詞匯、句法和語義知識進(jìn)行關(guān)系抽取,該模型在Kambhatla的基礎(chǔ)上,通過加入基本短語組塊信息特征和WordNet、Name List等語義信息,來提升關(guān)系抽取效果.Culotta 等人[19]在2006年基于條件隨機(jī)場模型來進(jìn)行關(guān)系抽取,提出了一種集成的有監(jiān)督機(jī)器學(xué)習(xí)方法和構(gòu)建了一個(gè)線性鏈條件隨機(jī)場來提高關(guān)系抽取性能.

    基于特征向量的關(guān)系抽取方法,雖然在一定程度上可以取得不錯(cuò)的效果,但其對關(guān)系實(shí)體對的上下文信息利用不夠充分.此外,對于特征向量的選擇和設(shè)置方面更多的依賴于模型構(gòu)建者的經(jīng)驗(yàn)知識,于是后續(xù)研究者們進(jìn)而提出了基于核函數(shù)的關(guān)系抽取方法.

    (2)基于核函數(shù)的方法

    基于核函數(shù)的關(guān)系抽取方法,不需要人為選擇和設(shè)置特征向量,而是直接使用原始字符串作為輸入,來計(jì)算任意兩個(gè)實(shí)體間的核相似性(kernel similarity)函數(shù).該方法進(jìn)行關(guān)系抽取通常分為以下3 個(gè)步驟[25]:第1 步是選擇合適解析結(jié)構(gòu),即為了承載語句中隱含的特征信息,如使用語法樹等剖析語句;第2 步是選擇合適基礎(chǔ)核函數(shù),即在解析結(jié)構(gòu)基礎(chǔ)上,來定量地計(jì)算解析結(jié)構(gòu)中子成分的相似性;第3 步是復(fù)合多個(gè)核函數(shù),即為了充分利用各種特征,來提高分類精度.

    Zelenko 等人[3]在2003年首次將核函數(shù)應(yīng)用于關(guān)系抽取任務(wù)中,提出一種使用核函數(shù)從非結(jié)構(gòu)化自然語言文本中提取關(guān)系的方法.Culotta 等人[20]在2004年提出使用依存樹核函數(shù)方法進(jìn)行關(guān)系抽取,該模型在文獻(xiàn)[3]樹核函數(shù)方法基礎(chǔ)上進(jìn)行改進(jìn),在依存關(guān)系樹上定義樹內(nèi)核,并將該內(nèi)核合并到SVM 中,可以用來在ACE 新聞?wù)Z料庫中進(jìn)行實(shí)體關(guān)系的檢測和抽取.Bunescu 等人[21]在2005年提出使用最短路徑依存核函數(shù)方法進(jìn)行關(guān)系抽取,該方法優(yōu)于文獻(xiàn)[20]的依存樹核函數(shù)方法.但由于其在計(jì)算兩個(gè)實(shí)體間最短路徑時(shí)要求依存樹具有相同的節(jié)點(diǎn)數(shù)和高度,因此在一定程度上限制了其使用范圍.于是兩人[22]在2006年提出使用子序列核函數(shù)方法以提升關(guān)系抽取的效果,新的模型使用了3 種子序列核函數(shù)模式,用于抽取自然語言文本中實(shí)體之間的語義關(guān)系.Zhang 等人[23]在2006年提出了復(fù)合核函數(shù)方法進(jìn)行關(guān)系抽取,該模型中復(fù)合核函數(shù)由實(shí)體核函數(shù)和卷積解析樹核函數(shù)構(gòu)成,可以充分利用核函數(shù)方法的優(yōu)良特性進(jìn)行關(guān)系抽取.Zhou等人[24]在2007年提出了一種具有上下文相關(guān)結(jié)構(gòu)化解析樹信息的樹核函數(shù)方法進(jìn)行關(guān)系抽取,該模型通過擴(kuò)展廣泛使用的最短路徑封閉樹(SPT)來包含SPT之外的必要上下文信息,自動(dòng)確定動(dòng)態(tài)上下文相關(guān)樹的跨度以進(jìn)行關(guān)系抽取.

    基于核函數(shù)方法的關(guān)系抽取方法,可以充分利用文本的長距離特征和結(jié)構(gòu)化特征,實(shí)驗(yàn)結(jié)果表明其優(yōu)于基于特征向量的關(guān)系抽取方法.但由于核函數(shù)是在高維的特征空間中隱式地計(jì)算對象間的距離,因此不可避免的會(huì)引入噪聲,對特征向量的有效性會(huì)造成一定影響.此外,核函數(shù)的計(jì)算過程復(fù)雜度高,模型的訓(xùn)練過程相對比較慢,因此不適于在大規(guī)模語料庫中進(jìn)行關(guān)系抽取.

    4.3 基于深度學(xué)習(xí)的方法

    基于傳統(tǒng)的機(jī)器學(xué)習(xí)關(guān)系抽取方法比較依賴于人工構(gòu)建的各種特征,近年來基于深度學(xué)習(xí)的關(guān)系抽取方法開始被研究者們提出.深度學(xué)習(xí)方法不需要人工構(gòu)建特征,其輸入一般包括句子中的詞向量和位置向量表示.基于深度關(guān)系的關(guān)系抽取方法通常包括流水線(pipeline)關(guān)系抽取方法和聯(lián)合(joint)抽取關(guān)系抽取方法兩種.

    基于深度學(xué)習(xí)的關(guān)系抽取典型方法如表3所示.

    表3 基于深度學(xué)習(xí)的關(guān)系抽取典型方法比較

    (1)流水線方法

    基于流水線的方法將命名實(shí)體識別和關(guān)系抽取作為兩個(gè)獨(dú)立的過程進(jìn)行處理,關(guān)系抽取在命名實(shí)體識別完成的基礎(chǔ)上進(jìn)行.其過程可以描述為:把已經(jīng)標(biāo)注好命名實(shí)體對的句子作為模型輸入,而后把實(shí)體關(guān)系三元組作為預(yù)測結(jié)果進(jìn)行輸出.基于流水線的方法通常包括基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的方法、基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的方法、基于依存關(guān)系的方法和基于BERT的方法.

    ① 基于卷積神經(jīng)網(wǎng)絡(luò)模型的方法

    基于卷積神經(jīng)網(wǎng)絡(luò)模型的關(guān)系抽取方法發(fā)展脈絡(luò)如圖3所示.Liu 等人[26]在2013年提出一種結(jié)合詞匯特征的卷積神經(jīng)網(wǎng)絡(luò)用于關(guān)系抽取,主要針對以前研究忽略詞間語義信息的情況而引入同義詞編碼,通過同義詞詞典對輸入詞進(jìn)行編碼,將語義知識集成到神經(jīng)網(wǎng)絡(luò)中以進(jìn)行關(guān)系抽取.Zeng 等人[4]在2014年提出利用卷積深度神經(jīng)網(wǎng)絡(luò)模型(CNN+Softmax)提取詞匯和句子級別的特征進(jìn)行關(guān)系抽取,該模型無需復(fù)雜的預(yù)處理就可以將所有單詞標(biāo)記作為輸入,就可以預(yù)測兩個(gè)標(biāo)記名詞之間的關(guān)系.在Zeng 等人[4]的模型基礎(chǔ)上,Nguyen 等人[27]在2015年提出了一種新的改進(jìn)模型,其輸入完全沒有使用人工特征,而是使用多尺寸卷積核進(jìn)行N-Gram 特征抽取.Dos Santos 等人[28]在2015年提出了一種利用卷積神經(jīng)網(wǎng)絡(luò)排序進(jìn)行關(guān)系分類的模型(CR-CNN),該模型為每個(gè)關(guān)系類型學(xué)習(xí)分布式矢量表示,對于給定輸入文本段,使用卷積層生成文本的分布式矢量表示形式,并將其與關(guān)系類別表示形式進(jìn)行比較,以便為每個(gè)關(guān)系類別生成分?jǐn)?shù).Shen 等人[29]在2016年提出了一種基于注意力機(jī)制的CNN 模型(Attention-CNN)進(jìn)行關(guān)系抽取,該模型使用CNN 來提取句子級別特征,將文本段編碼為其語義表示,并可以充分利用單詞嵌入,詞性標(biāo)簽嵌入和位置嵌入信息.Wang 等人[30]在2016年提出了一種基于多級注意力機(jī)制的CNN 模型(Att-Pooling-CNN)進(jìn)行關(guān)系抽取,主要依賴兩個(gè)層次的注意力機(jī)制,以便更好地識別異構(gòu)上下文中的模式.Zhu 等人[31]在2017年提出了一種基于目標(biāo)集中注意力機(jī)制的CNN 模型(TCA-CNN)進(jìn)行關(guān)系分類,認(rèn)為一個(gè)句子中不同的詞具有不同的信息量,并且詞的重要性高度依賴于關(guān)系.

    圖3 基于CNN 模型的方法發(fā)展時(shí)間軸

    ② 基于循環(huán)神經(jīng)網(wǎng)絡(luò)模型的方法

    基于循環(huán)神經(jīng)網(wǎng)絡(luò)模型的關(guān)系抽取方法發(fā)展脈絡(luò)如圖4所示.Zhang 等人[32]在2015年首次提出使用循環(huán)神經(jīng)網(wǎng)絡(luò)模型來進(jìn)行關(guān)系分類,認(rèn)為關(guān)系分類問題本質(zhì)上可以看作是時(shí)間序列學(xué)習(xí)的任務(wù)問題,因此應(yīng)通過時(shí)間模型進(jìn)行建模.與CNN 等其他深度學(xué)習(xí)模型相比,RNN 模型可以處理遠(yuǎn)距離模式,因此特別適合于在較長上下文中學(xué)習(xí)關(guān)系.Zhang 等人[33]在2015年提出了雙向長短期記憶網(wǎng)絡(luò)(BLSTM)模型來解決關(guān)系分類問題,對于給定句子中的每個(gè)單詞,BLSTM 都有關(guān)于其前后所有單詞的完整的順序信息,在一定程度上可以解決長距離關(guān)系.Xiao 等人[34]在2016年提出了基于注意力機(jī)制的分層循環(huán)神經(jīng)網(wǎng)絡(luò)模型(Hier-BLSTM)進(jìn)行語義關(guān)系分類,采用兩個(gè)注意機(jī)制RNN從原始句子中學(xué)習(xí)有用的特征以進(jìn)行關(guān)系分類.Zhou等人[35]在2016年提出了基于注意力機(jī)制的雙向長短期記憶網(wǎng)絡(luò)(Att-BLSTM)模型進(jìn)行語義關(guān)系分類,不依賴于NLP 系統(tǒng)或詞匯資源派生的任何特征,而是使用帶有位置指示符的原始文本作為輸入.Qin 等人[36]在2017年提出了一種基于實(shí)體對的雙向注意力機(jī)制門控循環(huán)單元(Gated Recurrent Unit,GRU)模型(EAtt-BiGRU),該模型利用雙向GRU 捕獲有價(jià)值的字符級信息,針對具體實(shí)例,將對應(yīng)的實(shí)體對信息作為先驗(yàn)知識.Lee 等人[37]在2019年提出了一種結(jié)合實(shí)體感知注意機(jī)制和潛在實(shí)體類型(Latent Entity Type,LET)的端到端循環(huán)神經(jīng)模型(LET-BLSTM)進(jìn)行關(guān)系分類,該模型為了捕捉句子的上下文,通過自我注意力機(jī)制來獲得單詞的表示,并用雙向長短期記憶網(wǎng)絡(luò)來構(gòu)建循環(huán)神經(jīng)結(jié)構(gòu).

    圖4 基于RNN 模型的方法發(fā)展時(shí)間軸

    ③ 基于依存關(guān)系模型的方法

    基于依存關(guān)系模型的關(guān)系抽取方法發(fā)展脈絡(luò)如圖5所示.Socher 等人[38]在2012年提出了一種矩陣向量遞歸神經(jīng)網(wǎng)絡(luò)模型(MV-RNN),其為解析樹中的每個(gè)節(jié)點(diǎn)分配向量和矩陣,并通過根據(jù)解析樹的句法結(jié)構(gòu)遞歸地組合單詞,可以自底向上計(jì)算較長短語的表示形式.Yu 等人[39]在2014年提出了基于因子的組合嵌入模型(FCM)用于關(guān)系分類,將帶注釋的句子分解為子結(jié)構(gòu)因子后,結(jié)合子結(jié)構(gòu)特征與單詞嵌入形成子結(jié)構(gòu)嵌入,再用Softmax 層來預(yù)測這個(gè)句子級嵌入的輸出標(biāo)簽.Liu 等人[40]在2015年提出了一種基于依存關(guān)系的神經(jīng)網(wǎng)絡(luò)模型(DepNN)進(jìn)行關(guān)系分類,提出了增強(qiáng)依存路徑(Augmented Dependency Path,ADP)結(jié)構(gòu),利用遞歸神經(jīng)網(wǎng)絡(luò)對子樹進(jìn)行建模和卷積神經(jīng)網(wǎng)絡(luò)捕獲最短路徑上的重要特征.Xu 等人[41]在2015年提出了一種簡單負(fù)采樣的卷積神經(jīng)網(wǎng)絡(luò)模型(depLCNN+NS)進(jìn)行語義關(guān)系分類,利用CNN 從最短依存路徑中學(xué)習(xí)更魯棒的關(guān)系表示,避免來自其它不相關(guān)語塊或從句的負(fù)面影響,并引入一種負(fù)采樣策略來解決關(guān)系的方向性.Xu 等人[42]在2015年提出了一種基于最短依存路徑的長短期記憶網(wǎng)絡(luò)模型(SDP-LSTM)進(jìn)行關(guān)系分類,利用具有長期短期記憶單元的多通道遞歸神經(jīng)網(wǎng)絡(luò)沿最短依存路徑來收集異構(gòu)信息.Cai 等人[43]在2016年提出了一種雙向循環(huán)卷積神經(jīng)網(wǎng)絡(luò)模型(BRCNN)進(jìn)行關(guān)系分類,利用基于雙通道LSTM的循環(huán)神經(jīng)網(wǎng)絡(luò)對SDP 中的全局模式進(jìn)行編碼,并利用卷積層捕獲由依存關(guān)系連接的每兩個(gè)相鄰單詞的局部特征.Xu 等人[44]在2016年提出了一種基于數(shù)據(jù)擴(kuò)充的深度循環(huán)神經(jīng)網(wǎng)絡(luò)模型(DRNNs) 來進(jìn)行關(guān)系分類,通過多個(gè)RNN 層來探索不同抽象級別和粒度下的表示空間,同時(shí)提出了一種利用關(guān)系方向性進(jìn)行數(shù)據(jù)擴(kuò)充的方法.Sun 等人[45]在2018年提出了一種結(jié)合最短依存路徑監(jiān)督下關(guān)鍵詞選擇的粗粒度和細(xì)粒度網(wǎng)絡(luò)模型(SDPCFN)進(jìn)行關(guān)系分類,提出了粗粒度和細(xì)粒度兩種關(guān)系分類網(wǎng)絡(luò)、SDP 監(jiān)督下的選詞網(wǎng)絡(luò)和一種新的相反損失函數(shù).

    圖5 基于依存關(guān)系模型的方法發(fā)展時(shí)間軸

    ④ 基于BERT 模型的方法

    Wu 等人[46]在2019年提出了一種基于實(shí)體信息來豐富BERT 預(yù)訓(xùn)練語言模型的方法(R-BERT)來進(jìn)行關(guān)系分類,結(jié)合預(yù)訓(xùn)練的BERT 模型和目標(biāo)實(shí)體信息來解決關(guān)系分類問題,通過預(yù)先訓(xùn)練的體系結(jié)構(gòu)定位目標(biāo)實(shí)體并傳遞信息,并合并兩個(gè)實(shí)體的相應(yīng)編碼.Soares 等人[47]在2019年提出了一種通用關(guān)系提取器(BERTEM+MTB),主要基于Harris的分布假設(shè)對關(guān)系的擴(kuò)展以及在學(xué)習(xí)文本表示形式(特別是BERT)方面的最新進(jìn)展,以完全從實(shí)體鏈接的文本構(gòu)建與任務(wù)無關(guān)的關(guān)系表示形式.通過實(shí)驗(yàn)證明,BERTEM+MTB 大大優(yōu)于SemEval 2010 Task 8 上的先前方法,取得了目前最高F1 值89.5.

    以上基于深度學(xué)習(xí)的流水線關(guān)系抽取方法,其關(guān)系抽取的結(jié)果過度依賴于命名實(shí)體識別的結(jié)果,忽略了兩個(gè)過程之間存在的關(guān)系,一定程度上影響了關(guān)系抽取的效果;同時(shí),命名實(shí)體識別過程的錯(cuò)誤也會(huì)傳播到關(guān)系抽取過程中,即流水線方法通常存在的錯(cuò)誤累積傳播問題.

    (2)聯(lián)合方法

    為了避免流水線方法所帶來的錯(cuò)誤累積傳播問題,基于深度學(xué)習(xí)的聯(lián)合關(guān)系抽取方法開始被提出.聯(lián)合關(guān)系抽取方法使用單個(gè)模型將命名實(shí)體識別和關(guān)系抽取兩個(gè)過程結(jié)合在一起,以便在統(tǒng)一的模型中進(jìn)行共同優(yōu)化.聯(lián)合關(guān)系抽取方法發(fā)展脈絡(luò)如圖6所示.

    圖6 聯(lián)合方法發(fā)展時(shí)間軸

    Miwa 等人[48]在2016年提出了一種基于序列和樹結(jié)構(gòu)的LSTMs 端到端模型進(jìn)行實(shí)體和關(guān)系聯(lián)合抽取.該模型在循環(huán)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上通過在雙向序列LSTM-RNNs 上疊加雙向樹結(jié)構(gòu)LSTM-RNNs 來同時(shí)捕獲字序列和依存樹子結(jié)構(gòu)信息,這允許模型在單個(gè)模型中使用共享參數(shù)共同表示實(shí)體和關(guān)系.Katiyar 等人[49]在2016年提出了基于雙向LSTMs的實(shí)體與關(guān)系聯(lián)合抽取模型.這是第一次嘗試使用深度學(xué)習(xí)方法處理完整的意見實(shí)體和關(guān)系抽取任務(wù).但該模型只能用于聯(lián)合抽取意見實(shí)體和IS-FROM和ISABOUT 關(guān)系,而無法用于抽取其他實(shí)體關(guān)系類型,不具有通用性.Katiyar 等人[50]為了解決上述問題,又在2017年提出了一種基于注意力機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò)模型,在不使用于任何依存樹信息的情況下進(jìn)行實(shí)體標(biāo)記和關(guān)系的聯(lián)合提取.Zheng 等人[51]在2017年提出了一種基于混合神經(jīng)網(wǎng)絡(luò)的實(shí)體與關(guān)系聯(lián)合抽取模型,可以在不需要任何人工特征的情況下提取實(shí)體及其語義關(guān)系.該模型包含一個(gè)用于命名實(shí)體識別的雙向編解碼模塊(BiLSTM-ED)和一個(gè)用于關(guān)系分類的CNN 模塊,可以用來捕獲實(shí)體標(biāo)簽之間的長距離關(guān)系.Zheng 等人[52]在2017年又提出了一種基于標(biāo)記方案的實(shí)體與關(guān)系聯(lián)合抽取模型(LSTM-LSTM-Bias).該模型設(shè)計(jì)了一種帶有端到端模型的標(biāo)記方案,其中包含實(shí)體及其所具有的關(guān)系的信息,從而將實(shí)體和關(guān)系的聯(lián)合抽取轉(zhuǎn)換為了標(biāo)記問題.Sun 等人[53]在2018年提出了一種基于最小風(fēng)險(xiǎn)訓(xùn)練(MRT)方法的輕量級實(shí)體與關(guān)系聯(lián)合抽取模型.基于MRT的方法的優(yōu)點(diǎn)是可以顯式地優(yōu)化全局句子級損失(如F1 值),而不是局部標(biāo)記級損失,從而模型可以在訓(xùn)練時(shí)間內(nèi)捕捉更多的句子級信息,在測試時(shí)間內(nèi)更好地匹配評價(jià)指標(biāo).Wang 等人[54]在2018年提出了一種基于圖形方案的實(shí)體與關(guān)系聯(lián)合抽取模型.該模型用直觀的圖形方案來共同表示實(shí)體和關(guān)系,從而將端到端的關(guān)系抽取很容易地轉(zhuǎn)換成類似解析的任務(wù).

    以上的實(shí)體與關(guān)系聯(lián)合抽取模型所采用的方法基本上可以分為兩大陣營,一種是以Miwa 等人[48]為代表基于參數(shù)共享的實(shí)體關(guān)系抽取方法,另外一種是以Zheng 等人[51]為代表基于序列標(biāo)注的實(shí)體關(guān)系抽取方法.基于參數(shù)共享的方法很好地緩解了流水線方法所帶來的錯(cuò)誤累積傳播問題以及兩個(gè)子過程間關(guān)系被忽視的問題.而基于序列標(biāo)注的方法在上兩個(gè)問題之外,還解決了流水線方法中的實(shí)體冗余的問題.

    4.4 基于弱監(jiān)督的方法

    基于有監(jiān)督學(xué)習(xí)的關(guān)系抽取方法需要大量有標(biāo)注的訓(xùn)練語料,而人工標(biāo)注這些語料則耗時(shí)耗力,尤其是面對海量非結(jié)構(gòu)化網(wǎng)絡(luò)數(shù)據(jù)時(shí),問題則更加突出.當(dāng)訓(xùn)練語料較少時(shí),則可以利用弱監(jiān)督學(xué)習(xí)方法來進(jìn)行關(guān)系抽取.弱監(jiān)督關(guān)系抽取主要包括基于遠(yuǎn)程監(jiān)督(distant supervision)的方法和基于Bootstrapping的方法.

    (1)基于遠(yuǎn)程監(jiān)督的方法

    遠(yuǎn)程監(jiān)督方法所基于的假設(shè)為:若兩個(gè)實(shí)體間存在某種關(guān)系,則所有包含這兩個(gè)實(shí)體的句子都可能以某種方式表達(dá)這種關(guān)系[5].該方法通過將非結(jié)構(gòu)化文本中的實(shí)體對與知識圖譜進(jìn)行對齊來自動(dòng)標(biāo)注訓(xùn)練樣本,以構(gòu)建大量的訓(xùn)練數(shù)據(jù),從而減少對人工的依賴,增強(qiáng)了模型的跨領(lǐng)域適應(yīng)能力.

    基于遠(yuǎn)程監(jiān)督的關(guān)系抽取典型方法如表4所示.

    表4 基于遠(yuǎn)程監(jiān)督的關(guān)系抽取典型方法對比

    ① 基于傳統(tǒng)特征的遠(yuǎn)程監(jiān)督方法

    基于傳統(tǒng)特征的遠(yuǎn)程監(jiān)督方法發(fā)展脈絡(luò)如圖7所示.Mintz 等人[5]在2009年首次將遠(yuǎn)程監(jiān)督的方法運(yùn)用到實(shí)體關(guān)系抽取任務(wù)中.該模型使用一個(gè)具有數(shù)千個(gè)關(guān)系的大型語義數(shù)據(jù)庫Freebase 來提供遠(yuǎn)程監(jiān)督,對于出現(xiàn)在Freebase 關(guān)系庫的每一對實(shí)體,在一個(gè)大的未標(biāo)記語料庫Wikipedia 中找出包含這些實(shí)體的所有句子,并提取文本特征以訓(xùn)練一個(gè)關(guān)系分類器.Riedel 等人[12]在2010年提出了一種基于無向圖模型和遠(yuǎn)程監(jiān)督框架的多實(shí)例學(xué)習(xí)模型來進(jìn)行關(guān)系抽取.該模型認(rèn)為Mintz 等人[5]先前的假設(shè)過于絕對,進(jìn)而提出了“at least one sentence”假設(shè),即如果將所有包含兩個(gè)相關(guān)實(shí)體的句子看成是一個(gè)包,那么這個(gè)包中至少有一個(gè)句子表達(dá)了相應(yīng)的關(guān)系.Hoffmann 等人[55]在2011年提出了一種可以處理多重關(guān)系的多實(shí)例學(xué)習(xí)概率圖模型MultiR 來進(jìn)行關(guān)系抽取.Mintz 及Riedel等人的模型假設(shè)實(shí)體間只存在一種關(guān)系,事實(shí)上部分實(shí)體間往往會(huì)存在多重關(guān)系.Surdeanu 等人[56]在2012年提出了一種多實(shí)例多標(biāo)簽學(xué)習(xí)模型MIML 用于關(guān)系抽取,認(rèn)為一個(gè)句子中一對實(shí)體所表達(dá)的關(guān)系是未知的,有可能有關(guān)系或根本沒有關(guān)系.該模型利用具有潛在變量的概率圖模型,將文本中含有實(shí)體對的所有實(shí)例及其所有關(guān)系標(biāo)簽聯(lián)合起來進(jìn)行建模.Takamatsu 等人[57]在2012年提出了一種減少使用遠(yuǎn)程監(jiān)督假設(shè)創(chuàng)建的錯(cuò)誤關(guān)系標(biāo)簽數(shù)量的方法.該模型直接模擬了遠(yuǎn)程監(jiān)督的啟發(fā)式標(biāo)記過程,并使用預(yù)測模式來判斷指定的關(guān)系標(biāo)簽是正確的還是錯(cuò)誤的.如果模式能夠成功預(yù)測關(guān)系標(biāo)簽,那么標(biāo)注樣本應(yīng)當(dāng)保留;如果不能,則標(biāo)注樣本應(yīng)該拋棄.

    圖7 基于傳統(tǒng)特征的遠(yuǎn)程監(jiān)督方法發(fā)展時(shí)間軸

    以上模型方法都是基于傳統(tǒng)特征的,然而傳統(tǒng)特征的設(shè)計(jì)周期相對較長,而且模型應(yīng)用范圍受限,擴(kuò)展性較差.同時(shí),在提取特征時(shí)會(huì)使用自然語言處理工具,導(dǎo)致誤差不斷向下傳播,進(jìn)而影響關(guān)系抽取的效果.

    ② 基于深度學(xué)習(xí)的遠(yuǎn)程監(jiān)督方法

    近年來,隨著深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的快速發(fā)展,目前基于深度學(xué)習(xí)的遠(yuǎn)程監(jiān)督方法相關(guān)研究已經(jīng)占據(jù)主導(dǎo)地位.基于深度學(xué)習(xí)的遠(yuǎn)程監(jiān)督方法發(fā)展脈絡(luò)如圖8所示.

    圖8 基于深度學(xué)習(xí)的遠(yuǎn)程監(jiān)督方法發(fā)展時(shí)間軸

    Zeng 等人[58]在2015年提出了一種多實(shí)例學(xué)習(xí)的分段卷積神經(jīng)網(wǎng)絡(luò)(PCNNs+MIL)關(guān)系抽取模型.該模型將遠(yuǎn)程監(jiān)督關(guān)系抽取問題看作是一個(gè)多實(shí)例問題,考慮了實(shí)例標(biāo)簽的不確定性;其無需復(fù)雜的NLP 預(yù)處理,而是采用了帶分段最大池化操作的卷積神經(jīng)網(wǎng)絡(luò)來自動(dòng)學(xué)習(xí)相關(guān)特征.Lin 等人[59]在2016年提出了一種基于句子級選擇性注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)(PCNN+ATT)關(guān)系抽取模型,是對Zeng 等人[58]模型的改進(jìn),主要還是解決遠(yuǎn)程監(jiān)督錯(cuò)誤標(biāo)注的問題.Jiang 等人[60]在2016年提出了一種多實(shí)例多標(biāo)簽卷積神經(jīng)網(wǎng)絡(luò)(MIMLCNN)關(guān)系抽取模型.該模型首先放寬了“至少一次表達(dá)”的假設(shè),并采用了跨句最大池化操作,以使信息可以在不同句子之間共享;然后,使用神經(jīng)網(wǎng)絡(luò)分類器通過多標(biāo)簽學(xué)習(xí)處理多重關(guān)系.Ji 等人[61]在2017年提出使用句子級注意力機(jī)制結(jié)合實(shí)體描述信息的遠(yuǎn)程監(jiān)督模型(APCNNs+D)進(jìn)行關(guān)系抽取.其中,注意力機(jī)制可以通過為有效實(shí)例分配較高的權(quán)重,為無效實(shí)例分配較低的權(quán)重,來選擇包中的多個(gè)有效實(shí)例;而實(shí)體描述信息可以提供更多背景知識.除此之外,Ren 等人[62]在2016年提出了一種聯(lián)合抽取模型(COTPYE)用于關(guān)系抽取,以解決將實(shí)體抽取和關(guān)系抽取兩項(xiàng)工作分別進(jìn)行所帶來的錯(cuò)誤累積傳播問題.Liu 等人[63]在2018年提出了一種基于語句內(nèi)降噪和遷移學(xué)習(xí)模型(BGRU+STP+EWA+TL)進(jìn)行關(guān)系抽取,通過建立子樹解析(STP)來去除與關(guān)系無關(guān)的噪聲詞,運(yùn)用實(shí)體注意力機(jī)制來識別每一個(gè)實(shí)例中關(guān)系詞的重要語義特征,通過轉(zhuǎn)移學(xué)習(xí)從實(shí)體分類的相關(guān)任務(wù)中學(xué)習(xí)先驗(yàn)知識使模型對噪聲具有更強(qiáng)的魯棒性.Vashishth等人[64]在2018年提出了一種基于邊信息的圖形卷積網(wǎng)絡(luò)(GCN)模型(RESIDE) 進(jìn)行關(guān)系抽取,一方面利用知識庫中的附加邊信息來改進(jìn)遠(yuǎn)程監(jiān)督關(guān)系提取,另一方面利用GCN 從文本中對語法信息進(jìn)行編碼.Xu 等人[65]在2019年提出了一種將語言和知識與異構(gòu)表示聯(lián)系起來以進(jìn)行神經(jīng)關(guān)系抽取的模型(HRERE),使用知識庫嵌入(KBE)進(jìn)行鏈路預(yù)測來改進(jìn)關(guān)系抽取,通過一個(gè)統(tǒng)一學(xué)習(xí)關(guān)系抽取和知識庫嵌入模型的框架幫助縮小差距,從而顯著提高關(guān)系抽取的效果.

    ③ 基于強(qiáng)化學(xué)習(xí)的遠(yuǎn)程監(jiān)督方法

    自從AlphaGo在圍棋領(lǐng)域打敗了人類專業(yè)棋手后,強(qiáng)化學(xué)習(xí)就進(jìn)入了眾多研究者的視野.將強(qiáng)化學(xué)習(xí)應(yīng)用到遠(yuǎn)程監(jiān)督關(guān)系抽取領(lǐng)域的研究也開始不斷出現(xiàn).

    Feng 等人[66]在2018年提出了一種使用強(qiáng)化學(xué)習(xí)框架來解決遠(yuǎn)程監(jiān)督關(guān)系抽取中噪聲的模型(CNN+RL).CNN+RL 模型主要用于在句子層面上降噪,由一個(gè)實(shí)例選擇器和一個(gè)關(guān)系分類器組成.實(shí)例選擇器為關(guān)系分類器選擇高質(zhì)量的句子,關(guān)系分類器在句子級別預(yù)測關(guān)系,并向選擇器提供獎(jiǎng)勵(lì),以作為監(jiān)督實(shí)例選擇過程的微弱信號.這將實(shí)例選擇實(shí)際轉(zhuǎn)化為了一個(gè)強(qiáng)化學(xué)習(xí)問題.Zeng 等人[67]同樣在2018年提出了使用強(qiáng)化學(xué)習(xí)方法在遠(yuǎn)程監(jiān)督數(shù)據(jù)集上進(jìn)行關(guān)系抽取的模型(PE+REINF).PE+REINF 模型遵循“至少表達(dá)一次”的假設(shè)來預(yù)測包關(guān)系,但從預(yù)測的角度重新表述:當(dāng)預(yù)測包的關(guān)系時(shí),當(dāng)且僅當(dāng)包中的所有句子都表示NA 關(guān)系(無關(guān)系)時(shí),包才是NA 關(guān)系,否則,包是用它的句子表示的真實(shí)關(guān)系.模型利用實(shí)體對的關(guān)系作為遠(yuǎn)程監(jiān)督,借助強(qiáng)化學(xué)習(xí)方法指導(dǎo)關(guān)系抽取器的訓(xùn)練.

    基于遠(yuǎn)程監(jiān)督的關(guān)系抽取方法作為弱監(jiān)督方法的一種,其優(yōu)點(diǎn)在于可以通過較低成本獲得大量訓(xùn)練數(shù)據(jù),克服了有監(jiān)督方法需要大量標(biāo)注數(shù)據(jù)的弊端,其在面對大量無標(biāo)注數(shù)據(jù)時(shí)會(huì)顯現(xiàn)出特有的優(yōu)勢,在一些缺乏標(biāo)注數(shù)據(jù)集的垂直領(lǐng)域中具有很好的應(yīng)用前景;其缺點(diǎn)在于當(dāng)所采用的知識庫不完備及有錯(cuò)誤標(biāo)注時(shí)會(huì)產(chǎn)生噪聲問題,將導(dǎo)致抽取效果比有監(jiān)督方法差很多,這給關(guān)系抽取準(zhǔn)確率的提升帶來了較大挑戰(zhàn).因此,在遠(yuǎn)程監(jiān)督關(guān)系抽取方法研究中,如何克服噪聲問題已成為研究關(guān)注的重點(diǎn).

    (2)基于Bootstrapping的方法

    自動(dòng)化模板抽取通常采用自舉法(Bootstrapping)算法來實(shí)現(xiàn),如圖9所示.針對某個(gè)特定類型的關(guān)系實(shí)例抽取任務(wù),自舉法的基本思想是:① 實(shí)體標(biāo)注,即為該關(guān)系類型標(biāo)注少量的初始種子實(shí)體對;② 句子查找,即找到實(shí)體對在數(shù)據(jù)集中所出現(xiàn)的句子集合;③ 模板提取,即基于上述句子集合提取表達(dá)關(guān)系的模板;④ 實(shí)例抽取,即使用經(jīng)篩選和評估后的新模板去數(shù)據(jù)集中抽取新的實(shí)體對.上述“模板提取+實(shí)例抽取”的過程循環(huán)迭代,直至不再發(fā)現(xiàn)新的關(guān)系實(shí)例.這個(gè)過程也被稱為“滾雪球(snowball)”[68].

    圖9 基于Bootstrapping的關(guān)系抽取流程

    基于自舉法的關(guān)系抽取方法得到了廣泛應(yīng)用,出現(xiàn)了很多具有代表性的系統(tǒng),主要有Brin 等人[6]在1998年提出的DIPRE (Dual Iterative Parttern Relation Expansion)抽取系統(tǒng),Agichtein 等人[69]在2000年提出的Snowball 抽取系統(tǒng),Etzioni 等人[70]在2005年提出的KnowItAll 抽取系統(tǒng),以及卡內(nèi)基梅隆大學(xué)(CMU)的Tom Mitchell 教授領(lǐng)導(dǎo)的團(tuán)隊(duì)在2010年開發(fā)的NELL (Never-Ending Language Learner) 抽取系統(tǒng)[71].

    自舉法的優(yōu)點(diǎn)是關(guān)系抽取系統(tǒng)構(gòu)建成本低,不需要過多的人工標(biāo)記數(shù)據(jù),適合大規(guī)模的關(guān)系抽取任務(wù).但是,自舉法也存在不足之處,包括對初始種子集較為敏感、存在語義漂移問題、抽取結(jié)果準(zhǔn)確率較低等.

    4.5 基于無監(jiān)督的方法

    無監(jiān)督關(guān)系抽取方法主要基于分布式假設(shè)理論:如果兩個(gè)詞語出現(xiàn)在相同上下文中且用法相似,那么它們意思相近.相應(yīng)的,在關(guān)系抽取任務(wù)中,具有相同語義關(guān)系的實(shí)體對也傾向于具有相似的上下文語境,其上下文可作為表征該語義關(guān)系的特征.該方法進(jìn)行關(guān)系抽取通常分為以下兩個(gè)步驟:第一步是實(shí)體對聚類,即采用某種聚類方法將語義相似度高的實(shí)體對聚為一類;第二步是關(guān)系標(biāo)記,即在上下方中選擇具有代表性的詞語來標(biāo)記這種關(guān)系.

    Hasegawa 等人[72]在2004年首次提出了一種基于無監(jiān)督的大型語料庫關(guān)系發(fā)現(xiàn)方法,其核心思想是根據(jù)命名實(shí)體之間上下文詞語的相似度對命名實(shí)體進(jìn)行聚類.Chen 等人[73]在2005年對Hasegawa 等人[72]的方法進(jìn)行了改進(jìn),該方法將每個(gè)實(shí)體對的上下文,而不是所有相同實(shí)體對的上下文,作為實(shí)體之間的語義關(guān)系特征.Rozenfeld 等人[74]在2006年提出了一種無監(jiān)督的關(guān)系識別和提取系統(tǒng)URIES,該系統(tǒng)使用一種基于模式的上下文表示來代替實(shí)體對的上下文,使關(guān)系抽取結(jié)果取得了較大提高.Shinyama 等人[75]在2006年提出了一種多層級聚類的無監(jiān)督關(guān)系抽取方法,該方法試圖在一個(gè)文檔中發(fā)現(xiàn)多個(gè)實(shí)體之間的并行對應(yīng)關(guān)系,并使用基本模式作為特征進(jìn)行聚類.Bollegala 等人[76]在2010年提出了一種用于針對Web 上實(shí)體對的無監(jiān)督關(guān)系抽取方法,該方法利用關(guān)系的對偶性,使用協(xié)同聚類來發(fā)現(xiàn)實(shí)體對及其關(guān)系模板的聚類簇,并從中選擇具有代表性的模板作為對應(yīng)的關(guān)系.Yao 等人[77]在2012年提出了一種基于語義消歧的無監(jiān)督關(guān)系發(fā)現(xiàn)方法,該方法使用主題模型將實(shí)體對及其對應(yīng)的關(guān)系模板分配到不同的語義類別上,然后再使用聚類方法將這些語義類別映射到語義關(guān)系上.Simon 等人[78]在2019年提出了一種具有關(guān)系分布損失的正則化判別方法來進(jìn)行無監(jiān)督信息抽取,該模型通過引入偏度損失函數(shù)和分布距離損失函數(shù)來提高判別模型的性能.Tran 等人[79]在2020年提出了一個(gè)簡單的無監(jiān)督關(guān)系抽取方法,該方法僅使用命名實(shí)體來推導(dǎo)關(guān)系類型,與現(xiàn)有方法相比可以獲得更好的性能.

    無監(jiān)督關(guān)系抽取方法的優(yōu)點(diǎn)是無需預(yù)先定義關(guān)系類型,并可以發(fā)現(xiàn)新的關(guān)系類型,適用領(lǐng)域范圍廣.但也存在缺點(diǎn),由于發(fā)現(xiàn)的關(guān)系往往是相似模板的聚類,因此關(guān)系往往不具有語義信息,很難被用來構(gòu)建知識庫.如果要得到具有語義信息的關(guān)系,需要人工方式添加語義信息或?qū)⑵渑c現(xiàn)有知識庫的關(guān)系進(jìn)行對齊.

    4.6 有監(jiān)督深度學(xué)習(xí)方法與遠(yuǎn)程監(jiān)督方法對比

    有監(jiān)督的深度學(xué)習(xí)關(guān)系抽取方法所采用的數(shù)據(jù)集規(guī)模一般相對較小,以人工標(biāo)為主,特點(diǎn)是噪聲小、準(zhǔn)確率高,但花費(fèi)成本較高;訓(xùn)練出的關(guān)系抽取模型抽取效果較好,但領(lǐng)域可遷移性較差.

    無監(jiān)督的遠(yuǎn)程監(jiān)督關(guān)系抽取方法的數(shù)據(jù)集主要采用遠(yuǎn)程知識庫方式,數(shù)據(jù)集規(guī)模較大,特點(diǎn)是噪聲大、準(zhǔn)確率低,但花費(fèi)成本較低;訓(xùn)練出的關(guān)系抽取模型抽取效果比有監(jiān)督的方法相比差一些,但領(lǐng)域可遷移性相對較好.

    有監(jiān)督深度學(xué)習(xí)方法與遠(yuǎn)程監(jiān)督方法對比具體如表5所示[80].

    表5 有監(jiān)督深度學(xué)習(xí)方法與遠(yuǎn)程監(jiān)督方法對比

    5 未來研究方向及應(yīng)用分析

    5.1 未來研究方向

    盡管關(guān)系抽取在近20年間已得到了學(xué)術(shù)界的廣泛關(guān)注和研究,各種關(guān)系抽取方法也在不斷地得到嘗試,但關(guān)系抽取在實(shí)際應(yīng)用過程中仍然面臨著很多挑戰(zhàn),從理論研究轉(zhuǎn)變?yōu)楣I(yè)實(shí)踐還有很長的路要走.下面對關(guān)系抽取的未來研究方法進(jìn)行分析和展望.

    (1)基于模板和深度學(xué)習(xí)相融合的關(guān)系抽取研究

    在早期的時(shí)候,基于模板的關(guān)系抽取方法研究得相對比較多.基于模板的關(guān)系抽取方法優(yōu)點(diǎn)是抽取準(zhǔn)確率比較高,但召回率較低.同時(shí),該方法還存在“完全匹配”或“硬匹配”問題,即無法應(yīng)用于語義相同而表述不同的短語中.而基于深度學(xué)習(xí)的關(guān)系抽取則能夠匹配表述不同而語義相近的短語.因此,如果能將兩者融合在一起,則有可能提高關(guān)系抽取的性能[81].

    (2)基于深度學(xué)習(xí)新進(jìn)展的關(guān)系抽取研究

    隨著前些年深度神經(jīng)網(wǎng)絡(luò)在其他領(lǐng)域的成熟應(yīng)用,學(xué)者們已將各種神經(jīng)網(wǎng)絡(luò)模型(如CNN、RNN)相互結(jié)合應(yīng)用于了關(guān)系抽取任務(wù)中,獲得了豐富的研究成果.近幾年,隨著強(qiáng)化學(xué)習(xí)[82,83]、生成對抗學(xué)習(xí)[84,85]、圖卷積神經(jīng)網(wǎng)絡(luò)[86,87]、預(yù)訓(xùn)練模型[88-90]等深度學(xué)習(xí)新技術(shù)的提出,又有很多學(xué)者開始研究如何將這些方法應(yīng)用于關(guān)系抽取中.因此,未來可以嘗試將這些新的深度學(xué)習(xí)技術(shù)應(yīng)用于關(guān)系抽取任務(wù)中,從而來提升關(guān)系抽取的效果.

    (3)段落級和篇章級的關(guān)系抽取研究

    如今的關(guān)系抽取研究大多集中在詞匯級和語句級層面,很少有學(xué)者將其擴(kuò)展到段落級和篇章級層面.而僅僅根據(jù)給定實(shí)體對和句子來抽取關(guān)系,往往會(huì)缺乏必要的背景知識,從而造成關(guān)系抽取的困難.如果能夠根據(jù)整個(gè)段落或篇章文字來獲取實(shí)體的背景知識,則有可能帶來實(shí)體關(guān)系抽取性能的大幅提升.因此,如何結(jié)合背景知識進(jìn)行聯(lián)合實(shí)體關(guān)系抽取以及進(jìn)行段落級、篇章級的聯(lián)合抽取研究具有重要的研究價(jià)值.

    (4)多元實(shí)體關(guān)系抽取研究

    目前文獻(xiàn)中關(guān)于關(guān)系抽取的研究,多數(shù)集中于從單一句子中抽取出二元關(guān)系.這些關(guān)系抽取模型基于的假設(shè)都是句子中給定的兩個(gè)標(biāo)注實(shí)體間只存在一種關(guān)系.而在實(shí)際生活中,我們所面對的句子中的實(shí)體對間存在著不止一種關(guān)系,三元甚至是多元關(guān)系.簡單的二元關(guān)系抽取模型已經(jīng)無法滿足現(xiàn)實(shí)任務(wù)的要求.因此,針對多元實(shí)體關(guān)系的抽取研究將具有重要的現(xiàn)實(shí)意義.

    5.2 應(yīng)用分析

    關(guān)系抽取作為信息抽取的一項(xiàng)重要內(nèi)容和知識圖譜構(gòu)建中的一個(gè)關(guān)鍵環(huán)節(jié),具有十分廣闊的應(yīng)用前景.具體應(yīng)用表現(xiàn)在以下幾個(gè)方面:

    (1)有助于深層自然語言理解

    目前的機(jī)器語言理解系統(tǒng)只能理解淺層次語言,在深層次語言理解上正確率較低、效果難以令人滿意.關(guān)系抽取作為句子、段落和篇章中關(guān)系內(nèi)容抽取的一項(xiàng)關(guān)鍵技術(shù),對文本中核心內(nèi)容的理解具有重要意義.因此,文本語義關(guān)系抽取的研究對實(shí)現(xiàn)機(jī)器真正理解人類語言具有重要推動(dòng)作用,對機(jī)器翻譯等自然語言處理領(lǐng)域的任務(wù)性能提升也將具有重要意義.

    (2)自動(dòng)構(gòu)建大規(guī)模知識圖譜

    當(dāng)前很多互聯(lián)網(wǎng)應(yīng)用都離不開底層通用知識圖譜和領(lǐng)域知識圖譜的支撐.如何有效利用互聯(lián)網(wǎng)上海量多源異構(gòu)數(shù)據(jù)以構(gòu)建大規(guī)模知識圖譜,則會(huì)對提升互聯(lián)網(wǎng)應(yīng)用性能起到重要作用.如果利用人工構(gòu)建知識圖譜特別是構(gòu)建領(lǐng)域知識圖譜的話,則將面臨構(gòu)建成本高、開發(fā)周期長、知識覆蓋率低和領(lǐng)域數(shù)據(jù)稀疏等一系列問題.利用關(guān)系抽取技術(shù)則可以很好地解決上述問題,根據(jù)需求自動(dòng)抽取結(jié)果以形成知識圖譜.

    (3)為其它應(yīng)用提供技術(shù)支持

    關(guān)系抽取對問答系統(tǒng)和信息檢索等具體應(yīng)用均可提供技術(shù)支持.在問答系統(tǒng)中,關(guān)鍵問題就是要構(gòu)建一個(gè)與領(lǐng)域無關(guān)的問答類型體系,而后找出與問答類型體系中每個(gè)問答類型相對應(yīng)的答案模式,這就需要關(guān)系抽取技術(shù)的支持.在信息檢索中,有了關(guān)系抽取技術(shù)的支持,可以構(gòu)建出大規(guī)模的知識圖譜,而后通過對檢索信息進(jìn)行關(guān)聯(lián)搜索和推理,可以為用戶提供更加智能化的檢索服務(wù).

    猜你喜歡
    實(shí)體語義遠(yuǎn)程
    讓人膽寒的“遠(yuǎn)程殺手”:彈道導(dǎo)彈
    軍事文摘(2022年20期)2023-01-10 07:18:38
    遠(yuǎn)程工作狂綜合征
    英語文摘(2021年11期)2021-12-31 03:25:18
    語言與語義
    前海自貿(mào)區(qū):金融服務(wù)實(shí)體
    中國外匯(2019年18期)2019-11-25 01:41:54
    遠(yuǎn)程詐騙
    實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
    兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
    振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
    “上”與“下”語義的不對稱性及其認(rèn)知闡釋
    認(rèn)知范疇模糊與語義模糊
    精品人妻在线不人妻| 精品国产国语对白av| 国产国拍精品亚洲av在线观看| 大片电影免费在线观看免费| 午夜免费鲁丝| 三级国产精品片| 亚洲精品一区蜜桃| 国产探花极品一区二区| 男女边摸边吃奶| 亚洲三级黄色毛片| 午夜视频国产福利| 精品人妻在线不人妻| 满18在线观看网站| 欧美日韩精品成人综合77777| 久久午夜综合久久蜜桃| av卡一久久| 秋霞在线观看毛片| 欧美97在线视频| 夫妻性生交免费视频一级片| 最新的欧美精品一区二区| 国产成人91sexporn| 男女国产视频网站| www日本在线高清视频| 蜜桃国产av成人99| 考比视频在线观看| 99精国产麻豆久久婷婷| 亚洲国产av影院在线观看| 人人澡人人妻人| 老司机亚洲免费影院| 亚洲av综合色区一区| 国产精品久久久av美女十八| 免费大片黄手机在线观看| 18在线观看网站| 国产欧美另类精品又又久久亚洲欧美| 亚洲色图综合在线观看| 三级国产精品片| 日本欧美视频一区| 免费高清在线观看日韩| 国产熟女午夜一区二区三区| 精品久久国产蜜桃| 最近手机中文字幕大全| 午夜精品国产一区二区电影| 久久av网站| 午夜福利在线观看免费完整高清在| 成年女人在线观看亚洲视频| 国产精品久久久久久久电影| 日韩精品有码人妻一区| 视频中文字幕在线观看| 亚洲五月色婷婷综合| 99久久人妻综合| 欧美人与善性xxx| 人成视频在线观看免费观看| 国产一区亚洲一区在线观看| 咕卡用的链子| 女的被弄到高潮叫床怎么办| 男女无遮挡免费网站观看| 久久国产精品大桥未久av| av播播在线观看一区| 日韩精品有码人妻一区| 91国产中文字幕| 欧美变态另类bdsm刘玥| 边亲边吃奶的免费视频| 国产成人精品一,二区| 青春草视频在线免费观看| 伦精品一区二区三区| 久久国产精品大桥未久av| 91午夜精品亚洲一区二区三区| 看非洲黑人一级黄片| 十分钟在线观看高清视频www| 欧美少妇被猛烈插入视频| 男女高潮啪啪啪动态图| 视频区图区小说| 汤姆久久久久久久影院中文字幕| 久久免费观看电影| 91aial.com中文字幕在线观看| 中文精品一卡2卡3卡4更新| 久久ye,这里只有精品| 久久影院123| 卡戴珊不雅视频在线播放| 卡戴珊不雅视频在线播放| 日韩欧美精品免费久久| 久久久久人妻精品一区果冻| 欧美少妇被猛烈插入视频| 人人妻人人添人人爽欧美一区卜| 一级a做视频免费观看| 2018国产大陆天天弄谢| 欧美精品国产亚洲| 国产日韩一区二区三区精品不卡| 久久99热这里只频精品6学生| 精品少妇内射三级| 免费看av在线观看网站| 欧美激情国产日韩精品一区| 国产精品偷伦视频观看了| 国国产精品蜜臀av免费| 欧美精品亚洲一区二区| 亚洲丝袜综合中文字幕| 成人毛片a级毛片在线播放| 99久久中文字幕三级久久日本| 亚洲精品国产色婷婷电影| 大香蕉97超碰在线| 国产成人精品一,二区| 欧美老熟妇乱子伦牲交| 日产精品乱码卡一卡2卡三| 色哟哟·www| 热99国产精品久久久久久7| 免费黄网站久久成人精品| 在线精品无人区一区二区三| 亚洲精品视频女| 2018国产大陆天天弄谢| av不卡在线播放| 国产一级毛片在线| 99re6热这里在线精品视频| 久久久久久久久久久久大奶| 色婷婷av一区二区三区视频| 黄色毛片三级朝国网站| 韩国精品一区二区三区 | 1024视频免费在线观看| 十分钟在线观看高清视频www| 黑人欧美特级aaaaaa片| 激情视频va一区二区三区| 国产午夜精品一二区理论片| 母亲3免费完整高清在线观看 | 18禁动态无遮挡网站| 亚洲,欧美精品.| 日产精品乱码卡一卡2卡三| 亚洲欧洲日产国产| 亚洲欧美一区二区三区国产| 国产成人精品一,二区| 久久人妻熟女aⅴ| av片东京热男人的天堂| 午夜福利影视在线免费观看| 精品人妻一区二区三区麻豆| 久久久久精品人妻al黑| 精品国产乱码久久久久久小说| 精品第一国产精品| 三级国产精品片| 中国美白少妇内射xxxbb| 久久久久久久久久久久大奶| 国产高清国产精品国产三级| 黄网站色视频无遮挡免费观看| 国产精品人妻久久久久久| 永久免费av网站大全| 免费不卡的大黄色大毛片视频在线观看| 美女福利国产在线| 国产深夜福利视频在线观看| 国产精品.久久久| 免费播放大片免费观看视频在线观看| 免费日韩欧美在线观看| 熟女av电影| 王馨瑶露胸无遮挡在线观看| 午夜福利视频在线观看免费| 91午夜精品亚洲一区二区三区| 夜夜骑夜夜射夜夜干| 国产欧美另类精品又又久久亚洲欧美| 久久久久久久久久人人人人人人| 亚洲少妇的诱惑av| 久久精品久久久久久久性| 日日摸夜夜添夜夜爱| 一本—道久久a久久精品蜜桃钙片| 永久网站在线| 黄片无遮挡物在线观看| 日产精品乱码卡一卡2卡三| 国产深夜福利视频在线观看| 一区二区三区四区激情视频| 国产男人的电影天堂91| 少妇的丰满在线观看| 一区在线观看完整版| 国产极品天堂在线| 亚洲精品自拍成人| 这个男人来自地球电影免费观看 | 久久精品久久久久久噜噜老黄| 亚洲av国产av综合av卡| 边亲边吃奶的免费视频| av免费观看日本| 国产精品无大码| 亚洲美女黄色视频免费看| 久久免费观看电影| av网站免费在线观看视频| 中文天堂在线官网| 中文天堂在线官网| 2022亚洲国产成人精品| 2022亚洲国产成人精品| 欧美亚洲 丝袜 人妻 在线| 国产黄频视频在线观看| 欧美日韩成人在线一区二区| 男人操女人黄网站| 草草在线视频免费看| 少妇人妻久久综合中文| 十分钟在线观看高清视频www| 精品一区二区免费观看| 成人国产麻豆网| av免费在线看不卡| 日本vs欧美在线观看视频| 丰满乱子伦码专区| 久久ye,这里只有精品| 久久热在线av| 美女福利国产在线| 欧美日韩国产mv在线观看视频| 高清黄色对白视频在线免费看| 纯流量卡能插随身wifi吗| 亚洲图色成人| 日本91视频免费播放| 久久狼人影院| 熟女av电影| 精品酒店卫生间| 大陆偷拍与自拍| 国产白丝娇喘喷水9色精品| 岛国毛片在线播放| 精品人妻熟女毛片av久久网站| 性高湖久久久久久久久免费观看| av有码第一页| 精品国产露脸久久av麻豆| 亚洲一码二码三码区别大吗| 美女大奶头黄色视频| 日韩精品有码人妻一区| 99热网站在线观看| 日本色播在线视频| 美女主播在线视频| 亚洲国产精品专区欧美| 国产一区亚洲一区在线观看| 午夜免费鲁丝| av国产久精品久网站免费入址| 五月天丁香电影| 国产69精品久久久久777片| 大香蕉97超碰在线| 一边摸一边做爽爽视频免费| 久久人人爽人人片av| 久久久久久人人人人人| 亚洲人成网站在线观看播放| 精品人妻熟女毛片av久久网站| 国产女主播在线喷水免费视频网站| 只有这里有精品99| 最黄视频免费看| 国产国拍精品亚洲av在线观看| 国产精品一区二区在线不卡| 天美传媒精品一区二区| 久久99热这里只频精品6学生| 日日摸夜夜添夜夜爱| 日本欧美国产在线视频| 秋霞在线观看毛片| 欧美xxxx性猛交bbbb| 久久精品久久久久久久性| 亚洲图色成人| 蜜桃在线观看..| 亚洲久久久国产精品| 黑丝袜美女国产一区| 日产精品乱码卡一卡2卡三| 日日撸夜夜添| 欧美国产精品一级二级三级| 一二三四中文在线观看免费高清| 最近的中文字幕免费完整| 欧美精品高潮呻吟av久久| 18禁国产床啪视频网站| 大陆偷拍与自拍| 91aial.com中文字幕在线观看| 一级毛片 在线播放| 国产综合精华液| 女性被躁到高潮视频| 亚洲成人一二三区av| 晚上一个人看的免费电影| 成年女人在线观看亚洲视频| 大香蕉久久网| 免费av不卡在线播放| 久久人妻熟女aⅴ| 91精品三级在线观看| 亚洲av国产av综合av卡| 亚洲国产av新网站| 成人国产av品久久久| xxxhd国产人妻xxx| 麻豆精品久久久久久蜜桃| 欧美激情 高清一区二区三区| 免费观看a级毛片全部| 美女福利国产在线| 一级爰片在线观看| 男女下面插进去视频免费观看 | 三上悠亚av全集在线观看| 宅男免费午夜| 免费高清在线观看视频在线观看| 校园人妻丝袜中文字幕| 成人二区视频| 久久国产精品大桥未久av| 亚洲精品色激情综合| 亚洲四区av| 男人添女人高潮全过程视频| 久久免费观看电影| 久久ye,这里只有精品| 狠狠精品人妻久久久久久综合| 亚洲经典国产精华液单| 亚洲美女黄色视频免费看| 18禁裸乳无遮挡动漫免费视频| 久久国产亚洲av麻豆专区| 美女国产高潮福利片在线看| 婷婷色av中文字幕| 欧美97在线视频| www.av在线官网国产| 日韩av不卡免费在线播放| 久久久久久伊人网av| 国产精品三级大全| 91精品国产国语对白视频| 欧美3d第一页| 两个人免费观看高清视频| 插逼视频在线观看| 欧美亚洲 丝袜 人妻 在线| 亚洲综合色网址| 精品国产国语对白av| 久久精品久久久久久久性| 国产又爽黄色视频| 五月开心婷婷网| 黄片播放在线免费| 大片免费播放器 马上看| 青春草国产在线视频| 国产精品麻豆人妻色哟哟久久| 色94色欧美一区二区| 国产精品无大码| 黄色怎么调成土黄色| 亚洲人与动物交配视频| 亚洲精华国产精华液的使用体验| 天天躁夜夜躁狠狠久久av| 免费不卡的大黄色大毛片视频在线观看| 色婷婷久久久亚洲欧美| 在线观看人妻少妇| 成人毛片a级毛片在线播放| 精品第一国产精品| 久久99热6这里只有精品| 99国产精品免费福利视频| 69精品国产乱码久久久| 精品国产国语对白av| 国产色婷婷99| 国产永久视频网站| 国产成人免费无遮挡视频| 久久人人爽人人片av| 黄色一级大片看看| 欧美日韩视频精品一区| 青青草视频在线视频观看| 亚洲av免费高清在线观看| 97精品久久久久久久久久精品| 精品一品国产午夜福利视频| 久久99一区二区三区| 五月玫瑰六月丁香| 欧美日韩av久久| 色5月婷婷丁香| 欧美xxⅹ黑人| 亚洲欧洲国产日韩| 亚洲内射少妇av| 日韩一区二区三区影片| 90打野战视频偷拍视频| 国产极品粉嫩免费观看在线| 美女福利国产在线| 午夜免费观看性视频| 精品少妇黑人巨大在线播放| 日韩av在线免费看完整版不卡| 国产精品秋霞免费鲁丝片| 国产精品人妻久久久影院| 午夜福利视频精品| 欧美成人精品欧美一级黄| 不卡视频在线观看欧美| 日韩制服骚丝袜av| 久久午夜福利片| 精品亚洲成a人片在线观看| 高清视频免费观看一区二区| 日本黄色日本黄色录像| 午夜av观看不卡| 91精品伊人久久大香线蕉| 女的被弄到高潮叫床怎么办| 欧美激情 高清一区二区三区| av免费观看日本| 一本久久精品| 国产精品久久久久久久久免| 日韩av不卡免费在线播放| 99久久精品国产国产毛片| 中国美白少妇内射xxxbb| 亚洲美女黄色视频免费看| 热re99久久国产66热| 国产高清三级在线| 久久久久久久久久久久大奶| 综合色丁香网| 新久久久久国产一级毛片| 永久网站在线| 国产成人免费观看mmmm| 国产成人免费无遮挡视频| 一个人免费看片子| 亚洲精品自拍成人| 亚洲av电影在线观看一区二区三区| 99热这里只有是精品在线观看| 国产成人午夜福利电影在线观看| 婷婷色综合大香蕉| 国语对白做爰xxxⅹ性视频网站| 乱码一卡2卡4卡精品| 欧美最新免费一区二区三区| 精品一区在线观看国产| 亚洲精品中文字幕在线视频| 最近中文字幕2019免费版| 九色成人免费人妻av| 最近手机中文字幕大全| 老女人水多毛片| 日韩熟女老妇一区二区性免费视频| 亚洲av成人精品一二三区| www日本在线高清视频| 精品少妇黑人巨大在线播放| 视频区图区小说| 一二三四在线观看免费中文在 | 亚洲人成网站在线观看播放| 欧美精品一区二区大全| 男女边吃奶边做爰视频| 黄网站色视频无遮挡免费观看| 午夜福利,免费看| 中文字幕人妻熟女乱码| 美女内射精品一级片tv| 男女午夜视频在线观看 | av在线播放精品| 国产亚洲精品第一综合不卡 | 人人妻人人添人人爽欧美一区卜| 欧美日韩av久久| 看十八女毛片水多多多| 国产一区亚洲一区在线观看| 人妻少妇偷人精品九色| 伊人久久国产一区二区| 美女脱内裤让男人舔精品视频| 日日撸夜夜添| 亚洲四区av| 美女中出高潮动态图| 欧美亚洲 丝袜 人妻 在线| 在线观看美女被高潮喷水网站| 性色av一级| 在线天堂中文资源库| 精品国产一区二区久久| 9191精品国产免费久久| 少妇精品久久久久久久| 男的添女的下面高潮视频| 国产亚洲最大av| 丰满饥渴人妻一区二区三| 久久久久久久久久人人人人人人| 99久久中文字幕三级久久日本| 九色亚洲精品在线播放| 成年人免费黄色播放视频| av天堂久久9| 日本91视频免费播放| av免费观看日本| 久久久久国产精品人妻一区二区| 看十八女毛片水多多多| 国产精品一国产av| 日韩成人av中文字幕在线观看| 国产无遮挡羞羞视频在线观看| 蜜桃国产av成人99| 美女中出高潮动态图| 久久免费观看电影| 国产国拍精品亚洲av在线观看| 精品99又大又爽又粗少妇毛片| 天天操日日干夜夜撸| 国产成人免费无遮挡视频| 国产精品人妻久久久久久| 久久久久精品久久久久真实原创| 国产精品嫩草影院av在线观看| 人妻 亚洲 视频| 国产欧美日韩综合在线一区二区| 国内精品宾馆在线| 熟女av电影| 大片电影免费在线观看免费| 亚洲av综合色区一区| 肉色欧美久久久久久久蜜桃| 黑人欧美特级aaaaaa片| 午夜福利乱码中文字幕| www.色视频.com| 999精品在线视频| 日韩av不卡免费在线播放| 久久国产亚洲av麻豆专区| 日韩视频在线欧美| 男人操女人黄网站| 亚洲精品国产av成人精品| 亚洲成av片中文字幕在线观看 | 丁香六月天网| 两性夫妻黄色片 | 建设人人有责人人尽责人人享有的| 欧美日韩一区二区视频在线观看视频在线| 欧美性感艳星| 久久久久久人妻| 亚洲激情五月婷婷啪啪| 黄色毛片三级朝国网站| 国产免费又黄又爽又色| 最新中文字幕久久久久| 黄网站色视频无遮挡免费观看| 久久久久久久久久人人人人人人| 搡老乐熟女国产| 国产高清三级在线| 汤姆久久久久久久影院中文字幕| 91精品国产国语对白视频| 久久婷婷青草| 国产极品粉嫩免费观看在线| 黄色视频在线播放观看不卡| 午夜福利,免费看| 少妇人妻久久综合中文| 三级国产精品片| 免费观看在线日韩| 久久99热这里只频精品6学生| 国产又爽黄色视频| 亚洲欧美成人综合另类久久久| 美女国产高潮福利片在线看| 大香蕉久久网| 成人影院久久| 久久久a久久爽久久v久久| 免费在线观看黄色视频的| 九色亚洲精品在线播放| 久久久国产精品麻豆| 国产男女内射视频| 狠狠精品人妻久久久久久综合| 天天操日日干夜夜撸| 高清不卡的av网站| 考比视频在线观看| 久久精品国产自在天天线| 最近2019中文字幕mv第一页| 在线天堂中文资源库| 久久久久人妻精品一区果冻| 精品人妻在线不人妻| 中文精品一卡2卡3卡4更新| 乱人伦中国视频| 观看av在线不卡| 麻豆乱淫一区二区| 性高湖久久久久久久久免费观看| 人人澡人人妻人| 一区二区日韩欧美中文字幕 | 久久97久久精品| 久久毛片免费看一区二区三区| 亚洲国产精品专区欧美| 久久99热6这里只有精品| 在线看a的网站| videossex国产| 亚洲av电影在线进入| 久久午夜福利片| 伦理电影大哥的女人| 青青草视频在线视频观看| 欧美变态另类bdsm刘玥| 精品午夜福利在线看| 97在线人人人人妻| 国产黄频视频在线观看| 一二三四在线观看免费中文在 | 日韩精品有码人妻一区| 国产成人欧美| 亚洲熟女精品中文字幕| 韩国高清视频一区二区三区| 国产黄色免费在线视频| 欧美日韩av久久| 你懂的网址亚洲精品在线观看| 99久久综合免费| 不卡视频在线观看欧美| 免费久久久久久久精品成人欧美视频 | 免费在线观看黄色视频的| 久热久热在线精品观看| 国产精品一国产av| 激情视频va一区二区三区| 久久免费观看电影| 欧美日韩av久久| 最近最新中文字幕大全免费视频 | 毛片一级片免费看久久久久| 久久久久国产网址| 欧美精品av麻豆av| 成人综合一区亚洲| 成人国语在线视频| 国产亚洲av片在线观看秒播厂| 国产精品秋霞免费鲁丝片| 韩国精品一区二区三区 | 亚洲成人一二三区av| 亚洲精品,欧美精品| 妹子高潮喷水视频| 日韩中字成人| 欧美亚洲日本最大视频资源| 久久99蜜桃精品久久| 久久人人爽人人片av| 国产精品国产三级专区第一集| 免费看av在线观看网站| 成人手机av| 丝袜在线中文字幕| 免费高清在线观看视频在线观看| 午夜激情av网站| av网站免费在线观看视频| 成年人午夜在线观看视频| 最近最新中文字幕大全免费视频 | 麻豆精品久久久久久蜜桃| 亚洲av中文av极速乱| 国产片特级美女逼逼视频| 日本黄大片高清| 9热在线视频观看99| 免费女性裸体啪啪无遮挡网站| 老司机亚洲免费影院| 边亲边吃奶的免费视频| 侵犯人妻中文字幕一二三四区| 亚洲精品视频女| 麻豆精品久久久久久蜜桃| 婷婷色麻豆天堂久久| a级毛片黄视频| 22中文网久久字幕| a级毛片黄视频| a级毛片在线看网站| 亚洲国产精品成人久久小说| 国产免费一级a男人的天堂| 9热在线视频观看99| 美女大奶头黄色视频| 99热6这里只有精品| 蜜臀久久99精品久久宅男| 人妻系列 视频| 欧美日韩视频精品一区| 亚洲精品456在线播放app| 香蕉国产在线看| 晚上一个人看的免费电影| 久久精品国产自在天天线| 久久精品国产亚洲av天美| 国产一区二区在线观看av| 国产免费又黄又爽又色| 欧美精品av麻豆av| 欧美+日韩+精品| 中文字幕av电影在线播放| 国产免费现黄频在线看| 嫩草影院入口| 肉色欧美久久久久久久蜜桃| 美女国产高潮福利片在线看| 久久99精品国语久久久|