• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于遠程監(jiān)督的關(guān)系抽取技術(shù)

    2020-12-07 05:57:31王嘉寧何怡朱仁煜劉婷婷高明
    關(guān)鍵詞:自然語言處理知識圖譜

    王嘉寧 何怡 朱仁煜 劉婷婷 高明

    摘要:關(guān)系抽取作為一種經(jīng)典的自然語言處理任務(wù),廣泛應(yīng)用于知識圖譜的構(gòu)建與補全、知識庫問答和文本摘要等領(lǐng)域,旨在抽取目標(biāo)實體對之間的語義關(guān)系。為了能夠高效地構(gòu)建大規(guī)模監(jiān)督語料,基于遠程監(jiān)督的關(guān)系抽取方法被提出,通過將文本與現(xiàn)有知識庫進行對齊來實現(xiàn)自動標(biāo)注。然而由于過強的假設(shè)使得其面臨諸多挑戰(zhàn),從而吸引了研究者們的關(guān)注。本文首先介紹遠程監(jiān)督關(guān)系抽取的概念和形式化描述,其次從噪聲、信息匱乏以及非均衡3個方面對比分析相關(guān)方法及其優(yōu)缺點,接著對評估數(shù)據(jù)集以及評測指標(biāo)進行了解釋和對比分析,最后探討了遠程監(jiān)督關(guān)系抽取面對的新的挑戰(zhàn)以及未來發(fā)展趨勢,并在最后做出總結(jié)。

    關(guān)鍵詞:關(guān)系抽?。哼h程監(jiān)督;自然語言處理;知識圖譜;噪聲處理

    中圖分類號:TP311 文獻標(biāo)志碼:A DOI:10.3969/j.issn。1000-5641.202091006

    0引言

    隨著計算機技術(shù)的發(fā)展和Web數(shù)據(jù)的日益激增,如何從這些海量數(shù)據(jù)中獲取有效的信息成為當(dāng)前的研究熱點。信息抽取作為一種經(jīng)典的自然語言處理任務(wù),其主要目標(biāo)是從半結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù)中提取結(jié)構(gòu)化的語義信息,是構(gòu)建豐富的結(jié)構(gòu)化知識庫的核心部分。關(guān)系抽取是信息抽取的一個關(guān)鍵步驟,其建立在給定的已知實體對和文本描述基礎(chǔ)上,挖掘?qū)嶓w對之間的語義關(guān)系,形成由實體、關(guān)系、實體組成的三元組,因此關(guān)系抽取通常應(yīng)用在知識圖譜構(gòu)建與補全(Knowledge GraphConstruction and Completion)、知識庫問答(Knowledge Base Question Answering)和文本摘要(TextSummarization)等領(lǐng)域。

    關(guān)系抽取主要分為兩大類,一種是以無監(jiān)督為主的自動抽?。ˋuto Extraction),另一種是以有監(jiān)督或半監(jiān)督為主的關(guān)系分類(Relation Classification)。前者通常在沒有確定關(guān)系標(biāo)簽的條件下,根據(jù)語料的句法或語義結(jié)構(gòu)自動地從文本中提取可以描述對應(yīng)關(guān)系的詞匯或短語。例如,我們可以從句子“南京是江蘇省的省會城市”中根據(jù)句法結(jié)構(gòu)自動提取出實體“南京”和“江蘇省”的關(guān)系是“省會城市”。Hasegawa和Oren等人提出了一些在無監(jiān)督條件下自動從文本中抽取語義關(guān)系的方法。后者通常將關(guān)系抽取視為一種分類任務(wù),即事先預(yù)定義有限個關(guān)系標(biāo)簽,并對語料進行人工標(biāo)注。有監(jiān)督的關(guān)系分類主要方法是對實體和文本通過特征工程或表征學(xué)習(xí)來提取句法或語義信息,并通過分類器完成對關(guān)系的分類。由于有監(jiān)督關(guān)系分類依賴于標(biāo)注語料的質(zhì)量和數(shù)量,而人工標(biāo)注語料的成本高、效率低,半監(jiān)督或弱監(jiān)督的關(guān)系抽取成為研究的熱點。如Kumlien提出了一種弱監(jiān)督學(xué)習(xí)方法來從文本中提取結(jié)構(gòu)化的語義關(guān)系。

    基于遠程監(jiān)督的關(guān)系抽取方法(Distant Supervision Relation Extraction,DSRE)是由Mintz提出的一種弱監(jiān)督學(xué)習(xí)方法,其主要思想是通過將大量的無標(biāo)注語料與現(xiàn)有的知識庫進行對齊,從而快速地構(gòu)建大規(guī)模監(jiān)督語料。圖1給出一個知識庫對齊的示例如知識庫中存在兩個實體SteveJobs和Apple時,如果語料中存在這兩個實體,則這些語料是與這兩個實體對齊的。遠程監(jiān)督方法因其構(gòu)建語料效率高、成本低的原因吸引了國內(nèi)外研究者們的關(guān)注。例如,楊等人利用遠程監(jiān)督方法自動構(gòu)建初等數(shù)學(xué)語料并實現(xiàn)知識點的關(guān)系提取;Riedel通過獲取紐約時報(New York Times,NYT)新聞?wù)Z料并與知識庫Freebase對齊形成NYT數(shù)據(jù)集;Jar等通過與谷歌Web數(shù)據(jù)庫對齊制作了GDS(Google-IISc Distant Supervision)語料;Han等通過遠程監(jiān)督方法構(gòu)建了用于驗證少樣本學(xué)習(xí)的FewRel數(shù)據(jù)集。

    雖然遠程監(jiān)督可以解決語料的數(shù)量問題,但并不能保證語料的質(zhì)量,因為遠程監(jiān)督方法基于一個假設(shè):如果兩個實體在知識庫中具有某種關(guān)系,任意一個包含這兩個實體的文本都描述了這種關(guān)系。而這一假設(shè)往往是不成立的,從而導(dǎo)致產(chǎn)生的語料中存在大量的錯誤標(biāo)簽。因此,為了避免這一假設(shè)對關(guān)系抽取性能的影響,如今有諸多工作嘗試解決如何在含有大量噪聲的語料中去學(xué)習(xí)真實的實體對關(guān)系然而在實際訓(xùn)練過程中,除了噪聲對模型會產(chǎn)生影響外,研究者們還發(fā)現(xiàn)由于知識庫不充分,部分實體對得不到充分的訓(xùn)練,且每個標(biāo)簽對應(yīng)的樣本嚴(yán)重不均衡,這些客觀存在的問題無不影響遠程監(jiān)督關(guān)系抽取模型的性能,使得如今模型的測試效果非常低。因此結(jié)合近年來的研究工作,本文認為遠程監(jiān)督關(guān)系抽取面臨的3個最大挑戰(zhàn)是:

    (1)噪聲。主要體現(xiàn)在被標(biāo)注的樣本標(biāo)簽與實際文本語義關(guān)系不匹配,導(dǎo)致產(chǎn)生大量的錯誤正樣本(False Positive)。

    (2)信息匱乏。由于知識庫是不完善的,遠程監(jiān)督語料缺乏充分的語義信息來有效提升關(guān)系抽取的效果。與此同時還導(dǎo)致大量的樣本被標(biāo)注為無關(guān)(False Negative)。

    (3)非均衡。非均衡是指關(guān)系標(biāo)簽對應(yīng)的樣本數(shù)量不均衡問題,主要體現(xiàn)在少部分的標(biāo)簽對應(yīng)的樣本數(shù)量多,而絕大多數(shù)的標(biāo)簽對應(yīng)的樣本數(shù)量很少,因此也稱作二八定律、馬太效應(yīng)或長尾問題。

    不同于現(xiàn)有一些調(diào)研工作僅從方法角度進行分析,本文將以上述提到的3個研究挑戰(zhàn)為出發(fā)點,重點討論當(dāng)前基于遠程監(jiān)督的關(guān)系抽取方法是如何應(yīng)對這些挑戰(zhàn)的。

    本文第1節(jié)將介紹遠程監(jiān)督關(guān)系抽取的相關(guān)定義和問題描述;第2節(jié)將從應(yīng)對噪聲問題、緩解信息匱乏問題和解決非均衡問題3個方向介紹相關(guān)研究工作,并引出規(guī)則統(tǒng)計、多示例學(xué)習(xí)、對抗與強化學(xué)習(xí)、輔助信息增強、聯(lián)合學(xué)習(xí)和少樣本學(xué)習(xí)等技術(shù);第3節(jié)將介紹遠程監(jiān)督關(guān)系抽取的評估數(shù)據(jù)集和評測指標(biāo);第4節(jié)將介紹一些新的研究挑戰(zhàn)和未來發(fā)展趨勢;第5節(jié)進行總結(jié)。

    1基本概念與任務(wù)描述

    1.1概念定義

    關(guān)系抽取是非常重要的自然語言處理任務(wù)之一,與命名實體識別、實體屬性抽取、知識推理等構(gòu)成知識圖譜構(gòu)建的核心步驟。關(guān)系抽取旨在從包含兩個目標(biāo)實體的非結(jié)構(gòu)化文本中預(yù)測它們之間的語義關(guān)系因此關(guān)系抽取任務(wù)可以建模成多分類問題。為避免標(biāo)注訓(xùn)練數(shù)據(jù),遠程監(jiān)督基于給定的知識庫實現(xiàn)目標(biāo)實體對與非結(jié)構(gòu)化文本的對齊,從而構(gòu)建多分類模型的訓(xùn)練數(shù)據(jù)集。其中一些基本概念的定義如下:

    (1)目標(biāo)實體對(Target Entity Pair)實體是對抽象世界的描述,它是描述客觀事物的名詞或短語,對應(yīng)于知識庫中則是相互獨立的節(jié)點。目標(biāo)實體對則是由兩個不同的實體組成的元組,通常這兩個實體是有順序的,第一個實體被稱為頭實體(Head Entity),第二個實體被稱為尾實體(Tail Entity),分別可用h,t表示。

    (2)關(guān)系(Relation)關(guān)系是頭實體與尾實體間語義聯(lián)系的描述,在知識庫中通常以邊的形式存在,可以用r表示。關(guān)系可以分為有向關(guān)系和無向關(guān)系。有向關(guān)系是描述頭實體到尾實體的方位關(guān)系,如上下位、IsA、PlaceOfl3irth等;如果是無向關(guān)系,則頭尾實體通常是等價的,如Equal、Friend。

    通常關(guān)系抽取被視為句子級別分類任務(wù),然而因為遠程監(jiān)督方法是以實體對為基礎(chǔ)與文本進行對齊的,因此也有人認為遠程監(jiān)督關(guān)系抽取應(yīng)為一種多示例學(xué)習(xí)任務(wù)。本文以多示例學(xué)習(xí)為例給出如下基于遠程監(jiān)督的關(guān)系抽取的形式化描述。

    2遠程監(jiān)督關(guān)系抽取研究問題與相關(guān)方法

    現(xiàn)階段基于遠程監(jiān)督的關(guān)系抽取工作從問題解決角度可分為3類:①應(yīng)對錯誤標(biāo)注所產(chǎn)生的噪聲問題;②緩解因知識庫不全和數(shù)據(jù)缺乏導(dǎo)致的信息匱乏問題;③解決語料不均衡帶來的長尾問題。其中第1類是自遠程監(jiān)督方法提出以來一直被關(guān)注的問題,形成了基于規(guī)則統(tǒng)計方法、多示例學(xué)習(xí)、對抗與強化學(xué)習(xí)等技術(shù)。后兩類是最近被關(guān)注的新問題,主要對應(yīng)于輔助信息增強、聯(lián)合學(xué)習(xí)和少樣本學(xué)習(xí)等技術(shù)。本節(jié)分別介紹這3個方面的研究技術(shù)現(xiàn)狀。表1整理了針對3類挑戰(zhàn)的相關(guān)研究方法。

    2.1應(yīng)對噪聲問題

    在機器學(xué)習(xí)與自然語言處理領(lǐng)域中,噪聲是指真實標(biāo)簽與被標(biāo)注標(biāo)簽不一致的樣本。在基于遠程監(jiān)督的關(guān)系抽取任務(wù)中,因為過強的假設(shè)使得許多包含在訓(xùn)練數(shù)據(jù)中的句子并不能真實描述目標(biāo)實體對間的關(guān)系,導(dǎo)致產(chǎn)生大量的假正例(False Positive)和假負例(False Negative)。例如,知識庫中存在一個三元組(Obama,PlaceOFBirth,US。),那么與文本對齊后的結(jié)果如表2所示,可知只有第一個句子能夠表達PlaceOj留irth的關(guān)系,而另外4個句子都屬于噪聲。由于對齊的語料沒有標(biāo)注是否為噪聲,因此如何在關(guān)系抽取的過程中識別出噪聲成為一個研究難題。如今降噪的技術(shù)主要有基于規(guī)則統(tǒng)計、基于多示例學(xué)習(xí)和基于對抗與強化學(xué)習(xí)等幾大類。

    2.1.1規(guī)則統(tǒng)計方法

    規(guī)則統(tǒng)計方法旨在通過挖掘?qū)嶓w對與關(guān)系之間的規(guī)則聯(lián)系,代表方法有核方法與依存關(guān)系、概率圖模型、矩陣補全等。

    Zelenko提出一種基于核方法和依存關(guān)系的關(guān)系抽取。其通過使用依存關(guān)系方法將文本解析為語法樹,并定義了一種基于語法樹的節(jié)點相似匹配核函數(shù),使用支持向量機(support Vector Machine,SVM)算法進行多類分類。該方法在提出時達到了最優(yōu)效果,但并未考慮如何解決噪聲問題。

    Riedel提出一種基于概率圖的方法,為每個句子分配一個隱變量表示該句子是否是噪聲,其將關(guān)系抽取視為一種對隱變量的賦值任務(wù)。Takamatsu在此基礎(chǔ)上進行了改進,提出一種概率生成模型來模擬遠程監(jiān)督方法的啟發(fā)式標(biāo)記過程。該模型也通過隱變量來預(yù)測標(biāo)簽是否正確。

    Fan等人則提出一種基于矩陣補全的方法,通過將訓(xùn)練集的特征、標(biāo)簽和測試集的特征按照特征組合成分塊矩陣,剩余的一塊則是測試集未知的標(biāo)簽矩陣,因此其提出一種基于矩陣的秩最小化和核范數(shù)最小化的矩陣補全方法來預(yù)測未知標(biāo)簽。Zhang則對Fan提出的方法做出了改進,使用基于無參貝葉斯進行訓(xùn)練,避免了大量調(diào)參。雖然矩陣補全可以有效地在含有噪聲的語料中預(yù)測關(guān)系,但不適用于大規(guī)模數(shù)據(jù),且當(dāng)新來數(shù)據(jù)時必須重構(gòu)矩陣。

    基于規(guī)則統(tǒng)計的方法可以挖掘出實體間顯式的結(jié)構(gòu)信息,同時對關(guān)系的提取具有可解釋性。又因為該類大部分方法通常不需要訓(xùn)練的過程,所以對時間和空間復(fù)雜度要求低。但其過度依賴于大量的特征工程使得分類效果差,泛化能力低。

    2.1.2多示例學(xué)習(xí)

    多示例學(xué)習(xí)(Multi-Instance Learning,MIL)方法是目前遠程監(jiān)督關(guān)系抽取的主流方法之一,其基本思想是將相同的實體對對齊的文本組成一個包(或稱為句袋),并以包為單位進行預(yù)測。按照預(yù)測方法,可分為錯誤標(biāo)簽預(yù)測、至少一個假設(shè)和注意力機制。

    (1)錯誤標(biāo)簽預(yù)測(Wrong Label Prediction)

    旨在通過捕捉包及包內(nèi)句子與標(biāo)簽的語義相關(guān)性來直接預(yù)測是否是噪聲。

    Hoffmann提出一種經(jīng)典的多示例學(xué)習(xí)方法——MultiR,其為每個句子分配與關(guān)系數(shù)量相等的隱變量,并分別進行錯誤標(biāo)簽預(yù)測。MultiR方法是通過對包內(nèi)句子預(yù)測結(jié)果取并集來表示每個包的預(yù)測結(jié)果,其采用類似于感知機的模型來學(xué)習(xí)參數(shù)。Surdeanu則在MultiR方法的基礎(chǔ)上做出改進,提出一種新的多示例多標(biāo)記MIML方法其基本思路是通過模型捕捉包與不同標(biāo)簽的相關(guān)性進行預(yù)測,不同于MultiR方法,其依然采用基于概率統(tǒng)計的貝葉斯模型學(xué)習(xí)參數(shù),在準(zhǔn)確率與時空復(fù)雜度上都優(yōu)于MultiR方法。

    Min和Xu等人發(fā)現(xiàn)由于知識庫不全以及噪聲原因產(chǎn)生了大量的假負例(False Negative)數(shù)據(jù)。其通過概率圖模型,使用EM算法預(yù)測每個句子是否為真。Ritter則同時兼顧False Positive和False Negative并使用一種軟性約束機制緩解句子與包標(biāo)簽不匹配問題。

    (2)至少一個假設(shè)(At-Least-One Assumption)其建立在一個新的假設(shè)基礎(chǔ)上,即對齊的文本中至少存在一個句子可以描述實體對關(guān)系,因此每次只選擇包內(nèi)一個句子進行預(yù)測。

    Mintz認為與知識庫對齊的文本中至少存在一個文本可以描述實體對關(guān)系,并基于此提出了At-Least-One假設(shè),在一個包內(nèi)只選擇概率最大的句子作為實體對關(guān)系的分類樣本。該假設(shè)在一定程度上可以保證正確的樣本對分類的正面作用。

    Zeng基于這個假設(shè)提出一種分段的卷積神經(jīng)網(wǎng)絡(luò)(Piecewise Convolutional Neural Networks,PCNN)自動捕捉上下文信息。首先使用預(yù)訓(xùn)練的詞向量(Word Embedding)目將單詞映射到低維度向量空間,然后使用卷積神經(jīng)網(wǎng)絡(luò)對文本進行特征提取。不同于傳統(tǒng)文本分類的CNN,其根據(jù)兩個實體將文本劃分為三段,并為每一段進行最大池化,該方法被證明可以有效地處理長文本表征能力,并降低時間復(fù)雜度。另外Zeng還使用位置表示信息(Position Embedding),使得模型可以更好地學(xué)習(xí)到實體在文本中的結(jié)構(gòu)化信息,進一步提升泛化能力。

    (3)注意力機制(Attention Mechanism)是目前關(guān)系抽取任務(wù)中的熱門方法之一,目標(biāo)是為同一個包內(nèi)的每個句子分配權(quán)重。如果句子是噪聲,則分配較低的權(quán)重以降低其對包分類的影響;如果句子不是噪聲,則會獲得較高的權(quán)重以凸顯其重要性。換句話說,注意力機制通過對每個句子進行加權(quán)求和來強化真實標(biāo)簽數(shù)據(jù)、弱化錯誤標(biāo)簽數(shù)據(jù)。

    Lin[361認為基于At-Least-One Assumption分類時只選擇一個句子,會損失大量的語義信息,因此提出一種句子級別的注意力機制fsentence-Level Attention)。首先使用PCNN對包內(nèi)的句子進行卷積核最大池化。然后對于每個句子與關(guān)系向量計算相似度并使用softmax歸一化為權(quán)重,以此對包內(nèi)句子進行加權(quán)求和獲得包表征fBag Embedding)。最后直接應(yīng)用一層神經(jīng)網(wǎng)絡(luò)對這個包進行分類?;诰渥蛹墑e注意力的降噪方法也成為多示例學(xué)習(xí)的主流方法。Ji改進了Lin的權(quán)重分配方法,提出一種結(jié)合實體描述信息的句子級別注意力機制。其改進之處是先對頭尾實體進行表征,并在模型訓(xùn)練過程中進行微調(diào),然后用尾實體向量與頭實體向量的差來近似代替關(guān)系向量并將其與每個句子計算權(quán)重。

    jat認為每個單詞對關(guān)系預(yù)測的貢獻是不一樣的,因此提出一種基于單詞和實體級別的注意力,每個單詞分配不同的權(quán)重用于表示句子向量,實體則用于對不同的句子分配權(quán)重。同時將單詞和句子進行加權(quán)求和可以提取更關(guān)鍵的語義成分來提升預(yù)測能力。

    wu則在PCNN的基礎(chǔ)上添加了神經(jīng)噪聲轉(zhuǎn)換器(Neural Noise Converter)學(xué)習(xí)結(jié)構(gòu)化的轉(zhuǎn)移矩陣來獲得含有噪聲的數(shù)據(jù)集,并使用條件最優(yōu)選擇器(conditional Optimal Selector)從噪聲中選擇權(quán)重最大的句子用于分類。

    Ye認為除了包內(nèi)句子與句子之間存在相關(guān)性,包與包之間也存在相關(guān)性,因此提出一種包內(nèi)(Intra-Bag)和包間(Inter-Bag)注意力。對于包內(nèi)的句子則是對所有句子進行加權(quán)求和;對于包與包之間,Ye提出一種包組(Bag Group)的概念,將具有相同關(guān)系標(biāo)簽的包組在一起,為每一個包學(xué)習(xí)一個注意力權(quán)重,并進行加權(quán)求和形成包組向量。通過結(jié)合句子級別注意力和包級別注意力可以更好地降噪。Yuan~ll也提出了包級別注意力,但不同于ye,其首先使用PCNN和句子級別注意力獲得包表征,然后提出一種交叉關(guān)系注意力(cross-Relation Attention)將包與每個關(guān)系標(biāo)簽結(jié)合起來計算權(quán)重,同時通過貝葉斯公式求得后驗概率,并使用softmax歸一化后的權(quán)重對不同的關(guān)系向量進行加權(quán)求和以獲得融合關(guān)系信息的包向量,再通過交叉包注意力(cross-Bag Attention)將所有包與同一個關(guān)系融合的向量加權(quán)求和組合成超包(superBag),最后通過超包學(xué)習(xí)不同實體對與關(guān)系之間的語義聯(lián)系并進行預(yù)測。

    Jia從另一個角度使用注意力對噪聲進行處理,他認為句子中的模式(Pattern)能夠?qū)翟肫鸬胶芎玫淖饔?,因此提出一種注意力正則化(ARNOR)方法,通過關(guān)注句子中的不同模式來對句子是否是噪聲進行判斷。Alt等人則結(jié)合了語言模型(Language Model),利用BERT等預(yù)訓(xùn)練語言模型獲得文本的語義表達,再通過一個分類器學(xué)習(xí)實體對與關(guān)系標(biāo)簽的映射。預(yù)訓(xùn)練模型通常包含大量的先驗知識,將其遷移到關(guān)系抽取上可以進一步緩解噪聲的影響。

    隨著深度學(xué)習(xí)的發(fā)展,如今基于多示例方法通常以神經(jīng)網(wǎng)絡(luò)模型為主,相比基于規(guī)則統(tǒng)計的傳統(tǒng)方法,避免了特征工程帶來的誤差傳播風(fēng)險,使得模型更具有泛化能力,但與此同時,時間和空間復(fù)雜度要求要高于傳統(tǒng)的方法。

    2.1.3對抗與強化學(xué)習(xí)

    雖然多示例學(xué)習(xí)可以很好地平滑噪聲的影響,但是在訓(xùn)練過程中依然會存在兩個問題:

    (1)無法處理所有包內(nèi)句子都是噪聲的情況。如果某一個實體對對齊的文本全部都是噪聲,對于多示例學(xué)習(xí)方法,At-Least-One Assumption和注意力機制都會至少為一個句子分配一個較大的權(quán)重,因此無法處理所有句子都是噪聲的情況。

    (2)基于包的預(yù)測并不能很好地處理句子與關(guān)系標(biāo)簽的映射,另外,其容忍了一部分噪聲使得模型學(xué)習(xí)到了一些錯誤的映射關(guān)系,從而可能影響分類效果。

    隨著對抗學(xué)習(xí)與強化學(xué)習(xí)的發(fā)展,以及它們在自然語言處理中的廣泛應(yīng)用,基于遠程監(jiān)督的關(guān)系抽取中噪聲處理問題形成了一個新的思路——學(xué)習(xí)一種采樣策略,使得在訓(xùn)練模型之前先過濾錯誤標(biāo)注的句子,通過提升語料的質(zhì)量來提升關(guān)系抽取的效果。

    Shi和wu均提出一種遠程監(jiān)督關(guān)系抽取對抗訓(xùn)練的思路。通過在對句子使用RNN進行表征的時候,在每一個時刻將模擬為噪聲的對抗樣本與真實樣本一同輸入模型中進行訓(xùn)練,試圖讓模型能夠識別出真樣本和噪聲樣本,與此同時提升模型在含有噪聲的語料中訓(xùn)練的魯棒性。

    Qin則使用生成對抗網(wǎng)絡(luò)(Generative Adversarial Nets,GAN)來模擬采樣過程。其參考多示例學(xué)習(xí)方法將語料劃分為包,并在每個包內(nèi)通過采樣器(sampler)根據(jù)學(xué)習(xí)的概率分布采樣出真實樣本企圖欺騙判別器(Discriminator),剩余的則是采樣器認為的噪聲。判別器則將采樣器采樣的真實樣本認為是噪聲并給予低分,而將剩余的噪聲認為是真實樣本給予高分。因為GAN的訓(xùn)練比較困難,因此Qin首先對采樣器和判別器進行預(yù)訓(xùn)練,其次兩者進行聯(lián)合訓(xùn)練。對GAN的訓(xùn)練是一個極小極大問題,最終可以獲得一個較優(yōu)的采樣器使得其采樣的樣本都可以被認為是正確的。

    不同于Qin,Li認為大量的False Negative樣本影響了關(guān)系抽取效果,因此首先通過對維基百科中的實體描述進行統(tǒng)計構(gòu)建出小規(guī)模的專家語料,認為如果某個實體的描述信息中出現(xiàn)了另一個實體,則這兩個實體間是有關(guān)系的。其次在對抗訓(xùn)練過程中,生成器分別從原始語料和專家語料中采樣,判別器則分別給予低分和高分。Han等人提出另一種降噪方法,首先通過預(yù)訓(xùn)練的分類器將遠程監(jiān)督語料劃分為2個集合,分別是確信集(confident Part)和不確信集(unconfident Part)。在對抗訓(xùn)練階段,通過采樣器從確信集中采樣企圖欺騙判別器,并不斷將被打高分的樣本更新到確信集中,直到2個集合不再變化為止。

    Feng從強化學(xué)習(xí)的角度提出一種遠程監(jiān)督語料的降噪方法,在基于馬爾可夫決策過程條件下,定義了狀態(tài)、動作、獎勵等基本要素?;舅悸肥抢貌呗蕴荻萊EINFORCE算法學(xué)習(xí)一個選擇器(selector)在包中對每個句子執(zhí)行一個動作,即選擇或不選擇,并在已選擇的句子集合中使用句子級別的PCNN分類器(classifier)進行分類,并通過挑選的句子loss的均值作為獎勵。實驗表明這種方法可以有效提升關(guān)系抽取的效果,尤其是對于全部都是噪聲的包能夠起到過濾作用。He改進了Feng的方法,主要體現(xiàn)在:①依然使用基于包級別的預(yù)測,認為只考慮句子級別的分類會喪失句子之間的語義關(guān)聯(lián)性;②使用Q學(xué)習(xí)來訓(xùn)練選擇器;③同時考慮了True Positive和Unlabeled所產(chǎn)生的損失,實驗表明識別True Positive的精確度得到了提升。

    Qin則站在挑選噪聲的角度,將每相鄰的兩次迭代所挑選噪聲的交集作為計算獎勵的依據(jù)。不同于Feng的是,Qin認為使用F1值的變化作為獎勵可以提高策略的學(xué)習(xí)能力。Zeng和Sun則訓(xùn)練一個智能體進行關(guān)系預(yù)測,動作空間的大小是關(guān)系標(biāo)簽的數(shù)量,而獎勵則為對包分類的預(yù)測準(zhǔn)確度。通過策略梯度法不斷調(diào)整智能體的策略使得能夠給出正確的關(guān)系預(yù)測。

    基于對抗與強化學(xué)習(xí)的降噪方法進一步地提升了語料的質(zhì)量,讓模型可以學(xué)習(xí)到更加準(zhǔn)確的實體對關(guān)系,進一步提升訓(xùn)練模型的泛化能力和魯棒性。但是相比于前兩種方法,對抗學(xué)習(xí)與強化學(xué)習(xí)都需要訓(xùn)練兩個模型,訓(xùn)練難度大,通常需要先對各個模塊進行預(yù)訓(xùn)練來避免在聯(lián)合訓(xùn)練過程中的不穩(wěn)定問題,因此其時間和空間復(fù)雜度要求進一步提高,在實際工業(yè)界應(yīng)用場景中難以落地。

    2.2緩解信息匱乏問題

    由于現(xiàn)階段知識庫和訓(xùn)練語料大量缺失,使得部分實體對對齊的語料數(shù)量過少,從而造成這些實體對的關(guān)系抽取訓(xùn)練不充分,最終導(dǎo)致信息匱乏。如圖2所示,Kuang分別對NYT和GDS數(shù)據(jù)集的每個實體對在數(shù)據(jù)集中的共現(xiàn)次數(shù)進行了統(tǒng)計,其中橫坐標(biāo)表示實體對共現(xiàn)次數(shù),縱坐標(biāo)表示對應(yīng)的實體對數(shù)量。發(fā)現(xiàn)絕大多數(shù)的實體對僅存在少量的樣本,在本身還有大量噪聲的情況下,真實樣本含有的語義信息十分稀少,不利于訓(xùn)練。如今解決遠程監(jiān)督關(guān)系抽取中信息匱乏問題的工作主要分為輔助信息增強和聯(lián)合學(xué)習(xí)。

    2.2.1輔助信息增強

    輔助信息增強是一種最直接地緩解訓(xùn)練不充分的問題的方法,其基本思路是通過引入額外知識信息來提升對關(guān)系的預(yù)測,如實體關(guān)系信息、條件約束、知識表示等。

    Vashishth認為知識庫中包含一些輔助信息(side Information)以及實體類型信息(EntityType)可以輔助增強關(guān)系抽?。涸谟嬎憔渥訖?quán)重之前將輔助信息與句子向量結(jié)合起來;在形成包向量之后直接與實體類型對應(yīng)的向量進行拼接。相比之下,Li則是使用自注意力機制(self-attention)結(jié)合實體信息來實現(xiàn)對語義信息的增強,其驗證了自注意力機制可以有效地幫助模型關(guān)注更重要的語義成分以彌補數(shù)據(jù)不充分的缺陷。

    Kuang認為實體對在大量維基百科語料中的共現(xiàn)次數(shù)可以間接地描述它們之間的潛在關(guān)系,從而彌補訓(xùn)練集中部分實體對不充分的問題。其構(gòu)建了一個實體鄰接圖(Entity Proximity Graph),其中節(jié)點表示各個實體,邊上的權(quán)值代表對應(yīng)相連的兩個實體在維基百科語料中的共現(xiàn)次數(shù)。隨后使用LINE[711圖算法從低階和高階兩個方面捕捉實體對之間的隱式相互關(guān)系(Implieit Mutual Relation),并結(jié)合實體類型信息進行增強。與此同時,Su是同時在文本和知識庫兩個方面對實體對共現(xiàn)次數(shù)進行統(tǒng)計,并提出一種全局關(guān)系表征(Global Relation Embedding)用于提升關(guān)系預(yù)測能力。

    Xu則結(jié)合了知識表示(Knowledge Base Embedding,KBE)和文本句子表征,提出基于異構(gòu)表征方法來增強遠程監(jiān)督關(guān)系抽取。其思路是使用雙向長短期記憶神經(jīng)網(wǎng)絡(luò)(Bi-directional Long Short-Term Memory,BiLSTM)對句子進行表征,并基于TransE模型學(xué)習(xí)知識庫內(nèi)的實體和關(guān)系向量。文本句子表征與知識表征分別對應(yīng)使用交叉信息熵的局部損失和基于相似度排序的全局損失,在實驗中二者結(jié)合起來聯(lián)合訓(xùn)練。

    Liu則考慮到了實體類型會對關(guān)系預(yù)測起到約束作用,如果兩個實體類型分別是“Person”和“Film”,則預(yù)測的關(guān)系應(yīng)當(dāng)更可能是“DirectorOf”,而不可能是“PlaceOfBirth”。因此Liu提出一種多粒度的實體類型約束方法,并集成到現(xiàn)有的遠程監(jiān)督關(guān)系抽取模型中。Ye也考慮到了這類約束,并分別從連貫性(coherent)和語義性(semantic)兩個層面上提出兩種不同的約束損失函數(shù)計算方法,該工作不依賴于關(guān)系抽取模型,因此具有即插即用(Plug-and-Play)的優(yōu)勢。

    2.2.2聯(lián)合學(xué)習(xí)

    聯(lián)合學(xué)習(xí)則是另一類緩解信息匱乏問題的方法。Beltag認為遠程監(jiān)督關(guān)系抽取中的語料是不充分的,但可以通過其他有監(jiān)督語料來輔助增強,因此提出一種聯(lián)合監(jiān)督與遠程監(jiān)督的訓(xùn)練方法。不過使用監(jiān)督語料并不能從根本上解決訓(xùn)練不充分問題。

    wei提出一種聯(lián)合命名實體識別(Named Entity Recognition,NER)和關(guān)系抽取的端到端方法,其基本思路是先對文本中的實體進行標(biāo)注,獲得了實體層面的語義信息后映射到對應(yīng)的關(guān)系語義表征上。該工作在遠程監(jiān)督數(shù)據(jù)集NYT上驗證了同時結(jié)合兩個任務(wù)學(xué)習(xí)模型可以彌補只進行關(guān)系抽取任務(wù)可能出現(xiàn)的學(xué)習(xí)不充分的問題。Ren提出一種聯(lián)合抽取模型COTYPE,主要解決實體標(biāo)注與關(guān)系分類分離導(dǎo)致的錯誤傳播問題,他認為聯(lián)合兩個任務(wù)學(xué)習(xí)還可以緩解噪聲問題。

    Takanobu的出發(fā)點與wei相同,但實現(xiàn)策略完全相反。其是先挖掘文本中的關(guān)系,再根據(jù)關(guān)系到文本中尋找兩個實體。為了能夠很好地提取關(guān)系和實體,Takanobu使用一種分層的強化學(xué)習(xí)方法,先后交替訓(xùn)練關(guān)系抽取和實體識別,并在NYT數(shù)據(jù)集上驗證了該方法既可以通過聯(lián)合兩個任務(wù)緩解含有噪聲的語料中的訓(xùn)練不充分的問題,也能夠處理關(guān)系重疊問題(overlapping)。

    2.3解決非均衡問題

    非均衡是遠程監(jiān)督語料面臨的新問題,近幾年開始被關(guān)注。非均衡問題主要體現(xiàn)在各個關(guān)系標(biāo)簽對應(yīng)的實體對數(shù)量或?qū)R的語料數(shù)量不均勻。通常只有少部分標(biāo)簽對應(yīng)的實體對或語料數(shù)量較多,而大部分標(biāo)簽則很少,這種現(xiàn)象被稱為二八定律、馬太效應(yīng)或長尾問題。例如,Zhang對NYT語料進行了統(tǒng)計,如圖3所示,橫軸表示關(guān)系標(biāo)簽的編號,按照對應(yīng)樣本數(shù)降序排序,縱軸表示各個關(guān)系標(biāo)簽對應(yīng)樣本的數(shù)量。NYT一共包括53個關(guān)系標(biāo)簽,居于頭部的關(guān)系標(biāo)簽語料充足,而近40個居于尾部的關(guān)系標(biāo)簽對應(yīng)的語料嚴(yán)重缺乏,使得居于長尾的實體對不能夠得到充分的學(xué)習(xí),致使訓(xùn)練得到有偏的模型。

    為了解決非均衡的問題,ye等人提出一種多任務(wù)學(xué)習(xí)(Multi-Task)框架,認為絕大多數(shù)的實體對關(guān)系是NA(無關(guān)),只有少數(shù)的實體對具有關(guān)系。因此在CNN的輸出層部分添加兩個分類器,分別為Relation Identification和Relation Classification。前者使用交叉信息熵進行關(guān)系識別,即判斷當(dāng)前實體對是否存在關(guān)系,后者則使用排序損失方法預(yù)測具體的關(guān)系。但這種方法只能夠緩解NA標(biāo)簽對分類的影響。

    Krause提出一種基于規(guī)則的關(guān)系抽取系統(tǒng)解決長尾問題。其從遠程監(jiān)督語料中提取了大量的語法規(guī)則,每個關(guān)系標(biāo)簽平均有40k個規(guī)則模板。然而大量的規(guī)則極大地消耗了人力物力,且局限于特定領(lǐng)域的關(guān)系抽取。為了解決規(guī)則帶來的問題,Gui等人進行了改進,提出一種基于可解釋學(xué)習(xí)(Explanation-Based Learning,EBL)的方法,其可以在少量規(guī)則的引導(dǎo)下提取出實體關(guān)系信息,同時對于長尾的關(guān)系,還可以通過領(lǐng)域知識進行糾正。

    解決長尾問題的代表性方法還有少樣本學(xué)習(xí)fFew-shot Learning)。Han則利用了深度學(xué)習(xí)技術(shù)來解決長尾問題。Han發(fā)現(xiàn)在FreeBase等知識庫中關(guān)系標(biāo)簽是按照層次結(jié)構(gòu)組織的,如關(guān)系“|people|person|place-of—birth”可以分為“|people”“|people|person”和“|people|person|place-of-birth”3層,對于長尾關(guān)系通常表現(xiàn)在第3層,但是可以通過前兩層使得長尾關(guān)系的樣本容量變大。基于此,其提出一種分層的關(guān)系抽取方法,根據(jù)關(guān)系的層次結(jié)構(gòu)由粗到細地(coarse-to-Fine)進行預(yù)測,進一步緩解長尾問題。

    Zhang認為基于Few-shot的訓(xùn)練方法具有挑戰(zhàn)性,因此在Han基礎(chǔ)上進行改進。其先后使用TransE和圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)模型對知識庫的圖結(jié)構(gòu)以及層次關(guān)系的樹結(jié)構(gòu)進行表征,分別獲得隱式和顯式的關(guān)系信息,進而通過由粗到細粒度的注意力機制將不同層次的信息進行融合。該方法可以很好地借助關(guān)系的層次結(jié)構(gòu)以及知識庫信息來緩解長尾問題。

    3評估數(shù)據(jù)集與評測指標(biāo)

    3.1評估數(shù)據(jù)集

    在國際評測中,監(jiān)督類實體關(guān)系抽取的公開數(shù)據(jù)集主要有SemEval 2010 Task8、ACE2004/2005.前者是國際語義評測會議SemEval于2009年構(gòu)建的語義關(guān)系分類任務(wù),其包含9種關(guān)系共10717個示例,語料主要來源于詞網(wǎng)(WordNet)、維基百科(Wikipedia)等。后者是ACE會議公開使用的數(shù)據(jù)集,其中包括實體識別和關(guān)系抽取兩個子任務(wù),語料來源于語言數(shù)據(jù)聯(lián)盟(Linguistic Data Consortium,LDC),通??梢员挥糜诼?lián)合抽取任務(wù)。另外還有MUC、MPQA2.0等語料。雖然這些有監(jiān)督的關(guān)系抽取數(shù)據(jù)集被廣泛用于評測模型,但它們共同的缺點在于數(shù)據(jù)集的語料數(shù)量過少、大量人工標(biāo)注成本過高、因局限于特定領(lǐng)域而不能得到廣泛的應(yīng)用。因此有一系列相關(guān)工作致力于遠程監(jiān)督方法構(gòu)建數(shù)據(jù)集,表3分別列出了相關(guān)數(shù)據(jù)集的統(tǒng)計信息。

    (1)NYT數(shù)據(jù)集Riedel通過將紐約時報與FreeBase對齊產(chǎn)生大量的語料并簡稱NYT數(shù)據(jù)集,其中訓(xùn)練集由2005年和2006年新聞組成,測試集由2007年新聞組成。NYT數(shù)據(jù)集包括52種語義關(guān)系和NA標(biāo)簽,訓(xùn)練集共包括522611個示例、281 270個實體對,測試集包括172448個示例、96678個實體對。NYT也成為目前遠程監(jiān)督關(guān)系抽取使用最為廣泛的評估數(shù)據(jù)集。后來有相關(guān)工作將NYT原始數(shù)據(jù)集進行了簡約處理,構(gòu)造了NYTll等版本語料,如表3所示,實體對數(shù)量之所以比示例數(shù)量多,是因為存在一些句子包含多個實體對或相同的實體對有多個關(guān)系。

    (2)GDS數(shù)據(jù)集Jat等人認為NYT數(shù)據(jù)集中包含大量的NA標(biāo)簽致使模型不易學(xué)習(xí)到正確的映射關(guān)系,因此用遠程監(jiān)督方法額外構(gòu)建了GDS(Google-IISc Distant Supervision)數(shù)據(jù)集,其將谷歌關(guān)系抽取語料庫與Web進行對齊。其中訓(xùn)練集有13161個示例、7580個實體對,測試集包括5663個示例、3247個實體對,一共有4種語義關(guān)系以及NA標(biāo)簽。GDS相比NYT數(shù)據(jù)集來說降低了數(shù)據(jù)的規(guī)模,且使得5種標(biāo)簽對應(yīng)的示例數(shù)量相對平衡。

    (3)KBP數(shù)據(jù)集是由Surdeanu通過KBP2010和KBP2011評測任務(wù)上獲得的語料,該語料是將150萬個文檔與知識庫對齊產(chǎn)生的。KBP數(shù)據(jù)集中包含183062個訓(xùn)練實體對,3334個測試實體對和41種關(guān)系標(biāo)簽,且平均每個實體對對應(yīng)50個句子。因此該語料具有規(guī)模大、數(shù)據(jù)真實等特點。不同于前面的數(shù)據(jù)集,Surdeanu設(shè)計了200個基于實體名稱的頭實體查詢,并根據(jù)頭實體獲得對應(yīng)的所有三元組及其對齊的語料。例如,Surdeanu和Min隨機挑選40個查詢作為訓(xùn)練,剩余的160個查詢作為測試。

    (4)FewRel數(shù)據(jù)集該數(shù)據(jù)集的主要目標(biāo)是驗證模型在少樣本訓(xùn)練后在未知的實體對關(guān)系下是否具有泛化能力,其是由清華大學(xué)團隊提出的關(guān)系抽取數(shù)據(jù)集,該數(shù)據(jù)集使用基于遠程監(jiān)督的思想,通過與維基百科進行對齊。不同于NYT的是,其包含自動對齊和人工標(biāo)注兩個步驟。在自動對齊階段,其首先過濾掉樣本數(shù)少于1000的標(biāo)簽,避免長尾問題出現(xiàn),其次去掉實體對重復(fù)的示例,使得每個實體對僅出現(xiàn)一次;在人工標(biāo)注階段,主要由標(biāo)注人員進行篩選,保證語料的質(zhì)量,最終保留了100個關(guān)系,每個關(guān)系對應(yīng)700個示例。由于每一個示例對應(yīng)唯一的實體對,因此,總共有70000個實體對。FewRel定義了80個關(guān)系為訓(xùn)練集(其中16個關(guān)系為驗證集),20個關(guān)系為測試集。隨后FewRel 2.0版本則對第一版本進行了改進,使用N-Way、K-Shot設(shè)定,其表示給定模型Ⅳ個未知的類型,每個類型包含k個示例,以此驗證模型是否可以有效地分類。FewRel已被多個工作作為驗證模型的評測數(shù)據(jù)集,也是遠程監(jiān)督關(guān)系抽取的新的評測任務(wù)。

    另外,國內(nèi)也有相關(guān)研究團隊構(gòu)建了大規(guī)模中文關(guān)系抽取語料。例如,Xu等人構(gòu)建了可同時完成實體識別和關(guān)系分類的中文語料庫;清華大學(xué)自然語言處理實驗室開源了神經(jīng)關(guān)系抽取工具包項目OpenNRE;國內(nèi)最大的開源知識圖譜社區(qū)(openKG)則收納了超過130個開放中文知識圖譜語料。

    3.2評測指標(biāo)

    在對遠程監(jiān)督關(guān)系抽取模型的評估方面,Mintz提出兩種評估方法,分別是基于自動評估(Held-out Evaluation)和基于人工評估(Manual Evaluation)。

    自動評估是指通過模型預(yù)測的結(jié)果自動與樣本標(biāo)簽進行比較,通常選擇的評測指標(biāo)有準(zhǔn)確率(Precision)、召回率(Recall)、Fβ值和P-R曲線(AUC值)等。然而,由于遠程監(jiān)督方法構(gòu)建的語料中,測試集中也普遍存在大量噪聲,可能受到False Positive和False Negative的影響,即在測試階段給定的實體對被預(yù)測正確的關(guān)系,但由于錯誤的標(biāo)注或知識庫不充分等原因?qū)е卤慌袨轭A(yù)測錯誤,因此有時需要進行人工評估。如今諸多工作同時兼顧兩種評估方法。表4對這些評測指標(biāo)進行了整理。

    3.2.1自動評估(Held-out Evaluation)

    在自動評估中,遠程監(jiān)督關(guān)系抽取屬于多類分類任務(wù),常用混淆矩陣(confusion Matrix)來表示每個類預(yù)測的情況。假設(shè)給定的數(shù)據(jù)集預(yù)定義的n個關(guān)系標(biāo)簽組成的集合為r={r1,r2,…,rn),混淆矩陣可以表示為n×n的方陣,本文記作con,matrix∈Rnxn,其中每一行表示樣本的實際標(biāo)簽,每一列表示模型預(yù)測的標(biāo)簽,矩陣的元素confmatrix(i,J)則表示實際關(guān)系標(biāo)簽ri對應(yīng)的樣本被預(yù)測為rj的個數(shù)。當(dāng)且僅當(dāng)i=j時表示預(yù)測正確。可以得到相應(yīng)的評測指標(biāo)分別如下。

    在遠程監(jiān)督關(guān)系抽取自動評估中,研究者們通常取宏平均的準(zhǔn)確率和召回率作為評價指標(biāo),且不計入標(biāo)簽NA的結(jié)果。

    為了能夠?qū)δP瓦M行綜合評測,還引入了Precision-Recall(P-R)曲線和AUC值作為模型比對的指標(biāo)。其中P-R曲線用來衡量查準(zhǔn)率和查全率的綜合效果,在多類分類中,通過獲得每個樣本在各個類預(yù)測的概率分布及其對應(yīng)獨熱編碼,并按照概率進行降序排序形成一個向量,若對每個元素作為分界線,則可以依次得到相應(yīng)的查準(zhǔn)率和查全率,以此可以獲得相應(yīng)的曲線。P-R曲線目前是遠程監(jiān)督關(guān)系抽取性能評估的主要指標(biāo)。另外,ROC曲線是反映在關(guān)系抽取時敏感性(FPR)和精確性(TPR)的趨勢,AUC值(0≤AUC≤1)表示ROC曲線與兩坐標(biāo)軸(TPR和FPR)包圍的面積,AUC值越大則說明模型的性能越好。

    3.2.2人工評估(Manual Evaluation)

    人工評估法是為了彌補由于知識庫語料不充分所導(dǎo)致的一些False Negative樣本對實驗結(jié)果的影響,因此人工評估方法也被廣泛作為遠程監(jiān)督的評價依據(jù)。目前人工評估的方法主要有如下幾類。

    (1)直接重新從測試集中隨機挑選一部分?jǐn)?shù)據(jù)并進行人工標(biāo)注,確保每個示例都是正確無誤的,然后在此基礎(chǔ)上驗證預(yù)測的效果。例如,F(xiàn)eng通過從測試集中隨機選擇了300個樣本并人工標(biāo)注了每個示例是否是噪聲,來驗證他們的方法是否可以有效過濾噪聲。

    (2)P@N指標(biāo)。由于P-R曲線中隨著Recall值的不斷上升,可能包含的FaKe Negative數(shù)量會變大,使得模型預(yù)測的正確的示例會被錯誤評判,因此通常取一小部分示例用于測試。一種方法是通過人工挑選Ⅳ(或Ⅳ%)個示例;另一種是直接按照Precision值從大到小排列并選擇第Ⅳ(或Ⅳ%)個值作為評估結(jié)果,這種情況下,P@N指標(biāo)相當(dāng)于對模型預(yù)測的準(zhǔn)確率最高的前Ⅳ個(或前Ⅳ%)示例中模型預(yù)測的準(zhǔn)確率,而可能含有大量的False Negative樣本便被排除在外,可以有效避免錯誤評判帶來的問題。通常大多數(shù)工作取值為Ⅳ∈{100,200,300,500)或Ⅳ∈{10%,20%,30%,50%),后來也有工作為了避免人工評估方法帶來的時間消耗,將P@Ⅳ指標(biāo)應(yīng)用到自動評估方法中。

    猜你喜歡
    自然語言處理知識圖譜
    基于組合分類算法的源代碼注釋質(zhì)量評估方法
    國內(nèi)圖書館嵌入式服務(wù)研究主題分析
    國內(nèi)外政府信息公開研究的脈絡(luò)、流派與趨勢
    近十五年我國小學(xué)英語教學(xué)研究的熱點、問題及對策
    基于知識圖譜的產(chǎn)業(yè)集群創(chuàng)新績效可視化分析
    智富時代(2016年12期)2016-12-01 16:28:41
    基于知識圖譜的智慧教育研究熱點與趨勢分析
    從《ET&S》與《電化教育研究》對比分析中管窺教育技術(shù)發(fā)展
    面向機器人導(dǎo)航的漢語路徑自然語言組塊分析方法研究
    詞向量的語義學(xué)規(guī)范化
    漢哈機器翻譯中的文字轉(zhuǎn)換技術(shù)研究
    热99久久久久精品小说推荐| 日本午夜av视频| 在线观看三级黄色| 精品国产国语对白av| 亚洲精品456在线播放app| 国产淫语在线视频| 天天操日日干夜夜撸| 精品一区二区免费观看| 精品少妇内射三级| 女的被弄到高潮叫床怎么办| 岛国毛片在线播放| 久久久久精品久久久久真实原创| 亚洲,一卡二卡三卡| 午夜激情福利司机影院| 亚洲欧美成人精品一区二区| 久久热精品热| 午夜91福利影院| 另类精品久久| 国产探花极品一区二区| 美女主播在线视频| 国产成人a∨麻豆精品| 国产精品一二三区在线看| av专区在线播放| 寂寞人妻少妇视频99o| 亚洲国产精品专区欧美| 热re99久久国产66热| 纯流量卡能插随身wifi吗| 亚洲久久久国产精品| 蜜臀久久99精品久久宅男| 国产男女内射视频| 少妇人妻精品综合一区二区| 日韩在线高清观看一区二区三区| 国产精品国产三级专区第一集| 我的女老师完整版在线观看| 人妻人人澡人人爽人人| 精品亚洲成a人片在线观看| 国产成人精品在线电影| 国产成人免费观看mmmm| 大香蕉97超碰在线| 一个人免费看片子| 男女免费视频国产| 色哟哟·www| 久久久久网色| 在线观看一区二区三区激情| 91久久精品电影网| 777米奇影视久久| 亚洲欧美清纯卡通| 久久狼人影院| 18在线观看网站| 国产亚洲最大av| 久久久久国产精品人妻一区二区| 少妇的逼水好多| 成人亚洲精品一区在线观看| 日本vs欧美在线观看视频| 久久 成人 亚洲| 18禁动态无遮挡网站| 亚洲国产日韩一区二区| 国产极品粉嫩免费观看在线 | 99久久人妻综合| 欧美激情极品国产一区二区三区 | 久久青草综合色| 国产一级毛片在线| 亚洲人成77777在线视频| 国产极品粉嫩免费观看在线 | 色5月婷婷丁香| 成人手机av| 18禁在线播放成人免费| 亚洲精品国产av蜜桃| 九草在线视频观看| 少妇人妻久久综合中文| 丰满少妇做爰视频| 一级毛片aaaaaa免费看小| 国产免费一级a男人的天堂| 午夜激情久久久久久久| 韩国av在线不卡| 日韩在线高清观看一区二区三区| 欧美日韩精品成人综合77777| 精品少妇久久久久久888优播| 亚洲成人一二三区av| 99国产精品免费福利视频| 久久99蜜桃精品久久| 18禁在线播放成人免费| 欧美 日韩 精品 国产| 少妇高潮的动态图| 大码成人一级视频| 亚洲五月色婷婷综合| 亚洲人成网站在线观看播放| 哪个播放器可以免费观看大片| 中文字幕av电影在线播放| 久久久久久人妻| 久久精品人人爽人人爽视色| 国产成人免费观看mmmm| 老司机亚洲免费影院| 日韩一区二区视频免费看| 亚洲精品aⅴ在线观看| 一级毛片电影观看| 欧美日韩亚洲高清精品| 国产av码专区亚洲av| 亚洲国产av新网站| 亚洲国产精品成人久久小说| 日日摸夜夜添夜夜添av毛片| 极品人妻少妇av视频| 亚洲国产最新在线播放| 亚洲第一av免费看| 大香蕉久久成人网| av国产精品久久久久影院| 国产欧美日韩一区二区三区在线 | 人妻少妇偷人精品九色| 欧美激情国产日韩精品一区| 日日撸夜夜添| 亚洲五月色婷婷综合| 伦精品一区二区三区| 日本午夜av视频| 久久韩国三级中文字幕| h视频一区二区三区| 2022亚洲国产成人精品| 亚洲成人手机| 在线观看免费视频网站a站| 亚洲av国产av综合av卡| 热re99久久国产66热| 国产精品麻豆人妻色哟哟久久| 在线看a的网站| 多毛熟女@视频| 人妻系列 视频| 人妻制服诱惑在线中文字幕| 黑人高潮一二区| 中文乱码字字幕精品一区二区三区| 两个人免费观看高清视频| 蜜臀久久99精品久久宅男| 国产高清有码在线观看视频| 天天影视国产精品| 欧美精品一区二区免费开放| 久久久久人妻精品一区果冻| 五月天丁香电影| 一区二区日韩欧美中文字幕 | 精品少妇黑人巨大在线播放| 这个男人来自地球电影免费观看 | 欧美3d第一页| 亚洲久久久国产精品| 日本午夜av视频| 天堂8中文在线网| 秋霞在线观看毛片| 亚洲人成网站在线观看播放| 欧美三级亚洲精品| 3wmmmm亚洲av在线观看| 我的女老师完整版在线观看| 国产精品一区www在线观看| 亚洲精品一区蜜桃| 人妻制服诱惑在线中文字幕| 日本与韩国留学比较| 色哟哟·www| 中文乱码字字幕精品一区二区三区| 十八禁高潮呻吟视频| 亚洲精品美女久久av网站| 国产极品天堂在线| 2018国产大陆天天弄谢| 婷婷色综合www| 乱人伦中国视频| 国产精品.久久久| 日韩精品有码人妻一区| 国产免费视频播放在线视频| 18禁观看日本| 亚洲人成77777在线视频| 婷婷色综合大香蕉| 中文精品一卡2卡3卡4更新| 午夜老司机福利剧场| 精品久久久噜噜| 午夜日本视频在线| 精品久久久精品久久久| 99re6热这里在线精品视频| 久久久久久久久大av| 最近2019中文字幕mv第一页| 国产男女超爽视频在线观看| 伦理电影免费视频| 亚洲不卡免费看| 永久免费av网站大全| 青春草亚洲视频在线观看| 午夜精品国产一区二区电影| 中文字幕人妻丝袜制服| 在线观看国产h片| 久久久久久久国产电影| 亚洲精品日韩在线中文字幕| av电影中文网址| 国产av一区二区精品久久| 3wmmmm亚洲av在线观看| 久久久久国产精品人妻一区二区| 全区人妻精品视频| 亚洲精品国产色婷婷电影| 自线自在国产av| 在线看a的网站| 校园人妻丝袜中文字幕| 高清在线视频一区二区三区| 亚洲精品,欧美精品| 好男人视频免费观看在线| 日韩精品免费视频一区二区三区 | 久久久久久久久大av| 少妇人妻精品综合一区二区| 夜夜看夜夜爽夜夜摸| 狂野欧美激情性xxxx在线观看| 熟妇人妻不卡中文字幕| 亚洲精品,欧美精品| 一级毛片我不卡| 蜜桃在线观看..| 人人妻人人澡人人看| av女优亚洲男人天堂| 国产一区二区三区综合在线观看 | 国产精品一区www在线观看| www.av在线官网国产| 国产欧美另类精品又又久久亚洲欧美| 18禁观看日本| 母亲3免费完整高清在线观看 | 菩萨蛮人人尽说江南好唐韦庄| 精品人妻熟女av久视频| videosex国产| 日韩强制内射视频| 日韩视频在线欧美| 国产一区二区在线观看av| 久久久久国产精品人妻一区二区| 欧美xxⅹ黑人| 国产av国产精品国产| 男人添女人高潮全过程视频| 日日撸夜夜添| 丰满饥渴人妻一区二区三| 狠狠婷婷综合久久久久久88av| 青青草视频在线视频观看| 丝袜喷水一区| 日韩精品有码人妻一区| 婷婷色av中文字幕| 亚洲精品乱码久久久久久按摩| 在线观看免费高清a一片| 一区二区日韩欧美中文字幕 | 久久久精品94久久精品| 欧美精品高潮呻吟av久久| 国产午夜精品久久久久久一区二区三区| 一区二区三区免费毛片| www.av在线官网国产| 多毛熟女@视频| 久久久久久久久久久丰满| 超色免费av| 大香蕉97超碰在线| 大陆偷拍与自拍| 制服人妻中文乱码| 一级爰片在线观看| 日本wwww免费看| 麻豆精品久久久久久蜜桃| 欧美日韩综合久久久久久| 久久午夜综合久久蜜桃| 日日啪夜夜爽| 人人妻人人澡人人看| 一边摸一边做爽爽视频免费| 欧美精品人与动牲交sv欧美| 国产亚洲精品久久久com| 国产欧美亚洲国产| 欧美性感艳星| 考比视频在线观看| 欧美精品国产亚洲| 亚洲国产毛片av蜜桃av| 亚洲国产av新网站| 精品99又大又爽又粗少妇毛片| 男的添女的下面高潮视频| 丰满少妇做爰视频| 亚洲国产日韩一区二区| 国产成人av激情在线播放 | 日本vs欧美在线观看视频| 日本黄色片子视频| 婷婷色麻豆天堂久久| 美女cb高潮喷水在线观看| 成年人免费黄色播放视频| 一级a做视频免费观看| 日日啪夜夜爽| 国产伦精品一区二区三区视频9| 韩国高清视频一区二区三区| 久久久午夜欧美精品| 大香蕉97超碰在线| 亚洲成色77777| 在线观看美女被高潮喷水网站| 男女无遮挡免费网站观看| 色婷婷av一区二区三区视频| 18禁观看日本| 观看av在线不卡| 日韩 亚洲 欧美在线| 亚洲成人av在线免费| 国产片内射在线| 嘟嘟电影网在线观看| 国产免费又黄又爽又色| 国产精品蜜桃在线观看| 亚洲国产日韩一区二区| 日韩中文字幕视频在线看片| 秋霞在线观看毛片| 全区人妻精品视频| 久久精品久久精品一区二区三区| 精品亚洲乱码少妇综合久久| 22中文网久久字幕| av国产精品久久久久影院| 黄色欧美视频在线观看| 最黄视频免费看| 国产精品久久久久久精品电影小说| 不卡视频在线观看欧美| 99热全是精品| 精品少妇黑人巨大在线播放| 精品久久蜜臀av无| 在线观看www视频免费| 99视频精品全部免费 在线| 成人影院久久| 中文字幕人妻熟人妻熟丝袜美| 18在线观看网站| 欧美日韩国产mv在线观看视频| 国产av一区二区精品久久| 一区二区av电影网| 秋霞在线观看毛片| 国产av精品麻豆| 久久久久人妻精品一区果冻| 日日啪夜夜爽| 男的添女的下面高潮视频| 美女福利国产在线| 一区二区日韩欧美中文字幕 | 国产成人午夜福利电影在线观看| 91午夜精品亚洲一区二区三区| 一二三四中文在线观看免费高清| av在线老鸭窝| 美女大奶头黄色视频| 久久青草综合色| 免费少妇av软件| 91午夜精品亚洲一区二区三区| 亚洲内射少妇av| a级毛色黄片| 欧美最新免费一区二区三区| 国产亚洲最大av| 丝瓜视频免费看黄片| 高清黄色对白视频在线免费看| 男女国产视频网站| 欧美 日韩 精品 国产| 大陆偷拍与自拍| 国产成人免费观看mmmm| 日韩免费高清中文字幕av| 久久婷婷青草| 伊人亚洲综合成人网| 又粗又硬又长又爽又黄的视频| av国产久精品久网站免费入址| 女的被弄到高潮叫床怎么办| 国产精品.久久久| av又黄又爽大尺度在线免费看| 午夜激情福利司机影院| 国产成人精品在线电影| 一级a做视频免费观看| 18禁观看日本| 永久免费av网站大全| 国产黄片视频在线免费观看| 免费黄频网站在线观看国产| 亚洲一区二区三区欧美精品| 91精品伊人久久大香线蕉| 久久精品熟女亚洲av麻豆精品| 日本午夜av视频| 亚洲国产色片| 大香蕉久久网| 午夜激情久久久久久久| 中文字幕制服av| 成人毛片a级毛片在线播放| 黄色怎么调成土黄色| 成人综合一区亚洲| 少妇丰满av| 少妇熟女欧美另类| 狠狠婷婷综合久久久久久88av| 综合色丁香网| 欧美激情极品国产一区二区三区 | 少妇人妻精品综合一区二区| 国产精品偷伦视频观看了| 天堂俺去俺来也www色官网| 国产精品偷伦视频观看了| 国产精品一二三区在线看| 91国产中文字幕| 啦啦啦啦在线视频资源| 日本午夜av视频| 中文字幕制服av| 99热国产这里只有精品6| 亚洲精品国产av蜜桃| 日韩精品有码人妻一区| 久久精品国产亚洲av天美| 又大又黄又爽视频免费| 中文字幕人妻熟人妻熟丝袜美| 一级毛片 在线播放| av黄色大香蕉| 欧美精品国产亚洲| 亚洲人成网站在线观看播放| 美女xxoo啪啪120秒动态图| 高清视频免费观看一区二区| 日日爽夜夜爽网站| 久久久久久久久久人人人人人人| 99久国产av精品国产电影| 在线看a的网站| av电影中文网址| 亚洲精品美女久久av网站| 有码 亚洲区| 丰满饥渴人妻一区二区三| 亚洲人成77777在线视频| 菩萨蛮人人尽说江南好唐韦庄| 99热全是精品| 精品国产一区二区三区久久久樱花| 日本猛色少妇xxxxx猛交久久| 国产成人aa在线观看| 亚洲国产精品一区二区三区在线| 国产精品女同一区二区软件| 自线自在国产av| 成人毛片60女人毛片免费| 亚洲成人手机| 亚洲三级黄色毛片| 精品久久久久久久久亚洲| 最后的刺客免费高清国语| 老女人水多毛片| 婷婷色综合大香蕉| 国产精品国产三级国产专区5o| 久久久久久久久久人人人人人人| 久久人人爽av亚洲精品天堂| 日韩精品免费视频一区二区三区 | 久久久午夜欧美精品| 99久国产av精品国产电影| videosex国产| 视频中文字幕在线观看| 80岁老熟妇乱子伦牲交| 爱豆传媒免费全集在线观看| 久热久热在线精品观看| 男女啪啪激烈高潮av片| 一区二区三区乱码不卡18| 亚洲国产日韩一区二区| 搡老乐熟女国产| 一级毛片aaaaaa免费看小| 一本色道久久久久久精品综合| 欧美一级a爱片免费观看看| 国产精品免费大片| 91精品一卡2卡3卡4卡| 黑人欧美特级aaaaaa片| 国产成人精品福利久久| 人妻人人澡人人爽人人| a级毛片在线看网站| 国产成人aa在线观看| 国产黄频视频在线观看| 免费黄网站久久成人精品| 中国三级夫妇交换| 人妻 亚洲 视频| 在线观看美女被高潮喷水网站| 亚洲中文av在线| 国语对白做爰xxxⅹ性视频网站| 人妻夜夜爽99麻豆av| 在线免费观看不下载黄p国产| 超色免费av| 亚洲国产成人一精品久久久| 各种免费的搞黄视频| 人妻 亚洲 视频| 色视频在线一区二区三区| 久久女婷五月综合色啪小说| 国产老妇伦熟女老妇高清| 亚洲av国产av综合av卡| 亚洲人成网站在线播| 18禁裸乳无遮挡动漫免费视频| 成年女人在线观看亚洲视频| 国产综合精华液| 免费看光身美女| 日韩欧美精品免费久久| 在线看a的网站| 国产精品国产三级国产专区5o| 3wmmmm亚洲av在线观看| 国产成人精品一,二区| 亚洲精品国产色婷婷电影| 久久久久国产网址| 99久国产av精品国产电影| 这个男人来自地球电影免费观看 | www.色视频.com| 精品亚洲乱码少妇综合久久| 日本猛色少妇xxxxx猛交久久| 午夜福利,免费看| 国产成人a∨麻豆精品| 夜夜看夜夜爽夜夜摸| 国语对白做爰xxxⅹ性视频网站| 国产精品一区二区在线观看99| 黄色怎么调成土黄色| 18+在线观看网站| 久久久国产一区二区| 新久久久久国产一级毛片| 国产精品秋霞免费鲁丝片| 亚洲精品乱码久久久v下载方式| 国产极品粉嫩免费观看在线 | 精品国产一区二区三区久久久樱花| 王馨瑶露胸无遮挡在线观看| 国产精品一区二区三区四区免费观看| 日韩成人av中文字幕在线观看| 麻豆成人av视频| 青青草视频在线视频观看| 一本一本久久a久久精品综合妖精 国产伦在线观看视频一区 | 亚洲欧美日韩另类电影网站| 久久久亚洲精品成人影院| 国产精品熟女久久久久浪| 美女脱内裤让男人舔精品视频| 日韩欧美精品免费久久| 欧美日韩综合久久久久久| 插阴视频在线观看视频| 精品国产一区二区三区久久久樱花| 观看美女的网站| 国产精品99久久久久久久久| 精品一区在线观看国产| 成人综合一区亚洲| 国产欧美另类精品又又久久亚洲欧美| 晚上一个人看的免费电影| 免费观看a级毛片全部| 在线观看www视频免费| 在线观看免费日韩欧美大片 | 天堂中文最新版在线下载| 日韩欧美精品免费久久| 国产成人精品在线电影| 免费观看无遮挡的男女| 日日摸夜夜添夜夜添av毛片| 大片电影免费在线观看免费| 91精品国产九色| 91久久精品电影网| 亚洲精品日本国产第一区| 国产成人午夜福利电影在线观看| 最新中文字幕久久久久| 免费看av在线观看网站| 日本午夜av视频| 亚洲国产成人一精品久久久| 美女主播在线视频| 久久久久久人妻| 大香蕉久久成人网| 婷婷成人精品国产| 婷婷色综合大香蕉| 午夜精品国产一区二区电影| 免费观看a级毛片全部| 中文字幕制服av| 国产伦精品一区二区三区视频9| 免费黄网站久久成人精品| www.色视频.com| 精品99又大又爽又粗少妇毛片| 九九久久精品国产亚洲av麻豆| 新久久久久国产一级毛片| 亚洲精品色激情综合| 国产淫语在线视频| 国产精品免费大片| 国产成人午夜福利电影在线观看| 搡老乐熟女国产| 人妻一区二区av| 亚洲情色 制服丝袜| 亚洲精华国产精华液的使用体验| 久久午夜综合久久蜜桃| 国产精品99久久久久久久久| 91久久精品国产一区二区三区| 午夜免费观看性视频| 中文精品一卡2卡3卡4更新| 亚洲国产毛片av蜜桃av| 亚洲精品乱久久久久久| 男人添女人高潮全过程视频| 国产国拍精品亚洲av在线观看| 在线观看一区二区三区激情| 一级片'在线观看视频| 国产淫语在线视频| av天堂久久9| 考比视频在线观看| 黄片播放在线免费| 久久鲁丝午夜福利片| 日本爱情动作片www.在线观看| 久久女婷五月综合色啪小说| 大片免费播放器 马上看| 五月开心婷婷网| 国产精品久久久久久av不卡| 一级毛片黄色毛片免费观看视频| 美女国产高潮福利片在线看| 22中文网久久字幕| 少妇人妻精品综合一区二区| 亚洲精品,欧美精品| 香蕉精品网在线| 美女主播在线视频| 欧美成人午夜免费资源| 又大又黄又爽视频免费| tube8黄色片| 亚洲内射少妇av| 少妇的逼水好多| 伦理电影免费视频| 久久久久久久久久成人| xxxhd国产人妻xxx| 成人亚洲精品一区在线观看| 插阴视频在线观看视频| 中文字幕人妻丝袜制服| 亚洲人与动物交配视频| 91aial.com中文字幕在线观看| 在线免费观看不下载黄p国产| 在线观看免费日韩欧美大片 | 2022亚洲国产成人精品| 亚洲国产欧美日韩在线播放| 我的女老师完整版在线观看| 青春草视频在线免费观看| 青春草亚洲视频在线观看| 国产精品99久久久久久久久| 91精品伊人久久大香线蕉| 国产高清不卡午夜福利| 亚洲欧美清纯卡通| 国产永久视频网站| 久久精品久久久久久久性| 国产国语露脸激情在线看| 丁香六月天网| 一级a做视频免费观看| 国产又色又爽无遮挡免| 美女xxoo啪啪120秒动态图| 大香蕉久久网| 久久国内精品自在自线图片| 亚洲欧美一区二区三区黑人 | 久久99蜜桃精品久久| 欧美 日韩 精品 国产| 久久久久精品久久久久真实原创| 久久久久久久久久久丰满| 免费久久久久久久精品成人欧美视频 | 国产午夜精品久久久久久一区二区三区| 啦啦啦啦在线视频资源| 亚洲色图 男人天堂 中文字幕 | 成人18禁高潮啪啪吃奶动态图 | 国产精品无大码| 午夜精品国产一区二区电影| 亚洲精品乱久久久久久|