• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取研究綜述*

      2022-03-25 01:05:50周筠昌陳振彬陳珂
      關(guān)鍵詞:語(yǔ)料文檔實(shí)體

      周筠昌,陳振彬,陳珂

      (1.廣東石油化工學(xué)院 計(jì)算機(jī)學(xué)院,廣東 茂名 525000;2.廣西師范大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,廣西 桂林 541000)

      關(guān)系抽取作為自然語(yǔ)言處理(Natural Language Processing,NLP)領(lǐng)域的基礎(chǔ)性任務(wù)之一,同時(shí)對(duì)自然語(yǔ)言處理的發(fā)展也產(chǎn)生著一定的影響。關(guān)系抽取的目標(biāo)是在給定文本中識(shí)別實(shí)體以及實(shí)體之間的關(guān)系,組成關(guān)系三元組(頭實(shí)體,關(guān)系,尾實(shí)體)。目前的研究中關(guān)系抽取仍存在有待解決的關(guān)鍵性問(wèn)題和瓶頸,如數(shù)據(jù)稀疏和誤差傳遞等問(wèn)題,這些問(wèn)題影響著關(guān)系抽取的模型效果,因此在未來(lái)的研究中關(guān)系抽取仍充滿(mǎn)挑戰(zhàn)性。

      本文在基于英文的實(shí)體關(guān)系抽取的基礎(chǔ)上,綜合了句子級(jí)和文檔級(jí)別兩個(gè)類(lèi)別的關(guān)系抽取、基于流水線和聯(lián)合抽取兩種抽取框架的關(guān)系抽取和基于遠(yuǎn)程監(jiān)督的關(guān)系抽取。本文只討論基于神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取研究成果,并對(duì)具有里程碑意義的研究成果進(jìn)行詳細(xì)的探討,以及分析了關(guān)系抽取目前存在的不足和仍需解決的問(wèn)題。

      1 關(guān)系抽取語(yǔ)料集

      目前關(guān)系抽取研究中,從文本的長(zhǎng)度進(jìn)行分類(lèi)大致可分為句子級(jí)別(sentence-level)的關(guān)系抽取和文檔級(jí)別(document-level)的關(guān)系抽取。句子級(jí)別的關(guān)系抽取相對(duì)于文檔級(jí)別的關(guān)系抽取而言簡(jiǎn)單,所給的文本句子中,頭實(shí)體和尾實(shí)體及其關(guān)系皆通過(guò)單句進(jìn)行表達(dá);文檔級(jí)別的關(guān)系抽取中,其頭實(shí)體和尾實(shí)體并不一定出現(xiàn)于同一句中,且其實(shí)體之間的關(guān)系可能存在于多個(gè)句子甚至多個(gè)段落之中。由于兩類(lèi)關(guān)系抽取的任務(wù)具有差異性,因此其所使用的語(yǔ)料集也并不相同。

      除了待抽取文本長(zhǎng)度外,目前的語(yǔ)料集可以細(xì)分為通過(guò)人工標(biāo)注生成的語(yǔ)料集和通過(guò)遠(yuǎn)程監(jiān)督生成的語(yǔ)料集兩類(lèi),這兩者之間的主要差別在于數(shù)據(jù)標(biāo)注的質(zhì)量。關(guān)系抽取研究中,較為廣泛的公開(kāi)語(yǔ)料集如表1所示。

      表1 關(guān)系抽取公開(kāi)語(yǔ)料集匯總

      2 基于流水線的關(guān)系抽取

      目前的關(guān)系抽取研究中,基于流水線的關(guān)系抽取相對(duì)較多,該類(lèi)關(guān)系抽取一般將關(guān)系抽取任務(wù)分成兩步:命名實(shí)體識(shí)別和關(guān)系分類(lèi)。

      2.1 基于特征的關(guān)系抽取模型

      早期的關(guān)系抽取模型中,比較依賴(lài)于對(duì)文本的特征的抽取工作。Mintz等[1]提出基于特征的關(guān)系分類(lèi)模型,他將實(shí)體事件的詞序列、詞性標(biāo)注、實(shí)體位置、實(shí)體臨近的k個(gè)詞作為詞法特征,另外使用依存句法分析,將實(shí)體之間的路徑作為語(yǔ)法特征。在此基礎(chǔ)上,Riedel等[2]提出了多實(shí)例學(xué)習(xí)來(lái)解決語(yǔ)料集在遠(yuǎn)程監(jiān)督過(guò)程中產(chǎn)生的噪音問(wèn)題。該方法提高了當(dāng)時(shí)關(guān)系抽取任務(wù)的模型效果。

      關(guān)系重疊是關(guān)系抽取領(lǐng)域中一個(gè)待改進(jìn)的關(guān)鍵性問(wèn)題。在關(guān)系抽取中,一個(gè)實(shí)體可能只和另一個(gè)實(shí)體存在單一的關(guān)系,這種關(guān)系類(lèi)型被定義為Normal類(lèi)型,代表沒(méi)有重疊的部分;但實(shí)際情況中,一個(gè)實(shí)體可以和另一個(gè)實(shí)體存在著多種關(guān)系,這種則被定義為EPO(Entity Pair Overlap);更復(fù)雜的情況則是一個(gè)實(shí)體和其他不同實(shí)體之間存在著多種關(guān)系,則被定義為SEO(Single Entity Overlap)。Hoffmann[3]等則提出多實(shí)例多標(biāo)簽(multi-instance multi-labels,MIML)來(lái)解決關(guān)系重疊的問(wèn)題。他們即將一系列包含實(shí)體對(duì)的句子作為輸入,利用概率圖模型,最終來(lái)獲得它們之間的關(guān)系。

      2.2 基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取

      2013年Mikolov等[4]提出了Word2vec,詞嵌入工具的提出改變了自然語(yǔ)言處理領(lǐng)域的版圖,深度學(xué)習(xí)方法開(kāi)始廣泛應(yīng)用于自然語(yǔ)言處理領(lǐng)域。詞的分布式嵌入表示,也成了基于深度學(xué)習(xí)的自然語(yǔ)言處理模型的核心部分。卷積神經(jīng)在圖像處理中的應(yīng)用取得不錯(cuò)的效果,因此在自然語(yǔ)言處理領(lǐng)域也逐漸被重視起來(lái)。2014年,Zeng等[5]使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行關(guān)系抽取任務(wù)。文中使用了詞嵌入模型[6],還使用了詞和兩個(gè)實(shí)體之間的距離向量作為模型的輸入,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)來(lái)抽取出句子的特征向量,最后經(jīng)過(guò)一個(gè)帶softmax分類(lèi)器的前向神經(jīng)網(wǎng)絡(luò)進(jìn)行關(guān)系分類(lèi)。

      2015年,Zeng等[7]提出了分段卷積神經(jīng)網(wǎng)絡(luò)(Piecewise Convolution Neural Network,PCNN),進(jìn)一步提升關(guān)系抽取的模型效果。在PCNN中的max-pooling操作并非是整個(gè)句子的特征,而是將句子分為三個(gè)部分:句子開(kāi)始到實(shí)體1,實(shí)體1到實(shí)體2,實(shí)體2到句子末,每個(gè)單獨(dú)的分段都有單獨(dú)的卷積神經(jīng)網(wǎng)絡(luò),它們之間的參數(shù)并不共享。這種優(yōu)勢(shì)在于能更好地學(xué)習(xí)到句子各個(gè)分段的特征,并且通過(guò)拼接的方式綜合考慮三個(gè)分段的信息,最后將其輸入softmax分類(lèi)器進(jìn)行分類(lèi)。

      2.3 基于注意力機(jī)制的關(guān)系抽取

      注意力機(jī)制的發(fā)展極大地促進(jìn)了自然語(yǔ)言處理的發(fā)展,在自然語(yǔ)言處理各個(gè)子領(lǐng)域(如文本分類(lèi)、情感分析等)上皆取得了不錯(cuò)的效果。Shen等[8]將注意力機(jī)制結(jié)合卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行關(guān)系抽取任務(wù)。該文獻(xiàn)中,卷積神經(jīng)網(wǎng)絡(luò)被用于提取全局特征,而注意力機(jī)制則分別基于兩個(gè)實(shí)體應(yīng)用于句子中的單詞。實(shí)體最后的一個(gè)字的詞嵌入和其他詞語(yǔ)的詞嵌入進(jìn)行拼接,計(jì)算每個(gè)詞語(yǔ)的注意力權(quán)重。詞向量通過(guò)使用注意力分?jǐn)?shù)進(jìn)行加權(quán)平均后得到注意力特征向量,然后將其和詞向量進(jìn)行拼接,輸入帶softmax的前饋神經(jīng)網(wǎng)絡(luò)進(jìn)行關(guān)系分類(lèi)。Zhang等[9]提出了基于LSTM的位置意識(shí)的注意力機(jī)制模型,也取得了不錯(cuò)的效果,其模型結(jié)構(gòu)見(jiàn)圖1。

      圖1 基于LSTM的位置意識(shí)注意力機(jī)制模型結(jié)構(gòu)

      2018年,Devlin等[10]提出了基于Transformer的BERT(Bidirectional Encoder Representations from Transformers)模型,它只采用了Transformer的編碼器部分卻超過(guò)了當(dāng)時(shí)自然語(yǔ)言處理各個(gè)任務(wù)的前沿模型和方法。隨后,基于BERT的子注意力模型不斷被提出,例如效果更好的ALBERT[11]等。BERT的基礎(chǔ)模型直接應(yīng)用到中文的關(guān)系抽取中就已經(jīng)取得不錯(cuò)的效果,Han等[12]則在開(kāi)放領(lǐng)域的文檔級(jí)關(guān)系抽取任務(wù)中使用了BERT模型,基于DEMMT(Document-level Entity Mask Method with Type Infor mation)的基礎(chǔ)上,提出了基于BERT的one-pass模型,文中模型在DocRED數(shù)據(jù)上進(jìn)行實(shí)驗(yàn),相比于其他State of art模型的F1值提高了6%。

      2.4 基于圖神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取

      近5年來(lái),圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network,GNN)逐漸被NLP領(lǐng)域?qū)W者們關(guān)注。

      2017年Quirk等[13]提出基于圖網(wǎng)絡(luò)的跨句關(guān)系抽取,該文中以句子中的詞作為圖的節(jié)點(diǎn),而其中的邊則由相鄰的詞、依存關(guān)系還有語(yǔ)義關(guān)系等決定。接下來(lái)在圖中計(jì)算出所有實(shí)體之間的可達(dá)路徑,而每一條路徑也表示著不同的文本特征,如句法特征、語(yǔ)義特征和詞性標(biāo)注等。通過(guò)以上特征來(lái)抽取出實(shí)體之間的關(guān)系。同年,Peng等[14]也在N元關(guān)系抽取中使用了圖神經(jīng)網(wǎng)絡(luò),不同的是該文中是將LSTM用于圖神經(jīng)網(wǎng)絡(luò)中。而基于LSTM的圖神經(jīng)網(wǎng)絡(luò)中,如果以文本中的詞作為節(jié)點(diǎn),其中的邊只包含詞與詞之間的鄰接關(guān)系,此時(shí)的LSTM是常規(guī)的線性LSTM神經(jīng)網(wǎng)絡(luò);但如果邊的信息包含了依存句法樹(shù)中所表現(xiàn)的詞之間的依存關(guān)系,則變成了樹(shù)形LSTM(tree-LSTM),其模型架構(gòu)見(jiàn)圖2。而與之相近的成果就是Song等[15]所發(fā)表的文獻(xiàn)。Song等與Peng等的任務(wù)不同之處在于并沒(méi)有把圖分為兩個(gè),而是直接在圖上進(jìn)行迭代t個(gè)時(shí)間步更新圖的節(jié)點(diǎn),如圖2所示,當(dāng)前時(shí)間步的隱藏狀態(tài),通過(guò)在圖結(jié)構(gòu)中與之相鄰的結(jié)點(diǎn)信息的上一時(shí)間步的信息對(duì)其更新獲得。

      圖2 基于Graph-LSTM的跨句N(xiāo)元關(guān)系抽取模型

      在關(guān)系抽取任務(wù)中,最短依存路徑(Shortest Dependency Path,SDP)被證實(shí)能有效地提取實(shí)體之間的關(guān)鍵信息,Guo等[16]提出了在GCN中使用軟剪枝會(huì)對(duì)GCN模型的效果有所提升,因此考慮整個(gè)依存樹(shù)信息來(lái)構(gòu)建鄰接矩陣,并使用多頭子注意力機(jī)制進(jìn)行軟剪枝來(lái)區(qū)分獲得重要程度。

      圖神經(jīng)網(wǎng)絡(luò)在文檔級(jí)的關(guān)系抽取中,也取得了不錯(cuò)的效果。Sahu等[17]將文檔中的單詞作為圖結(jié)點(diǎn),同時(shí)基于依存句法樹(shù)、鄰接的詞語(yǔ)和公指關(guān)系來(lái)確定邊。類(lèi)似的工作如Christopoulou等[18]提出的方法,不同之處在于Christopoulou等使用啟發(fā)式算法在文檔的不同成分之間建立自然聯(lián)系的邊,用邊來(lái)構(gòu)建圖,而這些邊的建立又基于預(yù)先定義的文檔級(jí)的相互關(guān)系,比如Mention-Mention(MM)、Mention-Sentence(MS)等,然后使用圖神經(jīng)網(wǎng)絡(luò)進(jìn)行特征學(xué)習(xí),最后在推理層迭代N次后進(jìn)行關(guān)系分類(lèi),該模型在CDR數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)并取得了不錯(cuò)的效果。

      3 聯(lián)合抽取

      上述所有工作都是基于實(shí)體已經(jīng)被識(shí)別出來(lái)的基礎(chǔ)上,進(jìn)行關(guān)系抽取任務(wù),我們稱(chēng)之為基于流水線的關(guān)系抽取,它大致地將關(guān)系抽取任務(wù)分為實(shí)體識(shí)別和關(guān)系抽取兩步。是否能將這兩個(gè)步驟進(jìn)行一體化則是聯(lián)合抽取重點(diǎn)解決的問(wèn)題。

      在初期的聯(lián)合抽取研究中,學(xué)者們?cè)噲D通過(guò)共享參數(shù)的方式將命名實(shí)體識(shí)別和關(guān)系分類(lèi)任務(wù)一體化。這些工作首先找出文本中所有可能的實(shí)體對(duì),然后在文中抽取所有的實(shí)體組合的關(guān)系。命名實(shí)體識(shí)別任務(wù)和關(guān)系分類(lèi)任務(wù)都是通過(guò)同一個(gè)神經(jīng)網(wǎng)絡(luò)進(jìn)行實(shí)現(xiàn),嚴(yán)格意義上,并沒(méi)有實(shí)現(xiàn)真正的聯(lián)合抽取。

      Zheng等[19]提出了第一個(gè)真正意義上的聯(lián)合抽取模型。文中工作的主要思想是將聯(lián)合抽取任務(wù)轉(zhuǎn)換成序列標(biāo)注任務(wù)處理。通過(guò)組合實(shí)體標(biāo)簽和關(guān)系標(biāo)簽,構(gòu)建新的標(biāo)注標(biāo)簽,通過(guò)新的標(biāo)簽?zāi)軌驅(qū)?shí)體信息和關(guān)系信息進(jìn)行編碼,然后通過(guò)使用由BiLSTM和LSTM組成使用該標(biāo)簽進(jìn)行序列標(biāo)注任務(wù),最終通過(guò)標(biāo)注的結(jié)果給出句子中所包含的關(guān)系三元組。Zeng等[20]提出了使用Eoncode-Decode網(wǎng)絡(luò)中的復(fù)制機(jī)制(Copy Mechanism)進(jìn)行抽取關(guān)系三元組來(lái)解決實(shí)體重疊的問(wèn)題。Takanobu等[21]提出使用層次強(qiáng)化學(xué)習(xí)進(jìn)行關(guān)系抽取任務(wù);Nayak等[22]在Encoder-Decoder框架的基礎(chǔ)上提出了一個(gè)詞級(jí)的解碼器框架和一個(gè)基于指針的解碼器框架。

      4 結(jié)語(yǔ)

      基于流水線的關(guān)系抽取中,數(shù)據(jù)稀疏問(wèn)題尤為嚴(yán)重,None類(lèi)別的數(shù)據(jù)占據(jù)了絕大部分,但None類(lèi)別的數(shù)據(jù)中并非所有樣本都是無(wú)關(guān)系類(lèi)別,部分樣本所屬關(guān)系類(lèi)別可能不在定義的關(guān)系集中,導(dǎo)致最終被分類(lèi)為None類(lèi)別,而None類(lèi)別的關(guān)系樣本對(duì)于深度學(xué)習(xí)模型沒(méi)有太多的幫助也不能幫助構(gòu)建知識(shí)圖譜。

      聯(lián)合抽取的研究中,目前已有的工作并不能很好地考慮到樣本訓(xùn)練集或者測(cè)試集中不存在關(guān)系三元組的情況,因此在未來(lái)的研究中如何識(shí)別和處理文本中無(wú)關(guān)系的類(lèi)別將是一項(xiàng)挑戰(zhàn)。另外,由于數(shù)據(jù)稀疏的問(wèn)題和數(shù)據(jù)集的質(zhì)量都普遍不高、遷移性差等問(wèn)題,基于Zero-shot和Few-shot的小樣本學(xué)習(xí)關(guān)系抽取將是未來(lái)一段時(shí)間的研究熱點(diǎn)。

      猜你喜歡
      語(yǔ)料文檔實(shí)體
      有人一聲不吭向你扔了個(gè)文檔
      前海自貿(mào)區(qū):金融服務(wù)實(shí)體
      實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
      兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
      振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
      基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
      《苗防備覽》中的湘西語(yǔ)料
      景谷| 辽阳市| 应城市| 澄江县| 丹棱县| 永登县| 阿拉善盟| 神池县| 亚东县| 邵武市| 广州市| 定州市| 肃南| 河曲县| 凤城市| 独山县| 靖宇县| 浠水县| 磐石市| 房产| 班玛县| 胶州市| 天津市| 长乐市| 延津县| 驻马店市| 临漳县| 抚州市| 安仁县| 罗甸县| 平遥县| 平罗县| 丹寨县| 元氏县| 深泽县| 灵宝市| 甘谷县| 马山县| 绥宁县| 昌都县| 二连浩特市|