摘要:隨著自然語言處理技術(shù)和產(chǎn)業(yè)的發(fā)展,知識(shí)圖譜的構(gòu)建成為企業(yè)和高校研究的主要領(lǐng)域,實(shí)體關(guān)系抽取則是構(gòu)建知識(shí)圖譜的關(guān)鍵技術(shù)。文章以CNKI數(shù)據(jù)庫為數(shù)據(jù)源,以實(shí)體關(guān)系抽取領(lǐng)域相關(guān)研究性文獻(xiàn)為研究對(duì)象,采用文獻(xiàn)計(jì)量學(xué)的方法,借助CiteSpace可視化工具對(duì)該研究領(lǐng)域進(jìn)行關(guān)鍵詞共現(xiàn)分析,挖掘該領(lǐng)域的研究熱點(diǎn)和研究前沿發(fā)展脈絡(luò),使用文獻(xiàn)述評(píng)的方法對(duì)實(shí)體關(guān)系抽取任務(wù)進(jìn)行評(píng)述和梳理,最后對(duì)實(shí)體關(guān)系抽取研究領(lǐng)域的發(fā)展趨勢進(jìn)行展望。
關(guān)鍵詞:實(shí)體關(guān)系抽取;CiteSpace;深度學(xué)習(xí)
中圖法分類號(hào):TP182文獻(xiàn)標(biāo)識(shí)碼:A
Research and visual analysis of entity relationship extraction based on CiteSpace
XUE Jianan
(College of Information Management,Nanjing Agricultural University,Nanjing 210095,China)
Abstract:With the development of natural language processing technology and industry, theconstruction of knowledge map has become the main research direction of enterprises anduniversities. Entity relationship extraction is the key technology of constructing knowledge map.Based on the CNKI database, this paper takes relevant research literature in the field of entityrelationship extraction as the research object. With the method of bibliometrics and CiteSpacevisualization tool, this paper analyzes the keyword co-occurrence of this research field, and excavatesthe research hotspot and development context of this field. Using the method of literature review,this paper reviews and combs the different methods of entity relationship extraction task. Finally,this paper looks forward to the research trend in the research field of entity relation extraction.
Key words: entity relationship extraction,CiteSpace,deep learning
1? 引言
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,如何從紛繁復(fù)雜的海量信息中快速獲取有效信息是諸多研究者的一個(gè)重要課題。在該背景下,自然語言處理 ( Natural Language Processing,NLP)技術(shù)的發(fā)展引起了相關(guān)學(xué)者的廣泛關(guān)注。其中,實(shí)體關(guān)系抽取 ( Relation Extraction,RE)是實(shí)現(xiàn)信息有效提取的關(guān)鍵技術(shù)。
實(shí)體關(guān)系抽取也被稱為“關(guān)系抽取”或“三元組抽取”,其目的是確定實(shí)體對(duì)之間蘊(yùn)含的關(guān)系。實(shí)體關(guān)系抽取的結(jié)果為實(shí)體關(guān)系三元組(實(shí)體1,關(guān)系,實(shí)體2)的形式,用來表示實(shí)體對(duì)之間的特定關(guān)系。實(shí)體關(guān)系抽取任務(wù)是本體構(gòu)建、圖譜推理、信息檢索等技術(shù)的重要基礎(chǔ),也是人工智能應(yīng)用的重要基礎(chǔ)支撐。
本文基于文獻(xiàn)計(jì)量學(xué)的方法,統(tǒng)計(jì)實(shí)體關(guān)系抽取領(lǐng)域的關(guān)鍵詞并進(jìn)行定量分析,以獲取該領(lǐng)域的研究熱點(diǎn)和發(fā)展脈絡(luò),并在此基礎(chǔ)上對(duì)各種實(shí)體關(guān)系抽取技術(shù)進(jìn)行闡釋和評(píng)述,分析關(guān)系抽取方法的特征,從而對(duì)關(guān)系抽取的研究趨勢做出展望。
2? 研究熱點(diǎn)與前沿可視化分析
本文數(shù)據(jù)來源為 CNKI 數(shù)據(jù)庫,檢索方式為主題檢索,檢索關(guān)鍵詞為:“實(shí)體關(guān)系抽取”“三元組抽取”“關(guān)系抽取”;檢索時(shí)間跨度不限;設(shè)置檢索文獻(xiàn)類型為研究論文;檢索時(shí)間為2022年 3月 5日。通過檢索獲得1455篇文獻(xiàn)。本文以CiteSpace為可視化工具,目的是實(shí)現(xiàn)相關(guān)文獻(xiàn)的關(guān)鍵詞聚類和研究前沿演進(jìn)分析。
2.1? 關(guān)鍵詞聚類分析
使用CiteSpace繪制實(shí)體關(guān)系抽取相關(guān)研究的關(guān)鍵詞共現(xiàn)圖譜,圖中節(jié)點(diǎn)數(shù)多,中心區(qū)域節(jié)點(diǎn)較大且連接緊密,表明這部分的研究之間關(guān)聯(lián)緊密,主要關(guān)鍵詞包括知識(shí)圖譜、表示學(xué)習(xí)、聯(lián)合抽取等。在關(guān)鍵詞高頻排序表中,除了關(guān)系抽取等一般性關(guān)鍵詞外,知識(shí)圖譜、深度學(xué)習(xí)、實(shí)體識(shí)別、遠(yuǎn)程監(jiān)督等關(guān)鍵詞的詞頻較高。其中,知識(shí)圖譜、問答系統(tǒng)與實(shí)體關(guān)系抽取的下游應(yīng)用研究相關(guān)。實(shí)體鏈接、實(shí)體融合等關(guān)鍵詞說明實(shí)體融合相關(guān)研究是關(guān)系抽取的研究熱點(diǎn)之一。而深度學(xué)習(xí)、遠(yuǎn)程監(jiān)督、本體、神經(jīng)網(wǎng)絡(luò)等關(guān)鍵詞則主要涉及實(shí)體關(guān)系抽取實(shí)現(xiàn)的方法技術(shù)研究。
由此可見,實(shí)體關(guān)系抽取的研究比較廣泛,主要涉及關(guān)系抽取實(shí)現(xiàn)方法研究、實(shí)體融合相關(guān)研究、實(shí)體關(guān)系應(yīng)用相關(guān)研究等方向。其中,主要的研究方向聚焦于關(guān)系抽取實(shí)現(xiàn)方法。
2.2? 研究前沿演進(jìn)分析
借助CiteSpace對(duì)關(guān)鍵詞進(jìn)行主題聚類,并繪制該研究領(lǐng)域的關(guān)鍵詞聚類時(shí)區(qū)圖譜。同時(shí),在關(guān)鍵詞聚類時(shí)區(qū)圖譜的基礎(chǔ)上得到實(shí)體關(guān)系抽取研究突現(xiàn)詞表。突現(xiàn)詞是指某個(gè)關(guān)鍵詞變量在短時(shí)間內(nèi)發(fā)生了較大改變,代表著這一時(shí)間段的研究熱點(diǎn)。
實(shí)體關(guān)系抽取研究關(guān)鍵詞個(gè)數(shù)整體隨時(shí)間的推移呈現(xiàn)上升態(tài)勢,從2011年的“平平淡淡”到2021年呈現(xiàn)“百花齊放”的趨勢。通過突顯詞表可以發(fā)現(xiàn),實(shí)體關(guān)系抽取研究大致分為三個(gè)階段,即早期階段、中期階段和最新階段。
早期階段(2011~ 2016年)。這一階段的主要突現(xiàn)關(guān)鍵詞為信息抽取、關(guān)聯(lián)數(shù)據(jù)、本體、領(lǐng)域本體、情感分析等。相關(guān)研究中,相關(guān)學(xué)者關(guān)注本體概念的研究,研究熱點(diǎn)為領(lǐng)域本體、關(guān)聯(lián)數(shù)據(jù)等。
中期階段(2016~ 2018年)。在這一階段,由于計(jì)算機(jī)的計(jì)算能力不斷提高,以及自然語言處理中機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等概念方法的引入,都對(duì)實(shí)體關(guān)系抽取研究產(chǎn)生了重要影響,知識(shí)庫、詞向量、機(jī)器學(xué)習(xí)、實(shí)體鏈接等關(guān)鍵詞成為研究熱點(diǎn),學(xué)者將人工智能技術(shù)應(yīng)用于實(shí)體關(guān)系抽取實(shí)現(xiàn)中,成為當(dāng)時(shí)的研究前沿。
最新階段(2018~ 2022年)。在這一階段,人工智能算法被廣泛應(yīng)用于實(shí)體關(guān)系抽取研究中,LSTM 、神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)模型的研究成為熱點(diǎn),是學(xué)者的重點(diǎn)研究方向。同時(shí),語義網(wǎng)、關(guān)系推理、表示學(xué)習(xí)等概念出現(xiàn)并引發(fā)學(xué)者的關(guān)注,是關(guān)系抽取研究領(lǐng)域的關(guān)鍵節(jié)點(diǎn)。2020年,事理圖譜出現(xiàn)并持續(xù)引發(fā)關(guān)注,研究熱度保持至今,是關(guān)系抽取研究領(lǐng)域具有較強(qiáng)發(fā)展?jié)摿Φ年P(guān)鍵節(jié)點(diǎn)。
本文通過文獻(xiàn)計(jì)量的方法,利用可視化技術(shù)對(duì)實(shí)體關(guān)系抽取研究的關(guān)鍵詞進(jìn)行統(tǒng)計(jì),對(duì)該領(lǐng)域的研究熱點(diǎn)和研究前沿發(fā)展進(jìn)行了分析,由分析可知:(1)實(shí)體關(guān)系抽取的主要研究方法為實(shí)體關(guān)系抽取的實(shí)現(xiàn)方法研究;(2)實(shí)體關(guān)系抽取的研究發(fā)展大致分為三個(gè)階段,研究階段的迭代與實(shí)體關(guān)系抽取方法的更新密切相關(guān)。因此,下文對(duì)實(shí)體關(guān)系抽取領(lǐng)域的不同研究階段的抽取實(shí)現(xiàn)方法進(jìn)行了詳細(xì)探討,梳理了實(shí)體關(guān)系抽取方法的主要研究脈絡(luò)。
3? 實(shí)體關(guān)系抽取方法研究現(xiàn)狀
實(shí)體關(guān)系抽取方法大致分為基于規(guī)則的關(guān)系抽取、基于機(jī)器學(xué)習(xí)的關(guān)系抽取和基于深度學(xué)習(xí)的關(guān)系抽取。
3.1? 基于規(guī)則的關(guān)系抽取
基于規(guī)則的關(guān)系抽取方法主要是指通過人工構(gòu)造語義規(guī)則和相關(guān)詞典,針對(duì)領(lǐng)域中的非結(jié)構(gòu)化文本進(jìn)行相關(guān)匹配,完成關(guān)系抽取的分類。其缺陷在于要求規(guī)則構(gòu)建者對(duì)領(lǐng)域背景和特點(diǎn)有深入了解,同時(shí)具備語言學(xué)知識(shí),所以實(shí)現(xiàn)成本高、難度大,也存在對(duì)跨領(lǐng)域文本關(guān)系抽取的可移植性差等問題。
3.2? 基于機(jī)器學(xué)習(xí)的關(guān)系抽取
基于機(jī)器學(xué)習(xí)的關(guān)系抽取方法可以分為三類,即有監(jiān)督學(xué)習(xí)方法、半監(jiān)督學(xué)習(xí)方法和無監(jiān)督學(xué)習(xí)方法。
有監(jiān)督學(xué)習(xí)方法將關(guān)系抽取問題視為分類問題,利用機(jī)器學(xué)習(xí)方法和大規(guī)模人工標(biāo)注語料訓(xùn)練用于特定領(lǐng)域?qū)嶓w關(guān)系分類的分類器。朱惠[1]等引入共現(xiàn)分析、結(jié)構(gòu)分析、模板構(gòu)建、邏輯推理等方法構(gòu)建關(guān)系抽取模型,取得了較好的實(shí)驗(yàn)結(jié)果。有監(jiān)督學(xué)習(xí)方法在關(guān)系任務(wù)中取得了較好的效果,然而其缺陷在于依賴標(biāo)注的語料資源庫,標(biāo)注成本較高。
半監(jiān)督學(xué)習(xí)方法與有監(jiān)督學(xué)習(xí)方法相比減少了標(biāo)注成本,利用少量標(biāo)注文本或者模板,通過迭代,即可從更多無標(biāo)注文本中抽取出實(shí)體關(guān)系。蔣婷、孫建軍 [2]提出了一種先對(duì)術(shù)語類型進(jìn)行抽取,再結(jié)合外部詞庫和基于 Web 的方法抽取關(guān)系概念對(duì),最后利用圖剪枝方法減少噪音,并通過實(shí)驗(yàn)證明該方法的有效性。半監(jiān)督學(xué)習(xí)方法不需要大量的人工標(biāo)注,同時(shí)可以獲得較高的準(zhǔn)確率,但其容易在模型迭代過程中易產(chǎn)生噪聲問題。
有監(jiān)督學(xué)習(xí)方法和半監(jiān)督學(xué)習(xí)方法都一定程度上依賴人工標(biāo)注,學(xué)者利用聚類的思想,提出了無監(jiān)督學(xué)習(xí)方法用于實(shí)體關(guān)系抽取。無監(jiān)督學(xué)習(xí)方法的實(shí)現(xiàn)原理是:自下而上地從大量文本中利用相似度計(jì)算抽取實(shí)體之間含義相近的實(shí)體,并將其聚成一類,然后將同一類實(shí)體標(biāo)記合適的名稱,從而完成實(shí)體關(guān)系的提取。無監(jiān)督學(xué)習(xí)方法無須大量的人工標(biāo)注并提前定義實(shí)體關(guān)系的類型,往往具有一定的可移植性,適合大規(guī)模語料庫中實(shí)體關(guān)系抽取工作。但是,該方法比較依賴數(shù)據(jù)庫的質(zhì)量,存在召回率低等問題。
3.3? 基于深度學(xué)習(xí)的關(guān)系抽取
基于深度學(xué)習(xí)的關(guān)系抽取方法是指通過訓(xùn)練大量數(shù)據(jù),能較好地自動(dòng)獲取模型特征,不需要人工預(yù)先提取特征。研究者將基于深度學(xué)習(xí)的關(guān)系抽取方法應(yīng)用于實(shí)體關(guān)系抽取并取得了大量研究成果?;谏疃葘W(xué)習(xí)的關(guān)系抽取方法分為有監(jiān)督深度學(xué)習(xí)方法和遠(yuǎn)程監(jiān)督深度學(xué)習(xí)方法,二者的主要區(qū)別在于數(shù)據(jù)集的構(gòu)建方法不同。
3.3.1? 有監(jiān)督深度學(xué)習(xí)方法
有監(jiān)督深度學(xué)習(xí)方法主要分為流水線學(xué)習(xí)方法和聯(lián)合學(xué)習(xí)方法。流水線學(xué)習(xí)方法是指首先完成命名實(shí)體識(shí)別,然后對(duì)識(shí)別的實(shí)體進(jìn)行關(guān)系抽取。Song L [3]等將圖結(jié)構(gòu)與 LSTM 模型結(jié)合,提出了一種基于圖的 LSTM 多元關(guān)系抽取模型,并用實(shí)驗(yàn)驗(yàn)證該方法具有較好的效果。高丹[4]等提出一種基于 CNN 和改進(jìn)核函數(shù)的多實(shí)體關(guān)系抽取模型,并通過實(shí)驗(yàn)驗(yàn)證該模型具有較好的效果。
流水線學(xué)習(xí)方法的實(shí)驗(yàn)結(jié)果相對(duì)良好,但是其將實(shí)體識(shí)別和實(shí)體關(guān)系抽取分割為兩個(gè)完全獨(dú)立的任務(wù),從而忽略了二者的聯(lián)系,這會(huì)導(dǎo)致大量信息被忽略,同時(shí)又會(huì)產(chǎn)生錯(cuò)誤傳遞,即前一個(gè)任務(wù)的錯(cuò)誤會(huì)被帶入下一階段的任務(wù)中。為解決這些問題,學(xué)者嘗試將命名識(shí)別和實(shí)體關(guān)系抽取融合成一個(gè)任務(wù),進(jìn)行聯(lián)合學(xué)習(xí)。 Zheng S[5]等提出了一種用于 NER 和 RC 的聯(lián)合模型,同時(shí)用到 CNN 和 LSTM,該方法取得了較好效果。
綜上,深度學(xué)習(xí)算法被學(xué)者廣泛應(yīng)用于實(shí)體關(guān)系抽取任務(wù)的探索中,并不斷提升抽取效果,隨算法技術(shù)的不斷發(fā)展,遷移學(xué)習(xí)、注意力機(jī)制、強(qiáng)化學(xué)習(xí)等更多方法用于解決實(shí)體關(guān)系跨領(lǐng)域遷移、減少人工標(biāo)注成本等問題。
3.3.2? 遠(yuǎn)程監(jiān)督深度學(xué)習(xí)方法
有監(jiān)督深度學(xué)習(xí)方法采取自上而下的抽取策略,遠(yuǎn)程監(jiān)督深度學(xué)習(xí)方法則與其不同—采取自下而上的策略,利用數(shù)據(jù)對(duì)齊技術(shù)從大量無標(biāo)注數(shù)據(jù)集中挖掘?qū)嶓w關(guān)系。李穎[6]等提出了一種基于中文依存句法的遠(yuǎn)程監(jiān)督深度學(xué)習(xí)方法,用于實(shí)體關(guān)系抽取任務(wù)中,實(shí)驗(yàn)證明該方法可以獲得較高準(zhǔn)確率。減少關(guān)系抽取過程中的噪音問題是遠(yuǎn)程監(jiān)督深度學(xué)習(xí)方法的主要研究方向。目前,遠(yuǎn)程監(jiān)督深度學(xué)習(xí)方法獲取的數(shù)據(jù)集準(zhǔn)確率較低。同時(shí),遠(yuǎn)程監(jiān)督關(guān)系抽取模型在模型準(zhǔn)確度和召回率的表現(xiàn)上與有監(jiān)督關(guān)系抽取模型之間仍有一定差距。
4? 實(shí)體關(guān)系抽取方法研究趨勢
實(shí)體關(guān)系抽取經(jīng)過眾多學(xué)者的探索和嘗試,相關(guān)技術(shù)已經(jīng)日趨成熟。但是,目前仍然面臨一些問題和挑戰(zhàn)。結(jié)合上文對(duì)該領(lǐng)域研究論文的定量分析與關(guān)系抽取不同方法的梳理,本文認(rèn)為,未來該領(lǐng)域會(huì)呈現(xiàn)以下發(fā)展趨勢。
4.1? 基于深度學(xué)習(xí)方法的持續(xù)研究
深度學(xué)習(xí)方法被廣泛應(yīng)用于實(shí)體關(guān)系抽取中,并不斷獲得階段性成果。學(xué)者對(duì)于關(guān)系抽取問題的知識(shí)圖譜、注意力機(jī)制、遷移學(xué)習(xí)等方法的探索均以深度學(xué)習(xí)方法為基礎(chǔ),進(jìn)一步往跨領(lǐng)域、跨語言以及減少人工標(biāo)注成本等研究方向探索。
4.2? 開放領(lǐng)域的深入研究
隨著特定領(lǐng)域、特定語料的關(guān)系抽取方法趨于成熟,學(xué)者已經(jīng)開始將研究焦點(diǎn)轉(zhuǎn)為開放領(lǐng)域。在開放領(lǐng)域的實(shí)體關(guān)系抽取任務(wù)中,如何不斷提高實(shí)體關(guān)系抽取的準(zhǔn)確率、召回率是一個(gè)重要的研究方向。
5? 結(jié)語
實(shí)體關(guān)系抽取是自然語言處理領(lǐng)域重要的任務(wù)之一,是知識(shí)圖譜、智能檢索等應(yīng)用的關(guān)鍵技術(shù)。本文通過定量分析的方法發(fā)現(xiàn)實(shí)體關(guān)系抽取研究領(lǐng)域包含關(guān)系抽取實(shí)現(xiàn)、實(shí)體融合、實(shí)體關(guān)系應(yīng)用等多個(gè)研究方向。其中,關(guān)系抽取實(shí)現(xiàn)方法是最主要的研究方向,相關(guān)學(xué)者致力于不斷提升抽取效果、抽取準(zhǔn)確率和召回率。
參考文獻(xiàn):
[1] 朱惠,王昊,蘇新寧,等.漢語領(lǐng)域術(shù)語非分類關(guān)系抽取方法研究[J].情報(bào)學(xué)報(bào),2018,37(12):1193?1203.
[2] 蔣婷,孫建軍.領(lǐng)域?qū)W術(shù)本體概念等級(jí)關(guān)系抽取研究[J].情報(bào)學(xué)報(bào),2017,36(10):1080?1092.
[3] Song L,Zhang Y,Wang Z ,et al.N ?ary Relation Extraction using Graph State LSTM[J].arXiv preprint arXiv,2018.
[4] 高丹,彭敦陸,劉叢.海量法律文書中基于 CNN 的實(shí)體關(guān)系抽取技術(shù)[ J].小型微型計(jì)算機(jī)系統(tǒng),2018,39(5):1021? 1026.
[5] Zheng? S ,Hao? Y ,Lu? D ,et? al.Joint? entity? and? relation extraction? based? on? a? hybrid? neural? network?? [ J ]. Neurocomputing,2016,257:59?66.
[6] 李穎,郝曉燕,王勇.中文開放式多元實(shí)體關(guān)系抽取[J].計(jì)算機(jī)科學(xué),2017,44(S1):80?83.
作者簡介:
薛嘉楠(1997—) ,碩士,研究方向:數(shù)字人文。