中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2025)08-0117-10
Abstract:As a structured semantic knowledge base,the Knowledge Graph plays a key role in many fields such as informationretrval,intellgntquestionasweringandcommendationsystems.Thisapeviews tetheecorecopoents of KnowledgeGraphconstruction,informationextraction,knowledgefusion,andknowledgerasoning.Informationetraction technologyhasdevelopedfromrule-basedmethods toMachineLearing model,andthentoDepLeaingmodel.Itiscurently evolvingtowardsajoint EntityRelationshipExtractionmodel thatreduces erorpropagationandimprovesaccuracy.Inthepart ofknowledgefusion,thestrategiesofentitylinkingandkowledge mergingarediscussed,andtheproblemofentityrecogition is solved byentitydisambiguationand entity alignment.The sectionon knowledge reasoning analyzes the reasoning methods basedonrules,epresentationlearningandDeepLeaming,anditsaplcationinnewknowledge discoveryanderorinformation corection.Finallytehallengesinteonstuctionprocessaepontedout,andsuggestiosforutureesearchditiosare proposed to promote the development of knowledge graph research and application.
Keywords: Knowledge Graph; information extraction; knowledge fusion; knowledge reasoning; Deep Learning
0 引言
20世紀(jì)90年代,計(jì)算機(jī)網(wǎng)絡(luò)在世界各地得到普及,網(wǎng)絡(luò)信息資源日漸豐富,信息數(shù)據(jù)呈現(xiàn)規(guī)模海量、類型繁多和快速增長(zhǎng)等特征。為方便網(wǎng)絡(luò)中的數(shù)據(jù)得到更好地共享和使用,90年代末,萬維網(wǎng)之父TimBerners-Lee提出“語義網(wǎng)”的概念?!罢Z義網(wǎng)”描述了萬維網(wǎng)中資源、數(shù)據(jù)之間的關(guān)系,通過給萬維網(wǎng)上的文檔添加能夠被計(jì)算機(jī)所理解的語義“元數(shù)據(jù)”,形成標(biāo)準(zhǔn)化,從而使整個(gè)互聯(lián)網(wǎng)成為一個(gè)通用的信息交換媒介。2012年,Google公司基于“語義網(wǎng)”提出知識(shí)圖譜的概念,其以實(shí)體(客觀世界的概念)和關(guān)系(兩個(gè)實(shí)體間的關(guān)聯(lián))為基礎(chǔ),通過有向圖的方式展現(xiàn)了實(shí)體間的關(guān)系。圖1是一個(gè)小型知識(shí)圖譜:其中《飛馳人生2》是一個(gè)電影實(shí)體,韓寒是一個(gè)導(dǎo)演實(shí)體,沈騰是一個(gè)演員實(shí)體,韓寒和《飛馳人生2》之間的關(guān)系是執(zhí)導(dǎo),沈騰和《飛馳人生2》之間的關(guān)系是出演。知識(shí)圖譜對(duì)事物間“關(guān)系”地注重提高了搜索引擎對(duì)用戶搜索意圖的理解,使其返回的結(jié)果更符合用戶的需求。之后,隨著人工智能技術(shù)的蓬勃發(fā)展,人工智能對(duì)知識(shí)的需求愈發(fā)龐大且不斷增長(zhǎng),促進(jìn)了國內(nèi)外各種通用或領(lǐng)域知識(shí)圖譜的發(fā)展應(yīng)用,比較有代表性的有微軟提出的概率性概念知識(shí)圖譜Probase[1],基于維基百科的多領(lǐng)域知識(shí)圖譜DBpedia[2],國內(nèi)開放知識(shí)圖譜OpenKG[3]等。
為使人和計(jì)算機(jī)能更好地理解和應(yīng)用知識(shí),相關(guān)研究者針對(duì)知識(shí)圖譜的構(gòu)建開展了大量研究,研究的重心圍繞著知識(shí)圖譜構(gòu)建過程中的信息抽取、知識(shí)融合、知識(shí)推理三部分?,F(xiàn)對(duì)這三個(gè)部分的研究進(jìn)行介紹并加以綜述,并簡(jiǎn)要分析知識(shí)圖譜目前的挑戰(zhàn)和未來的研究方向,為其下一步的研究提供參考。圖2為知識(shí)圖譜的體系架構(gòu)。
1信息抽取
知識(shí)圖譜的本質(zhì)是一個(gè)知識(shí)網(wǎng)絡(luò),其基本組成單元是由(實(shí)體1、關(guān)系、實(shí)體2)組成的三元組,通過三元組可以描述現(xiàn)實(shí)世界中的復(fù)雜關(guān)系。因此,從海量非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)中,提取出結(jié)構(gòu)化三元組的信息抽取技術(shù)可謂至關(guān)重要。信息抽取包含命名實(shí)體識(shí)別和實(shí)體關(guān)系抽取兩個(gè)子任務(wù)。
1. 1 命名實(shí)體識(shí)別
命名實(shí)體識(shí)別指的是從文本中識(shí)別出具有特定意義的實(shí)體,如人名、地名、時(shí)間、數(shù)字等。在文本“春節(jié)檔熱映的電影《飛馳人生2》由韓寒執(zhí)導(dǎo)”中,“飛馳人生2”和“韓寒”就是實(shí)體,實(shí)體“飛馳人生2”的類型是“電影”,實(shí)體“韓寒”的類型是“導(dǎo)演”。對(duì)命名實(shí)體識(shí)別的研究主要經(jīng)歷了基于規(guī)則的方法、基于機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法三個(gè)階段。
1.1.1 基于規(guī)則的命名實(shí)體識(shí)別方法
早期的命名實(shí)體識(shí)別方法需先針對(duì)目標(biāo)實(shí)體通過人工構(gòu)建規(guī)則,再根據(jù)規(guī)則從文本中尋找匹配的內(nèi)容來識(shí)別實(shí)體。例如文獻(xiàn)[4]提出的DL-CoTrain方法,通過預(yù)先規(guī)定規(guī)則集合,再根據(jù)語料對(duì)該集合進(jìn)行訓(xùn)練迭代,以得到更多的規(guī)則,最后將規(guī)則用于對(duì)命名實(shí)體的識(shí)別。文獻(xiàn)[5]采用基于規(guī)則的方式對(duì)結(jié)構(gòu)較規(guī)范的數(shù)詞和時(shí)間詞進(jìn)行命名實(shí)體識(shí)別,并取得了較好的效果。
基于規(guī)則的命名實(shí)體識(shí)別方法依托于前期規(guī)則的構(gòu)建,在特定語料上能得到較高的識(shí)別效果,但規(guī)則非常依賴領(lǐng)域知識(shí)。當(dāng)跨領(lǐng)域應(yīng)用時(shí),預(yù)定義的規(guī)則難以生效,而通過人工重新制定規(guī)則成本過高且難以覆蓋所有情況。因此,想要通過人工指定的有限規(guī)則去識(shí)別近乎無限的命名實(shí)體,其可行性不高。
1.1.2基于機(jī)器學(xué)習(xí)的命名實(shí)體識(shí)別方法
為克服人工構(gòu)建規(guī)則有限的問題,有研究者提出基于機(jī)器學(xué)習(xí)的方法。該類方法利用機(jī)器學(xué)習(xí)算法模型實(shí)現(xiàn)命名實(shí)體識(shí)別,一般通過學(xué)習(xí)特征向量并進(jìn)行分類,但需要大量的標(biāo)注數(shù)據(jù)。文獻(xiàn)[6]采用支持向量機(jī)(SupportVectorMachine,SVM)模型進(jìn)行命名實(shí)體研究,并取得了較好的效果。文獻(xiàn)[7]基于條件隨機(jī)場(chǎng)(ConditionalRandomFields,CRF)對(duì)音樂領(lǐng)域進(jìn)行命名實(shí)體識(shí)別研究,并通過實(shí)驗(yàn),結(jié)果表明CRF在音樂領(lǐng)域的命名實(shí)體識(shí)別中,準(zhǔn)確率與支持向量機(jī)(SVM)模型和最大熵(Maximum Entropy,ME)模型相比具有一定的優(yōu)勢(shì)。文獻(xiàn)[8]通過CRF條件隨機(jī)場(chǎng)模型建立了一種航天命名實(shí)體識(shí)別的方法,并取得了較高的準(zhǔn)確率。文獻(xiàn)[9]通過若干個(gè)隱馬爾科夫(HiddenMarkovModels,HMM)模型串聯(lián)對(duì)法律文本進(jìn)行多層次實(shí)體識(shí)別。文獻(xiàn)[10]基于Hadoop平臺(tái)進(jìn)行HMM模型的參數(shù)訓(xùn)練,并驗(yàn)證了該模型相比于CRF模型的參數(shù)訓(xùn)練效率的優(yōu)劣。
機(jī)器學(xué)習(xí)方法對(duì)命名實(shí)體識(shí)別的早期研究針對(duì)的大多是英文文本,為提高這些模型對(duì)中文文本命名實(shí)體識(shí)別的效果,有研究者根據(jù)漢語文本的語法、特點(diǎn)等對(duì)模型進(jìn)行了改進(jìn)。如層疊隱馬爾可夫模型[11-12]、層疊條件隨機(jī)場(chǎng)模型[13-14]等。另有研究者將機(jī)器學(xué)習(xí)模型與規(guī)則等方法結(jié)合起來,期望能夠提高命名實(shí)體識(shí)別的效果。如文獻(xiàn)[15]結(jié)合CRF和ME,采用兩階段方法識(shí)別中文命名實(shí)體,有效降低了模型計(jì)算的復(fù)雜度。文獻(xiàn)[16]提出一種結(jié)合SVM和主動(dòng)學(xué)習(xí)策略的命名實(shí)體識(shí)別方法,該方法通過SVM識(shí)別切分標(biāo)注過語料中的中文機(jī)構(gòu)名,并通過主動(dòng)學(xué)習(xí)策略減少了人工標(biāo)注成本。文獻(xiàn)[17]提出一種結(jié)合SVM和基于規(guī)則的方法應(yīng)用于生物實(shí)體識(shí)別,該方法運(yùn)用基于轉(zhuǎn)換的錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)方法修正SVM模型的測(cè)試結(jié)果,提高了對(duì)生物實(shí)體識(shí)別的效果。文獻(xiàn)[18]和文獻(xiàn)[19]將CRF與規(guī)則相結(jié)合,分別應(yīng)用在工程領(lǐng)域和地理領(lǐng)域,并取得了較好的命名實(shí)體識(shí)別效果。
1.1.3基于深度學(xué)習(xí)的命名實(shí)體識(shí)別方法
傳統(tǒng)的命名實(shí)體識(shí)別方法中,基于規(guī)則的方法依賴人工構(gòu)建規(guī)則系統(tǒng),難以覆蓋所有語言領(lǐng)域?;跈C(jī)器學(xué)習(xí)的方法需要大量的人工標(biāo)注數(shù)據(jù),且依賴特征工程和模型參數(shù)設(shè)計(jì)。而深度學(xué)習(xí)技術(shù)可以自動(dòng)學(xué)習(xí)特征,對(duì)新的領(lǐng)域和語言也能更好地處理。深度學(xué)習(xí)在命名實(shí)體識(shí)別中的應(yīng)用,一般是通過將詞向量作為特征輸入到模型中[20],使用詞向量來表示詞語,相比人工選擇特征的方式能夠獲得更多的語義信息。除詞向量的應(yīng)用外,注意力機(jī)制(Attention)[21-22]、BERT(Bidirectional EncoderRepresentations from Transformers)[23-24]、長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)[25-26]、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)[27]、GRU(Gated Recurrent Unit)[28-29]等深度學(xué)習(xí)技術(shù)也成功用于命名實(shí)體識(shí)別研究中。
但上述深度學(xué)習(xí)模型在處理命名實(shí)體識(shí)別任務(wù)時(shí)各有長(zhǎng)短。例如,注意力機(jī)制(Attention)可以更好地捕捉文本中的重要信息,但訓(xùn)練時(shí)間較長(zhǎng)。CNN能夠有效提取文本的局部特征,但在處理長(zhǎng)距離依賴和文本的全局上下文信息方面不如RNN(RecursiveNeuralNetwork)模型。LSTM對(duì)長(zhǎng)文本的處理能力較強(qiáng),但存在梯度問題。BERT可以處理異構(gòu)數(shù)據(jù),但訓(xùn)練時(shí)間較長(zhǎng),且對(duì)于低頻詞匯的處理能力較弱。GRU可以有效地抑制梯度消失或爆炸,但不能完全解決梯度消失問題。對(duì)此,有研究者嘗試將多種深度學(xué)習(xí)方法結(jié)合應(yīng)用于命名實(shí)體識(shí)別研究。文獻(xiàn)[30]提出一種基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)模型,在不依賴詞匯資源的情況下取得了較好的效果。文獻(xiàn)[31]通過BERT獲取文本特征,并利用BiLSTM(Bi-directionalLongShort-TermMemory,BiLSTM)神經(jīng)網(wǎng)絡(luò)獲取序列化文本的上下文特征,再通過CRF進(jìn)行序列解碼標(biāo)注以提取實(shí)體。最后通過實(shí)驗(yàn)驗(yàn)證了該方法的有效性。文獻(xiàn)[32]提出一種結(jié)合雙向GRU和雙重注意力機(jī)制的中文電子病歷醫(yī)療實(shí)體關(guān)系識(shí)別方法。該方法采用雙向GRU學(xué)習(xí)字的上下文信息,通過注意力機(jī)制提高對(duì)關(guān)系識(shí)別起決定作用的字的權(quán)重,并從句子中獲取可增強(qiáng)識(shí)別性能的特征。通過與BiLSTM-Attention模型進(jìn)行對(duì)比實(shí)驗(yàn),該方法取得了更好的效果。文獻(xiàn)[33]提出一種基于Attention機(jī)制的深度學(xué)習(xí)方法。該方法先后利用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)和Attention機(jī)制獲得詞在整篇文本中的上下文表示,之后通過CRF得到文本的標(biāo)簽序列。通過對(duì)比實(shí)驗(yàn)驗(yàn)證了相比現(xiàn)有研究模型,該方法提高了在同篇文本中實(shí)體識(shí)別的一致性。文獻(xiàn)[34]通過殘差結(jié)構(gòu)促進(jìn)深度神經(jīng)網(wǎng)絡(luò)的梯度傳播,從而使卷積神經(jīng)網(wǎng)絡(luò)可以擁有更深的架構(gòu)。文獻(xiàn)[35]提出一種結(jié)合CNN、BiGRU(Bidirectional GatedRecurrentUnit)和自注意力(Self-Attention)機(jī)制的方法,其模型具有較強(qiáng)的特征提取能力。文獻(xiàn)[36]提出一種結(jié)合CNN和Self-Attention機(jī)制的方法,并提出一種反思機(jī)制來處理模型中潛在的詞匯沖突問題。
1.2 關(guān)系抽取
關(guān)系抽取作為信息抽取的重要子任務(wù),可以在命名實(shí)體識(shí)別的基礎(chǔ)上,自動(dòng)識(shí)別實(shí)體之間的語義關(guān)系,并將其轉(zhuǎn)化為關(guān)系三元組的形式。在文本“春節(jié)檔熱映的電影《飛馳人生2》由韓寒執(zhí)導(dǎo)”中,實(shí)體“飛馳人生2”和“韓寒”存在著“執(zhí)導(dǎo)”關(guān)系。
根據(jù)對(duì)人工標(biāo)注數(shù)據(jù)的依賴程度,實(shí)體關(guān)系抽取方法可分為有監(jiān)督、半監(jiān)督、無監(jiān)督三種。近年來,基于深度學(xué)習(xí)的關(guān)系抽取方法也受到了相關(guān)研究者的青睞。
1.2.1 有監(jiān)督的關(guān)系抽取方法
基于特征向量的關(guān)系抽取方法一般先從句中提取詞性、句法、語法等特征,并以此設(shè)計(jì)顯式特征向量,再結(jié)合機(jī)器學(xué)習(xí)算法來構(gòu)造關(guān)系抽取模型。該類方法在關(guān)系抽取領(lǐng)域取得了不錯(cuò)的效果,但較為依賴特征工程。文獻(xiàn)[37-44]都使用了基于特征向量的關(guān)系抽取方法。
基于核函數(shù)的方法通過隱式計(jì)算特征向量的內(nèi)積,以隱性特征映射代替顯性特征映射。該方法可以直接利用核函數(shù)比較關(guān)系實(shí)例之間的結(jié)構(gòu)相似性。但在處理大規(guī)模語料時(shí),運(yùn)算速度上存在一定的缺陷。文獻(xiàn)[45-50]都使用了基于核函數(shù)的關(guān)系抽取方法。
1.2.2 半監(jiān)督的關(guān)系抽取方法
半監(jiān)督的關(guān)系抽取方法只需少量人工標(biāo)記數(shù)據(jù)作為種子,結(jié)合學(xué)習(xí)算法對(duì)大量無標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練,即可得到關(guān)系抽取模型。該方法在一定程度上降低了有監(jiān)督的關(guān)系抽取方法需人工標(biāo)注數(shù)據(jù)的成本。自文獻(xiàn)[51]首次將自舉技術(shù)Bootstrapping應(yīng)用在關(guān)系抽取領(lǐng)域并構(gòu)建出DIPRE系統(tǒng)后,自舉法成為半監(jiān)督關(guān)系抽取的常用方法之一。文獻(xiàn)[52]在文獻(xiàn)[51]的基礎(chǔ)上對(duì)關(guān)系的描述方法進(jìn)行改進(jìn),提出了Snowball方法。文獻(xiàn)[53]利用自舉法,根據(jù)語料庫中詞語的特征提取實(shí)體關(guān)系指示詞,并取得了較好的效果。
半監(jiān)督的方法雖然降低了關(guān)系抽取對(duì)于人工標(biāo)注數(shù)據(jù)的依賴性,但是對(duì)最初種子集的選取要求較高,且迭代過程中的噪聲問題也是該方法的一大弊端
1.2.3 無監(jiān)督的關(guān)系抽取方法
無監(jiān)督的關(guān)系抽取方法是基于聚類思想實(shí)現(xiàn)的。該方法先根據(jù)相似性將實(shí)體進(jìn)行聚類,再用合適的詞語對(duì)聚類集合進(jìn)行關(guān)系標(biāo)注。這種自底向上的關(guān)系抽取方法無須預(yù)定義關(guān)系類型,不依賴人工標(biāo)注語料,因此可以在多領(lǐng)域中得到應(yīng)用。但無監(jiān)督的關(guān)系抽取方法缺乏人工標(biāo)注數(shù)據(jù)和語料庫,其準(zhǔn)確性可能受到影響。自文獻(xiàn)[54]首次提出無監(jiān)督的實(shí)體關(guān)系抽取方法以來,該類方法已成為關(guān)系抽取的常用方法之一。如文獻(xiàn)[55-61]都使用了無監(jiān)督的實(shí)體關(guān)系抽取方法。
1.2.4基于深度學(xué)習(xí)的關(guān)系抽取
深度學(xué)習(xí)方法相比于傳統(tǒng)機(jī)器學(xué)習(xí)方法,具有特征提取和自動(dòng)學(xué)習(xí)的優(yōu)勢(shì),因此研究者們大量開展了基于深度學(xué)習(xí)的關(guān)系抽取方法研究。該類方法可分為基于單一神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取方法、基于混合神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取方法和實(shí)體關(guān)系聯(lián)合抽取方法。其中,基于單一神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取方法主要涉及的神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)有CNN[62-64]、遞歸神經(jīng)網(wǎng)絡(luò)(RNN)[65-67]、圖神經(jīng)網(wǎng)絡(luò)(GraphConvolutionalNeuralNetworks,GCN)[68-70]等。
1.2.5基于混合神經(jīng)網(wǎng)絡(luò)關(guān)系抽取方法
為了發(fā)揮各種神經(jīng)網(wǎng)絡(luò)在關(guān)系抽取模型中的優(yōu)勢(shì)并避免其缺點(diǎn),基于混合神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取方法目前較為流行。例如,文獻(xiàn)[71]結(jié)合BiLSTM和CNN用于臨床關(guān)系提取,并取得了較好的效果。文獻(xiàn)[72]提出一種結(jié)合BiLSTM和Attention機(jī)制的多情感分類方法,該方法構(gòu)建了五個(gè)分別對(duì)應(yīng)幸福、憤怒、悲傷、恐懼和驚喜的情感分類器,并進(jìn)行了情感預(yù)測(cè)實(shí)驗(yàn),分析了五個(gè)分類器的性能。文獻(xiàn)[32]提出一種結(jié)合BiGRU和雙重注意力機(jī)制的實(shí)體關(guān)系抽取方法,并通過實(shí)驗(yàn)驗(yàn)證了該方法能有效解決現(xiàn)有實(shí)體關(guān)系抽取方法中可能存在的標(biāo)簽錯(cuò)誤問題。文獻(xiàn)[73]提出了一種結(jié)合BERT、BiLSTM和Attention機(jī)制的關(guān)系抽取模型,并與最短路徑模型和注意力導(dǎo)向圖卷積神經(jīng)網(wǎng)絡(luò)等模型進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果驗(yàn)證了該模型的合理性。文獻(xiàn)[74]提出一種結(jié)合BERT和BiGRU的中文專利文本自動(dòng)分類方法,用以解決中文發(fā)明專利文本的文字描述專業(yè)性強(qiáng)等問題,并設(shè)計(jì)了多組對(duì)比實(shí)驗(yàn),驗(yàn)證了該方法的有效性。
1.3實(shí)體關(guān)系聯(lián)合抽取方法
命名實(shí)體識(shí)別和關(guān)系抽取這兩個(gè)任務(wù)傳統(tǒng)上是采用流水線方法分兩步執(zhí)行的,其在模型選擇上較為靈活。但由于實(shí)體識(shí)別和關(guān)系抽取這兩個(gè)模型相互獨(dú)立,實(shí)體抽取階段的識(shí)別錯(cuò)誤、遺漏等問題會(huì)直接傳遞并影響到關(guān)系抽取階段的效果。針對(duì)上述問題,有研究者開展了實(shí)體關(guān)系聯(lián)合抽取的研究。文獻(xiàn)[75]首次將深度學(xué)習(xí)應(yīng)用于實(shí)體關(guān)系聯(lián)合抽取任務(wù),其采用端到端的深度學(xué)習(xí)模型對(duì)聯(lián)合任務(wù)進(jìn)行建模。文獻(xiàn)[76]提出基于新序列標(biāo)注的聯(lián)合抽取方法,首次將實(shí)體關(guān)系聯(lián)合抽取簡(jiǎn)化為序列標(biāo)注問題。文獻(xiàn)[77]先基于BiLSTM抽取序列特征,再利用GCN編碼依存分析圖中的先驗(yàn)詞間關(guān)系信息,并對(duì)實(shí)體關(guān)系進(jìn)行標(biāo)注,最終生成實(shí)體關(guān)系三元組。文獻(xiàn)[78]針對(duì)實(shí)體識(shí)別引起的誤差傳播和聯(lián)合抽取模型中存在的實(shí)體重疊及關(guān)系重疊問題,提出了詞性注意力機(jī)制和融合先驗(yàn)知識(shí)的實(shí)體關(guān)系分類器,并以此構(gòu)建大學(xué)數(shù)字圖書館系統(tǒng),用以抽取大學(xué)課本的實(shí)體關(guān)系三元組。
表1為本節(jié)所列的信息抽取相關(guān)方法及其優(yōu)缺點(diǎn)對(duì)比。
2 知識(shí)融合
信息抽取任務(wù)為初步構(gòu)建知識(shí)圖譜提供了數(shù)量可觀的結(jié)構(gòu)化知識(shí),但由于知識(shí)的多源異構(gòu)性,不同知識(shí)源獲取到的知識(shí)可能存在沖突或重疊,導(dǎo)致信息抽取的結(jié)果中可能存在大量的冗余和錯(cuò)誤。為最大程度地利用知識(shí),滿足不同用戶的知識(shí)需求,研究者們開展了知識(shí)融合技術(shù)的相關(guān)研究。知識(shí)融合主要包括實(shí)體鏈接和知識(shí)合并兩部分。
2. 1 實(shí)體鏈接
知識(shí)圖譜中任何一個(gè)實(shí)體應(yīng)該明確對(duì)應(yīng)現(xiàn)實(shí)世界中的某個(gè)客觀事物。但在知識(shí)圖譜構(gòu)建過程中,通過信息抽取得到的實(shí)體可能出現(xiàn)“同名異義”或“同義異名”的情況。“同名異義”指同一個(gè)名稱對(duì)應(yīng)不同的客觀事物,例如名稱為“小米”的實(shí)體既可以指國產(chǎn)手機(jī)品牌,也可以指谷物?!巴x異名”是指同一客觀事物對(duì)應(yīng)不同的名稱,例如“南昌”“英雄城”和“洪城”都對(duì)應(yīng)同一個(gè)客觀事物。根據(jù)上述兩種不同情況,實(shí)體鏈接又分為實(shí)體消歧和實(shí)體對(duì)齊。
2.1.1 實(shí)體消歧
為確保每一個(gè)實(shí)體都有明確的對(duì)應(yīng),采用實(shí)體消歧來實(shí)現(xiàn)。實(shí)體消歧方法的一般思路是通過結(jié)合上下文語境,并計(jì)算詞匯與實(shí)體之間的相似度來實(shí)現(xiàn)。文獻(xiàn)[79]利用維基百科的語義知識(shí)來衡量實(shí)體間的相似性,從而實(shí)現(xiàn)實(shí)體消歧。文獻(xiàn)[80]同時(shí)利用維基百科和英文詞庫WordNet作為背景知識(shí),基于文本相似性和主題一致性提出了LINDEN模型進(jìn)行實(shí)體消歧。文獻(xiàn)[81]根據(jù)候選實(shí)體和上下文單詞間可能存在的語義聯(lián)系,提出了Category2Vec模型來實(shí)現(xiàn)命名實(shí)體消歧。文獻(xiàn)[82]通過比較實(shí)體的時(shí)序特征和輸入實(shí)體上下文的時(shí)序特征進(jìn)行實(shí)體消歧,該方法能夠在實(shí)體上下文信息不充分的情況下進(jìn)行消歧。文獻(xiàn)[83]將實(shí)體上下文的語義相似度、實(shí)體屬性的背景相似度和主題詞的主題相似度結(jié)合起來刻畫實(shí)體,實(shí)現(xiàn)實(shí)體消歧,并通過實(shí)驗(yàn)驗(yàn)證,這種多元相似度融合方法相比于傳統(tǒng)實(shí)體消歧方法,具有更高的實(shí)體消歧準(zhǔn)確率。文獻(xiàn)[84]針對(duì)傳統(tǒng)實(shí)體消歧方法在短文本上提取的特征較為缺乏的問題,提出一種基于實(shí)體主題關(guān)系的中文短文本圖模型消歧法,并通過實(shí)驗(yàn)驗(yàn)證該方法在短文本上取得了較優(yōu)的實(shí)體消歧效果。
2.1.2 實(shí)體對(duì)齊
為判斷不同實(shí)體是否指向同一客觀事物,采用實(shí)體對(duì)齊的方式。文獻(xiàn)[85]使用向量空間模型和余弦相似度計(jì)算實(shí)體相似性,其運(yùn)算速度較高,但準(zhǔn)確率較低。文獻(xiàn)[86]基于嵌入的方法設(shè)計(jì)了DvGNet模型進(jìn)行實(shí)體對(duì)齊。文獻(xiàn)[87]通過計(jì)算每個(gè)實(shí)體的三元組嵌入,再以此進(jìn)行實(shí)體對(duì)齊,并提出了一種三元組嵌入計(jì)算方法用以感知知識(shí)圖譜中的關(guān)系類型。通過在公開數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),驗(yàn)證了該方法的有效性。文獻(xiàn)[88]提出一種自適應(yīng)特征融合機(jī)制,根據(jù)不同模態(tài)數(shù)據(jù)質(zhì)量動(dòng)態(tài)融合實(shí)體結(jié)構(gòu)信息和視覺信息,并設(shè)計(jì)了視覺特征處理模塊和三元組篩選模塊,分別用來提升視覺信息的有效利用率及緩解結(jié)構(gòu)差異性。之后通過實(shí)驗(yàn)驗(yàn)證了其在多模態(tài)實(shí)體對(duì)齊任務(wù)上的性能優(yōu)越。
2.2 知識(shí)合并
實(shí)體鏈接方法是從實(shí)體層面提升知識(shí)圖譜的知識(shí)質(zhì)量。而知識(shí)合并方法是基于現(xiàn)有知識(shí)庫和知識(shí)圖譜來提升知識(shí)圖譜的質(zhì)量,但現(xiàn)有知識(shí)庫或知識(shí)圖譜因設(shè)計(jì)需求或應(yīng)用領(lǐng)域的不同,導(dǎo)致存在很多知識(shí)上的差異和重復(fù)。知識(shí)合并針對(duì)解決的就是上述問題。文獻(xiàn)[89]以兩個(gè)知識(shí)庫為輸入設(shè)計(jì)了一種知識(shí)融合算法PARIS,能同時(shí)對(duì)齊類別、實(shí)例、屬性和關(guān)系,但該算法需要人工參與,無法自動(dòng)獲取知識(shí)并融合。文獻(xiàn)[90]先對(duì)多個(gè)知識(shí)圖譜的數(shù)據(jù)進(jìn)行預(yù)處理以統(tǒng)一格式,其次建立知識(shí)圖譜的實(shí)體內(nèi)容索引,再讀取每個(gè)實(shí)體的三元組數(shù)據(jù)并去除冗余,最后構(gòu)建實(shí)體信息字典以合并多個(gè)知識(shí)圖譜。文獻(xiàn)[91]探索了概念層知識(shí)融合和語義層知識(shí)融合的實(shí)現(xiàn)路徑,并以高血壓疾病為例進(jìn)行實(shí)驗(yàn),結(jié)果表明融合后的高血壓領(lǐng)域本體,其概念體系、本體內(nèi)容和領(lǐng)域知識(shí)門類都得到了豐富。
表2為本節(jié)所列的知識(shí)融合相關(guān)方法及其優(yōu)缺點(diǎn)對(duì)比。
3 知識(shí)推理
知識(shí)推理技術(shù)在初步構(gòu)建出知識(shí)圖譜的基礎(chǔ)上,可以進(jìn)一步從已有知識(shí)中挖掘出隱含信息,并識(shí)別出錯(cuò)誤知識(shí)。知識(shí)圖譜上的推理方法主要分為基于規(guī)則的推理方法、基于表示學(xué)習(xí)的推理方法和基于深度學(xué)習(xí)的推理方法。
3.1基于規(guī)則的推理方法
該類方法可借助現(xiàn)存的定理,或根據(jù)特定的場(chǎng)景自定義規(guī)則,來實(shí)現(xiàn)推理過程。例如,定義“媽媽的爸爸是外公”,已知“a是b的爸爸”,“b是c的媽媽”,則可以推出“a是c的外公”?;谝?guī)則的推理方法可解釋性強(qiáng),因此在知識(shí)圖譜推理的早期研究中較為流行。文獻(xiàn)[92]基于一階謂詞邏輯方法預(yù)測(cè)知識(shí)圖中潛在的關(guān)系。文獻(xiàn)[93]設(shè)計(jì)了柑橘病蟲害領(lǐng)域的相關(guān)規(guī)則來實(shí)現(xiàn)知識(shí)推理?;谝?guī)則的推理方法因簡(jiǎn)單、高效,適用于對(duì)小型知識(shí)圖譜進(jìn)行推理,但在大型知識(shí)圖譜上的知識(shí)推理效果有限。
3.2基于表示學(xué)習(xí)的推理方法
該類方法的基本思想是將知識(shí)圖譜中的實(shí)體、關(guān)系等映射到向量空間中進(jìn)行推理。文獻(xiàn)[94]將實(shí)體和向量聯(lián)系起來,并捕捉其中隱含的語義。文獻(xiàn)[95]基于時(shí)序特征提出一種時(shí)序知識(shí)圖譜鏈接預(yù)測(cè)模型。文獻(xiàn)[96]通過一個(gè)擁有三個(gè)虛部的超復(fù)數(shù)來表示知識(shí)圖譜中的實(shí)體和關(guān)系,并以此提出了QuatE模型。
3.3基于深度學(xué)習(xí)的推理方法
近年來,神經(jīng)網(wǎng)絡(luò)被廣泛用于知識(shí)推理領(lǐng)域,相比于其他推理方法,在進(jìn)行大規(guī)模數(shù)據(jù)抽取有用信息的任務(wù)中更有優(yōu)勢(shì)。文獻(xiàn)[97]首次將膠囊網(wǎng)絡(luò)用于知識(shí)圖譜推理任務(wù),采用預(yù)訓(xùn)練的實(shí)體及關(guān)系特征表示進(jìn)行推理,并提出了CapsE模型。文獻(xiàn)[98]結(jié)合LSTM和圖注意力機(jī)制,設(shè)計(jì)了AttnPath模型用于實(shí)體和關(guān)系推理任務(wù)。文獻(xiàn)[99]設(shè)計(jì)的InteractE模型使用循環(huán)卷積運(yùn)算提取特征,并通過改變特征組合的方式來捕獲更多特征交互,并通過實(shí)驗(yàn)證明,該模型具有較好的知識(shí)圖譜推理性能。文獻(xiàn)[100]采用分層注意力機(jī)制對(duì)鄰域信息和類型信息進(jìn)行多維度感知,以此實(shí)現(xiàn)實(shí)體推理。文獻(xiàn)[101]利用RoBERTa-PubMed神經(jīng)網(wǎng)絡(luò)、ConvE和HypER構(gòu)建了一個(gè)大規(guī)模網(wǎng)絡(luò)系統(tǒng)SympGAN,用以提供用戶對(duì)癥狀、基因、疾病和藥物之間關(guān)系的數(shù)據(jù)庫訪問。
表3為本節(jié)所列的知識(shí)推理相關(guān)方法及其優(yōu)缺點(diǎn)對(duì)比。
綜上所述,通過信息抽取技術(shù)可從雜亂無章的數(shù)據(jù)中獲取實(shí)體、關(guān)系和屬性等信息;通過知識(shí)融合技術(shù)可消除實(shí)體、關(guān)系間的歧義,得到客觀的事實(shí)表達(dá);最后通過知識(shí)推理技術(shù)可得到完整的知識(shí)圖譜。
4結(jié)論
知識(shí)圖譜作為知識(shí)工程的重要資源管理技術(shù),可實(shí)現(xiàn)對(duì)數(shù)據(jù)資源的有效組織和高效利用。本文對(duì)知識(shí)圖譜構(gòu)建過程中的信息抽取、知識(shí)融合和知識(shí)推理三個(gè)重要部分進(jìn)行了系統(tǒng)綜述,其中深度學(xué)習(xí)技術(shù)貫穿于知識(shí)圖譜構(gòu)建的各個(gè)環(huán)節(jié),對(duì)于知識(shí)圖譜的應(yīng)用和優(yōu)化也有著重要作用。盡管知識(shí)圖譜已經(jīng)取得較為豐富的研究成果,但其構(gòu)建過程仍存在一些問題亟待解決:
第一,實(shí)體關(guān)系聯(lián)合抽取方法減少了實(shí)體識(shí)別和關(guān)系抽取分步進(jìn)行可能帶來的錯(cuò)誤信息和冗余信息,但也帶來了實(shí)體、關(guān)系重疊的新問題。且當(dāng)前的實(shí)體關(guān)系聯(lián)合抽取模型主要是抽取三元組形式的實(shí)體關(guān)系,而實(shí)際應(yīng)用中的語料庫中往往包含大量的多元信息。
第二,自然語言具有多源異構(gòu)性,因此需確保知識(shí)融合能準(zhǔn)確將“同名異義”的實(shí)體消歧并將“同義異名”的實(shí)體對(duì)齊,否則會(huì)導(dǎo)致知識(shí)圖譜中出現(xiàn)知識(shí)冗余或錯(cuò)誤。但在知識(shí)融合相關(guān)研究中,針對(duì)理論方法的研究較多,實(shí)證研究較少。
第三,知識(shí)圖譜推理缺乏對(duì)時(shí)間、空間等動(dòng)態(tài)特征的研究。而如醫(yī)學(xué)領(lǐng)域的疾病發(fā)展、農(nóng)業(yè)領(lǐng)域的作物生長(zhǎng)等知識(shí)易隨時(shí)間變化而變化。且基于深度學(xué)習(xí)的知識(shí)推理模型,因“黑箱效應(yīng)”存在可解釋性差的問題,在如何衡量各種模型在可解釋性上的優(yōu)劣也缺乏標(biāo)準(zhǔn)。
因此,本文認(rèn)為在未來的研究工作重點(diǎn)可能主要在以下幾個(gè)方面:
第一,改進(jìn)序列標(biāo)注策略和三元組匹配規(guī)則,用以解決實(shí)體關(guān)系聯(lián)合抽取中的實(shí)體、關(guān)系重疊問題,并開展針對(duì)多元信息的實(shí)體關(guān)系聯(lián)合抽取方法的研究。
第二,針對(duì)不同規(guī)模的知識(shí)圖譜,開展知識(shí)融合的實(shí)證研究,以進(jìn)一步驗(yàn)證現(xiàn)有知識(shí)融合方法的有效性。
第三,從知識(shí)圖譜的可視化和時(shí)態(tài)信息的因果關(guān)聯(lián)等角度出發(fā),增強(qiáng)知識(shí)推理的可解釋性。研究針對(duì)各種神經(jīng)網(wǎng)絡(luò)模型的解釋機(jī)制,以準(zhǔn)確反映模型的內(nèi)部工作邏輯。使用增量學(xué)習(xí)、時(shí)間序列嵌入等方法加強(qiáng)知識(shí)圖譜的動(dòng)態(tài)推理,提高其推理的深度。
參考文獻(xiàn):
[1]WUWT,LIHS,WANGHX,etal.Probase:AProbabilistic Taxonomy for Text Understanding[C]//Proceedingsof the 2012 ACMSIGMOD International Conference onManagementofData.Scottsdale:ACM,2012:481-492.
[2]AUERS,BIZERC,KOBILAROVG,etal.DBpedia:ANucleus forAWeb of Open Data [C]//Proceedings of the 6thInternational The Semantic Web and 2nd Asian ConferenceonAsianSemanticWebConference.Busan:ACM,2007:722-735.
[3]GUPTA S,KENKRE S,TALUKDARP.CaRe:OpenKnowledgeGraphEmbeddings[C]//Proceedingsof the2019Conference on Empirical Methods in Natural Language Processingand the 9th International Joint Conference on Natural LanguageProcessing.Hong Kong: ACL,2019: 378-388.
[4] COLLINS M,SINGER Y. Unsupervised Models forNamed Entity Classification [C]//Proceedings of the Joint SIGDATConference on Empirical Methods in Natural Language Processingand Very Large Corpora.Hong Kong:ACL,1999:100-110.
[5]程志剛.基于規(guī)則和條件隨機(jī)場(chǎng)的中文命名實(shí)體識(shí)別方法研究[D].武漢:華中師范大學(xué),2015.
[6] ISOZAKI H, KAZAWA H. Efficient Support VectorClassifiers for Named Entity Recognition [C]//Proceedings ofthe 19th International Conference on Computational Linguistics.
Taipei:ACL,2002,1:1-7.
[7]郝樂川.基于條件隨機(jī)場(chǎng)的音樂領(lǐng)域命名實(shí)體識(shí)別[D].哈爾濱:哈爾濱工業(yè)大學(xué),2012.
[8]徐建忠,朱俊,趙瑞,等.基于CRF算法的航天命名實(shí)體識(shí)別[J].電子設(shè)計(jì)工程,2017,25(20):42-46.
[9]周曉輝.基于隱式馬爾科夫模型的法律命名實(shí)體識(shí)別模型的設(shè)計(jì)與應(yīng)用[D].廣州:華南理工大學(xué),2018.
[10]李世超.基于Hadoop平臺(tái)和隱馬爾可夫模型的生物醫(yī)學(xué)命名實(shí)體識(shí)別方法研究[D].咸陽:西北農(nóng)林科技大學(xué),2018.
[11]俞鴻魁,張華平,劉群,等.基于層疊隱馬爾可夫模型的中文命名實(shí)體識(shí)別[J].通信學(xué)報(bào),2006,27(2):87-94.
[12] LI LS,MAO T,HUANGD G,et al. Hybrid Modelsfor Chinese Named Entity Recognition [C]/Proceedings of theFifth SIGHAN Workshop on Chinese Language Processing.Sydney:ACL,2006,:72-78.
[13] 周俊生,戴新宇,尹存燕,等.基于層疊條件隨機(jī)場(chǎng)模型的中文機(jī)構(gòu)名自動(dòng)識(shí)別[J].電子學(xué)報(bào),2006(5):804-809.
[14]紅霞.基于層疊條件隨機(jī)場(chǎng)的中文機(jī)構(gòu)名識(shí)別的研究[D].大連:大連理工大學(xué),2010.
[15]毛新年,董遠(yuǎn),龐文博,等.一種基于條件隨機(jī)場(chǎng)和最大熵的兩階段識(shí)別中文命名實(shí)體方法(英文)[C]/第七屆中文信息處理國際會(huì)議.武漢:電子工業(yè)出版社,2007:445-459.
[16] 陳霄.基于支持向量機(jī)的中文組織機(jī)構(gòu)名識(shí)別[D].上海:上海交通大學(xué),2007.
[17]黃浩煒.SVM與基于轉(zhuǎn)換的錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)方法相結(jié)合的生物實(shí)體識(shí)別[D].長(zhǎng)沙:國防科學(xué)技術(shù)大學(xué),2008.
[18] 郭喜躍,周琴,陳前軍.基于CRF與規(guī)則的工程領(lǐng)域命名實(shí)體識(shí)別方法[J].軟件導(dǎo)刊,2014,13(11):28-30.
[19]何炎祥,羅楚威,胡彬堯.基于CRF和規(guī)則相結(jié)合的地理命名實(shí)體識(shí)別方法[J].計(jì)算機(jī)應(yīng)用與軟件,2015,32(1):179-185+202.
[20]CHERRYC,GUO HY. The UnreasonableEffectiveness of Word Representations for Twiter Named EntityRecognition [C]//Proceedings of the 2015 Conference of theNorth American Chapter of the Association for ComputationalLinguistics: Human Language Technologies.Denver: ACL,2015: 735-745.
[21]陳琛,劉小云,方玉華.融合注意力機(jī)制的電子病歷命名實(shí)體識(shí)別[J].計(jì)算機(jī)技術(shù)與發(fā)展,2020,30(10):216-220.
[22]常君.基于注意力機(jī)制的命名實(shí)體識(shí)別研究[D].太原:太原理工大學(xué),2022.
[23]封紅旗,孫楊,楊森,等.基于BERT的中文電子病歷命名實(shí)體識(shí)別[J].計(jì)算機(jī)工程與設(shè)計(jì),2023,44(4):1220-1227.
[24]王為國.基于Bert的命名實(shí)體識(shí)別研究[D].廣州:廣州大學(xué),2021.
[25] PENG N,DREDZE M. Improving Named EntityRecognition for Chinese Social Media With Word SegmentationRepresentation Learning [C]//Proceedings of the 54th AnnualMeeting of the Association for Computational Linguistics.Berlin:ACL,2016,2:149-155.
[26]尹光花,陳鵬.基于雙向LSTM模型的中文命名實(shí)體識(shí)別[J].信息技術(shù)與信息化,2021(10):44-46.
[27] DONG X S,QIANL J,GUANY,et al.A Multi-Class Classification Method Based on Deep Learning for NamedEntity Recognition in Electronic Medical Records [C]/016 NewYork Scientific Data Summit.New York:IEEE,2016:1-10.
[28] 李一斌,張歡歡.基于雙向GRU-CRF 的中文包裝產(chǎn)品實(shí)體識(shí)別[J].華東理工大學(xué)學(xué)報(bào):自然科學(xué)版,2019,45(3):486-490.
[29] 吳超,王漢軍.基于GRU的電力調(diào)度領(lǐng)域命名實(shí)體識(shí)別方法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2020,29(8):185-191.
[30] ZHU Y,WANG G. CAN-NER: Convolutional AttentionNetwork for Chinese Named Entity Recognition [C]//Proceedings ofNAACL-HLT2019.Minneapolis:ACL,2019:3384-3393.
[31]王子牛,姜猛,高建瓴,等.基于BERT的中文命名實(shí)體識(shí)別方法[J].計(jì)算機(jī)科學(xué),2019,46(S2):138-142.
[32] 張志昌,周侗,張瑞芳,等.融合雙向GRU與注意力機(jī)制的醫(yī)療實(shí)體關(guān)系識(shí)別[J].計(jì)算機(jī)工程,2020,46(6):296-302.
[33]楊培,楊志豪,羅凌,等.基于注意機(jī)制的化學(xué)藥物命名實(shí)體識(shí)別[J].計(jì)算機(jī)研究與發(fā)展,2018,55(7):1548-1556.
[34]張浩.基于深度學(xué)習(xí)的生物醫(yī)學(xué)實(shí)體關(guān)系抽取算法研究[D].長(zhǎng)春:吉林大學(xué),2020.
[35] ZHU Y,WANG G. CAN-NER: ConvolutionalAttention Network for Chinese Named Entity Recognition [C]/Proc of the 2019 Conference of the North American Chapter ofthe Association for Computational Linguistics:Human LanguageTechnologies.Minneapolis:ACL,2019:3384-3393.
[36] GUI T,MART,ZHANGQ,et al. CNN-basedChinese NER with Lexicon Rethinking [C]//Proceedings ofthe Twenty-Eighth International Joint Conference on ArtificialIntelligence.Macao:JCAI,2019:4982-4988.
[37]車萬翔,劉挺,李生.實(shí)體關(guān)系自動(dòng)抽取[J].中文信息學(xué)報(bào),2005,19(2):2-7.
[38] CULOTTA A,MCCALLUM A,BETZ J. IntegratingProbabilistic Extraction Models and Data Mining to DiscoverRelations and Patterns in Text [C]//Proceedings of the mainconference on Human Language Technology Conference of theNorth American Chapter of the Association of ComputationalLinguistics.New York:ACL,2006:296-303.
[39] JIANG JING, ZHAI CHENGXIANG. A SystematicExploration of the Feature Space for Relation Extraction [C]//Proceedings of NAACL HLT 2007.New York: ACL,2007:113-120.
[40] SUN X,DONG L H. Feature-Based Approachto Chinese Term Relation Extraction [C]//20o9 InternationalConference on Signal Processing Systems.Singapore Piscataway:IEEE,2009:410-414.
[41] TRATZ S,HOVY E. Isi: Automatic Classification ofRelations Between Nominals Using a Maximum Entropy Classifier[C]/Proceedings of the 5th International Workshop on SemanticEvaluation.Los Angeles:ACL,2010:222-225.
[42]郭喜躍,何婷婷,胡小華,等.基于句法語義特征的中文實(shí)體關(guān)系抽取[J].中文信息學(xué)報(bào),2014,28(6):183-189.
[43]高俊平,張暉,趙旭劍,等.面向維基百科的領(lǐng)域知識(shí)演化關(guān)系抽取[J].計(jì)算機(jī)學(xué)報(bào),2016,39(10):2088-2101.
[44] 甘麗新,萬常選,劉德喜,等.基于句法語義特征的中文實(shí)體關(guān)系抽取[J].計(jì)算機(jī)研究與發(fā)展,2016,53(2):284-302.
[45] ZHANG M, ZHANG J, SU J. Exploring SyntacticFeatures for Relation Extraction using a Convolution Tree Kernel [C]//Proceedings of the Main Conference on Human Language TechnologyConference of the North American Chapter of the Association of
Computational Linguistics.New York:ACL,288-295.
[46] ZHOU G D,QIAN L H,F(xiàn)AN J X. Tree Kemel-BasedSemantic Relation Extraction with Rich Syntactic and SemanticInformation[J].Information Sciences,2010,180(8):1313-1325.
[47] ZHANG XF,GAO ZQ,ZHU M. Kernel methodsand its application in Relation Extraction [C]// 2011 InternationalConference on Computer Science and Service System(CSSS).Nanjing:IEEE,2011:1362-1365.
[48]劉克彬.基于核函數(shù)中文關(guān)系自動(dòng)抽取系統(tǒng)的實(shí)現(xiàn)[J].計(jì)算機(jī)研究與發(fā)展,2007,44(8):1406-1411.
[49] 陳鵬.基于多核融合的中文領(lǐng)域?qū)嶓w關(guān)系抽取研究[D].昆明:昆明理工大學(xué),2014.
[50]郭劍毅,陳鵬,余正濤,等.基于多核融合的中文領(lǐng)域?qū)嶓w關(guān)系抽取[J].中文信息學(xué)報(bào),2016,30(1):24-29.
[51] BRIN S. Extracting Patterns and Relations from theWorld Wide Web [J].Lecture Notes in Computer Science,1998,1590:172-183.
[52] AGICHTEIN E, GRAVANO L. Snowball: ExtractingRelations from Large Plain-Text Collections [C]//Proceedings ofthe Fifth ACMConference on Digital libraries.New York:ACMPress,2000:85-94.
[53] YU L,F(xiàn)ENG L,LIU X L.A Bootstrapping BasedApproach for Open Geo-entity Relation Extraction [J].ActaGeodaetica et Cartographica Sinica,2016,45(5):616-622.
[54]HASEGAWA T,SEKINE S,GRISHMAN R.Discovering Relations among Named Entities from Large Corpora[C]/Proceedings of the 42nd Annual Meeting on Association forComputational Linguistics.Barcelona:ACL,20o4:415-422.
[55] DAVIDOVD,RAPPOPORT A,KOPPEL M. FullyUnsupervised Discovery of Concept-Specific Relationships byWebMining [C]//Proceedings of the 45th Annual Meeting of theAssociation of ComputationalLinguistics.Proceedings of the 45thAnnual Meeting of the Association of Computational Linguistics:ACL,2007:232-239.
[56] GONZALEZ E, TURMO J. Unsupervised RelationExtraction by Massive Clustering [C]//2009 Ninth IEEE InternationalConference onData Mining.Miami: IEEE,2009:782-787.
[57] YAN YL,OKAZAKI N,MATSUO Y,et al.Unsupervised Relation Extraction By Mining Wikipedia TextsUsing Information from the Web [C]//Proceedings of the JointConference of the 47th Annual Meeting of the ACL and the 4thInternational Joint Conference on Natural Language Processng ofthe AFNLP.Suntec:ACL,2009:1021-1029.
[58] BOLLEGALAD T,MATSUO Y,ISHIZUKA M.Measuring the Similarity Between Implicit Semantic Relations fromthe Web [C]//Proceedings of the 18th International Conference onWorld WideWeb.Madrid:ACM,2009:651-660.
[59]王晶.無監(jiān)督的中文實(shí)體關(guān)系抽取研究[D].上海:華東師范大學(xué),2012.
[60]孫勇亮.開放領(lǐng)域的中文實(shí)體無監(jiān)督關(guān)系抽取[D].上海:華東師范大學(xué),2014.
[61]施琦.無監(jiān)督中文實(shí)體關(guān)系抽取研究[D].北京:中國地質(zhì)大學(xué)(北京),2015.
[62] ZENGDJ,LIUK,LAISW,etal.RelationClassification via Convolutional Deep Neural Network [C]//Proceedings of COLING 2014, the 25th Intermational Conferenceon Computational Linguistics.Dublin:DCUamp; ACL,2014:2335-2344.
[63] NGUYEN TH,GRISHMAN R. Relation Extraction:Perspective from Convolutional Neural Networks [C]//Proceedingsof the 1st Workshop on Vector Space Modeling for NaturalLanguage Processing.Denver,2015:39-48.
[64] XUK,F(xiàn)ENGY S,HUANGSF,et al. SemanticRelation Classification via Convolutional Neural Networkswith Simple Negative Sampling [C]//Proceedings of the 2015Conference on Empirical Methods in Natural Language Processing.Lisbon:ACL,2015:536-540.
[65] SOCHERR,PENNINGTONJ,HUANGEH,et al. Semi-Supervised Recursive Auto Encoders for PredictingSentiment Distributions [C]//Proceedings of the Conference on
Empirical Methods in Natural Language Processing.Edinburgh:
ACL,2011:151-161.
[66] HASHIMOTO K,MIWA M,TSURUOKAY,et al.Simple Customization of Recursive Neural Networks for SemanticRelation Classification [C]//Proceedings of the 2013 Conferenceon Empirical Methods in Natural Language Processing.Seattle:ACL,2013:1372-1376
[67] EBRAHIMI J,DOU D. Chain Based RNN for RelationClassification [C]//Proceedings of the 2015 Conference of theNorth American Chapter of the Association for ComputationalLinguistics: Human Language Technologies.Denver: ACL,2015:1244-1249.
[68] SCHLICHTKRULL M,KIPF T N,BLOEMP,etal.Modeling Relational Data with Graph Convolutional Networks[C]//Proceedings of the European Semantic Web Conference.Heraklion:Springer,2018:593-607.
[69] GUO Z J, ZHANG Y,LU W. Attention Guided GraphConvolutional Networks for Relation Extraction [C]/Proceedingsof the 57th Annual Meeting of the ACL.Florence:ACL,2019:241-251.
[70] SUN K, ZHANG R CG,MAO Y Y,et al. RelationExtraction with Convolutional Network over Learnable Syntax-Transport Graph [J].Proceedings of the AAAI Conference onArtificial Intelligence,2020,34(5):8928-8935.
[71] LI ZH,YANG ZH, SHENC,et al. IntegratingshortestDependency Path and Sentence Sequence into a Deep LearningFramework forRelationExtraction in Clinical Text[J/OL].BMCMedical Informatics and Decision Making,2019,19(1):1-8[2024-09-10].https://doi.0rg/10.1186/s12911-019-0736-9.
[72]王婷偉.基于Attention與BiLSTM模型的多情感分類方法研究[D].衡陽:南華大學(xué),2020.
[73]徐瑞涓,高建瓴.基于BERT和注意力引導(dǎo)圖卷積網(wǎng)絡(luò)的關(guān)系抽取[J].智能計(jì)算機(jī)與應(yīng)用,2023,13(2):204-209.
[74] 劉燕.基于BERT-BiGRU的中文專利文本自動(dòng)分類[J].鄭州大學(xué)學(xué)報(bào):理學(xué)版,2023,55(2):33-40.
[75] MIWA M,BANSAL M. End-to-end RelationExtraction using LSTMs on Sequences and Tree Structures [J/OL].arXiv:1601.00770 [cs.CL].[2024-08-26].https://doi.0rg/10.48550/arXiv.1601.00770.
[76] ZHENG S C,WANG F,BAO H Y,et al. JointExtraction of Entities and Relations Based on a Novel TaggingScheme [J/OL].arXiv:1706.05075 [cs.CL].[2024-08-23].https://doi.org/10.48550/arXiv.1706.05075.
[77]張軍蓮,張一帆,汪鳴泉,等.基于圖卷積神經(jīng)網(wǎng)絡(luò)的中文實(shí)體關(guān)系聯(lián)合抽取[J].計(jì)算機(jī)工程,2021,47(12):103-111.
[78]何懷前.基于深度學(xué)習(xí)的實(shí)體關(guān)系聯(lián)合抽取方法研究與系統(tǒng)實(shí)現(xiàn)[D].上海:東華大學(xué),2023.
[79] HAN X P,ZHAO J. Named Entity DisambiguationbyLeveraging Wikipedia Semantic Knowledge [C]//Proceedingsofthe 18th ACM Conference on Informationand KnowledgeManagement.HongKong:ACM,2009:215-224.
[80] SHEN W,WANG JY,LUO P,et al. Linden: LinkingNamed EntitieswithKnowledgeBaseVia SemanticKnowledge[C]/Proceedings of the 21st International Conference on WorldWide Web.Lyon:ACM,2012:449-458.
[81] ZHU G G,IGLESIAS C A. Exploiting SemanticSimilarity for Named EntityDisambiguation in Knowledge Graphs[J].Expert Systems with Applications,2018,101:8-24.
[82] AGARWAL P, STROTGEN J,DEL CORRO L,et al.diaNED: Time-Aware Named Entity Disambiguation forDiachronic Corpora [C]/Proceedings of the 56th Annual Meetingof the Association for Computational Linguistics.Melbourne:ACL,2018:686-693.
[83]石水倩,金晶,沈耕宇,等.基于多元相似度融合的中文命名實(shí)體消歧方法[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2024,8(2):56-64.
[84] 馬瑛超,張曉濱.基于主題關(guān)系的中文短文本圖模型實(shí)體消歧[J].計(jì)算機(jī)工程與科學(xué),2023,45(1):154-162.
[85] LI J Z,WANG ZC,ZHANG X,et al. Large ScaleInstance Matching Via Multiple Indexes and Candidate Selection[J].Knowledge-Based Systems,2013,50(9):112-120.
[86] JINY,WJI,Y SHI,et al,Meta-path Guided GraphAttention Network for Explainable Herb 5-5Recommendation[J].Health Information Science and Systems,Springer,2023.11(1): 5-5.
[87]李鳳英,黎家鵬.聯(lián)合三元組嵌入的實(shí)體對(duì)齊[J].計(jì)算機(jī)工程與應(yīng)用,2023,59(24):70-77.
[88]郭浩,李欣奕,唐九陽,等.自適應(yīng)特征融合的多模態(tài)實(shí)體對(duì)齊研究[J].自動(dòng)化學(xué)報(bào),2024,50(4):758-770.
[89]SUCHANEKFM,ABITEBOUL S,SENELLARTP.PARIS:Probabilistic Alignment of Relations, Instances,andSchema[J].Proceedings of the VLDB Endowment,2011,5(3):157-168.
[90]楊元鋒.面向問答的知識(shí)圖譜推理技術(shù)和合并技術(shù)研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2020.
[91]周利琴.面向智慧健康的多源異構(gòu)知識(shí)融合研究[D].武漢:武漢大學(xué),2022.
[92] SCHOENMACKERS S, DAVIS J,ETZIONI O,et al.Learming First Order Horn Clauses from Web Text[C]//Proceedingsof the 2O10 Conference on Empirical Methods in Natural LanguageProcessing.Cambridge:ACL,2010:1088-1098.
[93]楊潔.基于本體的柑橘病蟲害知識(shí)建模及推理研究[D].武漢:華中師范大學(xué),2014.
[94] NICKEL M,TRESPV,KRIEGEL HP.A Three-Way Model for Collctive Learning on Multi-Relational Data[C]//The 28th International Conference on Machine LearningThe International Conference on Machine Learning. Bellevue:Omnipress,2011:809-816.
[95]陳德華,殷蘇娜,樂嘉錦,等.一種面向臨床領(lǐng)域時(shí)序知識(shí)圖譜的鏈接預(yù)測(cè)模型[J].計(jì)算機(jī)研究與發(fā)展,2017,54(12):2687-2697.
[96] ZHANG S,TAYY,YAO LN,et al.QuaternionKnowledge Graph Embeddings [C]//Thirty-third Conferenceon Neural Information Processing Systems.Vancouver:CurranAssociates Inc,2019:2735-2745.
[97] NGUYEN DQ,VUT,NGUYEN TD,et al.A CapsuleNetwork-based Embedding Model for Knowledge Graph Completionand Search Personalization [J/OL].arXiv:1808.04122 [cs.CL].[2024-08-10].https://doi.org/10.48550/arXiv.1808.04122.
[98] WANGH,LISY,PANR,et al. IncorporatingGraph AttentionMechanisminto Knowledge GraphReasoningBased on DeepReinforcementLearning[C]//2019ConferenceonEmpirical Methods in Natural Language Processing and 9th International Joint Conference on Natural Language Processing (EMNLPIJCNLP).HongKong:ACL,2019:2623-2631.
[99]VASHISHTHS,SANYALS,NITINV,etal.InteractE:Improving Convolution-Based Knowledge GraphEmbeddingsbyIncreasingFeature Interactions[C]//ProceedingsoftheThirty-FourthAAAIConferenceonArtificialIntelligence.NewYork:AAAIPress,2020,34(3):3009-3016.
[100] WANGYZ,WANGHZ,HEJW,et al.TAGAT:Type-Aware Graph Attention Networks for Reasoning Over KnowledgeGraphs[J/OL].Knowledge-BasedSystems, 2021,233:107500[2024-08-05].https://doi.org/10.1016/ j.knosys.2021.107500.
[101]KEZHIL,KUOY,HAILONG S,etal.SympGAN: ASystematic KnowledgeIntegration System forSymptom-Gene Associations Network[J/OL].Knowledge-Based Systems, 2023,276:110752[2024-08-03].https://doi.0rg/10.1016/ j.knosys.2023.110752.
作者簡(jiǎn)介:楊延云(1995.04—),女,漢族,河北張家口人,助教,碩士研究生,研究方向:自然語言處理、數(shù)據(jù)挖掘、軟件開發(fā);胡軍(1996.09一),男,漢族,江西撫州人,助教,碩士研究生,研究方向:數(shù)據(jù)挖掘。