封皓君, 段 立, 張碧瑩, 劉海潮,2
(1. 海軍工程大學電子工程學院, 湖北 武漢 430033; 2. 中國人民解放軍91202部隊, 遼寧 葫蘆島 125004)
實體鏈接和知識推理是自然語言處理(natural language processing, NLP)領(lǐng)域的兩類問題。實體鏈接旨在完成指稱與實體的一一映射,是計算機識別并理解文本信息的重要支撐。由于自然語言的歧義性,計算機處理該問題仍顯得復雜?;谏疃葘W習的模型利用了海量文本中寬泛先驗知識,取得了較大成效,但礙于其共性缺陷,導致可解釋性與魯棒性不佳,甚至產(chǎn)生負面作用,推廣實用能力仍顯不足。近年來,主流的鏈接方法通常采用知識圖譜作為領(lǐng)域經(jīng)驗以獲取候選實體附近的關(guān)聯(lián)信息,進而與文本特征進行比較,篩選出對應(yīng)的實體。該方法仍受限于圖譜關(guān)系稀疏、無法依賴碎片化信息完成自我升級的缺陷,繼續(xù)提升空間有限。知識推理則是獲得新知識的過程,在圖譜當中表現(xiàn)為三元組補全以及對錯例的修正。常規(guī)方法大多依賴于已有經(jīng)驗或規(guī)則去推測三元組關(guān)系,難以獲得新類型的知識,導致更新效率低下。兩者雖同為研究熱點,卻往往被分開研究,難以實現(xiàn)共同進步。
以某軍事圖譜為例,共有241 183個實體實例,但只包含11種關(guān)系類,且圖中節(jié)點相連的邊的平均個數(shù)僅為2.096,不能很好地概括顯示軍事領(lǐng)域模型。即使是全領(lǐng)域知識圖譜YAGO,通過抽樣也證實其并不完善,仍存在大約5%的錯誤三元組。因此,實體鏈接問題最終可以轉(zhuǎn)化為知識推理問題,需要將碎片化、新類型的知識用于圖譜補全,才能進一步提升鏈接準確性與實用性。
同時,一個優(yōu)秀的實體鏈接模型不僅應(yīng)該準確地獲得指稱與實體之間的對應(yīng)關(guān)系、挖掘文本中的信息,同時還應(yīng)輔以知識推理等方法,為改善知識圖譜施加動力;經(jīng)推理后更加完備的知識圖譜也需要為眾多文本分析任務(wù)提供更準確的先驗知識,從而更好地完成這些任務(wù),這是一個雙向的正反饋過程。例如“殲-15在16艦上順利完成起降”一句中,鏈接模型可將“16艦”與“殲-15”分別與實體對應(yīng),同時還可以分析出兩者間存在“搭載”關(guān)系,從而反向補全圖譜。在另一句“首架J-15原型機在遼寧號航空母艦上進行著艦測試”中,通過關(guān)系可推理出“殲-15”與“J-15”應(yīng)表示同一實體,通過類比命名規(guī)則等推理方式后還可以將“殲-11B”與“J-11B”指稱相對應(yīng),從而完善后續(xù)鏈接過程。
過去將實體鏈接和知識推理割裂研究的思路往往忽略了知識圖譜在兩者之間的紐帶作用,碎片化文本經(jīng)鏈接后獲得的新知識無法體系化地反饋到圖譜當中,推理更新后的圖譜也無法為實體鏈接任務(wù)賦能。從知識驅(qū)動的第一代人工智能到數(shù)據(jù)驅(qū)動的第二代人工智能,再到結(jié)合兩者全面反映人類思想行為的第三代人工智能,知識&數(shù)據(jù)的雙輪驅(qū)動解決問題成為未來人工智能解決方案的主流趨勢,這為動態(tài)化、智能化、體系化解決實體鏈接與知識推理問題提供了一種思路。基于上述動機,本文提出一種基于雙向循環(huán)進化的實體鏈接和知識推理框架(bidirectional cyclic evolutionary framework of entity linking knowledge reasoning, BCEL-KR),該框架具有自我迭代、智能升級優(yōu)點,在實際應(yīng)用過程中,還可基于碎片化文本信息,在原有成果基礎(chǔ)上實現(xiàn)知識的快速增量更新,提升實體鏈接效能。
BCEL-KR框架的靈感來源于人類閱讀學習過程,基本過程如圖1所示。
圖1 模擬閱讀學習的進化過程Fig.1 Evolutionary process of simulated reading learning
該過程一般可總結(jié)為:① 閱讀文本內(nèi)容;② 喚醒先驗知識;③ 通過先驗知識理解文章并獲得新知識;④ 確認知識并進一步完成推理;⑤ 將產(chǎn)生的知識存入腦中。計算機分別對應(yīng)于以下步驟:① 輸入文本;② 調(diào)用知識圖譜;③ 信息抽取;④ 知識推理;⑤ 完善圖譜。整個過程是循環(huán)迭代的,進行若干次學習后,計算機應(yīng)基本掌握文本中知識信息,從而更好地進行下一步學習。因此,框架以實體鏈接與知識推理任務(wù)作為切入點設(shè)計兩個基本模塊:一是正向進化模塊,該作用定義為知識圖譜賦能下的實體鏈接;二是反向進化模塊,定義為信息抽取賦能下的知識推理。同時,整體框架設(shè)計還應(yīng)滿足擬人化、智能化以及“人在回路”范式的特性需求,以提供可循環(huán)、交互式的雙向促進作用。整個框架總體描述如圖2所示,以下對各模塊分別進行說明。
圖2 BCE2L-KR概念框架Fig.2 BCE2L-KR conceptual framework
正向進化作用定義為知識圖譜賦能下的實體鏈接,是模擬人獲得既定指稱含義的過程。需要著重解決的問題在于更高效的圖譜賦能方式同時提升鏈接問題可解釋性。該模塊最終應(yīng)消除實體歧義,產(chǎn)生正確且相關(guān)的知識信息。
通盤考慮上下文指稱的相關(guān)性是提升鏈接效率與可解釋性的有效途徑之一,參考鄰近的指稱之間可能存在聯(lián)系的假設(shè)。即通過文本關(guān)系圖與知識圖譜中子圖的匹配完成命名實體消歧(named entity disambiguation, NED)任務(wù),如圖3所示。以“蘋果的創(chuàng)始人喬布斯永遠都是一面特立獨行的旗幟,哪怕是現(xiàn)任CEO庫克也無法與其比肩”一句為例,讓計算機在“蘋果”的候選實體“蘋果(薔薇科蘋果屬果實)”“蘋果(公司)”中找出正確對應(yīng),還需要參考文本中的“喬布斯”“庫克”等指稱。首先從文本中分析出關(guān)系圖,再與各候選實體在知識圖譜中的子圖進行匹配,選擇最佳的匹配結(jié)果作為對應(yīng)關(guān)系。
該過程是一種知識圖譜賦能下的協(xié)同鏈接方法,通過添加匹配策略考慮上下文之間實體一致性。由于考慮了關(guān)聯(lián)關(guān)系,因此比其他鏈接方法更加有效,需要考慮的是不同匹配策略的效率問題。據(jù)此,專家學者提出了一系列有啟發(fā)意義的鏈接方法。比較有代表性的是Wang等提出的WebEL模型,該模型通過指稱-實體圖進行局部相似度計算并打分,并與節(jié)點的嵌入分數(shù)相結(jié)合得到最終得分實現(xiàn)鏈接過程。Xie等為了最大化利用知識圖譜信息,通過構(gòu)建實體關(guān)聯(lián)圖作為消歧依據(jù),提出一種基于圖模型的動態(tài)實體消歧算法。Feng等將文本關(guān)系圖與知識圖譜的子圖分別進行嵌入表示,通過實體間嵌入表示的相似程度作為匹配原則,最終較好地完成了鏈接任務(wù)。憑借著關(guān)聯(lián)關(guān)系的較好展現(xiàn),基于知識圖譜的實體鏈接技術(shù)會成為接下來的研究方向之一,愈高效的鏈接方案愈能促進正向進化效能,從而豐富框架內(nèi)核,偽代碼如算法1所示。
圖3 基于知識圖譜的實體鏈接過程Fig.3 Entity linking process based on knowledge graph
算法1 正向進化模塊:知識圖譜賦能下的實體鏈接輸入 文本T,指稱M知識圖譜G(E,R)知識圖譜中的子圖結(jié)構(gòu)SubG(E,R)文本關(guān)系圖TG(M,R)鏈接模型Link(SubG,TG)輸出 指稱實體對應(yīng)關(guān)系(M→E)碎片化知識三元組
反向進化作用定義為信息抽取賦能下的知識推理,該過程力圖在碎片知識加持下,模擬人的推理過程,最終獲得更多相關(guān)三元組。為了后文的敘述方便,將該模塊可能涉及到的知識信息分成3類:
(1) 專家知識:是一種新產(chǎn)生的、來源于文本的知識,需要人工確認并添加,表現(xiàn)為獨立的三元組形式,例如從某特定文本中抽取的、現(xiàn)有推理過程中未涵蓋的三元組;
(2) 經(jīng)驗知識:這類知識是圖譜中預(yù)先包含的,表現(xiàn)為其中頻繁出現(xiàn)的某種模式,可作為計算機的“經(jīng)驗”或“概念”信息,例如某部電影的導演類實體和演員類實體之間存在的“合作”關(guān)系;
(3) 專業(yè)知識:某個領(lǐng)域當中存在的公理知識,有時需要領(lǐng)域?qū)<掖_認,表現(xiàn)為圖譜一定范圍內(nèi)的頻繁模式,例如美軍飛機命名規(guī)則、武器裝備分類等。
類比歸納-演繹推理過程,以事實文本中的三元組信息(專家知識)為驅(qū)動,將知識圖譜看作計算機對現(xiàn)實世界的“認知”并從中獲得有效模式(經(jīng)驗知識),經(jīng)推理獲得某領(lǐng)域內(nèi)的相關(guān)信息(專業(yè)知識)。每輪投喂不同文本作為刺激信號,為各類型知識產(chǎn)生賦能,最終實現(xiàn)知識圖譜的完善與糾錯。不同類型的知識分別代表推理各階段涉及的三元組信息,無需覆蓋整個圖譜,某個獨立三元組在不同的推理過程中也可能屬于不同知識類型。需要著重解決的問題在于提升經(jīng)驗與知識的挖掘能力以及更高效的推理技術(shù)。
專家知識的生成需要切實有效的知識抽取技術(shù),包括命名實體識別、術(shù)語抽取、關(guān)系抽取、事件抽取、共指消解等多個子任務(wù),正向進化過程同樣為該步賦能。傳統(tǒng)基于模板或觸發(fā)詞的抽取方法可移植性差,基于監(jiān)督學習的方法數(shù)據(jù)標注成本高,隨著研究逐步深入,基于深度學習的抽取方法成為主流,其能夠自動提取文本特征,減少對NLP工具的依賴,從而有效解決“信息過載”問題。
經(jīng)驗知識的生成需要從既定圖譜中歸納有效模式,數(shù)據(jù)挖掘技術(shù)為我們提供一種解決思路,然而傳統(tǒng)挖掘算法卻不能很好地對圖譜建模。近些年,隨著圖神經(jīng)網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,圖卷積神經(jīng)網(wǎng)絡(luò)、圖注意力網(wǎng)絡(luò)等概念應(yīng)運而生,憑借圖數(shù)據(jù)結(jié)構(gòu)上的快速識別能力等優(yōu)點,逐漸成為主流方案。解決該問題行之有效的措施是設(shè)計一種兼具可解釋性的圖神經(jīng)網(wǎng)絡(luò),有側(cè)重地挖掘圖中實體及其相關(guān)實體之間的關(guān)聯(lián)特征,從而快速獲得經(jīng)驗信息,為推理打下基礎(chǔ)。
面向知識圖譜的知識推理技術(shù)是反向進化模塊的重要內(nèi)核之一,是產(chǎn)生專業(yè)知識的關(guān)鍵。傳統(tǒng)基于圖結(jié)構(gòu)或子圖路徑的推理方法有較好的解釋性,模擬了人類逐步推理過程,但礙于圖譜規(guī)模,存在復雜度高、計算量大等問題?;诒硎緦W習或神經(jīng)網(wǎng)絡(luò)的推理方法具備計算層面的優(yōu)勢,但解釋性不足,同時往往聚焦于單個層面的信息,不能全局考慮語義、路徑等多種影響因素,泛化能力有待提升。為彌補單一類別推理方法的不足,需要利用多種方法建模,即混合推理方法。為了兼顧計算能力與可解釋性,需要設(shè)計一款基于路徑和神經(jīng)網(wǎng)絡(luò)表示學習的推理方法,提升圖譜質(zhì)量。
同時,現(xiàn)有的知識推理方法仍難以生成新的實體或關(guān)系類。該過程還力圖最大化完善知識圖譜,因此在推理技術(shù)中謀求加入元學習等新技術(shù),旨在最大化挖掘文本信息并有效回溯到知識圖譜當中,為各類下游任務(wù)提供更準確的知識背景,提升智能化水平。
以某篇軍事文本為例,反向進化模塊步驟如圖4所示,首先需要從文本信息中抽取專家知識三元組,再融合圖譜中的經(jīng)驗信息實現(xiàn)軍事領(lǐng)域?qū)I(yè)知識的推理,偽代碼算法2所示。
圖4 基于文本分析的知識推理過程Fig.4 Knowledge reasoning process based on text analysis
算法2 反向進化模塊:知識抽取賦能下的知識推理輸入 一次補全后的知識圖譜G′專家知識
一次正向與一次反向進化可構(gòu)成一次循環(huán),經(jīng)歷各一次實體鏈接與知識推理。為了使該框架不斷迭代升級,應(yīng)多次循環(huán)兩個過程。但盲目循環(huán)并不一定帶來正面效果,在實體鏈接中,仍有一定的錯誤概率;在知識推理當中,并不是每條規(guī)則都符合客觀事實,有時需要人與計算機結(jié)合。此時供給人判斷的是經(jīng)計算機提取后的規(guī)則,這與需要人工標注效率是不一樣的,人參與方式更為友好,因為計算機基于頻繁模式挖掘來主動總結(jié)規(guī)則,人只需要對結(jié)果賦能?!叭嗽诨芈贰狈妒綖槲覀兲峁┝艘环N設(shè)計思路。
“人在回路”也稱為人機閉環(huán)系統(tǒng),通過人和計算機的協(xié)同有效解決二者天然缺陷,逐漸成為機器學習等領(lǐng)域可行的成長模式之一。該范式在框架中體現(xiàn)為人對規(guī)則的審核機制,設(shè)置若干斷點供給人進行處理,幫助計算機對未確認的規(guī)則加以判斷。一種體現(xiàn)方式是加入獎懲機制,給予正確規(guī)則Reward=1,錯誤規(guī)則Reward=0,最大化每次推理的期望累計獎勵,即
=Reward+Reward+…+Reward
(1)
式中:記為第次推理的得分函數(shù),即期望累計,歸一化可表示為第次推理的規(guī)則正確率:
(2)
可通過監(jiān)督學習等思想使每次推理正確率最大化,盡可能避免錯誤規(guī)則的產(chǎn)生。隨著強化學習等理論研究逐步深入,可以考慮融合新技術(shù)優(yōu)化循環(huán)機制,勢必使整個框架更加高效。
根據(jù)上述概念框架,擬從兩個模塊、循環(huán)機制以及整體功能角度進行分析論證,設(shè)計以下4項實驗。
(1) 正向進化需驗證知識圖譜對實體鏈接的賦能作用。模擬多輪循環(huán)中計算機的學習能力,驗證不同更新程度下的知識圖譜在實體鏈接方案中的效率提升。
(2) 反向進化需驗證知識抽取與知識推理技術(shù)對圖譜完善的賦能作用。通過從文本中抽取出的三元組結(jié)合知識推理方法最大化完善知識圖譜,比較三元組的生成效率與質(zhì)量。
(3) 循環(huán)機制需驗證人在循環(huán)機制中的賦能作用,分別在有人和無人監(jiān)督的情況下進行多輪循環(huán),比較知識生成質(zhì)量。
(4) 整體功能的驗證需要在上述模塊驗證基礎(chǔ)上,模擬真實環(huán)境實現(xiàn)多輪、完整的學習過程,并分別與獨立實體鏈接和知識推理模型進行比較,驗證整體框架賦能效果與時效性指標。
本文使用NLPCC14中文微博實體鏈接數(shù)據(jù)集,包含1 152個待鏈接指稱以及相對應(yīng)的上下文,每篇文本包含1~8個指稱不等。背景圖譜使用CN-DBpedia,是復旦大學知識工場實驗室研發(fā)并維護的大規(guī)模通用領(lǐng)域結(jié)構(gòu)化百科。鏈接模型如文獻[12]所示,參數(shù)設(shè)置不作改變。精確率、召回率及其調(diào)和平均數(shù)1-score的計算如下:
(3)
式中:表示某實體鏈接方法的鏈接集合;表示正確的鏈接集合;與的交集表示通過該實體鏈接方法正確的鏈接集合。
為模擬經(jīng)推理后更完善的圖譜對實體鏈接的賦能作用,本文采用兩個時間段的圖譜進行實驗。同時,為了增加對照組,分多次添加相關(guān)領(lǐng)域三元組完善知識圖譜,實驗結(jié)果如圖5所示。
圖5 正向進化模塊驗證結(jié)果Fig.5 Verification of forward evolution module
結(jié)果表明,隨著圖譜不斷完善,每項指標皆有一定程度提升,可見更完善的知識圖譜確實對實體鏈接有促進作用??紤]該程度下提升難度將愈來愈大,其受制因素仍是圖譜質(zhì)量與模型效率,可以考慮從其他方面繼續(xù)提升。
區(qū)別于傳統(tǒng)基于文本信息結(jié)構(gòu)化補全圖譜的方式,反向進化模塊添加了知識抽取賦能下的知識推理步驟,旨在更好地提升計算機的自我學習能力。從新浪、騰訊等門戶網(wǎng)站爬取若干篇文章,涉及軍事、民生、體育等領(lǐng)域,利用斯坦福大學開發(fā)的開源知識抽取系統(tǒng)DeepDive抽取三元組并進行對照實驗??瞻讓φ战M設(shè)置為圖譜本身,A組設(shè)置為不加入知識推理步驟的圖譜補全,生成的三元組僅依賴投喂的文本信息;B組設(shè)置為加入知識推理步驟的圖譜完善,采用基于路徑規(guī)則的知識推理方法,比較知識產(chǎn)生效率(推理出的三元組個數(shù))與質(zhì)量(推理出的三元組正確率)的差別。分別投喂3組不同領(lǐng)域(軍事、民生、體育)文本各15篇,實驗結(jié)果如圖6所示。
圖6 反向進化模塊驗證結(jié)果Fig.6 Verification of reverse evolution module
其中縱軸的長度表示產(chǎn)生的三元組總數(shù),軸內(nèi)百分比表示正確或錯誤三元組所占比例。由此可見,A組在知識產(chǎn)生效率方面以及質(zhì)量方面均不如B組。B組三元組產(chǎn)生效率平均比A組提升1.24倍,原因在于反向進化模塊中加入的知識推理技術(shù)模擬了人類“舉一反三”的推理過程,因此可以產(chǎn)生更多三元組。同時,由于面向知識圖譜的推理技術(shù)逐步完善,B組在平均正確率上仍有5.13%的提升。隨著計算機推理技術(shù)的發(fā)展,可將更優(yōu)質(zhì)的推理技術(shù)加入該模塊,進一步提升推理效率與質(zhì)量。
A組設(shè)置為基于自動循環(huán)的學習方式,B組設(shè)置為基于“人在回路”的學習方式。基于自動循環(huán)的方式不依賴人工干預(yù),每輪產(chǎn)生的知識與規(guī)則無論對錯全盤加入到下一輪循環(huán)當中;基于“人在回路”的學習方式則選擇每輪推理出的正確知識與規(guī)則加入到下一輪循環(huán)中。知識圖譜仍使用CN-DBpedia,在軍事領(lǐng)域下進行驗證。將反向進化模塊中的15篇軍事文本加入該框架并進行5輪循環(huán)(每輪循環(huán)輸入3篇),通過人工標注的方式比較每輪循環(huán)中正確與錯誤三元組在產(chǎn)生的所有三元組中占據(jù)的比例,結(jié)果如圖7所示。
圖7 兩種循環(huán)方式實驗結(jié)果Fig.7 Experimental results of two circular manners
由圖7結(jié)果可知,兩種循環(huán)的學習機制每輪都會產(chǎn)生一定的錯誤知識,但經(jīng)過人工確認的方式使得多輪循環(huán)下平均推理正確率提升1.74%,且推理出的正確知識占比愈來愈高,該效果在自動循環(huán)的學習機制下表現(xiàn)并不明顯,原因在于每一輪循環(huán)都要依賴前一輪循環(huán)的知識圖譜作為先驗知識,愈發(fā)準確的先驗知識無疑會對各類任務(wù)產(chǎn)生促進作用,這也很好地解釋了人在未來各項智能化設(shè)計中的作用。
將反向進化模塊的3組各15篇文本分別作為框架循環(huán)的輸入信息,依次投喂每組各3篇文本,實現(xiàn)該框架5輪完整運行過程。在每輪循環(huán)中分別計算相應(yīng)實體鏈接、知識推理任務(wù)的評價指標,并記錄循環(huán)運行時間。對照組設(shè)置為相同輸入下的5輪單次實體鏈接與知識推理過程,每輪輸入文本不會影響下一輪循環(huán),實體鏈接、知識推理實驗相關(guān)設(shè)置與前文相同,各評價指標如圖8所示。其中實體鏈接采用5輪循環(huán)與的調(diào)和1-score均值,知識推理采用正確三元組平均所占比例與每輪三元組的平均產(chǎn)生個數(shù)。同時,為了驗證該框架時間效率,記錄完整執(zhí)行5輪循環(huán)(不含人機交互判斷所花費的時間)與獨立實體鏈接+知識推理模型的運行時間之和,結(jié)果如圖9所示。
圖8 實體鏈接、知識推理評價結(jié)果Fig.8 Evolution results of entity linking and knowledge reasoning
圖9 運行時間結(jié)果Fig.9 Results of run-time
圖8表明,在該框架下,知識推理與實體鏈接都達到了比獨立模型更優(yōu)的效果。其中,實體鏈接平均1-score值平均提升0.17%,知識推理中正確三元組占比平均提升1.88%,三元組產(chǎn)生數(shù)量平均增加5.4個。同時,由圖9可知,每輪循環(huán)的運行時間略高于實體鏈接與知識推理模型運行時間之和,總體耗時相當,略高出的部分主要源于反向進化中的迭代推理過程。從框架整體來看,即使反向進化產(chǎn)生了更多相關(guān)三元組,其對整體運行時間影響并不明顯,符合一般預(yù)期,證明了該框架的合理性與有效性。
為了順應(yīng)知識&數(shù)據(jù)雙輪驅(qū)動的第三代人工智能設(shè)想,本文提出一種BCEL-KR。該框架類比人閱讀學習行為,設(shè)計兩個方向的進化過程。正向進化過程的核心是基于知識圖譜的實體鏈接技術(shù),利用更新后的圖譜進行文本分析研究,以克服鏈接過程中歧義性等缺陷;反向進化作用主要利用圖神經(jīng)網(wǎng)絡(luò)等技術(shù),從碎片化文本信息中推理出潛在知識模式,再利用知識推理等技術(shù)完善圖譜,完成擬人化的推理過程。整個框架經(jīng)人為干預(yù)的若干次迭代后,賦予計算機更強的自我學習能力,提升框架智能化水平。經(jīng)可行性分析驗證,完善的知識圖譜對實體鏈接具有促進作用,且圖譜覆蓋的知識越準確,實體鏈接效果越好。同理,更精確的知識抽取技術(shù)可以更有效地獲取文本信息,輔以知識推理技術(shù)可更好地完善圖譜,經(jīng)多次循環(huán)后可有效減少知識“盲區(qū)”。總的來說,該框架通過擬人化的學習過程,實現(xiàn)了知識循環(huán)迭代升級,同時該框架還具有開放性與拓展性,在正向與反向進化過程中有若干模型可供選擇,更完善的圖譜也可用于其他下游任務(wù)。隨著實體鏈接與知識推理等技術(shù)的不斷提升,該框架仍存在可改進之處:① 正向過程中,更新優(yōu)秀的實體鏈接方案,在先驗圖譜&模型雙重賦能下提升鏈接效率;② 反向過程中,添加多模態(tài)知識獲取機制、融合多種新技術(shù)加強對人類推理行為的模擬等;③ 在實際使用過程中,通過眾包方式讓系統(tǒng)完成自我迭代等。