邢 萌,楊朝紅,畢建權(quán)
(陸軍裝甲兵學(xué)院,北京 100072)
知識圖譜概念起源于語義網(wǎng)絡(luò),于2012年由Google提出,是一種用于其搜索結(jié)果優(yōu)化的輔助知識庫。隨著知識圖譜技術(shù)的快速發(fā)展,目前已開始應(yīng)用于各垂直領(lǐng)域。領(lǐng)域知識圖譜(Domain-specific Knowledge Graph,DKG)是指聚焦在特定垂直領(lǐng)域的知識圖譜,其中,大都是跟該領(lǐng)域相關(guān)的實(shí)體和概念[1]。
領(lǐng)域知識圖譜與通用知識圖譜(General-purpose Knowledge Graph,GKG)的區(qū)別主要體現(xiàn)在知識表示、知識獲取和知識應(yīng)用三個層面。一是從知識表示層面看,GKG對知識的覆蓋范圍遠(yuǎn)大于DKG,而DKG在知識的深度上更深,尤其體現(xiàn)在圖譜的層級體系上,并且,兩者在知識表示的粒度上也有很大區(qū)別,比如,通用知識圖譜的表示粒度可以是計(jì)算機(jī)中的一個文檔,而領(lǐng)域知識圖譜的粒度通常要精細(xì)到文檔中的一個段落、一個知識點(diǎn)等;二是從知識獲取層面看,領(lǐng)域知識圖譜對前置數(shù)據(jù)模式有更嚴(yán)格的要求,應(yīng)用場景的嚴(yán)謹(jǐn)性要求數(shù)據(jù)具有更高的準(zhǔn)確度,比如醫(yī)學(xué)領(lǐng)域、軍事領(lǐng)域、高精尖科技領(lǐng)域等,所以,在領(lǐng)域知識圖譜的構(gòu)建中,專家參與度更高,自動化程度較低;三是知識應(yīng)用層面上,DKG的推理鏈條通常比較長,主要是因?yàn)轭I(lǐng)域知識圖譜的實(shí)體分布較為密集,相對于GKG,它在單個實(shí)體的相關(guān)知識覆蓋面更廣泛,在這樣一個實(shí)體密集的知識圖譜上進(jìn)行長距離推理之后的結(jié)果大概率仍是有意義的,因此,領(lǐng)域知識圖譜能夠勝任類似深度推理、復(fù)雜查詢等應(yīng)用[2]。
領(lǐng)域的知識圖譜是用來輔助各種復(fù)雜的分析應(yīng)用或決策支持,不同領(lǐng)域的構(gòu)建方案與應(yīng)用形式有所不同。知識圖譜作為人工智能技術(shù)中的知識容器和孵化器,對未來AI領(lǐng)域發(fā)展起關(guān)鍵性的作用。未來全軍作戰(zhàn)樣式將全面向基于網(wǎng)絡(luò)信息體系的聯(lián)合作戰(zhàn)樣式轉(zhuǎn)變,信息已經(jīng)成為鏈接各作戰(zhàn)部隊(duì)、武器裝備、信息系統(tǒng)等各類作戰(zhàn)單元的重要紐帶,亟須對這些信息資源進(jìn)行組織關(guān)聯(lián)及共享開發(fā),以打通信息隔閡,取得戰(zhàn)爭信息優(yōu)勢。
本文初步探討了軍事領(lǐng)域知識圖譜當(dāng)前面臨的機(jī)遇和挑戰(zhàn),從新的領(lǐng)域知識圖譜角度提出了軍事領(lǐng)域知識圖譜構(gòu)建及應(yīng)用技術(shù)架構(gòu),給出軍事領(lǐng)域知識圖譜的應(yīng)用場景,針對軍事領(lǐng)域特點(diǎn),對知識全生命周期的各個環(huán)節(jié)的關(guān)鍵技術(shù)流程進(jìn)行專項(xiàng)研究,旨在推動軍事領(lǐng)域知識圖譜的落地應(yīng)用,對網(wǎng)絡(luò)信息體系建設(shè)中的數(shù)據(jù)關(guān)聯(lián)構(gòu)建、數(shù)據(jù)組織和知識管理具有一定的指導(dǎo)意義。
當(dāng)前,國內(nèi)外對領(lǐng)域知識圖譜的研究熱點(diǎn)主要有領(lǐng)域大腦構(gòu)建、大規(guī)模領(lǐng)域知識圖譜的存儲與計(jì)算、知識圖譜交互以及領(lǐng)域知識圖譜應(yīng)用等幾個方面。
在領(lǐng)域圖譜構(gòu)建方面,由于通用知識圖譜的知識來源于多種結(jié)構(gòu)的數(shù)據(jù),其可看成一個面向通用領(lǐng)域的“結(jié)構(gòu)化的百科知識庫”,而領(lǐng)域知識圖譜又稱為行業(yè)知識圖譜或垂直知識圖譜,面向某一特定領(lǐng)域。領(lǐng)域知識圖譜基于行業(yè)數(shù)據(jù)構(gòu)建,通常有嚴(yán)格而豐富的數(shù)據(jù)模式,對知識的深度、準(zhǔn)確性要求較高,亟須解決增強(qiáng)領(lǐng)域知識的表示能力、對領(lǐng)域?qū)嶓w進(jìn)行識別和關(guān)系抽取、隱性關(guān)系發(fā)現(xiàn)等關(guān)鍵問題。
在大規(guī)模領(lǐng)域知識圖譜的存儲與計(jì)算方面,由于大部分領(lǐng)域除了實(shí)體關(guān)系數(shù)據(jù)外,還有時間、空間、規(guī)則、標(biāo)簽等重要的知識數(shù)據(jù),單獨(dú)使用圖數(shù)據(jù)庫已經(jīng)不能滿足多種數(shù)據(jù)結(jié)構(gòu)的存儲要求,基于圖數(shù)據(jù)庫的混合存儲模型研究成為熱點(diǎn)[3];基于通用知識圖譜的推理技術(shù)并不能很好地移植到領(lǐng)域知識圖譜中,一些學(xué)者開始從程序性知識的角度研究領(lǐng)域內(nèi)的知識推理,如何將這種人類的思維以程序性知識的形式轉(zhuǎn)化為機(jī)器的路徑是當(dāng)前的一個研究重點(diǎn)[4]。
領(lǐng)域知識圖譜的應(yīng)用研究主要有智能搜索及問答、輔助決策及個性化推薦等方面。目前,領(lǐng)域知識圖譜已經(jīng)在醫(yī)療、電商、金融、軍工、電力、教育、公安等多個領(lǐng)域開展應(yīng)用,例如,在金融領(lǐng)域的信用評估、風(fēng)險控制、反欺詐方面的應(yīng)用,以及醫(yī)療領(lǐng)域的智能問診等的應(yīng)用[5]。
當(dāng)前,國內(nèi)對軍事領(lǐng)域知識圖譜的研究成果較少,車金立等對基于百科知識的軍事裝備知識圖譜構(gòu)建與應(yīng)用進(jìn)行了研究,構(gòu)建了軍事裝備領(lǐng)域的知識圖譜,實(shí)現(xiàn)了知識問答功能[6],但只是基于公開的半結(jié)構(gòu)化的百科數(shù)據(jù),數(shù)據(jù)源單一,數(shù)據(jù)類型少,且研究成果中沒有明確知識抽取的準(zhǔn)確率、自動化程度以及知識問答結(jié)果的準(zhǔn)確率;周麗娜等人研究了網(wǎng)絡(luò)信息體系知識本體的構(gòu)建方法,認(rèn)為當(dāng)前的問題是解決本體的自動構(gòu)建和更新,知識圖譜無法涵蓋所有軍事活動[7];國內(nèi)還有對基于知識圖譜的日本西南防衛(wèi)力量的研究,利用圖數(shù)據(jù)庫進(jìn)行存儲提升數(shù)據(jù)的擴(kuò)展性和處理效率,研究成果可以輔助軍事決策和軍事偵察等[8],但同樣存在數(shù)據(jù)源單一、節(jié)點(diǎn)間關(guān)系過于簡單等問題。劉麗、葛斌、蔣鍇等人對軍事數(shù)據(jù)組織技術(shù)進(jìn)行了研究,描述了基于知識圖譜的軍用數(shù)據(jù)組織技術(shù)框架,但尚未體現(xiàn)軍用領(lǐng)域知識圖譜的專用技術(shù)[9-11]。
按照部隊(duì)的作戰(zhàn)狀態(tài)可以將應(yīng)用場景分為平時和戰(zhàn)時。平時應(yīng)用場景主要包含基于軍事知識的智能問答、個性化推薦、隱蔽知識推理等基于知識圖譜的輔助數(shù)據(jù)分析及決策功能;戰(zhàn)時應(yīng)用場景主要包含情報保障、作戰(zhàn)籌劃與行動控制、戰(zhàn)時輔助判斷與決策推薦等戰(zhàn)時指揮控制典型功能應(yīng)用。
當(dāng)前,基于領(lǐng)域知識圖譜的智能問答類應(yīng)用從簡單場景延伸至復(fù)雜和多元化的應(yīng)用場景,從智能搜索發(fā)展為智能推薦、知識問答等復(fù)雜任務(wù)。應(yīng)用到部隊(duì)平時訓(xùn)練場景中,例如,在坦克射擊訓(xùn)練時,從對戰(zhàn)斗室的了解與使用到實(shí)現(xiàn)戰(zhàn)斗瞄準(zhǔn)射擊,共有兩百余項(xiàng)練習(xí)內(nèi)容,每項(xiàng)練習(xí)內(nèi)容的步驟數(shù)量從三到十余步不等,每步均有相應(yīng)的完成條件與實(shí)現(xiàn)標(biāo)準(zhǔn)。如詢問“射擊前檢查”的練習(xí)內(nèi)容與方法,基于知識圖譜的智能問答系統(tǒng)應(yīng)能返回準(zhǔn)確的練習(xí)內(nèi)容,如火控計(jì)算機(jī)自檢、安全保護(hù)功能檢查、液壓閉鎖功能檢查、各種工作模式功能檢查、夜視儀功能檢查等,并為用戶智能推薦進(jìn)行該練習(xí)時可能用到的裝備及輔助工具,在操作過程中可以進(jìn)行相關(guān)問題的解答與解決方案推薦,如“炮控系統(tǒng)檢查需要哪些準(zhǔn)備工作”、“建議在進(jìn)行功能檢查前應(yīng)將夜視儀檢查完畢”等。
從用戶提出的問題來看,除傳統(tǒng)的陳述類問題之外,領(lǐng)域知識圖譜重點(diǎn)解決的是解釋類的問題。像“what”、“who”、“when”、“where”這樣簡單的陳述類問題只能滿足用戶對知識圖譜最基礎(chǔ)的要求,現(xiàn)在,越來越多的場景要求解決“why”、“how”等解釋類問題[12]。
作戰(zhàn)人員對于作戰(zhàn)數(shù)據(jù)的需求是多元化和個性化的,通過以搜索引擎為代表的信息檢索系統(tǒng)獲得的結(jié)果并不能很好地滿足作戰(zhàn)人員的個性化需求,此類問題可通過基于領(lǐng)域知識圖譜的個性化推薦解決;由于領(lǐng)域知識圖譜可以支撐推理鏈條較長的應(yīng)用場景,能夠推理出基于更深層次關(guān)系的隱蔽知識,還可以根據(jù)用戶的統(tǒng)計(jì)數(shù)據(jù)描述用戶習(xí)慣,進(jìn)行隱蔽知識推理?;陬I(lǐng)域知識圖譜的智能問答、個性化推薦、隱蔽知識推理等應(yīng)用,可以顯著提高部隊(duì)日常訓(xùn)練的組織效率,節(jié)約裝備及人力資源。
戰(zhàn)時應(yīng)用場景主要是以典型作戰(zhàn)任務(wù)為牽引,在部隊(duì)現(xiàn)役指揮信息系統(tǒng)基礎(chǔ)上進(jìn)行基于知識專家經(jīng)驗(yàn)的升級改造,以支撐作戰(zhàn)人員進(jìn)行作戰(zhàn)籌劃與行動控制、輔助判斷與決策推薦等為目的應(yīng)用場景。
在戰(zhàn)場作戰(zhàn)指揮的過程中,對戰(zhàn)場情況的輔助判斷與決策推薦等應(yīng)用場景,領(lǐng)域知識圖譜通過學(xué)習(xí)軍事指揮作戰(zhàn)條例,深度分析指揮作戰(zhàn)制勝機(jī)理,通過研究經(jīng)典案例的指揮決策機(jī)制,提供基于藍(lán)軍相似度的作戰(zhàn)方案推薦與決策支持,從而形成基于部隊(duì)作戰(zhàn)經(jīng)驗(yàn)及實(shí)時態(tài)勢數(shù)據(jù)的輔助判斷與決策推薦模型,可實(shí)現(xiàn)對戰(zhàn)場情報進(jìn)行多體系、多維度、多層次的分析,支撐復(fù)雜戰(zhàn)場態(tài)勢的綜合研判和決策推薦,圖1是知識圖譜在作戰(zhàn)指揮中的應(yīng)用模型。
圖1 軍事領(lǐng)域知識圖譜在作戰(zhàn)指揮中的應(yīng)用模型
通用的知識圖譜主要強(qiáng)調(diào)知識的廣度,是運(yùn)用百科數(shù)據(jù)自底向上的方法進(jìn)行構(gòu)建。而領(lǐng)域知識圖譜面向不同的領(lǐng)域,其數(shù)據(jù)模式不同,應(yīng)用需求不同,需要通過一套通用的標(biāo)準(zhǔn)和規(guī)范來指導(dǎo)構(gòu)建,基于行業(yè)特點(diǎn)及專家經(jīng)驗(yàn)定制實(shí)現(xiàn)。軍事領(lǐng)域知識圖譜構(gòu)建及應(yīng)用是一個系統(tǒng)工程,其從無到有的構(gòu)建過程分為六個環(huán)節(jié),本文稱其為領(lǐng)域知識圖譜的全生命周期,其設(shè)計(jì)的關(guān)鍵技術(shù)流程主要包含知識表示、知識存儲、知識抽取、知識融合、知識計(jì)算、知識計(jì)算與演化、知識應(yīng)用[13-14],如圖2所示。
圖2 軍事領(lǐng)域知識圖譜構(gòu)建及應(yīng)用技術(shù)架構(gòu)圖
數(shù)據(jù)層是整個領(lǐng)域知識圖譜構(gòu)建的基礎(chǔ),與傳統(tǒng)互聯(lián)網(wǎng)數(shù)據(jù)不同,軍事領(lǐng)域數(shù)據(jù)的來源與類型不同,含軍用數(shù)據(jù)庫、作戰(zhàn)文書、情報文本、圖像、流媒體等多源異構(gòu)的軍事數(shù)據(jù),主要來源于軍用標(biāo)準(zhǔn)數(shù)據(jù)庫及已有/在研型號信息系統(tǒng)上獲取的目標(biāo)情報等信息。
知識表示定義了領(lǐng)域的基本認(rèn)知框架,明確基本概念以及概念之間的語義關(guān)聯(lián),提供機(jī)器認(rèn)知的基本骨架及數(shù)據(jù)結(jié)構(gòu),以達(dá)到對知識的合理組織[17]。
軍事領(lǐng)域中,知識表示環(huán)節(jié)需要關(guān)注兩個問題。一是通用知識圖譜并不足以表達(dá)所有語義,比如,在軍事領(lǐng)域中的裝備維修及配置等應(yīng)用場景,對于if-then規(guī)則的表示比較困難,如規(guī)則if A and B then C,知識圖譜很難表達(dá)關(guān)系復(fù)雜的原子表達(dá)式。一些軍事領(lǐng)域的應(yīng)用場景增加了時空維度等表達(dá)要素,遠(yuǎn)遠(yuǎn)超出知識圖譜的三元組所能表達(dá)的簡單關(guān)聯(lián)事實(shí)。二是細(xì)粒度知識表示是軍事領(lǐng)域應(yīng)用的強(qiáng)需求之一,但不代表所有應(yīng)用場景都需要細(xì)粒度表示,粒度越細(xì)表達(dá)能力越強(qiáng),同時獲取代價越大。
知識管理主要是進(jìn)行知識的存儲、建立索引并實(shí)現(xiàn)知識的高效查詢。軍事領(lǐng)域知識圖譜還有多樣異構(gòu)知識,具有多源性、異構(gòu)性、時序性、實(shí)時性、冗余性、強(qiáng)關(guān)聯(lián)性和閉環(huán)性等特征。知識表示存在如下難點(diǎn):一是傳統(tǒng)的XML存儲方式不適合非結(jié)構(gòu)化、半結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)的分析和建模;二是領(lǐng)域知識圖譜中的概念、實(shí)例等之間的關(guān)聯(lián)關(guān)系非常復(fù)雜,傳統(tǒng)的本體編輯工具以RDF或OWL形式存儲,由于數(shù)據(jù)都在內(nèi)存中存在副本,不適應(yīng)大量數(shù)據(jù)的存儲場合;三是通用知識圖譜使用的圖數(shù)據(jù)庫(Neo4j)在支持軍用中文知識圖譜的復(fù)雜使用場景時會影響各類數(shù)據(jù)查詢和修改的速度,綜上,必須使用合理的存儲機(jī)制,以滿足高并發(fā)、高速度的查詢。
知識抽取環(huán)節(jié)是對知識框架的知識實(shí)例進(jìn)行填充,需要注意的是獲取知識的質(zhì)量和完備性問題。一是各級各類大型軍事信息系統(tǒng)在多任務(wù)復(fù)雜的使用環(huán)境下產(chǎn)生了大量的軍事數(shù)據(jù),此類數(shù)據(jù)存在數(shù)據(jù)來源不同、數(shù)據(jù)格式多樣性的特點(diǎn),需要針對不同數(shù)據(jù)的特征設(shè)計(jì)提高知識抽取的準(zhǔn)確率和召回率的關(guān)鍵手段,例如,軍用數(shù)據(jù)庫存在數(shù)據(jù)表示不一致,數(shù)據(jù)無法完成匯聚及智能檢索的問題;作戰(zhàn)文書具有復(fù)雜程度高,特殊數(shù)據(jù)多,數(shù)據(jù)規(guī)則性強(qiáng),需要提前注入相應(yīng)軍事規(guī)則。二是由于軍事領(lǐng)域的應(yīng)用場景極端嚴(yán)肅,對知識獲取的質(zhì)量要求非??量?知識獲取方案要兼顧要求和成本,避免知識庫的缺漏、錯誤、信息陳舊等問題[15-16]。
由于數(shù)據(jù)的來源多樣,抽取方式和手段不同,從知識抽取獲得的實(shí)體、關(guān)系及屬性結(jié)果中存在數(shù)據(jù)冗余、噪聲、非完備和不確定等問題,同時,數(shù)據(jù)間的關(guān)系無層次及明確的邏輯關(guān)系,此類問題通過知識抽取的清洗環(huán)節(jié)無法解決,迫切需要構(gòu)建基于一體化的實(shí)體關(guān)系表示模型。面向不同領(lǐng)域、數(shù)據(jù)模式、應(yīng)用需求,對海量異構(gòu)數(shù)據(jù)資源完成數(shù)據(jù)的語義標(biāo)準(zhǔn)和鏈接,以及進(jìn)行實(shí)體消歧、實(shí)體對齊,實(shí)現(xiàn)多個領(lǐng)域圖譜的跨域語義融合,形成全局統(tǒng)一的知識表示和關(guān)聯(lián)[17-18]。
為了提高軍事領(lǐng)域知識圖譜的實(shí)際應(yīng)用價值,需要對實(shí)體間存在的大量隱含關(guān)系進(jìn)行挖掘。由于軍事領(lǐng)域知識圖譜的實(shí)體分布較為密集,單個實(shí)體的相關(guān)知識覆蓋面廣,需針對其知識表示的粒度及深度更深的特征,過增量知識和規(guī)則的快速加載,完成長距離的推理,以保障推理的延展性及正確性,挖掘語義層面的更多關(guān)聯(lián)信息和知識[19]。
此外,軍事知識圖譜的構(gòu)建是一個不斷迭代更新的過程,作戰(zhàn)方案、策略、手段是不斷變化的,需要及時進(jìn)行知識的置信評估及新知識的完善。
知識應(yīng)用需要考慮技術(shù)成熟度,同時還要避免“為了圖譜而圖譜”,因此,應(yīng)該謹(jǐn)慎選擇應(yīng)用場景。軍事知識應(yīng)用需明確應(yīng)用場景與知識的應(yīng)用方式,即明確要解決的問題。一是什么樣的應(yīng)用場景下可以使用知識圖譜。知識圖譜作為一種面向人機(jī)協(xié)同的開放知識管理機(jī)制,有特定價值和成本,對于不同應(yīng)用問題,知識圖譜不總是最好的解決方案[21]。二是軍事領(lǐng)域知識圖譜的應(yīng)用場景比通用知識圖譜的應(yīng)用場景復(fù)雜得多,當(dāng)前領(lǐng)域知識體系在建立時大多以領(lǐng)域數(shù)據(jù)的基本概念、實(shí)體為中心,這在理解復(fù)雜應(yīng)用場景中的用戶需求時存在天然缺陷。如何才能更好地設(shè)計(jì)出復(fù)雜的作戰(zhàn)應(yīng)用場景并彌補(bǔ)這種語義鴻溝,是知識應(yīng)用環(huán)節(jié)中需要重點(diǎn)關(guān)注和解決的問題。
根據(jù)上文提出的軍事領(lǐng)域知識圖譜構(gòu)建及應(yīng)用技術(shù)架構(gòu),以及在知識全生命周期各環(huán)節(jié)關(guān)注的典型問題,對部分關(guān)鍵技術(shù)進(jìn)行設(shè)計(jì)及介紹。
增強(qiáng)復(fù)雜知識的表示能力可以通過構(gòu)建附加信息模型的方式(除了僅僅依靠知識庫中的三元組構(gòu)造知識圖譜表示模型外),將一些模型外的附加信息進(jìn)行表示提升。在軍事領(lǐng)域知識構(gòu)建過程中,通過增加實(shí)體類型來更清晰地表示實(shí)體之間的關(guān)系。在軍事知識庫中,給每個實(shí)體設(shè)定相應(yīng)的類別,例如,殲-20具有戰(zhàn)斗機(jī)的屬性。在軍事領(lǐng)域知識圖譜構(gòu)建過程中設(shè)立類似IsA這樣的可以表示實(shí)體屬性的復(fù)雜關(guān)系,例如,(殲-20,IsA,戰(zhàn)斗機(jī))的三元組。當(dāng)進(jìn)行知識圖譜表示的時候,利用具有實(shí)體屬性的三元組將屬性信息考慮到向量表示中,增加復(fù)雜知識的表示能力。
此外,針對一些跨多媒體數(shù)據(jù)表示的實(shí)體,如包含了聲音、圖片、視頻等軍事實(shí)體,通過對實(shí)體增加語義文本描述信息以提高知識表示質(zhì)量。為表示向量化軍事實(shí)體之間的關(guān)系,采用RESCAL語義匹配模型,用h代表頭實(shí)體,r代表關(guān)系,t代表尾實(shí)體,在實(shí)體和關(guān)系向量化過程中,將三元組向量化為(h,r,t)。為了表示向量化后的實(shí)體之間的關(guān)系,構(gòu)造如下函數(shù)
其中,Mr表示關(guān)系的權(quán)重向量,模型將知識圖譜形式化為三維張量,該張量包括一個因子矩陣和一個核心張量,因子矩陣中每一行代表一個實(shí)體,核心張量中每個二維矩陣切片代表一種關(guān)系,由因子矩陣和核心張量還原的結(jié)果被看成對應(yīng)三元組成立的概率,若三元組正確,則實(shí)體之間滿足關(guān)系h+r≈t。
軍事領(lǐng)域知識圖譜的內(nèi)容形式及格式豐富,在存儲結(jié)構(gòu)的設(shè)計(jì)上,需兼顧各類數(shù)據(jù)內(nèi)容的查詢與修改操作的速度,采用多類存儲媒介以實(shí)現(xiàn)軍事知識的混合存儲,包含關(guān)系數(shù)據(jù)庫、圖數(shù)據(jù)庫、內(nèi)存數(shù)據(jù)庫、文件索引系統(tǒng)等,將非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)在知識圖譜中以HDF格式和RDF格式分布式圖存儲并進(jìn)行標(biāo)注,通過內(nèi)存數(shù)據(jù)庫及關(guān)系數(shù)據(jù)庫對多源異構(gòu)數(shù)據(jù)進(jìn)行有效融合,實(shí)現(xiàn)多源異構(gòu)知識的統(tǒng)一存儲管理,對視頻、圖片、聲音等文件利用文件存儲系統(tǒng)進(jìn)行存儲。該框架包括源數(shù)據(jù)存儲管理器、數(shù)據(jù)處理器、數(shù)據(jù)提取引擎、消息隊(duì)列、存儲和索引接口及訂閱服務(wù)6個部分。
針對軍事領(lǐng)域知識圖譜對知識質(zhì)量要求嚴(yán)苛,本文提出在保證質(zhì)量的前提下盡量降低成本的原則:首先,明確數(shù)據(jù)來源,按照避難就簡的原則,盡量選擇質(zhì)量較好、結(jié)構(gòu)化程度較高的數(shù)據(jù)源,之后,通過非結(jié)構(gòu)化數(shù)據(jù)逐步擴(kuò)大規(guī)則集,并進(jìn)行知識的跨域遷移,復(fù)用相近領(lǐng)域知識。
1)結(jié)構(gòu)化數(shù)據(jù)是軍用數(shù)據(jù)建設(shè)過程中產(chǎn)生的規(guī)則性較強(qiáng)、業(yè)務(wù)性強(qiáng)的基礎(chǔ)數(shù)據(jù),對其提出一種基于網(wǎng)絡(luò)本體語言的關(guān)系數(shù)據(jù)本體抽取方法,構(gòu)建從軍事領(lǐng)域關(guān)系數(shù)據(jù)庫到本體的映射,通過元數(shù)據(jù)庫或軍用關(guān)系數(shù)據(jù)庫中的元數(shù)據(jù)抽取關(guān)系數(shù)據(jù)的模式,將關(guān)系數(shù)據(jù)庫中存在的表轉(zhuǎn)換為網(wǎng)絡(luò)本體語言模式中的同名類,表中字段轉(zhuǎn)換為對應(yīng)屬性,表中數(shù)據(jù)記錄轉(zhuǎn)換為類的實(shí)體對象,并參照表間的相應(yīng)關(guān)系設(shè)定類間、屬性間的關(guān)系以及屬性的對應(yīng)約束條件。利用數(shù)據(jù)庫表中的數(shù)據(jù)為本體的實(shí)例進(jìn)行賦值,將數(shù)據(jù)庫表中的元組映射到本體實(shí)例,實(shí)現(xiàn)軍用結(jié)構(gòu)化數(shù)據(jù)的本體抽取,獲取可用的知識單元,生成語義的初始參考集[22],如圖3所示。
圖3 軍事領(lǐng)域結(jié)構(gòu)化數(shù)據(jù)抽取流程圖
2)在對作戰(zhàn)基礎(chǔ)數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)抽取的基礎(chǔ)上,對非結(jié)構(gòu)化的軍事數(shù)據(jù)進(jìn)行知識抽取,通過增量迭代的方式逐步擴(kuò)大知識規(guī)則。軍用領(lǐng)域的非結(jié)構(gòu)化數(shù)據(jù)或者半結(jié)構(gòu)數(shù)據(jù)主要包含作戰(zhàn)文書、情報文本以及戰(zhàn)場的圖像及視頻數(shù)據(jù),且業(yè)務(wù)特征較明顯,適合采用機(jī)器學(xué)習(xí)的采樣方法。軍事領(lǐng)域知識圖譜與通用知識圖譜不同,它在構(gòu)建過程中需要根據(jù)軍事應(yīng)用的需求定義明確的命名實(shí)體以及實(shí)體關(guān)系。因此,對于軍事領(lǐng)域中的知識抽取任務(wù)均是有監(jiān)督學(xué)習(xí)任務(wù)。在對作戰(zhàn)文書和情報文本等文本數(shù)據(jù)進(jìn)行知識抽取時,選擇采用基于深度學(xué)習(xí)的有監(jiān)督方法。例如,在作戰(zhàn)文書的抽取上,采用一種基于序列模型并結(jié)合位置注意力機(jī)制的實(shí)體和關(guān)系聯(lián)合抽取模型,實(shí)現(xiàn)了對重疊實(shí)體關(guān)系的抽取,提高識別重疊實(shí)體的準(zhǔn)確率。此外,對于圖像、視頻及語音等數(shù)據(jù),首先使用深度學(xué)習(xí)算法進(jìn)行模型轉(zhuǎn)換,將其描述為文本,并以此與現(xiàn)有知識進(jìn)行規(guī)則匹配。
知識融合的過程中,主要涉及實(shí)體消歧、實(shí)體對齊、屬性融合和值規(guī)范化等技術(shù)。其中,實(shí)體消歧和實(shí)體對齊在知識融合中發(fā)揮了重要作用?;诙嗵卣鞯闹R融合如圖4所示。
圖4 軍事領(lǐng)域知識融合主要技術(shù)
共指消解通過實(shí)體對齊方式,將多個圖譜中多特征數(shù)據(jù)表示為同一實(shí)體進(jìn)行對齊,消除歧義。對多特征的數(shù)據(jù)完成不同來源、不同形態(tài)的知識融合,以完成不同軍兵種及不同武器裝備平臺的知識融合[23]。
1)實(shí)體消歧
實(shí)體關(guān)系消歧的本質(zhì)是衡量候選實(shí)體與上下文的兼容性,考慮軍事領(lǐng)域?qū)嶓w關(guān)系的特殊性,需要保留實(shí)體關(guān)系的相關(guān)信息,并根據(jù)上下文信息推測當(dāng)前詞匯指向的具體實(shí)體。
2)實(shí)體對齊
針對現(xiàn)有單一特征實(shí)體對齊方法有歧義、效率低的問題。融合多種特征的實(shí)體對齊算法是較有效的方法。融合實(shí)體名稱、實(shí)體類別、關(guān)鍵詞集、實(shí)體屬性等多種特征計(jì)算相似度,最后,得到實(shí)體對齊結(jié)果。實(shí)踐證明,其效果要好于基于實(shí)體屬性和上下文對齊及人工標(biāo)注對齊結(jié)果。
知識推理利用已有種子集中的本體關(guān)系,完成實(shí)體之間關(guān)系的推理,產(chǎn)生實(shí)體間新的關(guān)聯(lián)關(guān)系,實(shí)現(xiàn)知識圖譜的補(bǔ)全。軍事領(lǐng)域知識圖譜還存在小樣本問題,需解決具有數(shù)據(jù)稀疏特性的知識圖譜的推理問題,因此,提出一種協(xié)同過濾機(jī)制下的混合遠(yuǎn)程監(jiān)督和深度學(xué)習(xí)的知識推理方法。一是知識推理過程中加入?yún)f(xié)同過濾機(jī)制后,在保證推理結(jié)果可靠性的同時,有效改善了深度學(xué)習(xí)推理結(jié)果的可解釋性,實(shí)現(xiàn)優(yōu)勢互補(bǔ), 提升推理性能;二是通過遠(yuǎn)程監(jiān)督在知識推理中加入外部知識來構(gòu)建數(shù)據(jù)集,提供附加學(xué)習(xí)樣本,有效解決軍事領(lǐng)域的小樣本問題;三是通過深度學(xué)習(xí)方法利用已知三元組,構(gòu)建并訓(xùn)練雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(BiLSTM)深度抽取器,從更多的實(shí)體相關(guān)文本中抽取新的三元組,提高了知識圖譜補(bǔ)全的效果。
此外,在知識推理的基礎(chǔ)上,設(shè)計(jì)一種基于反饋調(diào)節(jié)機(jī)制的維護(hù)流程,采用知識網(wǎng)絡(luò)知識可信度測度技術(shù)進(jìn)行軍事知識的評估驗(yàn)證,完成知識的推理和補(bǔ)全,形成迭代循環(huán)。
知識圖譜在具有以下特點(diǎn)的應(yīng)用場景中更容易成功:領(lǐng)域知識相對封閉,較少涉及常識,涉及知識簡單。應(yīng)用場景涉及知識的簡單程度如何,具體可以通過設(shè)置三類問題來進(jìn)行判斷。第一類問題:是否用到元知識,是否單一模型,是否長程推理,是否涉及多樣知識類型;第二類問題:知識是否容易發(fā)生變化,是否涉及復(fù)雜過程描述,是否涉及分支繁復(fù)的推理;第三類問題:是否有知識資源積累,如領(lǐng)域本體、敘詞表、領(lǐng)域詞典等[24]。
軍事領(lǐng)域知識圖譜在應(yīng)用上應(yīng)重視“三性”:專業(yè)性、高效性和獨(dú)立性。專業(yè)性表明在相對封閉且涉及軍事背景較深的圖譜構(gòu)建需要軍事專家經(jīng)驗(yàn)的滲入,高效性意味著圖譜的構(gòu)建的確提升了作戰(zhàn)指揮、情報保障等方面的效能,而獨(dú)立性則體現(xiàn)出圖譜的應(yīng)用應(yīng)盡可能減少對其他電子信息系統(tǒng)的影響。
隨著軍隊(duì)信息化建設(shè)的深入開展,新型指揮信息系統(tǒng)已經(jīng)成為作戰(zhàn)指揮的基礎(chǔ)平臺。但是,通過信息系統(tǒng)體驗(yàn)使用、部隊(duì)建設(shè)培訓(xùn)等活動與部隊(duì)指揮員研討交流,指揮信息系統(tǒng)基本上還停留在輔助“勞力”而非輔助“智能”階段,對于指揮員亟需的態(tài)勢理解、決策輔助或?qū)雇蒲莸戎悄芑潭纫筝^高的問題都無法給出好的解決方法。構(gòu)建軍事領(lǐng)域知識圖譜是軍隊(duì)作戰(zhàn)指揮智能化發(fā)展的基礎(chǔ),是提高作戰(zhàn)數(shù)據(jù)的輔助決策水平重要技術(shù)之一。本文提出了軍事領(lǐng)域知識圖譜構(gòu)建及應(yīng)用技術(shù)架構(gòu),描述了軍事領(lǐng)域知識圖譜的知識全生命周期各個環(huán)節(jié)的難點(diǎn)及相應(yīng)的關(guān)鍵技術(shù),希望能夠?yàn)檐娛骂I(lǐng)域知識圖譜的設(shè)計(jì)與構(gòu)建提供理論和方法支撐。