顧丹陽,李明倩,權(quán)冀川,劉 勇,羅 晨
(中國人民解放軍陸軍工程大學(xué),江蘇 南京 210007)
知識圖譜的概念最早可以追溯到20世紀60年代形成的“語義網(wǎng)絡(luò)”理論,2012年谷歌首次提出“知識圖譜”技術(shù)并用于搜索引擎的智能化實現(xiàn),它由互連的節(jié)點和邊構(gòu)成,以圖的形式呈現(xiàn)節(jié)點及其之間的關(guān)系[1]。
知識圖譜包括通用知識圖譜和領(lǐng)域知識圖譜兩大類。通用知識圖譜主要強調(diào)知識的廣度,而領(lǐng)域知識圖譜則面向不同的領(lǐng)域,基于不同行業(yè)的不同需求定制,往往需要領(lǐng)域?qū)<业慕?jīng)驗支持和反復(fù)討論。例如,國土資源[2]、測繪[3]、電力[4]、網(wǎng)絡(luò)安全[5]、情報[6]等領(lǐng)域的知識圖譜研究。
而武器裝備領(lǐng)域比較特殊,該領(lǐng)域數(shù)據(jù)來源廣泛、類型多樣,有利于構(gòu)建知識完備、有效輔助戰(zhàn)場決策的知識圖譜,但同時又大幅增加了構(gòu)建知識圖譜的難度和復(fù)雜性。
在該領(lǐng)域,已經(jīng)形成了部分初步的研究成果。林旺群等[7]對知識圖譜體系架構(gòu)及研究進展進行了綜述;邢萌等[8]、吳云超等[9]、葛斌等[10]對軍事領(lǐng)域知識圖譜的構(gòu)建環(huán)節(jié)、技術(shù)及應(yīng)用場景進行了研究;趙瑜等[11]、丁君怡等[12]基于開源數(shù)據(jù)研究了軍事領(lǐng)域相關(guān)內(nèi)容的知識圖譜構(gòu)建方法;車金立等[13]基于百科知識對軍事裝備知識圖譜進行構(gòu)建與應(yīng)用研究,但其數(shù)據(jù)來源與數(shù)據(jù)類型較為單一;劉夢超等[14]、王宏宇等[15]從軍事領(lǐng)域本體出發(fā)研究知識建模的內(nèi)容與方法;江志浩等[16]、車金立等[17]、袁清波等[18]、趙顏利等[19]、左毅等[20]分別對軍事領(lǐng)域的作戰(zhàn)目標(biāo)、裝備維修保障、指揮控制保障、戰(zhàn)例知識、戰(zhàn)場??漳繕?biāo)識別等分領(lǐng)域的知識圖譜應(yīng)用進行了研究;李代祎等[21]就面向問答系統(tǒng)的知識圖譜進行了研究;夏正洪等[22]對知識圖譜的效能評估及可視化分析進行了研究。上述研究成果都為知識圖譜的構(gòu)建提供了思路和借鑒,但在復(fù)雜應(yīng)用環(huán)境下構(gòu)建高質(zhì)量的武器裝備領(lǐng)域知識圖譜仍然面臨較多的困難。
近年來,軍事領(lǐng)域?qū)τ谖淦餮b備的“數(shù)據(jù)化”“信息化”要求越來越高,作戰(zhàn)形式也向“聯(lián)合”方向發(fā)展,單一軍兵種或單一形式的數(shù)據(jù)資料遠遠不能滿足戰(zhàn)場需求。如何展示武器裝備數(shù)據(jù)之間的關(guān)系,對武器裝備數(shù)據(jù)進行進一步的分析,全面考量各類武器裝備對于軍事行動的作用,支撐相關(guān)領(lǐng)域相關(guān)內(nèi)容的快速分析和智能搜索,成為當(dāng)前亟待解決的問題。作者嘗試提出一種武器裝備知識圖譜的構(gòu)建方法,以支持主戰(zhàn)武器裝備數(shù)據(jù)的智能信息搜索,進一步發(fā)揮大量武器裝備數(shù)據(jù)的潛在價值。
知識建模的方法通常有2種:自頂向下的方法和自底向上的方法。
自頂向下的方法通常首先為知識圖譜定義數(shù)據(jù)模式,數(shù)據(jù)模式從最頂層概念構(gòu)建,逐步向下細化,形成結(jié)構(gòu)良好的分類學(xué)層次,然后再將實體添加到概念中。自底向上的方法是對實體進行歸納組織,形成底層概念,然后逐步向上抽象,形成上層概念。一般通用知識圖譜主要采取自底向上的方法,而專業(yè)領(lǐng)域的知識圖譜一般采取自頂向下的方法。
武器裝備領(lǐng)域?qū)儆诘湫偷膶I(yè)領(lǐng)域,其概念層次劃分分明,但部分專業(yè)知識存在于領(lǐng)域?qū)<翌^腦中,可能無法從數(shù)據(jù)中歸納、抽象得到,所以該領(lǐng)域知識圖譜在開始構(gòu)建時更適合采用自頂向下的方法。當(dāng)知識圖譜的基本結(jié)構(gòu)(或概念層次結(jié)構(gòu))已經(jīng)確立并且其類別節(jié)點或關(guān)系的數(shù)量達到一定規(guī)模后,可以采用自底向上的方法為圖譜擴充實例及屬性數(shù)據(jù)。如果出現(xiàn)新的概念或類別,必須經(jīng)過人的審核確認才能加入知識圖譜中。
在知識圖譜構(gòu)建之后,其后續(xù)維護和發(fā)展,需要采取自頂向下和自底向上相結(jié)合的方法。自頂向下的方法保證知識圖譜中概念和類別層次在質(zhì)上的正確性,自底向上的方法保證知識圖譜中實例及關(guān)系數(shù)據(jù)在量上的有效擴增。2種方法互相依賴、相互補充,共同促進知識圖譜結(jié)構(gòu)和規(guī)模的遞增和迭代發(fā)展,形成持續(xù)進化的良性循環(huán)。
本體的概念最初起源于哲學(xué)領(lǐng)域,是對世界上真實存在的系統(tǒng)的描述,是客觀存在的一個系統(tǒng)的解釋或說明[23]。Gruber將本體定義為“本體是概念化的明確的規(guī)范說明”[24],W.N.Borst引申為“本體是共享的概念模型的形式化的規(guī)范模型”[25],Fensel認為主要包括4個方面[26]:
1)概念化:客觀世界現(xiàn)象的抽象模型;
2)明確:概念及概念之間的聯(lián)系都被精確定義;
3)形式化:精確的數(shù)字描述;
4)共享:本體中反映的知識是其使用者共同認可的。
本文借鑒環(huán)球網(wǎng)_環(huán)球兵器欄目[27]、中國網(wǎng)-武器資料庫欄目[28]等熱門軍事網(wǎng)站對于武器裝備的分類情況,參考了中國指揮與控制學(xué)會(微信號c2_china)、電科防務(wù)(微信號:CETC-ETDR)等公眾號資源,結(jié)合武器裝備現(xiàn)有數(shù)據(jù)對武器裝備領(lǐng)域的重要本體概念進行了梳理分析。
本文主要聚焦于平臺級的武器裝備進行分類。對于以某種平臺為載體的裝備,例如專門用于通信保障的通信車、用于地理測繪的測繪車輛等,統(tǒng)一歸結(jié)到車輛類別中;而對于以獨立形態(tài)存在的通信電臺等裝備,可以在領(lǐng)域本體中擴充相應(yīng)的本體概念,例如通信電子裝備。
以下是我們定義的部分武器裝備領(lǐng)域本體概念,主要圍繞平臺級武器裝備展開。依據(jù)上述擴充原則,在此基礎(chǔ)上可以擴展出其他類型的武器裝備本體概念。
武器裝備領(lǐng)域本體={飛行器、艦船艦艇、槍械與單兵武器、坦克裝甲車輛、火炮、導(dǎo)彈武器、爆炸物、通信電子裝備、軟件類設(shè)備……};
飛行器={航空器、航天器};
航空器={戰(zhàn)斗機、攻擊機、轟炸機、教練機、預(yù)警機、偵察機、反潛機、電子戰(zhàn)機、無人機、運輸機、飛艇、試驗機、加油機……};
艦船艦艇={航空母艦、戰(zhàn)列艦、巡洋艦、驅(qū)逐艦、護衛(wèi)艦、兩棲作戰(zhàn)艦艇、核潛艇、常規(guī)潛艇、水雷戰(zhàn)艦艇、導(dǎo)彈艇、巡邏艦、巡邏艇……};
槍械與單兵武器={非自動步槍、自動步槍、沖鋒槍、狙擊槍、手槍、機槍、霰彈槍、火箭筒、榴彈發(fā)射器、刀具……};
坦克裝甲車輛={步兵戰(zhàn)車、主戰(zhàn)坦克、特種坦克、裝甲運兵車、裝甲偵察車、裝甲指揮車、工程搶修車、布雷車、掃雷車……};
火炮={榴彈炮、加農(nóng)炮、加農(nóng)榴彈炮、迫擊炮、火箭炮、高射炮、坦克炮、反坦克炮、無后坐炮、裝甲車載炮、艦炮、航空炮、自行火炮、彈炮結(jié)合系統(tǒng)……};
導(dǎo)彈武器={反彈道導(dǎo)彈、潛艦導(dǎo)彈、空艦導(dǎo)彈、岸艦導(dǎo)彈、艦艦導(dǎo)彈、空空導(dǎo)彈、地空導(dǎo)彈、艦空導(dǎo)彈、地地導(dǎo)彈、艦地導(dǎo)彈、空地導(dǎo)彈、潛地導(dǎo)彈、反輻射導(dǎo)彈、反坦克導(dǎo)彈……};
爆炸物={地雷、水雷、手榴彈、炮彈、炸彈、魚雷、火箭彈、原子彈、氫彈、中子彈……}。
作者認為飛行器是指由人類制造、能飛離地面并由人直接操控或遙控的在大氣層內(nèi)或大氣層外空間(太空)飛行的器械飛行物。在大氣層內(nèi)飛行的稱為航空器,在太空飛行的稱為航天器。所以衛(wèi)星、宇宙飛船、空間站等太空中的裝備我們一并歸為航天器。但一般情況下并不把這類裝備認為是主戰(zhàn)武器裝備,因此航天器不是本文研究的重點內(nèi)容。而導(dǎo)彈等武器雖然具備上述性質(zhì),但其在現(xiàn)代高技術(shù)戰(zhàn)爭中經(jīng)常是以獨立的平臺形式出現(xiàn),在海戰(zhàn)或空戰(zhàn)中的作用尤為突出,因此根據(jù)這些應(yīng)用特點,將其單獨劃分出來作為一類武器裝備。
圖1是基于上述本體概念劃分出來的主戰(zhàn)武器裝備本體概念層級圖。
圖1 主戰(zhàn)武器裝備本體概念層級圖
除上述本體概念和層級分類外,還有一些概念也和武器裝備存在非常緊密的聯(lián)系。如圖2所示,B-2轟炸機是轟炸機的一個實例,研發(fā)國家為美國,參加過科索沃戰(zhàn)爭,又名“幽靈”轟炸機。本文將這些與武器裝備概念直接相關(guān)的概念也提取出來作為本體處理,稱為擴展領(lǐng)域本體。例如:“美國”為“國家”這一本體下的實例,“科索沃戰(zhàn)爭”為“戰(zhàn)爭”這一本體下的實例。
圖2 擴展領(lǐng)域本體示例
當(dāng)研究武器裝備的作戰(zhàn)應(yīng)用時,就必須關(guān)注這些擴展領(lǐng)域本體,主要涉及組織、軍事行動、生產(chǎn)企業(yè)三類與作戰(zhàn)應(yīng)用直接相關(guān)的概念。將國家、地區(qū)、國際組織、非政府組織等基于地理區(qū)域的獨立實體統(tǒng)稱為組織,一般代表武器裝備的擁有者、使用者或部署地;將戰(zhàn)爭、戰(zhàn)役、戰(zhàn)斗、武裝沖突、軍事演習(xí)等統(tǒng)稱為軍事行動,其中戰(zhàn)例是戰(zhàn)爭、戰(zhàn)役、戰(zhàn)斗實例的通稱;將生產(chǎn)廠家、公司、軍工企業(yè)等研發(fā)、生產(chǎn)或銷售武器裝備的獨立經(jīng)濟實體統(tǒng)稱為企業(yè)。
根據(jù)其他應(yīng)用目的也可擴展其他的領(lǐng)域本體。
1.3.1 關(guān)系定義
關(guān)系指事物之間相互作用、相互影響的狀態(tài),或人和人之間或任何事物之間某種性質(zhì)的聯(lián)系。在武器裝備領(lǐng)域,本體及其之間的關(guān)系主要分為6類:上下關(guān)系主要是根據(jù)范圍確定父概念與子概念,由于上下關(guān)系的數(shù)量有限,在構(gòu)建時可主要依賴研究報告和熱門軍事網(wǎng)站中所描述的上下層次關(guān)系;同義關(guān)系主要指概念上相同或者相似的表達,主要從字面表示的不同對同一個概念或者本體進行抽取;屬性關(guān)系為武器裝備及其特征之間的關(guān)系;整體與局部關(guān)系主要存在于武器裝備的組成當(dāng)中,本文研究內(nèi)容的顆粒度為武器平臺的級別,因此該類關(guān)系并未具體體現(xiàn);概念與實例關(guān)系主要是指上層概念與下級具體實例之間的關(guān)系;但并不是所有的關(guān)系都能歸結(jié)到這5種關(guān)系上來,其他無法明確歸類的關(guān)系在本文中統(tǒng)一稱為一般關(guān)系。
以圖2為例,航空器與轟炸機為上下關(guān)系,即父概念與子概念的關(guān)系;科索沃戰(zhàn)爭是戰(zhàn)爭的一個實例,即為概念與實例關(guān)系;B-2轟炸機的研發(fā)國家為美國,美國是國家概念的一個實例;研發(fā)國家是轟炸機的一個屬性,即為屬性關(guān)系。
1.3.2 關(guān)系描述
根據(jù)上述關(guān)系的定義,常采取RDF(Resource Description Framework,資源描述框架)三元組的形式對關(guān)系數(shù)據(jù)進行描述。
RDF是W3C的推薦標(biāo)準(zhǔn),是一種資源描述語言,它受到元數(shù)據(jù)標(biāo)準(zhǔn)、框架系統(tǒng)、面向?qū)ο笳Z言等多方面的影響,用來描述各種網(wǎng)絡(luò)資源,其為人們在Web上發(fā)布結(jié)構(gòu)化數(shù)據(jù)提供了一個標(biāo)準(zhǔn)的數(shù)據(jù)描述框架。
RDF用二元關(guān)系模型來表示事物之間的語義關(guān)系,即使用三元組集合的方式來描述事物和關(guān)系。三元組也是知識圖譜中知識表示的基本單位,可用于表示實體與實體之間的關(guān)系,或者實體的某個屬性的屬性值是什么。從內(nèi)容上看三元組的結(jié)構(gòu)為“資源-屬性-屬性值”的形式。
根據(jù)抽取的大量數(shù)據(jù),將武器裝備的屬性及武器裝備之間的關(guān)系進行梳理總結(jié)。根據(jù)武器裝備屬于不同的層次、分類來確定本體之間存在什么關(guān)系;根據(jù)描述本體性質(zhì)的內(nèi)容,來提煉本體的屬性。如圖2所示,可以得到<轟炸機,研發(fā)國家,國家>這樣的三元組,既是轟炸機和國家兩個實體間的關(guān)系,又可以將國家作為描述轟炸機的屬性之一。
由于不同的裝備具有不同的性能或特性,可以將一些概念的特殊屬性補充到知識圖譜中去,例如:預(yù)警機一般不攜帶炸彈,而轟炸機會攜帶炸彈,轟炸機攜帶某個型號的炸彈這一關(guān)系就會構(gòu)建到知識圖譜中,如圖2所示,
本文在開始構(gòu)建知識圖譜時采取自上而下的構(gòu)建方法,首先構(gòu)建領(lǐng)域本體,而后對收集到的大量數(shù)據(jù)進行抽取,并對其中的冗余數(shù)據(jù)進行融合,形成符合要求的三元組形式,最后利用知識圖譜工具構(gòu)建知識圖譜。構(gòu)建好的知識圖譜可用于指導(dǎo)數(shù)據(jù)的抽取過程,以不斷豐富和完善知識圖譜??傮w構(gòu)建流程如圖3所示。
圖3 構(gòu)建流程
在對本體進行設(shè)計后,會形成本體概念的層次體系,體系中的本體都是經(jīng)過驗證的準(zhǔn)確概念。在對大量數(shù)據(jù)進行處理時,如遇到不在體系中但是符合本體條件的詞語,可進行人工判定并加入體系。
根據(jù)定義好的本體概念層次,結(jié)合獲取的大量數(shù)據(jù),對武器裝備領(lǐng)域的知識進行實體抽取,主要以本體實例的形式充實到知識圖譜中。同時,抽取本體的各種屬性對知識圖譜進行豐富,例如,每類武器裝備實例都有研發(fā)國家、生產(chǎn)日期、配發(fā)部隊等。
下面以B-2轟炸機為例進行說明,下文是百度百科對B-2轟炸機的部分闡述:
“B-2轟炸機是當(dāng)今世界上唯一一種的隱身戰(zhàn)略轟炸機。B-2轟炸機機長21.03 m,機高5.18 m,翼展52.43 m,機翼后掠角33度。可攜帶8枚近距攻擊導(dǎo)彈,8枚B83炸彈。B-2轟炸機第一次投入實戰(zhàn)是在塞爾維亞的科索沃戰(zhàn)爭,這是投入服役十年后的第一次出戰(zhàn)。
2003年3月,B-2轟炸機投入伊拉克戰(zhàn)場,一架B-2在28日晚上首次實戰(zhàn)投放了兩顆2 130 kg的新型EGBU-28制導(dǎo)炸彈,炸毀了巴格達市內(nèi)位于底格里斯河畔的一個通訊塔?!?/p>
本文對此內(nèi)容進行實體抽取將會得到“B-2轟炸機、隱身戰(zhàn)略轟炸機、近距攻擊導(dǎo)彈、B83炸彈、塞爾維亞、科索沃戰(zhàn)爭、伊拉克、EGBU-28制導(dǎo)炸彈、巴格達市、底格里斯河、通訊塔”等實體。
基于上文建模的6類關(guān)系,對數(shù)據(jù)進行關(guān)系、屬性抽取處理,得到<實體,關(guān)系,實體>、<實體,屬性,屬性值>等三元組。
繼續(xù)對上文的B-2轟炸機示例進行抽取可得到以下三元組:
其中表示關(guān)系的三元組有:
<通訊塔,位于,巴格達市>。
表示屬性的三元組有:
抽取得到的知識中可能存在大量的冗余,需要對冗余數(shù)據(jù)進行融合。同義詞和近義詞是典型的冗余數(shù)據(jù)之一,可作為同義關(guān)系來處理。將語義相似的、表達方式不同的詞語定義為同義關(guān)系,再遇到此類詞語時,將其按照同一類模板進行處理。
另外,時間和地點數(shù)據(jù)也可以用于進行知識融合。通過判斷時間和地點的一致性可以把不同實體有效關(guān)聯(lián)起來??梢詫r間和地點進行單獨處理,以輔助武器裝備領(lǐng)域知識圖譜的構(gòu)建,提高知識圖譜的準(zhǔn)確性。
知識圖譜還要隨著數(shù)據(jù)的更新?lián)Q代而不斷迭代更新,因此需要經(jīng)常對數(shù)據(jù)進行獲取處理,并對圖譜進行更新維護。隨著武器裝備的發(fā)展,其領(lǐng)域本體、關(guān)系等也需要適時更新。
圖4是利用Neo4j圖數(shù)據(jù)庫構(gòu)建的知識圖譜。顯示了航空器、B-2轟炸機、科索沃戰(zhàn)爭等實體或?qū)嵗捌渲g的關(guān)系。
圖4 利用Neo4j構(gòu)建的知識圖譜示例
圖5是利用Cypher語句對“B-2轟炸機在哪些戰(zhàn)爭中投入過使用?”這一問句進行查詢的結(jié)果。根據(jù)需要我們也可以圍繞某一節(jié)點對知識圖譜進行不同深度的查詢。
圖5 知識圖譜查詢示例
本文闡述了武器裝備領(lǐng)域知識圖譜的構(gòu)建方法,重點定義了其領(lǐng)域本體及關(guān)系,討論了實體、關(guān)系、屬性等抽取過程。構(gòu)建知識圖譜時,首先要確保本體概念層次的完整性和準(zhǔn)確性,再對下層數(shù)據(jù)進行擴充,這樣才符合武器裝備領(lǐng)域的特點。構(gòu)建知識圖譜時,經(jīng)常面臨的一個現(xiàn)實問題是,雖然數(shù)據(jù)量很大,但真正對構(gòu)建圖譜起作用的不多,而且武器裝備領(lǐng)域的很多敏感資料是采集不到的。因此如何保證圖譜的實時性和有效性是值得進一步研究的問題。