彭京徽,汪 振,李 越,侯 萍
(1.復(fù)雜系統(tǒng)仿真總體重點(diǎn)實(shí)驗(yàn)室, 北京 100101; 2.海軍裝備部駐上海地區(qū)第一軍事代表室, 上海 201913;3.中國(guó)人民解放軍92767部隊(duì), 山東 青島 266100)
裝備一般指軍事裝備,是用于作戰(zhàn)和保障作戰(zhàn)及其他軍事行動(dòng)的武器、系統(tǒng)、設(shè)備等的統(tǒng)稱,主要包括武裝力量編制內(nèi)的艦艇、飛機(jī)、火炮、車輛和工程機(jī)械等[1]。在現(xiàn)代信息化聯(lián)合作戰(zhàn)背景下,軍事裝備數(shù)據(jù)關(guān)系到作戰(zhàn)行動(dòng)的部署與決策。隨著互聯(lián)網(wǎng)的發(fā)展和移動(dòng)終端的普及,軍事裝備數(shù)據(jù)呈現(xiàn)出文本、音頻、圖片、視頻、電磁、光譜等多模態(tài)的特點(diǎn),并廣泛存在于各類武器數(shù)據(jù)庫(kù)、網(wǎng)站和平臺(tái)。軍事裝備數(shù)據(jù)的特點(diǎn)造成數(shù)據(jù)管理和使用的困難,為了滿足對(duì)裝備數(shù)據(jù)的科學(xué)管理和有效使用,知識(shí)圖譜成為當(dāng)前行業(yè)的首選。
韓戈白等[2]分析了裝備大數(shù)據(jù)的特點(diǎn),以及構(gòu)建裝備知識(shí)圖譜面臨的問(wèn)題和重點(diǎn)研究?jī)?nèi)容。車金立等[3]基于百科文本知識(shí)爬蟲(chóng),探索了軍事裝備知識(shí)圖譜構(gòu)建過(guò)程中的知識(shí)抽取、知識(shí)融合、知識(shí)儲(chǔ)存與更新等關(guān)鍵技術(shù),并在構(gòu)建的知識(shí)圖譜基礎(chǔ)上實(shí)現(xiàn)了軍事裝備領(lǐng)域的知識(shí)問(wèn)答。丁君怡等[4]基于開(kāi)源數(shù)據(jù)源,從數(shù)據(jù)信息抽取與圖譜繪制2個(gè)方面,探索了領(lǐng)域本體建模等武器裝備知識(shí)圖譜構(gòu)建的具體方法。薛坤[5]系統(tǒng)性介紹了從數(shù)據(jù)爬蟲(chóng)到三元組獲取和知識(shí)存儲(chǔ)的圖譜構(gòu)建過(guò)程,在軍事領(lǐng)域知識(shí)圖譜上開(kāi)發(fā)實(shí)現(xiàn)了軍事實(shí)體的識(shí)別和查詢、關(guān)系查詢、軍事知識(shí)概覽、軍事知識(shí)問(wèn)答和圖片檢索等6個(gè)功能模塊。邢萌等[6]從訓(xùn)練和作戰(zhàn)的應(yīng)用場(chǎng)景需求分析出發(fā),探索了軍事領(lǐng)域知識(shí)圖譜全生命周期構(gòu)建及應(yīng)用技術(shù)架構(gòu)。吳云超等[7]以仿真推演為切入點(diǎn),研究了軍事領(lǐng)域知識(shí)體系構(gòu)建、知識(shí)圖譜構(gòu)建等,涵蓋領(lǐng)域通用知識(shí)和領(lǐng)域?qū)I(yè)知識(shí)。譚玉珊等[8]從廣義角度對(duì)知識(shí)圖譜概念提出新的認(rèn)識(shí),從典型通用圖譜剖析知識(shí)圖譜的內(nèi)在關(guān)系、建設(shè)模式和途徑,分析存在的現(xiàn)實(shí)問(wèn)題。尹亮等[9]探索了利用復(fù)雜網(wǎng)絡(luò)模型將裝備、標(biāo)準(zhǔn)化要素和標(biāo)準(zhǔn)三者進(jìn)行有機(jī)結(jié)合的裝備-標(biāo)準(zhǔn)知識(shí)圖譜構(gòu)建方法。任夢(mèng)星[10]針對(duì)艦船知識(shí)的領(lǐng)域命名實(shí)體嵌套、關(guān)系抽取語(yǔ)料少、誤差累計(jì)等問(wèn)題展開(kāi)研究,提出了基于規(guī)則和觸發(fā)詞的混合關(guān)系抽取和實(shí)體-關(guān)系聯(lián)合等方法。韓丹[11]重點(diǎn)關(guān)注文本中蘊(yùn)含的裝備實(shí)體和關(guān)系,研究基于深度神經(jīng)網(wǎng)絡(luò)進(jìn)行表示和提取的方法。
通過(guò)對(duì)上述軍事裝備知識(shí)圖譜構(gòu)建的相關(guān)研究分析可知,基本是圍繞文本知識(shí)圖譜展開(kāi),涵蓋構(gòu)建的基本流程、體系架構(gòu)、本體建模和三元組抽取以及下游應(yīng)用任務(wù)的探索,但未涉及對(duì)多模態(tài)裝備數(shù)據(jù)的處理和研究。本文重點(diǎn)是針對(duì)裝備的多模態(tài)數(shù)據(jù)管理和應(yīng)用,探索多模態(tài)知識(shí)圖譜的方法?;谇叭藰?gòu)建知識(shí)圖譜的基礎(chǔ),圍繞多模態(tài)知識(shí)圖譜結(jié)構(gòu)特性,分析多模態(tài)裝備數(shù)據(jù)和組成要素,給出裝備多模態(tài)知識(shí)圖譜構(gòu)建流程和本體設(shè)計(jì)方法。
知識(shí)圖譜作為人工智能的基礎(chǔ)性技術(shù),具有極強(qiáng)的數(shù)據(jù)表達(dá)能力和建模靈活性,尤其是處理關(guān)系密集型數(shù)據(jù)。通過(guò)建模數(shù)據(jù)與數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,可有效組織碎片化的數(shù)據(jù),讓分散的數(shù)據(jù)得到更好地使用。利用知識(shí)圖譜管理軍事裝備數(shù)據(jù),不僅能有效消除軍事裝備存在的裝備種類雜、規(guī)模大、屬性多,以及數(shù)據(jù)不全、分布散、管理亂、利用率低、相關(guān)性差等問(wèn)題,也能提供統(tǒng)一的模型和標(biāo)準(zhǔn)以規(guī)范數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)的多維呈現(xiàn)。知識(shí)圖譜的組成元素來(lái)自上游任務(wù)的輸出,知識(shí)圖譜的本質(zhì)是語(yǔ)義網(wǎng)絡(luò)的一種表現(xiàn)形式,實(shí)際上屬于一類關(guān)系型數(shù)據(jù)連接方式;具備依賴關(guān)系路徑與屬性標(biāo)簽的推理的優(yōu)點(diǎn)。同時(shí),知識(shí)圖譜具有信息存儲(chǔ)、管理和中轉(zhuǎn)的特點(diǎn),為下游應(yīng)用任務(wù)服務(wù)。
多模態(tài)知識(shí)圖譜是針對(duì)數(shù)據(jù)的模態(tài)多樣性提出的一類新型知識(shí)圖譜,在學(xué)界得到廣泛關(guān)注[12-13]并具有廣闊的應(yīng)用前景[15-16]。它以文本、圖片、視頻、以及音頻等多種模態(tài)數(shù)據(jù)為元素,是具有跨模態(tài)、類屬關(guān)系、有向、非交叉的關(guān)聯(lián)路徑網(wǎng)路,本質(zhì)是一種語(yǔ)義網(wǎng)絡(luò)形式的關(guān)系型數(shù)據(jù)連接方式,結(jié)構(gòu)特點(diǎn)如圖1所示。
圖1 多模態(tài)知識(shí)圖譜的結(jié)構(gòu)特點(diǎn)示意圖
圖譜領(lǐng)域普遍認(rèn)為“多模態(tài)”是數(shù)據(jù)媒介呈現(xiàn)形式上的差異,但學(xué)界仍有不同的觀點(diǎn),其中O’Halloran[16]認(rèn)為模態(tài)是細(xì)粒度的,同一媒介可以同時(shí)存在多種模態(tài)。在大數(shù)據(jù)時(shí)代,不同行業(yè)領(lǐng)域的知識(shí)圖譜研究對(duì)數(shù)據(jù)分析的關(guān)注點(diǎn)不盡相同,導(dǎo)致多模態(tài)分類存在的差異,這種差異通常是模態(tài)分類更加細(xì)化和分析更加細(xì)粒度。面向軍事領(lǐng)域的裝備多模態(tài)知識(shí)圖譜主要是以文本、圖片、視頻、以及音頻等模態(tài)形式劃分,圍繞軍事裝備數(shù)據(jù)分布、特點(diǎn)、聯(lián)系、規(guī)模等開(kāi)展圖譜構(gòu)建技術(shù)研究。
數(shù)據(jù)源是提供裝備多模態(tài)知識(shí)圖譜構(gòu)建所需要的各種模態(tài)數(shù)據(jù),為了保證數(shù)據(jù)質(zhì)量和完備性,選擇百科數(shù)據(jù)、開(kāi)源數(shù)據(jù)庫(kù)為主要數(shù)據(jù)源??紤]百度百科裝備詞條已參考軍事裝備類詞條編輯指南進(jìn)行了整理,因此以詞條“尼米茲級(jí)航空母艦”為例介紹數(shù)據(jù)源的特點(diǎn),詞條樣式如圖2所示。利用網(wǎng)絡(luò)爬蟲(chóng)獲得軍事裝備詞條中的概念實(shí)體及其屬性、文本實(shí)體與預(yù)定義的相關(guān)屬性、圖片實(shí)體與名稱及其相關(guān)參數(shù)、視頻實(shí)體與主體及相關(guān)參數(shù)。因?yàn)樵~條內(nèi)容中包含了相關(guān)裝備的超鏈接,所以可以獲得一個(gè)較大規(guī)模的數(shù)據(jù)集,這里可通過(guò)設(shè)置起始爬蟲(chóng)裝備名的數(shù)量、裝備的軍種與作戰(zhàn)屬性、超鏈接的深度等進(jìn)行有效控制。
圖2 百度詞條樣式與數(shù)據(jù)類型示意圖
為了更加全面的獲得百科詞條中軍事裝備數(shù)據(jù),基于“在線查詢網(wǎng)”中“武器大全”欄目的《武器名錄》,作為詞條的搜索輸入。由于軍事裝備具有很強(qiáng)的專業(yè)性,導(dǎo)致不同數(shù)據(jù)源對(duì)裝備的命名產(chǎn)生差異,因此采用全站搜索,并對(duì)同一裝備不同命名建立等價(jià)關(guān)系,保留裝備專業(yè)性以提升圖譜使用效果。
裝備多模態(tài)知識(shí)圖譜由節(jié)點(diǎn)與邊的組成,節(jié)點(diǎn)對(duì)應(yīng)實(shí)體,邊對(duì)應(yīng)關(guān)系。依據(jù)數(shù)據(jù)來(lái)源,實(shí)體主要分為5類:概念、文本、圖片、視頻、音頻。圖3表示了不同實(shí)體對(duì)應(yīng)的不同屬性組成,其中,概念實(shí)體包括固有屬性和環(huán)境屬性,例如F-35是概念實(shí)體,其固有屬性包括:乘員、長(zhǎng)度、翼展等,它的環(huán)境屬性是指在特定場(chǎng)景下的屬性,如尼米茲號(hào)航空母艦搭載F-35戰(zhàn)機(jī)6架,此時(shí)搭載數(shù)量為環(huán)境屬性;文本實(shí)體的屬性包括:爬取時(shí)間、來(lái)源網(wǎng)站、保存的原始HTML文件、目錄與章節(jié),以及文本內(nèi)容的參考文獻(xiàn);圖片實(shí)體的屬性包括:圖片的長(zhǎng)度和寬度、分辨率、存儲(chǔ)格式和拍攝時(shí)間;視頻實(shí)體的屬性包括:視頻的主題、制作時(shí)間、像素、時(shí)長(zhǎng)、存儲(chǔ)格式、視頻分離出的音頻,以及音頻轉(zhuǎn)化成的文本;音頻實(shí)體的屬性包括:音頻主題、時(shí)長(zhǎng)、錄制時(shí)間、存儲(chǔ)格式和音頻文本。
圖3 裝備多模態(tài)知識(shí)圖譜要素組成示意圖
通過(guò)網(wǎng)絡(luò)爬蟲(chóng)采集到多模態(tài)裝備實(shí)體的數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)清洗、實(shí)體消歧、去重等操作后,得到的各類實(shí)體總數(shù)如表1所示。隨著數(shù)據(jù)采集的不斷進(jìn)行,數(shù)據(jù)集的規(guī)模會(huì)進(jìn)一步擴(kuò)大,不同類型實(shí)體的占比也會(huì)發(fā)生相應(yīng)改變。
表1 各類實(shí)體數(shù)量
裝備多模態(tài)知識(shí)圖譜構(gòu)建涉及文本、圖片、視頻、音頻等模態(tài)數(shù)據(jù)??紤]音頻可以轉(zhuǎn)化成文本、視頻可以分幀為圖片,因此,這里圍繞圖片和文本2種模態(tài)的知識(shí)圖譜構(gòu)建過(guò)程進(jìn)行介紹。通常,圍繞圖文構(gòu)建知識(shí)圖譜的思路方法有3種:第一種是基于文本知識(shí)圖譜為文本實(shí)體配上對(duì)應(yīng)的圖像實(shí)體,做一個(gè)跨模態(tài)的對(duì)齊和其他屬性關(guān)系的預(yù)定義。每個(gè)文本實(shí)體都具備圖像實(shí)體,圖像作為一個(gè)單獨(dú)的節(jié)點(diǎn)存在多模態(tài)知識(shí)圖譜之中,這些圖像帶有自身的屬性信息,并且關(guān)系是直接預(yù)定義的,關(guān)系的類型較少。第二種通過(guò)采集大量的圖片數(shù)據(jù),利用人工或機(jī)器學(xué)習(xí)的方法得到對(duì)圖片的語(yǔ)義描述,基于圖像實(shí)體識(shí)別和描述文本進(jìn)行實(shí)體、關(guān)系和事件的抽取,得到圖文的一致性關(guān)系,從而構(gòu)建多模態(tài)的知識(shí)圖譜。在描述文本中發(fā)現(xiàn)關(guān)系,受到圖片數(shù)據(jù)的來(lái)源、多樣性和描述的詳細(xì)程度等影響,實(shí)體間關(guān)系的豐富度高、類型多,此時(shí)關(guān)系是間接得到的。第三種是基于預(yù)定義關(guān)系的基本多模態(tài)知識(shí)圖譜結(jié)構(gòu),針對(duì)特定圖片和對(duì)應(yīng)的描述文本添加局部特征的實(shí)體間關(guān)系。構(gòu)建流程如圖4所示。
圖4 圖文多模態(tài)知識(shí)圖譜構(gòu)建流程框圖
圖4主要包括5個(gè)階段:圖片獲取與描述文本生成;預(yù)定義關(guān)系與抽取關(guān)系的視覺(jué)化表示; 圖像KG構(gòu)建;文本KG構(gòu)建;2個(gè)子圖譜融合。
利用已有的外部知識(shí)圖譜的實(shí)體名搜索圖片建立數(shù)據(jù)庫(kù),利用網(wǎng)絡(luò)爬蟲(chóng)、人工標(biāo)注、深度學(xué)習(xí)算法得到圖片的描述文本。在描述文本中發(fā)現(xiàn)實(shí)體和進(jìn)行關(guān)系抽取,把外部知識(shí)圖譜中的關(guān)系和文本中抽取出的關(guān)系,以及預(yù)定義的關(guān)系進(jìn)行視覺(jué)表示,用于對(duì)圖片的關(guān)系檢測(cè)。將從圖片中識(shí)別出的圖像實(shí)體、特征圖像、視覺(jué)關(guān)系和原圖片構(gòu)建圖像知識(shí)圖譜。同時(shí)文本知識(shí)圖譜也由外部知識(shí)圖譜、新發(fā)現(xiàn)的實(shí)體和關(guān)系,以及描述文本共同構(gòu)建。然后將2個(gè)不同模態(tài)的子圖譜進(jìn)行跨模態(tài)的實(shí)體對(duì)齊,得到多模態(tài)知識(shí)圖譜。圖像和文本的融合過(guò)程包括:關(guān)系的視覺(jué)表示和跨模態(tài)實(shí)體對(duì)齊,從而形成圖文交互的不同模態(tài)知識(shí)網(wǎng)絡(luò)結(jié)構(gòu)。
不同于單模態(tài)的裝備知識(shí)圖譜,裝備多模態(tài)知識(shí)圖譜的本體設(shè)計(jì)需要解決多模態(tài)和裝備類屬的關(guān)系。因此,它不僅包含類屬關(guān)系,也包含模態(tài)之間的關(guān)系。圖5是裝備領(lǐng)域多模態(tài)知識(shí)圖譜本體設(shè)計(jì)過(guò)程示意圖,包含關(guān)系類型和屬性種類。根據(jù)實(shí)體之間可能存在的狀態(tài),關(guān)系類型包括:相同實(shí)體的映射關(guān)系、實(shí)體內(nèi)部的屬性關(guān)系,以及實(shí)體間的外部關(guān)聯(lián)關(guān)系。在實(shí)體的關(guān)聯(lián)關(guān)系中主要有包含、共現(xiàn)、相關(guān)、相似和跨模態(tài)實(shí)體對(duì)齊,其中相關(guān)包括:空間位置、多特征和時(shí)序關(guān)系等。在多模態(tài)知識(shí)圖譜中除了傳統(tǒng)概念實(shí)體間的三元組關(guān)系,其他實(shí)體間的關(guān)系是預(yù)定義的。
根據(jù)數(shù)據(jù)模態(tài)類型和本體設(shè)計(jì),結(jié)合預(yù)定義的關(guān)系和屬性種類,圖6為裝備多模態(tài)知識(shí)圖譜示例。圖中包含各種模態(tài)實(shí)體之間復(fù)雜的網(wǎng)絡(luò)關(guān)系,如概念實(shí)體F-35與其對(duì)應(yīng)的固有屬性(乘員、翼展等)以及環(huán)境屬性(數(shù)量);圖片實(shí)體與視頻實(shí)體以“包含”關(guān)系連接;F-35圖片實(shí)體具有多特征(起落架結(jié)構(gòu)圖等)和相似的關(guān)系;視頻與音頻之間也存在“視頻語(yǔ)音”的關(guān)系;語(yǔ)音和轉(zhuǎn)化的文本之間存在“語(yǔ)音文本”的關(guān)系;概念實(shí)體與文本實(shí)體之間也存在“包含”和“關(guān)聯(lián)文本”的關(guān)系。通過(guò)場(chǎng)景圖的空間位置可以將不同圖像實(shí)體進(jìn)行關(guān)聯(lián),這里F-35停在尼米茲航母的飛行甲板上。
圖6 裝備多模態(tài)知識(shí)圖譜結(jié)構(gòu)示意圖
基于研究構(gòu)建的裝備多模態(tài)知識(shí)圖譜,以包含文本、圖片、音頻和視頻的多模態(tài)數(shù)據(jù)進(jìn)行知識(shí)推理和文本生成為例,簡(jiǎn)單介紹裝備多模態(tài)知識(shí)圖譜的實(shí)際應(yīng)用。圖7來(lái)自真實(shí)的新聞報(bào)道,多模態(tài)數(shù)據(jù)有一張包含兩艘軍艦的圖片、一小段的音頻、一段軍艦編隊(duì)的動(dòng)態(tài)航行軌跡以及一段簡(jiǎn)短文本。其中音頻內(nèi)容為“/4月4日上午8時(shí)許,有航母編隊(duì)進(jìn)入南海/”;文本內(nèi)容為“美艦進(jìn)入南?!?。在上述4種模態(tài)信息輸入構(gòu)建的多模態(tài)知識(shí)圖譜中,可以快速識(shí)別和確認(rèn)圖片中的艦船信息為美海軍“羅斯福號(hào)”航母和“拉塞爾”號(hào)驅(qū)逐艦,由此進(jìn)一步可以確定該航母編隊(duì)是“羅斯福號(hào)”航母編隊(duì);根據(jù)航跡動(dòng)態(tài)圖與馬六甲海峽在多模態(tài)知識(shí)圖譜中的地理位置圖高度匹配,通過(guò)對(duì)視頻模態(tài)的處理和時(shí)序分析,知道該航母編隊(duì)從馬六甲海峽進(jìn)入南海。因此整合4種模態(tài)可知:2021年4月4日上午8時(shí)許,美“羅斯福號(hào)”航母編隊(duì)自馬六甲海峽進(jìn)入南海。對(duì)以上4種模態(tài),如果缺失文本模態(tài),依然能夠得到上述分析結(jié)果,這充分體現(xiàn)了多模態(tài)信息的互補(bǔ)性。
結(jié)合圖7和多模態(tài)知識(shí)圖譜工作機(jī)理,對(duì)圖片信息的處理首先是定位其中的目標(biāo)對(duì)象并提取出圖像特征,然后將其與多模態(tài)知識(shí)圖譜中的實(shí)體圖像做相似度計(jì)算,得到對(duì)應(yīng)的圖像實(shí)體,從而確定圖像對(duì)應(yīng)的實(shí)體名稱,從圖譜中找到該圖像對(duì)應(yīng)實(shí)體的關(guān)聯(lián)屬性信息獲取圖像實(shí)體的信息。因此,紅色框圖中2個(gè)目標(biāo)對(duì)象分別與多模態(tài)知識(shí)圖譜中的圖像實(shí)體“羅斯福號(hào)”航母和“拉塞爾”號(hào)驅(qū)逐艦對(duì)齊,通過(guò)識(shí)別匹配得到圖片中的軍艦名稱,根據(jù)圖譜中已有信息可以掌握關(guān)于目標(biāo)對(duì)象的其他屬性信息。視頻采用分幀級(jí)圖像處理,得到靜態(tài)對(duì)象和動(dòng)態(tài)對(duì)象,圖7中靜態(tài)對(duì)象是馬六甲海峽的位置圖,動(dòng)態(tài)對(duì)象是編隊(duì)運(yùn)動(dòng)的航跡點(diǎn),動(dòng)態(tài)對(duì)象要通過(guò)時(shí)序分析,確認(rèn)編隊(duì)從印度洋自馬六甲海峽進(jìn)入中國(guó)南海。音頻處理有2種方法,一種是利用音頻單模態(tài)知識(shí)圖譜得到文本,另一種是通過(guò)語(yǔ)音文本轉(zhuǎn)化技術(shù)得到文本,再針對(duì)文本進(jìn)行實(shí)體、概念和關(guān)系的抽取和其他重要信息的捕獲。最終輸出一段完整的描述文本:4月4日上午8時(shí)許,美海軍“羅斯福號(hào)”航母和“拉塞爾”號(hào)驅(qū)逐艦組成的編隊(duì),從印度洋自馬六甲海峽進(jìn)入中國(guó)南海。
圖7 裝備多模態(tài)知識(shí)圖譜應(yīng)用示意圖
本文結(jié)合裝備數(shù)據(jù)特點(diǎn),結(jié)合數(shù)據(jù)源和要素組成,給出了裝備多模態(tài)知識(shí)圖譜的 構(gòu)建流程分析、本體設(shè)計(jì)和圖譜結(jié)構(gòu)展現(xiàn),可為構(gòu)建完備的多模態(tài)知識(shí)圖譜提供理論和技術(shù)支撐。