丁君怡, 趙青松, 夏博遠(yuǎn), 鄒志剛
(1.國防科技大學(xué)系統(tǒng)工程學(xué)院, 湖南 長沙 410073;2.復(fù)雜航空系統(tǒng)仿真重點(diǎn)實(shí)驗(yàn)室, 北京 100076)
武器裝備信息的獲取與存儲對于裝備論證工作與軍隊(duì)發(fā)展起著重要作用。目前對于武器裝備信息的存儲主要以傳統(tǒng)的數(shù)據(jù)庫形式為主,存在著數(shù)據(jù)量大,關(guān)聯(lián)性差,呈現(xiàn)方式不直觀,更新與維護(hù)繁瑣等現(xiàn)象。而新興的知識圖譜作為基于圖結(jié)構(gòu)的知識存儲管理模式,具有關(guān)系清晰,結(jié)構(gòu)靈活,可視化程度高的優(yōu)勢。構(gòu)建基于開源數(shù)據(jù)的武器裝備知識圖譜有利于形成更為高效明確的武器裝備信息管理體系,從而有效改善現(xiàn)有武器裝備信息管理弊端。
知識圖譜(Knowledge Graph)[1]的概念是2012年由Google公司公開發(fā)布的。其本質(zhì)是由符合RDF技術(shù)標(biāo)準(zhǔn)的“實(shí)體-關(guān)系-實(shí)體”與“實(shí)體-屬性-屬性值”三元組為基本單位相互連接交織形成的知識網(wǎng)絡(luò)[2]。荊濤,左萬利等[3]提出了EPTT算法與DTRE算法,對中文網(wǎng)頁文本實(shí)現(xiàn)了較為精確的語義標(biāo)注與關(guān)系抽取,實(shí)現(xiàn)了文本到RDF結(jié)構(gòu)的映射。蔣鍇等[4]對于知識圖譜在軍事領(lǐng)域的應(yīng)用進(jìn)行了探索并形成了軍事信息搜索技術(shù)架構(gòu)。Rathachai Chawuthai[5]等通過將關(guān)聯(lián)數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)性知識實(shí)現(xiàn)了RDF的可視化。S.Murugesh和A. Jaya[6]通過將自然語言的句子表示為RDF格式來獲取知識模式并構(gòu)建領(lǐng)域本體。Ze-Qi Lin[7]等人面向軟件領(lǐng)域提出了“智能發(fā)展環(huán)境”與“軟件知識圖譜”的概念,并對其構(gòu)建與應(yīng)用的過程進(jìn)行了詳細(xì)的闡述。Chunhong Zhang等[8]通過構(gòu)建一種新的TransHR知識表示模型,將高維關(guān)系轉(zhuǎn)化為實(shí)體對間獨(dú)立的向量,實(shí)現(xiàn)了對于高維關(guān)系數(shù)據(jù)的知識圖譜嵌入。Xiangling Zhang[9]等人推出了一種基于對三元組中主語與賓語相似度計(jì)算來推測知識圖譜語義相似度的方法,實(shí)現(xiàn)了知識圖譜的補(bǔ)全。Jay Pujara[10]在利用隱馬爾科夫場模型與概率的基礎(chǔ)上,提出了KGI(Knowledge Graph Identification)方法,實(shí)現(xiàn)了知識圖譜中知識的推理與預(yù)測。
本文通過對中文開源網(wǎng)絡(luò)文本的標(biāo)注與識別,形成RDF三元組,提出構(gòu)建武器裝備領(lǐng)域知識圖譜的基本思路與方法指導(dǎo)。
基于開源數(shù)據(jù)的武器裝備知識圖譜構(gòu)建,主要由抽取并準(zhǔn)備相關(guān)信息與繪制知識圖譜兩大部分組成,具體如圖1所示。
圖1 武器裝備知識圖譜構(gòu)建框架
第一部分是進(jìn)行武器裝備信息的抽取與處理。裝備信息是武器裝備知識圖譜構(gòu)建的基礎(chǔ)。開源的裝備信息主要以文本的形式存在于互聯(lián)網(wǎng)的各類資源中。為了將文本中的信息轉(zhuǎn)化為可服務(wù)于武器裝備知識圖譜構(gòu)建的結(jié)構(gòu)化知識,需要按照數(shù)據(jù)梳理,對比識別,形成RDF三元組的步驟對網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行處理。
第二部分是進(jìn)行武器裝備知識圖譜的繪制,基于抽取與處理后的結(jié)構(gòu)化知識,以可視化的方式對武器裝備知識圖譜進(jìn)行繪制與呈現(xiàn),展示各武器裝備實(shí)體及其關(guān)系。
1)建立武器裝備領(lǐng)域本體
領(lǐng)域本體(Domain Ontology)是能夠描述特定領(lǐng)域內(nèi)實(shí)體概念及相互關(guān)系領(lǐng)域活動以及該領(lǐng)域所具有的特性和規(guī)律的一種形式化描述。構(gòu)建武器裝備領(lǐng)域本體能夠明確知識結(jié)構(gòu),避免知識圖譜構(gòu)建中出現(xiàn)過多冗余與錯誤。在初期的本體建模中采取人工建模的形式完成對武器裝備領(lǐng)域本體概念與屬性的刻畫與定義。本文針對武器裝備領(lǐng)域應(yīng)用Protégé軟件工具對于本體進(jìn)行構(gòu)造。
圖2 Protégé中武器裝備領(lǐng)域部分本體類的結(jié)構(gòu)
2)形成武器裝備體系詞匯表
在包含不同的語法規(guī)則與大量同義詞的復(fù)雜文本環(huán)境中,為了更高效地識別網(wǎng)絡(luò)文本中的信息,需要進(jìn)一步構(gòu)建武器裝備體系詞匯表,對武器裝備本體庫進(jìn)行適當(dāng)補(bǔ)充。
通過設(shè)立χ2檢驗(yàn)值評估所檢驗(yàn)詞匯與武器裝備領(lǐng)域關(guān)聯(lián)程度的方法構(gòu)建武器裝備體系詞匯表。收集與武器裝備領(lǐng)域相關(guān)與不相關(guān)的兩批文本材料作為比對參照庫,研究同一詞匯在武器裝備相關(guān)領(lǐng)域與不相關(guān)領(lǐng)域的網(wǎng)絡(luò)文本材料中出現(xiàn)頻率的差異,從而決定該詞匯是否應(yīng)當(dāng)被加入到武器裝備體系詞匯表中。
(1)
針對任一詞匯k,公式中ti0表示對于分類i,不含詞匯k的網(wǎng)絡(luò)文本數(shù)目,ti1表示對于分類i,包含詞匯k的網(wǎng)絡(luò)文本數(shù)目,n表示包含與不包含該詞匯的兩大類網(wǎng)絡(luò)文本的總數(shù)目,n=(t11+t00+t10+t01)。在具體試驗(yàn)中,運(yùn)用WordSmith軟件完成對文檔中出現(xiàn)詞頻的分析。通過計(jì)算詞匯的χ2值,可以體現(xiàn)出被測詞匯與武器裝備體系領(lǐng)域的相關(guān)程度。χ2值越高的詞匯,說明其與武器裝備領(lǐng)域的相關(guān)性越強(qiáng),從而可以考慮將該詞匯納入武器裝備體系詞匯表。
本文選取互動百科為爬蟲軟件的爬取對象,爬取與武器裝備體系相關(guān)的百科詞條124篇,與其不相關(guān)的其他詞條926篇,作為初始庫對詞匯進(jìn)行測試與篩選。其中與武器裝備領(lǐng)域相關(guān)的詞條文本統(tǒng)一稱為正類,與其無關(guān)的詞條文本統(tǒng)一稱為反類。對于爬取到的網(wǎng)絡(luò)文本進(jìn)行去HTML標(biāo)簽與分詞處理,得到經(jīng)過初步處理的正類文本95篇,反類文本821篇。表1為基于以上網(wǎng)絡(luò)文本得出的部分高χ2值的武器裝備領(lǐng)域詞匯。
表1 部分高χ2值的武器裝備領(lǐng)域詞匯
得到武器裝備體系詞匯表后,通過將詞匯表中涉及的詞匯與相應(yīng)概念加入武器裝備分詞詞典,可以擴(kuò)充由人工構(gòu)建的武器裝備體系本體庫,并使得本體庫更加傾向于武器裝備體系的領(lǐng)域知識,與通用的本體知識庫明確地區(qū)分開,在構(gòu)建相關(guān)領(lǐng)域知識圖譜時具有更高的針對性。
在比對識別時,采取EPTT算法進(jìn)行實(shí)現(xiàn),該算法大致結(jié)構(gòu)如圖3所示。
圖3 EPTT算法流程示意
第一步:通用實(shí)體識別與標(biāo)注。應(yīng)用目前較為成熟的人工設(shè)計(jì)規(guī)則(正則表達(dá)式),對于時間、地點(diǎn)等較為通用的實(shí)體開展實(shí)體識別,并標(biāo)注出這些通用實(shí)體的類型。
第二步:精確詞匯匹配與類型標(biāo)注。通過對照武器裝備領(lǐng)域詞匯表,精確匹配出文本中的武器裝備領(lǐng)域?qū)嶓w并對這些實(shí)體進(jìn)行類型標(biāo)注。
第三步:近似詞匯匹配與類型標(biāo)注。利用N-gram切分技術(shù),將文本中的句子與武器裝備體系詞匯表中的詞匯進(jìn)行比對與近似匹配。目的是盡量避免精確匹配時遺漏可匹配詞匯,對于近似匹配成功的分詞也進(jìn)行相應(yīng)的類型標(biāo)注。但這種增多匹配次數(shù)的方法在減少匹配遺漏的同時也有可能導(dǎo)致部分錯誤匹配混入,為了平衡這兩種效果,具體實(shí)驗(yàn)時設(shè)定一個相關(guān)的參數(shù)對于是否需要進(jìn)行第三步的近似詞匯匹配進(jìn)行控制。
第四步:分詞結(jié)果調(diào)整。將匹配到通用類型的實(shí)體按照本體所規(guī)范的形式進(jìn)行處理。對于指代或表達(dá)同一實(shí)體的分詞,將它們?nèi)亢喜橐粋€新的詞匯。
1)語法結(jié)構(gòu)分析
在對于文本進(jìn)行了類型標(biāo)注的工作基礎(chǔ)上,通過對語法結(jié)構(gòu)的分析將這些經(jīng)過分詞處理與模式匹配的語料詞匯整合為符合RDF技術(shù)標(biāo)準(zhǔn)的三元組,形成構(gòu)建知識圖譜的基礎(chǔ)資料。
法國語言學(xué)家Lucien Tesnière提出語法結(jié)構(gòu)具有較強(qiáng)的層次性,而其建立的根源也是最一般的關(guān)系從屬關(guān)系(或依存關(guān)系)。主導(dǎo)這種從屬關(guān)系的往往是句中的動詞,它前后的詞匯因?yàn)閯釉~的存在常常構(gòu)成支配與被支配的關(guān)系,而這種支配與被支配的方式由這個動詞描述。這一從屬關(guān)系與RDF形式三元組中的主謂賓關(guān)系形成很大程度上的對應(yīng)關(guān)系,通常來說,主語為支配者,而賓語為被支配者。根據(jù)這種基本的從屬形式概念,可以從屬對R(Gov,Dep)的形式來表征存在從屬關(guān)系的兩個詞匯。其中R表示動詞表示的關(guān)系,Gov為占支配地位的詞匯,Dep為受到支配的詞匯。將多個從屬對以類似樹狀的形式進(jìn)行堆疊,就可以在一定程度上表示復(fù)雜句子中的詞匯關(guān)系。一般情況下,以Gov詞作為父節(jié)點(diǎn),Dep詞作為子節(jié)點(diǎn),這樣形成的樹狀結(jié)構(gòu)被稱為從屬樹。更進(jìn)一步,多個從屬樹以各種關(guān)系相互關(guān)聯(lián),可以組成從屬森林,對應(yīng)表征有多個子句的復(fù)雜長句。
利用Stanford Parser來識別分析句子中的從屬結(jié)構(gòu)。這一技術(shù)需要依靠短語結(jié)構(gòu)樹(phrase structure tree)所提供的規(guī)則與模式進(jìn)行語法成分參考,在參考庫的領(lǐng)域特征較不明顯時,需要人工對標(biāo)簽集進(jìn)行一定的修正與篩選。本文選擇應(yīng)用中文賓州樹庫(Penn Treebank Chinese)作為中文語法的參考庫,其中包含大量標(biāo)簽對詞匯之間的從屬關(guān)系進(jìn)行描述。
例如句子:“殲-20將在對空作戰(zhàn)中發(fā)揮作用,是先進(jìn)的空軍裝備。”在經(jīng)過分詞與語義解析后,可以得到如圖4所示的從屬樹。
圖4 從屬樹示例
圖4中連線上的標(biāo)簽表示詞匯間不同的關(guān)系。其中top, attr, nsubj, dobj表示主謂賓關(guān)系,top與nsubj表示主語,其余兩個標(biāo)簽表示賓語,它們的從屬關(guān)系依附于與其連線相接的以謂語成分存在的動詞;prep與pobj分別代表介詞與介詞賓語;ccomp表示從句關(guān)系;nmod表示修飾關(guān)系。
如果將圖4從屬樹中的從屬對全部拆分出來,那么按照上文提到的R(Gov,Dep)表示形式,應(yīng)當(dāng)有:ccomp(發(fā)揮,是),nsubj(發(fā)揮,殲-20),dobj(發(fā)揮,作用),prep(發(fā)揮,在),top(是,殲-20),attr(是,空軍裝備),pobj(在,對空作戰(zhàn)),nmod(空軍裝備,先進(jìn)的)。
2)關(guān)系抽取
在對分詞結(jié)果進(jìn)行語法分析的基礎(chǔ)上,利用語義解析得到的從屬樹中進(jìn)行關(guān)系抽取。此處使用 DTRE算法,輸入經(jīng)過分詞處理之后的文本句子以及進(jìn)行過類型標(biāo)注的最終結(jié)果,通過算法處理,最終直接輸出RDF集以及相應(yīng)的文本片段。
舉例對DTRE算法的結(jié)果進(jìn)行說明:“殲-20將在對空作戰(zhàn)中發(fā)揮作用,是戰(zhàn)斗裝備和空軍裝備?!?/p>
DTRE算法抽取文本關(guān)系的模式如圖5所示,存在一定的順序規(guī)律。直接使用DTRE算法對于分詞文本進(jìn)行關(guān)系抽取時,可以得到三元組:
(殲-20,發(fā)揮,作用)
(殲-20,發(fā)揮作用地點(diǎn),對空作戰(zhàn))。
之后需要對從屬樹進(jìn)行ccomp從句關(guān)系補(bǔ)全,得到三元組:
(殲-20,是,戰(zhàn)斗裝備)。
最后還需要針對conj并列關(guān)系進(jìn)行拓展,進(jìn)一步得到三元組:
(殲-20,是,空軍裝備)。
到此關(guān)系抽取完畢,文本信息完成了從自然語言向RDF三元組映射的過程。
圖5 DTRE算法形成RDF三元組結(jié)果說明
對于武器裝備領(lǐng)域的知識圖譜構(gòu)建,由于其本身具有較強(qiáng)的從屬結(jié)構(gòu)性,可以按照其本身概念的從屬關(guān)系對于知識圖譜進(jìn)行建模。本文在進(jìn)行關(guān)系抽取時著重考慮“包含”“列裝”等表從屬與分類關(guān)系的詞匯,降低了關(guān)系抽取的難度,并保證了知識圖譜的邏輯性與結(jié)構(gòu)完好性。
在完成對武器裝備領(lǐng)域知識進(jìn)行本體構(gòu)建、詞匯收集、文本分詞處理、形成備用知識三元組的基礎(chǔ)上,融合武器裝備領(lǐng)域固有且已在實(shí)踐中被證明正確性并難以從開源數(shù)據(jù)中獲取的領(lǐng)域知識進(jìn)行武器裝備領(lǐng)域知識圖譜的繪制。
知識圖譜是一張由許多三元組以“節(jié)點(diǎn)-邊-節(jié)點(diǎn)”小單元相互連接交錯形成的“大網(wǎng)”。在完成三元組收集之后,把這些小單元組織起來,并將重復(fù)的節(jié)點(diǎn)合并,將同一實(shí)體對應(yīng)的邊連接到知識圖譜中對應(yīng)的同一節(jié)點(diǎn)上,完成從RDF數(shù)據(jù)到知識圖譜的可視化過程。
將收集到的三元組數(shù)據(jù)利用Gephi軟件,以實(shí)體為節(jié)點(diǎn),關(guān)系為邊生成武器裝備領(lǐng)域知識圖譜。
為了使得武器裝備知識圖譜具有較為清晰明了的結(jié)構(gòu)從而便于進(jìn)一步的應(yīng)用與挖掘,在繪制武器裝備知識圖譜的過程中需要對其進(jìn)行適當(dāng)?shù)暮喕c去冗余。
進(jìn)行知識圖譜簡化去冗余的工作中應(yīng)遵循以下原則:
1)融合以Same-as關(guān)系所連接的節(jié)點(diǎn),并以在三元組集合中出現(xiàn)頻率較高的表述來命名融合節(jié)點(diǎn),其余節(jié)點(diǎn)與融合得到的新節(jié)點(diǎn)之間若存在一條以上同方向的邊,則僅保留一條;
2)去除可以通過相互連接的節(jié)點(diǎn)與邊形成通路推理得出的邊;
3)去除由等級分類造成的實(shí)例與概念間的邊。
經(jīng)過對武器裝備知識圖譜的簡化處理,得到精簡后的武器裝備知識圖譜如圖6所示。
圖6 去冗余后的武器裝備知識圖譜
構(gòu)建武器裝備知識圖譜的最終目的在于應(yīng)用。從技術(shù)層面來看,知識圖譜能夠發(fā)揮的最主要作用在于知識檢索,其中,裝備組合推薦是較為具有代表性的應(yīng)用方式。
所謂裝備組合推薦,是指在給定一定目標(biāo)或作戰(zhàn)背景的情況下,從武器裝備知識圖譜中抽取出能夠?qū)崿F(xiàn)目標(biāo)或適應(yīng)作戰(zhàn)環(huán)境的武器裝備組合。以“空戰(zhàn)武器裝備體系超視距空戰(zhàn)能力”為例,從武器裝備知識圖譜中抽取支撐這一能力所需的裝備知識,結(jié)果如圖7所示。
圖7 超視距空戰(zhàn)能力裝備支撐體系推薦
從推薦結(jié)果使用者可以得到,超視距空戰(zhàn)能力的形成需要?dú)灀魴C(jī)、預(yù)警機(jī)、強(qiáng)擊機(jī)、轟炸機(jī)、空空導(dǎo)彈這樣的裝備組合來共同實(shí)現(xiàn),而對于每一類別的裝備,都相應(yīng)地查詢出備選的武器裝備型號,可以較好地服務(wù)于武器裝備論證或應(yīng)用工作。
本文構(gòu)建武器裝備知識圖譜基于開源數(shù)據(jù),但由于武器裝備保密性等要求,開源數(shù)據(jù)可能存在精確度較低、錯誤率較高等問題,在武器裝備知識圖譜應(yīng)用的過程中,需要進(jìn)一步添加更為準(zhǔn)確細(xì)致的非開源數(shù)據(jù)對武器裝備知識圖譜進(jìn)行補(bǔ)充,如具體的武器裝備參數(shù)、屬性、作戰(zhàn)規(guī)則等。但通過開源數(shù)據(jù)構(gòu)建的武器裝備知識圖譜具有較高的相容性,數(shù)據(jù)更新相對便利,數(shù)據(jù)量較大,在進(jìn)行粒度較粗的知識查詢時,能夠起到較好的效果。
本文在了解知識圖譜構(gòu)建一般流程與方法的基礎(chǔ)上,通過對公開網(wǎng)絡(luò)武器裝備數(shù)據(jù)的采集與梳理實(shí)現(xiàn)了部分武器裝備知識圖譜的構(gòu)建。
面向開源數(shù)據(jù),運(yùn)用Protégé軟件進(jìn)行武器裝備本體建模,并通過采集武器裝備領(lǐng)域文檔與非武器裝備領(lǐng)域文檔分別作為正類與反類,計(jì)算了部分武器裝備領(lǐng)域詞匯的χ2值,并將計(jì)算值較大的詞匯納入武器裝備詞匯表中,綜合武器裝備本體與詞匯表作為基本的知識模板對網(wǎng)絡(luò)文本進(jìn)行抽取、比對與識別。利用EPTT算法對網(wǎng)絡(luò)文本中的句子進(jìn)行分詞處理,并參照構(gòu)建的本體與收集的詞匯表進(jìn)行精確與近似的識別。進(jìn)一步利用賓州樹庫(Penn Treebank Chinese)與Stanford Parser工具對句子分詞與識別的結(jié)果進(jìn)行語法分析,并利用DTRE算法對經(jīng)過類型標(biāo)注與分析處理的文本進(jìn)行關(guān)系的抽取,將網(wǎng)絡(luò)文本中的主體、謂語、賓語信息映射到RDF三元組形式。最終利用Gephi軟件對武器裝備知識圖譜進(jìn)行繪制與展現(xiàn),并在此基礎(chǔ)上討論了基于武器裝備知識圖譜的面向武器裝備組合推薦的應(yīng)用。
參考文獻(xiàn):
[1]徐增林, 盛泳潘, 賀麗榮, 等. 知識圖譜技術(shù)綜述[J]. 電子科技大學(xué)學(xué)報, 2016,45(4):589-606.
[2]王昊奮. 大規(guī)模知識圖譜技術(shù)[EB/OL]. http:∥www.tuicool.com/articles/ranqqb.
[3]荊濤, 左萬利, 孫吉貴, 等. 中文網(wǎng)頁語義標(biāo)注——由句子到RDF表示[J]. 計(jì)算機(jī)研究與發(fā)展, 2008,45(7):1221-1231.
[4]蔣鍇, 錢夔, 鄭玄. 基于知識圖譜的軍事信息搜索技術(shù)架構(gòu)[J]. 指揮信息系統(tǒng)與技術(shù), 2016,7(1):47-52.
[5]Chawuthai R, Takeda H. RDF Graph Visualization by Interpreting Linked Data as Knowledge: LNCS[C].5th Joint International Conference, JIST, Yichang, 2015.
[6]Murugesh S, Jaya A. Representing Natural Language Sentences in RDF Graphs to Derive Knowledge Patterns[C]. Proceedings of the International Conference on Data Engineering and Communication Technology, 2017.
[7]Lin Z, Xie B, Zou Y, et al. Intelligent Development Environment and Software Knowledge Graph[J]. JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY, 2017,32(2):242-249.
[8]Zhang C, Zhou M, Han X. Knowledge graph embedding for hyper-relational data[J]. TSINGHUA SCIENCE AND TECHNOLOGY, 2017,22(2):185-197.
[9]Zhang X, Du C, Li P. Knowledge Graph Completion via Local Semantic Contexts: DASFAA[C].International Conference on Database Systems for Advanced Applications, 2016
[10] Pujara J. Probabilistic Models for Scalable Knowledge Graph Construction[D]. University of Maryland, College Park, 2016.