慈 穎,秦留洋,韓惠婕
(1.北京跟蹤與通信技術研究所,北京 100094;2.北京航天測控技術有限公司,北京 100041)
知識圖譜實質上是一種對知識的有效組織和表征的手段,是一個龐大的知識庫,知識以圖的結構形式進行鏈接[1]。知識圖譜通過描述數(shù)據(jù)之間的關系,減少了數(shù)據(jù)的提取和計算的困難。知識圖譜的應用可以將隱藏在數(shù)據(jù)中的難以利用的價值得到充分地挖掘。尤其是通過信息抽取、知識加工等技術將某些非結構化數(shù)據(jù)構建為知識圖譜,使其能夠以結構化、關聯(lián)化的狀態(tài)和接近人類認知的形式被組織、管理和理解。
航天裝備體系組成復雜、裝備重多,信息量、復雜度和獲取難度都很大。而對航天裝備的在役考核目前礙于各方面條件限制,開展的程度較低,很多還處于理論研究的初級階段。應用知識圖譜技術對航天裝備在役考核進行深度分析評估是一種較為可行的方法。
知識圖譜是一種用圖模型來描述知識和建模關聯(lián)關系的技術方法[2],由節(jié)點和邊組成。節(jié)點表示實體,是知識圖譜的基本單元,承載了文本的重要信息;實體之間連接的邊為關系,不同的關系將獨立的實體連接在一起編制成圖。
知識圖譜在構建中,以“實體—>關系—>實體” 結構化三元組存在,通常通過“實體—>屬性—>屬性值”的形式體現(xiàn)鏈接關系,存儲現(xiàn)實世界中的實體(概念)。G=
。其中有些關系稱為屬性,相應地,尾實體稱為屬性值[3]。關系定義靈活,支持使用者根據(jù)擴展。圖1為典型的知識圖譜表示形式。
圖1 知識圖譜表示示例圖
由于其簡潔直觀的展示形式、豐富的建模方法和對多維數(shù)據(jù)的高效融合,知識圖譜以其豐富的表達形式和表達內容,成為當前各個領域的研究熱點。廣泛應用于機器翻譯、智能問答、推薦系統(tǒng)等各個領域[4-7]。
由于知識圖譜在生成過程中需要對知識數(shù)據(jù)進行全面的分析、分類和歸納,因此以模型化、模塊化方法完成知識圖譜的構建流程。其主要過程如圖2所示。
圖2 知識圖譜建模流程
圖3 航天裝備知識圖譜構建過程
數(shù)據(jù)和信息是知識圖譜構建和應用的主要載體,知識圖譜的構建過程就是對數(shù)據(jù)和信息的組織、歸納和分析,以建模手段完成模型創(chuàng)建和校驗,從而形成完備的知識模型。
裝備知識圖譜通過模型確定裝備的多級知識的表達形式,可視化、直觀的模型表達是知識圖譜構建的首要工作和重要基礎。知識圖譜的表達模型要求在可視化的直觀圖形控件之中,最大程度描述事物間的基本關系、內在特點與發(fā)展規(guī)律。通過知識本體可定義領域內不同的實體概念、特別屬性及概念間的關系和鏈接。
知識圖譜可視化模型起到支撐整個知識圖譜的概念架構和主體框架的作用,進而實現(xiàn)規(guī)范數(shù)據(jù)信息、規(guī)范表達語境、規(guī)范理解層級等客觀要求,實現(xiàn)多維知識的有機統(tǒng)一、提升資源的利用率。因此保證知識圖譜可視化模型搭建的高準確率十分必要[8]。
知識來源大致包括結構化數(shù)據(jù)(如狀態(tài)監(jiān)控數(shù)據(jù))、半結構化數(shù)據(jù)(如日志文件)和非結構化數(shù)據(jù)(如圖片、文檔、視頻)等幾類[9]。從數(shù)據(jù)信息形式和獲取途徑上來說,知識作為知識圖譜的實體,涵蓋的范圍較為廣泛。知識圖譜技術可以有效利用數(shù)據(jù)信息,構建高質量的知識庫,以知識庫作為知識結構化表示的重要依托。
每一種數(shù)據(jù)源的知識化都需要綜合各種不同的技術手段。其中:
非結構化數(shù)據(jù)是裝備知識的重要來源,這類知識的獲取需要綜合實體識別、實體鏈接、關系抽取、事件抽取等自然語言抽取技術,實現(xiàn)從文本中抽取[10];
結構化數(shù)據(jù)是最常用的數(shù)據(jù)來源之一。已有的結構化數(shù)據(jù)庫通常不能直接作為知識圖譜使用,需要將結構化數(shù)據(jù)定義到本體模型之間的語義映射,再通過編寫語義編譯工具實現(xiàn)結構化數(shù)據(jù)到知識圖譜的轉化。
此外,需要綜合采用實體消歧、數(shù)據(jù)融合、知識鏈接等技術,提升數(shù)據(jù)的規(guī)范化水平,增強數(shù)據(jù)之間的關聯(lián)。
知識表示就是使用計算機符號描述表示自然知識,以支持機器進行模擬推理的方法和技術。知識表示決定了圖譜構建的產出目標,即知識圖譜的語義描述框架(Description Framework)、Schema與本體(Ontology)、知識交換語法(Syntax)、實體命名及ID體系。
基本描述框架定義知識圖譜的基本數(shù)據(jù)模型(Data Model)和邏輯結構(Structure)。Schema與本體定義知識圖譜的類集、屬性集、關系集和詞匯集。交換語法定義知識實際存在的物理形式。實體命名及ID體系定義實體的命名原則及唯一標識規(guī)范等。
按知識類的不同,知識圖譜包括詞(Vocabulary)、實體(Entity)、關系(Relation)、事件(Event)、術語體系(Taxonomy)、規(guī)則(Rule)等。詞一級的知識以詞為中心,并定義詞與詞之間的關系,如WordNet、ConceptNet等。實體一級的知識以實體為中心,并定義實體之間的關系、描述實體的術語體系等。事件是一種復合的實體。
對應與知識圖譜的“頭實體—關系(屬性表達)—尾實體(屬性值)”的三元組結構,知識獲取過程可大致分為實體獲取、關系獲取和屬性獲取。由于屬性本身是一類從屬于中央實體的特殊子實體,因此知識獲取過程可簡化為“實體獲取”和“關系獲取”。
在實際應用和模型創(chuàng)建過程中,由于需要兼顧后續(xù)知識圖譜的應用和對知識數(shù)據(jù)與信息的有效管理,在實體獲取過程中要對泛化表述進行概念化提取。而關系作為知識推理和智能檢索的重要依據(jù)和橋梁,其對各類型、各層級實體的組織規(guī)則、提取觸發(fā)的事件形式等均需要進行特別的設計。
綜上,現(xiàn)代知識圖譜建模過程主要涵蓋了概念獲取、實體識別、關系獲取、事件獲取和規(guī)則獲取等幾大步驟[11]。其中:
概念獲取針對泛化、通用的基本表述進行概念化闡釋,使之可以構成可識別的概念語族;
實體獲取在概念語族的基礎上,識別領域內的專有名詞和特殊詞語并加以歸類;
關系獲取是將眾多離散的實體以網狀的知識結構建立實體間的語義鏈接;
事件獲取是對關系觸發(fā)的事件進行定量化抽取和結構化轉化的過程;
規(guī)則獲取是對關系觸發(fā)的形式、觸發(fā)后的響應等內容進行定量化抽取和結構化轉化的過程。
在遺忘很長一段時間里,傳統(tǒng)的知識獲取過程要依賴專家經驗和專家系統(tǒng),知識獲取的方式也主要依靠專家手動錄入。隨著人工智能技術的推廣和應用,現(xiàn)代知識框架和模型的構建主要采用自主學習和智能獲取的手段,依靠完備的多元數(shù)據(jù)庫中已有的結構化數(shù)據(jù)和信息資源進行轉化,形成基礎數(shù)據(jù)集,再依靠自動知識抽取和知識圖譜補全技術,從多種數(shù)據(jù)來源進一步擴展知識圖譜,實現(xiàn)知識圖譜質量的進一步提升[12]。
其中,尤其以從文本等非結構化數(shù)據(jù)中獲取知識最為關鍵和重要。當前主要的從非結構化數(shù)據(jù)中獲取知識的方法包括實體識別和關系抽取。實體識別主要分為實體類識別、時間類識別和數(shù)字類識別3個大類。通過將文本語料進行預處理后,從中提取句子特征,并輸入到實體識別模型中,識別出具有特定意義的實體。典型的關系抽取方法可以分為基于特征模板的方法[13]、基于核函數(shù)的監(jiān)督學習方法[14]、基于遠程監(jiān)督的方法[15]和基于深度學習的監(jiān)督方法[16]。
知識融合技術有效解決了固定化的知識圖譜難以擴展的問題,從譜系中心實體的本身知識拓展需求和多型異構譜的融合需求等多個方面實現(xiàn)了已有知識圖譜模型的擴充和晚上。在多個知識圖譜作為子譜進行同一化融合,或者將外部數(shù)據(jù)庫數(shù)據(jù)信息合并到本體知識庫時,需要處理兩個層面的問題:
首先,結構、關系等模式層的異構必然為多子譜融合造成障礙,如何通過模式層的融合,將新得到的本體融入已有的本體庫中,以及新舊本體的融合是知識圖譜模型融合的重要問題;
其次,數(shù)據(jù)信息本身的結構、內容和存儲方式等數(shù)據(jù)層的差異也會對融合和并構的準確率與效率造成影響。如何通過數(shù)據(jù)層的融合(即實體和關系(包括屬性)元組的融合),包括實體的指稱、屬性、關系以及所屬類別等,避免實例以及關系的沖突,造成不必要的冗余,是知識圖譜融合過程中需要解決的另一個主要問題。
特別的,在考慮數(shù)據(jù)層的融合過程中,現(xiàn)有的常規(guī)方式是實體匹配或對齊。由于多維異構的知識庫中實體類型和存儲方式并不相同,因此會出現(xiàn)大量的實體含義相同,但標識符不同的現(xiàn)象,導致標識符指稱和本體內容出現(xiàn)歧義和混淆。因此需要對這些實體進行合并處理[17-18]。此外,新增實體之后,為了保持新圖譜模型的可用性、內容一致性和準確性,還需要對新增實體和關系進行驗證。
實體驗證完成實體的準確性、合規(guī)性的校驗評估,主流方法通常是在校驗過程中,為新加入的中心實體節(jié)點信息和屬性實體節(jié)點信息等均賦予置信度的值,據(jù)此進行知識的過濾和融合。通過實體對齊實現(xiàn)對實體的表述意義和方式的明確。
實體對齊主要用于解決多源實體的指代異常結構和存在的問題。通常包括兩方面內容和功能,分別為實體消歧和共指消解。其中實體消歧指的是判斷知識庫中的同名實體是否代表不同的含義,而共指消解主要判定知識庫中是否存在其他命名實體表示相同的含義。通過實體消歧和共指消解等技術手段,實現(xiàn)了融合后新譜的知識實體和屬性實體具有“3個一性”,即統(tǒng)一性、唯一性和同一性。常見的實體消歧和共指消解方法主要是聚類法,即通過空間向量、語義模型、社會網絡模型、百科知識模型和增量證據(jù)模型定義實體對象與指稱項之間的相似度。
本體是針對特定領域中Schema定義、概念模型和公里定義而言的,實現(xiàn)彌合詞匯異構性和語義歧義的間隙,使溝通達成共識。這種共識通過一個反復的過程達到,每次迭代都是一次共識的修改。因此,本體對齊帶來的是共識模式的演化。本體演化管理框架采用KAON[19]、Conto-diff[20]和OntoView等。
知識推理通過知識圖譜補全方式實現(xiàn)。基于本體推理的補全方法是一類常見的知識圖譜補全方法。主要針對概念層進行推理(TBox),也可以用來對實體級的關系進行補全。
還有一類補全方法是基于圖結構和關系路徑特征的方法,主要包括基于隨機游走獲取路徑特征的PRA算法、基于子圖結構的SFE算法、基于層次化隨機游走模型的PRA算法等。這些算法的共同特點是通過兩個實體之間的路徑,以及節(jié)點周圍圖的結構提取特征,并試圖降低特征提取的復雜度,然后疊加現(xiàn)行的學習模型進行關系的預測。
另一類常見的知識圖譜補全算法是基于表示學習和知識圖譜嵌入的鏈接預測。對于簡單的單步推理,可采用基本翻譯模型、組合模型和神經元模型等簡單的嵌入模型,對于復雜的模型,可以采用向量空間中引入隨機游走模型的方法。
此外,文本信息也常被用來輔助知識圖譜的補全,從而實現(xiàn)非結構化信息的最大化應用。
基于知識圖譜的知識檢索是知識圖譜的主要應用形式,是將知識來源的元知識應用到特定領域的最后一步。目前主要的形式包括語義檢索和智能問答兩種。其中,語義搜索通過直接對來自文本、圖片等各種信息資源的事物語義進行搜索,并提這些事物的分類、屬性和關系的描述,有效提高搜索的效率和準確率。例如直接搜索某型衛(wèi)星的基礎指標出廠檢驗值等屬性內容作為分析評估的判定輸入。
智能問答實現(xiàn)對用戶提出的問題進行解答,根據(jù)用戶輸入的自然語言問句進行分類,按照已經制定好的模板規(guī)則進行匹配,再轉邏輯查詢語言到數(shù)據(jù)庫中查詢。在對問句進行預處理后,與既定的問題模板進行匹配,然后將自然語言查詢轉換為數(shù)據(jù)庫查詢語言,與此同時,將問句中的核心實體識別出來,并將該實體的概念圖譜在前端呈現(xiàn),最終,依據(jù)概念圖譜與查詢語句便可以得到該問題的答案。如以某故障現(xiàn)象的排除作為問句,到故障診斷相關的知識圖譜中匹配答案,系統(tǒng)識別關鍵實體為故障現(xiàn)象,關系(理解為操作)為排除此故障的方法,則會通過案例等故障診斷資源實現(xiàn)排故建議答案的給出和生成。
航天裝備由一系列不同類型(型號)的衛(wèi)星裝備和相應配套的地面站構成,共同完成相應的作戰(zhàn)和保障任務。由于復雜的裝備構成和裝備本身的復雜精密的特性,以航天裝備為典型評估對象,依托本文提出的基于三元組的知識圖譜對其進行綜合評估,可以有效提高知識的檢索和應用效率。下圖為航天裝備知識圖譜構建與應用的方法流程。
本文基于自主研發(fā)的航天裝備在役考核綜合評估系統(tǒng),在全面收集、梳理相應的裝備零散知識的基礎上,應用本文所述的知識圖譜創(chuàng)建與關聯(lián)方法實現(xiàn)了航天裝備的知識圖譜的創(chuàng)建與應用,并以軟件形式對本文方法進行了驗證。
航天裝備的知識來源主要包括組成體系的衛(wèi)星裝備本體知識、體系構建的結構知識、體系服役期間的使用維護知識、體系的支援保障任務知識等內容。航天裝備的知識特點是“靜態(tài)知識與動態(tài)知識深度融合、歷史數(shù)據(jù)和實時數(shù)據(jù)互為依托、單體知識和體系知識各有側重”,總體呈現(xiàn)“知識體量龐大、知識來源復雜、知識體系零散、知識結構多樣”的鮮明特征。
1)衛(wèi)星系統(tǒng)本體知識。主要來源于衛(wèi)星裝備的研制單位、生產單位、測試單位和使用單位。包括裝備設計文檔、技術資料、出廠檢驗資料、使用履歷資料等多類型非結構文本、結構化數(shù)據(jù)庫數(shù)據(jù)。
2)體系構建應用知識。主要來源于航天裝備的應用單位(以軍事航天部隊為主)。包括航天裝備的基本信息、體系的裝備構成、體系的應用數(shù)據(jù)等多類型非結構文本、結構化數(shù)據(jù)庫數(shù)據(jù)。
3)體系綜合維護知識。主要來源于航天裝備的應用和維護單位。包括在役考核分析評估的指標體系數(shù)據(jù)、航天裝備故障數(shù)據(jù)、綜合保障維護數(shù)據(jù)等多類型非結構文本、結構化數(shù)據(jù)庫數(shù)據(jù)。
4)作戰(zhàn)保障任務知識。主要來源于請求保障單位和航天裝備的應用維護單位。包括航天裝備的作戰(zhàn)和保障任務詳情、多維度多層次約束條件等。
圖4為航天裝備知識的組織結構圖,直觀地說明了航天裝備的知識來源。
圖4 航天裝備知識來源說明軟件示意圖
圖5 典型核心航天裝備知識圖譜表示軟件示意圖
圖6 航天裝備多層次知識獲取軟件示意圖
圖7 多元子譜融合軟件示意圖
圖8 基于知識圖譜的檢索推理軟件示意圖
航天裝備的知識表示結合體系復雜的知識來源和知識結果,以及航天裝備的特點,以體系內的主戰(zhàn)裝備為核心節(jié)點,通過多維語言描述和關系運算,對知識進行體系化串聯(lián)、多極化表示和網絡化構建[21]。
以型號為主軸,將主要型號裝備作為知識圖的核心要素,進行多級多維知識圖譜子譜的構建。如創(chuàng)建某型衛(wèi)星的知識圖譜,則該型衛(wèi)星就作為中心節(jié)點,該衛(wèi)星的特征屬性、衛(wèi)星系統(tǒng)內的其他裝備實體、裝備指標體系等均可以藉由特定的關系描述與該衛(wèi)星連接,從而形成豐富的知識圖譜。
航天裝備的知識數(shù)據(jù)形式多種多樣,涵蓋了結構化數(shù)據(jù)、半結構化數(shù)據(jù)和非結構化數(shù)據(jù)等類型,因此協(xié)調統(tǒng)一的知識獲取方式尤為重要。
從結構化數(shù)據(jù)庫表中獲取知識一般使用現(xiàn)有的D2R工具,如Triplify、D2RServer、OpenLink、SparqlMap、Ontop等。從非結構化文本信息中獲取知識一般使用簡單CNN、MP-CNN、MWK-CNN、PCNN、PCNN+Att和MIMLCNN等智能化分析算法。
航天裝備的的深度綜合分析評估涉及多類裝備系統(tǒng)、多型裝備型號、多個裝備實例等復雜情況,對應的體系級知識圖譜必然要涵蓋這些分立的知識圖譜,這就需要構建融合知識圖譜。在融合知識圖譜的構建和應用過程考慮兩個主要問題,即體系作為新的本體,如何融入已有的裝備本體庫中,以及不同實體之間是否存在關系的沖突或冗余(易發(fā)生在同型裝備的不同實例之間)。
通過為航天裝備創(chuàng)建全新的虛擬核心節(jié)點(即不需要真實裝備實體作為節(jié)點支撐)實現(xiàn)體系節(jié)點的具象化表達。為了實現(xiàn)對基于裝備型號的子譜的融合、囊括和一體化表征,以實際運行的航天裝備組成為關系鏈條(邊),通過多維語言描述建立體系節(jié)點與型號裝備節(jié)點之間的連接,從而融合了以裝備節(jié)點為核心要素的型號裝備的子譜,構成了統(tǒng)一的體系知識圖譜。
子譜融合過程中,采用語義分析和關系檢驗方法對子譜進行節(jié)點校驗和析分、融合和冗余剔除。以多實例同型裝備子譜融合為例,在實際體系級知識圖譜創(chuàng)建過程中,基于體系構成和智能分析方法,對多實例裝備采取兩種策略。對體系整體功能沒有特異性影響,實例的體系貢獻相同,只是單裝功能的線性疊加和增強的裝備實例而言,通過對其核心節(jié)點與體系節(jié)點的邊進行賦權表征數(shù)量的方法實現(xiàn)融合;若不同實例的功能作用、體系貢獻、布局影響等要素不同,需要作為不同的節(jié)點分別與體系節(jié)點連接,從而精準劃分裝備節(jié)點,優(yōu)化知識圖譜。
航天裝備基于知識圖譜的綜合評估綜合運用知識圖譜對多維知識的有效組織和層次化建模功能,滿足自身對知識定位、綜合評估的綜合性、高效性、實時性的需求。
以語義識別為基礎,通過多種錄入搜索模式實現(xiàn)對知識的推理、檢索和分析。在廣泛豐富的數(shù)據(jù)資源的支撐下,通過補全圖譜方法,應用深度學習和神經網絡技術,實現(xiàn)對知識圖譜的深化推理和拓展應用。準確的自然語義識別和分析、功能完善強大的多線程檢索引擎等技術的引入,實現(xiàn)了知識需求的快速分析、知識要素的精準匹配和知識結果的高效輸出。
知識圖譜作為人工智能技術領域的知識容器和孵化器,已經在AI領域的發(fā)展中發(fā)揮了重要的作用。而面對以航天裝備為代表的全軍各類型裝備的信息化升級和智能化應用需求的不斷上升,以知識表示、抽取、存儲、計算、應用等一系列技術“有機集合、體系整合、鏈條融合”為特征的知識圖譜技術,必然會在智能裝備研制、生產和使用維護中真正落地,發(fā)揮重要的作用,助力裝備的升級和我國國防現(xiàn)代化事業(yè)的建設。