何江波 韓宛彤 黃繼紅 趙 恒
(中國船舶集團有限公司第七〇九研究所 武漢 430205)
海上信息資源管理中心是對海上信息資源進行管理的平臺,而海上信息資源是海上各信息資源管理中心之間交互的各類數(shù)據(jù)信息的統(tǒng)稱,有著多類別、多來源、高頻率的特點,各信息資源管理中心對信息資源進行分析以輔助決策。當(dāng)前的信息資源存儲方式主要采用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,存在如下問題:第一,關(guān)系型數(shù)據(jù)庫適用于存在較多實體但實體間關(guān)系較簡單的數(shù)據(jù),對于存在復(fù)雜的資源間關(guān)系的信息資源,關(guān)系型數(shù)據(jù)庫的性能較低,包含復(fù)雜關(guān)系查詢的操作的實時性差;第二,現(xiàn)有數(shù)據(jù)組織方式的信息資源不存在語義層面的關(guān)聯(lián),檢索得到的信息資源集合簡單,隨著信息量的增大,現(xiàn)有方法無法滿足信息資源管理中心對信息資源實時性、準(zhǔn)確性的需求。因此需要為信息資源建立良好的組織方式,為智能檢索、個性化推薦等上層應(yīng)用提供更好的支撐。
知識圖譜(Knowledge Graph,KG)是解決上述問題的方法之一。知識圖譜是基于圖結(jié)構(gòu)的知識庫,與關(guān)系型數(shù)據(jù)庫相比,采用知識圖譜技術(shù)對信息資源進行組織,有以下兩方面的優(yōu)勢:1)圖結(jié)構(gòu)更適合于存儲數(shù)據(jù)之間關(guān)聯(lián)復(fù)雜的信息資源,關(guān)系操作性能較好;2)信息資源的智能應(yīng)用,知識圖譜為智能搜索、個性化推薦等智能應(yīng)用提供支撐,提高信息資源檢索的準(zhǔn)確率。因此知識圖譜是未來信息資源管理中心數(shù)據(jù)存儲的發(fā)展趨勢之一。
本文提出了面向海上多節(jié)點信息資源管理的知識圖譜的構(gòu)建方法。首先對知識圖譜相關(guān)技術(shù)的研究現(xiàn)狀與現(xiàn)有的知識圖譜構(gòu)建方法進行了介紹;然后針對海上多節(jié)點信息資源的特性,提出了面向海上多節(jié)點信息資源管理的知識圖譜構(gòu)建方法,為信息資源的智能搜索、個性化推薦提供支撐。
知識圖譜的概念由谷歌于2012年5月提出,用于提高搜索引擎能力,增強其返回的搜索結(jié)果。知識圖譜使用圖結(jié)構(gòu)描述客觀存在的事物及其關(guān)系,圖的節(jié)點表示客觀存在的事物,即實體,節(jié)點之間的邊表示事物之間的關(guān)系。隨著Web技術(shù)以及智能信息服務(wù)的不斷發(fā)展,知識圖譜已經(jīng)廣泛應(yīng)用于個性化推薦,問答系統(tǒng)等智能應(yīng)用中。構(gòu)建知識圖譜的關(guān)鍵技術(shù)包括知識抽取、知識融合、知識推理等方面。知識抽取主要包括實體抽取和關(guān)系抽取。目前主要采用統(tǒng)計機器學(xué)習(xí)以及深度學(xué)習(xí)的方式對實體進行抽取。知識融合的研究主要針對實體對齊方面,文獻[1]提出了針對實體相似距離的可擴展、自適應(yīng)的聚類與實體匹配算法?;谌窒嗨贫鹊姆椒ňC合考慮實體的屬性與實體之間的關(guān)系,結(jié)合屬性相似度和實體間的拓?fù)渚嚯x,對實體進行對齊。知識推理主要分為基于邏輯的推理與基于圖的推理兩類?;谶壿嫷耐评碇饕ㄒ浑A邏輯謂詞推理、描述邏輯和基于規(guī)則的推理。在基于規(guī)則的推理方面,知識庫NELL采用一階Horn子句的方式預(yù)測實體間的關(guān)聯(lián)[2];而在基于圖的推理方面,較為典型的有文獻[3]提出的節(jié)點間的隨機游走算法,用于推測兩個節(jié)點之間的關(guān)系。
通用知識圖譜的主流構(gòu)建方法主要分為自頂向下與自底向上兩種方式,自頂向下的構(gòu)建方式先定義概念,然后將實體填充到知識圖譜中;自底向上的方式先從原始數(shù)據(jù)中抽取實體,再通過對實體聚類等方式構(gòu)造概念。專業(yè)領(lǐng)域的知識圖譜一般采用自頂向下的構(gòu)建方式,主要包括概念定義、知識抽取,知識融合等步驟。概念定義對領(lǐng)域內(nèi)現(xiàn)有知識進行提煉,得到概念、概念的上下位關(guān)系以及概念的關(guān)系。知識抽取是指對原始數(shù)據(jù)進行實體抽取、關(guān)系抽取以及屬性值抽取。知識圖譜的原始數(shù)據(jù)主要分為結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)主要指關(guān)系型數(shù)據(jù)庫中存儲的數(shù)據(jù),針對結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),使用D2R工具或模板匹配工具將原始數(shù)據(jù)映射為實體;針對非結(jié)構(gòu)化的數(shù)據(jù),使用自然語言處理技術(shù)從原始文本中識別實體。知識融合由于原始數(shù)據(jù)來源多樣,通過知識抽取得到的實體質(zhì)量較低不能直接作為實體存儲到知識庫中,需要對實體進行加工,主要的知識融合方法包括實體消歧,屬性消歧等。通用知識圖譜的架構(gòu)如圖1所示。
圖1 通用知識圖譜架構(gòu)
海上信息資源包含多種異構(gòu)數(shù)據(jù),包括文字、圖像、音頻、視頻等。而隨著海上信息資源的積累以及信息收集技術(shù)的進步,信息資源的種類也會越來越復(fù)雜。由于海上節(jié)點之間的網(wǎng)絡(luò)有帶寬低、連接不穩(wěn)定的特點,節(jié)點之間的信息交互實時性無法滿足需求。因此海上多節(jié)點信息資源知識圖譜的構(gòu)建存在以下兩個難點:第一,海上各節(jié)點需要維護節(jié)點之間的關(guān)系,以支持節(jié)點之間的信息交互;第二,知識圖譜中的節(jié)點信息需要實時更新以保證信息資源的實時性。
針對以上難點,本文采用了面向海上網(wǎng)絡(luò)的隱馬爾可夫模型(Hidden Markov Model,HMM),用于預(yù)測節(jié)點間鏈路狀態(tài),根據(jù)預(yù)測結(jié)果選擇更新時間與鏈路選擇,以確保各節(jié)點的信息資源的實時性。
海上網(wǎng)絡(luò)由多種無線通信手段組成,因此數(shù)據(jù)傳輸首先需要選擇使用的信道,由于信道的實時狀態(tài)是未知的,選擇不可用信道導(dǎo)致的等待時延會極大地影響到數(shù)據(jù)傳輸?shù)膶崟r性。HMM可以基于當(dāng)前已知的網(wǎng)絡(luò)狀態(tài)對未來一段時間的狀態(tài)進行預(yù)測,根據(jù)預(yù)測結(jié)果選擇可用信道,有效減少選擇不可用信道導(dǎo)致的等待時延,從而解決實體更新的實時性問題,同時根據(jù)信道狀態(tài)對節(jié)點間的關(guān)系進行更新維護。
HMM是馬爾可夫模型理論基礎(chǔ)上的雙重隨機過程,由描述隱藏狀態(tài)轉(zhuǎn)移的馬爾可夫鏈和描述隱藏狀態(tài)與觀測狀態(tài)之間關(guān)系的隨機過程組成,隱藏狀態(tài)不可觀測。HMM可以定義為五元組λ=(S,V,A,B,π),其中S={S1,S2,…,SN},代表隱藏狀態(tài)的有限集合,狀態(tài)數(shù)量為N;V={V1,V2,…,VM},代表觀測值的有限集合,可能輸出的觀測值數(shù)量為M;A={aij},aij=P{qt+1=Sj|qt=Si},1≤i,j≤N,代表HMM中隱藏狀態(tài)之間的轉(zhuǎn)移概率;B={bj(k)},bj(k)=P{Ot=Vk|qt=Sj},1≤j≤N,1≤k≤M,代表HMM中某隱藏狀態(tài)被觀測為指定觀測值的概率;代表初始化狀態(tài)分布。隨機過程中的隱藏狀態(tài)序列為Q={q1,q2,…,qT},觀測狀態(tài)序列為O={ο1,ο2,…,οT},T為觀測狀態(tài)序列長度。
網(wǎng)絡(luò)狀態(tài)不是一個具體的概念,無法直接檢測,一般通過反映網(wǎng)絡(luò)狀態(tài)的QoS指標(biāo)來體現(xiàn)網(wǎng)絡(luò)狀態(tài),如網(wǎng)絡(luò)時延、丟包率等。HMM中的隱藏狀態(tài)同樣不可觀測,僅能觀測到觀測狀態(tài)。針對海上網(wǎng)絡(luò),以信道的連通狀態(tài)作為隱藏狀態(tài),隱藏值集合S={0,1},分別表示信道不可用狀態(tài)與可用狀態(tài)。以每次實體更新的時延為觀測狀態(tài),對實體更新時間進行離散化,分為三種狀態(tài),第一類時延小于200ms,第二類時延在200ms~1000ms之間,第三類時延在1000ms以上,故觀測值集合V={0,1,2}。對歷史數(shù)據(jù)進行離散化得到觀測狀態(tài)序列O,作為模型的訓(xùn)練集與預(yù)測的輸入。
建立HMM需要選取合適的初始模型參數(shù),好的參數(shù)選取方案使最終參數(shù)盡量收斂于全局最大值。初始狀態(tài)分布π與隱藏狀態(tài)轉(zhuǎn)移概率矩陣A可隨機選取,不會影響到模型的最終參數(shù)收斂。觀測概率矩陣B的初始值關(guān)系到最終參數(shù)的收斂,采用均勻分割訓(xùn)練樣本然后估計其全局均值和方差的方式計算初始觀測概率矩陣B。
定義初始模型后,使用已知的觀測狀態(tài)序列O作為輸入,采用Baum-Welch算法對模型λ進行訓(xùn)練,計算得到新的模型λ`=(A`,B`,π`),且P(O|λ`)>P(O|λ),即新模型生成觀測狀態(tài)序列O的概率高于原模型,新模型相比原模型更符合實際環(huán)境,將λ`作為λ進行新一輪的迭代,直到P(O|λ`)不明顯提高,即得到最終的模型。
建立面向海上網(wǎng)絡(luò)的隱馬爾可夫模型后,以節(jié)點間網(wǎng)絡(luò)狀態(tài)的觀測狀態(tài)序列O作為輸入,使用Viterbi算法預(yù)測未來時隙的所有信道狀態(tài),即根據(jù)已經(jīng)確定的給定部分觀察序列O={ο1,ο2,…,οt}及其對應(yīng)的最優(yōu)隱藏狀態(tài)序列Q={q1,q2,…,qt},根據(jù)Q計算出觀測序列增1后的最優(yōu)狀態(tài)序列Q={q1,q2,…,qt,qt+1},即得到下一時隙的網(wǎng)絡(luò)狀態(tài)預(yù)測值。選擇預(yù)測可用信道建立候選信道集合,使用可用信道進行實體更新的傳輸,保證實體更新的實時性,根據(jù)可用信道的連通狀態(tài)維護節(jié)點間的連接關(guān)系,同時根據(jù)實體更新的傳輸?shù)男Ч麑MM模型進行評估。
基于面向海上網(wǎng)絡(luò)的隱馬爾可夫模型,得到對信道的連通狀態(tài)進行預(yù)測的方法?;陬A(yù)測方法,提出海上多節(jié)點信息資源知識圖譜的構(gòu)建方法,分為單節(jié)點知識圖譜構(gòu)建與節(jié)點間交互模塊構(gòu)建兩部分。
單節(jié)點知識圖譜構(gòu)建方法如下:
1)根據(jù)經(jīng)驗與信息資源管理中的技術(shù)文檔,定義信息資源管理的相關(guān)概念和關(guān)系。對于信息資源知識圖譜,采用自頂向下的構(gòu)建方式,通過文本模板匹配的方式從信息資源的技術(shù)文檔匹配得到概念及屬性的定義,以抽取得到的概念形成信息資源知識圖譜的模式層。
2)根據(jù)實際應(yīng)用需求,為抽取得到的概念定義屬性、關(guān)系的取值約束,為節(jié)點與信息資源、節(jié)點與節(jié)點之間的關(guān)系添加連接狀態(tài)屬性,記錄該信息資源或節(jié)點當(dāng)前是否可達。
3)從現(xiàn)有的數(shù)據(jù)庫、文檔、實時數(shù)據(jù)等多種來源的異構(gòu)數(shù)據(jù)中抽取實體及其關(guān)系與屬性值。針對各類異構(gòu)信息資源,為信息資源按類型定義匹配模板,采用模板匹配的知識抽取方法進行實體的抽取。
4)由于信息資源實體存在較多關(guān)系和屬性,采用基于實體關(guān)系的相似度作為實體消歧的判斷標(biāo)準(zhǔn);對步驟3)得到的實體進行知識融合,消除實體之間的冗余,對相同實體進行合并,得到單節(jié)點信息資源知識圖譜。
節(jié)點間交互模塊構(gòu)建方法如下。
1)選取初始模型參數(shù),建立初始隱馬爾可夫模型。
2)對信道狀態(tài)歷史數(shù)據(jù)進行預(yù)處理,構(gòu)造觀測狀態(tài)序列O作為HMM的訓(xùn)練集。
3)使用Baum-Welch算法對隱馬爾可夫模型進行訓(xùn)練。
基于訓(xùn)練后的HMM,使用Viterbi算法計算預(yù)測未來時隙的所有信道狀態(tài),并基于預(yù)測的結(jié)果選擇信道傳輸數(shù)據(jù)。根據(jù)數(shù)據(jù)的傳輸結(jié)果判斷信道的實際狀態(tài),維護節(jié)點間關(guān)系;基于預(yù)測結(jié)果和信道的實際狀態(tài)評估HMM的預(yù)測效果。若預(yù)測效果下降,將新的信道狀態(tài)預(yù)處理后加入到訓(xùn)練集,訓(xùn)練HMM,否則預(yù)測下一時隙的信道狀態(tài)。
海上多節(jié)點的信息資源知識圖譜的建立流程圖如圖2所示。
圖2 海上多節(jié)點的信息資源知識圖譜的建立流程
按照以上方法構(gòu)建的海上多節(jié)點信息資源知識圖譜可以對節(jié)點間的連接狀態(tài)進行維護,并確保節(jié)點間信息資源的實時性。
以兩個海上信息資源管理中心節(jié)點為例,通過以上方法構(gòu)建海上信息資源知識圖譜,關(guān)系數(shù)據(jù)庫中原始數(shù)據(jù)如圖3所示。
圖3 原始數(shù)據(jù)示例
使用D2R工具將目前的關(guān)系數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)映射為資源描述框架映射為資源描述框架(Resource Description Framework,RDF)的表示形式,得到的實體如圖4所示。
圖4 實體RDF描述示例
將抽取得到的實體集添加到圖數(shù)據(jù)庫中,形成節(jié)點1與節(jié)點2的單節(jié)點信息資源知識圖譜。構(gòu)建各節(jié)點上的節(jié)點間交互模塊,通過節(jié)點間的數(shù)據(jù)更新得到多節(jié)點信息資源知識圖譜。
對多節(jié)點知識圖譜中的1、2兩個用戶實體進行關(guān)聯(lián)路徑分析,得到的結(jié)果如圖5所示,可直觀地看到兩個信息資源管理中心之間關(guān)聯(lián)的資源實體,“訂閱”關(guān)系實時顯示連接狀態(tài),更新交互模塊實時對本地知識圖譜進行更新,維護節(jié)點間關(guān)系,直觀顯示信息資源中心與資源之間的關(guān)系。
圖5 海上多節(jié)點信息資源管理知識圖譜
在相同的網(wǎng)絡(luò)環(huán)境下,對傳統(tǒng)的信道輪詢方式與HMM模型預(yù)測在不同數(shù)據(jù)規(guī)模下的實體更新平均時延進行對比。如圖6所示,隨著實體更新數(shù)據(jù)規(guī)模的增大,隱馬爾可夫模型對網(wǎng)絡(luò)狀態(tài)擬合度逐漸提高。相對于傳統(tǒng)的信道輪詢方式,使用隱馬爾可夫模型進行預(yù)測的實體更新方式能有效降低實體更新時延,從而提高知識圖譜更新的實時性。
圖6 HMM預(yù)測與輪詢方式實時性效果對比
隨著全域作戰(zhàn)模式的發(fā)展,信息資源的數(shù)據(jù)規(guī)模與類型會日益增加,對海上信息資源的組織方式和應(yīng)用都提出了新的挑戰(zhàn)。本文針對海上多節(jié)點的海量異構(gòu)信息資源以及海上網(wǎng)絡(luò)環(huán)境的特點,提出了面向海上多節(jié)點信息資源知識圖譜的構(gòu)建方法,從多種數(shù)據(jù)源抽取實體及關(guān)系以構(gòu)建信息資源知識圖譜,構(gòu)建的知識圖譜可為異構(gòu)信息資源提供一種數(shù)據(jù)組織方式和存儲方式,為以信息資源知識圖譜為基礎(chǔ)的個性化推薦、智能搜索等方面應(yīng)用提供技術(shù)支持。