葛斌 譚真 張翀 肖衛(wèi)東
隨著戰(zhàn)場(chǎng)信息的爆炸式增長(zhǎng),傳統(tǒng)的搜索引擎和查詢方式已經(jīng)無(wú)法滿足戰(zhàn)場(chǎng)信息以及大量軍事知識(shí)的捕獲和理解,而知識(shí)圖譜技術(shù)在解決知識(shí)查詢的精度以及可擴(kuò)展性方面展現(xiàn)出了巨大的優(yōu)勢(shì),成為人們研究的熱點(diǎn)問(wèn)題.但是現(xiàn)有的知識(shí)圖譜多為通用的知識(shí)圖譜,針對(duì)性較強(qiáng)的領(lǐng)域知識(shí)尤其是軍事領(lǐng)域的知識(shí)圖譜并沒有較好的構(gòu)建以及表示方法,因此,建立軍事知識(shí)圖譜意義重大.軍事知識(shí)涵蓋范圍廣泛,本文定義的軍事知識(shí)圖譜主要面向軍事情報(bào)分析領(lǐng)域.
軍事情報(bào)分析在作戰(zhàn)指揮、情報(bào)研判、目標(biāo)分析等專門業(yè)務(wù)工作中起到重要作用,情報(bào)之間的關(guān)聯(lián)是各類情報(bào)間進(jìn)行綜合分析的橋梁和手段,軍事知識(shí)圖譜是解決情報(bào)關(guān)聯(lián)分析的有效工具和手段.
傳統(tǒng)的數(shù)據(jù)庫(kù)和網(wǎng)頁(yè)檢索手段在面對(duì)用戶精確化的查詢時(shí)存在諸多的不足,現(xiàn)階段以Knowledge Graph[1]為主的一系列知識(shí)圖譜為精細(xì)化的查詢奠定了基礎(chǔ),而軍事領(lǐng)域作為科技領(lǐng)域的最前沿,構(gòu)建起專有的知識(shí)圖譜能夠很大程度上提高作戰(zhàn)的效率,為作戰(zhàn)指揮人員提供更為夯實(shí)的情報(bào).下面從不同角度來(lái)闡述構(gòu)建軍事知識(shí)圖譜的必要性:
隨著計(jì)算機(jī)技術(shù)以及計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的不斷推廣使用,情報(bào)部門搜集到的越來(lái)越多的信息以文本信息的形式被保存下來(lái).知識(shí)圖譜的出現(xiàn)使得信息可以在語(yǔ)義層面上進(jìn)行整合,這種語(yǔ)義層次的關(guān)聯(lián)技術(shù)能夠?yàn)榍閳?bào)的綜合分析研判提供強(qiáng)有力支撐.
理解情報(bào)語(yǔ)義的基本任務(wù)是要知道情報(bào)的主題和涵義,并能夠抽取情報(bào)的自然屬性和社會(huì)屬性,其本質(zhì)是對(duì)情報(bào)數(shù)據(jù)的主體、場(chǎng)景、行為、情感等要素進(jìn)行建模.基于語(yǔ)義對(duì)中文文本進(jìn)行智能處理需要情報(bào)領(lǐng)域知識(shí)的支持,情報(bào)領(lǐng)域知識(shí)描述情報(bào)業(yè)務(wù)范疇內(nèi)的各種概念以及概念之間的關(guān)系,是對(duì)情報(bào)進(jìn)行智能處理的基礎(chǔ).而知識(shí)圖譜利用三元組的形式使不同實(shí)體之間的語(yǔ)義關(guān)系一目了然,在一定程度上擺脫了傳統(tǒng)的語(yǔ)義分析方法,提高了語(yǔ)義查詢效率,使大規(guī)模的語(yǔ)義級(jí)查詢成為可能.
情報(bào)關(guān)聯(lián)的基本任務(wù)是根據(jù)主題、形式、自然屬性、社會(huì)屬性等,鏈接相關(guān)情報(bào),其本質(zhì)是對(duì)各種情報(bào)數(shù)據(jù)的自然屬性和社會(huì)屬性之間的復(fù)雜關(guān)系進(jìn)行建模.在各種情報(bào)關(guān)聯(lián)類型中最關(guān)鍵的是關(guān)聯(lián)數(shù)據(jù)模型.傳統(tǒng)的情報(bào)數(shù)據(jù)模型著重解決的是情報(bào)數(shù)據(jù)個(gè)體的存儲(chǔ)組織與管理問(wèn)題,而關(guān)聯(lián)數(shù)據(jù)模型不僅要能夠存儲(chǔ)組織和管理PB級(jí)的非結(jié)構(gòu)化實(shí)時(shí)情報(bào)數(shù)據(jù),還要能夠存儲(chǔ)組織和管理情報(bào)之間的邏輯關(guān)聯(lián),能夠存儲(chǔ)組織和管理每個(gè)情報(bào)數(shù)據(jù)的多維屬性以及每個(gè)關(guān)聯(lián)的多維屬性,能夠反映情報(bào)數(shù)據(jù)及其關(guān)聯(lián)的時(shí)空屬性、語(yǔ)義涵義、權(quán)重、概率等特性.以知識(shí)圖譜為基礎(chǔ)構(gòu)建數(shù)據(jù)模型,在此基礎(chǔ)上,才能夠更好地實(shí)現(xiàn)傳統(tǒng)數(shù)據(jù)模型所不能支持的多種智能分析,如時(shí)空關(guān)聯(lián)分析、邏輯關(guān)聯(lián)分析、語(yǔ)義相似性搜索、數(shù)據(jù)世系管理與分析、數(shù)據(jù)溯源與核查等,提升我軍情報(bào)綜合系統(tǒng)的能力水平.
挖掘知識(shí)的基本任務(wù)是洞察真相、因果推理和規(guī)律探尋,其本質(zhì)是對(duì)目標(biāo)或事件的來(lái)龍去脈、前因后果、特點(diǎn)規(guī)律進(jìn)行建模和表現(xiàn).比如:目標(biāo)畫像,即對(duì)目標(biāo)人物和組織的真實(shí)情況、行為模式、社會(huì)關(guān)系等進(jìn)行“全景成像”;事件拼圖,即通過(guò)證據(jù)鏈擬合,按時(shí)間軸將事件發(fā)生、發(fā)展與演變的真實(shí)過(guò)程進(jìn)行反演;因果推理,即揭示事件間的因果關(guān)系,包括概率因果推理、基于統(tǒng)計(jì)相關(guān)的預(yù)測(cè)型因果推理、從海量文本中自動(dòng)獲取因果規(guī)則進(jìn)行因果推理、事件之間發(fā)展脈絡(luò)因果鏈生成等;規(guī)律探尋,即通過(guò)模式識(shí)別、可視化分析等揭示潛在規(guī)律或行為模式.以知識(shí)圖譜為基礎(chǔ)可以更好地在語(yǔ)義層面跟蹤探測(cè)不同時(shí)間的起因、發(fā)展以及關(guān)鍵節(jié)點(diǎn),挖掘語(yǔ)義層面的關(guān)聯(lián)信息和知識(shí),提高軍事知識(shí)圖譜的實(shí)際應(yīng)用價(jià)值.
知識(shí)圖譜的研究正處于起步階段,成熟的知識(shí)圖譜屈指可數(shù),以谷歌為首的互聯(lián)網(wǎng)公司構(gòu)建了一系列面向應(yīng)用的知識(shí)圖譜,知識(shí)圖譜以三元組為基礎(chǔ),將各個(gè)領(lǐng)域的知識(shí)以結(jié)構(gòu)化的方式存儲(chǔ)在知識(shí)庫(kù)中.當(dāng)前典型的知識(shí)圖譜有以下幾個(gè):
Knowledge Graph[1]在2012年5月16日正式發(fā)布,為用戶提供除了網(wǎng)頁(yè)列表以外的其他信息,在最大程度上將用戶的查詢內(nèi)容以結(jié)構(gòu)化列表或者知識(shí)卡片的方式返回.Knowledge Graph中的知識(shí)來(lái)自與多種數(shù)據(jù)源,主要由Freebase、維基百科以及CIA的世界概況等構(gòu)成.在其發(fā)布時(shí),就已經(jīng)包含超過(guò)570億個(gè)對(duì)象、18億個(gè)三元組以及不同對(duì)象之間的各種鏈接關(guān)系.
WordNet[2]是一個(gè)人工構(gòu)建的表達(dá)英語(yǔ)詞匯之間的語(yǔ)義網(wǎng)絡(luò),可以認(rèn)為是一個(gè)專業(yè)領(lǐng)域的知識(shí)圖譜.對(duì)于其中的任意名詞、動(dòng)詞、形容詞或者副詞之間具有相似語(yǔ)義關(guān)系的詞語(yǔ)組織各自的同義詞集合,并對(duì)每一個(gè)集合設(shè)定各自的語(yǔ)義概念.到目前為止,WordNet共有超過(guò)15萬(wàn)詞匯、11萬(wàn)個(gè)同義詞集合以及20.6萬(wàn)個(gè)詞匯語(yǔ)義對(duì).WordNet目前已成為自然語(yǔ)言處理中不和或缺的重要資源.為了使資源得到廣泛的應(yīng)用,Global WordNet Association創(chuàng)建了一個(gè)討論、分享不同語(yǔ)言WordNet的平臺(tái)[3].其中就包含由臺(tái)灣中央研究院構(gòu)建的中文Wordnet[4].
DBpedia[5?8]是為L(zhǎng)OD項(xiàng)目開發(fā)的跨語(yǔ)言的綜合性數(shù)據(jù)庫(kù).其基本思路是從維基百科中抽取現(xiàn)有的結(jié)構(gòu)化知識(shí),并用RDF格式對(duì)其進(jìn)行存儲(chǔ),在此基礎(chǔ)上利用SPARQL對(duì)存儲(chǔ)的知識(shí)進(jìn)行查詢.到目前為止,DBpedia包含超過(guò)30億條的RDF元組.該項(xiàng)目存在的主要問(wèn)題是無(wú)法抽取頁(yè)面中非結(jié)構(gòu)化知識(shí).除了DBpedia以外,YAGO[9?11]也從維基百科中抽取知識(shí),除此之外YAGO還將WordNet的語(yǔ)義信息也考慮在內(nèi),以此構(gòu)建更豐富的實(shí)體關(guān)系,該知識(shí)圖譜包含超過(guò)1000萬(wàn)個(gè)實(shí)體及1.2億條知識(shí),并對(duì)這些實(shí)體和關(guān)系進(jìn)行了詳細(xì)的分類.
在國(guó)內(nèi)搜狗知立方[12]是第1個(gè)將知識(shí)圖譜引入搜索引擎的互聯(lián)網(wǎng)企業(yè).在具體的構(gòu)建過(guò)程中“知立方”劃分為5個(gè)步驟,分別是:本體構(gòu)建、實(shí)例構(gòu)建、異構(gòu)數(shù)據(jù)整合、實(shí)體重要度計(jì)算和推理數(shù)據(jù)完善.在具體的操作過(guò)程中通過(guò)對(duì)異構(gòu)數(shù)據(jù)源的整合合并,得到了一個(gè)較為完善的知識(shí)圖譜.
2013年2月,百度基于知識(shí)圖譜,正式推出了新一代搜索引擎技術(shù),即百度“知心”[13].該搜索引擎技術(shù)采用的知識(shí)圖譜在構(gòu)建的過(guò)程中包含4個(gè)部分:命名實(shí)體挖掘、屬性值對(duì)挖掘、上下位關(guān)系挖掘和相關(guān)實(shí)體挖掘.其中實(shí)體挖掘分為傳統(tǒng)命名實(shí)體挖掘和互聯(lián)網(wǎng)新型命名實(shí)體挖掘兩類,挖掘過(guò)程主要采用的數(shù)據(jù)源包括搜索純文本、日志和網(wǎng)頁(yè)等.
復(fù)旦大學(xué)的知識(shí)圖譜[14]主要對(duì)問(wèn)答系統(tǒng)和中文分詞等領(lǐng)域提供支持.構(gòu)建過(guò)程主要由實(shí)體和概念抽取、實(shí)體評(píng)估、實(shí)體消解和關(guān)系抽取4個(gè)部分.在實(shí)體概念抽取的過(guò)程中利用人工標(biāo)注以及現(xiàn)有的知識(shí)作為生成種子知識(shí),也就是所謂的核心實(shí)體集,利用迭代式的方法對(duì)知識(shí)圖譜進(jìn)行豐富;實(shí)體評(píng)估對(duì)一個(gè)實(shí)體的可靠程度進(jìn)行衡量;實(shí)體消解分為跨數(shù)據(jù)源實(shí)體消解和跨語(yǔ)言實(shí)體消解,其本質(zhì)是在一個(gè)異構(gòu)多元信息網(wǎng)絡(luò)中抽取特征并合并到一個(gè)因子圖模型中.
由上述的知識(shí)圖譜可以看出,現(xiàn)有知識(shí)圖譜構(gòu)建主要是利用已有的結(jié)構(gòu)化知識(shí),對(duì)半結(jié)構(gòu)化和非結(jié)構(gòu)化的知識(shí)并沒有較好的處理辦法.如何自動(dòng)化或者半自動(dòng)化地對(duì)非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行處理,在此基礎(chǔ)上進(jìn)行知識(shí)圖譜的構(gòu)建是現(xiàn)階段的研究重點(diǎn).而對(duì)軍事知識(shí)圖譜而言,結(jié)構(gòu)化知識(shí)比較稀缺,開放的數(shù)據(jù)源也很難獲取,半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)處理也需要極強(qiáng)的專業(yè)知識(shí)和技巧,一系列的問(wèn)題對(duì)軍事知識(shí)圖譜的構(gòu)建提出了嚴(yán)重的挑戰(zhàn).
本節(jié)描述了面向情報(bào)分析的軍事知識(shí)圖譜構(gòu)建技術(shù)的基本架構(gòu),如圖1所示.
圖1 軍事知識(shí)圖譜的基本架構(gòu)
基本架構(gòu)總共分為4個(gè)部分,知識(shí)存儲(chǔ)與表示、智能推理與檢索、數(shù)據(jù)映射以及知識(shí)圖譜管理.其中,知識(shí)存儲(chǔ)與表示為系統(tǒng)提供可靠的分布式存儲(chǔ)環(huán)境以及可推演的知識(shí)圖譜模型;智能推理與檢索為系統(tǒng)提供一個(gè)檢索和推理的引擎,為查詢和推理的服務(wù)提供可靠的接口,并利用深度學(xué)習(xí)和正向推理技術(shù)為知識(shí)體系提供多種演化途徑,為知識(shí)圖譜自動(dòng)構(gòu)建技術(shù)提供可靠的接口;數(shù)據(jù)映射模塊為系統(tǒng)提供多種數(shù)據(jù)解析方式,將結(jié)構(gòu)化、半結(jié)構(gòu)化、以及非結(jié)構(gòu)化的數(shù)據(jù)映射成為知識(shí)圖譜可以理解的數(shù)據(jù)類型;知識(shí)圖譜管理負(fù)責(zé)對(duì)知識(shí)圖譜進(jìn)行維護(hù),例如維護(hù)系統(tǒng)日志和用戶管理權(quán)限等.
1)知識(shí)存儲(chǔ)與表示.主要分為軍事知識(shí)本體建模與大規(guī)模知識(shí)圖譜分布式存儲(chǔ).軍事知識(shí)本體建模主要考慮各個(gè)實(shí)體和關(guān)系之間的邏輯關(guān)系、實(shí)體之間的隸屬關(guān)系以及實(shí)體關(guān)系的定義域和值域;在大規(guī)模知識(shí)圖譜的分布式存儲(chǔ)過(guò)程中,主要研究知識(shí)圖譜的分塊管理技術(shù)使得知識(shí)圖譜在各個(gè)機(jī)器上的查詢?cè)L問(wèn)達(dá)到負(fù)載均衡.
2)智能推理與檢索.主要為外界和知識(shí)圖譜之間的交互提供多元化的接口.其中圖檢索主要負(fù)責(zé)對(duì)上層提出的各種查詢需求進(jìn)行分析,并對(duì)其中的難點(diǎn)問(wèn)題進(jìn)行研究,如大規(guī)模知識(shí)圖譜可達(dá)性查詢、子圖結(jié)構(gòu)查詢、頻繁模式挖掘等關(guān)鍵技術(shù).在圖檢索的基礎(chǔ)上對(duì)查詢分析后的邏輯關(guān)系進(jìn)行反向推理,以便于得到更為精確的查詢結(jié)果.正向推理主要利用現(xiàn)有的推理技術(shù)對(duì)結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行推理和分析,得到知識(shí)圖譜可以存儲(chǔ)和理解的數(shù)據(jù)格式.而深度學(xué)習(xí)主要負(fù)責(zé)對(duì)非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行抽取,以得到知識(shí)圖譜可以理解的數(shù)據(jù)類型,深度學(xué)習(xí)還可以從現(xiàn)有的知識(shí)圖譜中提取潛在特征,加強(qiáng)知識(shí)圖譜的表示和演化能力.
3)數(shù)據(jù)映射.主要包括QA映射、關(guān)系型數(shù)據(jù)映射以及文本知識(shí)挖掘.其中QA映射主要研究如何將自然語(yǔ)言處理成知識(shí)圖譜可以理解的語(yǔ)言,也就是所謂的查詢理解;關(guān)系型數(shù)據(jù)映射主要利用現(xiàn)有技術(shù)將現(xiàn)有的結(jié)構(gòu)化數(shù)據(jù)以及半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換成知識(shí)圖譜所能理解的語(yǔ)言;文本知識(shí)挖掘則主要處理互聯(lián)網(wǎng)或者內(nèi)網(wǎng)上的情報(bào),并抽取出其中的知識(shí),也就是知識(shí)圖譜自動(dòng)構(gòu)建.
4)知識(shí)圖譜管理.對(duì)知識(shí)圖譜進(jìn)行維護(hù),例如維護(hù)日志,對(duì)用戶進(jìn)行管理,對(duì)知識(shí)圖譜的實(shí)體或者關(guān)系進(jìn)行增刪改操作等.
在軍事知識(shí)圖譜構(gòu)建過(guò)程中需要涉及數(shù)據(jù)采集、知識(shí)抽取、知識(shí)消歧、知識(shí)推理等技術(shù),總體流程如圖2所示.下面就其中的關(guān)鍵技術(shù)進(jìn)行簡(jiǎn)要介紹.
圖2 軍事知識(shí)圖譜構(gòu)建總體流程圖
圖3 知識(shí)存儲(chǔ)流程圖
在進(jìn)行知識(shí)圖譜構(gòu)建之前,必須構(gòu)建一個(gè)存儲(chǔ)知識(shí)圖譜的框架,在一個(gè)完善的知識(shí)圖譜存儲(chǔ)框架上進(jìn)行知識(shí)圖譜的構(gòu)建、表示以及應(yīng)用將會(huì)大大提高知識(shí)圖譜的使用效率.
隨著知識(shí)圖譜中包含的實(shí)體和關(guān)系個(gè)數(shù)的急劇增加,單一的機(jī)器已經(jīng)無(wú)法滿足知識(shí)圖譜存儲(chǔ)的需要,因此,分布式存儲(chǔ)就成為人們關(guān)注的重點(diǎn).在分布式存儲(chǔ)技術(shù)中,分塊管理技術(shù)就是保證知識(shí)圖譜高效運(yùn)行的保證.所謂分塊管理是指將大規(guī)模的知識(shí)圖譜如何進(jìn)行有效的分割,以便于達(dá)到系統(tǒng)的負(fù)載均衡,也為后續(xù)的多模式查詢提供高效的存儲(chǔ)基礎(chǔ).針對(duì)分塊管理的問(wèn)題,本文提出一種基于多約束條件的分塊管理框架,優(yōu)化影響查詢效率的多種因素.首先需要優(yōu)化最小割邊數(shù),最小割邊越小分塊之間查詢的通信開銷越小,查詢效率會(huì)越高;其次優(yōu)化總的通信量,分塊間的通信量越大,查詢效率越低,最后優(yōu)化分塊內(nèi)節(jié)點(diǎn)數(shù),每個(gè)分塊的節(jié)點(diǎn)數(shù)要保持大致均衡,達(dá)到各個(gè)分塊在查詢過(guò)程中負(fù)載均衡的目的.由于篇幅的關(guān)系具體的分塊細(xì)節(jié)就不在此展開敘述.
傳統(tǒng)的知識(shí)庫(kù)只簡(jiǎn)單地存儲(chǔ)實(shí)體和關(guān)系,并沒有存儲(chǔ)實(shí)體和關(guān)系的語(yǔ)義信息,也無(wú)法描述不同實(shí)體關(guān)系之間的相關(guān)性.針對(duì)這一問(wèn)題,將傳統(tǒng)的知識(shí)表示框架與基于潛在特征的知識(shí)存儲(chǔ)框架相結(jié)合,提出一種全新的知識(shí)存儲(chǔ)方式,對(duì)每一個(gè)實(shí)體或者關(guān)系添加其特有的潛在特征,提高每一個(gè)實(shí)體和關(guān)系的語(yǔ)義信息,也為上層的多模式查詢奠定了基礎(chǔ).具體的知識(shí)存儲(chǔ)框架及存儲(chǔ)流程如圖3所示.
在具體的操作過(guò)程中對(duì)采集到的數(shù)據(jù)進(jìn)行兩種處理方式,一種利用現(xiàn)有的數(shù)據(jù)分析工具將數(shù)據(jù)表示成知識(shí)圖譜可以直接存儲(chǔ)的三元組,另一種是利用深度學(xué)習(xí)對(duì)采集到的數(shù)據(jù)進(jìn)行訓(xùn)練,得到對(duì)應(yīng)實(shí)體和關(guān)系的潛在特征并存儲(chǔ)在潛在特征庫(kù)中.
在完成存儲(chǔ)框架構(gòu)建之后,需要對(duì)已有的數(shù)據(jù)進(jìn)行處理,抽取數(shù)據(jù)中包含的知識(shí),知識(shí)抽取一般分為實(shí)體抽取和關(guān)系抽取.現(xiàn)階段,實(shí)體抽取的準(zhǔn)確率較高,已經(jīng)可以在實(shí)際的工程中應(yīng)用;關(guān)系抽取是得到知識(shí)單元的過(guò)程,是構(gòu)建知識(shí)庫(kù)的基礎(chǔ),目前主要從非結(jié)構(gòu)化的文本中抽取關(guān)系,而對(duì)于大部分關(guān)系其實(shí)體之間特征不明顯,因而相對(duì)于結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)處理準(zhǔn)確率較低,無(wú)法滿足實(shí)際應(yīng)用需求.針對(duì)此技術(shù)難點(diǎn),提出一種面向非結(jié)構(gòu)數(shù)據(jù)的弱監(jiān)督關(guān)系抽取技術(shù).
弱監(jiān)督關(guān)系抽取技術(shù),是指通過(guò)給定少量已有的關(guān)系實(shí)例,通過(guò)語(yǔ)法分析獲取實(shí)體詞匯的各類標(biāo)簽以及語(yǔ)法分析結(jié)果,并從現(xiàn)有知識(shí)庫(kù)中匹配得到實(shí)體特征標(biāo)簽,從而利用少量實(shí)例完成對(duì)語(yǔ)料的標(biāo)注和關(guān)系的抽取.利用弱監(jiān)督進(jìn)行關(guān)系抽取,在軍事知識(shí)圖譜構(gòu)建中極具優(yōu)勢(shì).首先,不需要大量人工標(biāo)注,可避免大量非軍事人員涉及軍事知識(shí)圖譜構(gòu)建;其次不需要外部互聯(lián)網(wǎng)知識(shí)庫(kù)支持,適用于大量涉密軍事實(shí)體.
知識(shí)表示模型是軍事知識(shí)圖譜的重要基礎(chǔ),也是知識(shí)圖譜應(yīng)用的必要條件.知識(shí)表示是指把知識(shí)客體中的知識(shí)因子與知識(shí)關(guān)聯(lián)起來(lái),便于人們識(shí)別和理解知識(shí).由于知識(shí)圖譜本身是一個(gè)維數(shù)巨大的稀疏矩陣,用傳統(tǒng)的矩陣存儲(chǔ)方式來(lái)表示知識(shí)圖譜是不可行的,針對(duì)這一問(wèn)題,提出一種基于深度學(xué)習(xí)的知識(shí)表示方法,將高維矩陣通過(guò)深度學(xué)習(xí)的方式進(jìn)行維度壓縮,用一個(gè)低維度的向量或矩陣來(lái)表示實(shí)體和關(guān)系的語(yǔ)義,根據(jù)深度學(xué)習(xí)的模型不同,每個(gè)向量或矩陣所包含的語(yǔ)義信息有所不同.
知識(shí)表示模型以TransE[15]為訓(xùn)練框架,用h表示頭實(shí)體,r表示關(guān)系,t表示尾實(shí)體,對(duì)指數(shù)圖譜中的每一個(gè)實(shí)體和關(guān)系都有其對(duì)應(yīng)的特征向量.假設(shè)對(duì)于任意三元組(h,r,t),其對(duì)應(yīng)的特征向量(h,r,t))之間存在h+ r≈t的關(guān)系.為了更加合理地描述實(shí)體之間的關(guān)系,對(duì)每一個(gè)關(guān)系添加一個(gè)權(quán)重向量Wr,以此增加不同關(guān)系之間的區(qū)分度,使得訓(xùn)練結(jié)果能夠更加準(zhǔn)確地描述實(shí)體和關(guān)系包含的語(yǔ)義信息.優(yōu)化函數(shù)如下所示:
在訓(xùn)練的過(guò)程中,采用基于差距的排序損失(Margin-based Ranking Error)函數(shù),并利用隨機(jī)梯度下降對(duì)優(yōu)化目標(biāo)進(jìn)行訓(xùn)練.
其中,[.]+=max(0,.),?是黃金三元組集合,?0是區(qū)分不正確三元組的集合,γ是區(qū)分正負(fù)三元組的差距.最終對(duì)于每一個(gè)實(shí)體和關(guān)系都有其對(duì)應(yīng)的特征向量并且任意三元組之間近似滿足h+r≈t.
在完成軍事知識(shí)圖譜構(gòu)建之后,需要利用圖數(shù)據(jù)檢索技術(shù)來(lái)提高知識(shí)圖譜的查詢效率,為大規(guī)模實(shí)時(shí)動(dòng)態(tài)查詢和推理奠定基礎(chǔ).
1)精確查詢
在大規(guī)模知識(shí)圖譜的多模式查詢中,除了傳統(tǒng)的圖數(shù)據(jù)查詢模式以外,可達(dá)性查詢是最基礎(chǔ)也是最重要的一環(huán),和傳統(tǒng)的圖數(shù)據(jù)可達(dá)性查詢技術(shù)相比,大規(guī)模知識(shí)圖譜可達(dá)性查詢需要解決分布式查詢以及分布式可達(dá)性索引構(gòu)建技術(shù).在可達(dá)性查詢的過(guò)程中,需要將問(wèn)題分為兩個(gè)部分,分塊內(nèi)部查詢以及分塊間查詢.為了不影響查詢效率,可達(dá)性查詢需要盡量減小分塊間通信開銷與訪問(wèn)次數(shù),這是所要解決的技術(shù)難點(diǎn).因此,如何構(gòu)建一個(gè)高效的分布式大規(guī)模知識(shí)圖譜可達(dá)性索引是構(gòu)建軍事知識(shí)圖譜中亟待解決的問(wèn)題.在具體的實(shí)現(xiàn)過(guò)程中,利用一種基于坐標(biāo)的距離計(jì)算框架,其基本流程如圖4所示.
通過(guò)最短路徑索引可以快速獲取不同實(shí)體之間的相關(guān)程度和可達(dá)路徑,提高查詢效率.由于篇幅關(guān)系,不再描述其他精確查詢策略.但是不管是何種精確查詢策略都存在一個(gè)很明顯的缺陷,就是無(wú)法返回知識(shí)圖譜中不存在的三元組,也無(wú)法返回相似的查詢結(jié)果,針對(duì)這一問(wèn)題在具體的查詢過(guò)程中,需要添加一種模糊查詢方式作為補(bǔ)充.
2)模糊查詢
根據(jù)4.3節(jié)的知識(shí)表示模型,提出一種基于相似度的模糊查詢方式來(lái)補(bǔ)充精確查詢所存在的不足,在具體的操作過(guò)程中,利用已有的實(shí)體向量加上關(guān)系向量得到目標(biāo)實(shí)體可信度最高的向量,以此向量為圓心獲取與其最相似的向量,取相似度高的實(shí)體作為有效結(jié)果返回.這種查詢方式突破了傳統(tǒng)的精確查詢方式,為戰(zhàn)場(chǎng)情報(bào)查詢提供了更為豐富全面的語(yǔ)義信息.
知識(shí)圖譜的更新與維護(hù)是知識(shí)圖譜魯棒性的重要保證,但是在大數(shù)據(jù)背景下傳統(tǒng)的人工維護(hù)方式遠(yuǎn)遠(yuǎn)無(wú)法滿足系統(tǒng)的需求,針對(duì)這一問(wèn)題,本文設(shè)計(jì)了一種半自動(dòng)化的維護(hù)流程,具體過(guò)程如圖5所示.
在知識(shí)圖譜的自動(dòng)更新與維護(hù)的過(guò)程中,首先利用分布式爬蟲采集置信度較高的數(shù)據(jù)源,例如新添加到數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化知識(shí)、總結(jié)報(bào)告等,在此基礎(chǔ)上對(duì)實(shí)體進(jìn)行抽取,而由于軍事情報(bào)領(lǐng)域所涉及的關(guān)系相對(duì)固定明確,可人工進(jìn)行關(guān)系的操作.對(duì)新產(chǎn)生的三元組,通過(guò)多個(gè)數(shù)據(jù)源進(jìn)行驗(yàn)證,最終實(shí)現(xiàn)對(duì)軍事知識(shí)圖譜內(nèi)的現(xiàn)有三元組進(jìn)行更新和維護(hù).
知識(shí)圖譜的構(gòu)建技術(shù)主要以數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、信息檢索等多學(xué)科交叉技術(shù)為支撐,研究方法以定性與定量相結(jié)合、實(shí)證與計(jì)算相結(jié)合為主.本文對(duì)軍事知識(shí)圖譜的基本框架進(jìn)行了設(shè)計(jì),對(duì)知識(shí)圖譜構(gòu)建中的關(guān)鍵技術(shù)進(jìn)行了總結(jié)分析.
圖4 最短路徑查詢流程圖
圖5 軍事知識(shí)圖譜更新維護(hù)流程
知識(shí)圖譜作為下一代搜索引擎的核心技術(shù),具有重要的理論研究和實(shí)際應(yīng)用價(jià)值.軍事知識(shí)圖譜在情報(bào)智能關(guān)聯(lián)、隱含知識(shí)發(fā)現(xiàn)、情報(bào)深度問(wèn)答、虛擬情報(bào)參謀等作戰(zhàn)運(yùn)用中,必將發(fā)揮越來(lái)越重要的作用,同時(shí)希望本文對(duì)網(wǎng)絡(luò)信息體系建設(shè)中的軍事信息組織和知識(shí)管理提供一點(diǎn)參考和借鑒.