劉海峰 張超 羅江 林福良
隨著通信技術(shù)、傳感器技術(shù)、大數(shù)據(jù)處理技術(shù)的快速發(fā)展,現(xiàn)代作戰(zhàn)指揮與決策越來(lái)越多地依賴于對(duì)海量戰(zhàn)場(chǎng)信息的快速和高效分析和處理,特別地,通過(guò)對(duì)海量多源異構(gòu)數(shù)據(jù)的融合與挖掘,為指揮者提供準(zhǔn)確、可靠的情報(bào)支持.
而隨著信息化體系作戰(zhàn)逐漸成為現(xiàn)代化戰(zhàn)爭(zhēng)的新常態(tài),建立全軍網(wǎng)絡(luò)信息體系將對(duì)軍隊(duì)作戰(zhàn)能力的提升具有重要意義.網(wǎng)絡(luò)信息體系的主要特征是“網(wǎng)絡(luò)中心、信息主導(dǎo)、體系支撐”,其重點(diǎn)是聯(lián)合作戰(zhàn)任務(wù)規(guī)劃和信息資源共享利用,依托全軍共用信息基礎(chǔ)設(shè)施,將各級(jí)各類信息系統(tǒng)集成為有機(jī)整體.
在網(wǎng)絡(luò)信息體系的建設(shè)過(guò)程中,需要重點(diǎn)關(guān)注以下3方面問(wèn)題:
首先,充分利用現(xiàn)有的網(wǎng)絡(luò)信息系統(tǒng),通過(guò)設(shè)計(jì)合理的網(wǎng)絡(luò)信息架構(gòu)將不同的系統(tǒng)有效地整合起來(lái).現(xiàn)有網(wǎng)絡(luò)信息系統(tǒng)在各自領(lǐng)域已經(jīng)發(fā)揮了重要作用,推倒重建一個(gè)全新的系統(tǒng)代價(jià)太大,而且?guī)缀醪豢赡?因此,需要針對(duì)現(xiàn)有系統(tǒng)的特點(diǎn),制定統(tǒng)一的信息系統(tǒng)交互標(biāo)準(zhǔn),通過(guò)交互接口的擴(kuò)展很容易實(shí)現(xiàn)不同信息系統(tǒng)的互聯(lián)互通,而且,極大地增強(qiáng)了網(wǎng)絡(luò)體系的靈活性和可擴(kuò)展性.
其次,注重海量多源異構(gòu)信息融合在網(wǎng)絡(luò)信息體系中的應(yīng)用.網(wǎng)絡(luò)信息體系涉及各種傳感設(shè)備、武器平臺(tái)以及其他信息載體,將戰(zhàn)場(chǎng)信息采集、信息傳輸、信息處理與分發(fā)、作戰(zhàn)指揮與決策等環(huán)節(jié)有機(jī)地統(tǒng)一起來(lái),形成信息的無(wú)縫交互和使用,因此,海量多源異構(gòu)信息融合處理水平的高低,將直接影響網(wǎng)絡(luò)信息體系能力的發(fā)揮.
最后,通過(guò)對(duì)信息的深入挖掘,最大提升信息價(jià)值.現(xiàn)代戰(zhàn)爭(zhēng)處于信息時(shí)代,戰(zhàn)場(chǎng)態(tài)勢(shì)瞬息萬(wàn)變,誰(shuí)對(duì)信息的利用能力強(qiáng),誰(shuí)就對(duì)戰(zhàn)場(chǎng)的把握更加準(zhǔn)確,也就掌握了作戰(zhàn)的主動(dòng)性.為提升對(duì)作戰(zhàn)信息的高效利用,需建立智能化的海量數(shù)據(jù)挖掘平臺(tái),以解決在網(wǎng)絡(luò)信息體系化作戰(zhàn)模式下,作戰(zhàn)決策經(jīng)常面臨大規(guī)模數(shù)量、高頻度交互與關(guān)聯(lián)、長(zhǎng)時(shí)間跨度規(guī)劃等問(wèn)題.
針對(duì)以上問(wèn)題,本文著重探討在網(wǎng)絡(luò)信息體系作戰(zhàn)環(huán)境下,海量多源信息融合與挖掘框架、關(guān)鍵技術(shù)及發(fā)展趨勢(shì),為我軍全軍網(wǎng)絡(luò)信息體系化建設(shè)提供有效借鑒.
網(wǎng)絡(luò)信息體系具備將戰(zhàn)場(chǎng)上各種信息進(jìn)行連通的能力,這些信息涉及地理環(huán)境信息、天況、海況、偵察圖像、電子偵察信息、各類武器信息、陣地信息、敵方目標(biāo)信息、我方部隊(duì)部署信息、指揮決策信息等,使得網(wǎng)絡(luò)信息呈現(xiàn)出如下特點(diǎn)[1]:
1)數(shù)據(jù)海量、動(dòng)態(tài)增長(zhǎng)
信息化作戰(zhàn)中,各種傳感器從不同的角度采集各類戰(zhàn)場(chǎng)信息,這些信息既包括文本信息,又包括聲音、圖像、視頻等多媒體信息,其數(shù)據(jù)量非常大,已經(jīng)遠(yuǎn)遠(yuǎn)超出人們的想象,而且,數(shù)據(jù)是實(shí)時(shí)獲取的,導(dǎo)致數(shù)據(jù)量是動(dòng)態(tài)增長(zhǎng)的.
2)時(shí)效性強(qiáng)、更新速度快
隨著戰(zhàn)場(chǎng)態(tài)勢(shì)的快速變化,采集的信息具有極強(qiáng)的時(shí)效性,而且更新速度很快,傳統(tǒng)以天、小時(shí)為單位的信息更新,在網(wǎng)絡(luò)信息體系化環(huán)境下,信息更新的速度往往以分鐘、甚至是以秒為單位,這更加劇了信息的時(shí)效性更短.
3)結(jié)構(gòu)復(fù)雜、組織無(wú)序
網(wǎng)絡(luò)信息通常按照各偵察方式及信息獲取組織為單位進(jìn)行獨(dú)立的組織和關(guān)聯(lián),呈多節(jié)點(diǎn)分布式結(jié)構(gòu),分別存儲(chǔ)于不同部隊(duì)、不同組織、不同層級(jí)的服務(wù)器上,缺乏集中統(tǒng)一的標(biāo)準(zhǔn)和規(guī)范,處于一種無(wú)序的狀態(tài),而且網(wǎng)絡(luò)信息是一個(gè)動(dòng)態(tài)系統(tǒng),許多信息隨著時(shí)間的推移不斷更新,處于經(jīng)常性的變動(dòng)之中,信息的重迭、消亡無(wú)法進(jìn)行預(yù)測(cè),信息的發(fā)布具有很大的自由度和隨意性,缺乏必要的質(zhì)量過(guò)濾控制和管理機(jī)制,信息的質(zhì)量良莠不齊,對(duì)網(wǎng)絡(luò)信息的有效利用造成嚴(yán)重的負(fù)擔(dān).
針對(duì)網(wǎng)絡(luò)信息體系下海量數(shù)據(jù)的特點(diǎn),為滿足對(duì)海量數(shù)據(jù)處理及作戰(zhàn)指揮的需求,圖1給出了網(wǎng)絡(luò)信息體系下的信息融合與挖掘基本框架.
框架由5個(gè)部分組成:戰(zhàn)場(chǎng)感知、數(shù)據(jù)中心、信息處理、武器平臺(tái)及指揮所.戰(zhàn)場(chǎng)感知涉及多種傳感器,如衛(wèi)星、預(yù)警機(jī)、偵察機(jī)、地基雷達(dá),在網(wǎng)絡(luò)信息體系下,各傳感器之間互相連通,組成網(wǎng)絡(luò),實(shí)現(xiàn)協(xié)同探測(cè)、偵察.數(shù)據(jù)中心存儲(chǔ)各類戰(zhàn)場(chǎng)信息,為提升安全性、可靠性及信息處理的實(shí)時(shí)性,采用分布式數(shù)據(jù)存儲(chǔ)方式.信息處理主要是指多源信息融合及情報(bào)挖掘,目的是提取準(zhǔn)確、可靠的目標(biāo)信息,為作戰(zhàn)指揮提供情報(bào)支持.武器平臺(tái)包括各類導(dǎo)彈、飛機(jī)、船舶等武器,與傳統(tǒng)信息組織方式不同的是,在網(wǎng)絡(luò)信息體系下,武器平臺(tái)不僅僅是信息消費(fèi)者,而且是信息生產(chǎn)者,其一方面從指揮所和數(shù)據(jù)中心接收作戰(zhàn)命令和目標(biāo)信息,一方面將武器信息(包括狀態(tài)、位置等)發(fā)送給數(shù)據(jù)中心,用于后續(xù)的作戰(zhàn)分析.指揮所是整個(gè)作戰(zhàn)的核心節(jié)點(diǎn),一方面接收情報(bào)信息,一方面發(fā)送作戰(zhàn)指令,在網(wǎng)絡(luò)信息體系下也是分布式部署,以便提升安全性.
圖1 網(wǎng)絡(luò)信息體系下信息融合與挖掘框架
早在20世紀(jì)70年代就出現(xiàn)融合的概念,當(dāng)時(shí)有多種稱呼,如多傳感器或多源相關(guān)、多源合成、多傳感器混合、數(shù)據(jù)融合.美國(guó)國(guó)防部信息融合實(shí)驗(yàn)室小組推薦的定義為:信息融合是一個(gè)多級(jí)、多層面的數(shù)據(jù)處理過(guò)程,主要完成對(duì)來(lái)自多個(gè)信息源的數(shù)據(jù)進(jìn)行自動(dòng)檢測(cè)、關(guān)聯(lián)、相關(guān)、估計(jì)和組合以達(dá)到精確的狀態(tài)估計(jì)和身份識(shí)別,以及完整的態(tài)勢(shì)評(píng)估和威脅評(píng)估.而網(wǎng)絡(luò)信息融合指的是將多個(gè)互聯(lián)互通的數(shù)據(jù)源信息進(jìn)行關(guān)聯(lián)、分析.
根據(jù)數(shù)據(jù)融合的層次可分為數(shù)據(jù)級(jí)融合(或信號(hào)級(jí)融合)、特征級(jí)融合以及決策級(jí)融合.數(shù)據(jù)級(jí)融合是對(duì)來(lái)自同一個(gè)目標(biāo)的多個(gè)信息源的原始數(shù)據(jù)進(jìn)行融合,如對(duì)同一個(gè)目標(biāo)多次探測(cè)的雷達(dá)信號(hào)直接作加權(quán)平均處理.特征級(jí)融合首先對(duì)各信息源獲取的同一個(gè)目標(biāo)的特性信息分別進(jìn)行特征提取,進(jìn)而獲得該目標(biāo)特性的特征向量,然后對(duì)這些特征向量進(jìn)行融合,如從探測(cè)的目標(biāo)紅外圖像中提取目標(biāo)的特征(如面積、長(zhǎng)、寬、質(zhì)心等),將多幅圖像中提取的同一目標(biāo)的特征進(jìn)行融合,以提高目標(biāo)特征檢測(cè)的準(zhǔn)確性.決策級(jí)融合首先對(duì)每個(gè)信息源獲得的屬性信息分別進(jìn)行特征提取和屬性判決,然后將多屬性判決進(jìn)行融合,以獲取目標(biāo)的最終屬性判決,如將多個(gè)分類器的結(jié)果進(jìn)行融合,以提高對(duì)目標(biāo)分類識(shí)別的可靠性.
圖2 決策級(jí)融合示意圖
多源信息融合的關(guān)鍵是數(shù)據(jù)關(guān)聯(lián),數(shù)據(jù)關(guān)聯(lián)用于確定對(duì)同一目標(biāo)進(jìn)行觀測(cè)的多個(gè)傳感器所采集的數(shù)據(jù)集合,是多源異構(gòu)數(shù)據(jù)融合非常重要的一步操作.常用的方法包括:最近鄰域法、改進(jìn)最近鄰域法、基于近似聚的聯(lián)合概率數(shù)據(jù)關(guān)聯(lián)法等.
1)最近鄰域數(shù)據(jù)關(guān)聯(lián)法
最近鄰數(shù)據(jù)關(guān)聯(lián)法是根據(jù)設(shè)定的距離準(zhǔn)則,對(duì)于給定待進(jìn)行關(guān)聯(lián)的數(shù)據(jù),與采集的其他所有的數(shù)據(jù)進(jìn)行距離計(jì)算,如果滿足給定的限定條件,那么認(rèn)為它們是相關(guān)的,即認(rèn)為是對(duì)同一個(gè)目標(biāo)的觀測(cè)值.常用的距離準(zhǔn)則有歐式距離法、余弦?jiàn)A角、馬氏距離等.
2)改進(jìn)最近鄰域數(shù)據(jù)關(guān)聯(lián)法
最近鄰域法本質(zhì)上是一種局部最優(yōu)的“貪心”算法,并不能保證在全局意義上最優(yōu).對(duì)于時(shí)敏目標(biāo),當(dāng)目標(biāo)移動(dòng)軌跡出現(xiàn)交叉時(shí),根據(jù)最近鄰域法未必能得到正確的關(guān)聯(lián),在目標(biāo)密度較大時(shí)容易產(chǎn)生關(guān)聯(lián)錯(cuò)誤,如圖3所示.從圖中可以看出,兩個(gè)量測(cè)都落入了航跡1的鄰域內(nèi),由于j2距離航跡1相對(duì)較近,就會(huì)出現(xiàn)錯(cuò)誤的關(guān)聯(lián).
為解決該問(wèn)題,改進(jìn)最近鄰域關(guān)聯(lián)方法采用同時(shí)利用最近鄰域與目標(biāo)速度矢量方向比較法相結(jié)合的數(shù)據(jù)關(guān)聯(lián)算法,通過(guò)對(duì)統(tǒng)計(jì)距離和方向兩個(gè)限定條件的綜合判斷,可以有效提高在目標(biāo)較密集環(huán)境下的關(guān)聯(lián)準(zhǔn)確率.
3)基于近似聚的聯(lián)合概率數(shù)據(jù)關(guān)聯(lián)法
改進(jìn)最近鄰域數(shù)據(jù)關(guān)聯(lián)方法能夠有效避免最近鄰域法“唯一性”可能造成的關(guān)聯(lián)錯(cuò)誤,也能很好地適應(yīng)密集目標(biāo)環(huán)境下的多目標(biāo)數(shù)據(jù)關(guān)聯(lián).然而,從算法原理可以看出,最近鄰域法與改進(jìn)最近鄰域法需要對(duì)所有的目標(biāo)數(shù)據(jù)進(jìn)行對(duì)比計(jì)算,當(dāng)目標(biāo)個(gè)數(shù)、有效量測(cè)數(shù)增大時(shí),計(jì)算量將呈指數(shù)增長(zhǎng),很難適應(yīng)目標(biāo)信息保障實(shí)時(shí)性要求.
圖3 最近鄰域數(shù)據(jù)關(guān)聯(lián)示例圖
為了在較大目標(biāo)處理容量情況下,既能保證多目標(biāo)數(shù)據(jù)關(guān)聯(lián)的準(zhǔn)確性與處理精度,同時(shí)又能滿足打擊目標(biāo)作戰(zhàn)實(shí)時(shí)性要求,為此提出了基于近似聚的聯(lián)合概率數(shù)據(jù)關(guān)聯(lián)方法.該方法的基本思想是:設(shè)法減少聚中的目標(biāo)和量測(cè)數(shù).在實(shí)際應(yīng)用中,待關(guān)聯(lián)的目標(biāo)數(shù)據(jù)與其他數(shù)據(jù)源并非都是相交的,這些傳感器只是存在部分交疊,因此,沒(méi)有必要從整個(gè)探測(cè)區(qū)域建立確認(rèn)矩陣,可以通過(guò)空域劃分法,把探測(cè)區(qū)域劃分成幾個(gè)不相交的子空域,各子空域內(nèi)的目標(biāo)數(shù)據(jù)存在交疊.如圖4所示,給出了3個(gè)互不相交的子空域,其中J7所在子空域只有一個(gè)數(shù)據(jù).
圖4 基于近似聚的聯(lián)合概率數(shù)據(jù)關(guān)聯(lián)
網(wǎng)絡(luò)信息體系下的多源信息融合關(guān)鍵技術(shù)如圖5所示,包括基于信號(hào)處理與估計(jì)的方法、基于統(tǒng)計(jì)推斷的方法、基于信息論的方法、基于決策論的方法、基于人工智能的方法以及混合多源信息融合方法.
圖5 網(wǎng)絡(luò)信息體系下多源信息融合技術(shù)
基于信號(hào)處理與估計(jì)的多源異構(gòu)信息融合方法包括加權(quán)平均法、最小二乘法、卡爾曼濾波法、小波變換法等.加權(quán)平均是最簡(jiǎn)單的融合方法,其思想就是根據(jù)每種輸入源的重要性設(shè)置相應(yīng)的權(quán)重,然后進(jìn)行加權(quán)和取平均,這種方法簡(jiǎn)單,缺點(diǎn)是不精確.最小二乘根據(jù)給定的目標(biāo)函數(shù),通過(guò)迭代、優(yōu)化使誤差最小或融合結(jié)果最優(yōu),其不足是對(duì)于高維函數(shù)往往只能達(dá)到局部最優(yōu).小波變換是通過(guò)引入小波基函數(shù)將原始數(shù)據(jù)變換到不同的頻率,然后在不同的頻率進(jìn)行分別融合,最后通過(guò)小波反變換得到融合結(jié)果[2].
基于統(tǒng)計(jì)推斷[3]的多源異構(gòu)信息融合方法包括經(jīng)典推理、貝葉斯推理、證據(jù)推理、隨機(jī)集理論及支持向量機(jī)理論等.基于證據(jù)理論的多源信息融合是近年來(lái)常用的方法,能夠解決多分類器不一致以及多次測(cè)量不統(tǒng)一的信息融合問(wèn)題,同時(shí),對(duì)于證據(jù)沖突的問(wèn)題,也提出了相應(yīng)的解決方案,包括引入新的沖突度量系數(shù);通過(guò)在融合流程中增加智能判斷環(huán)節(jié),以沖突系數(shù)為判斷依據(jù);對(duì)具有不同沖突系數(shù)證據(jù)選擇不同組合規(guī)則進(jìn)行證據(jù)組合的融合方法.在基于統(tǒng)計(jì)分析的多源異構(gòu)信息融合方法中,動(dòng)態(tài)聚類分析是多元統(tǒng)計(jì)分析的主要方法,其基本思想是,開(kāi)始按照一定的方法選取一批凝聚點(diǎn),然后讓樣本向最近的凝聚點(diǎn)凝聚,這樣由點(diǎn)凝聚成類,得到初始分類.初始分類不一定合理,然后按最近距離原則進(jìn)行修改不合理的分類,直到分類比較合理為止,這樣形成一個(gè)最終的分類結(jié)果.
圖6 基于D-S證據(jù)理論的融合
基于信息論的多源異構(gòu)信息融合方法包括熵方法[4]、最小描述長(zhǎng)度方法等.熵方法常常用來(lái)確定待融合的多個(gè)傳感器在融合中權(quán)重系數(shù),其基本原理為:如果某個(gè)傳感器對(duì)數(shù)據(jù)融合所起的作用越大,那么表明該傳感器攜帶和傳輸?shù)男畔⒃蕉?其熵權(quán)越大,即其在融合中的權(quán)重越大.例如,在先驗(yàn)信息融合方面,最大信息熵法根據(jù)先驗(yàn)信息的最大信息熵來(lái)確定合適的先驗(yàn)分布,由于信息熵是表示隨機(jī)不確定性的度量,因此,由最大的先驗(yàn)信息確定的先驗(yàn)分布具有最大的可信度,然而,基于最大信息熵的先驗(yàn)分布計(jì)算過(guò)程非常復(fù)雜,并且計(jì)算復(fù)雜性隨著先驗(yàn)信息量的增大而急劇增大.
基于決策論[5]的多源異構(gòu)信息融合方法一般應(yīng)用于高級(jí)別的決策級(jí)融合,其基本原理是根據(jù)融合的目的先設(shè)置一定的決策準(zhǔn)則,然后計(jì)算使得決策準(zhǔn)則最優(yōu)時(shí)得到融合結(jié)果.基本決策準(zhǔn)則有Laplace準(zhǔn)則、Wald最大最小值準(zhǔn)則、Savage最大最小后悔準(zhǔn)則等.決策融合分為串聯(lián)決策融合和并聯(lián)決策融合.串聯(lián)融合是在有多級(jí)操作的每一級(jí)進(jìn)行決策,而并聯(lián)決策融合是在多個(gè)操作結(jié)果出來(lái)之后統(tǒng)一進(jìn)行決策.
圖7 決策信息融合結(jié)構(gòu)
基于人工智能的多源異構(gòu)信息融合方法包括模糊邏輯[6]、人工神經(jīng)網(wǎng)絡(luò)、遺傳算法、基于規(guī)則的推理、專家系統(tǒng)、邏輯模板法及品質(zhì)因數(shù)法等.人工神經(jīng)網(wǎng)絡(luò)是基于現(xiàn)代神經(jīng)生物學(xué)和認(rèn)知科學(xué)在信息處理領(lǐng)域應(yīng)用的研究成果,具有大規(guī)模并行模擬處理、連續(xù)時(shí)間動(dòng)力學(xué)和網(wǎng)絡(luò)全局作用等特點(diǎn),有很強(qiáng)的自適應(yīng)學(xué)習(xí)能力,可以避開(kāi)模式識(shí)別方法中建模和特征提取的過(guò)程,并實(shí)現(xiàn)實(shí)時(shí)識(shí)別,以提高識(shí)別系統(tǒng)的性能.與傳統(tǒng)的貝葉斯方法比較,基于模糊積分的多源異構(gòu)信息融合方法用模糊積分融合不確定的多源信息時(shí),可以分析和處理多源的不確定信息,它不需要概率的先驗(yàn)信息及其概率分布,克服了證據(jù)組合理論融合方法中的證據(jù)難于獲得,計(jì)算量大等問(wèn)題.基于粗糙集理論的多源信息融合方法,可對(duì)不完整和不確定的數(shù)據(jù)進(jìn)行分析,剔除相容信息,抽取潛在有價(jià)值的規(guī)則知識(shí),解決了數(shù)據(jù)超載和不完整的信息融合問(wèn)題.
由于單一的融合方法往往不能得到滿意的融合結(jié)果,因此,在網(wǎng)絡(luò)信息體系下常常將多種融合方法結(jié)合起來(lái)進(jìn)行數(shù)據(jù)融合處理.比如,將證據(jù)理論與人工神經(jīng)網(wǎng)絡(luò)[7]結(jié)合進(jìn)行目標(biāo)識(shí)別,為解決證據(jù)理論中基本可信度分配的難題,充分發(fā)揮神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)、自適應(yīng)和容錯(cuò)能力,利用其泛化能力得到證據(jù)對(duì)待辨識(shí)目標(biāo)的基本可信度的分配,再利用D-S證據(jù)理論進(jìn)行融合,從而得到最終的目標(biāo)識(shí)別結(jié)果.
傳統(tǒng)的數(shù)據(jù)挖掘(Data mining)指的是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程.提取的知識(shí)表示為概念、規(guī)則、規(guī)律、模式等形式.
而在網(wǎng)絡(luò)信息體系下,戰(zhàn)場(chǎng)海量多源異構(gòu)數(shù)據(jù)挖掘是在傳統(tǒng)數(shù)據(jù)挖掘的基礎(chǔ)上,增加了解決數(shù)據(jù)量大、挖掘速度慢、數(shù)據(jù)種類多、適用軍事情報(bào)數(shù)據(jù)特征等問(wèn)題的各種技術(shù),從而形成與傳統(tǒng)數(shù)據(jù)挖掘不同思維方式的一類技術(shù),如為解決非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)問(wèn)題,提出采用非結(jié)構(gòu)化數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)的方案,為解決挖掘速度慢的問(wèn)題,采用云計(jì)算的方法(如Hadoop、Spark).戰(zhàn)場(chǎng)海量數(shù)據(jù)挖掘的應(yīng)用主要有關(guān)聯(lián)性分析、聚類分析、分類、預(yù)測(cè)、偏差分析等,主要技術(shù)如圖8所示.
戰(zhàn)場(chǎng)海量數(shù)據(jù)挖掘的研究主要集中于異常檢測(cè)(包括數(shù)據(jù)異常、行為異常等)、目標(biāo)特征挖掘(包括單目標(biāo)特征、群目標(biāo)特征等)、目標(biāo)檢測(cè)與識(shí)別、情報(bào)信息分類與聚類、航跡預(yù)測(cè)、態(tài)勢(shì)分析及預(yù)測(cè)、威脅估計(jì)等.
偏差分析包括孤立點(diǎn)檢測(cè)[8]、異常檢測(cè)、特異數(shù)據(jù)檢測(cè)等,其中,異常情報(bào)數(shù)據(jù)的挖掘在打擊目標(biāo)中是一項(xiàng)非常重要的任務(wù),對(duì)于發(fā)現(xiàn)稍縱即逝的戰(zhàn)場(chǎng)機(jī)會(huì)具有重要意義.挖掘異常數(shù)據(jù)的技術(shù)主要包括關(guān)聯(lián)性分析、離群點(diǎn)檢測(cè)、聚類分析等.如聚類分析通過(guò)對(duì)異常數(shù)據(jù)的挖掘,為快速掌握敵方的異常動(dòng)態(tài)提供了依據(jù)和手段,從而為制定作戰(zhàn)決策爭(zhēng)取寶貴的時(shí)間.特異數(shù)據(jù)是存在于數(shù)據(jù)中的與其他大部分?jǐn)?shù)據(jù)之間的差別非常大的少部分?jǐn)?shù)據(jù),而特異規(guī)則就是隱藏在這些特異數(shù)據(jù)當(dāng)中的有趣的規(guī)則,通過(guò)挖掘特異數(shù)據(jù),可以獲取隱藏的、很少出現(xiàn)的規(guī)則或模式.圖9給出了多種孤立點(diǎn)檢測(cè)算法的對(duì)比結(jié)果.
圖8 網(wǎng)絡(luò)信息體系下的情報(bào)挖掘技術(shù)
在進(jìn)行模式分析與挖掘方面,多源異構(gòu)數(shù)據(jù)的關(guān)聯(lián)規(guī)則是最常用的一種技術(shù),該技術(shù)通過(guò)統(tǒng)計(jì)多源異構(gòu)數(shù)據(jù)中頻繁出現(xiàn)的數(shù)據(jù)之間的關(guān)系,提取頻繁出現(xiàn)的模式或規(guī)則,進(jìn)而得到有價(jià)值的情報(bào)信息.常用的關(guān)聯(lián)規(guī)則方法包括Apriori算法[9]、基于頻繁模式樹(shù)[10]等.關(guān)聯(lián)規(guī)則算法一般是設(shè)定支持度和可信度,算法自動(dòng)實(shí)現(xiàn)關(guān)聯(lián)規(guī)則的挖掘,從海量數(shù)據(jù)中提取挖掘結(jié)果,圖10給出了關(guān)聯(lián)分析的示意圖.
關(guān)聯(lián)規(guī)則測(cè)度指標(biāo)包括:
1)支持度(Support):屬性數(shù)據(jù)集D中有S%的屬性同時(shí)包含屬性集X、Y,且X∩Y=?,S%稱為關(guān)聯(lián)規(guī)則X?Y的支持度.
2)置信度(Confidence):規(guī)則X?Y在屬性數(shù)據(jù)庫(kù)D中成立,其中屬性數(shù)據(jù)庫(kù)D中X∪Y以及X的頻數(shù)之比稱為置信度.
置信度代表的是關(guān)聯(lián)規(guī)則的可信程度,屬于先驗(yàn)概率,即在D中屬性集X出現(xiàn)的前提下項(xiàng)集Y出現(xiàn)的概率.
圖9 經(jīng)典孤立點(diǎn)檢測(cè)算法對(duì)比
圖10 關(guān)聯(lián)分析示意圖
3)相關(guān)度(Correlation):對(duì)于屬性集X與屬性集Y,如果存在P(X∪Y)=P(X)P(Y),則X與Y是互相獨(dú)立的,否則X與Y是相關(guān)的.
若相關(guān)度等于1說(shuō)明X與Y的出現(xiàn)相互獨(dú)立;相關(guān)度大于1說(shuō)明X與Y是正相關(guān)的;相關(guān)度小于1說(shuō)明X與Y是負(fù)相關(guān)的.相關(guān)度度量方法在關(guān)聯(lián)規(guī)則學(xué)習(xí)過(guò)程中能夠過(guò)濾掉無(wú)趣的關(guān)聯(lián)規(guī)則,提高關(guān)聯(lián)規(guī)則的可靠性,但缺點(diǎn)是屬性數(shù)據(jù)集總量的大小對(duì)于屬性集X與Y的相關(guān)性有很大影響.
4)余弦?jiàn)A角(Cosine):利用向量夾角余弦公式計(jì)算屬性集X與Y之間的相似性,減少了相關(guān)度度量中屬性數(shù)據(jù)總量對(duì)于屬性集之間的相關(guān)性影響.
聚類分析[11]根據(jù)最大化同類間的相似性、最小化不同類之間的相似性的原則,使用各種聚類算法進(jìn)行分析,以發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在模式及可能的數(shù)據(jù)屬性之間的相關(guān)關(guān)系,從而獲取潛在的規(guī)律.基于聚類技術(shù)的挖掘方法,包括k-均值聚類[12]、k-中心點(diǎn)聚類、模糊C均值聚類[13]、分層聚類等.聚類分析可以從海量的數(shù)據(jù)中將情報(bào)數(shù)據(jù)自動(dòng)劃分為不同的類別,并提取出各個(gè)類別的特征,從而挖掘隱藏的情報(bào)信息.
聚類將使得相同子集中各元素間的差別最小,而不同子集中各元素間差別最大,聚類算法通常是建立在各種距離基礎(chǔ)之上的,如歐幾里得距離、曼哈頓距離以及馬氏距離等.
1)歐幾里得距離
在n維空間中,歐幾里得距離定義為:
2)曼哈頓距離
曼哈頓距離又稱為城市區(qū)塊距離,也就是歐幾里得距離空間的固定直角坐標(biāo)系上兩點(diǎn)所形成的線段對(duì)軸產(chǎn)生的投影的距離總和,公式如下:
3)馬氏距離
馬氏距離是由印度統(tǒng)計(jì)學(xué)家馬哈拉諾比斯(P.C.Mahalanobis)提出的,表示數(shù)據(jù)的協(xié)方差距離.與歐氏距離不同的是它考慮到各種特性之間的關(guān)系,并且是尺度無(wú)關(guān)的.對(duì)于一個(gè)均值為μ =(μ1,···,μn), 協(xié)方差矩陣為A的多變量向量x=(x1,···,xn),其馬氏距離為:
分類是在已知目標(biāo)特征或事先確定要?jiǎng)澐诸悇e的數(shù)目時(shí),對(duì)獲取的多源異構(gòu)目標(biāo)數(shù)據(jù)進(jìn)行分析,從而將目標(biāo)劃分到現(xiàn)有的類別中,進(jìn)一步,確定目標(biāo)對(duì)象的特性.該方法特別適用于那些在已知目標(biāo)的某些特性的條件下,根據(jù)已建立的匹配規(guī)則或分類模型,通過(guò)將獲取的情報(bào)數(shù)據(jù),與相應(yīng)的目標(biāo)特性進(jìn)行比較或計(jì)算,從而得出目標(biāo)是否出現(xiàn)模型特性,實(shí)現(xiàn)目標(biāo)分類識(shí)別.常用的分類技術(shù)包括:C4.5、ID3、BP神經(jīng)網(wǎng)絡(luò)、遺傳算法、模擬退火等,圖10給出了BP神經(jīng)網(wǎng)絡(luò)的原理圖.
圖11 神經(jīng)網(wǎng)絡(luò)原理圖
預(yù)測(cè)技術(shù)是在現(xiàn)有數(shù)據(jù)分析的基礎(chǔ)上預(yù)測(cè)未來(lái)的數(shù)據(jù)趨勢(shì),可以用于對(duì)戰(zhàn)場(chǎng)態(tài)勢(shì)的預(yù)測(cè)、船舶的移動(dòng)軌跡預(yù)測(cè)等.常用的預(yù)測(cè)方法包括基于線性回歸、邏輯回歸、決策樹(shù)[14]、神經(jīng)網(wǎng)絡(luò)[15]及通過(guò)時(shí)間序列搜索出發(fā)生概率較高的模式時(shí)間序列分析方法等.
在網(wǎng)絡(luò)信息體系下,海量多源異構(gòu)數(shù)據(jù)挖掘不僅可以利用對(duì)采集的原始數(shù)據(jù)進(jìn)行情報(bào)挖掘,而且對(duì)于融合數(shù)據(jù)也可以進(jìn)行情報(bào)挖掘.例如,基于多源異構(gòu)融合數(shù)據(jù)的目標(biāo)特性挖掘技術(shù),對(duì)于掌握目標(biāo)的特性具有重要意義.目標(biāo)特性包括圖像目標(biāo)特性、雷達(dá)目標(biāo)特性[16]、微波目標(biāo)特性、可見(jiàn)光目標(biāo)特性等,對(duì)于不同類型的目標(biāo)特性具有不同的提取技術(shù),包括基于圖像的目標(biāo)特征提取[17]、基于雷達(dá)信號(hào)的電磁特性分析等.基于多源異構(gòu)融合數(shù)據(jù)的目標(biāo)檢測(cè)與識(shí)別技術(shù)用于對(duì)目標(biāo)的提取,包括支持向量機(jī)[18]、神經(jīng)網(wǎng)絡(luò)、遺傳算法[19]、決策樹(shù)[20]、貝葉斯網(wǎng)絡(luò)[21]、奇異值分解、D-S證據(jù)理論[22]等分類方法.基于多源異構(gòu)融合數(shù)據(jù)的情報(bào)挖掘技術(shù)為聯(lián)合作戰(zhàn)提供情報(bào)保障已經(jīng)成為當(dāng)今軍事行動(dòng)進(jìn)行情報(bào)提供的主流方法.
圖12 支持向量機(jī)示意圖
圖13 基于“云+端”的信息融合與挖掘
在網(wǎng)絡(luò)信息體系下,未來(lái)的多源信息融合與挖掘?qū)?huì)有如下趨勢(shì):
1)基于“云+端”的信息融合與挖掘?qū)⒊蔀橹髁?/p>
在云平臺(tái)架構(gòu)下,各層信息服務(wù)平臺(tái)通過(guò)即插即用的方式接入云平臺(tái),通過(guò)互聯(lián)互通,能夠迅速地共享各類資源.而且,武器平臺(tái)和各類傳感設(shè)備由純粹的信息消費(fèi)者,向既是信息消費(fèi)者又是信息生產(chǎn)者的角色轉(zhuǎn)變.信息的融合與挖掘不僅存在于各層信息服務(wù)平臺(tái),而且在信息獲取前端也包含大量的信息處理操作,從而極大地提升了信息獲取的質(zhì)量以及減少后端由于采集信息的魚(yú)龍混雜而導(dǎo)致情報(bào)提取的不準(zhǔn)確性和不可靠性.
2)由以“業(yè)務(wù)為中心”轉(zhuǎn)向以“數(shù)據(jù)為中心”
傳統(tǒng)的多源信息融合與挖掘根據(jù)業(yè)務(wù)的不同對(duì)數(shù)據(jù)進(jìn)行相應(yīng)的重組織,再進(jìn)行融合與挖掘,造成大量的數(shù)據(jù)重復(fù)存儲(chǔ)和分析,浪費(fèi)資源,也導(dǎo)致數(shù)據(jù)的嚴(yán)重不一致性.在網(wǎng)絡(luò)信息體系下,將轉(zhuǎn)變?yōu)橐浴皵?shù)據(jù)為中心”[23],按照數(shù)據(jù)的來(lái)源、類型進(jìn)行分布式存儲(chǔ),不同的業(yè)務(wù)按照對(duì)數(shù)據(jù)的需求,從不同的數(shù)據(jù)庫(kù)中讀取相應(yīng)的數(shù)據(jù),而數(shù)據(jù)的分布與訂閱可以通過(guò)分布式數(shù)據(jù)分發(fā)平臺(tái),不同業(yè)務(wù)分析的數(shù)據(jù)結(jié)果可以為其他業(yè)務(wù)所應(yīng)用,這樣既能夠保證數(shù)據(jù)的一致性,又提升了業(yè)務(wù)的處理效率,避免不同業(yè)務(wù)產(chǎn)生矛盾的結(jié)論,為保證作戰(zhàn)決策的正確制定提供可靠的數(shù)據(jù)支撐.
圖14 以數(shù)據(jù)為中心的總體架構(gòu)圖
3)情報(bào)信息的維度更高和深度更深
隨著探測(cè)技術(shù)手段的豐富,能夠獲取大量關(guān)于戰(zhàn)場(chǎng)的多類別探測(cè)信息源,利用這些信息也進(jìn)行了多源信息融合與挖掘,然而,對(duì)于網(wǎng)絡(luò)信息化戰(zhàn)爭(zhēng),現(xiàn)有的情報(bào)保障遠(yuǎn)遠(yuǎn)不能滿足作戰(zhàn)需求,一方面,需要通過(guò)多源信息融合進(jìn)一步擴(kuò)展對(duì)目標(biāo)情報(bào)信息的維度,以便更全面地對(duì)目標(biāo)進(jìn)行了解,另一方面,對(duì)獲取的海量偵察數(shù)據(jù)缺乏深入的分析和挖掘,難以發(fā)揮海量偵察情報(bào)的最大優(yōu)勢(shì),有必要進(jìn)一步提升海量偵察情報(bào)數(shù)據(jù)的利用價(jià)值,為網(wǎng)絡(luò)信息化作戰(zhàn)提供更豐富的、潛在的情報(bào)信息.
圖15 信息擴(kuò)維示意圖
網(wǎng)絡(luò)信息體系在未來(lái)的戰(zhàn)爭(zhēng)中將越來(lái)越重要,它給戰(zhàn)場(chǎng)信息的綜合處理帶來(lái)了新的視角.本文探討了網(wǎng)絡(luò)信息體系下需要關(guān)注的信息問(wèn)題,給出了網(wǎng)絡(luò)信息體系下多源信息融合與挖掘的整體框架,并對(duì)網(wǎng)絡(luò)信息體系下多源信息融合與挖掘的關(guān)鍵技術(shù)進(jìn)行介紹,最后,展望了網(wǎng)絡(luò)信息體系下多源信息融合與挖掘的發(fā)展趨勢(shì).