, ,
大數(shù)據(jù)在軍事價值上是一種新型核心戰(zhàn)斗力要素和軍事變革新引擎[1]。隨著基于網(wǎng)絡(luò)信息體系聯(lián)合作戰(zhàn)能力的提升,全域作戰(zhàn)能力的需求越來越高,奪取大數(shù)據(jù)戰(zhàn)略制高點已經(jīng)成為各主要軍事大國戰(zhàn)略競爭的新焦點。戰(zhàn)略大數(shù)據(jù)是與戰(zhàn)爭籌劃和戰(zhàn)爭指導(dǎo)相關(guān)的、高增長率和多樣化的海量信息資源。如何從開源的具有海量異構(gòu)屬性的數(shù)據(jù)中挖掘高價值的情報信息,是信息時代戰(zhàn)略研究、戰(zhàn)略決策亟待解決的基本性問題。
戰(zhàn)略大數(shù)據(jù)體系是以數(shù)據(jù)庫服務(wù)器為中心、以客戶端或瀏覽器為網(wǎng)絡(luò)基礎(chǔ)、以各類軟件工具為服務(wù)手段、能為戰(zhàn)略研究提供多樣化服務(wù)的多層模型結(jié)構(gòu),注重戰(zhàn)略數(shù)據(jù)獲取、存儲、更新及挖掘等功能的實現(xiàn),為戰(zhàn)略研究的定性分析與定量分析相融合搭設(shè)數(shù)據(jù)管理和挖掘的一體化計算平臺。它著眼于未來信息化戰(zhàn)爭的戰(zhàn)略研究和戰(zhàn)略決策,但面臨著一系列海量、復(fù)雜、交叉、多向大數(shù)據(jù)挑戰(zhàn)。
信息化戰(zhàn)爭演變催生了戰(zhàn)略大數(shù)據(jù),信息獲取手段的多元化使數(shù)據(jù)類型及數(shù)據(jù)之間相互關(guān)系高度復(fù)雜。信息來源包括互聯(lián)網(wǎng)、新聞媒體以及各類技偵、諜報信息或通過空中偵察獲取的戰(zhàn)場目標(biāo)及環(huán)境信息[2],信息內(nèi)容涉及各國的政治、經(jīng)濟、軍事等歷史信息以及武器裝備、軍事力量發(fā)展的最新動態(tài),數(shù)據(jù)存儲結(jié)構(gòu)包含結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化,表現(xiàn)形式有文本、網(wǎng)頁、音視頻、圖形圖像等。面對數(shù)據(jù)密集、計算密集以及通訊密集的戰(zhàn)略大數(shù)據(jù),要在短時間內(nèi)甄別真?zhèn)?、提煉“真金”、綜合分析,進而服務(wù)戰(zhàn)略研究,輔助戰(zhàn)略決策,超出了傳統(tǒng)戰(zhàn)略分析方法和手段的能力。
傳統(tǒng)戰(zhàn)略研究大多基于研究機構(gòu)或個人經(jīng)驗,根據(jù)情況進行形式邏輯歸納及辯證邏輯分析,提出的論點、對策、建議多屬于經(jīng)驗判斷,缺乏定量分析的數(shù)據(jù)支撐,缺乏人工智能的定量手段,缺乏從數(shù)理邏輯角度分析戰(zhàn)略動態(tài)演變的過程,成為制約戰(zhàn)略研究效率和質(zhì)量的重要因素。
戰(zhàn)略大數(shù)據(jù)的數(shù)據(jù)屬性之間不僅是因果關(guān)系,更多的是線性或非線性的相關(guān)關(guān)系[3]。數(shù)據(jù)呈現(xiàn)多維度、多峰值的復(fù)雜模式,數(shù)據(jù)的復(fù)雜性和戰(zhàn)略研究的特殊性,需要諸如模式識別、機器學(xué)習(xí)、語義分析、自然語言理解、博弈論、軍事戰(zhàn)略理論等眾多領(lǐng)域知識交叉融匯。
戰(zhàn)略研究大數(shù)據(jù)體系一般從定量化角度分析戰(zhàn)略研究過程,包含了從數(shù)據(jù)獲取、分類存儲、定向檢索、數(shù)據(jù)挖掘及統(tǒng)計分析等過程,針對戰(zhàn)略需求進行事件預(yù)測、智能推薦、規(guī)劃推理、模擬仿真、輔助決策、風(fēng)險效能評估等任務(wù)。
數(shù)據(jù)資源獲取、導(dǎo)入及動態(tài)更新是戰(zhàn)略大數(shù)據(jù)首先要解決的基礎(chǔ)性問題。主動搜索功能是根據(jù)戰(zhàn)略研究需要,從互聯(lián)網(wǎng)自動地、迅捷批量地獲取數(shù)據(jù),經(jīng)過自動清洗、分類寫入數(shù)據(jù)庫,同時提供靈活的數(shù)據(jù)采集配置模板,可實現(xiàn)自定義的采集時間、采集對象、采集關(guān)鍵字等功能,完成包括摘要、發(fā)布時間、發(fā)布實體、正文等要素的數(shù)據(jù)采集。其中,對采集數(shù)據(jù)經(jīng)過云化ETL處理后寫入數(shù)據(jù)庫,進行信息初始化、更新及分類,充實完善基礎(chǔ)數(shù)據(jù)。
高效準(zhǔn)確的信息檢索是搜素引擎的基本功能。傳統(tǒng)通用搜索引擎能為用戶提供廣度搜索的海量信息,但存在信息無序化、查詢不準(zhǔn)確、語義內(nèi)涵不精準(zhǔn)等問題。戰(zhàn)略研究專業(yè)性強、保密程度高,對信息查全率及查準(zhǔn)率有較高要求,構(gòu)建戰(zhàn)略信息垂直檢索系統(tǒng)才能滿足戰(zhàn)略研究人員對高價值信息檢索的需求。通過選擇性抓取非結(jié)構(gòu)化的戰(zhàn)略數(shù)據(jù)并進行結(jié)構(gòu)化抽取,經(jīng)過去重、分類、分詞及正則化等預(yù)處理工作,對戰(zhàn)略信息進行語義分析及關(guān)聯(lián)分析、分類分析、聚類分析,定向抽取相關(guān)字段,滿足戰(zhàn)略分析高查全率和高準(zhǔn)確率的檢索需求。
采用挖掘計算模型輔助戰(zhàn)略分析,是從定性分析向定量分析的拓展。由大數(shù)據(jù)定律可知,有規(guī)律的隨機事件在大重復(fù)條件下,呈現(xiàn)出必然的統(tǒng)計特性。因此,基于大數(shù)據(jù)的戰(zhàn)略判斷,以數(shù)理統(tǒng)計和機器學(xué)習(xí)理論為基礎(chǔ),通過構(gòu)造挖掘計算模型為特定目標(biāo)提供高價值信息。
如2013年Baggott運用數(shù)據(jù)挖掘模型研究相互感知中不確定性在安全困境形成過程中的作用。該研究采集了1969-1981年中國官方內(nèi)部討論資料、美國Foreign Relations of the United States(FRUS)數(shù)據(jù)庫中的文件,以及《紐約時報》關(guān)于雙邊外交事件的130余萬條新聞,發(fā)現(xiàn)當(dāng)美國對中國的感知中存在不確定性感知時,將會導(dǎo)致美國對中國持更加積極友善的態(tài)度。
針對戰(zhàn)略大數(shù)據(jù)體系的功能和邏輯,遵循高內(nèi)聚、低耦合的模塊化原則,按照數(shù)據(jù)獲取、存儲、檢索、分析等階段設(shè)計了5層體系結(jié)構(gòu),自底向上分別為數(shù)據(jù)源、獲取層、云存儲層、能力層和應(yīng)用層,數(shù)據(jù)流及相關(guān)處理自底向上進行(圖1)。
主要包括來自于互聯(lián)網(wǎng)的開源數(shù)據(jù)及局域網(wǎng)或傳感器的數(shù)據(jù)。這些數(shù)據(jù)呈現(xiàn)分布式異構(gòu)模態(tài),主要有結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化形態(tài)。隨著云存儲技術(shù)及移動互聯(lián)網(wǎng)的廣泛應(yīng)用,數(shù)據(jù)量爆發(fā)式增長,開源互聯(lián)網(wǎng)數(shù)據(jù)將是戰(zhàn)略大數(shù)據(jù)的主要數(shù)據(jù)源。來自于局域網(wǎng)或傳感器的數(shù)據(jù),如軍隊基礎(chǔ)情報保障數(shù)據(jù)(包括基礎(chǔ)戰(zhàn)略情報數(shù)據(jù)、作戰(zhàn)力量數(shù)據(jù)、武器裝備數(shù)據(jù)、作戰(zhàn)環(huán)境數(shù)據(jù)及目標(biāo)情報數(shù)據(jù)等)和偵察情報支持數(shù)據(jù)(包括戰(zhàn)場態(tài)勢感知數(shù)據(jù)、地理空間環(huán)境遙感數(shù)據(jù)、預(yù)警探測及目標(biāo)跟蹤數(shù)據(jù)等),也是數(shù)據(jù)源的構(gòu)成成分。
圖1戰(zhàn)略大數(shù)據(jù)體系結(jié)構(gòu)設(shè)計
對開源數(shù)據(jù)主要通過主動搜索方式獲取,對傳感器或局域網(wǎng)數(shù)據(jù)設(shè)計標(biāo)準(zhǔn)化接口獲取。對開源數(shù)據(jù)必須具備支持對表、文件、消息等多種數(shù)據(jù)的實時增量數(shù)據(jù)采集(使用flume、消息隊列、OGG等技術(shù))和批量數(shù)據(jù)分布式采集(SQOOP、FTP VOER HDFS)等能力,對研究對象和目標(biāo)明確的任務(wù)采用網(wǎng)絡(luò)爬蟲技術(shù)實現(xiàn)信息的主動搜索[4]。在數(shù)據(jù)獲取層,需要對目標(biāo)數(shù)據(jù)進行交換、轉(zhuǎn)換、裝載、傳輸,必須實施統(tǒng)一、規(guī)范、科學(xué)的分類和描述。流數(shù)據(jù)處理面向規(guī)模宏大且按次序到達的數(shù)據(jù)序列,如特定目標(biāo)遙感數(shù)據(jù)、各類傳感器網(wǎng)絡(luò)數(shù)據(jù)等。獲取層必須具備支持與主流數(shù)據(jù)庫的對接能力,包括Oracle、Hive、Gbase、Impala、Aster、Hbase、Mongo等。
本文提出采用Hadoop平臺實現(xiàn)大規(guī)模分布式數(shù)據(jù)資源存儲及并行化計算和非結(jié)構(gòu)化數(shù)據(jù)處理能力,實現(xiàn)低成本存儲和低延時及高并發(fā)的查詢能力。分布式數(shù)據(jù)庫負責(zé)存儲、加工、關(guān)聯(lián)相關(guān)數(shù)據(jù),并提供分布式計算,成為數(shù)據(jù)深度分析和數(shù)據(jù)挖掘的物質(zhì)基礎(chǔ),同時向主數(shù)據(jù)倉庫輸出高度匯總后的數(shù)據(jù)。
能力層包含戰(zhàn)略分析必須的各種基礎(chǔ)算法模型,同時映射為各種數(shù)據(jù)分析能力。對于獲取的數(shù)據(jù)首先能進行統(tǒng)計基礎(chǔ)分析,從典型的數(shù)理統(tǒng)計基礎(chǔ)分析及多維統(tǒng)計分析,到利用機器學(xué)習(xí)技術(shù)開展數(shù)據(jù)挖掘、知識發(fā)現(xiàn)等模型設(shè)計,隨后利用數(shù)據(jù)可視化技術(shù)完成與用戶的交互,最終利用評估決策模型為戰(zhàn)略研究提供輔助手段。在能力層主要的技術(shù)手段是基于大數(shù)據(jù)條件下的統(tǒng)計機器學(xué)習(xí)模型算法的研究及設(shè)計,尤其是基于深度學(xué)習(xí)理論的、面向海量數(shù)據(jù)的特征提取及表達方法、分類和聚類方法、數(shù)據(jù)關(guān)聯(lián)性分析、不確定性分析等。
應(yīng)用層直接面向終端用戶。從服務(wù)方式看,應(yīng)用層主要包含基礎(chǔ)信息分析、決策評估分析及知識應(yīng)用3方面。這些應(yīng)用既能獨立使用,也能與其他應(yīng)用聯(lián)合使用。
戰(zhàn)略大數(shù)據(jù)體系從信息獲取、存儲、檢索及挖掘計算模型形成完整的信息鏈,可滿足戰(zhàn)略研究需求,但戰(zhàn)略研究復(fù)雜、戰(zhàn)略目標(biāo)眾多、戰(zhàn)略環(huán)境多變,致使體系的功能還不能完全滿足戰(zhàn)略研究的需求,模型算法的效率仍有較大提升空間。
戰(zhàn)略研究大數(shù)據(jù)分析技術(shù),以體系結(jié)構(gòu)設(shè)計理念為導(dǎo)引,從數(shù)據(jù)、算法、策略、應(yīng)用和系統(tǒng)架構(gòu)等多維度出發(fā),全面梳理、整合戰(zhàn)略研究流程,初步構(gòu)建了一個戰(zhàn)略大數(shù)據(jù)系統(tǒng)。
按照戰(zhàn)略研究信息的類型和需求,戰(zhàn)略大數(shù)據(jù)系統(tǒng)包括戰(zhàn)略綜合信息系統(tǒng)、戰(zhàn)略態(tài)勢環(huán)境系統(tǒng)、軍事地理信息系統(tǒng)以及空間目標(biāo)管理系統(tǒng)(圖2)。其中,戰(zhàn)略綜合信息系統(tǒng)可提供文獻檢索服務(wù);戰(zhàn)略態(tài)勢環(huán)境系統(tǒng)可提供有關(guān)當(dāng)前國內(nèi)外各類戰(zhàn)略態(tài)勢資訊信息,具有極強的時效性;軍事地理信息系統(tǒng)不僅能實現(xiàn)通用地圖的地理信息查詢、標(biāo)繪,還能將軍隊編成、武器裝備與地理信息三者結(jié)合,構(gòu)成由軍隊、裝備、基地雙向查詢的鏈?zhǔn)綑z索結(jié)構(gòu);空間目標(biāo)管理系統(tǒng)以真實物理運動模型模擬各類傳感器運動狀態(tài),提供三維空間可視化工具。
戰(zhàn)略大數(shù)據(jù)系統(tǒng)的功能設(shè)計,首先要保證系統(tǒng)的完備、安全,其次開展對基礎(chǔ)信息、地理信息以及空間目標(biāo)的管理(圖3)。
圖2 戰(zhàn)略大數(shù)據(jù)系統(tǒng)邏輯結(jié)構(gòu)
圖3 戰(zhàn)略大數(shù)據(jù)系統(tǒng)功能結(jié)構(gòu)
信息管理包含基礎(chǔ)信息管理和地理信息管理,基礎(chǔ)信息管理部分對應(yīng)著戰(zhàn)略綜合信息管理系統(tǒng)和戰(zhàn)略態(tài)勢環(huán)境系統(tǒng)的部分內(nèi)容。除綜合信息系統(tǒng)部分內(nèi)容可以從原有局域網(wǎng)數(shù)據(jù)庫導(dǎo)入外,其余大部分信息都來源于主題型網(wǎng)絡(luò)爬蟲經(jīng)過云化ETL后寫入云存儲空間的數(shù)據(jù)。地理信息除基礎(chǔ)地理信息由地圖自帶外,有關(guān)軍隊編成、基地、裝備等信息均為由既有的結(jié)構(gòu)化信息導(dǎo)入或爬取。戰(zhàn)略綜合信息系統(tǒng)、戰(zhàn)略態(tài)勢環(huán)境系統(tǒng)及地理信息管理模塊等3部分最頻繁的操作為信息更新及檢索,信息更新由主動搜索工具Scrapy-Redis完成,經(jīng)過數(shù)據(jù)清洗及分類后采用Hadoop分布式系統(tǒng)架構(gòu)完成大規(guī)模存儲及高速計算;信息檢索部分由企業(yè)級搜索引擎Elasticsearch完成,可滿足實時、可靠、穩(wěn)定的全文檢索。
由于數(shù)據(jù)的復(fù)雜性和軍事戰(zhàn)略研究的特殊性,戰(zhàn)略大數(shù)據(jù)計算挖掘模型需要多領(lǐng)域、多學(xué)科交叉共同構(gòu)建,需要諸如模式識別、機器學(xué)習(xí)、語義分析、自然語言理解、博弈論、軍事戰(zhàn)略理論等眾多領(lǐng)域知識交叉融匯。
基于Scrapy框架結(jié)合Redis組件實現(xiàn)了主題網(wǎng)絡(luò)分布式爬取,利用布隆過濾器去重,并利用余弦相似度、樸素貝葉斯算法等實現(xiàn)主題信息預(yù)分類,最終寫入MongoDB非關(guān)系型數(shù)據(jù)庫。該搜索系統(tǒng)可由用戶自定義時間、抓取規(guī)則,并對采集的數(shù)據(jù)進行自然語言處理,包括抽取關(guān)鍵詞、抽取摘要、抽取實體詞等,且對已抓取信息進行增刪查改并以多種方式輸出,抓取信息經(jīng)過審核后可批量導(dǎo)入數(shù)據(jù)庫。該系統(tǒng)設(shè)定了數(shù)十種目標(biāo)網(wǎng)站、上百種抓取規(guī)則,實現(xiàn)了戰(zhàn)略綜合信息管理系統(tǒng)及戰(zhàn)略態(tài)勢環(huán)境系統(tǒng)的數(shù)據(jù)初始化和更新。
利用Django與Elasticsearch實現(xiàn)了基于知識圖譜的語義檢索。ElasticSearch是一個基于Lucene的企業(yè)級實時全文搜索服務(wù)器,具有實時存儲、搜索PB級結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)的能力。關(guān)注軍事戰(zhàn)略領(lǐng)域信息,基于已有的開源信息,目前已初步構(gòu)建了數(shù)百萬條索引記錄。隨著文本量的逐漸增加,該索引將會以指數(shù)級增長。
為提高檢索效率及檢索結(jié)果質(zhì)量,構(gòu)建了以“核安全態(tài)勢”為本體的知識圖譜為ElasticSearch服務(wù)。利用商業(yè)語料庫結(jié)合中科院分詞系統(tǒng),提取了“核安全態(tài)勢”相關(guān)概念,同時識別了若干未登錄詞以擴充核領(lǐng)域的分詞詞典,建立了核領(lǐng)域本體的概念及層次結(jié)構(gòu)關(guān)系以及核領(lǐng)域本體類屬性[5]。在此基礎(chǔ)上,經(jīng)過知識融合、實體對齊和消歧,初步構(gòu)建了一個包含語義信息的核領(lǐng)域知識圖譜。將知識圖譜導(dǎo)入后與ElasticSearch搜索引擎相結(jié)合,實現(xiàn)了語義搜索能力。目前,ElasticSearch搜索引擎運用于戰(zhàn)略綜合信息與軍事地理信息2個子系統(tǒng)中,基本能夠?qū)崿F(xiàn)文本與地理信息的全文快速檢索。
文本大數(shù)據(jù)分析模型是運用深度學(xué)習(xí)、邏輯推理等技術(shù),對文本數(shù)據(jù)進行語義分析、檢索及模型構(gòu)建,輔助實現(xiàn)對戰(zhàn)略領(lǐng)域關(guān)切事件的分析、重要人物思維模式分析、智庫等對政府決策影響力分析等。目前,基于深度學(xué)習(xí)理論的自然語言處理技術(shù)越來越廣泛地應(yīng)用于海量文本分析,使戰(zhàn)略研究者從大量文本信息中提煉高價值情報成為了可能。本系統(tǒng)利用基于遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的LSTM模型,以及Seq2Seq+Attention機制建立了一個生成式文本摘要。它可對多文檔自動生成理解式摘要,極大地提高了戰(zhàn)略研究者獲取關(guān)鍵信息的速度。
在戰(zhàn)略態(tài)勢環(huán)境系統(tǒng)中,以蔡英文為例,利用文本分析模型進行人物多維度分析。數(shù)據(jù)采集了蔡英文學(xué)習(xí)經(jīng)歷、政治經(jīng)歷以及2000年以來公開講話稿約50篇,通過構(gòu)建其政治人物關(guān)系圖譜和進行政治主張數(shù)據(jù)關(guān)聯(lián)性分析,勾勒出蔡英文是一個集學(xué)者、律師、商人三者特性于一身的政客,其親日、親綠、冷戰(zhàn)思維、危機意識和潛在攻擊性特別突出。
本文在分析傳統(tǒng)戰(zhàn)略研究方法和手段無法滿足大數(shù)據(jù)條件下的戰(zhàn)略深度的基礎(chǔ)上,依據(jù)系統(tǒng)設(shè)計的物理及邏輯結(jié)構(gòu)設(shè)計了一個自底向上的5層體系結(jié)構(gòu)模型。在該體系結(jié)構(gòu)框架下,依據(jù)戰(zhàn)略研究過程的不同階段及功能需求設(shè)計了一個戰(zhàn)略大數(shù)據(jù)系統(tǒng)。該系統(tǒng)從信息獲取、存儲、檢索及挖掘計算模型構(gòu)成了較為完整的信息鏈路,可滿足基本的戰(zhàn)略研究需求。但戰(zhàn)略研究任務(wù)艱巨、研究目標(biāo)數(shù)量眾多、研究領(lǐng)域交叉性強、制約條件復(fù)雜,致使任務(wù)驅(qū)動型的挖掘計算模型在數(shù)量上不能滿足日益增長的任務(wù)需求,模型算法的效率仍有較大提升空間。如何與現(xiàn)有系統(tǒng)融合、實現(xiàn)數(shù)據(jù)共享、軟件復(fù)用等問題都是需要進一步深入研究的。此外,本系統(tǒng)在模型構(gòu)建、用戶交互等方面還有待引入更多的人工智能技術(shù)(如語音識別、機器翻譯、自然語言推理、情感分析等技術(shù)),逐步提升系統(tǒng)能力。