楊禎
摘要:網(wǎng)絡(luò)科學(xué)技術(shù)的進(jìn)步使世界進(jìn)入了信息爆炸時代,對于軍事情報領(lǐng)域而言,這樣的信息爆炸給軍事情報信息獲取造成了一定的困境。數(shù)據(jù)挖掘技術(shù)作為一種有效的數(shù)據(jù)收集和分析手段,對軍事情報收集能夠起到很大的作用。本文簡要闡述了數(shù)據(jù)挖掘技術(shù)的概念和步驟,并對其在軍事情報領(lǐng)域的應(yīng)用方式和過程進(jìn)行了分析研究,說明了數(shù)據(jù)挖掘技術(shù)對于軍事情報信息獲取的重要價值。
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù);軍事情報;信息獲取
現(xiàn)代科技的不斷發(fā)展和進(jìn)步也在一定程度上推動了軍事領(lǐng)域各項技術(shù)的進(jìn)步,這在一定程度上加劇了戰(zhàn)爭的破壞性和突發(fā)性。而與之相對的,為了阻止突發(fā)性戰(zhàn)爭造成的巨大損失,對戰(zhàn)爭的預(yù)警和監(jiān)測就變得非常重要,這使得現(xiàn)代軍事行業(yè)對情報獲取工作提出了更高的要求,不僅相比之前需要收集更多更復(fù)雜的情報信息,還需要進(jìn)一步縮短情報獲取時間,使己方能夠在最短時間內(nèi)獲得信息,做出應(yīng)對策略。在這種情況下,單純的人工手段已經(jīng)無法滿足軍事情報的獲取要求,因此,許多高端技術(shù)被陸續(xù)應(yīng)用于情報獲取工作中,力求能夠在極短的時間內(nèi)收集到準(zhǔn)確有用的情報反饋給決策者。數(shù)據(jù)挖掘技術(shù)作為信息網(wǎng)絡(luò)中的前沿技術(shù),將之運用情報信息獲取中對軍事情報領(lǐng)域的幫助是毋庸置疑的。因此,如何更好的將數(shù)據(jù)挖掘技術(shù)融入情報獲取中是值得思考和討論的問題。
1 數(shù)據(jù)挖掘技術(shù)
1.1數(shù)據(jù)挖掘概念
數(shù)據(jù)挖掘概念的來源可以追溯到上世紀(jì)八十年代,數(shù)據(jù)發(fā)現(xiàn)和數(shù)據(jù)挖掘被第一次提出,而隨著近十年來科技的不斷發(fā)展和人工智能技術(shù)的日益成熟,數(shù)據(jù)挖掘技術(shù)逐漸被人們熟知并越來越受到重視。數(shù)據(jù)挖掘是數(shù)據(jù)庫知識發(fā)現(xiàn)技術(shù)的核心環(huán)節(jié),主要是指從大量的隨機(jī)或不完整的雜亂信息和數(shù)據(jù)中提取出潛在有用或還未被發(fā)現(xiàn)明確價值的信息和數(shù)據(jù)的過程。通過數(shù)據(jù)挖掘可以發(fā)現(xiàn)隱含在數(shù)據(jù)中概念、規(guī)則、規(guī)律、模式等有用的知識。宏觀來說,數(shù)據(jù)挖掘就是指從龐大的數(shù)據(jù)庫、數(shù)據(jù)新聞或其他信息集中地的巨量數(shù)據(jù)中篩選出有用或潛在有用的信息和知識的過程。數(shù)據(jù)處理技術(shù)的發(fā)展過程中,數(shù)據(jù)挖掘必不可少,這是一種數(shù)據(jù)的高級處理和利用方式。因此,在軍事情報信息獲取中合理運用數(shù)據(jù)挖掘技術(shù),能夠大幅度提高軍事情報的數(shù)量和正確性。
1.2數(shù)據(jù)挖掘的基本過程
在當(dāng)今時代下,數(shù)據(jù)存在的方法和形式都是多種多樣的,除了數(shù)據(jù)庫、數(shù)據(jù)集市這種專門用于儲存數(shù)據(jù)的結(jié)構(gòu),數(shù)據(jù)還會以文本、圖片、聲音、符號等各種隨機(jī)的形式存在。因此,數(shù)據(jù)挖掘技術(shù)不僅是簡單的從數(shù)據(jù)流中篩選摘取有效片段,還需要利用相關(guān)的工具和手段對其他非結(jié)構(gòu)性的數(shù)據(jù)進(jìn)行分析,研究其中是否存在有價值的數(shù)據(jù)信息,進(jìn)而進(jìn)行情報收集和傳遞工作。詳細(xì)來說,數(shù)據(jù)挖掘過程的基本過程主要有以下幾個步驟:
(1)定義問題
首先要在意識形態(tài)層面清楚的定義問題,這是數(shù)據(jù)挖掘的第一步,也是至關(guān)重要的一步,只有明確了數(shù)據(jù)挖掘的目的,才能更好更高效的進(jìn)行數(shù)據(jù)挖掘工作。數(shù)據(jù)的結(jié)構(gòu)多樣且存在著巨大的不確定性,但數(shù)據(jù)挖掘的目標(biāo)和要解決的問題應(yīng)該是有計劃的、可以預(yù)見的,特別是在軍事情報收集中,明確目的是數(shù)據(jù)挖掘成功的關(guān)鍵。
(2)數(shù)據(jù)準(zhǔn)備
數(shù)據(jù)準(zhǔn)備是數(shù)據(jù)挖掘正式開始之前最重要的步驟,這個準(zhǔn)備過程包括數(shù)據(jù)集成、數(shù)據(jù)選擇和數(shù)據(jù)預(yù)處理三個部分。數(shù)據(jù)集成是指將多個數(shù)據(jù)庫或很多零散分布的數(shù)據(jù)進(jìn)行集中整合,并在整合過程中篩除掉那些明顯無用或模糊的數(shù)據(jù);數(shù)據(jù)選擇則是指對數(shù)據(jù)集合進(jìn)行進(jìn)一步的辨別和篩選,以便縮小數(shù)據(jù)挖掘的范圍,提高數(shù)據(jù)挖掘效率;而預(yù)處理主要是對數(shù)據(jù)進(jìn)行一定程度的處理,使數(shù)據(jù)挖掘過程更加容易。
(3)讀入數(shù)據(jù)并建立模型
在確定好數(shù)據(jù)范圍之后,就要使用數(shù)據(jù)挖掘的工具來讀取數(shù)據(jù),并且根據(jù)讀取到的數(shù)據(jù)建立一個數(shù)據(jù)模型,數(shù)據(jù)模型并沒有統(tǒng)一的結(jié)構(gòu)標(biāo)準(zhǔn),而是應(yīng)該根據(jù)數(shù)據(jù)的特征和工具的不同而有所不同。
(4)挖掘操作
在模型建立成功之后,就要開始數(shù)據(jù)挖掘工作的核心步驟,搜索有用的數(shù)據(jù)和信息。信息搜索過程并不需要人工操作,而是可以利用數(shù)據(jù)挖掘工具由系統(tǒng)自動進(jìn)行,可以提前在系統(tǒng)中設(shè)定搜索條件,以便更精確的找出目標(biāo)數(shù)據(jù)。數(shù)據(jù)挖掘過程需要重復(fù)進(jìn)行,并不斷調(diào)整挖掘條件以提高精度,避免遺漏關(guān)鍵信息,同時提高數(shù)據(jù)的質(zhì)量和信息量。
(5)結(jié)果表達(dá)和解釋
在挖掘了數(shù)據(jù)之后,還需要對挖掘結(jié)果進(jìn)行分析和解釋,將挖掘到的信息進(jìn)行分類和聯(lián)系,整理出完整的邏輯鏈和信息鏈,這樣才能提交給決策者。
1.3常用數(shù)據(jù)挖掘方法
隨著科技的進(jìn)步,數(shù)據(jù)挖掘的方法也越來越多,但總體來說根據(jù)任務(wù)的不同而劃分為兩種類型:描述和預(yù)測。描述是指對數(shù)據(jù)庫中的數(shù)據(jù)規(guī)律進(jìn)行分析和總結(jié),而預(yù)測則是在描述性數(shù)據(jù)挖掘的基礎(chǔ)上對數(shù)據(jù)進(jìn)行更深層的研究和推斷,對數(shù)據(jù)的未來發(fā)展進(jìn)行預(yù)測,從而提高決策的正確性。
(1)概念描述
概念描述主要是對數(shù)據(jù)的總體特征和規(guī)律進(jìn)行描述和總結(jié),在進(jìn)行數(shù)據(jù)整合之后對不同的數(shù)據(jù)集合體進(jìn)行整體分析,總結(jié)出概括性的規(guī)律,并對這些規(guī)律或特征進(jìn)行簡明扼要的描述。使得其他人對該數(shù)據(jù)集合體有一個整體性的了解。概念描述分為特征性描述和區(qū)別性描述,顧名思義,一個是描述數(shù)據(jù)集合體的特征,另一個則是描述不同數(shù)據(jù)集合體之間的區(qū)別。
(2)關(guān)聯(lián)分析
數(shù)據(jù)關(guān)聯(lián)對于數(shù)據(jù)挖掘技術(shù)而言非常重要,這是挖掘有用數(shù)據(jù)的重要途徑。因此,關(guān)聯(lián)分析是最主要的數(shù)據(jù)挖掘方法之一,其目的主要是找出數(shù)據(jù)之間的隱藏關(guān)系,并且分析數(shù)據(jù)庫中的一些數(shù)據(jù)關(guān)聯(lián)規(guī)律,比如數(shù)據(jù)產(chǎn)生的時間順序或數(shù)據(jù)之間的因果關(guān)系等,這些關(guān)聯(lián)不僅可以提高數(shù)據(jù)獲取的準(zhǔn)確度,還能幫助數(shù)據(jù)挖掘人員通過已知的信息推斷未知的信息。
(3)聚類分析
數(shù)據(jù)聚類是指根據(jù)數(shù)據(jù)的共同特征對數(shù)據(jù)進(jìn)行分類聚合,并發(fā)現(xiàn)其中的主要規(guī)律和數(shù)據(jù)模式。聚類分析也是一種常見的數(shù)據(jù)挖掘方式,其主要是從宏觀角度分析數(shù)據(jù)的分布規(guī)律和數(shù)據(jù)之間的關(guān)系?,F(xiàn)如今聚類分析已經(jīng)發(fā)展得相對成熟,也形成了多種數(shù)據(jù)分類模型,比如決策樹模型、近鄰算法、線性回歸模型、神經(jīng)網(wǎng)絡(luò)模型等等。
(4)孤立點挖掘
除了上述所說的數(shù)據(jù)分類和數(shù)據(jù)整合等,數(shù)據(jù)庫或其他數(shù)據(jù)流中通常都會存在很多無法被分類或沒有明顯特征的離散數(shù)據(jù),這些數(shù)據(jù)往往并不能套進(jìn)任何一種常見的數(shù)據(jù)模型中,因此這些數(shù)據(jù)也被叫做孤立點數(shù)據(jù)。這些孤立點數(shù)據(jù)雖然無法被分類,但并不代表其沒有分析價值,相反,很多孤立點數(shù)據(jù)中都隱藏著很多有用的信息和知識,比如數(shù)據(jù)中的反常實例等,因此,在數(shù)據(jù)挖掘時也有必要對孤立點進(jìn)行挖掘和分析,在特定的情況下孤立點可能會起到至關(guān)重要的作用。
2 數(shù)據(jù)挖掘技術(shù)在軍事情報中的應(yīng)用
數(shù)據(jù)挖掘作為一種有效的信息收集和分析的技術(shù),在軍事情報收集工作中能發(fā)揮出巨大的價值,起到良好的作用。因此,數(shù)據(jù)挖掘技術(shù)在軍事情報信息收集中能夠得到很好的應(yīng)用。
2.1軍事情報中的數(shù)據(jù)挖掘方法
在當(dāng)下的軍事情報領(lǐng)域中,數(shù)據(jù)的主要存在形式是文本。因此,軍事情報的數(shù)據(jù)和普遍意義上的數(shù)據(jù)庫中的數(shù)據(jù)有很大不同,軍事情報領(lǐng)域中的數(shù)據(jù)通常都比較復(fù)雜,且沒有可以通用的數(shù)據(jù)模型。這主要是因為一個軍事文件中通常既包含可以進(jìn)行模型分析的結(jié)構(gòu)化數(shù)據(jù),比如正常的時間、人名等,又包含大量的無結(jié)構(gòu)數(shù)據(jù),比如特殊符號、相反的觀點、暗語等等。軍事情報領(lǐng)域的數(shù)據(jù)挖掘技術(shù)必須要解決復(fù)雜數(shù)據(jù)的數(shù)據(jù)模型建立問題和數(shù)據(jù)整合分析的問題,總之,具體的數(shù)據(jù)挖掘方法必須貼合軍事情報信息的特點。
(1)數(shù)據(jù)預(yù)處理
在軍事情報數(shù)據(jù)挖掘過程中,要對數(shù)據(jù)進(jìn)行必要的預(yù)處理。預(yù)處理的主要過程是先抽取出數(shù)據(jù)集合中的元數(shù)據(jù),并去除數(shù)據(jù)中的多余格式標(biāo)記等;然后篩選并去除文本數(shù)據(jù)中的廢詞、無用詞等,將文本中的數(shù)字進(jìn)行合并,并且對其中的一些殘缺錯位或潛臺詞的詞句進(jìn)行還原;第三步是對本文信息進(jìn)行分詞處理,并在這個過程中標(biāo)注一些詞語的詞性,以便更好的識別文本中的短語;然后還要對文本中出現(xiàn)次數(shù)較多的詞語進(jìn)行詞頻統(tǒng)計。最后,應(yīng)該對數(shù)據(jù)進(jìn)行清洗,篩除掉一些垃圾數(shù)據(jù)以及干擾數(shù)據(jù),確保信息能夠被流暢的分析解讀。通過這一系列的數(shù)據(jù)預(yù)處理,能夠篩除初始數(shù)據(jù)中的大部分無用特征詞,簡化數(shù)據(jù)分析的過程,提高數(shù)據(jù)挖掘的質(zhì)量和效率。
(2)文本分類
如上文所說,軍事情報數(shù)據(jù)非常復(fù)雜,通常無法使用數(shù)據(jù)模型進(jìn)行分析,因此,為了方便對其進(jìn)行有效挖掘,需要在數(shù)據(jù)體中找一個分類函數(shù)對軍事文本進(jìn)行分類。首先,要按照制定好的分類體系確定每個軍事文本的類別,使其能夠更加方便的被查找和閱讀。對于軍事情報而言,一個不同于其他數(shù)據(jù)的重要分類標(biāo)準(zhǔn)就是文本觀點的正反性,不同的軍事文件對于同一件事可能會有南轅北轍的觀點和意見,因此在數(shù)據(jù)挖掘過程中要密切關(guān)注這一特點,并以此為標(biāo)準(zhǔn)對情報數(shù)據(jù)進(jìn)行分類。
(3)文本關(guān)聯(lián)
軍事情報的信息數(shù)據(jù)之間往往比其他數(shù)據(jù)之間存在更多的隱藏關(guān)聯(lián),所以在軍事情報信息數(shù)據(jù)挖掘過程中要主要找出軍事文本之間的關(guān)系。在文本關(guān)聯(lián)方面,一種常見的算法是在不同文本中尋找同一對詞語,這種算法可以順藤摸瓜的找出很多隱藏信息,因為本質(zhì)上,事物之間的關(guān)聯(lián)就是事件的同時出現(xiàn)或發(fā)生。文本關(guān)聯(lián)的數(shù)據(jù)挖掘方式可以將復(fù)雜的非結(jié)構(gòu)性軍事信息數(shù)據(jù)轉(zhuǎn)換成簡單的結(jié)構(gòu)化數(shù)據(jù),比如省略軍事文本中的大量復(fù)雜信息,只抓取其中的關(guān)鍵詞進(jìn)行數(shù)據(jù)搜索,先根據(jù)時間篩選出大量符合要求的數(shù)據(jù),再將篩選出的數(shù)據(jù)進(jìn)行拆分并逐一進(jìn)行分析。根據(jù)對軍事文本的數(shù)據(jù)分析,將文本用適用的關(guān)鍵詞和實踐節(jié)點來表示。這樣,在提取軍事情報時,相關(guān)人員結(jié)合實際情況判斷文本的可信度,并對可能可信的軍事情報數(shù)據(jù)進(jìn)行關(guān)鍵詞提取,大幅度提高軍事情報數(shù)據(jù)收集的效率,同時還可以大量、準(zhǔn)確的清除干擾數(shù)據(jù),提高情報的準(zhǔn)確度。
2.2 軍事情報中數(shù)據(jù)挖掘的過程模型
軍事情報數(shù)據(jù)挖掘過程模型圖
軍事情報數(shù)據(jù)相比于其他類型的數(shù)據(jù)來說具有范圍廣、保密性高、內(nèi)容復(fù)雜性高等特點。網(wǎng)絡(luò)科學(xué)技術(shù)的快速發(fā)展一再擴(kuò)張軍事情報的信息收集范圍,而除了公開的情報收集渠道,比如網(wǎng)絡(luò)媒體、社交平臺、報紙書本等,還有很多隱秘性渠道,比如間諜、臥底等等,情報信息收集的難度相對較大,需要較為高端的數(shù)據(jù)挖掘技術(shù)。另一方面,軍事情報在任何時候都非常注重保密性,不僅要打探敵人的虛實,防止收集到的信息泄露,還要注意不能讓己方的情報收集程度泄露,也就是不能讓其他人知道己方是否已經(jīng)掌握了某些信息?;谲娛虑閳笫占倪@幾個特點,建立軍事情報領(lǐng)域中獨特的數(shù)據(jù)挖掘過程模型,如圖所示:
在這個過程模型中,最重要的階段是數(shù)據(jù)的判斷推理篩選,這個階段需要完成數(shù)據(jù)挖掘的對象、數(shù)據(jù)挖掘的目標(biāo)、預(yù)測數(shù)據(jù)挖掘可能達(dá)到的效果等,并且要制定好完整的數(shù)據(jù)挖掘方案。
數(shù)據(jù)理解環(huán)節(jié)主要是對數(shù)據(jù)的特征進(jìn)行分析總結(jié),并根據(jù)這些特征對軍事情報數(shù)據(jù)進(jìn)行分類。利用適當(dāng)?shù)乃惴ǔ绦驅(qū)娛虑閳髷?shù)據(jù)進(jìn)行處理,并結(jié)合情報數(shù)據(jù)的具體情況建立合適的數(shù)據(jù)挖掘模型。在模型建立好之后,還要對模型進(jìn)行整體評估,確定模型的合理性和準(zhǔn)確性,這樣才能更好的分析數(shù)據(jù)挖掘的結(jié)果,保證挖掘工作的有效性。在數(shù)據(jù)挖掘完成之后,還要對挖掘出的軍事情報進(jìn)行集合和梳理,最后輸出邏輯鏈完整、信息準(zhǔn)確無誤的軍事情報。這就是軍事情報信息收集領(lǐng)域中數(shù)據(jù)挖掘的完整過程模型,目前這個模型已經(jīng)相對完善,但在實際操作中,會因為具體情況的不同出現(xiàn)各種各樣的問題,因此在具體的數(shù)據(jù)挖掘過程中,要根據(jù)實際情況及時對挖掘方案進(jìn)行調(diào)整,確保數(shù)據(jù)挖掘的質(zhì)量,促進(jìn)軍事決策的正確合理。
3 結(jié)語
總之,數(shù)據(jù)挖掘作為一種高端技術(shù),對海量數(shù)據(jù)的收集、篩選、分析、判斷都具有極大的價值。軍事情報和其他信息之間存在顯著的差異,信息爆炸和全球化趨勢也對軍事情報的收集造成了很多負(fù)面影響,而將數(shù)據(jù)挖掘技術(shù)用于軍事情報信息獲取領(lǐng)域中,能夠大大提高軍事情報的準(zhǔn)確率和時效性。未來我國情報人員和相關(guān)技術(shù)人員應(yīng)該更加緊密的合作,不斷推進(jìn)數(shù)據(jù)挖掘技術(shù)的進(jìn)步,促進(jìn)其在軍事情報領(lǐng)域的不斷發(fā)展,進(jìn)一步增強我國的軟實力。
參考文獻(xiàn)
[1]張月婷,韓全惜. 基于數(shù)據(jù)挖掘的公開網(wǎng)絡(luò)軍事情報分析研究[J]. 情報雜志,2016,35(9):12-15.
[2]趙大海,郭晶. 智能情報獲取系統(tǒng)框架研究[J]. 軍民兩用技術(shù)與產(chǎn)品,2020(8):34-38.
[3]喬慧,蘇云,安瑾. 面向海量數(shù)據(jù)的海情數(shù)據(jù)分析技術(shù)研究[J]. 指揮控制與仿真,2018,40(2):48-52.
[4]張波. 基于文本挖掘技術(shù)的情報處理方法研究[D]. 四川:電子科技大學(xué),2017.
(作者單位:中國人民解放軍69270部隊)