黃 勝, 郭繼光, 陸澤健, 陳 龍, 潘 越
(中國電子科學研究院, 北京 100041)
面向軍事領域的Web開源情報主題挖掘研究
黃 勝, 郭繼光, 陸澤健, 陳 龍, 潘 越
(中國電子科學研究院, 北京 100041)
針對軍事領域海量Web開源情報的有效分析和利用問題,提出了一種基于主題聚類的開源情報挖掘方法?;诰W絡爬蟲從Web上自動搜集軍事開源情報數(shù)據(jù),通過解析Web網頁內容提取重要情報要素,采用層次聚類算法自動生成情報主題。最后,通過實際Web數(shù)據(jù)對軍事開源情報主題生成效果進行評估。實驗結果表明該方法在情報主題聚類熵值、純度和算法運行時間上均具有良好的表現(xiàn)。
軍事領域;Web開源情報;情報主題;層次聚類
根據(jù)美國國家情報局和國防部的定義,開源情報(Open Source Intelligence,OSINT)是指為響應已知或預期的情報需求,對公開可得信息進行系統(tǒng)搜集、處理和分析而得出的相關信息[1,2]。公開可得信息來源包括商業(yè)電臺、電視廣播、網絡與Web資源、新聞報紙以及其他書面出版物[2],經過開源情報分析處理后,可得到用于指導軍事行動和戰(zhàn)略決策的情報信息。相關研究表明,開源情報信息的背后蘊含了豐富的價值,在期望得到的外國情報中,高達80%到90%的比例可以從公開信息源中獲得[3]。
隨著互聯(lián)網和信息化技術的發(fā)展,我們能夠輕易獲得大量軍事領域的Web開源情報信息,如新聞門戶的軍事頻道、熱點軍事論壇、軍工企業(yè)門戶及軍工科技發(fā)展站點等常見網站上廣泛分布著大量的關于軍事目標、軍事活動、軍事科技發(fā)展等公開可得情報信息。對這些開源情報信息進行分析挖掘,能夠為軍事行動和戰(zhàn)略決策提供重要依據(jù)。例如,2001年“9.11”恐怖襲擊事件發(fā)生后,Krebs利用媒體公開信息構建了“9.11”事件中恐怖分子的人際關系網絡,并通過中心性測度識別出核心成員[4];2003年,美國軍方情報分析人員通過描繪伊拉克前總統(tǒng)薩達姆·侯賽因的社會關系網絡,發(fā)現(xiàn)了其藏身之處[5];國內的付舉磊等人采用文本挖掘和網絡分析方法從開源情報中分析“東突”活動的主要特征[6]。作為其他類型情報的有力補充,開源情報完全基于公開渠道獲取,情報搜集的經濟成本和風險大大降低,通常不需要專業(yè)的情報分析人員,可以動員組織內的所有人員以及社會上對該主題感興趣的人員來共同搜集情報,情報分析處理的工作量得以降低[3]。
在網絡時代大數(shù)據(jù)洪流的沖擊下,軍事開源情報資源的規(guī)模呈現(xiàn)指數(shù)級增長趨勢,覆蓋內容廣泛,來源和種類更加多樣,對情報分析處理的時效性要求也大大加強。在情報分析處理的方式上,傳統(tǒng)方式主要依靠專業(yè)情報人員對情報素材進行整理、提取和歸類操作,顯然已經無法適應針對海量開源情報數(shù)據(jù)的分析處理需求。因此,如何應對當前海量開源情報數(shù)據(jù)帶來的挑戰(zhàn),研究高效自動化的分析處理機制成為當前軍事開源情報研究的亟需。
本文針對軍事領域Web開源情報信息自動處理問題,提出了一種基于主題聚類自動挖掘情報主題的方法,給定種子URL通過網絡爬蟲自動搜集多源異構軍事開源情報數(shù)據(jù),根據(jù)Web頁面結構采用解析算法自動提取情報信息內容,通過層次聚類算法自動生成情報主題。本文提出的方法能夠進一步提高軍事開源情報加工、處理和知識組織與利用的工作效率和服務能力。
圖1給出了本文處理軍事領域Web開源情報信息的主要思路,主要包括Web開源情報數(shù)據(jù)搜集、情報要素提取、情報主題生成三個模塊。
圖1 軍事領域Web開源情報信息處理思路
開源情報數(shù)據(jù)搜集針對重點關注的軍事情報主題類型,不斷地從Web上搜集相關的新聞、視頻、文檔和公開數(shù)據(jù)等信息,并存儲入庫。根據(jù)軍事開源情報在Web上的位置分布,本文采用定向網絡爬蟲技術,指定各大門戶網站軍事頻道、熱門軍事論壇、相關軍工企業(yè)門戶地址作為種子URL列表;網頁采集模塊根據(jù)種子URL和待采集URL抓取開源情報網頁內容,網頁去重模塊根據(jù)網頁標題、格式、大小、信息指紋去除重復的頁面;URL鏈接匹配模塊根據(jù)URL模式從網頁內容中匹配待采集的URL并添加到待采集隊列;最后網頁入庫模塊將抓取到的頁面內容存儲到開源情報信息庫,為后續(xù)的情報要素提取和情報主題生成提供基礎。軍事開源情報數(shù)據(jù)搜集的爬蟲結構如圖2所示。
圖2 軍事領域Web開源情報數(shù)據(jù)搜集流程
原始Web開源情報頁面包含了開源情報正文內容、HTML網頁格式和Javascript腳本代碼等信息。開源情報要素提取通過解析原始Web頁面,剔除無關的HTML格式和Javascript代碼,提取有價值的正文內容和關鍵詞、時間、空間等信息要素,將無結構化的網頁數(shù)據(jù)轉換為易于處理的半結構化開源情報格式,主要包括頁面內容提取、時間和地點要素提取、關鍵詞提取等處理步驟。
2.1 頁面內容提取
針對軍事情報信息準確性要求高的特點,分析重點關注的開源情報來源網站的網頁內容和頁面結構,標注頁面標題、正文以及關鍵詞、描述、來源、發(fā)布時間等頁面描述信息為待提取內容;將頁面轉換為DOM樹結構,采用Xpath技術定義網頁標題、正文等待提取內容在DOM樹中的提取路徑,形成典型的提取模板,通過模板自動匹配頁面內容。以新浪網軍事頻道包含的“南海最新態(tài)勢”板塊為例,頁面內容的提取模板如表1所示。
表1 開源情報內容提取范例
2.2 時間和地點要素提取
情報發(fā)生時間和發(fā)生地點是體現(xiàn)軍事情報價值的核心要素。在開源情報中,重要的時間和地點要素通常包含在情報標題和正文部分,如圖3所示。本文通過中文分詞工具將開源情報標題和正文文本分割為詞語和對應的詞性標注序列,提取詞性標注為“t”的短語為候選時間詞,提取標注為“ns”的短語為候選地點詞。
圖3 時間和地點要素提取示例
為提高時間詞提取的準確性,進一步通過定義正則表達式“d{2,4}年d{1,2}月d{1,2}日”、“d{1,2}月d{1,2}日”等對候選時間詞進行匹配,保留匹配成功的候選時間詞。為提高地點詞分割和標注的準確性,在分詞工具中添加自定義的軍事地點名詞表,同時利用該詞表對候選地點詞進行過濾。
針對情報標題和正文中包含多個時間詞和地點詞的情況,統(tǒng)計候選時間詞和地點詞出現(xiàn)的頻率,同時以開源情報發(fā)布時間、描述、關鍵詞等頁面描述信息為參考,選擇出現(xiàn)頻率高且距離發(fā)布時間短的候選時間詞為開源情報時間要素,選擇出現(xiàn)頻率高且在描述、關鍵詞信息中出現(xiàn)的候選地點詞為開源情報地點要素。
2.3 關鍵詞提取
關鍵詞是描述軍事情報主題內容的典型要素,關鍵詞提取是開展情報主題生成研究的重要基礎。在開源情報頁面內容提取過程中,僅有部分站點和網頁內容中直接提供了關鍵詞信息,且其關鍵詞信息存在涵義寬泛、不夠具體等問題。本文綜合軍事開源情報標題、描述、正文等內容,采用TextRank算法自動提取候選關鍵詞。TextRank算法無監(jiān)督地利用詞語之間的共現(xiàn)關系計算詞語重要程度,無需事先基于大量數(shù)據(jù)進行訓練。定義如下:
(1)
在獲取候選關鍵詞之后,綜合頁面內容提取過程中獲取的關鍵詞,同時采用軍事情報詞表對候選關鍵詞進行過濾,提高關鍵詞的準確率,最終為每條開源情報保留10個關鍵詞。
情報主題生成通過計算開源情報之間的相似度關系,將開源情報集合按照描述主題進行自動聚類,同一主題的開源情報自動聚集到同一類簇,為細粒度的軍事情報分析和預測提供基礎。
傳統(tǒng)的主題生成方法[7,8]通?;谌斯は闰炛R,通過選擇不同特征提高主題生成準確性,然而需要大量的人工分析操作,無法實現(xiàn)自動化處理,主題生成效果無法保證。本文通過對軍事情報信息內在的關聯(lián)關系進行分析,基于向量空間模型對開源情報集合進行特征建模和特征表示,從層次建模的角度,采用無監(jiān)督的Chameleon層次聚類算法根據(jù)主題相似度自動生成情報主題,能夠實現(xiàn)自動化處理。
3.1 特征建模
本文采用向量空間模型將開源情報映射為能夠自動處理的文本特征向量,以中文分詞結果為輸入,去除其中的標點符號、亂碼、停用詞,以剩余詞語作為開源情報的文本特征,采用TF-IDF公式計算特征權重[9],算法公式定義如下:
(2)
在獲得特征詞權重之后,開源情報表示為向量空間中的一個特征向量。給定兩個特征向量Vi和Vj,采用余弦相似度定義特征向量之間的相似度,計算公式如下:
(3)
在計算相似度之前,對特征向量包含的元素執(zhí)行正則化。
3.2 層次聚類算法
Chameleon算法的思想是首先采用K-最近鄰
圖方法將數(shù)據(jù)集構造成一個稀疏圖,圖中頂點代表數(shù)據(jù)對象,頂點之間的邊代表數(shù)據(jù)對象之間的相似關系,進而采用圖劃分算法將K-最近鄰圖劃分為大量較小的子簇,最后使用凝聚層次聚類算法,基于子簇的相似度反復地合并子簇[10-13]。與K-means等常見聚類算法相比,Chameleon算法具有更強的發(fā)現(xiàn)不規(guī)則聚簇的能力。具體算法流程示意如圖4所示。
圖4 Chameleon層次聚類流程示意
具體算法流程[10-13]如下:
步驟1:構造K-最近鄰圖。
步驟2:分割K-最近鄰圖。
采用圖劃分算法對K-最近鄰圖進行分割,使得割邊(Edge Cut)最小化,即使簇C劃分為兩個子簇Ci和Cj時需要切斷的邊的加權和最小。將分割得到的每一個子圖看成一個初始圖,重復這一步驟直至現(xiàn)有節(jié)點相似度權重均不小于停止閾值。
步驟3:合并子稀疏圖,得到最終的聚類結果。
采用自底向上的凝聚層次聚類算法,以子簇包含的開源情報的特征向量均值作為子簇的特征向量,通過公式(3)計算子簇相似度,反復合并子簇,直至達到目標簇數(shù)。
4.1 數(shù)據(jù)準備
利用網絡爬蟲采集新浪等主流網站軍事頻道上近期發(fā)布的熱點軍事新聞報道,包括“南海最新態(tài)勢”、“東海最新態(tài)勢”、“中國軍情”等欄目內容,經過去重和內容提取處理后,共獲得271篇完整新聞報道數(shù)據(jù),由人工標注劃分為38個主題類,經過中文分詞和去除停用詞處理后,獲取的特征詞共有3396個。為保持算法過程的簡易性,在實驗中并不對特征詞空間進行降維處理。實驗數(shù)據(jù)信息統(tǒng)計如表2所示。
表2 實驗數(shù)據(jù)統(tǒng)計信息
4.2 評價指標
本文采用熵值Entropy和純度Purity作為情報主題聚類的評價指標。Entropy衡量聚類結果與標準結果相比的混亂程度,Purity衡量聚類結果與標準結果的一致性程度。給定主題類別數(shù)K,標準結果H={h1,h2,…,hK},聚類結果G={g1,g2,…,gK},Entropy和Purity計算公式定義如下[14]:
(4)
(5)
其中,Pi(gj)表示聚類結果類gj中包含標準類別hi中元素的比例。Entropy值越小,聚類結果的混亂程度越低;Purity值越大,聚類結果的純度越高。
此外,為評價情報主題生成的效率,本文在實驗中也選擇算法運行的時間(Time)作為聚類結果的評價指標。
4.3 實驗結果
為對比實驗結果,本文選擇常用K-means聚類算法和傳統(tǒng)凝聚層次聚類算法作為基線方法。K-means算法首次隨機選擇聚類中心,基于開源情報之間的歐式空間距離計算相似度。傳統(tǒng)凝聚層次聚類算法初始將每一篇情報文本作為一個原子簇,然后根據(jù)類簇之間的相似度自底向上合并相似的類簇。表3給出了軍事領域Web開源情報主題聚類的結果示例,表4給出了不同算法的實驗結果對比。
表3 軍事領域Web開源情報主題聚類結果示例
如表3所示,在聚類得到情報主題類簇后,由人工定義或選取情報標題中包含的高頻短語作為對應主題類簇名稱,根據(jù)其包含的開源情報時間和地點要素的頻率和范圍定義主題類簇的時間和地點要素,最后根據(jù)主題描述內容劃歸到相應的開源情報類別。例如,“中日空軍東海對峙”情報主題描述了“2016年12月10日上午,中國空軍戰(zhàn)機飛越宮古海峽空域赴西太平洋進行例行性遠海訓練,日本自衛(wèi)隊出動F15戰(zhàn)斗機實施近距離干擾并發(fā)射干擾彈”事件,共包括11篇軍事新聞報道,歸為東海局勢類開源情報。
表4 實驗結果對比
如表4所示,與基線方法相比,本文采用的Chameleon聚類算法取得了最好的熵值和純度效果。Entropy值最小,主題聚類結果混亂程度最低;Purity值最大,主題聚類的一致性程度最高。與傳統(tǒng)凝聚層次聚類算法相比,Chameleon聚類算法進一步降低了Entropy值,同時提高了Purity值。常用K-means算法受數(shù)據(jù)不確定性影響較大,在Entropy和Purity上表現(xiàn)最差。
在算法運行時間上,Chameleon聚類算法也取得了最短的運算時間。常用K-means算法由于需要大量迭代才能達到收斂狀態(tài),所需運算時間最長;傳統(tǒng)凝聚層次聚類由于初始時以每一篇情報文本為原子簇,算法運行時間也相對較長。因此,本文采用的Chameleon算法基于K-最近鄰圖分割稀疏子圖的基礎上進行層次聚類,算法迭代次數(shù)大為減少,取得了最高的算法運行時間效率。
本文針對軍事領域海量Web開源情報的有效分析和利用問題,從層次凝聚建模角度提出了一種基于主題聚類自動挖掘情報主題的方法,分別闡述了Web開源情報數(shù)據(jù)搜集、情報要素提取、主題聚類生成主要模塊的具體內容。本文最后通過采集實際Web數(shù)據(jù)對情報主題生成效果進行了實驗評估,實驗結果表明Chameleon層次聚類算法在軍事開源情報主題聚類的效果和運行效率上明顯優(yōu)于傳統(tǒng)基線方法。
[1] Department of Defense. Dictionary of Military and Associated Terms[Z/OL]. https://fas.org/irp/doddir/dod/jp1_02.pdf, 2016.
[2] Joint Chiefs of Staff. Joint Publication 2-01: Joint and National Intelligence Support to Military Operations[Z/OL]. www.dtic.mil/doctrine/new_pubs/jp2_0.pdf, 2012.
[3] 丁波濤. 國外開源情報工作的發(fā)展與我國的對策研究[J]. 情報資料工作, 2011, 32(6):103-105.
[4] Krebs V E. Mapping networks of terrorist cells[J]. Connections, 2002, 24(3): 43-52.
[5] Sharon W. Web of war[J]. Nature, 2011, 471(7340):566-8.
[6] 付舉磊, 劉文禮, 鄭曉龍,等. 基于文本挖掘和網絡分析的“東突”活動主要特征研究[J]. 自動化學報, 2014, 40(11):2456-2468.
[7] 傅暢, 宋佳慶. 一種基于文本聚類的web軍事情報挖掘系統(tǒng)設計與實現(xiàn)[J]. 中國電子科學研究院學報, 2015, 10(5):541-545.
[8] Huang S, Peng X, Niu Z. News topic detection based on hierarchical clustering and named entity[C]// International Conference on Natural Language Processing and Knowledge Engineering. IEEE, 2012:280-284.
[9] Christopher D. Manning, Hinrich Schutze. 統(tǒng)計自然語
言處理基礎[M]. 電子工業(yè)出版社, 2005.
[10]Han Jiawei, Kamber Micheline, Pei Jian,等. 數(shù)據(jù)挖掘:概念與技術[M]. 機械工業(yè)出版社, 2012.
[11]畢鵬. 改進的Chameleon層次聚類算法在目標分群中的應用研究[D]. 浙江大學, 2009.
[12]劉文鳳, 卿曉霞. Chameleon聚類算法的Weka實現(xiàn)[J]. 計算機系統(tǒng)應用, 2010, 19(12):246-250.
[13]黃文江, 李翔, 林祥. 基于Chameleon算法的文本聚類技術研究[J]. 計算機技術與發(fā)展, 2010, 20(6):1-4.
[14]Liu Bing. Web數(shù)據(jù)挖掘.第2版[M]. 清華大學出版社, 2009.
Study of Web Open Source Intelligence Topic Mining in Military Domain
HUANG Sheng, GUO Ji-guang, LU Ze-jian, CHEN Long, PAN Yue
(China Academy of Electronics and Information Technology, Beijing 100041, China)
Aiming at the demand of effective analysis and utilization of the massive military open source intelligence on the Web, this paper proposes a topic clustering based method for automatic open source intelligence mining. The method utilizes web crawler to collect relevant military open source intelligence data from multiple Web sources, and extracts the important intelligence elements by parsing Web pages, then employs the Chameleon hierarchical clustering algorithm to generate intelligence topic automatically. At last, experimental evaluation of the effectivity and efficiency of this method using the real Web data was conducted. The experiment results demonstrated that this method has improved the entropy, purity and algorithm runtime of military open source intelligence topic generation effectively.
Military domain; Web Open source intelligence; Intelligence topic; Hierarchical clustering
10.3969/j.issn.1673-5692.2017.04.013
2017-07-11
2017-08-09
電子信息裝備體系研究國防科技重點實驗室基礎研究項目(DXZT-JC-ZZ-2011-015)
黃 勝(1986—),男,河南人,工程師,主要研究方向為情報分析處理,大數(shù)據(jù)分析與數(shù)據(jù)挖掘;
E-mail: bumblebeeworld@163.com
郭繼光(1979—),男,黑龍江人,工程師,主要研究方向為綜合電子信息系統(tǒng)總體設計,系統(tǒng)集成與信息處理;
陸澤健(1986—),男,廣西人,工程師,主要研究方向為雷達組網,多傳感器管理技術;
陳 龍(1988—),男,江西人,工程師,主要研究方向為目標識別,圖像處理技術;
潘 越(1984—),男,湖南人,高級工程師,主要研究方向為綜合電子信息系統(tǒng)總體設計,系統(tǒng)集成與信息處理。
TP311.13
A
1673-5692(2017)04-400-06