王景石 喬 慧 何佳洲 蔣丙棟
(江蘇自動化研究所 連云港 222006)
航空母艦、潛艇、驅(qū)逐艦、護(hù)衛(wèi)艦、兩棲登陸艦等海上大中型目標(biāo)是各國海軍作戰(zhàn)的主力,是實施全球海洋戰(zhàn)略的擔(dān)當(dāng)。掌握海上大中型目標(biāo)的位置,了解敵對國家的海軍動向,是洞悉全球海洋態(tài)勢,占據(jù)戰(zhàn)略有利地位的前提。當(dāng)前針對大中型目標(biāo)的探測,主要依賴于人力偵察、雷達(dá)探測與衛(wèi)星可見光圖像偵察等手段,然而人力偵察成本大,風(fēng)險高[1];雷達(dá)探測范圍有限,干擾信號多[2];衛(wèi)星可見光圖像照射范圍太大、發(fā)現(xiàn)效率低[3]。這些缺點制約了大中型目標(biāo)的檢測與識別。
開源情報因低成本、高回報的特點而日益受到各國的重視,據(jù)美國中央情報局的統(tǒng)計,2007年的情報收集總數(shù)中超過80%來自開源情報。曾任美軍中央司令部司令的安東尼·辛尼,在《新時代的指揮官》一書中寫道:“在作戰(zhàn)所需情報中,有4%來源于秘密渠道,而有95%的情報不是通過標(biāo)準(zhǔn)情報活動(秘密方法)獲得的,是從學(xué)術(shù)界、民間、商業(yè)、政府、執(zhí)法機(jī)關(guān)、媒體、非政府組織等渠道公開、廉價地獲得的。”[4~5]互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,網(wǎng)站、論壇、網(wǎng)絡(luò)出版物等新型信息媒體不斷涌現(xiàn),形成了縱橫交錯、無處不在的公開信息空間。以互聯(lián)網(wǎng)為主要獲取手段的開源情報,憑借其信息容量大、內(nèi)容豐富、來源廣泛、不受時間地域限制等優(yōu)勢,日益受到各國的關(guān)注,被視為最廣泛、最經(jīng)濟(jì)、最安全和最迅速的情報搜集手段[6~8]。通過艦船自動識別系統(tǒng)(AIS)獲取的位置、身份等信息,結(jié)合互聯(lián)網(wǎng)上有關(guān)大中型艦艇的公開報道及論壇跟帖信息,為海面艦艇的動態(tài)檢測提供了詳細(xì)可靠的信息獲取渠道,是大中型目標(biāo)檢測手段的有力補充。
在這樣的背景下,本文從遠(yuǎn)海大中型目標(biāo)檢測與識別的需求出發(fā),在網(wǎng)絡(luò)公開信息搜集的基礎(chǔ)上,建立目標(biāo)身份信息庫,利用信息庫中的AIS信息,通過船舶定位網(wǎng)站發(fā)現(xiàn)目標(biāo)艦艇的位置和屬性信息。同時建立網(wǎng)絡(luò)爬蟲工具獲取目標(biāo)艦艇的近期中英文通訊報道,利用實體識別工具,抽取公開報道信息中的目標(biāo)艦艇名稱、時間和位置信息。最后將不同渠道獲得的目標(biāo)艦艇身份信息、出現(xiàn)的時間和地點信息進(jìn)行比對分析,對目標(biāo)身份和活動事件進(jìn)行一致性檢驗,最終實現(xiàn)海上大中型目標(biāo)的檢測、識別與驗證。
AIS系統(tǒng)作為船和岸、船和船之間的海事安全與通信的開放式數(shù)據(jù)傳輸助航系統(tǒng),通過VHF通信機(jī)可自動交換船位、航速、航向、船名、呼號等重要信息,并通過與互聯(lián)網(wǎng)連接,構(gòu)成海上交管和監(jiān)視網(wǎng)絡(luò),廣泛應(yīng)用于民船、軍用艦艇等海上船舶的通信交流、導(dǎo)航避碰、海上救援等領(lǐng)域[9]。
AIS通信信息中的身份信息為識別海上大中型目標(biāo)提供了開源渠道,通過互聯(lián)網(wǎng)等開源渠道獲取外軍軍用艦艇的身份信息,形成艦艇身份信息庫,結(jié)合庫中目標(biāo)艦艇的身份信息,利用船舶方位查詢網(wǎng)站獲取目標(biāo)艦艇的位置信息,并通過身份信息比對,實現(xiàn)大中型目標(biāo)的檢測和識別。
為了收集整理國外海上大中型目標(biāo)的身份特征信息,通過互聯(lián)網(wǎng)新聞報道、軍事愛好者論壇和國外艦艇門戶網(wǎng)站等開源渠道獲取艦艇名稱和身份等相關(guān)信息,建立艦艇身份信息庫。該信息庫主要包含名稱、編號、特征及活動等四類信息,如圖1所示,名稱類信息包括英文名稱、中文名稱和英文別名;編號類信息包括MMSI號碼(水上移動通信業(yè)務(wù)標(biāo)識碼)、呼號和船舶序號;特征類信息包括船體長度、最大寬度和艦艇類別;活動類型信息包括母港、歷史事件和活動區(qū)域。為保證數(shù)據(jù)庫的準(zhǔn)確性和完整性,信息庫信息在目標(biāo)檢測過程中不斷更新和完善。當(dāng)前艦艇信息庫包含美、日、臺各軍航空母艦、潛艇、兩棲登陸艦、驅(qū)逐艦、瀕海戰(zhàn)斗艦和聯(lián)合高速艦等大中型艦艇526艘。隨著開源信息的不斷收集和整理,信息庫包含的艦艇數(shù)量和信息種類將不斷提升。
圖1 艦艇身份信息結(jié)構(gòu)
根據(jù)AIS網(wǎng)站信息查詢特點及數(shù)據(jù)格式,目標(biāo)發(fā)現(xiàn)及信息自動獲取流程主要分為以下四個步驟:艦艇身份信息獲取、AIS網(wǎng)頁解析、目標(biāo)艦艇特征匹配和艦艇活動信息存儲,如圖2所示。
圖2 目標(biāo)發(fā)現(xiàn)和信息獲取流程圖
大中型艦艇發(fā)現(xiàn)及信息提取主要流程如下所示。
1)選擇所需檢測的艦艇,通過艦艇身份信息庫獲取其MMSI號碼,并在AIS查詢Url庫中選取合適的船舶方位查詢網(wǎng)站,船舶方位查詢中文外文網(wǎng)站如表1所示;
表1 船舶方位查詢網(wǎng)站
2)利用MMSI號碼對相應(yīng)的AIS查詢網(wǎng)站進(jìn)行請求并得到響應(yīng),解析得到目標(biāo)艦艇的位置信息、時間信息、特征信息和圖片信息。如查詢失敗,更新查詢Url,并重新請求,當(dāng)遍歷Url庫仍然未得到解析結(jié)果,對該艦艇的AIS信息進(jìn)行查驗并更新艦艇身份信息庫;
3)根據(jù)網(wǎng)站解析得艦艇的長度、寬度、呼號等身份信息和圖片信息與艦艇身份信息庫中的相關(guān)信息進(jìn)行比對,如差別較大,對該艦艇的AIS信息進(jìn)行查驗并更新艦艇身份信息庫;
4)如果Url反饋信息完整并且艦艇特征匹配成功,保存艦艇出現(xiàn)的時間、所在時區(qū)、經(jīng)緯度、出現(xiàn)區(qū)域和附近港口等信息,否則艦艇位置查詢失敗。
因AIS信息具有時間滯后、身份信息可修改等特點,單純依賴AIS信息并不能保證信息的準(zhǔn)確性,為增加艦艇活動信息的可靠性,還需多種信息來源對艦艇活動事件進(jìn)行比對,輔助驗證事件的同一性。航空母艦、驅(qū)逐艦、兩棲登陸艦等海上大中型目標(biāo)因在國防領(lǐng)域發(fā)揮重要作用而受到社會的廣泛關(guān)注,這些艦艇在駐留港口碼頭、靠港維修補給、出海訪問交流、國防公開教育等活動過程中,當(dāng)?shù)匦侣劽襟w、軍事自媒體、軍事愛好者或者隨艦通訊記者會在網(wǎng)上進(jìn)行相應(yīng)的通訊報道、發(fā)帖和留言,這些獲取信息的網(wǎng)絡(luò)公開渠道為信息可靠性分析提供了另一個重要的信息來源。
隱藏在公開報道中的名稱、時間和位置等關(guān)鍵信息是驗證目標(biāo)艦艇活動的關(guān)鍵,必須對其中的關(guān)鍵信息進(jìn)行識別和提取。因通訊報道信息的權(quán)威性、準(zhǔn)確性和完整性,本文以通訊報道為處理對象。中英新聞通訊中目標(biāo)艦艇活動時間和地點等關(guān)鍵信息的提取,主要由以下三步完成。
1)公開信息獲取。利用艦艇身份信息庫獲取目標(biāo)艦艇的名稱信息,通過商業(yè)搜索引擎,獲取目標(biāo)艦艇最近的公開信息,并保存相關(guān)網(wǎng)址;
2)網(wǎng)頁關(guān)鍵內(nèi)容抽取。結(jié)合網(wǎng)頁解析工具,完成正文、發(fā)表時間等網(wǎng)頁關(guān)鍵內(nèi)容的抽取;
3)關(guān)鍵信息抽取。利用自然語言信息處理工具,實現(xiàn)公開信息正文中艦艇名稱、出現(xiàn)時間和地點等關(guān)鍵信息的獲取。
下面就各步驟進(jìn)行詳細(xì)說明。
首先確定待檢測的目標(biāo)艦艇,從艦艇身份信息庫中獲取中文名稱、英文名稱,利用爬蟲工具通過搜索引擎檢索目標(biāo)艦艇名稱并將檢索結(jié)果以時間排序,同時剔除百度、維基等百科類網(wǎng)址,以當(dāng)前時間為基準(zhǔn),檢索目標(biāo)艦艇近三個月的新聞報道,如果未有相關(guān)信息,則檢索目標(biāo)艦艇別名或簡稱,以此來獲取相關(guān)新聞通訊網(wǎng)址,最后將新聞網(wǎng)址進(jìn)行保存,如圖3所示。
圖3 公開信息獲取流程圖
本文從目標(biāo)艦艇的開源情報信息內(nèi)容要求出發(fā),爬取的網(wǎng)站以英文網(wǎng)站為主,中文網(wǎng)站為輔,重點關(guān)注頁面標(biāo)題、文章作者、發(fā)表時間、正文、關(guān)鍵詞、摘要、圖片、視頻等關(guān)鍵信息,忽略網(wǎng)頁無關(guān)信息。不同語言不同類別的網(wǎng)站語法規(guī)則不太相同,這為網(wǎng)頁適配帶來了額外的工作[10]。
傳統(tǒng)的 Xpath,Css,正則表達(dá)式,Beautifulsoup來解析新聞頁面的時候,網(wǎng)頁源碼中混有大量無用的語法信息,總是會遇到各種問題,嚴(yán)重影響工作進(jìn)度。而開源python庫提供了豐富的網(wǎng)頁信息獲取工具,其中基于提取模板的newspaper庫就是優(yōu)秀代表,不僅自動識別和處理包括中英文在內(nèi)的10多種語言網(wǎng)頁,可以通過自然語言處理相關(guān)技術(shù)自動生成網(wǎng)頁關(guān)鍵詞和摘要。具體應(yīng)用步驟如圖4所示。
圖4 Newspaper提取關(guān)鍵信息流程
目標(biāo)艦艇相關(guān)情報發(fā)生的時間和地點是體現(xiàn)其情報價值的核心要素。在一般的開源新聞報道中,標(biāo)題和正文通常包含關(guān)鍵的時間和地點信息。如何將隱藏在標(biāo)題和正文中的關(guān)鍵信息進(jìn)行正確識別和提取是從公開信息中提取高價值情報的關(guān)鍵。
本文通過斯坦福大學(xué)開發(fā)的開源自然語言處理工具Stanford CoreNLP,抽取標(biāo)題和正文中時間地點信息,該工具支持英文、中文、西班牙語等六種語言的命名實體識別、詞性標(biāo)注、情感分析等功能。在命名實體識別中,時間詞語被標(biāo)注為“DATE”和“TIME”,地點詞語被標(biāo)注為“LOCA?TION”,“CITY”,“COUNTRY”,“STATE OF PROV?INCE”。中文英文時間地點要素識別分別如圖5和圖6所示。
圖5 中文時間和地點要素識別示例
圖6 英文時間和地點要素識別示例
雖然通過檢索艦艇名稱獲取相關(guān)新聞報道,并利用Stanford CoreNLP較好地抽取文中艦艇出現(xiàn)的時間和地點,但是在新聞報道中目標(biāo)艦艇活動信息的時間位置精度和通過AIS獲取的不相同,一般在新聞報道中時間精確到天、地點精確到城市或者港口,而AIS時間地點精度較高,一般時間精確到秒,地點以經(jīng)緯度表示,因此不能判定AIS獲取的艦艇活動事件和新聞報道中的是同一個事件,必須對二者進(jìn)行事件一致性檢驗。事件一致性檢驗是在身份一致性的基礎(chǔ)上,通過時間和地點一致性來判斷是否是同一事件[11]。具體流程如圖7所示。
圖7 事件一致性檢驗流程圖
從AIS獲取的名稱類信息指向性強(qiáng),特指某艦艇,具有唯一性。而在利用名稱通過搜集引擎檢索網(wǎng)頁過程中,因搜索機(jī)制問題,可能出現(xiàn)正文或者標(biāo)題中目標(biāo)艦艇名稱出現(xiàn)了一次,而正文中的事件描述其他艦艇活動情況。為保證新聞報道的參考價值,必須驗證通訊報道中具有活動信息的艦艇與AIS目標(biāo)艦艇是否為同一艦艇,即身份一致性檢驗。
根據(jù)自然語言處理工具處理結(jié)果,如果標(biāo)題和正文僅出現(xiàn)目標(biāo)艦艇的身份信息而未出現(xiàn)其他艦艇,則判定該新聞報道具有較高參考價值,無需人為檢閱,直接進(jìn)行時間和地點一致性檢驗。如果標(biāo)題和正文中不僅出現(xiàn)目標(biāo)艦艇身份信息,還出現(xiàn)其他艦艇身份信息,則無法判斷該通訊報道是否具有參考價值,必須人為審閱對應(yīng)通訊報道,判斷新聞是否描述目標(biāo)艦艇的相關(guān)行動信息。
在進(jìn)行時間一致性檢驗前,必須對時間信息進(jìn)行預(yù)處理。主要分為三步:
1)針對不同時間粒度的規(guī)定。對于文中抽取時間大多數(shù)只具體到日期而無具體時間情況,統(tǒng)一將具體時間定為12:00;
2)將不同時區(qū)時間換算成統(tǒng)一時區(qū)時間。AIS時間通過獲取的時區(qū)符號換算,而文中抽取的時間所在時區(qū)因不確定性較大,因此必須通過詞性標(biāo)注為“DATE”和“TIME”的短語人為確定;
3)統(tǒng)一時間格式。將時間統(tǒng)一為“年:月:日小時:分鐘”格式。
若AIS獲取時間和文中抽取時間之差的絕對值小于3×24h,則通過時間一致性檢驗,否則不通過。之所以選擇3×24h作為判斷標(biāo)準(zhǔn),是由新聞報道的時間滯后性和模糊性所決定的[12]。
AIS獲取的位置精度較高,一般為經(jīng)緯度信息和港口信息,而文中抽取的位置精度較低,一般為城市或港口信息,涵蓋范圍較大。如果AIS獲取的港口在文中抽取位置所在行政區(qū)范圍內(nèi)或者AIS獲取的經(jīng)緯度位于文中出現(xiàn)的海域或者區(qū)域內(nèi),則通過地點一致性檢驗,否則不通過。
尼米茲號航空母艦是美國海軍尼米茲級航空母艦首艦,以第二次世界大戰(zhàn)期間任太平洋戰(zhàn)區(qū)的盟軍總司令,美軍五星上將尼米茲的名字命名,為美軍現(xiàn)役核動力大型航空母,其艦艇身份信息庫資料卡片如圖8所示。
圖8 尼米茲號航空母艦資料卡片
利用尼米茲號航空母艦MMSI號通過爬蟲工具獲取其最近出現(xiàn)時間、地區(qū)、港口、經(jīng)緯度等信息,如圖9所示。
圖9 通過AIS獲取的尼米茲號航空母艦行動信息
將爬取的尼米茲號航空母艦活動信息與通過marine-traffic網(wǎng)站人工檢索的信息,如圖10所示,進(jìn)行比較分析,二者結(jié)果基本一致,證明了爬蟲工具的穩(wěn)定和可靠性。
圖10 AIS信息檢索頁面
首先利用航空母艦簡稱“USS Nimitz”,通過搜索引擎獲取搜索結(jié)果,同時將搜索結(jié)果中百科類、照片類和視頻類網(wǎng)頁信息剔除,然后根據(jù)發(fā)表時間遠(yuǎn)近選取最近的新聞報道,篩選得到于2020年2月22日發(fā)表在網(wǎng)絡(luò)的“USS Nimitz Hosts Junior Navy ROTC Students”新聞稿[13],一篇關(guān)于尼米茲航空母艦邀請高中海軍預(yù)備軍官上艦參觀的新聞報道,并將新聞稿中含有時間和地點等關(guān)鍵信息的第一段文字內(nèi)容單獨提取,最后利用自然語言處理工具將文字中的關(guān)鍵內(nèi)容進(jìn)行標(biāo)注,同時提取相應(yīng)的關(guān)鍵信息,如圖11所示。
圖11 關(guān)鍵信息提取過程
利用MMSI號通過AIS查詢網(wǎng)站獲取的船舶全長、寬度特征信息與照片資料和尼米茲號航空母艦信息相符,同時尼米茲號航空母艦被AIS檢測到的時間為當(dāng)?shù)貢r間2020年2月22日的1:17刻,地點為BREMERTON(布雷默頓,美國華盛頓州港口城市),該港口是尼米茲號航空母艦?zāi)父?。新聞稿中報道的對象是USS Nimitz(CVN68),活動時間為當(dāng)?shù)貢r間2020年2月21日,地點為Puget Sound(普吉特海灣,美國華盛頓州西北部),目的地為Bremer?ton,Washington(華盛頓州布雷默頓)。
從時間上看,尼米茲號航空母艦被AIS檢測到的時間與新聞稿中被報道的時間間隔小于2天,時間較為接近;從空間上看,尼米茲號航空母艦被AIS檢測到出現(xiàn)在布雷默頓港口,該港口恰好位于新聞報道中出現(xiàn)的普吉特海灣,同時新聞中出現(xiàn)的目的地信息——布雷默頓與1天后被AIS檢測到的地點信息一致。結(jié)合以上判斷AIS于2020年2月22日檢測到的尼米茲號航空母艦信息是真實有效的。
本文針對遠(yuǎn)距離和超遠(yuǎn)距離海上大中型目標(biāo)的發(fā)現(xiàn)困難和識別模糊問題,從利用AIS信息的角度提出了一種基于開源情報的海上大中型目標(biāo)檢測和識別方法,同時結(jié)合公開信息報道中出現(xiàn)的目標(biāo)名稱、出現(xiàn)時間和地點,進(jìn)行事件一致性檢驗,增強(qiáng)開源信息的可信度。本文最后通過對真實目標(biāo)的檢測和識別對方法進(jìn)行了實驗評估,實驗結(jié)果表明通過開源渠道對海上大中型目標(biāo)進(jìn)行檢測和識別是可行的。