白 云 李白楊,2 周 艷 李 綱,2
(1. 武漢大學(xué)信息管理學(xué)院 武漢 430072;2.武漢大學(xué)信息資源研究中心 武漢 430072;3.湖北國際旅行衛(wèi)生保健中心 武漢 430072)
隨著我國深入推動“一帶一路”倡議和“走出去”戰(zhàn)略,越來越多的中資企業(yè)在海外投資設(shè)廠,遍布全球的海外企業(yè)、員工和財產(chǎn)所構(gòu)成的海外利益成為我國國家安全和發(fā)展利益的重要組成部分。但是,隨著世界的不確定性趨勢加強,在經(jīng)濟全球化高速發(fā)展的同時,國際形勢與地區(qū)安全態(tài)勢也變幻莫測,對我國海外利益安全構(gòu)成重大風(fēng)險[1]。在這種內(nèi)部安全與外部安全相統(tǒng)一、傳統(tǒng)安全與非傳統(tǒng)安全相交織的形勢下,由于海外安全不在傳統(tǒng)管轄范圍內(nèi),傳統(tǒng)以人力與秘密情報為主的渠道存在對全盤安全態(tài)勢難以掌握和對安全事件相關(guān)的人、事、物難以快速反應(yīng)能力不足的風(fēng)險,這就需要開源情報對傳統(tǒng)情報渠道進行必要的補充。因此,利用公開的多源數(shù)據(jù)集成、融合和分析等方法可以對海外安全場景進行細(xì)粒度的態(tài)勢感知,從而補充和增強風(fēng)險預(yù)測和預(yù)警能力,這對于探索情報學(xué)服務(wù)海外公共安全情報工作具有理論意義和現(xiàn)實價值[2]。
但是,多源數(shù)據(jù)的異構(gòu)、異質(zhì)、多模態(tài)等特征也給數(shù)據(jù)組織和分析帶來障礙,傳統(tǒng)的分析方法對多源數(shù)據(jù)中離散知識的識別和關(guān)聯(lián)較為困難。針對這一問題,本研究在海外公共安全場景下,提出利用實體識別、事件抽取的方法,實現(xiàn)多源數(shù)據(jù)在細(xì)粒度知識實體的關(guān)聯(lián)與融合,進而對海外公共安全事件進行多維度分析,并選擇瓜達爾港的安全場景驗證該方法的可用性。
當(dāng)前,世界三元化趨勢加速發(fā)展,由物理世界(Physical space)、信息空間(Cyberspace)和人類社會(Human society)所構(gòu)成的三元世界影響著人、物、網(wǎng)絡(luò)等實體之間信息流的重塑和調(diào)整,通過獲取、組織、分析和觀測這個復(fù)雜系統(tǒng)中的大數(shù)據(jù)產(chǎn)生和流動,就能夠從中發(fā)現(xiàn)有價值的情報信息[3]。面對龐雜的數(shù)據(jù)來源,如何實現(xiàn)在特定任務(wù)下的多源數(shù)據(jù)融合是關(guān)鍵所在。
1.1海外安全場景下多源數(shù)據(jù)的適用性海外公共安全事件是指發(fā)生在國境外對中國公民、機構(gòu)、資產(chǎn)的安全狀態(tài)造成威脅或損害的突發(fā)事件[4],與傳統(tǒng)意義上的公共安全事件相比,海外公共安全事件具有更加復(fù)雜化、多樣化、影響大等特點,加之跨境管轄、執(zhí)法等問題存在現(xiàn)實障礙,造成目前對海外公共安全事件的應(yīng)急處置手段少、難度大。海外安全場景是特定地區(qū)特定時間范圍內(nèi)所有海外公共安全事件的集合,其包括時空屬性、事件主客體、事件類別、危害情況、傷損情況等多種要素。及時、準(zhǔn)確、全面地獲取海外公共安全事件情報信息,是進行相應(yīng)應(yīng)急處置的重要保障。
根據(jù)蘭德公司[5]的定義,情報渠道一般包括人力情報、地理空間情報、信號情報和開源情報,其中人力、地理空間、信號三種情報源都由專門的情報與安全部門掌控,帶有較強的秘密性特征,這類型情報對特定事件極為準(zhǔn)確,但對海外安全場景各要素的掌握和分析卻有所不足。而開源情報則是政府部門、商業(yè)機構(gòu)乃至民間智庫都可以開展的業(yè)務(wù),決定開源情報有效性的關(guān)鍵因素是數(shù)據(jù)來源和分析方法,可以很好地補充秘密情報渠道的局限性。因此,本文所述的多源數(shù)據(jù)是開源情報中可以合法、公開獲取的不同來源、不同類型、不同結(jié)構(gòu)、不同模態(tài)的數(shù)據(jù)。在美國情報界(Intelligence Community,IC)的情報融合體系中,開源情報已成為美國國防、反恐、科技安全等方面的重要支撐,以國務(wù)院情報研究局、國會圖書館研究部為代表的開源情報服務(wù)也越來越受到重視。
因此,根據(jù)特定安全場景的情報需求對多源數(shù)據(jù)進行采集、組織和分析,能夠有效補充秘密情報渠道的不足。網(wǎng)絡(luò)公開的多源數(shù)據(jù)主要有:①各國政府門戶,包括與海外安全相關(guān)的政策、規(guī)定、指令、報告、通告等;②新聞網(wǎng)站,發(fā)布關(guān)于海外安全事件完整的敘事報道、圖像、錄像等;③社交媒體,擁有最快的事件反饋信息;④專門數(shù)據(jù)庫,衛(wèi)星、海事、航空、氣象等各類型專門開源數(shù)據(jù)庫[6];⑤其他開放數(shù)據(jù),來自研究機構(gòu)已加工整理好的數(shù)據(jù)集。由此可見,公開的多源數(shù)據(jù)對于了解海外公共安全事件的態(tài)勢、趨勢具有很強的適用性,但必須解決其多源異構(gòu)多模態(tài)帶來的分析難題。
1.2海外公共安全場景下多源數(shù)據(jù)的利用方法利用和分析多源數(shù)據(jù)的關(guān)鍵在于知識融合并在此基礎(chǔ)上進行事件抽取。多源數(shù)據(jù)融合可以有效地將核心信息與從多個信息源收到的大量、多樣且有時相互沖突的數(shù)據(jù)相結(jié)合,從而更加準(zhǔn)確地評估復(fù)雜情況。
1.2.1 多源數(shù)據(jù)融合 多源數(shù)據(jù)融合是集成多個信息源,并生成有關(guān)實體、活動或事件的具體而全面的統(tǒng)計估計,以獲得更復(fù)雜、可靠、一致和準(zhǔn)確的信息以提供決策支持的過程。
數(shù)據(jù)融合技術(shù)可以根據(jù)數(shù)學(xué)方法分為三大類[7]:①基于概率的方法,包括貝葉斯理論、馬爾可夫鏈和蒙特卡洛方法;②基于人工智能的方法,包括監(jiān)督機器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、模糊邏輯和卡爾曼濾波器;③基于證據(jù)的數(shù)據(jù)融合理論,信念函數(shù)理論[8],也被稱為證據(jù)理論(Evidence Theory)或Dempster-Shafer理論(DST),是一個用于建模認(rèn)知不確定性的一般框架。也可以根據(jù)數(shù)據(jù)空間分為三類[9]:①網(wǎng)絡(luò)-物理(Cyber-Physical)空間融合,常用方法有:加權(quán)平均、貝葉斯方法、模糊集合論、粗糙集、隨機集合論等;②網(wǎng)絡(luò)-社會(Cyber-Social)空間融合,常用方法有:主成分分析、奇異值分解、非負(fù)矩陣分解等;③網(wǎng)絡(luò)-物理-社會(Cyber-Physical-Social)空間融合,常用模型有:基于張量的統(tǒng)一融合(TUF)模型、多元多步過渡張量(M2T2)模型、網(wǎng)絡(luò)-物理-社會轉(zhuǎn)換張量(CPST2)模型等。
多源數(shù)據(jù)融合框架經(jīng)歷了一系列的發(fā)展,包括早期的TheJointDirectorsofLaboratories1991年引入的JDL數(shù)據(jù)融合過程模型[10],將數(shù)據(jù)融合劃分為了5個層次,為不同領(lǐng)域的數(shù)據(jù)融合提供了一個較為統(tǒng)一的流程,明確了數(shù)據(jù)融合的過程、功能及可用技術(shù);Bedworth等[11]提出強調(diào)較低級別處理功能的瀑布融合模型,并在英國國防數(shù)據(jù)融合社區(qū)中得到了廣泛的應(yīng)用;Boyd模型[12](OODA)是一種基于軍事策略的快速適應(yīng)方法,用于態(tài)勢感知的決策支持系統(tǒng)與融合系統(tǒng);Bedworth等[13]在已有模型基礎(chǔ)上提出Omnibus模型,用于表征和構(gòu)建整個數(shù)據(jù)融合系統(tǒng);分布式數(shù)據(jù)融合框架(DFuse)[14]支持異構(gòu)自組織無線傳感器網(wǎng)絡(luò)中的數(shù)據(jù)融合,將應(yīng)用程序建模為數(shù)據(jù)源、融合點和數(shù)據(jù)接收器的任務(wù)流。在實際應(yīng)用中,Yerva等[15]從Twitter和氣象傳感器數(shù)據(jù)中提取與天氣相關(guān)的情緒信息。該Cyber-Physical空間融合框架能夠分析推文消息以根據(jù)日期、天氣和位置提取人們的情緒;Kalamkar等[16]融合來自不同來源(如臨床資料庫、傳感設(shè)備、歷史或文本數(shù)據(jù))的數(shù)據(jù)并提出了醫(yī)療保健領(lǐng)域的數(shù)據(jù)融合架構(gòu)。
1.2.2 事件抽取 事件抽取[17]的目標(biāo)即自動化地從非結(jié)構(gòu)化的信息中完成上述信息的獲取,并結(jié)構(gòu)化進行展示。事件抽取是信息抽取領(lǐng)域中一項重要且具有挑戰(zhàn)性的任務(wù)。其可以為知識庫構(gòu)建,問答以及語言理解任務(wù)提供有效的結(jié)構(gòu)化信息。
第一,事件識別和抽?。簭拿枋鍪录畔⒌奈谋局凶R別并抽取出事件信息并以結(jié)構(gòu)化的形式呈現(xiàn)出來,包括發(fā)生的時間、地點、參與角色以及與之相關(guān)的動作或者狀態(tài)的改變。
第二,事件監(jiān)測和追蹤:事件檢測與追蹤旨在將文本新聞流按照其報道的事件進行組織,為傳統(tǒng)媒體多種來源的新聞監(jiān)控提供核心技術(shù),以便讓用戶了解新聞及其發(fā)展。具體而言,事件發(fā)現(xiàn)與跟蹤包括3個主要任務(wù):分割、發(fā)現(xiàn)和跟蹤,將新聞文本分解為事件,發(fā)現(xiàn)新的(不可預(yù)見的)事件,并跟蹤以前報道事件的發(fā)展。事件發(fā)現(xiàn)任務(wù)又可細(xì)分為歷史事件發(fā)現(xiàn)和在線事件發(fā)現(xiàn)兩種形式,前者目標(biāo)是從按時間排序的新聞文檔中發(fā)現(xiàn)以前沒有識別的事件,后者則是從實時新聞流中實時發(fā)現(xiàn)新的事件[18]。
2.1基于“事件-主題-相關(guān)者”的多源數(shù)據(jù)融合框架概述位于巴基斯坦俾路支省的瓜達爾港項目是我國援建的重大海外項目之一,但由于俾路支省長期經(jīng)濟欠發(fā)達、基礎(chǔ)設(shè)施極為落后、部落沖突不斷,加之外部勢力的干預(yù)使該地區(qū)安全局勢堪憂。在中國援建瓜達爾港以來,該地區(qū)嚴(yán)重公共安全事件頻頻發(fā)生,包括武裝襲擊、綁架、游行示威等。同時,美、英、印等國也在瓜達爾港活動頻繁,對該地區(qū)的安全態(tài)勢、社情、輿情等有一定的影響。
在這種背景下,利用多源數(shù)據(jù)的組織與分析能夠及時全面地了解和掌握瓜達爾港的安全態(tài)勢、輿情、利益相關(guān)者等信息,有助于維護我國海外戰(zhàn)略利益,能夠為我國該地區(qū)的人員、機構(gòu)提供有價值的安全信息。該場景下可以公開獲取的數(shù)據(jù)源包括各國政府機構(gòu)網(wǎng)站、新聞媒體、社交媒體、智庫研究報告、地理信息數(shù)據(jù)、氣象數(shù)據(jù)、海事數(shù)據(jù)等,但數(shù)據(jù)獲取和分析難度存在較大差異。本文針對公共安全的應(yīng)急情報需求,選擇數(shù)據(jù)可靠性較高、獲取難度相對較小的政府網(wǎng)站及新聞媒體和數(shù)據(jù)即時性、廣泛性較強的社交媒體作為主要數(shù)據(jù)源開展實驗,重點是構(gòu)建一個面向開源情報服務(wù)的多源數(shù)據(jù)融合框架,如圖1所示:①采集瓜達爾港相關(guān)數(shù)據(jù)后進行初步數(shù)據(jù)處理獲得原始可用數(shù)據(jù)集;②在原始數(shù)據(jù)集的基礎(chǔ)上獲取事件結(jié)構(gòu)化組織結(jié)果,包括用于媒體分析和情感計算的事件源、用于刻畫事件的基本描述、標(biāo)志事件內(nèi)含屬性的事件主題和事件利益相關(guān)者,從而獲得瓜達爾港安全事件數(shù)據(jù)集;③針對上個步驟的結(jié)果進行主題分析、利益相關(guān)者分析、媒體來源分析和情感計算并根據(jù)分析結(jié)果給出相應(yīng)的治理建議。
圖1 海外安全場景下多源事件組織與分析框架
2.2關(guān)鍵技術(shù)與方法本框架主要采用四種關(guān)鍵技術(shù)方法實現(xiàn)面向多源數(shù)據(jù)融合、組織、分析的任務(wù)需求,包括:
2.2.1 事件聚類與分類 事件(Event)是海外公共安全場景的基本信息單元,其定義為特定的人、物在特定時間和特定地點相互作用的客觀事實。事件的描述一般是句子級的文本,在話題檢測與跟蹤(Topic Detection Tracking,TDT)中,事件是指關(guān)于某一主題的一組相關(guān)描述,這個主題可以是由分類或聚類形成的。一個主題事件由多個實體、動作、狀態(tài)等要素組成,其描述信息通常分散在一個或多個文檔中,主題事件抽取[19]的關(guān)鍵是如何確定描述同一個主題事件的文檔集合,以及如何通過篇章內(nèi)或跨篇章的理解技術(shù)將這些集合中分散的主題事件片段進行歸并,本研究采用事件描述框架來表示主題事件的基本組成以及各成分間的聯(lián)系。在事件描述框架基礎(chǔ)上,通過定義結(jié)構(gòu)化、層次化的事件框架實現(xiàn)事件屬性的抽取,利用框架來概括事件信息,表達主題事件的不同特征[20]。
在事件的聚類與分類過程中,主要采取兩種技術(shù)方法:一是基于事件描述框架的分類,事件描述框架包括個人、組織、狀態(tài)、時間、空間等多重屬性,通過標(biāo)注、提取和計算屬性之間的關(guān)系;二是主題相似度計算,通過主題提取和計算主題向量之間的相似度構(gòu)建事件相似度矩陣,實現(xiàn)不同事件特征在同一主題的聚類和關(guān)聯(lián),以揭示事件的演化過程。
2.2.2 基于復(fù)雜網(wǎng)絡(luò)的關(guān)聯(lián)與融合 現(xiàn)實生活中,許多復(fù)雜系統(tǒng)(例如電力系統(tǒng)、航空網(wǎng)絡(luò)、計算機網(wǎng)絡(luò)以及社交網(wǎng)絡(luò)等)都可以建模成復(fù)雜網(wǎng)絡(luò)進行分析。錢學(xué)森對于復(fù)雜網(wǎng)絡(luò)給出了一種嚴(yán)格定義:具有自組織、自相似、吸引子、小世界、無標(biāo)度中部分或全部性質(zhì)的網(wǎng)絡(luò)稱之為復(fù)雜網(wǎng)絡(luò)[21]。
對于海外公共安全場景而言,利用復(fù)雜網(wǎng)絡(luò)能夠在離散的多源數(shù)據(jù)中發(fā)現(xiàn)一些特定事件要素的關(guān)聯(lián)性,并根據(jù)其關(guān)聯(lián)性的強弱給出事件中利益相關(guān)者的位置。網(wǎng)絡(luò)中與其他節(jié)點沒有連接的節(jié)點稱作孤立節(jié)點[22],往往代表重要度較低的組織/個人;網(wǎng)絡(luò)中與眾多節(jié)點相連接的節(jié)點稱作超級節(jié)點,一般是網(wǎng)絡(luò)中的“樞紐”,代表重要度高的組織/個人。
2.2.3 利益相關(guān)者分析 利益相關(guān)者分析(Stakeholder Analysis)是針對特定主題下的組織、機構(gòu)、人進行二次分析,以獲取本區(qū)域同一主題下的利益相關(guān)者,在安全事件發(fā)生后,為決策者提供快速情報反應(yīng)[23],對于識別重大利益相關(guān)者的影響及制定戰(zhàn)略具有重要意義[24]。在海外公共安全場景下,事件的利益相關(guān)者是指與事件有一定利益關(guān)系的個人或組織群體,可能是事件發(fā)生地內(nèi)部的(如當(dāng)?shù)卣?、人民、組織等),也可能是事件發(fā)生地外部的(如其他國家政府或商業(yè)組織或個人等)。利益相關(guān)者能夠影響組織,他們的意見一定要作為決策時需要考慮的因素。但是,所有利益相關(guān)者不可能對所有問題保持意見一致,其中一些群體要比另一些群體的影響力更大,這是如何平衡各方利益并為戰(zhàn)略制定考慮的關(guān)鍵問題。在巴基斯坦瓜達爾港的安全場景中,利益相關(guān)者既包括美、英、印、日等國家勢力,也包括巴基斯坦塔利班、俾路支解放軍等本土武裝勢力,所有相關(guān)者都是影響安全局勢的要素之一。
2.2.4 情感計算 文本情感計算[25]側(cè)重研究情感狀態(tài)與文本信息之間的對應(yīng)關(guān)系,提供人類情感狀態(tài)的線索。文本信息采集模塊通過網(wǎng)頁爬蟲工具獲得情感評論文本(新聞),并傳遞到情感特征提取模塊,將新聞中包含的自然語言文本轉(zhuǎn)化為計算機能夠識別和處理的形式,并通過情感信息分類模塊得到計算結(jié)果。
3.1數(shù)據(jù)采集針對瓜達爾港公共安全信息需求,本文設(shè)計了多源數(shù)據(jù)的采集策略,主要從政府門戶、新聞網(wǎng)站、社交媒體、專題數(shù)據(jù)庫等來源采集。以瓜達爾港為事件發(fā)生地進行數(shù)據(jù)檢索,時間范圍為2015年1月1日到2020年10月1日,從不同來源采集相關(guān)數(shù)據(jù)并進行數(shù)據(jù)清洗,提取出有效數(shù)據(jù)。
a.政府門戶。包括巴基斯坦政府官方網(wǎng)站(pakistan.gov.pk)、巴基斯坦內(nèi)政部(interior.gov.pk)、巴基斯坦總理辦公室(pmo.gov.pk)、巴基斯坦外交部(mofa.gov.pk)等及其他相關(guān)國家政府門戶網(wǎng)站,例如美國政府官方網(wǎng)站(usa.gov)、英國政府官方網(wǎng)站(gov.uk)等,共采集到173條有效數(shù)據(jù)。
b.新聞網(wǎng)站。按照利益高度相關(guān)國別/地區(qū)確定作為數(shù)據(jù)源的媒體網(wǎng)站,此外,選取全球主流新聞媒體網(wǎng)站作為數(shù)據(jù)源補充,包括巴基斯坦財經(jīng)日報(brecorder.com)、巴基斯坦每日時報(dailytimes.com.pk)、巴基斯坦電訊報(pakistantelegraph.com)、巴基斯坦觀察者(pakobserver.net)、BBC News(bbc.com)、中國日報(cn.chinadaily.com.cn)等,共采集到329條有效數(shù)據(jù)。
c.社交媒體。包括Twitter,共采集到13 043條有效數(shù)據(jù)。
d.GDELT項目是全球人類社會的實時網(wǎng)絡(luò)圖和數(shù)據(jù)庫,用于開放研究。在GDELT[26]全球知識圖數(shù)據(jù)表中,每個記錄都有27個字段,以CAMEO[27]格式獲取與特定事件有關(guān)的信息,共采集到1 021條有效數(shù)據(jù)。
3.2數(shù)據(jù)融合本文將海外安全事件定義為特定時間在特定地點發(fā)生的特定事件。由于存在多個數(shù)據(jù)來源,每一個特定事件都可能出現(xiàn)在不同數(shù)據(jù)源中,不同數(shù)據(jù)源通常包含有關(guān)同一事件的關(guān)鍵性信息重復(fù),而不同數(shù)據(jù)源對事件描述的具體細(xì)節(jié)可能不盡相同,因此,快速而有效地合并不同來源的事件描述并融合成新的結(jié)構(gòu)化事件簡明描述對于事件分析相當(dāng)重要。安全事件抽取和融合的主要步驟包括:①識別文本中提到的各事件所在位置;②識別同一事件不同角度的事件描述;③將同一事件的不同事件描述融合并生成結(jié)構(gòu)化描述。傳統(tǒng)媒體內(nèi)容通常包含詳細(xì)的新聞特征,即when,where,who,whom,where[28]。由于Twitter具有短文本特性,因此Twitter的新聞特征往往分布在不同的帖子中,難以對Twitter進行深入的數(shù)據(jù)分析。在此背景下,本文選擇將政府門戶、新聞網(wǎng)站、社交媒體、專題數(shù)據(jù)庫作為主要分析數(shù)據(jù)源,Twitter數(shù)據(jù)作為事件描述的補充。為達到使用統(tǒng)一的事件描述框架將多來源新聞數(shù)據(jù)、社交媒體數(shù)據(jù)與專題數(shù)據(jù)庫數(shù)據(jù)組織統(tǒng)一的目的,對采集到的多源數(shù)據(jù)進行實體識別,解構(gòu)數(shù)據(jù)中的時間、地點、組織、人物、數(shù)字、專有名詞等實體,參考GDELT專題數(shù)據(jù)庫的數(shù)據(jù)組織方式,選擇共10個基本屬性進行事件結(jié)構(gòu)化組織,如表1所示:
表1 安全事件描述框架屬性表
續(xù)表1 安全事件描述框架屬性表
3.3數(shù)據(jù)分析按照前文定義的事件描述框架,融合政府門戶、新聞網(wǎng)站、社交媒體、專題數(shù)據(jù)庫采集到的數(shù)據(jù),共提取出542條事件數(shù)據(jù)。
3.3.1 數(shù)據(jù)概況 表2為事件數(shù)據(jù)按年度歸類后的數(shù)據(jù)分布情況。圖2為事件數(shù)據(jù)按月度歸類后的數(shù)據(jù)分布情況。通過觀察某些數(shù)據(jù)量劇增的年份或月份,可以獲知瓜達爾港該時間點發(fā)生相關(guān)事件的全球關(guān)注度和事件影響。例如,表2中2015-2017年度的數(shù)據(jù)量較大,導(dǎo)致瓜達爾港相關(guān)數(shù)據(jù)量劇增,其標(biāo)志性事件可能為:2015年巴方將把瓜達爾港2000畝土地租賃給中方,為期43年,用于建設(shè)(瓜達爾港)首個經(jīng)濟特區(qū),后續(xù)幾年因此成為“中巴走廊”建設(shè)的關(guān)鍵時期。
圖2 數(shù)據(jù)分布(月度)
表2 數(shù)據(jù)分布(年度)
按事件數(shù)據(jù)對利益相關(guān)者提取(包括個人、組織、專有名詞)。分別計算個人/組織/專有名詞的詞頻,對結(jié)果進行直方圖處理,并丟棄僅出現(xiàn)一次的個人/組織/專有名詞,以消除大多數(shù)誤匹配。其中只出現(xiàn)一次的個人為947個,組織為790個,專有名詞為2 786個。剩余個人數(shù)目為1 283,組織數(shù)目為1 169,專有名詞數(shù)目為3501個。
同理,提取事件數(shù)據(jù)包含的主題列表。這些主題包含92個0級主題(例如:Leader),123個1級主題(例如:ENV_COAL),848個2級主題(例如:TAX_ETHNICITY_CHINESE),314個3級主題(如WB_1803_TRANSPORT_INFRASTRUCTURE),以及132個4級、98個5級、46個6級、9個7級、1個8級主題。
3.3.2 事件主題提取 事件主題是安全事件的重要特性,基于海外安全場景的事件主題聚類分析能夠揭示事件之間的隱含關(guān)系以及海外安全維護需要著眼的關(guān)鍵主題類別。事件主題分布為0~8級,其中大部分衍生主題可視為0級主題的下層分類,因此可以根據(jù)0級主題對事件數(shù)據(jù)進行聚類。
對542個事件進行0級主題提取,提取結(jié)果如表3所示。
表3 主題提取
使用主題向量相似度計算方法:
(1)
其中,common(A,B)是A與B的所有匹配片段的長度之和,len(A),len(B)是A與B向量的長度。相似度取值區(qū)間為[0,1]。
根據(jù)公式(1)根據(jù)獲得的主題提取0級歸類列表計算各主題向量之間的相似度,并構(gòu)建出基于主題的事件相似度矩陣(如表4所示)。表頭為事件唯一標(biāo)識符(GKGRECORDID)。
表4 相似度矩陣(示例)
使用AP聚類算法[30]在相似矩陣的基礎(chǔ)上進行聚類。AP聚類是一種基于圖論的聚方法,將全部樣本看作網(wǎng)絡(luò)的節(jié)點,然后通過網(wǎng)絡(luò)中各條邊的消息傳遞計算出各樣本的聚類中心。聚類過程中,共有兩種消息在各節(jié)點間傳遞,分別是吸引度和歸屬類度。AP算法通過迭代過程不斷更新每一個點的吸引度和歸屬度值,直到產(chǎn)生m個高質(zhì)量的Exemplar(類似于質(zhì)心),同時將其余的數(shù)據(jù)點分配到相應(yīng)的聚類中。
由于無真實簇標(biāo)簽,本文采用輪廓系數(shù)[31](Silhouette Coefficient)和Calinski-Harabasz指數(shù)[32](也稱為方差比率標(biāo)準(zhǔn))來衡量聚類效果。根據(jù)圖3和圖4,選擇阻尼系數(shù)(Damping)為0.70時的聚類結(jié)果。
圖3 主題聚類效果-輪廓系數(shù)
圖4 主題聚類效果-CH指數(shù)
3.3.3 事件利益相關(guān)者提取 對542條事件數(shù)據(jù)提取事件參與者(個人、組織與專有名詞),結(jié)果如表5所示。對利益相關(guān)者中的個人、組織、專有名詞(主要是重大項目)分別進行聚類以構(gòu)建利益相關(guān)者網(wǎng)絡(luò),并結(jié)合社會關(guān)系網(wǎng)絡(luò)分析和事件主題聚類結(jié)果,識別出利益相關(guān)者中的核心組織、項目以及潛在的參與者和與之相關(guān)的其他相關(guān)者或事件。
表5 利益相關(guān)者聚類結(jié)果示例
4.1基于“事件-主題-相關(guān)者”框架的安全態(tài)勢分析作為“一帶一路”的戰(zhàn)略節(jié)點之一,瓜達爾港是一座資金、技術(shù)都來自中國的完全中資建設(shè)港口,同時是進口石油運輸新航線的關(guān)鍵樞紐,除航運、陸運外,空運也是瓜達爾港的重要交通方式。在此背景下,本文選擇以下三個核心事件主題:能源、基建、運輸并根據(jù)個人、組織、專有名詞分別構(gòu)建事件利益相關(guān)者網(wǎng)絡(luò)進行重點分析:
4.1.1 能源 瓜達爾港作為進口石油的關(guān)鍵節(jié)點,對中國的能源戰(zhàn)略有重大意義。港口臨近主要石油產(chǎn)地波斯灣,航運距離相比馬六甲海峽路線縮短80%以上,通過連接瓜達爾港和新疆地區(qū)的輸油管道以保證資源供應(yīng)的安全。以"Gas"為篩選詞對專有名詞聚類結(jié)果進行劃分,分析得到,能源主題主要涉及項目:伊朗-巴基斯坦天然氣管道、瓜達爾-納瓦布沙管線項目、奧巴馬核彈道導(dǎo)彈計劃等;涉及的國家:中國、印度、伊朗、法國、俄羅斯等;涉及公司:Sui南方天然氣公司(SSGC)、波斯石油和天然氣工業(yè)發(fā)展有限公司、伊朗國家石油公司、德國施泰根博閣酒店、洲際燃?xì)庀到y(tǒng)(IGGS)、塔德比爾能源發(fā)展集團;涉及組織:歐洲議會、拉烏爾·沃倫伯格世界反對種族主義自由運動組織、伊朗可再生能源組織。結(jié)合分析結(jié)果與相關(guān)新聞源可得出以下結(jié)論:由于巴基斯坦國內(nèi)能源缺乏且局勢動蕩,而天然氣作為巴基斯坦年均消耗量最大的能源,需求量近幾年呈急劇增長,巴基斯坦現(xiàn)存能源儲備無法保證長期穩(wěn)定供應(yīng),因此巴方亟需大宗能源提供方。伊朗—巴基斯坦天然氣項目也被稱為“和平管道”,最初計劃將天然氣通過管道從伊朗出口到印度和巴基斯坦,瓜達爾—納瓦布沙天然氣管道項目是伊巴天然氣管道項目在巴境內(nèi)部分,項目原計劃于2014年12月完工,但因伊朗遭受美國制裁而擱置。俄羅斯日前已替代伊朗,填補了向巴基斯坦市場供應(yīng)液化天然氣的空缺。瓜達爾港作為能源運輸線的關(guān)鍵節(jié)點,不僅涉及各國的經(jīng)濟博弈,更是大國間政治博弈的重要著手點。為保證瓜達爾港能源供應(yīng)的穩(wěn)定性,應(yīng)穩(wěn)步推進建設(shè)原油儲備設(shè)施和煉油廠,并做好瓜達爾港和新疆喀什的鐵路及輸油管道的安全維護。
4.1.2 基建 瓜達爾港的建設(shè)是一個綜合性開發(fā)的系統(tǒng)工程,最終目的是形成一個包括“港口+園區(qū)+城區(qū)”的綜合體。瓜達爾港作為中巴經(jīng)濟走廊的樞紐和巴基斯坦通往波斯灣和阿拉伯海的大門,與“海上絲綢之路”相接,目前,瓜達爾港港口運營、自由區(qū)開發(fā)、交通基礎(chǔ)設(shè)施和社會民生項目建設(shè)取得重要成果。以"Construction"為篩選詞對專有名詞聚類結(jié)果進行劃分,分析得到,基建主題主要涉及項目:中-巴經(jīng)濟走廊、絲綢之路、一帶一路;涉及的國家或地域:中國、斯里蘭卡、巴基斯坦、土耳其-伊斯坦布爾機場、波斯灣;涉及公司:天津電力建設(shè)公司、中國海外港口控股公司、中國交通建設(shè)總公司、廣東龍豪航空集團、中國中樞電源有限公司(CPHGC)、西北電力設(shè)計院有限公司、國家電力投資有限公司(SPIC);涉及組織:航空航天中心、國家電力監(jiān)管局、航空機場建設(shè)中心數(shù)據(jù)庫、國際航空運輸協(xié)會、巴基斯坦航空聯(lián)合體。結(jié)合分析結(jié)果與相關(guān)新聞源可得出以下結(jié)論:由中國海外港口控股有限公司接管的瓜達爾港是一個完全中資設(shè)計、投資、承建、運營的港口。例如電力能源建設(shè)方面,巴基斯坦瓜達爾300兆瓦燃煤電廠項目作為瓜達爾港唯一能源項目,由中國交通建設(shè)總公司投資,西北電力設(shè)計院有限公司設(shè)計,天津電力建設(shè)公司承建,國家電力監(jiān)管局監(jiān)督,為當(dāng)?shù)鼗椖拷ㄔO(shè)運營提供電力能源保障,有效解決了當(dāng)?shù)匕l(fā)展用電困難問題。國際社會對于瓜達爾港基建的主要關(guān)注點是基礎(chǔ)配套能源設(shè)施(電力)和機場的建設(shè)情況,后續(xù)可將這兩個項目作為瓜達爾港建設(shè)作為援建的重大成果進行多方位重點展示以提升我國的國家形象。
4.1.3 運輸 援巴基斯坦瓜達爾新國際機場為3C級軍民合用國際機場,項目由巴基斯坦政府與中國合資建設(shè),是中-巴經(jīng)濟走廊建設(shè)重要項目。項目建成后,將成為該地區(qū)現(xiàn)代化標(biāo)志性建筑,顯著改善瓜達爾地區(qū)的基礎(chǔ)設(shè)施和對外交通條件,并為港口和城市未來發(fā)展打下更好的基礎(chǔ)。以"Airport"為篩選詞對專有名詞聚類結(jié)果進行劃分,分析得到,運輸主題主要涉及項目:中-巴經(jīng)濟走廊、五年計劃、航空絲綢之路;涉及的國家:中國、印度、沙特阿拉伯;涉及的機場:帕坦科特機場、伊斯蘭堡國際機場、卡拉奇國際機場、阿卜杜勒阿齊茲國王國際機場、馬斯喀特國際機場;涉及公司:巴基斯坦國際航空公司、Habib銀行、沙欣航空;涉及組織:巴基斯坦選舉委員會、疏散信托委員會、邊境工程組織、穆罕默德·哈比中心、國際航空運輸協(xié)會、開伯爾政治代理機構(gòu)、奧拉茲凱政治代理機構(gòu)、沙特旅游業(yè)委員會、伊斯蘭教法法院。結(jié)合分析結(jié)果與相關(guān)新聞源可得出以下結(jié)論:瓜達爾新國際機場由中國交通建設(shè)公司設(shè)計建造,巴基斯坦民航局管理和運營,中國、巴基斯坦和阿曼的合資企業(yè)擁有,不僅包含國內(nèi)航線(伊斯蘭堡國際機場、卡拉奇國際機場),也包含國際航線(帕坦科特機場、阿卜杜勒阿齊茲國王國際機場、馬斯喀特國際機場)。瓜達爾新國際機場承擔(dān)港口的空運職能,將成為連接巴基斯坦國內(nèi)和中東主要城市的重要交通基礎(chǔ)并有效提升中巴經(jīng)貿(mào)合作關(guān)系。結(jié)合涉及組織中的沙特旅游業(yè)委員會來看,沙特在瓜達爾港不僅以投資大型能源項目形式參與走廊建設(shè),還積極通過發(fā)展航線帶動瓜達爾的旅游業(yè)。在平等和互利基礎(chǔ)上構(gòu)建三邊合作關(guān)系,將瓜達爾港打造為多邊合作平臺有利于長期穩(wěn)固維護我國海外利益。
4.2媒體來源分析與情感計算針對以瓜達爾港為關(guān)鍵詞采集的相關(guān)新聞進行媒體來源分析,分析瓜達爾港相關(guān)的新聞報道中折射出的瓜達爾港形象及其演變趨勢,挖掘各國公共媒體對瓜達爾港的關(guān)注熱點及態(tài)度,其中主要涉及的國家有:巴基斯坦、印度、美國、中國、英國、英國,相關(guān)新聞數(shù)量分布如圖5所示。
圖5 新聞報道來源國家分布
針對以瓜達爾港為關(guān)鍵詞采集的相關(guān)新聞,對不同國家和時間節(jié)點的新聞集進行文本情感計算,分別提取中新聞集中情緒最正面與最負(fù)面的部分,按照來源國家進行劃分,如圖6所示,針對瓜達爾港的正面報道主要來自于巴基斯坦和中國,而負(fù)面報道則主要來自于美國、印度和澳大利亞。
圖6 極性報道來源國家
將媒體來源分析與情感計算的結(jié)果結(jié)合可得出以下結(jié)論/建議:除巴基斯坦本國和中國之外,印度、美國媒體對于瓜達爾港較為關(guān)注,其中印度與美國的媒體報道主要呈現(xiàn)負(fù)面態(tài)度。結(jié)合印度與美國在瓜達爾港建設(shè)過程中采取的阻撓行為,為加強中國在瓜達爾港的海外利益保護,應(yīng)提升對美國和印度在瓜達爾港相關(guān)問題上采取措施的關(guān)注度,并針對兩國媒體報道中提到的問題做出正面回復(fù)以維護我國的國際形象。
本文面向海外安全場景的多源數(shù)據(jù)組織與分析方法。a.根據(jù)三元世界理論解析海外安全事件場景情報源;面向多源異構(gòu)的開源數(shù)據(jù),提出統(tǒng)一的事件描述框架和基于“事件-主題-相關(guān)組織/人”模型的多維特征分析方法體系;b.基于本文提出的方法,針對瓜達爾港相關(guān)的開源、多源、異構(gòu)數(shù)據(jù)進行細(xì)粒度多維分析。借助于事件利益相關(guān)者多層網(wǎng)絡(luò),能夠更精準(zhǔn)定位到相關(guān)聯(lián)的特定組織或個人,有利于政府針對性地制定政策與方案。同時,基于事件及地區(qū)的事件情感走勢分析,能夠揭示地區(qū)安全事件輿情的演化規(guī)律,有助于相關(guān)部門進行輿情管理。因此,本文提出的海外安全場景的多源數(shù)據(jù)組織與分析方法能夠?qū)M獍踩珗鼍斑M行細(xì)粒度的態(tài)勢感知,從而增強風(fēng)險預(yù)測和預(yù)警能力。
目前,本文只針對瓜達爾港的相關(guān)數(shù)據(jù)進行了詳細(xì)分析,未來將進一步展開對西哈努克港、皎漂港、漢班托塔港、吉布提港、比雷埃夫斯港的相關(guān)數(shù)據(jù)分析工作,形成對我國海外戰(zhàn)略利益的情報支持與服務(wù)。另外,本文只針對開源文本數(shù)據(jù)進行分析,下一步將優(yōu)化分析方法,加入對視頻、圖片等其他數(shù)據(jù)的多模態(tài)語義分析。