李永群 應(yīng)萬(wàn)明 袁飛 韓玉春
摘 要 運(yùn)用數(shù)據(jù)挖掘的方法,對(duì)全球恐怖主義數(shù)據(jù)庫(kù)(以下簡(jiǎn)稱(chēng)GTD)進(jìn)行了量化分析.建立了基于KNN鄰近算法的恐怖襲擊事件量化分級(jí)模型和基于Kmeans聚類(lèi)算法的恐怖襲擊事件分類(lèi)模型.此外,對(duì)近三年來(lái)恐怖襲擊事件發(fā)生的主要原因、時(shí)空特性、蔓延特性以及級(jí)別分布規(guī)律進(jìn)行了分析.最后,基于建立的模型和分析結(jié)論,對(duì)未來(lái)全球和某些重點(diǎn)地區(qū)的反恐態(tài)勢(shì)進(jìn)行了預(yù)測(cè)分析,給出了具有針對(duì)性的建議.
關(guān)鍵詞 應(yīng)用統(tǒng)計(jì)數(shù)學(xué);恐怖襲擊;數(shù)據(jù)挖掘;KNN;Kmeans
中圖分類(lèi)號(hào) F063.3; O213?????????? 文獻(xiàn)標(biāo)識(shí)碼 A
Data Analysis of GTD Based on Data Mining
LI Yongqun1, YING Wanming2, YUAN Fei3,HAN? Yuchun3
(1.College of Mathematics and Econometrics, Hunan University, Changsha, Hunan 410082, China;
2.College of Finance and Statistics, Hunan University, Changsha, Hunan 410082, China;
3.College of Electrical and Information Engineering, Hunan University, Changsha, Hunan 410082, China)
Abstract Use data mining methods to investigate the Global Terrorism Database (GTD). Quantitative grading model based on KNN algorithm and classification model based on Kmeans clustering algorithm about terrorist attacks are established respectively. Furthermore, the main reasons, time and space characteristics, spread features and level distributions of terrorist attacks in the past three years are studied and analyzed. According to this papers models and conclusions, the global and some key regions antiterrorism situations in the future are researched and judged, and recommendations for the fight against? terrorism are given.
Key words applied statistical mathematics;terrorist attack; data mining; KNN; Kmeans
1 引 言
恐怖襲擊是指極端分子或組織人為制造的、針對(duì)但不僅限于平民及民用設(shè)施的、不符合國(guó)際道義的攻擊行為.它不僅具有極大的殺傷性與破壞力,能直接造成巨大的人員傷亡和財(cái)產(chǎn)損失,而且還給人們帶來(lái)巨大的心理壓力,造成一定程度的社會(huì)動(dòng)蕩,妨礙正常的工作與生活秩序,進(jìn)而極大地阻礙經(jīng)濟(jì)的發(fā)展.如“9.11”事件,遇難者總數(shù)高達(dá)2996人,給美國(guó)及全球經(jīng)濟(jì)帶來(lái)巨大震蕩及損失.
自從20世紀(jì)90年代以來(lái),尤其是2001年美國(guó)“9.11”事件之后,反恐形勢(shì)日益嚴(yán)峻.恐怖主義是人類(lèi)的共同威脅,打擊恐怖主義是每個(gè)國(guó)家都應(yīng)該承擔(dān)的責(zé)任.各國(guó)政府及聯(lián)合國(guó)等國(guó)際組織也不斷加強(qiáng)合作,采取多種手段和措施防范和打擊一切形式的恐怖主義.恐怖分子策劃實(shí)施的每一次襲擊,雖然表面上看具有偶然性,但也是經(jīng)過(guò)預(yù)謀和計(jì)劃的.所以,對(duì)恐怖襲擊事件相關(guān)數(shù)據(jù)的深入分析和挖掘有助于加深人們對(duì)恐怖主義的認(rèn)識(shí),為反恐防恐提供有價(jià)值的信息支持.
當(dāng)前,有關(guān)數(shù)據(jù)挖掘方法在恐怖襲擊領(lǐng)域中的研究和應(yīng)用越來(lái)越受到專(zhuān)家學(xué)者的關(guān)注和重視.在識(shí)別恐怖分子方面,鐘磊(2014)[1]針對(duì)傳統(tǒng)算法的不足,提出了基于人工免疫算法和網(wǎng)絡(luò)信息的潛在恐怖分子挖掘方法,該方法能對(duì)潛在的恐怖分子進(jìn)行準(zhǔn)確的識(shí)別.吳紹忠(2016)[2]提出將聚類(lèi)分析應(yīng)用到反恐情報(bào)分析中,從而發(fā)現(xiàn)和識(shí)別潛在的恐怖分子或恐怖組織.扈翔(2017)[3]研究了樸素貝葉斯算法與K-means算法在反恐情報(bào)分析中的應(yīng)用.在恐怖襲擊預(yù)警方面,戰(zhàn)兵和韓銳(2015)[4]將隱馬爾科夫模型與貝葉斯網(wǎng)絡(luò)相結(jié)合,實(shí)現(xiàn)了對(duì)可能發(fā)生的恐怖襲擊事件的預(yù)測(cè).傅子洋等(2016)[5]基于貝葉斯網(wǎng)絡(luò),建立了恐怖襲擊預(yù)警模型,為反恐行動(dòng)提供了有效的預(yù)警信息.在恐怖襲擊風(fēng)險(xiǎn)預(yù)測(cè)與評(píng)估方面,龔偉志等(2015)[6]提出了基于大數(shù)據(jù)分析的恐怖襲擊風(fēng)險(xiǎn)預(yù)測(cè)方法.項(xiàng)寅(2018)[7]利用遺傳算法優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)構(gòu)建了恐怖襲擊風(fēng)險(xiǎn)的預(yù)測(cè)模型,并利用GTD中的數(shù)據(jù)驗(yàn)證了模型的預(yù)測(cè)準(zhǔn)確性.劉明輝(2018)[8]運(yùn)用K-means聚類(lèi)對(duì)民航系統(tǒng)恐怖主義風(fēng)險(xiǎn)進(jìn)行了評(píng)估,實(shí)驗(yàn)結(jié)果表明該方法的評(píng)估結(jié)果比較可靠.
美國(guó)馬里蘭大學(xué)的專(zhuān)家學(xué)者搜集并構(gòu)建的全球恐怖主義數(shù)據(jù)庫(kù)(Global Terrorism Database, GTD)記錄了1970年至2017年全球發(fā)生的恐怖襲擊事件(數(shù)據(jù)庫(kù)網(wǎng)址:https://www.start.umd.edu/gtd/).以2018年全國(guó)研究生數(shù)學(xué)建模競(jìng)賽C題為背景,基于GTD數(shù)據(jù)庫(kù)的部分信息(1998年~2017年),主要解決了以下三個(gè)問(wèn)題.
1)建立量化分級(jí)模型,根據(jù)危害程度對(duì)恐怖襲擊事件分級(jí),并列出近二十年來(lái)危害程度最高的十大恐怖襲擊事件.
2)針對(duì)2015、2016年發(fā)生的、尚未有組織或個(gè)人宣稱(chēng)負(fù)責(zé)的恐怖襲擊事件,依據(jù)事件特征,將可能是同一個(gè)恐怖組織或個(gè)人制造的恐怖襲擊事件歸為一類(lèi),從而為進(jìn)一步確定恐怖襲擊事件的制造者提供了幫助.
3)通過(guò)分析近三年來(lái)恐怖襲擊事件發(fā)生的主要原因、時(shí)空特性、蔓延特性、級(jí)別分布等規(guī)律,進(jìn)而分析下一年全球或某些重點(diǎn)地區(qū)的反恐態(tài)勢(shì),并給出有針對(duì)性的反恐建議.
2 量化分級(jí)模型的建立與求解
由于恐怖襲擊事件的危害性不僅取決于人員傷亡和經(jīng)濟(jì)損失這兩個(gè)方面,還與發(fā)生的時(shí)機(jī)、地域、針對(duì)的對(duì)象等諸多因素有關(guān),因而采用災(zāi)難性事件的主觀分級(jí)方法難以形成統(tǒng)一標(biāo)準(zhǔn).對(duì)GTD中的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,建立基于數(shù)據(jù)分析的量化分級(jí)模型,將GTD給出的事件危害程度從高到低分為一至五級(jí),并列出近二十年來(lái)危害程度最高的十大恐怖襲擊事件.
2.1 數(shù)據(jù)預(yù)處理
GTD數(shù)據(jù)庫(kù)中記錄了1998年~2017年全球共發(fā)生114183起恐怖襲擊事件,每一起事件有134個(gè)特征變量,數(shù)據(jù)量極大.在進(jìn)行事件分級(jí)之前,需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理.首先,刪除變量缺失值太多的事件,然后選取特征變量用于建立分級(jí)模型.考慮到每起恐怖襲擊事件對(duì)應(yīng)有134個(gè)特征變量,且變量分為數(shù)值型變量、文本型變量及分類(lèi)型變量三類(lèi),不可能將所有變量作為輸入特征用于分級(jí).因此,在考慮人員傷亡、經(jīng)濟(jì)損失、發(fā)生地域等與事件危害性緊密相關(guān)的主要變量后,刪除無(wú)關(guān)的變量.
2.2 基于KNN鄰近算法的量化分級(jí)模型
恐怖襲擊事件的危害性不僅與其造成的人員傷亡和經(jīng)濟(jì)損失有關(guān),事件發(fā)生的地域及針對(duì)的對(duì)象也會(huì)對(duì)危害程度產(chǎn)生影響.在經(jīng)過(guò)數(shù)據(jù)預(yù)處理后,選擇死亡總數(shù)(nkill)、受傷總數(shù)(nwound)、財(cái)產(chǎn)損害程度(propextent)、城市(city)及超出國(guó)際人道主義法律范圍(crit3)這5個(gè)變量作為描述恐怖襲擊事件危害性的代理特征變量.根據(jù)每個(gè)變量對(duì)恐怖襲擊危害性影響的重要程度,分配給不同變量以不同的權(quán)重,從而可以得到不同恐怖襲擊事件危害性的描述.按照危害性的大小從高到低將GTD中所有事件的危害程度分為一至五級(jí).選取80%的事件作為訓(xùn)練集樣本,20%的事件作為測(cè)試集樣本,采用K-鄰近分類(lèi)算法(KNearest Neighbor,以下簡(jiǎn)稱(chēng)KNN)對(duì)上述的分級(jí)進(jìn)行訓(xùn)練和測(cè)試,建立基于危害性大小的恐怖襲擊事件的量化分級(jí)模型.
KNN是一種比較成熟的算法,是數(shù)據(jù)挖掘分類(lèi)方法之一,算法簡(jiǎn)單,易于實(shí)現(xiàn).其核心思想是:如果一個(gè)樣本在特征空間中的K個(gè)最相鄰的樣本中的大多數(shù)屬于某一個(gè)類(lèi)別,那么該樣本也屬于這個(gè)類(lèi)別,并且與這個(gè)類(lèi)別上樣本的特征相似.
2.3 模型的求解
在KNN算法中,K值的確定至關(guān)重要,K值的不同會(huì)對(duì)分類(lèi)結(jié)果產(chǎn)生很大的影響.通過(guò)Python編程,分別取不同的K值進(jìn)行訓(xùn)練,得到最優(yōu)取值為1,此時(shí)恐怖襲擊測(cè)試集樣本的分級(jí)準(zhǔn)確率達(dá)到了95%,這表明此時(shí)的量化分級(jí)模型具有比較好的分級(jí)效果.基于此模型給出了近二十年來(lái)危害程度最高的十大恐怖事件編號(hào)(按危害性從高低排序):201406150063、200109110004、200109110005、201408090071、201406100042、201710140002、200403210001、201408200027、201612100011、201408150057.從級(jí)別來(lái)看,這十起事件均為一級(jí)恐怖襲擊事件.
3 恐怖襲擊事件制造者的確定
GTD中有多起恐怖襲擊事件尚未確定作案者,需要確定隱藏的恐怖分子.不管某一恐怖襲擊事件的制造者是個(gè)人還是組織,其襲擊的時(shí)間、地點(diǎn)、目標(biāo)等事件特征總會(huì)存在相似性和聯(lián)系.因此,將同一個(gè)恐怖組織或個(gè)人在不同時(shí)間、不同地點(diǎn)多次作案的多起案件聯(lián)系起來(lái)統(tǒng)一進(jìn)行偵查,必將有利于找到事件的制造者.基于此分析,可以采用聚類(lèi)算法,對(duì)2015年和2016年發(fā)生的、尚未有組織或個(gè)人宣稱(chēng)負(fù)責(zé)的恐怖事件進(jìn)行分類(lèi),每一類(lèi)即對(duì)應(yīng)一個(gè)未知的恐怖組織或個(gè)人.
3.1 數(shù)據(jù)預(yù)處理
在對(duì)案件進(jìn)行分類(lèi)之前,先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理.在2015年和2016年發(fā)生的恐怖襲擊事件中,首先選擇claimed變量值為0的事件,確定了22746起沒(méi)有確定制造者的恐怖襲擊事件.然后刪除其中變量缺失值太多的事件.最后,根據(jù)能反映嫌疑人和事件特征的原則,選取月(imonth)、日(iday)、國(guó)家(country)、地區(qū)(region)、政治、經(jīng)濟(jì)、宗教或社會(huì)目標(biāo)(crit1)、意圖脅迫、恐嚇或煽動(dòng)更多群眾(crit2)、超出國(guó)際人道主義法律范圍(crit3)、自殺式襲擊(suicide)、攻擊類(lèi)型(attacktype1)、目標(biāo)/受害者類(lèi)型(targtype1)、目標(biāo)/受害者子類(lèi)型(targsubtype1)、目標(biāo)/受害者的國(guó)籍(natlty1)、第一可疑/涉嫌犯罪集團(tuán)(guncertain1)、武器類(lèi)型(weaptype1)、武器子類(lèi)型(weapsubtype1)、國(guó)際后勤(INT_LOG)、國(guó)際意識(shí)形態(tài)(INT_IDEO)、國(guó)際雜類(lèi)(INT_MISC)這18個(gè)變量用于建立事件分類(lèi)模型.
3.2 基于Kmeans聚類(lèi)算法恐怖襲擊制造者的確定