肖躍雷 ,張?jiān)茓?
(1. 西安郵電大學(xué)現(xiàn)代郵政學(xué)院,西安710061; 2. 陜西省信息化工程研究院,西安710075)
近年來全球恐怖襲擊事件頻繁發(fā)生,直接造成了巨大的人員傷亡和財(cái)產(chǎn)損失,嚴(yán)重阻礙了社會(huì)穩(wěn)定和經(jīng)濟(jì)發(fā)展,恐怖襲擊事件問題已成為當(dāng)前國際社會(huì)比較關(guān)注的一個(gè)熱點(diǎn)問題[1]。為了保護(hù)人們的生命財(cái)產(chǎn)安全,維護(hù)社會(huì)經(jīng)濟(jì)的穩(wěn)定和發(fā)展,針對(duì)恐怖襲擊事件的分析和預(yù)測勢在必行。通過對(duì)歷史恐怖襲擊事件進(jìn)行分析,可以尋找出恐怖襲擊事件的發(fā)生特點(diǎn)和規(guī)律,進(jìn)而對(duì)恐怖襲擊事件進(jìn)行預(yù)測,以便幫助各國政府及時(shí)采取有效的反恐措施。
目前針對(duì)恐怖襲擊事件的研究有很多,其中運(yùn)用機(jī)器學(xué)習(xí)[2-4]對(duì)恐怖襲擊事件進(jìn)行分析預(yù)測已成為當(dāng)前的研究熱點(diǎn)。文獻(xiàn)[5-7]中運(yùn)用分類預(yù)測方法對(duì)恐怖襲擊事件進(jìn)行大量分析,得到了恐怖襲擊事件中攻擊的模式、區(qū)域和行為等特征,挖掘了恐怖襲擊事件特征之間的一些潛在聯(lián)系。文獻(xiàn)[8-9]中對(duì)恐怖襲擊組織的關(guān)系進(jìn)行分析,研究了恐怖襲擊組織的屬性特征之間的聯(lián)系,發(fā)現(xiàn)了恐怖襲擊組織的網(wǎng)絡(luò)結(jié)構(gòu)和重要犯罪組織。文獻(xiàn)[10]中利用N-gram 模型對(duì)恐怖襲擊事件的常見動(dòng)機(jī)進(jìn)行挖掘,通過大數(shù)據(jù)分析,提高了預(yù)測精度。文獻(xiàn)[11]中對(duì)恐怖襲擊事件進(jìn)行分類預(yù)測,利用最大相關(guān)和最小冗余進(jìn)行特征選擇,通過不同分類器的性能比較,驗(yàn)證了機(jī)器學(xué)習(xí)在恐怖襲擊事件分類預(yù)測領(lǐng)域的可行性。文獻(xiàn)[12]在恐怖襲擊事件的檢測環(huán)境中,使用隨機(jī)森林(Random Forest,RF)作為分類器,并與決策樹(Decision Tree,DT)算法和模糊C 均值(Fuzzy C-Means,F(xiàn)CM)方法作比較,發(fā)現(xiàn)RF 方法的分類錯(cuò)誤率較低,且不會(huì)出現(xiàn)過擬合現(xiàn)象。文獻(xiàn)[13]中提出了一種運(yùn)用加權(quán)的貝葉斯方法對(duì)恐怖襲擊組織行為進(jìn)行預(yù)測,提高了算法的預(yù)測精度和計(jì)算效率;該算法在準(zhǔn)確度及時(shí)間復(fù)雜度上優(yōu)于基于頻繁模式的分類算法,但存在計(jì)算繁瑣、耗時(shí)長等問題。文獻(xiàn)[14]中提出了一種基于機(jī)器學(xué)習(xí)的恐怖分子預(yù)測方法,通過Bagging 分類器、DT、RF 和全連接神經(jīng)網(wǎng)絡(luò)對(duì)恐怖襲擊事件制造者進(jìn)行預(yù)測,并對(duì)各個(gè)分類算法中的參數(shù)進(jìn)行尋優(yōu),提高了分類預(yù)測的準(zhǔn)確率??植酪u擊事件數(shù)據(jù)通常是一個(gè)不平衡數(shù)據(jù)集,例如:全球恐怖主義數(shù)據(jù)庫(Global Terrorism Database,GTD)[15]。上述恐怖襲擊事件分析預(yù)測方法均沒有很好地解決恐怖襲擊事件數(shù)據(jù)的樣本不平衡問題,預(yù)測性能有待進(jìn)一步提高,特別是針對(duì)少數(shù)類樣本的預(yù)測性能。
為此,針對(duì)恐怖襲擊組織的分類預(yù)測,本文提出了一種基于特征選擇和超參數(shù)優(yōu)化的恐怖襲擊組織預(yù)測方法。該方法首先利用基于隨機(jī)森林迭代的后向特征選擇算法進(jìn)行特征選擇;然后利用 DT[16-17]、RF[18-19]、Bagging[20-21]和 XGBoost[22-23]這四種主流分類器對(duì)恐怖襲擊組織進(jìn)行分類預(yù)測,并利用貝葉斯優(yōu)化方法對(duì)這些分類器進(jìn)行超參數(shù)優(yōu)化;最后,評(píng)價(jià)這些分類器在多數(shù)類樣本和少數(shù)類樣本上的分類預(yù)測性能。通過實(shí)驗(yàn)和結(jié)果分析可知,該方法提高了對(duì)恐怖襲擊組織的分類預(yù)測性能,其中使用RF和Bagging 時(shí)的分類預(yù)測性能最佳,特別是在少數(shù)類樣本上有明顯提高。
本文提出的恐怖襲擊組織預(yù)測模型如圖1 所示,主要包括數(shù)據(jù)預(yù)處理、特征選擇、超參數(shù)優(yōu)化和分類器分類四個(gè)步驟。
圖1 恐怖襲擊組織預(yù)測模型Fig. 1 Prediction model of terrorist attack organization
本文對(duì)恐怖襲擊事件原始數(shù)據(jù)的預(yù)處理主要包括數(shù)據(jù)清洗和數(shù)據(jù)轉(zhuǎn)換。
數(shù)據(jù)清洗過程為:首先刪除一些對(duì)預(yù)測模型無用的文本描述性特征;然后通過數(shù)據(jù)完整性分析刪除一些數(shù)據(jù)嚴(yán)重缺失的記錄和特征,接著對(duì)數(shù)據(jù)缺失值進(jìn)行相應(yīng)的填充;最后利用Pearson(皮爾遜)方法進(jìn)行特征相關(guān)性分析,刪除一些不顯著的自變量特征,并根據(jù)共線性刪除一些冗余自變量特征。此外,還需要?jiǎng)h除少數(shù)類樣本只有1 條的記錄,因?yàn)? 個(gè)樣本無法同時(shí)用于分類預(yù)測方法中的訓(xùn)練過程和測試過程。
轉(zhuǎn)換過程為:首先對(duì)一些文本型數(shù)據(jù)進(jìn)行數(shù)值轉(zhuǎn)換,然后對(duì)一些連續(xù)型數(shù)據(jù)進(jìn)行離散化處理,最后對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化轉(zhuǎn)換。
文獻(xiàn)[24]中提出了RF在處理不平衡數(shù)據(jù)上的應(yīng)用,并通過實(shí)驗(yàn)證明了它在處理不平衡數(shù)據(jù)上的優(yōu)勢。由于恐怖襲擊事件數(shù)據(jù)通常是一個(gè)不平衡數(shù)據(jù)集,所以本文在文獻(xiàn)[24]的基礎(chǔ)上,提出了一種基于RF 迭代的后向特征選擇算法,通過RF迭代來進(jìn)行后向特征選擇,具體如下。
算法1 基于RF迭代的后向特征選擇算法。
輸入 具有特征集合F ={ fi|i = 1,2,…,n}的數(shù)據(jù)集DF;
輸出 具有被選擇特征子集S的數(shù)據(jù)集DS。
1) DS← DF
2) 當(dāng)前驗(yàn)證錯(cuò)誤率Ec← 1
3) do{
4) 對(duì)數(shù)據(jù)集DS執(zhí)行RF算法
5) for i ← 1 to n
6) 計(jì)算每個(gè)特征fi的重要性值IVi
7) end for
8) 最小重要性值IVmin←IV1
9) 最小重要性值特征序號(hào)j ←1
10) for i ← 2 to n
11) if IVi≤ IVmin
12) 更新最小重要性值IVmin= IVi
13) 更新最小重要性值特征序號(hào)j = i
14) end if
15) end for
16) 從數(shù)據(jù)集DS中刪除特征fj
17) 更新n ← n - 1
18) 之前驗(yàn)證錯(cuò)誤率Ep← Ec
19) 當(dāng)前驗(yàn)證集DV← DS
20) 基于DV計(jì)算當(dāng)前驗(yàn)證錯(cuò)誤率Ec
21) }while(Ec≥ Ep)
22) return DS
算法1中,特征fi的重要性值IVi的計(jì)算公式如下:
其中:對(duì)于RF 中的每一棵DT,使用相應(yīng)的袋外數(shù)據(jù)(Out Of Bag,OOB)來計(jì)算它的袋外數(shù)據(jù)誤差,記為EOOB1;隨機(jī)地對(duì)OOB 所有樣本的特征fi加入噪聲干擾,再次計(jì)算它的袋外數(shù)據(jù)誤差,記為EOOB2。N 表示RF 有N 棵DT。基于當(dāng)前驗(yàn)證集DV計(jì)算當(dāng)前驗(yàn)證錯(cuò)誤率Ec的計(jì)算公式如下:
其中:ne表示當(dāng)前驗(yàn)證集DV使用RF 后的錯(cuò)誤分類樣本數(shù)目,表示當(dāng)前驗(yàn)證集DV的樣本總數(shù)目。
超參數(shù)優(yōu)化[25-26]就是一組超參數(shù)的機(jī)器學(xué)習(xí)模型,它的目標(biāo)就是通過驗(yàn)證誤差目標(biāo)函數(shù),找到在驗(yàn)證集上產(chǎn)生最小誤差的一組超參數(shù),并且能夠很好地應(yīng)用于測試集。
本文運(yùn)用Python 中一個(gè)用于超參數(shù)優(yōu)化的類庫Hyperopt,通過設(shè)定分類器的超參數(shù)取值范圍,假設(shè)解空間,然后利用貝葉斯優(yōu)化[27-29]快速尋找一個(gè)滿足目標(biāo)函數(shù)的合理解。貝葉斯優(yōu)化就是通過基于過去對(duì)目標(biāo)的評(píng)估結(jié)果建立一個(gè)不斷更新的概率模型來找到使得目標(biāo)函數(shù)最小的值。
本文使用DT、RF、Bagging 和XGBoost 這四種主流分類器對(duì)恐怖襲擊組織進(jìn)行分類預(yù)測,并對(duì)其性能進(jìn)行評(píng)價(jià)比較。
DT[16-17]是機(jī)器學(xué)習(xí)中一種基本的分類方法,它的模型為樹形結(jié)構(gòu)。DT對(duì)訓(xùn)練數(shù)據(jù)來說分類能力會(huì)很好,但對(duì)未知的測試數(shù)據(jù)分類能力不一定好。由于節(jié)點(diǎn)的劃分過程會(huì)一直反復(fù),可能會(huì)使DT的分支過多,存在過擬合現(xiàn)象,所以要對(duì)生成的樹進(jìn)行由上到下的剪枝。首先去掉過于細(xì)分的葉節(jié)點(diǎn),使其回退到父節(jié)點(diǎn),甚至更高的節(jié)點(diǎn);然后將父節(jié)點(diǎn)或更高的節(jié)點(diǎn)改為新的葉節(jié)點(diǎn),使樹變得簡單,從而使它具有更好的泛化能力。本文采用的DT 為分類與回歸樹(Classification And Regression Tree,CART)。
Bagging[20-21]也稱自舉匯聚法(boostrap aggregating),是一種在原始數(shù)據(jù)集中有放回地抽取m次后得到m個(gè)采樣集的技術(shù)。在m個(gè)采樣集建好之后,首先利用每個(gè)采樣集分別對(duì)m個(gè)基分類器進(jìn)行訓(xùn)練,然后通過基分類器的組合策略得到最終的集成分類器。本文在Bagging 中按照少數(shù)服從多數(shù)的原則來投票確定最終類別。
RF[18-19]是通過集成學(xué)習(xí)的思想利用多棵樹對(duì)樣本進(jìn)行訓(xùn)練并預(yù)測的一種分類器算法,該算法通過在訓(xùn)練時(shí)間內(nèi)構(gòu)建多棵DT 并輸出作為類的標(biāo)簽(分類)或個(gè)體樹預(yù)測的平均值(回歸)。由于RF將多棵決策樹集成在一起訓(xùn)練和預(yù)測,所以RF可以修正因決策樹的歸納偏好產(chǎn)生的過擬合問題。
Boosting[22]的基本思想是通過某種方式使得每一輪基學(xué)習(xí)器在訓(xùn)練過程中更加關(guān)注上一輪學(xué)習(xí)錯(cuò)誤的樣本。Gradient Boosting 將負(fù)梯度作為上一輪基學(xué)習(xí)器犯錯(cuò)的衡量標(biāo)準(zhǔn),在下一輪學(xué)習(xí)中通過擬合負(fù)梯度來糾正上一輪的錯(cuò)誤。XGBoost[22-23]在 Gradient Boosting上作了一些改進(jìn):主要是引入了二階導(dǎo)數(shù),用一階與二階導(dǎo)數(shù)逼近損失函數(shù),這樣在優(yōu)化過程中有更多的信息;同時(shí)XGBoost 在損失函數(shù)中加入了正則項(xiàng),用于權(quán)衡模型的復(fù)雜度,使得模型更加簡單,防止過擬合。XGBoost 通過一組分類器的串行迭代計(jì)算實(shí)現(xiàn)更高精度的分類效果,其基學(xué)習(xí)器是CART,在預(yù)測時(shí)將多個(gè)基學(xué)習(xí)器的預(yù)測結(jié)果綜合考慮得出最終結(jié)果。
對(duì)于分類預(yù)測問題,基本的性能衡量指標(biāo)為混淆矩陣,如表1 所示。表1 中:TP(True Positive)表示實(shí)際類別為True,預(yù)測類別也為True;FN(False Negative)表示實(shí)際類別為True,但預(yù)測類別為False;FP(False Positive)表示實(shí)際類別為False,但預(yù)測類別為True;TN(True Negative)表示實(shí)際類別為False,預(yù)測類別也為False。
表1 混淆矩陣Tab. 1 Confusion matrix
常用分類預(yù)測性能評(píng)價(jià)指標(biāo)準(zhǔn)確率(Accuracy)、精確度(Precision)、召回率(Recall)和F1 分?jǐn)?shù)(F1-score)的計(jì)算公式如下:
其中:Accuracy是所有預(yù)測正確的樣本數(shù)與總樣本數(shù)的比值;Precision是所有預(yù)測為正樣本的樣本中,真實(shí)為正樣本的比例;Recall(也稱為檢測率)是預(yù)測為正樣本的數(shù)量占所有正樣本總數(shù)的比例;F1-score是精確度和召回率的調(diào)和平均數(shù)。由于對(duì)恐怖襲擊組織的預(yù)測是一個(gè)分類預(yù)測問題,所以本文以這4 個(gè)性能評(píng)價(jià)指標(biāo)作為恐怖襲擊組織預(yù)測模型的性能評(píng)價(jià)指標(biāo)。
為了評(píng)價(jià)恐怖襲擊組織預(yù)測模型在多數(shù)類樣本和少數(shù)類樣本上的性能,本文首先對(duì)恐怖襲擊事件數(shù)據(jù)按照多數(shù)類樣本到少數(shù)類樣本進(jìn)行分段劃分,然后利用以上4 個(gè)性能評(píng)價(jià)指標(biāo)來評(píng)價(jià)恐怖襲擊組織預(yù)測模型在多數(shù)類樣本和少數(shù)類樣本上的性能。
本文實(shí)驗(yàn)的數(shù)據(jù)集為1998—2017 年的全球恐怖主義數(shù)據(jù)庫(GTD)[15],其中每條恐怖襲擊事件數(shù)據(jù)記錄有135 個(gè)屬性字段信息,包括事件發(fā)生時(shí)間、地點(diǎn)、傷亡人數(shù)、武器類型、財(cái)產(chǎn)損失等重要信息。
首先,通過數(shù)據(jù)預(yù)處理篩選出了GTD中的43 335個(gè)樣本,39 個(gè)特征。篩選出的39 個(gè)特征為:年、月、日、是否為持續(xù)事件、國家、地區(qū)、省/行政區(qū)/州、城市、地理特征編碼、附近地區(qū)、入選標(biāo)準(zhǔn)1、入選標(biāo)準(zhǔn)3、事件組的一部分、成功的襲擊、自殺式襲擊、攻擊類型1、目標(biāo)/受害者類型、目標(biāo)/受害者子類型、實(shí)體名稱、具體目標(biāo)/受害者、目標(biāo)/受害者的國籍、動(dòng)機(jī)、第一涉嫌犯罪集團(tuán)、個(gè)人襲擊、兇手?jǐn)?shù)量、抓獲的兇手?jǐn)?shù)量、聲稱負(fù)責(zé)、武器類型1、武器子類型、死亡總數(shù)、美國死亡人數(shù)、兇手死亡人數(shù)、受傷總數(shù)、美國受傷人數(shù)、兇手受傷人數(shù)、財(cái)產(chǎn)損失、財(cái)產(chǎn)損失程度、人質(zhì)或受害者和恐怖襲擊組織。前38 個(gè)特征為自變量特征,最后1個(gè)特征為因變量特征。
這43 335個(gè)樣本的恐怖襲擊組織個(gè)數(shù)為826,其中每個(gè)恐怖襲擊組織的樣本個(gè)數(shù)(即每個(gè)恐怖襲擊組織的襲擊次數(shù))最小為2,最大為6 310,且差異很大,如圖2 所示。因此,這43 335個(gè)樣本是一個(gè)不平衡數(shù)據(jù)集。
圖2 恐怖襲擊組織的樣本個(gè)數(shù)分布Fig.2 Distribution of sample number of terrorist attack organizations
從圖2數(shù)據(jù)統(tǒng)計(jì)分析可知,樣本個(gè)數(shù)為100及以上的恐怖襲擊組織有56 個(gè),但是總樣本個(gè)數(shù)為34 374,屬于多數(shù)類樣本;而樣本個(gè)數(shù)為100 以下的恐怖襲擊組織有770 個(gè)之多,但是總樣本個(gè)數(shù)只有9 151,屬于少數(shù)類樣本;特別地,樣本個(gè)數(shù)為20 及以下的恐怖襲擊組織有641 個(gè)之多,但是總樣本個(gè)數(shù)只有3 519。
為了更好地評(píng)價(jià)恐怖襲擊組織預(yù)測模型在多數(shù)類和少數(shù)類樣本上的性能,如表2 所示將43 335 個(gè)樣本劃分為多個(gè)區(qū)間。
然后,通過上述特征選擇算法最終篩選出了28 個(gè)影響最大的自變量特征,分別為:年、月、日、是否為持續(xù)事件、國家、地區(qū)、省/行政區(qū)/州、城市、地理特征編碼、事件組的一部分、攻擊類型1、目標(biāo)/受害者類型、目標(biāo)/受害者子類型、實(shí)體名稱、具體目標(biāo)/受害者、目標(biāo)/受害者的國籍、動(dòng)機(jī)、第一涉嫌犯罪集團(tuán)、兇手?jǐn)?shù)量、抓獲的兇手?jǐn)?shù)量、聲稱負(fù)責(zé)、武器類型1、武器子類型、死亡總數(shù)、受傷總數(shù)、兇手受傷人數(shù)、財(cái)產(chǎn)損失和財(cái)產(chǎn)損失程度,它們累計(jì)特征貢獻(xiàn)率達(dá)到90%以上。
表2 樣本分段Tab. 2 Sample segments
最后,將特征選擇后的數(shù)據(jù)集的70%劃分為訓(xùn)練集,30%為測試集,使用DT、RF、Bagging和XGBoost這四種主流分類器對(duì)恐怖襲擊組織進(jìn)行分類預(yù)測,并利用Hyperopt 來對(duì)這四種分類器的超參數(shù)進(jìn)行優(yōu)化。在開始搜索時(shí),Hyperopt會(huì)默認(rèn)進(jìn)行隨機(jī)搜索,而且在搜索過程中會(huì)對(duì)函數(shù)的輸出進(jìn)行預(yù)估,然后不斷地根據(jù)之前的結(jié)果來調(diào)整搜索空間,計(jì)算出參數(shù)空間內(nèi)的一個(gè)點(diǎn)的損失函數(shù)值。經(jīng)過貝葉斯優(yōu)化后,DT的最大深度max_depth= 40;RF 的最大特征數(shù)max_features= 0.8,基分類器個(gè)數(shù)n_estimators= 120,最大深度max_depth= 40;Bagging的max_features= 0.6,n_estimators= 130;XGBoost 的學(xué)習(xí)率learning_rate= 0.5,max_depth= 40,n_estimators= 130。
同樣將預(yù)處理后數(shù)據(jù)集的70%劃分為訓(xùn)練集,30%為測試集,但僅使用 DT、RF、Bagging 和 XGBoost 這四種主流分類器對(duì)恐怖襲擊組織進(jìn)行分類預(yù)測,不進(jìn)行上述特征選擇和超參數(shù)優(yōu)化。表3 為這四種主流分類器在特征選擇和超參數(shù)優(yōu)化前后的準(zhǔn)確率對(duì)比。從表3 可知,在進(jìn)行特征選擇和超參數(shù)優(yōu)化后,使用這四個(gè)分類器的分類預(yù)測準(zhǔn)確率都有相應(yīng)的提高,特別是RF、Bagging 和XGBoost的準(zhǔn)確率提高較大,其中RF和Bagging的準(zhǔn)確率分別達(dá)到0.823 9和0.831 6。
表3 各分類器在特征選擇和超參數(shù)優(yōu)化前后的準(zhǔn)確率Tab. 3 Accuracy of different classifiers before and after feature selection and hyperparameter optimization
圖 3 為 DT、RF、Bagging 和 XGBoost 這四種主流分類器在特征選擇和超參數(shù)優(yōu)化前后不同樣本分段的精確度、召回率和F1分?jǐn)?shù)對(duì)比,其中空心柱狀圖為各分類器在特征選擇和超參數(shù)優(yōu)化前不同樣本分段的結(jié)果,而有圖案填充的柱狀圖為各分類器在特征選擇和超參數(shù)優(yōu)化后不同樣本分段的結(jié)果(后續(xù)實(shí)驗(yàn)中的圖形含義一致)。
從圖3 可知,在進(jìn)行特征選擇和超參數(shù)優(yōu)化后,在不同樣本分段上,使用這四個(gè)分類器的分類預(yù)測精確度、召回率和F1 分?jǐn)?shù)都有相應(yīng)的提高。特別地,在少數(shù)類樣本分段上,RF和Bagging 的分類預(yù)測精確度、召回率和F1 分?jǐn)?shù)均提高明顯,優(yōu)于DT 和XGBoost。因此,通過特征選擇和超參數(shù)優(yōu)化,可以提高DT、RF、Bagging 和XGBoost 這四種主流分類器對(duì)恐怖襲擊組織的分類預(yù)測準(zhǔn)確率、精確度、召回率和F1分?jǐn)?shù),其中RF 和Bagging 對(duì)恐怖襲擊組織的分類預(yù)測準(zhǔn)確率分別達(dá)到0.823 9 和0.831 6,并且在少數(shù)類樣本分段上對(duì)恐怖襲擊組織的精確度、召回率和F1分?jǐn)?shù)有明顯的提高。
圖3 各分類器在特征選擇和超參數(shù)優(yōu)化前后在不同樣本分段上的精確度、召回率和F1分?jǐn)?shù)對(duì)比Fig. 3 Comparison of accuracy,recall and F1-score of different classifiers on different sample segments before and after feature selection and hyperparameter optimization
10 折交叉驗(yàn)證法[14]和隨機(jī)過采樣[30]是緩解數(shù)據(jù)不平衡問題的常用方法。為了與本文方法進(jìn)行對(duì)比,針對(duì)數(shù)據(jù)預(yù)處理后的數(shù)據(jù)集,首先分別進(jìn)行10 折交叉驗(yàn)證和隨機(jī)過采樣(70%為訓(xùn)練集,30%為測試集),然后使用DT、RF、Bagging 和XGBoost 這四種主流分類器對(duì)恐怖襲擊組織進(jìn)行分類預(yù)測,并進(jìn)行超參數(shù)優(yōu)化。表4 為三種方法的準(zhǔn)確率對(duì)比,可以看出,在按本文方法進(jìn)行特征選擇和超參數(shù)優(yōu)化后,四種主流分類器的預(yù)測準(zhǔn)確率要高于使用10 折交叉驗(yàn)證法+超參數(shù)優(yōu)化,以及使用隨機(jī)過采樣+超參數(shù)優(yōu)化的方法。
圖4、5 分別為表4 中本文方法與使用10 折交叉驗(yàn)證和隨機(jī)過程采樣時(shí)針對(duì)不同樣本分段的精確度、召回率和F1分?jǐn)?shù)對(duì)比。從圖4、5 可知,在各個(gè)樣本分段上,特別是在少數(shù)類樣本分段上,本文方法的精確度、召回率和F1 分?jǐn)?shù)總體上要高于使用10 折交叉驗(yàn)證法和隨機(jī)過采樣,從而說明本文方法更能緩解GTD這種數(shù)據(jù)集的數(shù)據(jù)不平衡問題。
表4 各分類器在使用10折交叉驗(yàn)證法和隨機(jī)過采樣時(shí)的準(zhǔn)確率Tab. 4 Accuracies of different classifiers when using 10-fold validation and random oversampling
圖4 本文方法與使用10折交叉驗(yàn)證時(shí)針對(duì)不同樣本分段的精確度、召回率和F1分?jǐn)?shù)對(duì)比Fig.4 Comparison of accuracy,recall and F1-score of different sample segments between the proposed method and 10-fold validation method
針對(duì)恐怖襲擊事件數(shù)據(jù)的樣本不平衡問題,本文提出了一種基于特征選擇和超參數(shù)優(yōu)化的恐怖襲擊組織預(yù)測方法。首先利用RF 在處理不平衡數(shù)據(jù)上的優(yōu)勢,通過RF 迭代來進(jìn)行后向特征選擇,每次迭代刪除一個(gè)重要性值最小的特征,直至驗(yàn)證錯(cuò)誤率不能再降低為止;然后,使用DT、RF、Bagging 和XGBoost 這四種主流分類器對(duì)恐怖襲擊組織進(jìn)行分類預(yù)測,并利用貝葉斯優(yōu)化方法對(duì)這些分類器進(jìn)行超參數(shù)優(yōu)化;最后,評(píng)價(jià)這些分類器在多數(shù)類樣本和小數(shù)類樣本上的分類預(yù)測性能。通過實(shí)驗(yàn)和結(jié)果分析可知,該方法提高了對(duì)恐怖襲擊組織的分類預(yù)測性能,其中使用RF 和Bagging 時(shí)的分類預(yù)測性能最佳,特別是在少數(shù)類樣本上對(duì)恐怖襲擊組織的分類預(yù)測性能有明顯的提高,要優(yōu)于使用DT 和XGBoost 時(shí)的分類預(yù)測性能。
由于恐怖襲擊事件數(shù)據(jù)的少數(shù)類樣本占比太大,而且每個(gè)恐怖襲擊組織的樣本個(gè)數(shù)太少,使得本文方法在少數(shù)類樣本上的分類預(yù)測性能還是較低,未來還將進(jìn)一步探討如何提高在少數(shù)類樣本上的分類預(yù)測性能。
圖5 本文方法與使用隨機(jī)過采樣時(shí)針對(duì)不同樣本分段的精確度、召回率和F1分?jǐn)?shù)對(duì)比Fig.5 Comparison of accuracy,recall and F1-score of different sample segments between the proposed method and random oversampling method