劉亞姝,王志海,嚴(yán)寒冰,侯躍然,來煜坤
?
抗混淆的惡意代碼圖像紋理特征描述方法
劉亞姝1,2,王志海1,嚴(yán)寒冰3,侯躍然4,來煜坤5
(1. 北京交通大學(xué)計算機與信息技術(shù)學(xué)院,北京 100044;2. 北京建筑大學(xué)電氣與信息工程學(xué)院,北京 100044; 3. 國家計算機網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,北京 100029;4. 北京郵電大學(xué)網(wǎng)絡(luò)技術(shù)研究院,北京 100876; 5. 卡迪夫大學(xué)計算機科學(xué)與信息學(xué)院,英國 卡迪夫,CF24 3AA)
將圖像處理技術(shù)與機器學(xué)習(xí)方法相結(jié)合是惡意代碼可視化研究的一個新方法。在這種研究方法中,惡意代碼灰度圖像紋理特征的描述對惡意代碼分類結(jié)果的準(zhǔn)確性影響較大。為此,提出新的惡意代碼圖像紋理特征描述方法。通過將全局特征(GIST)與局部特征(LBP或dense SIFT)相融合,構(gòu)造抗混淆、抗干擾的融合特征,解決了在惡意代碼灰度圖像相似度較高或差異性較大時全局特征分類準(zhǔn)確性急劇降低的問題。實驗表明,該方法與傳統(tǒng)方法相比具有更好的穩(wěn)定性和適用性,同時在較易混淆的數(shù)據(jù)集上,分類準(zhǔn)確率也有了明顯的提高。
惡意代碼可視化;圖像紋理;特征描述符;惡意代碼分類
執(zhí)行惡意的行為或攻擊的軟件簡稱為惡意代碼。由于代碼自動生成工具的出現(xiàn)和大量攻擊代碼的公開,惡意代碼制作者大量使用可重用模塊及自動化變形技術(shù),使得惡意代碼數(shù)量呈爆發(fā)式增長的勢頭,人們普遍認(rèn)為惡意軟件的增長速度遠(yuǎn)遠(yuǎn)超過合法應(yīng)用程序的增速[1]。面對層出不窮的惡意代碼威脅和攻擊,安全分析人員和研究者已經(jīng)提出了許多惡意代碼的檢測技術(shù),但是如何快速、準(zhǔn)確地識別、分類惡意代碼仍然是這個領(lǐng)域的研究熱點。
惡意代碼分析技術(shù)主要分為靜態(tài)分析與動態(tài)分析兩類方法。靜態(tài)分析是指惡意代碼不被實際運行,通過分析惡意代碼文件,識別惡意代碼的種類和可能造成的危害。動態(tài)分析是指在受保護(hù)的虛擬環(huán)境(如VMware)中實際運行需要分析的惡意樣本,在惡意代碼執(zhí)行過程中分析記錄其動態(tài)行為特性,針對這些代碼表達(dá)出來的行為,分析和判斷惡意樣本的危害級別,為惡意代碼樣本的識別和清除提供依據(jù)。動態(tài)分析技術(shù)不僅受模擬環(huán)境和觸發(fā)條件等限制,而且隨著惡意代碼技術(shù)的發(fā)展,惡意代碼的反調(diào)試能力不斷增強,這大大增加了動態(tài)分析的難度。
研究人員已經(jīng)提出了許多靜態(tài)分析的方法。其中,基于特征碼的分析技術(shù)[2-3]被廣泛應(yīng)用到病毒查殺工具中。但是隨著技術(shù)的改進(jìn),出現(xiàn)了具有多態(tài)變種能力的惡意代碼,能夠躲避靜態(tài)特征碼的掃描。因此為了對抗惡意代碼的變化,出現(xiàn)了基于行為的分析技術(shù)[4]、基于語義分析的方法[5-6]、基于操作碼的分析[7-9]等。
在眾多研究方法中,惡意代碼可視化是一個非常重要的分支。Bonfante[10]提出基于控制流圖(CFG, control flow graph)的惡意代碼特征表示;Cesare[11]提出一種快速流圖分析方法,可以檢測加了分組或者多態(tài)的樣本;Kinable[12]提出了基于調(diào)用圖(CG, call graph)的方法,能夠聚類相似樣本,從而快速檢測到惡意代碼的變體;Trinius[13]將動態(tài)分析與樹圖和線索圖相結(jié)合來判斷樣本的惡意性。
隨著技術(shù)的發(fā)展,惡意代碼可視化與圖像處理技術(shù)相結(jié)合產(chǎn)生了一個全新的研究視角。但是惡意代碼樣本產(chǎn)生的圖像與普通的圖像不同,僅簡單地應(yīng)用現(xiàn)有圖像處理的方法,在復(fù)雜樣本情況下很難得到好的分類結(jié)果。
因此,本文提出了一種惡意代碼可視化與多特征相融合的分析方法,能夠更好地描述惡意代碼類別特征,本文主要工作與創(chuàng)新點如下所示。
1) 將惡意代碼樣本轉(zhuǎn)化為灰度圖像,實現(xiàn)了惡意代碼的可視化。
2) 提出了將全局特征與局部特征相融合的特征描述新方法,使得新特征更具有抗混淆性。同時,實現(xiàn)了惡意代碼的分類問題。
3) 分析了傳統(tǒng)方法在復(fù)雜數(shù)據(jù)集分類準(zhǔn)確率急劇降低的原因。
4) 通過大量的實驗,對比驗證本文方法的抗干擾性、抗混淆性和適用性。
2010年,Conti[14]提出了將任意二進(jìn)制文件映射成灰度圖像的方法。隨后2011年Nataraj等[15]將該思想首次應(yīng)用于惡意代碼的分類中,為惡意代碼可視化提出了一種全新的研究方向。
圖1為某個去掉了PE頭的十六進(jìn)制惡意代碼“.byte”文件的部分內(nèi)容。
圖1 惡意代碼“.byte”文件示例
根據(jù)Nataraj[15]提出的方法,一個惡意代碼樣本按照每8位二進(jìn)制串對應(yīng)1位十進(jìn)制數(shù)的規(guī)則進(jìn)行轉(zhuǎn)換,得到[0, 255]之間的無符號整數(shù)向量?!?”對應(yīng)黑色、“255”對應(yīng)白色,因此轉(zhuǎn)換二進(jìn)制串得到的無符號整數(shù)向量能夠?qū)?yīng)到灰度圖像上。但是因為圖像是有高和寬的,而無符號整數(shù)向量是沒有寬度和高度的,因此需要將一維向量轉(zhuǎn)換為二維向量。一般的做法是預(yù)先按照樣本文件的大小設(shè)定圖像的寬度,而圖像的高度則隨著文件大小而變化。本文按照表1所示的方式設(shè)置圖像的寬度,將一個二進(jìn)制惡意代碼可執(zhí)行文件轉(zhuǎn)化為對應(yīng)的灰度圖像。
表1 圖像寬度的設(shè)定標(biāo)準(zhǔn)
圖2為按照上述方法得到的5個惡意代碼家族灰度圖像實例。
圖2 惡意代碼家族灰度圖像實例
圖2顯示出惡意代碼同一家族的圖像紋理相似度高、不同家族間的紋理差異大的特點。Nataraj[15]用GIST方法提取圖像特征、K-近鄰方法(KNN, K-nearest neighbor)分類惡意代碼圖像,取得了非常好的分類效果。
2015年,Han等[16]在Nataraj方法的基礎(chǔ)上通過熵圖判斷惡意代碼的相似性,改進(jìn)了惡意代碼灰度圖像紋理特征提取方法以及相似度度量策略。
2018年Yan等[17]基于LBP算法提出了改進(jìn)的惡意代碼圖像特征提取辦法,提高了分類準(zhǔn)確性。
不同于上述已有工作,本文提出了一種惡意代碼圖像特征融合的辦法——在全局特征(GIST)的基礎(chǔ)上融合局部特征(LBP或dense SIFT),構(gòu)造更健壯的特征描述符,從而解決Nararaj方法在某些相似度過高或者差異性較大的家族上分類準(zhǔn)確率急劇降低的問題。
GIST方法[18-19]是常用的圖像全局特征提取辦法之一,它是基于Gabor濾波器組進(jìn)行的。Gabor濾波器組由多個不同方向和角度的Gabor濾波器組成。通過控制尺度和平移因子對Gabor函數(shù)進(jìn)行伸縮和平移變換,可以得到一組Gabor濾波器組,如式(1)所示。
隨后,每一個網(wǎng)格塊分別用個尺度和個方向的Gabor濾波器進(jìn)行卷積濾波,則每個網(wǎng)格塊經(jīng)過各通道的濾波后,將卷積結(jié)果級聯(lián),得到該網(wǎng)格塊圖像的局部 GIST特征,如式(2)所示。
局部二值模式(LBP, local binary pattern)是一種用來描述圖像局部紋理特征的算子。它首先由Ojala等[20]在1994年提出。LBP算子有旋轉(zhuǎn)不變性的特點,但是由于惡意代碼圖像不涉及到旋轉(zhuǎn)不變的問題,因此本文采用原始的LBP算子定義:在3×3的窗口內(nèi),以窗口中心像素為閾值,將相鄰的8個像素的灰度值與其進(jìn)行比較,若周圍像素值大于中心像素值,則標(biāo)記為1,否則為0。因此,3×3鄰域內(nèi)的8個點經(jīng)比較可產(chǎn)生8位二進(jìn)制數(shù),轉(zhuǎn)換為十進(jìn)制數(shù)即LBP碼,即得到該窗口中心像素點的LBP值。每個區(qū)域的特征值計算方法如式(4)所示。
其中,g是鄰域內(nèi)中心點的灰度值,g是鄰域內(nèi)第個像素點的灰度值,為鄰域內(nèi)像素點個數(shù)。()函數(shù)定義如式(5)所示。
尺度不變特征變換(SIFT, scale-invariant feature transform)特征描述算子由David Lowe[21]于1999年提出。SIFT描述算子是關(guān)鍵點鄰域高斯圖像梯度統(tǒng)計結(jié)果的一種表示。通過對關(guān)鍵點周圍圖像區(qū)域分塊,計算塊內(nèi)梯度直方圖,生成具有獨特性的向量,這個向量是該區(qū)域圖像信息的一種抽象,具有唯一性。dense SIFT也是SIFT方法的一個變化,它提取圖像塊中每個位置的SIFT特征。
本文采用8×8固定大小的窗口作為掩模,以1為步長在圖像上自左向右、從上到下提取圖像的dense SIFT的特征,可以得到每一個位置的SIFT 描述符。每個掩模內(nèi)按照4×4的尺度空間、8個方向獲取梯度信息,所以獲得圖像塊每個位置的dense SIFT特征為128維向量。
從惡意代碼家族的灰度圖像(如圖2所示)中可以看到,每個家族的全局相似程度很高而差異體現(xiàn)在局部。因此,在提取惡意代碼圖像的全局特征的前提下,突出局部特征將能夠更好地反映惡意代碼的家族特征、更具可分性。因此,本文將GIST特征分別與LBP特征、dense SIFT特征實現(xiàn)全局與局部特征相融合,如式(7)所示。
由于LBP特征是一維向量,可以直接參與計算,但是按照3.2節(jié)dense SIFT方法獲取的特征是二維矩陣為
為了獲取局部特征參與計算,需要將dense SIFT特征離散化,即建立字典。本文方法是隨機選取訓(xùn)練集中個行特征向量作為標(biāo)準(zhǔn)詞匯,將dense SIFT特征矩陣中的行都映射到與選定的個行特征向量中歐氏距離最近的標(biāo)準(zhǔn)詞匯上,得到對應(yīng)的標(biāo)號,則有
根據(jù)3.3節(jié),本文設(shè)計了算法1和算法2以獲得融合特征的分類結(jié)果。分類方法采用了KNN和隨機森林(RF, random forest)。
算法1 GIST與LBP特征融合分類算法
輸入 惡意代碼圖像數(shù)據(jù)集
輸出 惡意代碼分類準(zhǔn)確率
1) 提取惡意代碼圖像GIST特征
3) 選取融合參數(shù),得到融合特征
4) 訓(xùn)練KNN、RF分類器,獲得分類參數(shù)
5) 分類惡意代碼,輸出分類準(zhǔn)確率
算法2 GIST與dense SIFT特征融合分類算法
輸入 惡意代碼圖像數(shù)據(jù)集
輸出 惡意代碼分類準(zhǔn)確率
1) 提取惡意代碼圖像GIST特征
2) 提取惡意代碼圖像dense-SIFT特征
4) 選取融合參數(shù),得到融合特征
5) 訓(xùn)練KNN、RF分類器,獲得分類參數(shù)
6) 分類惡意代碼,輸出分類準(zhǔn)確率
按照算法1和算法2,本文在3個數(shù)據(jù)集上完成了實驗。數(shù)據(jù)集分別來自文獻(xiàn)[15]中使用的數(shù)據(jù)集(簡稱為NDA,包括25個家族9 458張惡意代碼灰度圖像)、文獻(xiàn)[15]——Nataraj個人網(wǎng)站發(fā)布的數(shù)據(jù)集(簡稱為NDB,共有32個家族,12278張惡意代碼灰度圖)以及Antiy實驗室提供的數(shù)據(jù)集(簡稱為Antiy,共有11個家族,11 000個惡意代碼“.byte”文件)。
文獻(xiàn)[15]是最早提出將二進(jìn)制文件可視化方法應(yīng)用于惡意代碼分類的,將本文方法與文獻(xiàn)[15]方法相比也可起到追根溯源的目的;此外,為了驗證本文方法的有效性和可適應(yīng)性,也與其他改進(jìn)的可視化方法[16-17]以及常見的非可視化方法——基于操作碼(OPCode)的惡意代碼分析[9]做了對比。
后續(xù)實驗安排為:首先對比了GIST特征(文獻(xiàn)[15]采用的方法)在NDA和NDB上的分類準(zhǔn)確性并分析原因,隨后給出應(yīng)用融合特征的分類結(jié)果,證明本文方法與文獻(xiàn)[15]方法相比更具有抗干擾的能力。本文方法同時應(yīng)用到Antiy數(shù)據(jù)集上,與文獻(xiàn)[9, 15-17]的結(jié)果做了對比,證明本文方法更具有一般性。
文獻(xiàn)[15]在NDA數(shù)據(jù)集上提取GIST特征并進(jìn)行KNN分類,可以得到0.971 8的正確率。本文按照該文獻(xiàn)中的方法,采用KNN與RF兩種分類方法實現(xiàn)了該文獻(xiàn)的實驗過程。在實驗中,每個參數(shù)都進(jìn)行了10次實驗并取平均值,實驗結(jié)果如表2所示。隨后,在NDB數(shù)據(jù)集上,提取GIST、dense SIFT以及LBP特征,同樣采用KNN和RF兩種分類方法,結(jié)果如表3所示。
表2中結(jié)果顯示在NDA數(shù)據(jù)集上采用GIST特征,KNN分類器獲得最高的分類準(zhǔn)確率為0.98(=2);RF分類器平均準(zhǔn)確率為0.988。這與文獻(xiàn)[15]中的結(jié)果是一致的。
表2 在NDA數(shù)據(jù)集上GIST特征的分類結(jié)果(KNN、RF)
表3中KNN分類器的分類準(zhǔn)確率隨著近鄰數(shù)目的遞增逐漸降低。當(dāng)=1時采用GIST特征的分類準(zhǔn)確率最高為0.910,遠(yuǎn)遠(yuǎn)低于表2中的結(jié)果。同樣采用RF分類器分類準(zhǔn)確率也只有0.901。
表3 不同特征描述方法在NDB數(shù)據(jù)集上分類準(zhǔn)確性的比較(KNN、RF)
此外,表3也給出dense SIFT與LBP特征的分類結(jié)果。
經(jīng)仔細(xì)對比NDA與NDB數(shù)據(jù)集,可以發(fā)現(xiàn)NDA是NDB的子集,并不包括如圖3和圖4所示的惡意代碼家族。圖3為Luder.B家族灰度圖像,該家族樣本文件大小差異較大,因此產(chǎn)生的圖片寬度也是大小不一,而且圖像紋理特征差異也較大。而圖4所示Benign家族樣本圖像中帶有圖片、圖標(biāo)等圖案。NDA中排除了這些易于混淆和干擾信息較多的惡意代碼家族,而NDB中包含這些樣本。因此,有理由假設(shè)這些易于混淆的惡意代碼家族影響了NDB的分類準(zhǔn)確性。
圖3 Luder.B家族圖像
圖4 Benign家族圖像
為了驗證4.1節(jié)的猜測,本文首先從NDB中選擇了一個包括9個家族2 545張惡意代碼圖像的特殊數(shù)據(jù)集(簡稱為NDB-sub數(shù)據(jù)集)。NDB-sub數(shù)據(jù)集包括家族間特征相似的和家族內(nèi)特征差異較大的數(shù)據(jù),具體信息如表4所示。
表4 NDB-sub數(shù)據(jù)集信息
在NDB-sub數(shù)據(jù)集上提取GIST特征,采用RF分類方法(分類參數(shù)為15),采用十折交叉驗證,進(jìn)行了10次實驗,結(jié)果如表5所示。
表5 GIST特征在NDB-sub數(shù)據(jù)集上的分類結(jié)果
對比表3與表5可以看到,采用GIST方法在NDB與NDB-sub數(shù)據(jù)集上的分類準(zhǔn)確率基本上是相符的,說明表4所示的NDB-sub數(shù)據(jù)集中的數(shù)據(jù)是影響NDB數(shù)據(jù)集分類準(zhǔn)確性的主要家族。
表6為分類準(zhǔn)確率為0.914時的混淆矩陣。從此時的混淆矩陣可以看到,測試數(shù)據(jù)主要在Benign與Luder.B家族中發(fā)生較嚴(yán)重的分類錯誤問題,這兩個家族相互之間以及與Virut.AK家族間會發(fā)生分類錯誤的現(xiàn)象。此外, Virtut.A家族錯分到Virut.AC類的數(shù)據(jù)錯誤率也達(dá)到了0.118,F(xiàn)akerean家族也有0.026的錯誤率。
接下來,按照算法1進(jìn)行了測試。在GIST特征的基礎(chǔ)上增加了70%的LBP特征得到融合特征。當(dāng)分類參數(shù)設(shè)置為25時,在NDB-sub數(shù)據(jù)集上RF的分類結(jié)果最好可以達(dá)到0.953,此時的混淆矩陣如表7所示。
對比表6與表7的混淆矩陣可以看到,F(xiàn)akerean、Virtut.A家族已經(jīng)全部分類正確;Benign與Luder.B家族的分類正確率也有了提高。這說明本文提出的惡意代碼圖像融合特征的方法更具抗混淆和抗干擾能力。
在4.2節(jié)中已經(jīng)說明了本文方法的有效性,為了進(jìn)一步驗證其穩(wěn)定性和有效性,本文在數(shù)據(jù)集NDB上設(shè)計了以下實驗。
表6 GIST特征在特殊數(shù)據(jù)集分類中的混淆矩陣
表7 抗混淆新特征在特殊數(shù)據(jù)集分類中的混淆矩陣
實驗1 按照算法1,構(gòu)造GIST特征與隨機取得10%、30%、50%、70%、100%的LBP特征作為融合特征,采用RF分類方法、十折交叉驗證分別進(jìn)行了實驗,結(jié)果如表8所示。
實驗中RF的分類參數(shù)分別選取了10、15、20、25,每個參數(shù)都進(jìn)行了10次實驗,取平均準(zhǔn)確率。對比本文方法與僅采用Gist、LBP特征的分類準(zhǔn)確率,可以看到增加了LBP特征后,分類準(zhǔn)確率有明顯的提高。例如,增加100%LBP特征,20棵樹時平均準(zhǔn)確率為0.964,而GIST特征的分類準(zhǔn)確率只有0.899。
實驗2 按照算法2,構(gòu)造GIST特征與隨機取得10%、30%、50%、70%、100%的dense SIFT特征作為融合特征,RF分類結(jié)果如表9所示。
從表9可以看到GIST融合了dense SIFT特征后分類準(zhǔn)確率得到了明顯地提高。而且也可以看到,dense SIFT特征不同的選取比例對分類結(jié)果的影響較小。
圖5為Gist特征融合70% dense SIFT特征與僅采用GIST與dense SIFT的分類結(jié)果曲線圖。這里采用RF分類器,參數(shù)為10、15、20及25,分別進(jìn)行了10次實驗。
圖5中可以清楚地看到GIST特征融合了dense SIFT特征后每一次的分類結(jié)果都是三者中最好的。
從以上實驗結(jié)果可以看到,本文提出的惡意代碼圖像特征描述方法在大規(guī)模的數(shù)據(jù)集上也具有較高的分類準(zhǔn)確性和穩(wěn)定性。
為了進(jìn)一步驗證本文方法的穩(wěn)定性和適應(yīng)性,將文獻(xiàn)[9, 15-17]以及本文方法分別用于Antiy數(shù)據(jù)集,并對比分類結(jié)果。
表8 Gist特征與LBP特征相融合的實驗結(jié)果
表9 Gist特征與denseSIFT特征相融合的實驗結(jié)果
圖5 GIST聯(lián)合dense SIFT特征分類結(jié)果
實驗3 惡意代碼可視化方法在Antiy數(shù)據(jù)集上的對比。如前所述,文獻(xiàn)[15]將惡意代碼二進(jìn)制文件轉(zhuǎn)換為位圖后提取GIST特征。文獻(xiàn)[16]是在文獻(xiàn)[15]的基礎(chǔ)上提出的惡意代碼圖像特征表示的新方法。在該文獻(xiàn)中將二進(jìn)制惡意代碼文件轉(zhuǎn)換為位圖后,并沒有采用常規(guī)的圖像特征描述方法,而是計算位圖圖像每行的熵值,并將熵值表示為熵圖。將熵圖作為判斷二進(jìn)制惡意代碼文件相似性的特征。文獻(xiàn)[16]中所表述方法與文獻(xiàn)[15]具有相似的準(zhǔn)確率,但是與文獻(xiàn)[15]相比具有更少的計算量、更快的判別速度。文獻(xiàn)[17]改進(jìn)了文獻(xiàn)[15]對惡意代碼圖像的特征提取方法——采用改進(jìn)的LBP方法(PRICoLBP)以提高特征的辨識性。文獻(xiàn)[16]和文獻(xiàn)[17]都是針對惡意代碼圖像特征表示方法的改進(jìn),這與本文方法具有相同的研究方向,因此,更具有可比性。
為了對比本文方法與上述文獻(xiàn)方法的適用性,本文在Antiy數(shù)據(jù)集進(jìn)行了實驗。實驗中,本文方法采用的是GIST與100%LBP特征相融合以表示惡意代碼圖像特征。表10中文獻(xiàn)[15-17]以及本文方法的準(zhǔn)確率均是采用RF分類方法,分類參數(shù)為15時的實驗結(jié)果。文獻(xiàn)[16]的準(zhǔn)確率是按照該文獻(xiàn)提供的熵圖相似性比較公式得到的結(jié)果,閾值設(shè)為0.75。從表10中可以看到,本文方法相對于其他惡意代碼可視化方法而言具有更好的分類效果。
表10 不同文獻(xiàn)方法在Antiy數(shù)據(jù)集上分類準(zhǔn)確率的比較
實驗4 本文方法與惡意代碼非可視化方法的比較。如前所述,從惡意代碼分類方法上看,針對惡意代碼反匯編文件的分析也是靜態(tài)分析技術(shù)的重要研究方向之一。文獻(xiàn)[9]是在常用的惡意代碼OPCode操作碼相似性比較的基礎(chǔ)上做的改進(jìn),取得了很好的惡意代碼同源性比較結(jié)果。為此,也將本文方法與這種非可視化方法進(jìn)行了對比。文獻(xiàn)[9]需要分析惡意代碼的反匯編文件,提取3-gram的Opcode操作碼,獲得simHash值并配合函數(shù)跳轉(zhuǎn)圖能夠快速判斷惡意代碼的相似性,并在該文獻(xiàn)提供的數(shù)據(jù)集上溯源準(zhǔn)確率可以達(dá)到0.959 9。但是將該方法用于Antiy數(shù)據(jù)集上結(jié)果并不理想。
在實驗中,需要將Antiy數(shù)據(jù)集中的惡意代碼“.byte”文件反匯編,得到對應(yīng)的11 000個“.asm”文件。首先在20個樣本的實驗中(隨機選取家族9中10個樣本,另外10個樣本從其他家族中隨機抽取),判別得出7個樣本屬于家族9,但這7個樣本中僅有3個是真的屬于家族9,誤報誤判率都很高。隨后在Antiy數(shù)據(jù)集全部11 000個文件上的實驗中發(fā)現(xiàn)分類準(zhǔn)確率僅有0.573(這說明在Antiy數(shù)據(jù)集上文獻(xiàn)[9]的方法幾乎是不可分的)。從表10中可以看到本文方法在Antiy數(shù)據(jù)集上也獲得了0.949 8的分類準(zhǔn)確率。因此,本文方法與文獻(xiàn)[9]相比更具有適應(yīng)性。
經(jīng)過上述實驗可以得出以下結(jié)論:本文提出的惡意代碼圖像的全局特征融合局部特征的方法是可行的,能夠產(chǎn)生更抗混淆性和抗干擾性的特征向量,對數(shù)據(jù)集具有更好的適應(yīng)性和健壯性。
本文主要研究了惡意代碼可視化圖像的特征描述方法,對比文獻(xiàn)[15]中提到的方法,分析其存在的問題,提出了全局特征與局部特征相融合的特征表示方法。此外,本文也與其他方法進(jìn)行了對比,實驗結(jié)果表明,在更一般性的數(shù)據(jù)集上,本文的方法具有更好的適應(yīng)性、抗干擾性和抗混合性,可以得到更好的分類結(jié)果。
[1] 杜敬凱. 二進(jìn)制惡意代碼的同源性分析[D]. 北京: 北京航空航天大學(xué). 2016. DU J K. Homology analysis of binary malicious code[D]. Beijing: Beihang University. 2016.
[2] SATHYANARAYAN V S, KOHLI P, BRUHADESHWAR B. Signature generation and detection of malware families[C]//Proceedings of Australasian Conference on Information Security and Privacy. 2008:336-349.
[3] ABBAS M F B, SRIKANTHAN T. Low-complexity signature-based malware detection for IoT devices[C]//Proceedings of Applications and Techniques in Information Security. 2017:181-189.
[4] FIRDAUSI I, LIM C, ERWIN A, et al. Analysis of machine learning techniques used in behavior-based malware detection[C]//IEEEInternational Conference on Advances in Computing.2010: 201-203.
[5] 王蕊,馮登國,楊軼,等.基于語義的惡意代碼行為特征提取及檢測方法[J].軟件學(xué)報,2012, 23(2):378-393.
WANG R, FENG D G, YANG Y, et al. Semantics-based malware behavior signature extraction and detection method[J]. Journal of Software, 2012, 23(2): 378-393.
[6] 任李,潘曉中.基于對象語義的惡意代碼檢測方法[J].計算機應(yīng)用研究,2013,30(10):3106-3113.
REN L, PAN X Z. Object-semantics based malware detection method[J]. Application Research of Computers. 2013, 30(10): 3106-3113.
[7] SANTOS I, BREZO F, NIEVES J, et al.Idea: opcode-sequence based malware detection[C] //International Conference on Engineering Secure Software and Systems. 2010: 35-43.
[8] O’KANE P, SEZERAND S, MCLANGHLIN K. Detecting obfuscated malware using reduced opcode set and optimized runtime trace[J]. Security Informatics, 2016, 5(1):2-13.
[9] QIAO Y C, YUN X C, ZHANG Y Z, et al. Fast reused function retrieval method based on simHash and inverted index[C]//The 15th IEEE International Conference on Trust, Security and Privacy in Computing and Communications.2017: 937-944.
[10] BONFANTE G, KACZMAREK M, MARION JY. Architecture of a morphological malware detector[J]. Computer Virology. 2009, 5(3): 263-270.
[11] CESARE S, XIANG Y. A fast flow graph based classification system for packed and polymorphic malware on the end host[C]//Proceedings of the 24th IEEE International Conference on Advanced Information Networking and Applications. 2010: 721-728.
[12] KINABLE J, KOSTAKIS O. Malware classification based on call graph clustering[J]. Computer Virology. 2011,7(4): 233-245.
[13] TRINIUS P, HOLS T, GOBEL J, et al. Visual analysis of malware behavior using treemaps and thread graphs[C]//the 6th International Workshop on Visualization for Cyber Security. 2010: 33-38.
[14] CONTI G, BRATUS S, SHUBING A, et al. Automated mapping of large binary objects using primitive fragment type classification[J]. Digital Investigation: The International Journal of Digital Forensics and Incident Response, 2010, 7: S3–S12.
[15] NATARAJ L, KARTHIKEYAN S, JACOB G, et al. Malware images: visualization and automatic classification[C]//The 8th International Symposium on Visualization for Cyber Security. 2011: 21-29.
[16] HAN K S, LIM J H, KANG B J, et al. Malware analysis using visualized images and entropy graphs[J]. International Journal of Information Security. 2015, 14(1): 1-14.
[17] YAN H B, ZHOU H, ZHANG H G. Automatic malware classification via PRICoLBP [J]. Chinese Journal of Electronics, 2018, 27(4): 852-859.
[18] OLIVA A, TORRALBA A. Modeling the shape of the scene: a holistic representation of the spatial envelope[J]. International Journal of Computer Vision. 2001,42(3):145-175.
[19] TORRALBA A, MURPHY A, FREEMAN K P, et al. Context-based vision systems for place and object recognition[C]//International conference on Computer Vision.2003: 273.
[20] OJALA T, PIETIKAINEN M, MAENPAA T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2000, 24(7):971-987.
[21] LOWE D G. Object recognition from local scale-invariant features[C]//International Conference on Computer Vision. 1999: 1150-1157.
Method of anti-confusion texture feature descriptor for malware images
LIU Yashu1,2, WANG Zhihai1, YAN Hanbing3, HOU Yueran4, LAI Yukun5
1. School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044, China 2. School of Electrical and Information Engineering, Beijing University of Civil Engineering and Architecture,Beijing 100044, China 3. National Computer Network Emergency Response Technical Team/Coordination Center of China,Beijing 100029, China 4. Institute of Network Technology, Beijing University of Posts and Telecommunication,Beijing 100876,China 5. School of Computer Science and Informatics, Cardiff University, Cardiff CF24 3AA, UK
It is a new method that uses image processing and machine learning algorithms to classify malware samples in malware visualization field. The texture feature description method has great influence on the result. To solve this problem, a new method was presented that joints global feature of GIST with local features of LBP or dense SIFT in order to construct combinative descriptors of malware gray-scale images. Using those descriptors, the malware classification performance was greatly improved in contrast to traditional method, especially for those samples have higher similarity in the different families, or those have lower similarity in the same family. A lot of experiments show that new method is much more effective and general than traditional method. On the confusing dataset, the accuracy rate of classification has been greatly improved.
malware visualization, image texture, feature descriptors, malware classification
TP393
A
10.11959/j.issn.1000-436x.2018227
劉亞姝(1977?),女,吉林大安人,北京交通大學(xué)博士生,主要研究方向為信息安全、數(shù)據(jù)挖掘。
王志海(1963–),男,河南安陽人,博士,北京交通大學(xué)教授、博士生導(dǎo)師,主要研究方向為數(shù)據(jù)挖掘、機器學(xué)習(xí)、計算智能。
嚴(yán)寒冰(1975–),男,江西進(jìn)賢人,博士,國家計算機網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心教授級高工、博士生導(dǎo)師,主要研究方向為信息安全。
侯躍然(1994–),男,內(nèi)蒙古呼和浩特人,北京郵電大學(xué)碩士生,主要研究方向為信息安全、機器學(xué)習(xí)。
來煜坤(1978–),男,浙江蕭山人,博士,英國卡迪夫大學(xué)副教授,主要研究方向為計算機視覺、圖像處理。
2017–10–12;
2018–10–26
王志海,zhhwang@bjtu.edu.cn
國家自然科學(xué)基金資助項目(No.U1736218,No.61672086);國家重點研發(fā)計劃基金資助項目(No.2018YFB0803604)
The National Natural Science Foundation of China (No.U1736218, No.61672086), The National Key Research and Development Program of China (No.2018YFB0803604)