摘" 要:便捷式文檔格式(PDF)是全球數(shù)據交換中廣泛使用的格式之一,人們對其有很高的信任度。然而,近年來不法分子利用PDF文檔進行惡意網絡攻擊的情況越來越嚴重。隨著黑客技術的進步,他們也逐漸采用一些逃避檢測的方法,使得常見的學習算法難以檢測到這種惡意文件。針對這些“更聰明”的惡意PDF攻擊樣本,對PDF文檔的特性進行了分析,提取了25維特征,并應用調參后的Adaboost算法訓練模型,準確率達到99.63%,優(yōu)于同領域的其他研究成果。
關鍵詞:PDF;逃避檢測;Adaboost算法;網絡攻擊
中圖分類號:TP309" 文獻標識碼:A" 文章編號:2096-4706(2024)10-0007-06
PDF Document Detection for Malicious Evasion Behavior
LI Dongshuai, SHANG Peiwen
(School of Electronics amp; Information Engineering, Liaoning University of Technology, Jinzhou" 121001, China)
Abstract: The Portable Document Format (PDF) is one of the widely used formats in global data exchange, and people have a high level of trust in it. However, in recent years, the situation of criminals using PDF documents for malicious network attacks has become increasingly serious. With the advancement of hacker technology, they are gradually adopting methods to evade detection, making it more difficult for common learning algorithms to detect such malicious files. In response to these “smarter” malicious PDF attack samples, an analysis of the characteristics of PDF documents is conducted, and 25-dimensional features are extracted. By applying a finely-tuned Adaboost algorithm for model training, an accuracy rate of 99.63% is achieved, surpassing other research achievements in the same field.
Keywords: PDF; evading detection; Adaboost algorithm; network attack
0" 引" 言
便捷式文檔格式(Portable Document Format, PDF)是全球數(shù)據交換中廣泛使用的格式之一。然而,不法分子利用PDF文檔進行惡意網絡攻擊的情況越來越嚴重。惡意PDF是指設計用于進行惡意活動的PDF文件,它包含了惡意代碼或利用漏洞的文件。惡意PDF通常通過電子郵件、社會工程等方式傳播,并誘使用戶打開PDF文檔或點擊文檔中的鏈接。一旦用戶執(zhí)行惡意PDF文檔中的操作,就可能導致系統(tǒng)被感染、數(shù)據泄露或其他安全問題。PDF作為現(xiàn)今用戶量極大的辦公軟件,常被黑客們用來作為APT(Advanced Persistent Threat)實施攻擊的第一步,成為APT攻擊的重要載體。在過去的幾年中,Locky勒索軟件曾經通過釣魚郵件傳播,并使用惡意PDF文檔作為附件。用戶打開這些PDF文件后,文檔會解密惡意代碼并將其運行,導致用戶的文件被加密并要求支付贖金才能解密。在暗網上,有人出售定制的惡意PDF文檔,這些文檔可以用于各種攻擊,如釣魚、遠程代碼執(zhí)行等。攻擊者可以購買這些惡意PDF文檔,然后將它們用于自己的攻擊活動。由此可見,應該及時預防和應對此類危害[1]。
隨著時間的推移,惡意PDF檢測技術已經得到改進。過去,基于簽名的檢測是通常采用的方法,通過檢查文件的元數(shù)據和有效載荷,并嘗試將其與預定義的惡意簽名/模式集相匹配來檢測惡意軟件。然而,這種方法存在一些局限性,例如黑客們可以通過混淆惡意內容來逃避檢測,以避免模式匹配。此外,簽名數(shù)據庫必須頻繁更新,以便及時識別并抵御新出現(xiàn)的惡意軟件。另一種技術是使用基于行為的檢測,可將代碼在沙箱中運行并監(jiān)控行為,包括初始化進程、API調用、CPU和內存影響,以確認程序是良性的還是惡意的。然而,基于行為的分析也有一些無法檢測到惡意軟件的局限性,因為黑客開始使用一些逃避技術,例如,一些惡意軟件使用延時方法,在惡意內容被歸類為良性后立即延遲其執(zhí)行;其他惡意軟件具有一些高級功能,可以檢測到沙盒環(huán)境的存在,從而一直保持空閑狀態(tài),直到它被發(fā)布到生產環(huán)境[2]。
要應對惡意PDF的威脅,需要開發(fā)新的、更加高效和智能的檢測和防御技術。為了解決傳統(tǒng)方法存在的局限性,近年來研究者們開始使用機器學習分類技術來解決惡意PDF檢測問題。使用機器學習的優(yōu)勢在于,可以通過訓練特定數(shù)據集并提取數(shù)據特征來做出決策,從而確定文件是惡意的還是良性的。通過使用機器學習,可以讓計算機自動學習和識別特定模式或特征與傳統(tǒng)的基于簽名和規(guī)則的檢測方法相比,機器學習能夠提供更準確、更快速和更智能的檢測和識別方式。
然而,針對這些基于機器學習的檢測器,黑客們也會逃避每個類中發(fā)現(xiàn)的共同顯著特征,從而繞過檢測器的防御。這使得它們更難被常見的學習算法檢測到。這將研究人員在將惡意的PDF文件與正常PDF文件分開方面遇到了困難。
本文提出了一種新的PDF惡意軟件檢測方法,是基于機器學習的綜合模型,該方法可以從大量逃避檢測的PDF文件中識別出惡意PDF文件。并且在數(shù)據集Evasive-PDFMal2022上實現(xiàn)了99.63%的預測精度,實驗結果證明了所提出的PDF檢測系統(tǒng)的高效性。
1" 相關工作
針對傳統(tǒng)基于簽名、規(guī)則匹配的研究在2010年之后已經很少,因為其存在著一些局限性,已不再受到研究的關注。文獻[3]和文獻[4]提到通過簽名、規(guī)則匹配檢測分析惡意樣本,然而,這類方法需要大量時間和資源維護規(guī)則庫,并且更新周期長,很難及時處理和應對新出現(xiàn)的惡意文檔。此外,由于規(guī)則制定過于依賴專家經驗,往往會漏報變異程度較大或是新型的惡意文檔,降低了檢測的準確性和可靠性。因此,這些方法在實際應用中的效果有限,需要進一步改進。
JavaScript是PDF攻擊的主流,絕大部分惡意PDF文檔要完成特殊操作的函數(shù)和JS代碼等要做動態(tài)的惡意行為都是在JavaScript中實現(xiàn)的,所以“/JavaScript”和“/JS”關鍵字數(shù)量越大越可能是惡意的,在2014年至2017年的文獻中,大量文獻僅對JavaScript進行檢測。文獻[5]基于JavaScript攻擊的PDF樣本文件分析,包括解壓縮與解密各個PDF文件流對象,以及對解密后的JavaScript代碼進行完整的預處理,形成有效的特征向量集,在此基礎上建立規(guī)則特征庫來判斷惡意PDF。文獻[6]對提取到的JavaScript數(shù)據流進行還原處理及反混淆等方法處理,然后對得到的原始JavaScript代碼提取相應的特征向量,再利用支持向量機訓練出的分類器進行靜態(tài)檢測。文獻[7]使用N-gram算法提取JavaScript特征向量,使用半監(jiān)督學習,結合三種不同的分類器,提高了檢測精度和泛化能力。
近些年檢測惡意PDF的特征提取工程逐漸完善,部分研究也針對類不平衡的情況做出分析。文獻[8]通過對不均衡PDF樣本集的雙向采樣,提出了一種新的方法K-Means,它可以有效地消除欠采樣,再結合TBSMOTE,將樣本分類到均衡狀態(tài),從而提高檢測效果。文獻[9]提出了一種新的檢測方法,它利用特征集聚和卷積神經網絡技術,有效地解決了特征維度高、數(shù)據集樣本少導致模型欠擬合的問題,并采用Ward最小方差聚類技術將聚合特征轉換為卷積神經網絡,從而實現(xiàn)了對惡意PDF的準確檢測。文獻[10]在針對對抗樣本的檢測上,提出了一種基于文檔圖結構和卷積神經網絡的檢測方法,經過計算得到圖的拉普拉斯矩陣,并以此作為特征送入CNN分類模型進行訓練,性能優(yōu)于KNN和SVM分類模型。文獻[11]中Jiang等人使用小波能量譜基于熵序列提取結構特征以及統(tǒng)計特征,采用隨機子采樣策略來訓練多個子分類器。每個分類器都是獨立的,增強了檢測時的泛化能力。使用半監(jiān)督學習算法(Semi-SL),實驗結果表明,盡管使用僅11%標記的惡意樣本的訓練數(shù)據,該方法的準確率仍達到94%。文獻[12]中Mohammed等人創(chuàng)建了一個名為MaleX的新數(shù)據集,其中包含約100萬個惡意軟件和良性Windows可執(zhí)行樣本,用于大規(guī)模惡意軟件檢測和分類實驗,采用深度ResNet-50卷積神經網絡(ResNet-50 RNN)準確率達到96%。
隨著技術的進步,黑客們也通過嘗試繞過檢測器的防御,隨之PDF領域也出現(xiàn)了防御對抗的相關研究。文獻[13]主要介紹了一種防御惡意樣本逃逸SVM模型檢測的方法,通過提取正常和惡意PDF樣本集合中的高頻節(jié)點作為特征,并利用增加正常節(jié)點對惡意PDF進行偽裝的方式,將生成的逃逸樣本加入SVM分類器的訓練集中,經過多次迭代,以達到檢測這類逃逸樣本的目的。文獻[14]通過模擬不同強度的攻擊,將對抗樣本添加到訓練集中,提出集成決策樹方法來對對抗樣本進行檢測。文獻[15]通過使用逃避攻擊方法實現(xiàn)對KNN算法在惡意PDF分類進行攻擊,有效提高KNN分類器的魯棒性。文獻[16]同樣在Evasive-PDFMal2022數(shù)據集上采用隨機森林算法對逃避PDF實現(xiàn)了較高的準確率。文獻[17]中Abu Al-Haija等人采用可優(yōu)化決策樹算法在Evasive-PDFMal2022數(shù)據集上通過提取32維有效特征使用了2.174微秒的短預測間隔內實現(xiàn)了較高的檢測精度。
2" PDF介紹
PDF是一種可移植文件格式,用于在不同操作系統(tǒng)和設備上共享文檔。與其他格式不同的是,PDF文件的布局和格式都是固定的,這意味著除非使用專業(yè)的PDF編輯工具,否則無法更改其內容。因此,PDF文件通常被用作電子文檔、電子書籍、學術論文、合同協(xié)議等需要保護內容不被篡改的場合。
2.1" 物理結構
PDF的物理結構指的是文件在磁盤或存儲介質上的實際布局。PDF文件的物理結構由頭部、中間部分、相關索引表以及文件尾組成。PDF文件頭部包含了“%PDF-”版本的規(guī)范信息,并以一個序號標記。比如,“%PDF-1.7”顯示出PDF文檔完全符合PDF1.7的標準。所有以Obj開頭和Endobj結尾的對象構成了一個完整的集合。每個對象都有一個唯一的編號,用于在文件中引用。對象中間可能包含stream數(shù)據流或子對象。索引表cross-reference類似一個目錄,它記錄了文件中各個對象的位置和編號,并提供了快速查找和訪問對象的方式,其地址通常在文件尾部的“Trailer”開頭標志處指定。關鍵字Trailer處為文件尾,包含cross-reference的地址和一些文檔描述信息包括所有對象的數(shù)量、創(chuàng)建時間、ID等,如圖1所示。
2.2" 邏輯結構
PDF的邏輯結構是指文件中內容的組織和布局方式,涉及目錄結構、文檔結構、標簽樹和區(qū)域結構等元素。邏輯結構定義了文檔的層次結構、頁面順序、標簽語義等信息,以便于文檔的瀏覽、導航和索引。PDF文件從邏輯上看是一個以Catalog為根節(jié)點的樹形結構,如圖2所示,其下包括Pages、Outlines等子對象節(jié)點。Catalog字典中還包括一些承載不同PDF文件信息的節(jié)點對象,如Type、Version、AA等對象節(jié)點。具體而言,Type節(jié)點指定了所使用的PDF版本類型,Version節(jié)點記錄了PDF版本號,PageLabels節(jié)點存儲了PDF文件的頁碼標簽信息,PageLayout節(jié)點指定PDF文件頁面的布局,AA節(jié)點存儲了一些PDF執(zhí)行動作的信息。Pages是Page的集合入口,包括Count、Kids、Parent、Type等字段,其中Page對象包含content、annotations、resources等信息。
物理結構和邏輯結構是PDF文檔的兩個重要方面,它們相互依賴并共同構成了完整的PDF文件。通過正確與協(xié)調地組織物理結構和邏輯結構,可以實現(xiàn)文檔的正確顯示、導航和處理。物理結構提供了文件的整體框架和組織方式,確保文件在存儲介質上的正確讀取和解析。邏輯結構描述了文件中的內容、布局和層次結構,使得讀取和解析后的數(shù)據能夠按照邏輯方式進行顯示和處理。物理結構和邏輯結構之間通過文件頭部和交叉引用表進行聯(lián)系和映射。文件頭部包含了重要的文檔信息和結構定義,交叉引用表記錄了文件中各個對象的位置和關系,使得邏輯結構能夠正確地訪問和使用物理結構中的數(shù)據。而本文提取出的各關鍵字數(shù)量就是從PDF源碼層面統(tǒng)計出來的。
2.3" 逃逸手段及結構分析
PDF的逃逸手段總結歸納為以下幾種,包括:
1)使用加密算法或壓縮技術隱藏惡意代碼,在結構中體現(xiàn)為:PDF文件是否使用了加密算法對內容進行加密;PDF文件中使用的過濾器的總數(shù),過濾器可以用于壓縮或加密數(shù)據,也可能隱藏了惡意代碼;PDF文件中包含嵌套過濾器的對象的數(shù)量,嵌套過濾器可能用于多層次的數(shù)據處理和隱藏惡意代碼;“stream”關鍵字數(shù)量和“endstreams”關鍵字數(shù)量,統(tǒng)計PDF文件中涉及流對象的關鍵字數(shù)量,流對象可以用于存儲壓縮或加密的數(shù)據,其中可能隱藏了惡意代碼等。
2)采用多層嵌套或動態(tài)生成來增加檢測難度,在結構中體現(xiàn)為:“obfuscation”的數(shù)量,這可能包括使用隨機生成的名稱、使用非常短的名稱等方式來混淆代碼結構;嵌套過濾器的對象數(shù)量;流對象的數(shù)量,流對象可用于存儲和隱藏大量數(shù)據,包括惡意代碼,從而增加了檢測難度;PDF文件中所有流對象的平均大小等。
3)利用JavaScript來執(zhí)行自動化操作、遠程控制、欺騙用戶訪問可疑鏈接等,同時還可能對代碼進行混淆,在結構中體現(xiàn)為:關鍵詞“/JS”和“/JavaScript”的數(shù)量,JavaScript可以用于執(zhí)行各種操作,包括自動化、遠程控制和欺騙用戶等;關鍵詞“/URI”和“/Action”的數(shù)量,這些關鍵詞通常與JavaScript代碼的執(zhí)行和跳轉相關,用于觸發(fā)特定的操作或訪問可疑鏈接;關鍵詞“/launch”和“/submitForm”的數(shù)量,這些關鍵詞通常與JavaScript代碼的執(zhí)行和控制相關;obfuscations的數(shù)量:PDF文件中名稱模糊化的對象數(shù)量,包括JavaScript函數(shù)、變量和對象等。名稱模糊化可以增加代碼的復雜性和閱讀難度。
4)惡意代碼還可能被隱藏在對象的末尾或文件結尾的Trailer中,同時對象本身也可能會被隱藏或加密,在結構中體現(xiàn)為:關鍵詞“/Endobj”的數(shù)量,惡意代碼可能會被隱藏在一個對象的末尾,使用
“/Endobj”作為結束標志;關鍵詞“/Trailer”的數(shù)量,惡意代碼可能會被隱藏在文件結尾的Trailer中;關鍵詞“/Xref”和“/Startxref”的數(shù)量,這些關鍵詞通常與惡意代碼被隱藏或篡改相關。
5)關鍵節(jié)點可能會被混淆,使得用戶難以發(fā)現(xiàn)惡意代碼的存在,在結構中體現(xiàn)為:唯一字體總數(shù),惡意代碼可能會通過字體來混淆和隱藏關鍵節(jié)點;關鍵詞“/Encrypt”和“/Decrypt”的數(shù)量,加密和解密可以用于隱藏惡意代碼和數(shù)據;關鍵詞“/ObjStm”
“/JS”和“/JavaScript”的數(shù)量,這些關鍵詞通常與惡意代碼和關鍵節(jié)點的混淆和隱藏相關;被壓縮對象數(shù)量,壓縮可以用于隱藏惡意代碼和數(shù)據。
6)正常情況下,PDF文件中的對象會以關鍵字“Obj”開始并以“Endobj”結尾,攻擊者可能會利用這一點來欺騙檢測系統(tǒng),將惡意代碼隱藏在沒有明確結束標志的對象中,在結構中體現(xiàn)為:關鍵詞“/Obj”和“/Endobj”的數(shù)量:PDF文件中涉及對象和結束標志的關鍵詞數(shù)量。攻擊者可能會利用這些關鍵詞來隱藏惡意代碼和數(shù)據,并繞過檢測系統(tǒng)。
3" 實驗方法
3.1" 特征工程
總結歸納對逃避檢測的惡意PDF關鍵特征,如圖3所示。本文利用fitz提取了PDF大小、是否加密、元數(shù)據大小、page數(shù)量、PDF頭等一般特征,然后利用pdfid從PDF源碼提取“Obj”“Endobj”“stream”“endstream”“/JS”“/JavaScript”“/Action”
“/AA”等關鍵字數(shù)量進行收集,并將各關鍵字的數(shù)量作為結構特征?;诓煌卣鲗Ψ诸惼餍阅艿挠绊懖煌?,我們使用決策樹算法進行了特征重要性評估。最終確定了重要性排名前24的特征作為本文實驗的特征集,特征重要性的排序如圖4所示。
3.2" 分類模型
本文采用了Adaboost算法來構建模型。Adaboost是一種集成自適應增強機器學習方法,旨在通過組合多個弱分類器來構建一個強分類器,基本思想是依次訓練一系列分類器,并根據之前分類器的錯誤情況來調整樣本權重,較高的權重分配給錯誤分類的示例,使得錯誤分類的樣本在后續(xù)的分類器訓練中得到更多關注,這有助于減少學習過程中的偏差和方差,對逃避樣本在迭代訓練中得到更多的關注,如圖5所示。同時,我們在實驗中也使用了隨機森林和Stacking這兩個集成學習算法訓練出來的模型進行對比實驗,并進行了實驗效果評估。相對以上兩種算法,從原理的角度來看,Adaboost算法尤其在處理復雜問題和存在噪聲的數(shù)據集時表現(xiàn)優(yōu)異,而本文數(shù)據集是逃避檢測的PDF樣本,可以根據權重的分配自適應調整來重點關注被錯誤分類的PDF樣本,通過迭代再進一步調整權重,從而在訓練過程中更加關注惡意逃避的特征,Adaboost算法通過串行訓練多個弱分類器并組合它們的結果,這意味著該算法仍可能通過組合多個弱分類器的結果來捕獲和識別惡意特征。總體而言,Adaboost由于其自適應調整和集成學習的特性使得它在該實驗環(huán)境下具有一定優(yōu)勢。
4" 實驗流程
4.1" 數(shù)據集
本研究引用CIC Evasive-PDFMal2022數(shù)據集。本數(shù)據集是由4 468個良性文件和5 557個惡意文件組成,是經過4萬多個文件經過處理篩選出錯誤分類的逃避檢測樣本集合。數(shù)據發(fā)布者采用K-means機器學習算法進行分析,樣本被分到錯誤的惡意標記聚類中被認為是惡意記錄規(guī)避集,這些樣本與其他同類樣本的特征相差較大,因此未被聚類到大部分具有相同標簽的樣本中。此樣本集將分類錯誤的良性樣本和分類錯誤的惡意樣本合并得到了一份新數(shù)據集作為CIC Evasive-PDFMal2022數(shù)據集,如圖6所示。
圖6" 數(shù)據集生成過程
4.2" 實驗設置
K折交叉驗證(k = 5),將數(shù)據集分成訓練集、驗證集和測試集三部分。數(shù)據表經過的數(shù)據清理后,使用k折交叉驗證方法進行隨機拆分,將數(shù)據集分成5個不同的子集。按照順序選擇其中一個子集作為驗證集,而將剩下的4個子集作為訓練集。將對每個子集分別進行一次訓練和驗證。在進行模型訓練時,使用4個訓練集中的數(shù)據來訓練模型,在進行模型驗證時,使用當前選定的驗證集來評估模型的性能和效果。可以使用驗證集上的評估結果來優(yōu)化模型的超參數(shù)或調整算法。最終得到5個不同的折疊訓練和驗證集,利用訓練集和驗證集反復迭代訓練和驗證模型,迭代更新出最佳模型,然后對模型進行評估,計算其性能指標。
4.3" 評估指標
本文實驗的評估指標包括:準確率、精確率、召回率和F1值。圖7為呈現(xiàn)該指標的混淆矩陣。
4.4" 實驗結果及分析
依次使用Adaboost、Stacking和隨機森林訓練并測試模型,經過比較,如表1所示,我們發(fā)現(xiàn)使用Adaboost算法訓練出的模型表現(xiàn)最佳,因此最終選擇Adaboost作為模型訓練的方法。
我們將本文所提出的方法與同領域的研究進行了對比,比較結果如表格2所示。經過對比可以看出本文所提出的方法在準確率上優(yōu)于其他模型。本文經過提取了最佳特征組合,再結合Adaboost算法針對本文的逃避檢測PDF樣本,根據權重的分配自適應調整重點關注被錯誤分類的PDF樣本,通過迭代調整權重,在訓練過程中更加關注惡意逃避的特征。Adaboost算法通過組合多個弱分類器的結果捕獲和識別惡意特征,實驗證明,其由于自適應調整和集成學習的特性而在該實驗環(huán)境下具有一定優(yōu)勢。
5" 結" 論
隨著數(shù)字化轉型和遠程工作的全球趨勢,數(shù)字文檔需求顯著增加。然而,數(shù)字文檔的廣泛應用也帶來了針對用戶文件和機器的惡意軟件開發(fā)的風險。其中,PDF文件是全球最常用的數(shù)字文件之一,也是各種威脅和惡意代碼攻擊的目標。黑客們會在PDF文件中嵌入惡意代碼,并將其隱藏,以感染受害者的機器。因此,本文提出、開發(fā)并評估了一種新的PDF惡意軟件檢測智能系統(tǒng)。該系統(tǒng)采用高性能機器學習模型AdaBoost算法。我們在使用稱為Evasive-PDFMal2022的新數(shù)據集上訓練并評估模型。結果在檢測準確度、精確度、召回率、F1值具有優(yōu)越性,并在同一研究領域優(yōu)于其他最先進的模型。因此,所提出的模型在各個領域都可以推廣和應用。
參考文獻:
[1] 喻民,姜建國,李罡,等.惡意文檔檢測研究綜述 [J].信息安全學報,2021,6(3):54-76.
[2] 林楊東,杜學繪,孫奕.惡意PDF文檔檢測技術研究進展 [J].計算機應用研究,2018,35(8):2251-2255.
[3] BACCAS P. Finding Rules for Heuristic Detection of Malicious Pdfs: With Analysis of Embedded Exploit Code [EB/OL].[2023-09-06].https://pobicuscom.files.wordpress.com/2018/04/vb2010-baccas.pdf.
[4] 張福勇,齊德昱,胡鏡林.基于C4.5決策樹的嵌入型惡意代碼檢測方法 [J].華南理工大學學報:自然科學版,2011,39(5):68-72.
[5] 胡江,周安民.針對JavaScript攻擊的惡意PDF文檔檢測技術研究 [J].現(xiàn)代計算機:專業(yè)版,2016(1):36-40.
[6] 徐建平.基于SVM模型的惡意PDF文檔檢測方法 [J].電腦知識與技術,2016,12(24):90-92.
[7] 李睿,楊淑群,張新宇.一種雙向采樣的惡意PDF文檔檢測方法 [J].軟件導刊,2022,21(5):67-72.
[8] 俞遠哲,王金雙,鄒霞.基于特征集聚和卷積神經網絡的惡意PDF文檔檢測方法 [J].信息技術與網絡安全,2021,40(8):35-41.
[9] 俞遠哲,王金雙,鄒霞.基于文檔圖結構的惡意PDF文檔檢測方法 [J].信息技術與網絡安全,2021,40(11):16-23.
[10] JIANG J G,SONG N,YU M,et al. Detecting Malicious PDF Documents Using Semi-Supervised Machine Learning [C]//DigitalForensics 2021: Advances in Digital Forensics XVII.[S.I.]:Springer,Cham,2021,612:135-155.
[11] MOHAMMED T M,NATARAJ L,CHIKKAGOUDAR S,et al. Malware Detection Using Frequency Domain-Based Image Visualization and Deep Learning [J/OL].arXiv:2101.10578 [cs.CR].[2023-09-02].https://doi.org/10.48550/arXiv.2101.10578.
[12] CUAN B,DAMIEN A,DELAPLACE C,et al. Malware Detection in PDF Files Using Machine Learning [C]//15th International Conference on Security and Cryptography.Porto:SciTePress,2018,2:412-419.
[13] 李坤明,顧益軍,張培晶.對抗環(huán)境下基于集成決策樹的惡意PDF文件檢測 [J].計算機應用與軟件,2020,37(10):318-322+333.
[14] 李坤明,顧益軍,王安.逃避攻擊下惡意PDF文件檢測技術 [J].中國人民公安大學學報:自然科學版,2019,25(3):60-64.
[15] AlMahadeen A,alkasassbeh M. PDF Malware Detection Using Machine Learning [J/OL].computer science and mathematics,2023:2023010557[2023-08-20].https://doi.org/10.20944/preprints202301.0557.v1.
作者簡介:李東帥(1999—),男,漢族,吉林四平人,碩士研究生在讀,研究方向:惡意軟件檢測;尚培文(1996—),男,漢族,山西晉中人,碩士研究生在讀,研究方向:威脅檢測。