紀(jì)文桃,李媛媛,秦寶東,2
(1.西安郵電大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,西安 710121;2.西安郵電大學(xué)無線網(wǎng)絡(luò)安全技術(shù)國家工程實(shí)驗(yàn)室,西安 710121)
密碼學(xué)包括2 個(gè)重要的分支,即密碼編碼學(xué)和密碼分析學(xué)。在信息時(shí)代,網(wǎng)絡(luò)安全已成為國家安全的重要組成部分,而密碼編碼學(xué)和密碼分析學(xué)在其中扮演著不可或缺的角色。目前,網(wǎng)絡(luò)空間中不僅存在多種數(shù)據(jù)類型,例如視頻、文本、圖像等,而且數(shù)據(jù)量大、冗余度高。因此,需要研究合理的數(shù)據(jù)處理方案。機(jī)器學(xué)習(xí)與密碼學(xué)的結(jié)合可實(shí)現(xiàn)對(duì)大量密文數(shù)據(jù)的有效處理。機(jī)器學(xué)習(xí)提供了聚類分類算法來分析數(shù)據(jù),而密碼學(xué)則能保證數(shù)據(jù)安全。
密碼編碼學(xué)是一種保護(hù)信息在傳遞過程中不被第三方或者敵方所解讀、利用和竊取的技術(shù),它解決的主要問題是信息的安全性問題。在現(xiàn)實(shí)生活中,總會(huì)存在一些用戶在未經(jīng)信息持有者授權(quán)或者本就無意愿將信息共享的情況下,對(duì)所傳輸?shù)男畔⑦M(jìn)行非法獲取、惡意篡改以及刪除和偽造。密碼學(xué)者對(duì)此采取的措施主要是使用密碼分析技術(shù)來進(jìn)一步完善所設(shè)計(jì)的密碼方案并優(yōu)化方案中所包含的密碼算法。目前使用較多的密碼分析技術(shù)都是基于Kerckhoffs[1]這一原則,即在進(jìn)行密碼分析時(shí)分析者是知道具體密碼算法的。根據(jù)可用于密碼分析的信息,密碼分析攻擊的手段可分為唯密文攻擊和已知明文攻擊、選擇明文攻擊、選擇密文攻擊和側(cè)信道攻擊。在現(xiàn)實(shí)情況下,密文數(shù)據(jù)是密碼分析者唯一容易獲得的信息。已知的密碼分析技術(shù)大部分是基于某種具體密碼算法或者在已知密文所使用的密碼算法的前提下設(shè)計(jì)的。因此,密碼分析的首要任務(wù)是對(duì)獲取的密文數(shù)據(jù)所使用的密碼算法進(jìn)行識(shí)別。密碼算法識(shí)別不僅是進(jìn)一步開展密碼分析的基礎(chǔ),同時(shí)也是發(fā)現(xiàn)密碼算法是否存在安全隱患的一種重要方式,對(duì)增強(qiáng)密碼算法的安全性具有重要的影響。
本文通過GMSSL 對(duì)明文文本進(jìn)行加密,生成與其對(duì)應(yīng)的關(guān)于SM4 4 種工作模式的密文文本,并利用特征提取算法對(duì)這些密文文本進(jìn)行特征提取,形成后續(xù)分類模型和測(cè)試階段所需要的特征向量。最后借助機(jī)器學(xué)習(xí)算法對(duì)國密算法SM4 的4 種工作模式進(jìn)行模型構(gòu)建和識(shí)別測(cè)試,以驗(yàn)證本文方案的有效性。
基于密文特征的密碼體制識(shí)別往往都同機(jī)器學(xué)習(xí)技術(shù)互相配合[2]。2011 年,MANJULA 和ANITHA[3]提出基于C4.5 決策樹的密碼體制識(shí)別方案。該方案提取了8 種密文特征,對(duì)11 種加密算法進(jìn)行識(shí)別,包括古典算法、分組密碼算法和非對(duì)稱加密算法,并從訓(xùn)練文件數(shù)量和所用密文文件大小兩方面進(jìn)行試驗(yàn),得到的識(shí)別率為70%~75%。2012 年,CHOU 等[4]提出利用支持向量機(jī)對(duì)密碼體制進(jìn)行識(shí)別。通過對(duì)數(shù)據(jù)集的分析發(fā)現(xiàn)密碼的工作模式主導(dǎo)著分類任務(wù)的執(zhí)行。該方案提取了12 種密文特征,對(duì)高級(jí)加密標(biāo)準(zhǔn)(Advance Encryption Standard,AES)和數(shù)據(jù)加密標(biāo)準(zhǔn)(Data Encryption Standard,DES)分別在電碼本(Electronic Codebook,ECB)模式和密碼分組鏈接(Cipher-Block Chaining,CBC)模式下進(jìn)行算法識(shí)別。實(shí)驗(yàn)結(jié)果表明,對(duì)每個(gè)明文使用CBC 模式和隨機(jī)初始向量時(shí)性能較差,而使用ECB 模式時(shí),某些數(shù)據(jù)集的性能相對(duì)較好。2013 年,MISHRA 等[5]提出并實(shí)現(xiàn)了將模式識(shí)別和決策樹結(jié)合從而識(shí)別分組密碼和流密碼的方案。該方案包括3 個(gè)子模塊技術(shù),即塊長(zhǎng)度/流檢測(cè)、熵/重現(xiàn)分析和基于字典/決策樹的方法。這3 個(gè)部分的實(shí)現(xiàn)大幅提高了密碼算法的識(shí)別率。2013 年,WILLAM 等[6]提出基于神經(jīng)網(wǎng)絡(luò)的區(qū)分攻擊方法,其利用語言學(xué)和信息檢索方法,從MARS、RC6、Rijndael、Serpent、和Twofish 加密的密文中生成分類模型,然后將獲取的密文集合提交到“聚類過程”,并將結(jié)果輸入到分類器中,從而得到以上5 種加密算法的分類結(jié)果。2014 年,LOMTE 等[7]對(duì)WILLAM 等提出的方案做進(jìn)一步研究。后者在聚類識(shí)別過程中使用單一的密鑰進(jìn)行加密的,而前者在訓(xùn)練和測(cè)試過程中設(shè)置了不同的密鑰,相比較而言,識(shí)別率有所下降。2015 年,吳楊等[8-9]提出了基于k 均值(K-means)聚類的密碼體制分層識(shí)別方案,對(duì)5 種分組密碼(AES、Camellia、DES、3DES、SMS4)進(jìn)行兩兩識(shí)別,其在特征提取部分使用了密文隨機(jī)性度量值的方法,大幅提高了典型分組密碼的識(shí)別率,高達(dá)90%左右。2016 年,MELLO 等[10]在ECB 模式下,對(duì)7 種不同語言編寫的純文本文件使用7 種密碼算法進(jìn)行編碼。這些文件提供了6 種數(shù)據(jù)挖掘算法的信息,以用于識(shí)別文本加密的算法。通過大量的元數(shù)據(jù)和大量的耗時(shí)計(jì)算,得到了非常高的識(shí)別率。2016 年,TAN 等[11]提出一種基于支持向量機(jī)的密碼體制識(shí)別方案,對(duì)5 種常見的分組密碼算法進(jìn)行識(shí)別,分別為AES、Blowfish、3DES、RC5和DES,其對(duì)這5 種算法在4 種不同的情況下進(jìn)行試驗(yàn),即訓(xùn)練和測(cè)試密文的密鑰是否相同,在此基礎(chǔ)上,利用其他4種加密算法與AES進(jìn)行一一識(shí)別,當(dāng)訓(xùn)練和測(cè)試階段的密鑰相同時(shí)其識(shí)別率較高。2017 年,BARBOSA 等[12]提出對(duì)加密的多媒體文件進(jìn)行密碼算法識(shí)別。該過程使用4 種加密算法對(duì)音頻和視頻文件進(jìn)行加密,然后將加密的文件提交給數(shù)據(jù)挖掘算法,并將其產(chǎn)生的混淆矩陣編譯成圖表。2017 年,黃良韜等[13]提出基于隨機(jī)森林的密碼體制分層識(shí)別方案,并介紹了3 種簇分方式,即CM-簇分、CSN-簇分和CSBP-簇分。首先將已加密的文件按照大的分類進(jìn)行歸類,然后從每一類中區(qū)分出具體的密碼算法。實(shí)驗(yàn)結(jié)果表明,加入分層的方案較單分的密碼體制識(shí)別效果更佳。在以往的密碼體制識(shí)別中,多數(shù)密碼算法都是在ECB 模式下的,2018 年,TAN 等[14]提出基于CBC 模式的密碼體制識(shí)別方案。該方案用5 種算法進(jìn)行多類識(shí)別和一對(duì)一識(shí)別,在此基礎(chǔ)上考慮了訓(xùn)練和測(cè)試時(shí)密鑰是否相同以及初始向量是否相同的情況,其中一對(duì)一識(shí)別是將AES 與其他4 種算法進(jìn)行識(shí)別。2019 年,趙志誠等[15]采用隨機(jī)性測(cè)試進(jìn)行密文特征的提取,提出了基于隨機(jī)森林的識(shí)別方案。該方案中對(duì)6 種分組密碼進(jìn)行兩兩識(shí)別,在不同的特征下其識(shí)別率各有差異,部分特征下其識(shí)別率能達(dá)到80%以上。
上述工作主要針對(duì)不同密碼算法進(jìn)行識(shí)別,或者在特定工作模式下進(jìn)行識(shí)別,而缺乏對(duì)分組密碼工作模式的識(shí)別,特別是國密SM4 分組密碼算法的工作模式識(shí)別。分組密碼的工作模式又對(duì)密碼算法的識(shí)別起著主導(dǎo)作用,這將對(duì)輿論分析、互聯(lián)網(wǎng)審查、電子取證和網(wǎng)絡(luò)監(jiān)控具有推進(jìn)作用。無論是對(duì)不同算法識(shí)別還是對(duì)分組密碼工作模式的識(shí)別,都利用機(jī)器學(xué)習(xí)將其視為模式分類的問題,使用機(jī)器學(xué)習(xí)的各種分類方法來嘗試捕獲加密后的密文文件中隱含的行為。通過機(jī)器學(xué)習(xí)算法對(duì)大量密文文本進(jìn)行分析計(jì)算,生成對(duì)應(yīng)的分類模型,再將測(cè)試文本投入分類器中進(jìn)行比較,最后得到分類結(jié)果。這樣就可以避免人為地去分析論證密碼工作模式本身的區(qū)別,而是將這一行為交由機(jī)器學(xué)習(xí)去完成,通過與統(tǒng)計(jì)學(xué)方法的結(jié)合,智能地挖掘和分析在同一明文文本集下經(jīng)由不同工作模式加密后產(chǎn)生的密文文本之間所隱含的不同信息。本文主要研究SM4 分組密碼工作模式識(shí)別方法。SM4 算法是我國國家密碼管理局提出的一種分組長(zhǎng)度和密鑰長(zhǎng)度均為16 字節(jié)的分組密碼算法,適用于無線局域網(wǎng)產(chǎn)品。它的安全性能較高,可以抵抗差分、線性和代數(shù)等分析技術(shù)。SM4 算法現(xiàn)已實(shí)現(xiàn)的工作模式有6 種,在本文中用到了密文分組鏈接模式(CBC)、密文反饋模式(CFB)、計(jì)數(shù)器模式(CTR)、輸出反饋模式(OFB)這4 種。若直接使用SM4算法加密消息,它的安全性是非常脆弱的。為了在不同的場(chǎng)景中更好地保護(hù)明文的安全性,需要借助不同的工作模式。對(duì)工作模式的識(shí)別能夠提高密碼算法的安全性,從而更好地抵抗密碼攻擊。
本文提出基于C4.5 的分組密碼工作模式識(shí)別方案并對(duì)國密SM4 算法的4 種工作模式進(jìn)行識(shí)別。首先利用加密工具在不同的工作模式下對(duì)大量的文本文件進(jìn)行加密,得到密文文件;然后構(gòu)造訓(xùn)練階段和測(cè)試階段所需的特征向量空間,該空間是由特征提取算法對(duì)密文文件處理后得到的,每個(gè)特征向量中包括5 個(gè)值,即大寫字母數(shù)量、小寫字母數(shù)量、數(shù)字字符數(shù)量、其他字符數(shù)量和標(biāo)簽值。在此基礎(chǔ)上,在訓(xùn)練階段通過對(duì)特征空間的學(xué)習(xí)生成決策樹,在測(cè)試階段根據(jù)生成的決策樹進(jìn)行決策,最后將決策值與標(biāo)簽值相比較得到分類結(jié)果。
本文設(shè)計(jì)基于決策樹的密碼體制識(shí)別系統(tǒng),系統(tǒng)模型如圖1 所示,其中包含4 個(gè)部分:1)生成特定工作模式的密文文件;2)提取密文特征;3)生成決策樹模型;4)進(jìn)行測(cè)試分類。
圖1 分組密碼工作模式識(shí)別模型Fig.1 Block-cipher working mode recognition model
分組密碼的工作模式[16]包括電子密碼本(ECB)模式、密文分組鏈接模式(CBC)、密文反饋模式(CFB)、輸出反饋模式(OFB)和計(jì)數(shù)器模式(CTR)。在該系統(tǒng)模型中,使用了國密SM4 算法的4 種工作模式,電子密碼本模式除外。CBC 模式相比較其他4 種工作模式較為流行,除第一個(gè)明文分組與隨機(jī)產(chǎn)生的初始向量[17]異或后加密生成密文外,其他明文分組都與前一個(gè)密文輸出進(jìn)行異或后生成相應(yīng)的密文。在信息傳輸過程中,只要一個(gè)明文分組出現(xiàn)錯(cuò)誤,則會(huì)影響其后的密文分組。因此它的加密過程不能并行化,相反解密過程不受該情況的影響,從而可實(shí)現(xiàn)并行計(jì)算。CFB 模式首先對(duì)隨機(jī)產(chǎn)生的初始化向量加密,將加密后的結(jié)果與明文分組相異或,而后續(xù)的過程是對(duì)前一個(gè)分組加密后的結(jié)果進(jìn)行加密,然后與當(dāng)前明文相異或,得到對(duì)應(yīng)的密文。與CBC 模式相比,CFB 模式的錯(cuò)誤傳播性質(zhì)更為突出,一個(gè)明文分組的錯(cuò)誤可能會(huì)導(dǎo)致其后所有密文分組出現(xiàn)錯(cuò)誤。不僅僅是加密,其解密過程也依賴其他的明文分組,因此,其加密過程和解密過程均不能實(shí)現(xiàn)并行化。OFB 模式的第一步操作與CFB 相同,不同的是OFB 把隨機(jī)初始向量加密后的結(jié)果作為下一分組的輸入,對(duì)該輸入加密后再與明文分組進(jìn)行異或運(yùn)算得到對(duì)應(yīng)的密文分組。OFB 模式規(guī)避了CFB模式和CBC 模式由于明文出錯(cuò)而帶來的錯(cuò)誤傳播的風(fēng)險(xiǎn),但隨之而來的是一旦密文被惡意篡改,檢測(cè)工作將變得不再容易。CTR 模式是將計(jì)數(shù)器進(jìn)行分組,將每個(gè)計(jì)數(shù)器分組加密后與明文分組進(jìn)行異或運(yùn)算,得到對(duì)應(yīng)的密文分組。每個(gè)分組的加密與解密過程相互獨(dú)立,不會(huì)有錯(cuò)誤傳輸?shù)睦_,也因此加解密均可并行。
將明文加密成特定密碼工作模式的密文文件后,再對(duì)其進(jìn)行特征提取。特征提取的工作是最重要也是最難的一步,因?yàn)槠浔举|(zhì)是對(duì)密數(shù)據(jù)的處理和分析,而且它對(duì)后續(xù)模型的生成和分類的結(jié)果起著決定性的作用。特征提取的方法很多,如統(tǒng)計(jì)學(xué)方法、隨機(jī)性檢測(cè)[18-19]、密碼學(xué)中的熵特性和信號(hào)中的頻域特征等。本文借助統(tǒng)計(jì)學(xué)方法和信息熵的結(jié)合來實(shí)現(xiàn)密文數(shù)據(jù)的特征提取。首先利用統(tǒng)計(jì)學(xué)方法對(duì)密文文本中的大小寫字符、數(shù)字字符以及特殊字符的個(gè)數(shù)進(jìn)行統(tǒng)計(jì),然后分別計(jì)算其對(duì)應(yīng)的熵,以此為基礎(chǔ)形成特征向量,進(jìn)而得到特征向量空間。
對(duì)密文數(shù)據(jù)特征提取后即進(jìn)入學(xué)習(xí)和分類的過程,這是機(jī)器學(xué)習(xí)算法的本質(zhì)。機(jī)器學(xué)習(xí)算法包括2 個(gè)階段:第1 個(gè)階段是訓(xùn)練階段,即將得到向量空間的一部分傳遞給決策樹算法進(jìn)行學(xué)習(xí),并生成分類模型,也稱決策樹模型;第2 個(gè)階段為測(cè)試階段,即將向量空間的另一部分投入到機(jī)器學(xué)習(xí)算法中進(jìn)行測(cè)試,依據(jù)訓(xùn)練階段生成的決策樹模型來進(jìn)行分類。訓(xùn)練階段和測(cè)試階段的向量空間中都包含密文的特征,而決策樹算法是有監(jiān)督學(xué)習(xí)算法,它的學(xué)習(xí)標(biāo)簽包含在訓(xùn)練階段,而在測(cè)試階段將標(biāo)簽隱藏,待測(cè)試完成后,用決策樹模型預(yù)測(cè)的結(jié)果與測(cè)試數(shù)據(jù)所隱藏的標(biāo)簽進(jìn)行對(duì)比,就可得到實(shí)驗(yàn)的結(jié)果。
在得到結(jié)果之前,要借助決策樹算法[20]來生成模型以及進(jìn)行分類。決策樹算法包括ID3 和C4.5 算法,ID3 算法主要借助信息熵和信息增益作為測(cè)試屬性的衡量標(biāo)準(zhǔn),而C4.5 是在ID3 的基礎(chǔ)上對(duì)信息增益加以調(diào)節(jié)得到分裂信息,用分裂信息和信息增益率來劃分屬性。ID3 在對(duì)屬性的劃分中往往偏向于選擇樣本較多的,而C4.5 采用信息增益率規(guī)避了這一點(diǎn),并且C4.5 算法在樹的構(gòu)造過程中,不僅能夠?qū)⑦B續(xù)數(shù)據(jù)進(jìn)行離散化處理,而且還可以對(duì)樹進(jìn)行剪枝處理,從而得到更優(yōu)的樹。本文中選用的是C4.5,具體操作如下:
1)假設(shè)有包含N種屬性的數(shù)據(jù)集S 和包含K種屬性的子集合A。令pi表示每個(gè)目標(biāo)屬性的概率,|Si|表示子集Si的樣本數(shù),|S|表示數(shù)據(jù)集S 的樣本數(shù)。將數(shù)據(jù)集按照每一個(gè)屬性進(jìn)行劃分,并計(jì)算其對(duì)應(yīng)的信息熵、分裂信息和信息增益率,具體如下:
信息熵:
2)將上一步中計(jì)算出的每一個(gè)屬性的信息增益率進(jìn)行比較,選擇最大的一個(gè)作為決策樹的節(jié)點(diǎn)。
3)在子節(jié)點(diǎn)上利用剩余的屬性繼續(xù)執(zhí)行第1 步和第2 步,直到該節(jié)點(diǎn)為純?nèi)~子結(jié)點(diǎn)。
4)對(duì)生成的決策樹進(jìn)行剪枝處理,包括先剪枝和后剪枝2 種方法,以防止過擬合。
該算法結(jié)合密文特征提取的結(jié)果得到上文描述的信息熵、信息增益和信息增益率,對(duì)數(shù)據(jù)集進(jìn)行合理高效的劃分,在本地生成用于測(cè)試階段判斷分類的樹結(jié)構(gòu),根據(jù)這個(gè)樹結(jié)構(gòu)得到所需的分類結(jié)果。
在整個(gè)實(shí)驗(yàn)過程中,本文用到的實(shí)驗(yàn)工具包括GMSSL、VS2010 和VS Code。GMSSL 同OpenSSL一樣,都是密碼工具箱。它實(shí)現(xiàn)了本文所需的SM4加密算法,即在CBC 模式、CFB 模式、CTR 模式和OFB 模式下的SM4 密碼算法對(duì)1 000 份明文文本加密,得到4 種工作模式下各1 000 份的密文文本。明文是隨機(jī)選取的大小在1 KB~200 KB 之間的文本文檔,都是分組規(guī)模的倍數(shù)。密文特征提取的工作是由VS2010 所提供的C 語言編寫的特征提取算法所完成,得到大小寫字符、數(shù)字字符和特殊字符的統(tǒng)計(jì)個(gè)數(shù)。4 000 份密文文本都會(huì)產(chǎn)生一組包含4 個(gè)特征值的特征向量,從而構(gòu)成所需的特征空間。決策樹算法是在VS Code 上用python 語言實(shí)現(xiàn),進(jìn)而為訓(xùn)練階段學(xué)習(xí)模型的生成以及測(cè)試階段分類的實(shí)現(xiàn)提供了方法。在訓(xùn)練階段和測(cè)試階段所用的密鑰空間是相同的,所有的密鑰都是隨機(jī)值,并且測(cè)試階段和訓(xùn)練階段文本的大小是相同的。在同一密鑰空間下,對(duì)同一工作模式下的不同文本文檔的密鑰是不同的。本文構(gòu)建了3 種實(shí)驗(yàn)?zāi)P?,分別為混合分類模型、混合文本大小分類模型和一對(duì)一分類模型?;旌戏诸惸P褪菍? 種工作模式的樣本直接投給分類器進(jìn)行區(qū)分;混合文本大小分類模型是在混合分類的基礎(chǔ)上,對(duì)密文文本進(jìn)行甄選,將不同文本大小作為分類的影響因子;一對(duì)一分類模型是將4 種工作模式兩兩組合,每組單獨(dú)進(jìn)行測(cè)試。在混合分類模型中,所用到的訓(xùn)練樣本數(shù)和測(cè)試樣本數(shù)是相同的并且都包含于同一個(gè)密鑰空間。此外,該模型將樣本數(shù)量作為測(cè)試結(jié)果的影響因子。在這3 種模型中,正確率指的是測(cè)試數(shù)據(jù)根據(jù)訓(xùn)練模型的預(yù)測(cè)與其標(biāo)簽是否一致的數(shù)量(即預(yù)測(cè)結(jié)果正確的數(shù)量)與參與測(cè)試的數(shù)據(jù)數(shù)量的比值,用公式表示如下:
表1 給出了測(cè)試結(jié)果隨著樣本數(shù)量增加的變化情況。在每次測(cè)試中,4 種工作模式的樣本數(shù)都是平均的。當(dāng)樣本總數(shù)從8 個(gè)增加到100 個(gè)時(shí),其正確率也逐漸增加,從16.7%增加至26.5%。當(dāng)樣本數(shù)較大時(shí),測(cè)試結(jié)果的正確率更接近于穩(wěn)定值25%。
表1 混合分類模型測(cè)試結(jié)果Table 1 Test result of hybrid classification model
在混合分類模型的基礎(chǔ)上,混合文本大小分類模型將文本大小也考慮為其影響因素。測(cè)試結(jié)果如表2所示??梢钥闯?,該模型同時(shí)受到文本大小和樣本數(shù)目的影響,其測(cè)試結(jié)果隨著兩者逐漸增大有著微小的變化。與混合分類模型相比,其測(cè)試結(jié)果更為穩(wěn)定。
表2 混合文本大小分類模型測(cè)試結(jié)果Table 2 Test result of mixed text size classification model
通過上述分類結(jié)果可以看出,以上2 種分類模型對(duì)SM4 算法的4 種工作模式,即密文鏈接模式、密文反饋模式、輸出反饋模式和計(jì)數(shù)器模式,混合時(shí)的分類效果并不顯著,其識(shí)別正確率范圍為16%~26%。如果樣本總數(shù)超過100 時(shí),其識(shí)別正確率在20%以上。
表3給出了一對(duì)一分類模型的分類結(jié)果。將CBC、CFB、OFB 和CTR 進(jìn)行兩兩組合,得到6 組分類樣本。在每組分類樣本中,訓(xùn)練階段和測(cè)試階段的樣本總數(shù)均為1 000 例。其中,CBC vs CFB 的識(shí)別率最高,測(cè)試結(jié)果達(dá)到97.61%。而CFB vs OFB 的識(shí)別率最低,其測(cè)試結(jié)果達(dá)到97.36%。從表3 還可以看到,4 種工作模式分類的結(jié)果是非常顯著的,其正確率高達(dá)95%以上,只有OFB 與CTR 識(shí)別的結(jié)果為91.67%。通過表1~表3的分類結(jié)果可以看出,將4 種工作模式混合傳遞給分類器進(jìn)行分類的結(jié)果并不明顯,而當(dāng)對(duì)其進(jìn)行一對(duì)一分類時(shí),分類結(jié)果良好。
表3 一對(duì)一分類模型測(cè)試結(jié)果Table 3 Test result of one-to-one classification model
本文提出一種基于決策樹C4.5 算法的SM4 分組密碼工作模式識(shí)別方案,并分別以混合分類、混合文本大小分類、一對(duì)一分類這3 種情況測(cè)試該方案的可行性和有效性。在本文方案中,訓(xùn)練階段和測(cè)試階段所用的樣本數(shù)目相同,并且對(duì)明文文本加密時(shí)兩階段使用相同的密鑰空間。在進(jìn)行一對(duì)一分類時(shí),CBC 模式與CFB、OFB、CTR 模式之間的區(qū)分正確率都在90%以上,但不足之處在于將4 種工作模式混合后的區(qū)分率并不高。下一步將結(jié)合一些優(yōu)化算法對(duì)C4.5 算法本身進(jìn)行優(yōu)化,以便更好地應(yīng)用于本文方案,同時(shí)對(duì)密文進(jìn)行特征提取時(shí)增加提取的特征數(shù)量,進(jìn)而完善特征向量空間。此外,還將嘗試結(jié)合其他的機(jī)器學(xué)習(xí)算法進(jìn)一步提高方案性能。