陳 肖,張佳偉
(1.保定市國土資源局 競秀區(qū)分局,河北 保定 071000;2.河北軟件職業(yè)技術學院,河北 保定 071000)
伴隨著5G技術逐漸成熟,物聯(lián)網(wǎng)已經(jīng)成為全世界研究和發(fā)展的重要方向之一。物聯(lián)網(wǎng)結合智能產(chǎn)品屬性,衍生出各種智能物聯(lián)網(wǎng)設備,如智能音箱、智能臺燈、智能空調(diào)、智能穿戴等。據(jù)統(tǒng)計,2021年全球智能物聯(lián)網(wǎng)設備數(shù)量達到250億臺,對人們的衣食住行產(chǎn)生了巨大影響,改變了人們的生活狀態(tài),大幅提升了生活質(zhì)量。
物聯(lián)網(wǎng)興起,在給人們帶來便利生活的同時,相應地也帶來了諸多不可預知的風險。物聯(lián)網(wǎng)設備數(shù)量巨大且種類繁多、分布廣泛,作為新興事物,和互聯(lián)網(wǎng)一樣存在諸多安全漏洞,已經(jīng)成為黑客攻擊的重點之一。物聯(lián)網(wǎng)的先天局限性導致這一局面很難在短時間內(nèi)給出較為完善的解決方案,如物聯(lián)網(wǎng)設備種類繁多,各種產(chǎn)品由不同的公司生產(chǎn),由于商業(yè)原因廠家大量使用不同架構、不同協(xié)議,導致產(chǎn)品通信銜接過程容易產(chǎn)生安全隱患[1];物聯(lián)網(wǎng)設備終端通常比較靈活、易安置,而可用資源極為有限,不能部署較為大型的安防設備或聯(lián)動策略,容易形成防護薄弱點;物聯(lián)網(wǎng)整個體系架構基于互聯(lián)網(wǎng),數(shù)據(jù)傳輸過程中涉及多級異構網(wǎng)絡,導致大量節(jié)點設備暴露于網(wǎng)絡之中,極易被跨網(wǎng)攻擊;部分商業(yè)物聯(lián)網(wǎng)設備節(jié)點通常安置在廣袤地區(qū),無人看守,容易造成物理上的損壞或丟失。基于以上種種原因,物聯(lián)網(wǎng)設備容易受到攻擊或發(fā)生意外情況,造成硬件設備損壞而無法正常運行,甚至造成廣大用戶個人隱私數(shù)據(jù)外泄,產(chǎn)生不可估量的損失。
如何研究高可靠、高可用的物聯(lián)網(wǎng)入侵檢測技術成為行業(yè)專家關注的問題。當前物聯(lián)網(wǎng)攻擊手段多種多樣,如通過操控其他眾多物聯(lián)網(wǎng)設備構成僵尸網(wǎng),同時對某一物聯(lián)網(wǎng)服務器發(fā)起訪問,形成Dos攻擊或DDos攻擊[2];嗅探攻擊則通過協(xié)議層廣播數(shù)據(jù)包,探測物聯(lián)網(wǎng)各設備節(jié)點,再謀取進一步攻擊;黑客通過協(xié)議漏洞不斷喚醒物聯(lián)網(wǎng)節(jié)點設備,導致設備節(jié)點電量較快耗盡,帶來經(jīng)濟損失;黑洞攻擊,是黑客通過入侵或者植入受控節(jié)點來控制所有流經(jīng)該節(jié)點的數(shù)據(jù)包,在最極端情況下該節(jié)點可吸收所有節(jié)點而不進行轉(zhuǎn)發(fā),像黑洞一樣吸收所有數(shù)據(jù)包,從而給整個網(wǎng)絡造成重大破壞。
物聯(lián)網(wǎng)入侵檢測技術大致可以分為定性分析和定量分析兩類[3];定性分析的物聯(lián)網(wǎng)入侵檢測技術主要指的是專家系統(tǒng),根據(jù)專家個人對應用場景的理解進行入侵檢測系統(tǒng)構建,其主要特點是檢測效果嚴重依賴于既定規(guī)則庫,對入侵檢測率非常不穩(wěn)定[4-5]。定量分析的物聯(lián)網(wǎng)入侵檢測技術主要包含貝葉斯網(wǎng)絡、人工神經(jīng)網(wǎng)絡等,其對物聯(lián)網(wǎng)絡中數(shù)據(jù)流量進行截取、降低維度、提取特征屬性、進行自學習訓練并構建檢測網(wǎng)絡,其特點是能夠識別攻擊類型,一般情況下檢測效果優(yōu)于專家系統(tǒng)。以上兩種模型在面對未知攻擊時難以應對,表現(xiàn)出較低的檢測率,且訓練過程復雜,難以用于產(chǎn)生變化的實際應用場景。本文提出一種基于深度學習的物聯(lián)網(wǎng)入侵檢測方法,對比其他物聯(lián)網(wǎng)入侵檢測方法,提升了檢測效率,證明了深度學習網(wǎng)絡在物聯(lián)網(wǎng)檢測應用上具有顯著的優(yōu)越性和可用性。
在對物聯(lián)網(wǎng)中數(shù)據(jù)的入侵檢測中,存在大量異構網(wǎng)絡和不同類型數(shù)據(jù)包,每種數(shù)據(jù)包包含若干字段。在對以上流量進行處理的過程中,大量無效字段會對后續(xù)判斷產(chǎn)生影響,如網(wǎng)絡構建和檢測效率等。此時需要對數(shù)據(jù)中字段進行降維處理,但是各個字段之間關系錯綜復雜,靠人工難以進行有效區(qū)分,此時可使用主成分分析方法進行降維處理,在基本保留數(shù)據(jù)原本特性的情況下減少字段數(shù)量,降低無關字段影響,提升后續(xù)數(shù)據(jù)處理效率。
主成分分析,又名主分量分析,是一種被廣泛使用的數(shù)據(jù)降維處理算法,使用k個屬性代替原始數(shù)據(jù)中的m個屬性,以達到降低數(shù)據(jù)維度的需求。
主成分分析算法步驟如下[6]:
(1)對原始的矩陣X={Xij}進行標準化處理,得到全新的矩陣A={Aij},在上述式子中
(3)求出R矩陣特征向量、特征值,只需要對R上三角矩陣計算即可得出需要的結果;
(4)求出最終主成分部分,按照次序排序上述步驟中計算出的特征值γ1>γ2>…>γp,依據(jù)的原則確定m,此時很容易得到最終降維之后的主成分部分。
深度學習的眾多學習算法中,大體可以分為有監(jiān)督學習和無監(jiān)督學習兩種[7]。有監(jiān)督學習需要使用帶標簽數(shù)據(jù)對網(wǎng)絡結構進行訓練,來得到想要的結構模型,然后用于對此類型數(shù)據(jù)集合的檢測效果。無監(jiān)督學習是在沒有人為添加任何約束的情況下,由機器根據(jù)無標簽訓練數(shù)據(jù)自行尋找數(shù)據(jù)規(guī)律。由于沒有添加約束,無監(jiān)督學習得到的結果不可預知,可以偵測到未知攻擊,是物聯(lián)網(wǎng)入侵檢測中研究的重點。
最小二乘支持向量機是深度學習網(wǎng)絡中被廣泛使用的算法之一,其優(yōu)點是可以通過應用最小化結構風險確定真實風險,缺點是訓練數(shù)據(jù)集支持向量花費時間長,同時可能也會面臨檢測精細度方面的困擾。
基于深度學習的物聯(lián)網(wǎng)入侵檢測核心思路如下:
(1)獲取物聯(lián)網(wǎng)入侵數(shù)據(jù)集,進行預處理操作,包括數(shù)據(jù)清洗、規(guī)范化等步驟;
(2)提取數(shù)據(jù)集屬性主要特征,使用主成分分析算法抽取最有特征子集,用于降維;
(3)將第二步處理之后得到的數(shù)據(jù)集輸入,使用構建深度學習網(wǎng)絡對樣本進行訓練處理;
(4)通過有監(jiān)督學習及其上一步中訓練結果,對深度學習網(wǎng)絡進行參數(shù)調(diào)優(yōu),最終得到物聯(lián)網(wǎng)入侵檢測分類器。
物聯(lián)網(wǎng)入侵數(shù)據(jù)自動識別流程如圖1所示。
圖1 物聯(lián)網(wǎng)入侵數(shù)據(jù)自動識別處理流程圖
在深度學習眾多分支中,最小二乘支持向量機相對于傳統(tǒng)人工神經(jīng)網(wǎng)絡具有顯著優(yōu)勢,如收斂快、性能優(yōu)等[8]。在此假設使用主成分分析算法對物聯(lián)網(wǎng)待檢測數(shù)據(jù)進行降維處理,得到特征數(shù)目為n個,第i個樣本特征向量是xi∈Rn,訓練樣本集中共有樣本數(shù)目N個,組合集合:{xi,yi},i=1,2,…,N,xi∈R為攻擊數(shù)據(jù)類型,此時可以建立分類識別平面表示形式為:
使用深度學習對其進行變換之后可以得到如下式子:
在上述式子中,φ(x)是空間變換函數(shù);J是分類結果的損失函數(shù);C是懲罰參數(shù),用于調(diào)整誤差。
在實時性要求較高的情況下,可以使用Lagrange乘子ai∈R對上述式子進一步處理[9]:
基于Karush-Kuhn-Tucker原理,對上式處理之后得到:
式子中,K(xi,xj)為:
其中,δ是核函數(shù)寬度參數(shù)。
在構建物聯(lián)網(wǎng)入侵檢測分類器中,參數(shù)C和δ對最終分類識別結果起到至關重要的作用。因此需要對上述兩個參數(shù)單獨進行優(yōu)化處理。首先假設分類器識別誤差最小情況下,設定參數(shù)C和δ的最優(yōu)值,可以建立如下函數(shù):
對分類器中兩個重要參數(shù)的優(yōu)化步驟如下:
(1)根據(jù)訓練集合初始化2個隨機數(shù);
(2)根據(jù)Logistic映射產(chǎn)生混沌變量:
(3)根據(jù)上述式子得到混沌變量:
(4)采用混沌變量在分類器參數(shù)C和δ范圍內(nèi)進行搜索,使目標函數(shù)J變小,也就是物聯(lián)網(wǎng)入侵檢測分類器誤差逐漸變小,直到最小值J*,此時得到分類器中兩個參數(shù)C和δ的最優(yōu)解;
(5)深度學習最小二乘支持向量機使用(4)得到的參數(shù)C和δ的最優(yōu)解重新對輸入樣本集合進行訓練,重新構建得到最佳的基于深度學習的物聯(lián)網(wǎng)入侵檢測分類器。
本文使用window10操作系統(tǒng)平臺,核心配置:CPU為AMD5800H,內(nèi)存為32GB,編程語言為Java。實驗采用物聯(lián)網(wǎng)惡意攻擊數(shù)據(jù)集CIC-BoTIoT進行,共包含83個特征屬性,13 428 602條記錄。其中,共有DDoS、DoS、偵察和盜竊四種攻擊類型。本文采用該數(shù)據(jù)集70%進行訓練,30%用戶效果檢測。
本文采用前文敘述過的主成分分析方法對樣本數(shù)據(jù)集進行特征選擇,最終實現(xiàn)維度下降,減少后續(xù)處理時間。特征屬性降維前后數(shù)目對比如圖2所示。
圖2 屬性降維對比圖
采用上文提到的混沌算法分別對上述四種攻擊類型分類器參數(shù)進行確定,如表1所示。
從表1可以看出不同類型攻擊對應參數(shù)差異明顯,說明參數(shù)需要優(yōu)化。
表1 四類物聯(lián)網(wǎng)攻擊類型參數(shù)
完成網(wǎng)絡構建和參數(shù)調(diào)優(yōu)之后,使用CICBoT-IoT[10]數(shù)據(jù)集剩余的30%進行測試。在相同的硬件平臺,將測試結果與樸素貝葉斯網(wǎng)絡[11]、BP神經(jīng)網(wǎng)絡[12]進行仿真效果對比,識別效率對比如圖3所示。
圖3 四種入侵檢測數(shù)據(jù)對比圖
從圖3可以看出,本文提出的基于深度學習的物聯(lián)網(wǎng)入侵檢測方法對四種入侵檢測數(shù)據(jù)的檢測率全部高于BP神經(jīng)網(wǎng)絡和貝葉斯網(wǎng)絡。在實驗過程中,相較于另外兩種方法,本文方法消耗時間相對較少,說明該方法收斂速度快,內(nèi)部網(wǎng)絡形成更加合理,是一個行之有效的物聯(lián)網(wǎng)入侵檢測方法。
物聯(lián)網(wǎng)的興起給人們的生活帶來了質(zhì)的飛躍,同時也帶來了諸多安全隱患。因此物聯(lián)網(wǎng)入侵檢測成為研究重點。本文結合物聯(lián)網(wǎng)背景下相關內(nèi)容,提出基于深度學習的物聯(lián)網(wǎng)入侵檢測算法,實驗結果證明,該方法相對于傳統(tǒng)方法檢測速度更快,正確率更高,提升了物聯(lián)網(wǎng)的安全性,可以滿足物聯(lián)網(wǎng)實際應用場景中的安全保障需求。