郝秦霞,李慧敏
(西安科技大學(xué) 通信與信息工程學(xué)院,陜西 西安 710054)
隨著工業(yè)智能科學(xué)技術(shù)的不斷推進(jìn),工業(yè)物聯(lián)網(wǎng)(Industrial Internet of Things,IIoT)作為新一代信息通信技術(shù)與現(xiàn)代工業(yè)技術(shù)深度融合的產(chǎn)物,已成為全球新一輪產(chǎn)業(yè)競(jìng)爭(zhēng)的制高點(diǎn)[1]。國(guó)家發(fā)展改革委等八部委聯(lián)合印發(fā)《關(guān)于加快煤礦智能化發(fā)展的指導(dǎo)意見(jiàn)》,帶頭大力推動(dòng)煤礦網(wǎng)絡(luò)安全與智能化信息建設(shè),加快IIoT 在煤礦行業(yè)的應(yīng)用。然而煤礦IIoT 由于其自身環(huán)境、生產(chǎn)條件等因素約束,煤礦IIoT 設(shè)備存在嚴(yán)重安全隱患。煤礦IIoT 設(shè)備受自身設(shè)計(jì)和性質(zhì)限制,通常為計(jì)算與存儲(chǔ)資源受限設(shè)備,難以采用強(qiáng)密碼協(xié)議與復(fù)雜的認(rèn)證機(jī)制進(jìn)行安全防護(hù)[2-4],攻擊者通過(guò)分析網(wǎng)絡(luò)通信流量,對(duì)特定漏洞設(shè)備發(fā)起針對(duì)性網(wǎng)絡(luò)攻擊,可能造成敏感數(shù)據(jù)泄露或惡意篡改,嚴(yán)重威脅煤礦IIoT 的安全穩(wěn)定。精準(zhǔn)識(shí)別煤礦IIoT 設(shè)備可完善煤礦設(shè)備資產(chǎn)信息庫(kù),有效管理并維護(hù)設(shè)備正常運(yùn)轉(zhuǎn),為提高設(shè)備的安全防護(hù)能力提供依據(jù),對(duì)保障煤礦安全穩(wěn)定生產(chǎn)具有重要意義。
現(xiàn)有設(shè)備識(shí)別研究主要集中在物聯(lián)網(wǎng)(Internet of Things,IoT)設(shè)備識(shí)別算法。M.Miettinen 等[5]提出了IoT Sentinel,利用隨機(jī)森林構(gòu)建分類模型識(shí)別IoT 設(shè)備,對(duì)潛在易受攻擊設(shè)備采取必要防護(hù)措施。A.Sivanathan 等[6]開(kāi)發(fā)了一種多階段機(jī)器學(xué)習(xí)(Machine Learning,ML)[7]分類算法模型,基于網(wǎng)絡(luò)流量分組和統(tǒng)計(jì)特征,精準(zhǔn)識(shí)別各類設(shè)備。但上述2 種模型均需手動(dòng)提取流量特征,IoT 設(shè)備類型眾多,特征構(gòu)造復(fù)雜,不適用于具有復(fù)雜巨系統(tǒng)的煤礦IIoT 環(huán)境。深度學(xué)習(xí)(Deep Learning,DL)將輸入數(shù)據(jù)映射至特定標(biāo)簽[8],自動(dòng)學(xué)習(xí)數(shù)據(jù)特征。J.Ortiz等[9]提出了概率框架DeviceMien,采用堆疊的長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short Term Memory,LSTM)自動(dòng)編碼器學(xué)習(xí)流量特征,利用聚類方法建模各類設(shè)備,可精準(zhǔn)區(qū)別IoT 與Non-IoT 設(shè)備,并有效識(shí)別未知設(shè)備。Yin Feihong 等[10]采用端到端的IoT 設(shè)備識(shí)別方法,對(duì)設(shè)備流量執(zhí)行向量化操作,輸入到卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、LSTM/門控循環(huán)單元、CNN+雙向LSTM 這3 類模型中識(shí)別IoT 設(shè)備。J.Kotak 等[11]將原始流量有效載荷預(yù)處理為灰度圖像,利用多層感知機(jī)(Multilayer Perceptron,MLP)自動(dòng)提取流量特征、分類設(shè)備并識(shí)別未處于白名單的IoT 設(shè)備。DL 雖解決了人工提取特征困難的問(wèn)題,但隨之帶來(lái)的密集內(nèi)存與高計(jì)算需求使其難以部署在計(jì)算能力有限的IoT 設(shè)備中。
輕量化神經(jīng)網(wǎng)絡(luò)方法(如組卷積[12]、深度可分離卷積(Depthwise Separable Convolution,DSC)[13]、神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索[14]、權(quán)值共享[15]與量化[16]等)能夠在資源受限設(shè)備上保持良好網(wǎng)絡(luò)性能的同時(shí),避免存儲(chǔ)空間和能耗對(duì)傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的限制[17]。因此,本文提出了一種煤礦IIoT 設(shè)備識(shí)別模型,主要?jiǎng)?chuàng)新如下:
1)為避免煤礦IIoT 海量數(shù)據(jù)包引發(fā)的處理瓶頸問(wèn)題,對(duì)網(wǎng)絡(luò)出口節(jié)點(diǎn)處采集的原始流量進(jìn)行切分及截取操作。
2)為降低煤礦IIoT 流量數(shù)據(jù)復(fù)雜度,采用DSC 與卷積塊注意力模塊(Convolutional Block Attention Module,CBAM)[18]搭建復(fù)合卷積層,從而構(gòu)建DSC-CBAM 模型以過(guò)濾Non-IIoT 設(shè)備。
3)為避免煤礦IIoT 設(shè)備傳輸流量不平衡導(dǎo)致的設(shè)備誤識(shí)別問(wèn)題,利用帶有階段懲罰的Wasserstein生成對(duì)抗網(wǎng)絡(luò)(Wasserstein Generative Adversarial Network with Gradient Penalty,WGAN-GP)[19]對(duì)流量較少的IIoT 設(shè)備進(jìn)行數(shù)據(jù)擴(kuò)充,達(dá)到平衡偏移流量數(shù)據(jù)的目的。
4)為捕獲IIoT 設(shè)備內(nèi)部細(xì)微的流量行為模式,引入多尺度特征融合(Multi-scale Feature Fusion,MFF)技術(shù)與Mish 激活函數(shù)[20]優(yōu)化DSC-CBAM 模型,構(gòu)建優(yōu)化混合模態(tài)識(shí)別(MFF-DSC-CBAM-Mish,MDCM)模型,從而精確識(shí)別煤礦IIoT 設(shè)備。
煤礦IIoT 設(shè)備識(shí)別模型分為原始流量切分與截取、Non-IIoT 設(shè)備過(guò)濾、偏移流量數(shù)據(jù)平衡、煤礦IIoT 設(shè)備識(shí)別4 個(gè)部分,如圖1 所示。
圖1 煤礦IIoT 設(shè)備識(shí)別模型結(jié)構(gòu)Fig.1 Structure of coal mine IIoT equipment recognition model
1)原始流量切分與截取。將支持TCP/IP 協(xié)議傳輸?shù)牧髁繑?shù)據(jù)切分為雙向會(huì)話流,去除會(huì)話流中無(wú)關(guān)MAC/IP 地址字段,并刪除會(huì)話流中應(yīng)用層空/重復(fù)文件,將每個(gè)會(huì)話流截取定長(zhǎng)字段后轉(zhuǎn)為IDX[21]格式進(jìn)行存儲(chǔ)。
2)Non-IIoT 設(shè)備過(guò)濾。利用輕量級(jí)DSC 替代傳統(tǒng)卷積提取流量特征,結(jié)合CBAM 校正通道、空間權(quán)重,搭建DSC-CBAM 模型過(guò)濾Non-IIoT 設(shè)備。
3)偏移流量數(shù)據(jù)平衡。采用WGAN-GP 模型平衡流量較少類煤礦IIoT 設(shè)備流量數(shù)據(jù),將平衡后數(shù)據(jù)并入原有設(shè)備數(shù)據(jù)集中共同作為煤礦IIoT 設(shè)備增強(qiáng)數(shù)據(jù)集。
4)煤礦IIoT 設(shè)備識(shí)別。將經(jīng)過(guò)平衡后的數(shù)據(jù)輸入MDCM 模型,實(shí)現(xiàn)煤礦IIoT 設(shè)備精準(zhǔn)識(shí)別。
定義煤礦IIoT 網(wǎng)絡(luò)接口處采集到的支持TCP/IP協(xié)議傳輸?shù)牧髁繑?shù)據(jù)為原始流量P,是數(shù)據(jù)包pi(i=1,2,…,Q,Q為數(shù)據(jù)包個(gè)數(shù))的集合。
pi包含五元組信息ai、數(shù)據(jù)包長(zhǎng)度li等不同字段。
ai包括源IP 地址、目的IP 地址、源端口、目的端口及傳輸層協(xié)議,可唯一標(biāo)志一條網(wǎng)絡(luò)通信連接,了解網(wǎng)絡(luò)數(shù)據(jù)流傳輸規(guī)律及特性。擁有相同ai的所有pi稱為一個(gè)單向流f j(j=1,2,…,n,n為單向流個(gè)數(shù))[22],即將P劃分為包含f j的集合F,每個(gè)f j內(nèi)數(shù)據(jù)包pi按時(shí)間排序。
五元組ai源、目的互換即為雙向流,雙向流組成的所有pi稱為一個(gè)會(huì)話流。
結(jié)合上述流量信息,原始流量切分與截取步驟如下:
1)流量切分。利用SplitCap 工具將P按單向流/會(huì)話流粒度切分,每個(gè)單向流/會(huì)話流由若干個(gè)pi組成,包含更豐富的設(shè)備通信流量行為特征(如pi間字節(jié)的緊密關(guān)系程度、pi大小及個(gè)數(shù)、pi內(nèi)信息的空間關(guān)系等),能有效提高設(shè)備識(shí)別準(zhǔn)確率,實(shí)現(xiàn)精準(zhǔn)防控。切分默認(rèn)保留pi中OSI 模型所有層信息。本文選擇文獻(xiàn)[23]中流量切分的最佳表示組合,即將P切分為會(huì)話,保留pi所有層信息。
2)無(wú)關(guān)字段和文件清洗。鑒于網(wǎng)絡(luò)層IP 地址和數(shù)據(jù)鏈路層MAC 地址字段在DL 模型中會(huì)占據(jù)較大權(quán)重,干擾特征提取與模型分類,對(duì)字段執(zhí)行流量匿名化[24]。煤礦IIoT 設(shè)備同一時(shí)刻可能傳輸大量相同數(shù)據(jù),為降低數(shù)據(jù)量,避免模型識(shí)別偏移,對(duì)相同流量予以去重。
3)流量截取和IDX 格式轉(zhuǎn)換。流量數(shù)據(jù)需保持相同維度輸入DL 模型,將所有流量截取固定的L個(gè)字節(jié),若長(zhǎng)度大于L,僅截取前L個(gè)字節(jié),若小于L,則在其后補(bǔ)充0x00 至L個(gè)字節(jié)。文獻(xiàn)[25]對(duì)比了不同數(shù)據(jù)集的流量截取長(zhǎng)度,認(rèn)為選取600~800 byte時(shí)實(shí)驗(yàn)效果良好。因此本文將流量截取長(zhǎng)度定義為784 byte,將截取后相同格式的流量數(shù)據(jù)轉(zhuǎn)換為IDX文件格式進(jìn)行存儲(chǔ)。
煤礦IIoT 環(huán)境下設(shè)備類型復(fù)雜多樣,為降低流量數(shù)據(jù)復(fù)雜度,應(yīng)剔除無(wú)關(guān)的Non-IIoT 設(shè)備[26]。為降低模型復(fù)雜度,以輕量級(jí)神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),搭建DSC-CBAM 模型以實(shí)現(xiàn)Non-IIoT 設(shè)備過(guò)濾,如圖2所示。
圖2 DSC-CBAM 模型結(jié)構(gòu)Fig.2 Structure of DSC-CBAM model
DSC-CBAM 模型網(wǎng)絡(luò)架構(gòu)如下:
1)標(biāo)準(zhǔn)卷積層。為保證全局特征的提取精度,使用標(biāo)準(zhǔn)卷積層捕獲輸入數(shù)據(jù)淺層特征。
式中:Fk為第k層特征圖;σ(·)為ReLU 激活函數(shù);Wk為第k層權(quán)重;bk為第k層偏置。
設(shè)置標(biāo)準(zhǔn)卷積層的通道為32、卷積核大小為3×3。
2)池化層1。利用最大池化層(卷積核大小為2×2,步長(zhǎng)為2)進(jìn)行下采樣,將特征圖壓縮減半,去除冗余信息,降低參數(shù)量。
式中maxpool(·)為最大池化操作。
3)復(fù)合卷積層1。復(fù)合卷積層為DSC-CBAM模型的核心,其結(jié)構(gòu)如圖3 所示。
圖3 復(fù)合卷積層結(jié)構(gòu)Fig.3 Structure of composite convolutional layer
復(fù)合卷積層由DSC 與注意力機(jī)制2 個(gè)部分組成。DSC 將標(biāo)準(zhǔn)卷積分解為逐通道(Depthwise,DW)與逐點(diǎn)(Pointwise,PW)卷積。DW 卷積將單個(gè)卷積濾波器應(yīng)用于輸入的單個(gè)通道,PW 卷積采用多個(gè)1×1 大小卷積核收割DW 卷積不同通道的輸出信息,通過(guò)線性組合構(gòu)建新特征,可有效彌補(bǔ)標(biāo)準(zhǔn)卷積帶來(lái)的參數(shù)多、計(jì)算量龐大問(wèn)題,顯著降低模型大小。但DSC 降低參數(shù)量的同時(shí)會(huì)破壞輸出通道與卷積核的相互作用[27],造成模型性能下降,因此本文在DW 卷積后引入注意力機(jī)制校正輸出特征權(quán)重,捕獲重要特征信息。
常用注意力機(jī)制包括壓縮和激勵(lì)網(wǎng)絡(luò)(Squeezeand-Excitation Networks,SENet)[28]、深度卷積神經(jīng)網(wǎng)絡(luò)的高效通道注意力模塊(Efficient Channel Attention for Deep Convolutional Neural Networks,ECANet)[29]、GENet[30]、選擇性內(nèi)核網(wǎng)絡(luò)(Selective Kernel Network,SKNet)[31]、CBAM 等。SENet 利用擠壓激勵(lì)模塊收集全局信息,捕獲通道之間關(guān)系,ECANet 在此基礎(chǔ)上對(duì)激勵(lì)模塊進(jìn)行改進(jìn),降低模型復(fù)雜性,但兩者均未考慮復(fù)雜的全局特征信息;GENet 從特征圖中提取更有效的空間信息并對(duì)其進(jìn)行調(diào)控,但忽略了通道對(duì)特征提取的貢獻(xiàn);SKNet 允許神經(jīng)元根據(jù)輸入信息自適應(yīng)調(diào)整感受野大小,但使用SK 卷積替換標(biāo)準(zhǔn)卷積時(shí),精度提升較??;CBAM 將通道注意力模塊與空間注意力模塊進(jìn)行級(jí)聯(lián),順序捕獲輸入特征通道、空間信息,模型訓(xùn)練穩(wěn)定且精度提升較大。綜上,選擇CBAM 注意力機(jī)制調(diào)整流量特征權(quán)重,同時(shí)引入Hard Sigmoid 激活函數(shù)替換Sigmoid 激活函數(shù),可在硬件受限設(shè)備上保持較高識(shí)別準(zhǔn)確率的同時(shí),減少計(jì)算成本。
CBAM 中通道注意力模塊采用全局平均、最大池化層收集目標(biāo)對(duì)象區(qū)域獨(dú)特信息,輸入共享網(wǎng)絡(luò)MLP 生成通道注意力圖,經(jīng)Hard Sigmoid 激活函數(shù)合并輸出特征向量。空間注意力模塊對(duì)通道輸出特征圖采用全局平均、最大池化操作,沿通道維度合并,采用7×7 大小卷積核與Hard Sigmoid 激活函數(shù)得到最終細(xì)化的注意力輸出。
師資的安排:中韓結(jié)合。由專任教師承擔(dān)基礎(chǔ)詞句語(yǔ)法講授,由韓籍教師承擔(dān)聽(tīng)說(shuō)教學(xué),以夯實(shí)基礎(chǔ),強(qiáng)化聽(tīng)說(shuō)技能綜合運(yùn)用。
復(fù)合卷積層1 使用DW 卷積提取池化層輸出特征,并引入CBAM 自適應(yīng)調(diào)整DW 層輸出特征權(quán)重大小,將校正后特征圖送入由64 個(gè)1×1 大小卷積核組成的PW 卷積層中,通過(guò)線性組合生成高維特征圖。
4)復(fù)合卷積層2。網(wǎng)絡(luò)結(jié)構(gòu)設(shè)置與復(fù)合卷積層1 相同。為進(jìn)一步降低內(nèi)存占用,引入線性瓶頸層[32]將高維特征投影回具有線性卷積的低維表示,即使用卷積核大小為1×1 的PW 卷積線性組合成低維特征。線性激活函數(shù)可避免折疊通道時(shí)丟失部分特征信息,保留特征多樣性。
5)池化層2。參數(shù)設(shè)置與池化層1 相同。
6)全連接層。全連接層神經(jīng)元與上一層所有神經(jīng)元相連,將池化層2 的卷積結(jié)果轉(zhuǎn)換為一維向量以用于最終分類。
7)輸出層。使用Softmax 激活函數(shù),輸出IIoT/Non-IIoT 二分類結(jié)果。
煤礦生產(chǎn)涉及人-機(jī)-環(huán)-管多方面因素,造成煤礦IIoT 設(shè)備流量數(shù)據(jù)存在嚴(yán)重不平衡。為有效平衡流量數(shù)據(jù),將流量較少的IIoT 設(shè)備流量數(shù)據(jù)轉(zhuǎn)為二維灰度圖,引入在圖像生成、偏移數(shù)據(jù)補(bǔ)齊方面具有極大優(yōu)勢(shì)的生成對(duì)抗網(wǎng)絡(luò),采用其變體WGAN-GP平衡偏移流量數(shù)據(jù)。
使用DSC-CBAM 模型精準(zhǔn)分離Non-IIoT 設(shè)備后,只需對(duì)流量較少的IIoT 設(shè)備進(jìn)行數(shù)據(jù)擴(kuò)充,偏移數(shù)據(jù)平衡后可有效避免煤礦IIoT設(shè)備誤識(shí)別、漏識(shí)別問(wèn)題。
使用WGAN-GP 擴(kuò)充煤礦IIoT 設(shè)備流量數(shù)據(jù)集流程如下:
1)輸入流量較少的煤礦IIoT 設(shè)備灰度圖像,圖像大小為28×28,共784 維,作為真實(shí)數(shù)據(jù)分布Ddata。
3)構(gòu)建判別器,均勻采樣Ddata與Dfake間數(shù)據(jù),計(jì)算正則化項(xiàng)Gradient Penalize,懲罰系數(shù) λ=10,添加到判別器目標(biāo)函數(shù)中,強(qiáng)制約束判別器滿足1-Lipschitz 分布。
4)將Ddata與Dfake分別輸入判別器中,輔以正則化項(xiàng),計(jì)算損失函數(shù),執(zhí)行梯度反向傳播,更新判別器參數(shù)。
5)將判別器訓(xùn)練ncritic次(ncritic為每更新1 次生成器時(shí)判別器需迭代的次數(shù))后,再次將100 維高斯隨機(jī)噪聲輸入生成器中,將生成的虛假數(shù)據(jù)分布輸入判別器中,計(jì)算損失函數(shù)并更新生成器參數(shù)。
6)生成器和判別器經(jīng)過(guò)多次訓(xùn)練博弈達(dá)到均衡后,將平衡后數(shù)據(jù)擴(kuò)充至原有設(shè)備數(shù)據(jù)集,轉(zhuǎn)換為IDX格式數(shù)據(jù)輸入MDCM 模型中。
煤礦IIoT 設(shè)備各自采用不同協(xié)議與服務(wù)器開(kāi)放端口交互信息,傳輸流量呈相異的行為模式。為直觀展示設(shè)備內(nèi)部行為特征,將設(shè)備流量數(shù)據(jù)轉(zhuǎn)為二維灰度圖形式,如圖4 所示,其中設(shè)備名稱均采用縮寫。圖4(a)中顯示Nws 設(shè)備內(nèi)部流量模式完全一致,LBLSB、IC 設(shè)備雖呈2 種流量模式,但內(nèi)部仍保持較高一致性。圖4(b)中顯示異類IIoT 設(shè)備灰度圖紋理大多各不相同,內(nèi)部呈相異的流量模式,可以肉眼方式有效區(qū)分,但部分設(shè)備差別細(xì)微,難以通過(guò)人眼視覺(jué)方式捕捉。
圖4 IIoT 設(shè)備灰度圖Fig.4 Grayscale image of IIoT equipment
為捕捉異類煤礦IIoT 設(shè)備內(nèi)部細(xì)微的流量模式,引入MFF 替換DSC-CBAM 模型中的標(biāo)準(zhǔn)卷積層,捕獲輸入流量數(shù)據(jù)不同感受野特征信息,如圖5所示。
圖5 多尺度特征融合Fig.5 Multi-scale feature fusion
將C×W×H(通道數(shù)×寬×高)大小的輸入特征圖送入通道數(shù)為C1、卷積核大小為5×5 和3×3 的標(biāo)準(zhǔn)卷積中,并行執(zhí)行多個(gè)卷積運(yùn)算,將卷積結(jié)果合并成大小為C2×W×H(C2為輸出特征圖通道數(shù))的高維輸出特征圖,可有效提高網(wǎng)絡(luò)內(nèi)部計(jì)算資源利用率。
由于DSC 卷積核較小,極易在非線性激活函數(shù)作用下使輸出趨近于0,以致卷積核失活。復(fù)合卷積層所用ReLU 激活函數(shù)過(guò)于脆弱且對(duì)異常值敏感,若接收的輸入不在常值范圍內(nèi),更新參數(shù)時(shí)梯度將被置0,神經(jīng)元出現(xiàn)永久性死亡,無(wú)法良好適用于DSC 中。Mish 激活函數(shù)保留少量負(fù)權(quán)重,可在神經(jīng)元負(fù)輸入狀態(tài)具有非零梯度,從而允許參數(shù)更新,保證信息流不丟失,具有良好的泛化能力。因此,本文使用Mish 激活函數(shù)替換DSC-CBAM 模型復(fù)合卷積層中ReLU 激活函數(shù),從而構(gòu)建MDCM 模型以實(shí)現(xiàn)煤礦IIoT 設(shè)備精準(zhǔn)識(shí)別。
MDCM 模型網(wǎng)絡(luò)結(jié)構(gòu)見(jiàn)表1。
表1 MDCM 模型網(wǎng)絡(luò)結(jié)構(gòu)Table 1 Network structure of MDCM model
煤礦IIoT 中包含支持WiFi、ZigBee、低功耗藍(lán)牙等自組網(wǎng)絡(luò)協(xié)議傳輸?shù)牧髁繑?shù)據(jù)。為有效解決流量數(shù)據(jù)協(xié)議異構(gòu)、設(shè)備互聯(lián)互通困難等問(wèn)題,將流量數(shù)據(jù)轉(zhuǎn)換為支持TCP/IP 協(xié)議傳輸?shù)臄?shù)據(jù)格式。但目前沒(méi)有公開(kāi)的煤礦設(shè)備流量數(shù)據(jù)集,為保證數(shù)據(jù)的有效性和真實(shí)性,選用IoT Sentinel[5]和UNSW[6]數(shù)據(jù)集及陜西某煤礦部分工作現(xiàn)場(chǎng)流量數(shù)據(jù)組成本文實(shí)驗(yàn)數(shù)據(jù)集。
將DSC-CBAM 模型與現(xiàn)有表現(xiàn)較好的設(shè)備過(guò)濾模型進(jìn)行對(duì)比,結(jié)果見(jiàn)表2。其中,文獻(xiàn)[11]僅采用全連接層構(gòu)建MLP 網(wǎng)絡(luò)區(qū)分2 類設(shè)備;文獻(xiàn)[33]對(duì)流量數(shù)據(jù)進(jìn)行卷積、池化、展平操作后,輸入多隱層神經(jīng)網(wǎng)絡(luò)中以獲取最佳分類結(jié)果。從表2 可看出,文獻(xiàn)[11]和文獻(xiàn)[33]所提模型均可準(zhǔn)確過(guò)濾Non-IIoT 設(shè)備,但文獻(xiàn)[11]模型參數(shù)量大,文獻(xiàn)[33]模型本身規(guī)模龐大;而DSC-CBAM 模型具有最高的準(zhǔn)確率、精確率、召回率、F1-score 及最低的參數(shù)量,可快速、精準(zhǔn)過(guò)濾Non-IIoT 設(shè)備。這是由于DSC-CBAM 模型引入的DSC 可顯著降低模型復(fù)雜度,減輕網(wǎng)絡(luò)訓(xùn)練負(fù)擔(dān),且CBAM 可有效校正特征權(quán)重,提高模型表征能力。
表2 Non-IIoT 設(shè)備過(guò)濾結(jié)果對(duì)比Table 2 Comparison of filtering results of Non-IIoT equipment
為驗(yàn)證偏移流量數(shù)據(jù)平衡對(duì)識(shí)別IIoT 設(shè)備的必要性,將經(jīng)WGAN-GP 平衡前后的IIoT 設(shè)備數(shù)據(jù)集分別輸入MDCM 模型中,對(duì)比結(jié)果見(jiàn)表3,其中設(shè)備HB 和HC 支持ZigBee 自組網(wǎng)絡(luò)協(xié)議,設(shè)備DLDS 為支持Z-Ware 協(xié)議的D-Link 門窗傳感器,上述設(shè)備流量數(shù)據(jù)經(jīng)協(xié)議轉(zhuǎn)換操作后轉(zhuǎn)為支持TCP/IP 協(xié)議傳輸?shù)牧髁繑?shù)據(jù),其余設(shè)備流量數(shù)據(jù)均支持TCP/IP 協(xié)議。
表3 偏移流量數(shù)據(jù)平衡前后設(shè)備識(shí)別指標(biāo)對(duì)比Table 3 Comparison of equipment recognition indicators before and after offset flow data balancing %
從表3 可看出,設(shè)備WAsss 和WSBM 由于樣本數(shù)目過(guò)小,在偏移流量數(shù)據(jù)平衡前全部被誤識(shí)別為其他設(shè)備,但經(jīng)偏移流量數(shù)據(jù)平衡后,WAsss 和WSBM 均可被正確識(shí)別;偏移流量數(shù)據(jù)平衡后,大多煤礦IIoT 設(shè)備識(shí)別指標(biāo)相較于平衡前得到有效提升,其中各類煤礦IIoT 設(shè)備識(shí)別精確率、F1-score 均高于99%,部分設(shè)備召回率較未平衡前提升100%。
通過(guò)消融實(shí)驗(yàn)驗(yàn)證MDCM 模型中DSC,CBAM,MFF,Mish 對(duì)優(yōu)化煤礦IIoT 設(shè)備識(shí)別效果的有效性。CNN 模型基礎(chǔ)網(wǎng)絡(luò)架構(gòu)由標(biāo)準(zhǔn)卷積組成,其中包括32 個(gè)5×5 與64 個(gè)3×3 大小的卷積核,輔以池化層降低維度,經(jīng)全連接層分類輸出;DSC 模型將CNN 模型第2 個(gè)標(biāo)準(zhǔn)卷積替換為DSC;DSC-CBAM模型在DSC 模型基礎(chǔ)上添加CBAM;MDC 模型在DSC-CBAM 模型基礎(chǔ)上引入MFF;MDCM 模型在MDC 模型基礎(chǔ)上增加Mish 激活函數(shù)。所有模型共訓(xùn)練15 輪,從模型損失、準(zhǔn)確率、精確率、召回率、F1-score 及參數(shù)量6 個(gè)維度進(jìn)行對(duì)比,結(jié)果如圖6所示。
圖6 消融實(shí)驗(yàn)結(jié)果Fig.6 Ablation experiment results
從圖6 可看出,CNN 模型收斂速度中等,各評(píng)價(jià)指標(biāo)保持在99.960%左右,但參數(shù)量高達(dá)228 318 個(gè),模型復(fù)雜度較高;DSC 模型參數(shù)量顯著降低到CNN 模型的16.6%,精確率、召回率等評(píng)價(jià)指標(biāo)略有損失,表明DSC 確實(shí)會(huì)破壞卷積核與輸出通道的相互作用,但各項(xiàng)評(píng)價(jià)指標(biāo)仍能保持在99.955%以上;DSC-CBAM 模型收斂速度慢于CNN 模型,除參數(shù)量略增大外,其他各項(xiàng)評(píng)價(jià)指標(biāo)均優(yōu)于上述模型,表明采用CBAM 校正特征權(quán)重可極大提升模型識(shí)別性能;MDC 模型收斂速度進(jìn)一步加快,各項(xiàng)評(píng)價(jià)指標(biāo)顯著提升至99.970%以上;MDCM 模型收斂速度最快,準(zhǔn)確率、召回率、精確率與F1-score 指標(biāo)均最優(yōu),高達(dá)99.975%以上,而參數(shù)增加量幾乎可忽略不計(jì)。
為驗(yàn)證本文所提設(shè)備識(shí)別模型的優(yōu)越性,在UNSW 數(shù)據(jù)集上與文獻(xiàn)[6]、文獻(xiàn)[10]、文獻(xiàn)[11]、文獻(xiàn)[34]中所提模型進(jìn)行對(duì)比,結(jié)果見(jiàn)表4。
表4 不同模型對(duì)比實(shí)驗(yàn)結(jié)果Table 4 Comparison of experimental results of different models
從表4 可看出,文獻(xiàn)[6]構(gòu)建ML 模型識(shí)別設(shè)備類型,準(zhǔn)確率達(dá)99.88%,但人工手動(dòng)提取流量特征耗費(fèi)人力物力,成本較高,不適用于大規(guī)模IIoT 數(shù)據(jù)處理;文獻(xiàn)[10]將流量截取2 500 byte 長(zhǎng)度,采用CNN+雙向LSTM 提取設(shè)備時(shí)間與空間特征,識(shí)別準(zhǔn)確率高達(dá)99.91%,但流量截取字節(jié)長(zhǎng)度過(guò)長(zhǎng),且模型復(fù)雜度過(guò)高,難以部署;文獻(xiàn)[11]僅將流量數(shù)據(jù)切分至應(yīng)用層,忽略了數(shù)據(jù)包OSI 模型其他層特征信息,識(shí)別結(jié)果不夠精確,且模型參數(shù)量較多;文獻(xiàn)[34]采用128 個(gè)5×5 與64 個(gè)3×3 大小的卷積核提取流量特征,雖達(dá)到最高識(shí)別精度,但模型參數(shù)量最大;本文所提MDCM 模型準(zhǔn)確率、精確率、召回率與F1-score 指標(biāo)均達(dá)到最優(yōu),且參數(shù)量最小。
1)提出了一種煤礦IIoT 設(shè)備識(shí)別模型:將網(wǎng)絡(luò)接口處采集的原始流量切分為多個(gè)子流集合,獲取更豐富的設(shè)備通信流量行為特征;在此基礎(chǔ)上通過(guò)DSC-CBAM 模型過(guò)濾Non-IIoT 設(shè)備,降低煤礦生產(chǎn)流量數(shù)據(jù)復(fù)雜度;使用WGAN-GP 模型對(duì)流量較少的IIoT 設(shè)備進(jìn)行數(shù)據(jù)擴(kuò)充,平衡偏移流量數(shù)據(jù);將平衡后的數(shù)據(jù)輸入MDCM 模型,實(shí)現(xiàn)煤礦IIoT 設(shè)備精準(zhǔn)識(shí)別。
2)實(shí)驗(yàn)結(jié)果表明,該模型收斂速度快,準(zhǔn)確率、召回率、精確率與F1-score 指標(biāo)均最優(yōu),高達(dá)99.98%,且參數(shù)量最小,能精準(zhǔn)、高效識(shí)別煤礦IIoT 設(shè)備。
3)但該模型僅提取、分析設(shè)備流量的空間特征,下一步工作將考慮提取流量時(shí)序特征,以實(shí)現(xiàn)更精確的設(shè)備識(shí)別。