郭暢
(沈陽(yáng)現(xiàn)代制造服務(wù)學(xué)校,遼寧 沈陽(yáng) 110148)
當(dāng)下,計(jì)算機(jī)網(wǎng)絡(luò)信息普遍存在著黑客攻擊與篡改、病毒或木馬程序入侵與竊取等風(fēng)險(xiǎn),從而給國(guó)家、企業(yè)或個(gè)人帶來(lái)威脅與損失。強(qiáng)化計(jì)算機(jī)網(wǎng)絡(luò)信息安全,對(duì)于民航、鐵路、電力、氣象等信息化產(chǎn)業(yè)而言,既是自身安全發(fā)展的需要,而且也關(guān)系著經(jīng)濟(jì)社會(huì)安全。因此,國(guó)家和企業(yè)均十分重視計(jì)算機(jī)網(wǎng)絡(luò)信息防護(hù)。從防護(hù)方法運(yùn)用看,多數(shù)運(yùn)用貝葉斯分類算法(BC),但此種防護(hù)方法運(yùn)用領(lǐng)域的廣度遠(yuǎn)不及大數(shù)據(jù)聚類算法(CALD)。大數(shù)據(jù)聚類算法不僅應(yīng)用領(lǐng)域廣,而且其技術(shù)成果相對(duì)較為成熟,但在網(wǎng)絡(luò)信息安全防護(hù)的研究與運(yùn)用中,該方法也存在著對(duì)目標(biāo)屬性的非線性關(guān)系的揭示不夠明晰,造成一些問(wèn)題來(lái)源不夠確定。這就需要準(zhǔn)確應(yīng)用大數(shù)據(jù)聚類算法的反向傳播模型,精準(zhǔn)計(jì)算網(wǎng)絡(luò)中的各中復(fù)雜關(guān)系,從而提高網(wǎng)絡(luò)信息安全分析的科學(xué)性。本文以民航空管部門(mén)值班記錄數(shù)據(jù)為樣本,對(duì)計(jì)算機(jī)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行仿真與測(cè)試,以期為防護(hù)計(jì)算機(jī)網(wǎng)絡(luò)信息安全提供技術(shù)支持。
作為數(shù)據(jù)挖掘的一個(gè)主要概念,聚類意即根據(jù)某一標(biāo)準(zhǔn),把數(shù)據(jù)集分割成不同的類或簇,使得同一類或同一簇的數(shù)據(jù)彼此足夠相似、非同一類或非同一簇的數(shù)據(jù)非足夠相,有助于分析者發(fā)現(xiàn)數(shù)據(jù)中隱藏的邏輯關(guān)系與形勢(shì)。該算法包括單機(jī)與多機(jī)聚類算法,前者又分為傳統(tǒng)聚類算法(基于分區(qū)、分層、密度、網(wǎng)絡(luò)、模型的聚類算法)、抽樣聚類算法(基于隨機(jī)選擇、層次方法、大型數(shù)據(jù)庫(kù)聚類算法)和降維聚類算法,后者又分為并行聚類算法(劃分?jǐn)?shù)據(jù)并將其分布于不同機(jī)器上)以及基于Map Reduce 聚類算法如圖1所示。這些算法既有優(yōu)點(diǎn),也有其缺點(diǎn),如傳統(tǒng)聚類算法雖然實(shí)現(xiàn)簡(jiǎn)單,但難以處理數(shù)量較大的數(shù)據(jù);抽樣聚類算法雖然時(shí)空開(kāi)銷較小,但聚類的精確性卻容易受到抽樣質(zhì)量的影響;降維聚類算法雖然能夠減少數(shù)據(jù)集、優(yōu)化處理開(kāi)銷、高效且可擴(kuò)展,但難以為高維數(shù)據(jù)集提供有效解決方案;并行聚類算法雖然高效,但算法卻不容易實(shí)現(xiàn);基于Map Reduce 聚類算法雖然具有很強(qiáng)的擴(kuò)展性,但軟、硬件資源消耗較多,難以為選擇、提取等常用操作提供原語(yǔ),且基于Map Reduce 的每個(gè)查詢難以實(shí)現(xiàn)。
圖1 大數(shù)據(jù)聚類算法分類
這需要在大數(shù)據(jù)聚類算法運(yùn)用中強(qiáng)化其合理性,充分發(fā)揮其優(yōu)點(diǎn)而規(guī)避其缺點(diǎn)。隨著聚類技術(shù)的發(fā)展,大數(shù)據(jù)聚類算法已廣泛運(yùn)用于市場(chǎng)營(yíng)銷、金融、通信、農(nóng)業(yè)、醫(yī)療、移動(dòng)網(wǎng)絡(luò)等領(lǐng)域,為這些領(lǐng)域的計(jì)算機(jī)網(wǎng)絡(luò)信息安全防護(hù)提供了技術(shù)支撐與保障。比如,在金融領(lǐng)域,基于上市企業(yè)的盈利、償債能力指標(biāo)等進(jìn)行聚類試驗(yàn),可以獲得股票板塊分類,為投資者提供借鑒;在移動(dòng)通信領(lǐng)域,根據(jù)原始數(shù)據(jù)處理,通過(guò)聚類算法挖掘用戶的關(guān)注熱點(diǎn)及其行為模式,從而為用戶提供精確的位置服務(wù)等。
計(jì)算機(jī)網(wǎng)絡(luò)信息存在的風(fēng)險(xiǎn)問(wèn)題,主要包括網(wǎng)絡(luò)安全風(fēng)險(xiǎn),如網(wǎng)絡(luò)系統(tǒng)存在漏洞與缺陷、病毒與黑客攻擊、惡意代碼或惡意設(shè)備植入系統(tǒng)等;計(jì)算機(jī)系統(tǒng)風(fēng)險(xiǎn),如相關(guān)設(shè)備配置不盡合理、運(yùn)行不盡穩(wěn)定、功能不盡完善,加之系統(tǒng)設(shè)計(jì)不夠科學(xué)、管理不夠規(guī)范,容易計(jì)算機(jī)病毒入侵、傳染和擴(kuò)散,從而造成計(jì)算機(jī)主板損壞、數(shù)據(jù)丟失、工作效率下降;信息數(shù)據(jù)風(fēng)險(xiǎn),如數(shù)據(jù)泄露、數(shù)據(jù)篡改、數(shù)據(jù)濫用、違規(guī)傳輸、非法訪問(wèn)、流量異常等。大數(shù)據(jù)聚類算法運(yùn)用的基本思路,是通過(guò)構(gòu)建評(píng)估模型,分析計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)弱點(diǎn)及其安全策略的抵御攻擊能力,針對(duì)系統(tǒng)、漏洞、攻擊行為及安全策略進(jìn)行綜合評(píng)估,分析和評(píng)估這些要素的相互作用及影響,從而形成對(duì)計(jì)算機(jī)網(wǎng)絡(luò)信息安全防護(hù)的綜合評(píng)估。
在基于大數(shù)據(jù)聚類算法的計(jì)算機(jī)網(wǎng)絡(luò)信息安全防護(hù)中,對(duì)于網(wǎng)絡(luò)權(quán)值的調(diào)節(jié),該算法一般運(yùn)用后向傳播方式,其中算法模型結(jié)構(gòu)具體包括3 層,即輸入層、隱含層及輸出層如圖2所示,其中在隱含層中又可能存在多層結(jié)構(gòu)。
圖2 大數(shù)據(jù)聚類算法拓?fù)鋱D
在該結(jié)構(gòu)模型的運(yùn)用中,輸入網(wǎng)絡(luò)中的向量,經(jīng)過(guò)隱含層的處理后輸入向量,再經(jīng)過(guò)輸出層處理后輸出向量,然后獲得期望輸出向量。在此過(guò)程中,一方面應(yīng)注意輸入層同隱含層之間的權(quán)值矩陣,可將其表示為,其中列向量V表示的是第個(gè)信息相匹配的權(quán)向量;另一方面應(yīng)注意輸出層與隱含層之間的權(quán)值矩陣,可將其表示為,其中列向量W表示的是第個(gè)信息能夠?qū)崿F(xiàn)的匹配性權(quán)向量。
以民航空管部門(mén)值班記錄數(shù)據(jù)為樣本,對(duì)計(jì)算機(jī)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行仿真與測(cè)試。按照一定規(guī)則,筆者將安全防護(hù)策略的涉密信息安全分為五個(gè)等級(jí)如表1所示?;诖髷?shù)據(jù)聚類算法,在一定條件下,對(duì)計(jì)算機(jī)網(wǎng)絡(luò)信息防護(hù)策略進(jìn)行模擬仿真,并運(yùn)用相關(guān)數(shù)據(jù)對(duì)其進(jìn)行測(cè)試。在大數(shù)據(jù)聚類算法設(shè)計(jì)與運(yùn)用中,考慮防護(hù)策略體系包含廣域網(wǎng)、局域網(wǎng)等多個(gè)子系統(tǒng),且網(wǎng)絡(luò)測(cè)試性能可能受到隱含層信息數(shù)量的影響,因此把12 個(gè)實(shí)際計(jì)算機(jī)網(wǎng)絡(luò)設(shè)備作為分析對(duì)象,對(duì)參數(shù)進(jìn)行設(shè)定。其中,最小訓(xùn)練誤差goal、最大訓(xùn)練步數(shù)epochs、show 的取值分別為0.01、1 000、20,剩余參數(shù)則采取默認(rèn)取值。其中,goal 值受到設(shè)備的正常率、完全好兩個(gè)最小誤差值的共同影響。
表1 安全及涉密信息安全等級(jí)一覽
以12 組計(jì)算機(jī)網(wǎng)絡(luò)的實(shí)際運(yùn)行數(shù)據(jù)為測(cè)試對(duì)象和分析樣本,實(shí)驗(yàn)測(cè)試結(jié)果如表2所示。
表2 樣本測(cè)試結(jié)果
續(xù)表
在驗(yàn)證文中的網(wǎng)絡(luò)性能方面,運(yùn)用函數(shù)Trainlm 進(jìn)行處理和驗(yàn)證,將目標(biāo)值設(shè)定為0.01,通過(guò)3步訓(xùn)練,結(jié)果為0.001 201 54。這一結(jié)果在設(shè)計(jì)誤差范圍內(nèi),達(dá)到降低錯(cuò)誤率的預(yù)期目的。從圖3可以看出各種錯(cuò)誤率相對(duì)應(yīng)的實(shí)際效果。
圖3 計(jì)算機(jī)網(wǎng)絡(luò)錯(cuò)誤率
在驗(yàn)證上述訓(xùn)練方法獲得的網(wǎng)絡(luò)性能,筆者運(yùn)用Postreg 函數(shù)對(duì)各項(xiàng)數(shù)據(jù)進(jìn)行非線性回歸分析,由此獲得效果最優(yōu)的結(jié)果?;跀M合度=0.999,非線性回歸分析結(jié)果如圖4所示。
圖4 非線性回歸分析所得擬合曲線
在此基礎(chǔ)上,運(yùn)用仿真輸出與目標(biāo)兩種向量,進(jìn)行線性回歸分析,并以相關(guān)系數(shù)作為線性回歸分析的依據(jù)。在網(wǎng)絡(luò)性能最優(yōu)條件下,斜率與截距分別為1、0,其擬合度為1,這表明該方法較適用于計(jì)算機(jī)網(wǎng)絡(luò)安全的非線性特征。
基于大數(shù)據(jù)聚類算法,探求計(jì)算機(jī)網(wǎng)絡(luò)信息安全防護(hù)方法,并通過(guò)模擬仿真對(duì)此進(jìn)行驗(yàn)證。結(jié)果表明,所提方法適用于計(jì)算機(jī)網(wǎng)絡(luò)安全的非線性特征,能夠準(zhǔn)確反映計(jì)算機(jī)網(wǎng)絡(luò)安全運(yùn)行的狀態(tài),從而為防護(hù)計(jì)算機(jī)網(wǎng)絡(luò)信息安全提供了有效的思路與保障。誠(chéng)然,大數(shù)據(jù)聚類算法的運(yùn)用,并不能完全解決計(jì)算機(jī)網(wǎng)絡(luò)信息安全防護(hù)問(wèn)題,應(yīng)在此基礎(chǔ)上,一方面,強(qiáng)化和完善計(jì)算機(jī)網(wǎng)絡(luò)信息安全防御,如建立計(jì)算機(jī)網(wǎng)絡(luò)信息安全檢測(cè)系統(tǒng)、安全反應(yīng)機(jī)制,定期對(duì)其安全性進(jìn)行檢查,以降低其安全問(wèn)題發(fā)生的概率;另一方面,在內(nèi)網(wǎng)與外網(wǎng)之間構(gòu)建防火墻,提高其防火等級(jí),為計(jì)算機(jī)網(wǎng)絡(luò)運(yùn)行提供有效保障。