黨會(huì)博
摘? ?要:當(dāng)前網(wǎng)絡(luò)安全問(wèn)題日益嚴(yán)峻,將大數(shù)據(jù)技術(shù)應(yīng)用在網(wǎng)絡(luò)安全事件自動(dòng)分析與深度挖掘中,可以提高網(wǎng)絡(luò)安全事件的分析效率,文章主要分析了網(wǎng)絡(luò)安全事件中的大數(shù)據(jù)自動(dòng)分析技術(shù)、深度挖掘的相關(guān)流程及注意事項(xiàng),期望提升大數(shù)據(jù)技術(shù)對(duì)網(wǎng)絡(luò)安全與深度挖掘的支撐能力。
關(guān)鍵詞:大數(shù)據(jù)技術(shù);網(wǎng)絡(luò)安全;深度挖掘
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,網(wǎng)絡(luò)安全事件的發(fā)生日益頻繁,已經(jīng)從個(gè)人蔓延到了金融、通信等多個(gè)領(lǐng)域,如2019年發(fā)生的澳大利亞維多利亞州政府3萬(wàn)名雇員個(gè)人信息外泄事件、萬(wàn)豪酒店5億客戶(hù)數(shù)據(jù)泄漏事件、10多款I(lǐng)OS應(yīng)用被發(fā)現(xiàn)與安全惡意軟件有染、德國(guó)數(shù)百名政客私人信息泄漏事件、安全傳輸層(Transport Layer Security,TLS)1.2協(xié)議現(xiàn)漏洞,印度國(guó)有天然氣公司泄露了數(shù)百萬(wàn)客戶(hù)的敏感信息、俄羅斯50多家大型企業(yè)遭到未知攻擊者勒索等,造成了嚴(yán)重的不良后果,因此,應(yīng)該加強(qiáng)對(duì)網(wǎng)絡(luò)安全事件的研究,降低網(wǎng)絡(luò)安全事件的發(fā)生率。
當(dāng)前的網(wǎng)絡(luò)安全事件具有趨利性、隱蔽性和廣泛性等,網(wǎng)絡(luò)安全問(wèn)題正在成為一個(gè)大數(shù)據(jù)分析的問(wèn)題,因此,應(yīng)該應(yīng)用大數(shù)據(jù)技術(shù)加強(qiáng)對(duì)網(wǎng)絡(luò)安全事件的分析和檢索,以快速、實(shí)時(shí)洞悉網(wǎng)絡(luò)安全事件的發(fā)生,及時(shí)做出響應(yīng)和判斷。
1? ? 網(wǎng)絡(luò)安全事件大數(shù)據(jù)自動(dòng)分析技術(shù)
1.1? 大數(shù)據(jù)處理技術(shù)
在對(duì)網(wǎng)絡(luò)安全事件進(jìn)行分析時(shí),需要應(yīng)用大數(shù)據(jù)處理技術(shù),對(duì)網(wǎng)絡(luò)安全數(shù)據(jù)進(jìn)行批量計(jì)算和流式計(jì)算等,具體分析如下:(1)批量數(shù)據(jù)處理技術(shù)。批量數(shù)據(jù)處理技術(shù)的示意如圖1所示,計(jì)算之前先對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ),之后進(jìn)行存儲(chǔ)數(shù)據(jù)的集中計(jì)算,由于吞吐計(jì)算量大,通常應(yīng)用在網(wǎng)絡(luò)安全事件中的技術(shù)包括高級(jí)持續(xù)性威脅(Advanced Persistent Threat,APT)檢測(cè)、欺詐檢測(cè)、網(wǎng)絡(luò)安全日志分析、網(wǎng)絡(luò)全流量分析等,處理過(guò)程中應(yīng)用的典型的大數(shù)據(jù)處理架構(gòu)為Hadoop,Apache Spark。(2)流式數(shù)據(jù)處理技術(shù)。該技術(shù)是一種實(shí)時(shí)、高效的數(shù)據(jù)處理方法,可以在內(nèi)存中直接進(jìn)行流式數(shù)據(jù)的實(shí)時(shí)計(jì)算,處理效率非常高,處理時(shí)間為數(shù)百毫秒到數(shù)秒。數(shù)據(jù)處理中應(yīng)用的典型架構(gòu)為T(mén)witter的Storm,Storm適用于處理網(wǎng)絡(luò)會(huì)話(huà)流還原或流匯聚;Apache Spark中的Spark Streaming,具有一定的延時(shí),實(shí)現(xiàn)數(shù)據(jù)的分批處理。(3)交互式數(shù)據(jù)查詢(xún)技術(shù)。在對(duì)網(wǎng)絡(luò)安全事件進(jìn)行分析時(shí),主要強(qiáng)調(diào)以人作為安全分析的主體和需求主體,而大數(shù)據(jù)交互查詢(xún)技術(shù)基于NoSQL類(lèi)型的數(shù)據(jù)存儲(chǔ)構(gòu)建數(shù)據(jù)索引目錄進(jìn)行交互式查詢(xún),查詢(xún)時(shí)間為數(shù)十秒到數(shù)分鐘,處理靈活,為網(wǎng)絡(luò)安全分析提供了技術(shù)支撐,在網(wǎng)絡(luò)安全事件交互查詢(xún)處理中,應(yīng)用的典型系統(tǒng)為Google的Dremel系統(tǒng)、Apache Spark系統(tǒng)。
1.2? 大數(shù)據(jù)安全分析技術(shù)
大數(shù)據(jù)安全分析技術(shù)主要包括安全可視分析技術(shù)、安全事件關(guān)聯(lián)分析技術(shù)、用戶(hù)行為分析技術(shù)。安全可視分析技術(shù)當(dāng)前為網(wǎng)絡(luò)安全研究的新興領(lǐng)域,該技術(shù)將網(wǎng)絡(luò)安全數(shù)據(jù)以圖像的形式表現(xiàn)出來(lái),借助人的視覺(jué)能力幫助分析人員及時(shí)發(fā)現(xiàn)和感知網(wǎng)絡(luò)安全問(wèn)題,分析過(guò)程中常用到大規(guī)模網(wǎng)絡(luò)處理與大規(guī)模圖形數(shù)據(jù)處理、多視圖協(xié)同分析技術(shù)等,但是該技術(shù)當(dāng)前還不太成熟,應(yīng)用較多的架構(gòu)為基于Web的視覺(jué)分析應(yīng)用程序NVisAware和基于Spark的網(wǎng)絡(luò)安全態(tài)勢(shì)可視化工具NStreamAware。安全事件關(guān)聯(lián)分析技術(shù)需要實(shí)現(xiàn)不同網(wǎng)絡(luò)安全事件的關(guān)聯(lián),找出這些事件之間的聯(lián)系,以便及時(shí)發(fā)現(xiàn)入侵者的行為。主要的安全事件關(guān)聯(lián)分析方法為網(wǎng)絡(luò)和主機(jī)關(guān)聯(lián)分析、攻擊步驟關(guān)聯(lián)分析、安全設(shè)備報(bào)警關(guān)聯(lián)分析、不同領(lǐng)域安全事件關(guān)聯(lián)分析等[1]。用戶(hù)行為分析技術(shù)是當(dāng)前應(yīng)用的IT安全行業(yè)防止黑客攻擊的新技術(shù),用戶(hù)在應(yīng)用網(wǎng)絡(luò)時(shí)會(huì)留下審計(jì)跟蹤記錄、網(wǎng)絡(luò)流量等,通過(guò)對(duì)這些用戶(hù)信息的收集和處理,可以得到用戶(hù)行為基準(zhǔn)線(xiàn),而應(yīng)用用戶(hù)行為分析技術(shù)可以更加準(zhǔn)確地識(shí)別除了用戶(hù)以外的其他威脅網(wǎng)絡(luò)安全的實(shí)體,關(guān)注網(wǎng)絡(luò)流量異常和偏離正常操作的行為,用來(lái)保護(hù)計(jì)算機(jī)不受到內(nèi)部和外部等其他威脅,用戶(hù)行為分析過(guò)程中應(yīng)用的大數(shù)據(jù)技術(shù)為時(shí)序數(shù)據(jù)挖掘分析技術(shù)、聚類(lèi)分析技術(shù)、關(guān)聯(lián)規(guī)則分析技術(shù)等。
2? ? 大數(shù)據(jù)對(duì)網(wǎng)絡(luò)安全事件的深度挖掘流程
網(wǎng)絡(luò)安全信息深度挖掘是對(duì)信息進(jìn)行從屬關(guān)系、學(xué)科性質(zhì)及層次關(guān)系的組織,實(shí)現(xiàn)信息分類(lèi)匯總的過(guò)程,數(shù)據(jù)對(duì)網(wǎng)絡(luò)安全事件的深度挖掘流程包括數(shù)據(jù)采集存儲(chǔ)、數(shù)據(jù)清洗處理、數(shù)據(jù)分析挖掘、數(shù)據(jù)交換共享等[2]。
2.1? 數(shù)據(jù)采集存儲(chǔ)
網(wǎng)絡(luò)安全事件的數(shù)據(jù)采集分析主要采用集中式采集和分布式采集兩種方法,數(shù)據(jù)采集是數(shù)據(jù)分析和處理的基礎(chǔ),存儲(chǔ)時(shí)需要根據(jù)大數(shù)據(jù)平臺(tái)的相關(guān)要求將數(shù)據(jù)轉(zhuǎn)換成非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)存儲(chǔ)時(shí)在滿(mǎn)足存儲(chǔ)要求的同時(shí)需要從成本角度選擇適宜的存儲(chǔ)架構(gòu),如采用基于“廉價(jià)PC服務(wù)器+大容量SATA硬盤(pán)”為主的分布式存儲(chǔ)架構(gòu)。
2.2? 數(shù)據(jù)處理
網(wǎng)絡(luò)安全數(shù)據(jù)采集之后,在進(jìn)行大數(shù)據(jù)分析之前,還需要進(jìn)行處理,包括網(wǎng)絡(luò)安全數(shù)據(jù)導(dǎo)入、歸納整理等。數(shù)據(jù)導(dǎo)入主要有人工錄入數(shù)據(jù)、網(wǎng)站上的靜態(tài)數(shù)據(jù)鏈接、動(dòng)態(tài)數(shù)據(jù)鏈接等,數(shù)據(jù)的歸納整理采用萃取、轉(zhuǎn)置、加載(Extract-Transform-Load,ETL)工具,根據(jù)定義好的關(guān)聯(lián)規(guī)則將目標(biāo)數(shù)據(jù)抽提到數(shù)據(jù)庫(kù)。
2.3? 數(shù)據(jù)深度挖掘
網(wǎng)絡(luò)安全事件的數(shù)據(jù)分析包括結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的處理,需要采用相關(guān)算法對(duì)數(shù)據(jù)深度挖掘分析,包括神經(jīng)網(wǎng)絡(luò)算法、聚類(lèi)算法、Adam算法、基于內(nèi)容的協(xié)同過(guò)濾算法等,本文主要分析深度神經(jīng)網(wǎng)絡(luò)算法和基于內(nèi)容的協(xié)同過(guò)濾算法[3]。
2.3.1? 深度神經(jīng)網(wǎng)絡(luò)算法
深度神經(jīng)網(wǎng)絡(luò)算法的具體流程如下:首先,將網(wǎng)絡(luò)用戶(hù)的行為特征映射為高維空間,以此作為神經(jīng)網(wǎng)絡(luò)的輸入。其次,根據(jù)用戶(hù)的點(diǎn)擊行為記錄作為訓(xùn)練樣本對(duì)網(wǎng)絡(luò)模型參數(shù)進(jìn)行訓(xùn)練,提取用戶(hù)信息,計(jì)算用戶(hù)與用戶(hù)正常行為的相關(guān)性,以此作為網(wǎng)絡(luò)異常行為的評(píng)分依據(jù)。
具體如下:假設(shè)x,y分別代表輸入向量和輸出向量,神經(jīng)網(wǎng)絡(luò)中的隱含層用hi代表,i=1,2,...,N-1,Wi代表神經(jīng)網(wǎng)絡(luò)中第i層的權(quán)重矩陣,bi表示第i層的偏置。則有以下公式:
其中,f(x)表示激活函數(shù),在本文中用tanh作為隱藏層和輸出層的激活函數(shù)。其具體公式如下:
最后,計(jì)算用戶(hù)U和用戶(hù)正常行為數(shù)據(jù)集V的語(yǔ)義相關(guān)性大小R(U,V),計(jì)算公式如下:
其中,yU為經(jīng)過(guò)分析提取后的用戶(hù)信息,yV為經(jīng)過(guò)分析之后的用戶(hù)正常行為數(shù)據(jù)集的分布式向量,對(duì)二者進(jìn)行相關(guān)性評(píng)分,并根據(jù)評(píng)分從大到小進(jìn)行依次排列,發(fā)現(xiàn)異常行為反饋給網(wǎng)絡(luò)安全事件分析者。
2.3.2? 基于內(nèi)容的協(xié)同過(guò)濾算法
基于內(nèi)容的協(xié)同過(guò)濾算法可以根據(jù)用戶(hù)行為庫(kù),確定與用戶(hù)的行為差異較大的客戶(hù)端,及時(shí)鎖定異常行為,采用基于內(nèi)容的協(xié)同過(guò)濾算法,必須為每位用戶(hù)建立行為相似度矩陣。
3? ? 網(wǎng)絡(luò)安全事件自動(dòng)分析與深度挖掘的注意事項(xiàng)
大數(shù)據(jù)技術(shù)在網(wǎng)絡(luò)安全事件自動(dòng)分析與深度挖掘中的應(yīng)用,還需要注意相關(guān)的問(wèn)題,如建立網(wǎng)絡(luò)安全事件的數(shù)據(jù)資源體系、應(yīng)用保密技術(shù)等,具體論述如下:(1)實(shí)時(shí)更新以大數(shù)據(jù)技術(shù)為核心的數(shù)據(jù)資源體系,為網(wǎng)絡(luò)事件的安全分析提供數(shù)據(jù)基礎(chǔ),不斷擴(kuò)大網(wǎng)絡(luò)安全事件數(shù)據(jù)分析的數(shù)據(jù)總量,完善數(shù)據(jù)分類(lèi),加強(qiáng)不同類(lèi)型的網(wǎng)絡(luò)安全數(shù)據(jù)的收集。(2)建立構(gòu)建以人為本的用戶(hù)關(guān)系管理,使得網(wǎng)絡(luò)安全相關(guān)數(shù)據(jù)內(nèi)在關(guān)聯(lián)得以深度挖掘。利用大數(shù)據(jù)技術(shù)可以實(shí)時(shí)掌握用戶(hù)的日常行為數(shù)據(jù),并且挖掘這些數(shù)據(jù)的內(nèi)在深度關(guān)聯(lián),實(shí)現(xiàn)用戶(hù)的興趣、習(xí)慣等分析,產(chǎn)生用戶(hù)動(dòng)態(tài)鏈接列表,便于及時(shí)發(fā)現(xiàn)異常行為。(3)在應(yīng)用大數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)事件分析時(shí)注重保護(hù)數(shù)據(jù)隱私安全,使用保護(hù)數(shù)據(jù)隱私的數(shù)據(jù)挖掘方法。(4)不斷應(yīng)用新的“智慧”技術(shù),隨著智慧服務(wù)理念的提出,大數(shù)據(jù)技術(shù)也應(yīng)該與時(shí)俱進(jìn),與物聯(lián)網(wǎng)技術(shù)等結(jié)合,實(shí)現(xiàn)網(wǎng)絡(luò)安全信息的深度挖掘,將與網(wǎng)絡(luò)安全相關(guān)的各種數(shù)據(jù)進(jìn)行融合匯總,利用智慧服務(wù)理念實(shí)現(xiàn)隱性知識(shí)的顯性化,構(gòu)建網(wǎng)絡(luò)安全事件分析智慧空間。
4? ? 結(jié)語(yǔ)
隨著大數(shù)據(jù)技術(shù)的發(fā)展,它的應(yīng)用范圍在不斷擴(kuò)大,應(yīng)用效果也在不斷提升,因此,將其應(yīng)用在網(wǎng)絡(luò)安全自動(dòng)分析和深度挖掘中將會(huì)是一種趨勢(shì),以提高網(wǎng)絡(luò)安全事件的分析效率、降低網(wǎng)絡(luò)安全事件的發(fā)生率。同時(shí),大數(shù)據(jù)技術(shù)的應(yīng)用促進(jìn)了網(wǎng)絡(luò)安全管理的模式轉(zhuǎn)變,可以綜合、及時(shí)地感知網(wǎng)絡(luò)安全信息,遏制網(wǎng)絡(luò)攻擊,提升大數(shù)據(jù)技術(shù)對(duì)網(wǎng)絡(luò)安全與深度挖掘的支撐能力。
[參考文獻(xiàn)]
[1]陳興蜀,曾雪梅,王文賢,等.基于大數(shù)據(jù)的網(wǎng)絡(luò)安全與情報(bào)分析[J].工程科學(xué)與技術(shù),2017(3):1-12.
[2]張文元,張倩.大數(shù)據(jù)技術(shù)與檔案數(shù)據(jù)挖掘[J].檔案管理,2016(2):33-35.
[3]李玉平.大數(shù)據(jù)時(shí)代下的網(wǎng)絡(luò)安全問(wèn)題研究[J].中國(guó)新通信,2017(2):50.
無(wú)線(xiàn)互聯(lián)科技2019年14期