陳佩,李鳳華,李子孚,郭云川,成林
基于規(guī)則關(guān)聯(lián)的安全數(shù)據(jù)采集策略生成
陳佩1,2,李鳳華1,2,李子孚1,2,郭云川1,2,成林3
(1. 中國(guó)科學(xué)院信息工程研究所,北京 100093;2. 中國(guó)科學(xué)院大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,北京 100049;3. 中國(guó)信息安全測(cè)評(píng)中心,北京 100085)
有效的安全數(shù)據(jù)采集是精準(zhǔn)分析網(wǎng)絡(luò)威脅的基礎(chǔ),當(dāng)前常用的全采集、概率采集和自適應(yīng)采集等采集方法,未考慮采集數(shù)據(jù)的有效性和采集數(shù)據(jù)的關(guān)聯(lián)關(guān)系,消耗過(guò)多的資源,其采集收益和成本率低。針對(duì)該問(wèn)題,考慮影響采集收益和成本的因素(節(jié)點(diǎn)特征間關(guān)系、網(wǎng)絡(luò)拓?fù)潢P(guān)系、系統(tǒng)威脅狀況、節(jié)點(diǎn)資源情況、節(jié)點(diǎn)相似度等),設(shè)計(jì)了一種基于規(guī)則關(guān)聯(lián)的安全數(shù)據(jù)采集策略生成方法。該方法根據(jù)節(jié)點(diǎn)間的關(guān)聯(lián)規(guī)則和系統(tǒng)中所發(fā)生安全事件間的關(guān)聯(lián)規(guī)則,構(gòu)建備選采集項(xiàng),縮減數(shù)據(jù)采集范圍;綜合考慮采集收益和采集成本,設(shè)計(jì)最大化采集收益和最小化采集成本的多目標(biāo)優(yōu)化函數(shù),基于遺傳算法求解該優(yōu)化函數(shù)。與常用采集方法進(jìn)行比較和分析,實(shí)驗(yàn)結(jié)果表明所提方法12 h累計(jì)數(shù)據(jù)采集量較其他方案減少了1 000~3 000條數(shù)據(jù)記錄,數(shù)據(jù)有效性較其他數(shù)據(jù)采集方案提升約4%~10%,證明了所提方法的有效性。
策略優(yōu)化生成;多目標(biāo)優(yōu)化;數(shù)據(jù)協(xié)同采集;多關(guān)聯(lián)規(guī)則挖掘
安全數(shù)據(jù)指在入侵檢測(cè)分析過(guò)程中通常使用的數(shù)據(jù),該類數(shù)據(jù)可以協(xié)助發(fā)現(xiàn)系統(tǒng)遭受的威脅,安全數(shù)據(jù)可以是特定攻擊行為的特征、簽名或指紋[1]。有效采集安全數(shù)據(jù)是精準(zhǔn)分析網(wǎng)絡(luò)威脅的基礎(chǔ),數(shù)據(jù)采集的內(nèi)容決定了威脅分析的準(zhǔn)確性和時(shí)效性。復(fù)雜網(wǎng)絡(luò)環(huán)境(如大數(shù)據(jù)環(huán)境、云計(jì)算環(huán)境、天地一體化信息網(wǎng)絡(luò)環(huán)境)中大量異構(gòu)設(shè)備產(chǎn)生了不同類型的海量數(shù)據(jù),網(wǎng)絡(luò)拓?fù)鋸?fù)雜性、數(shù)據(jù)類型多樣性和數(shù)據(jù)量巨大性,導(dǎo)致當(dāng)前的全量無(wú)差異采集模式可能采集大量噪聲數(shù)據(jù)和冗余數(shù)據(jù)(如重復(fù)的日志文件數(shù)據(jù)、低信息量的主機(jī)狀態(tài)數(shù)據(jù)和海量網(wǎng)絡(luò)流量數(shù)據(jù)),這將消耗過(guò)多計(jì)算、存儲(chǔ)和帶寬資源,威脅分析難度大,數(shù)據(jù)采集的有效性低,不適應(yīng)復(fù)雜網(wǎng)絡(luò)環(huán)境。
國(guó)內(nèi)外學(xué)者在采集策略方面展開(kāi)了大量研究[1-5],策略可以分為單節(jié)點(diǎn)數(shù)據(jù)采集策略和多節(jié)點(diǎn)協(xié)同采集策略。單節(jié)點(diǎn)數(shù)據(jù)采集指在單個(gè)節(jié)點(diǎn)上采集主機(jī)運(yùn)行數(shù)據(jù)、日志數(shù)據(jù)和流量數(shù)據(jù)等數(shù)據(jù),其采集策略關(guān)注于單個(gè)節(jié)點(diǎn)內(nèi)的采集內(nèi)容及其采集頻率[6-9],根據(jù)數(shù)據(jù)變化平滑度、數(shù)據(jù)相關(guān)性、預(yù)測(cè)數(shù)據(jù)變化幅度等因素,自適應(yīng)調(diào)整采集頻率。多節(jié)點(diǎn)協(xié)同采集指在多個(gè)節(jié)點(diǎn)上協(xié)同采集安全數(shù)據(jù)[7,10-14],其采集策略更多地關(guān)注網(wǎng)絡(luò)拓?fù)?、?shù)據(jù)傳輸能耗和安全事件間關(guān)聯(lián)等對(duì)數(shù)據(jù)采集的影響[11,15-18]。目前采集策略的相關(guān)工作只考慮采集策略的效率,未考慮采集數(shù)據(jù)的有效性。單節(jié)點(diǎn)采集策略忽略了節(jié)點(diǎn)間隱含的位置、時(shí)空等關(guān)聯(lián)關(guān)系對(duì)安全威脅的影響,導(dǎo)致部分隱含的威脅預(yù)警信息缺失,安全威脅分析的精確度降低。對(duì)于多節(jié)點(diǎn)協(xié)同采集策略,目前的研究大多考慮了節(jié)點(diǎn)拓?fù)浜蛿?shù)據(jù)傳輸能耗等影響因素,忽略了采集數(shù)據(jù)的物理含義,未考慮威脅嚴(yán)重狀況、數(shù)據(jù)有效性等影響因素。
針對(duì)上述問(wèn)題,本文設(shè)計(jì)了基于規(guī)則關(guān)聯(lián)的安全數(shù)據(jù)采集策略生成方法,該方法考慮多個(gè)事件在時(shí)空屬性或其他事件屬性的隱含關(guān)聯(lián)性,設(shè)計(jì)了備選采集項(xiàng)的確定方法;通過(guò)分析采集成本和收益,構(gòu)建基于多目標(biāo)優(yōu)化的采集策略生成算法,支撐數(shù)據(jù)多節(jié)點(diǎn)協(xié)同采集。本文的貢獻(xiàn)如下。
(1)數(shù)據(jù)采集預(yù)處理。本文設(shè)計(jì)了安全事件描述方法,將節(jié)點(diǎn)運(yùn)行狀態(tài)數(shù)據(jù)、流量數(shù)據(jù)和日志記錄等不同類型的原始數(shù)據(jù)進(jìn)行歸一化預(yù)處理,得到涵蓋事件時(shí)間、發(fā)生地點(diǎn)、事件類型和事件屬性等字段在內(nèi)的安全事件,實(shí)現(xiàn)對(duì)異構(gòu)節(jié)點(diǎn)不同類型原始數(shù)據(jù)的統(tǒng)一描述。
(2)基于關(guān)聯(lián)規(guī)則的備選采集項(xiàng)確定。針對(duì)同一節(jié)點(diǎn)存在多個(gè)安全事件、多個(gè)節(jié)點(diǎn)間存在同一安全事件這兩種場(chǎng)景,基于關(guān)聯(lián)規(guī)則挖掘技術(shù),設(shè)計(jì)備選采集項(xiàng)確定算法。該算法依據(jù)實(shí)時(shí)安全狀況和生成的關(guān)聯(lián)規(guī)則,構(gòu)建與實(shí)時(shí)威脅緊密相關(guān)的備選采集項(xiàng),縮減了數(shù)據(jù)采集的范圍。
(3)基于多目標(biāo)優(yōu)化的策略生成。綜合考慮節(jié)點(diǎn)間相似性、采集數(shù)據(jù)有效性和威脅嚴(yán)重程度對(duì)采集收益的影響,以及資源占用成本、數(shù)據(jù)隱私泄露成本和虛假預(yù)測(cè)風(fēng)險(xiǎn)等因素對(duì)采集成本的影響,設(shè)計(jì)最大化采集收益和最小化采集成本的多目標(biāo)優(yōu)化函數(shù);基于遺傳算法求解該優(yōu)化函數(shù),減少采集數(shù)據(jù)量,提升采集數(shù)據(jù)有效性。
關(guān)聯(lián)規(guī)則算法可以挖掘出數(shù)據(jù)集中各個(gè)變量之間隱含存在的關(guān)聯(lián)關(guān)系,該算法廣泛應(yīng)用于數(shù)據(jù)挖掘的各個(gè)場(chǎng)景中,可以有效挖掘事件記錄之間的關(guān)系,對(duì)網(wǎng)絡(luò)系統(tǒng)中的入侵行為進(jìn)行檢測(cè)和發(fā)現(xiàn)。根據(jù)關(guān)聯(lián)規(guī)則層次,將其劃分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則。在關(guān)聯(lián)規(guī)則層次中,根據(jù)不同場(chǎng)景下數(shù)據(jù)類型的區(qū)別,又劃分為靜態(tài)離散數(shù)據(jù)、動(dòng)態(tài)離散數(shù)據(jù)和動(dòng)態(tài)序列數(shù)據(jù)。
在單層關(guān)聯(lián)規(guī)則方面,針對(duì)單層次的靜態(tài)離散數(shù)據(jù),文獻(xiàn)[12]對(duì)靜態(tài)離散數(shù)據(jù)集KDDCUP99提取關(guān)聯(lián)規(guī)則,然后根據(jù)關(guān)聯(lián)規(guī)則的支持度來(lái)確定合適的特征,最后采用混合人工神經(jīng)網(wǎng)絡(luò)和AdaBoost算法對(duì)數(shù)據(jù)集進(jìn)行異常檢測(cè);文獻(xiàn)[13]利用矩陣和位運(yùn)算,設(shè)計(jì)BV-Apriori關(guān)聯(lián)規(guī)則算法,結(jié)合模糊集技術(shù)生成高效的匹配規(guī)則庫(kù),降低了漏檢率和誤檢率。針對(duì)單層次的動(dòng)態(tài)序列數(shù)據(jù),文獻(xiàn)[14]設(shè)計(jì)了基于序列種群的遺傳關(guān)聯(lián)規(guī)則挖掘算法,其關(guān)聯(lián)分析過(guò)程可解決入侵模型的特征擬合,遺傳進(jìn)化過(guò)程可解決異常模式的增量式預(yù)測(cè)。文獻(xiàn)[19]對(duì)企業(yè)資源計(jì)劃管理系統(tǒng)中的日志文件進(jìn)行分析,基于關(guān)聯(lián)規(guī)則算法對(duì)商業(yè)行為序列進(jìn)行異常檢測(cè),以發(fā)現(xiàn)其中的欺詐行為。文獻(xiàn)[20]針對(duì)云計(jì)算平臺(tái)中的日志審計(jì)數(shù)據(jù)的安全分析需求,通過(guò)Apriori算法進(jìn)行輕量級(jí)的改進(jìn),以刪除弱關(guān)聯(lián)項(xiàng)和可調(diào)節(jié)最小置信度的策略,提高了算法效率。文獻(xiàn)[21]綜合多個(gè)衛(wèi)星傳感器數(shù)據(jù),挖掘多個(gè)時(shí)間序列模式中存在的關(guān)聯(lián)規(guī)則,通過(guò)主成分分析得出測(cè)度空間的結(jié)構(gòu)并識(shí)別異常,通過(guò)關(guān)聯(lián)規(guī)則的變化來(lái)確定異常的原因。
在多層關(guān)聯(lián)規(guī)則方面,針對(duì)多層次的動(dòng)態(tài)離散數(shù)據(jù),文獻(xiàn)[15]基于分布式的關(guān)聯(lián)規(guī)則算法分層次地對(duì)異構(gòu)網(wǎng)絡(luò)下海量安全數(shù)據(jù)構(gòu)建關(guān)聯(lián)規(guī)則圖,首先在異構(gòu)網(wǎng)絡(luò)下各個(gè)子網(wǎng)中分別對(duì)告警數(shù)據(jù)構(gòu)建關(guān)聯(lián)規(guī)則,然后通過(guò)子網(wǎng)間的交互信息進(jìn)一步確定全局關(guān)聯(lián)規(guī)則。針對(duì)多層次的動(dòng)態(tài)序列數(shù)據(jù),文獻(xiàn)[22]根據(jù)運(yùn)行進(jìn)程動(dòng)態(tài)行為的關(guān)聯(lián)規(guī)則進(jìn)行異常檢測(cè),將各個(gè)進(jìn)程的執(zhí)行序列存儲(chǔ)在不同的關(guān)聯(lián)規(guī)則中以便修改,因此該方案適用于數(shù)據(jù)集動(dòng)態(tài)變動(dòng)的場(chǎng)景。
雖然這些方案通過(guò)在各自的場(chǎng)景下挖掘不同異常行為之間的關(guān)聯(lián)規(guī)則來(lái)進(jìn)行異常檢測(cè),但缺乏對(duì)同一異常行為在不同場(chǎng)景間關(guān)聯(lián)規(guī)則的挖掘。因此,本文設(shè)計(jì)了同一節(jié)點(diǎn)內(nèi)發(fā)生多個(gè)不同安全事件和相同安全事件發(fā)生在不同節(jié)點(diǎn)間兩種關(guān)聯(lián)規(guī)則場(chǎng)景,通過(guò)同一事件在多節(jié)點(diǎn)的隱含關(guān)系推測(cè)對(duì)安全事件可能發(fā)生的節(jié)點(diǎn)位置,達(dá)到多節(jié)點(diǎn)協(xié)同采集數(shù)據(jù)的目的。
安全數(shù)據(jù)的采集策略決定了節(jié)點(diǎn)如何進(jìn)行數(shù)據(jù)采集,包括節(jié)點(diǎn)是否采集某個(gè)采集項(xiàng)和以何頻率采集兩個(gè)部分。本文將采集策略生成分為單節(jié)點(diǎn)采集策略生成和多節(jié)點(diǎn)協(xié)同采集策略生成。
針對(duì)單節(jié)點(diǎn)采集策略生成,文獻(xiàn)[6]提出了基于數(shù)據(jù)變化平滑度的時(shí)間間隔調(diào)整算法,該算法可得到較為精確的數(shù)據(jù)擬合曲線。文獻(xiàn)[7]利用單節(jié)點(diǎn)內(nèi)數(shù)據(jù)時(shí)間相關(guān)性,設(shè)計(jì)了基于二次指數(shù)平滑法的采樣頻率調(diào)整算法,降低了錯(cuò)誤丟失率和采樣率。文獻(xiàn)[8]采用“數(shù)據(jù)變化平滑時(shí)加法增大、數(shù)據(jù)變化劇烈時(shí)乘法減小”的思想,設(shè)計(jì)了基于旋轉(zhuǎn)門(mén)的采集間隔自適應(yīng)調(diào)整算法,該算法能大幅度降低數(shù)據(jù)采集量??傮w上這些方法簡(jiǎn)單高效,但數(shù)據(jù)變化平滑度與數(shù)據(jù)數(shù)值不具備明確物理含義,無(wú)法確保所采集的數(shù)據(jù)與系統(tǒng)安全狀況緊密相關(guān)。文獻(xiàn)[9]設(shè)計(jì)了一種上下文感知的自適應(yīng)數(shù)據(jù)采集方案,該方案采集手機(jī)主機(jī)數(shù)據(jù)、流量數(shù)據(jù)和LTE數(shù)據(jù)3種異構(gòu)數(shù)據(jù),并提出了基于預(yù)測(cè)數(shù)據(jù)變化幅度來(lái)調(diào)整采集頻率的自適應(yīng)數(shù)據(jù)采集算法。文獻(xiàn)[23]根據(jù)高層監(jiān)測(cè)需求和采集項(xiàng)貢獻(xiàn)度,將采集策略生成轉(zhuǎn)為采集的成本和收益平衡的非線性優(yōu)化問(wèn)題,使生成的采集策略與威脅監(jiān)測(cè)需求緊密相關(guān)。雖然這些方法提升了采集效率,但僅限于單節(jié)點(diǎn)采集策略生成,未考慮復(fù)雜網(wǎng)絡(luò)環(huán)境下多節(jié)點(diǎn)的協(xié)同采集。
針對(duì)多節(jié)點(diǎn)協(xié)同采集策略生成,文獻(xiàn)[16]將壓縮感知和群集控制算法相結(jié)合來(lái)構(gòu)建標(biāo)量場(chǎng)圖,多個(gè)傳感器采用群集控制算法在傳感區(qū)域內(nèi)移動(dòng),并和鄰居傳感器交換采集的數(shù)據(jù),以較低的數(shù)據(jù)采樣率得到目標(biāo)數(shù)據(jù),降低了數(shù)據(jù)采集的功耗。為了提高傳感器網(wǎng)絡(luò)的數(shù)據(jù)采集效率,文獻(xiàn)[17]提出了一種基于能量平衡樹(shù)的移動(dòng)Sink采集策略,該策略逐層構(gòu)建數(shù)據(jù)采集樹(shù),Sink遍歷各個(gè)子樹(shù)根節(jié)點(diǎn)收集數(shù)據(jù),有效平衡了不同節(jié)點(diǎn)的工作量,提高了數(shù)據(jù)采集的實(shí)時(shí)性和數(shù)據(jù)上傳的效率。文獻(xiàn)[18]提出了一種負(fù)載均衡和滿足有效傳輸時(shí)延的多傳感器部署方案,該方案具有較低的部署成本和能量消耗,在滿足數(shù)據(jù)采集傳輸需求的前提下,延長(zhǎng)了網(wǎng)絡(luò)壽命。文獻(xiàn)[10]設(shè)計(jì)了基于數(shù)據(jù)聚合的主動(dòng)監(jiān)測(cè)機(jī)制,解決了能耗控制和數(shù)據(jù)采集主動(dòng)性不足的問(wèn)題。文獻(xiàn)[11]針對(duì)長(zhǎng)細(xì)移動(dòng)自組織網(wǎng)絡(luò)的帶寬占用和時(shí)延問(wèn)題,設(shè)計(jì)了一種由分布式分組機(jī)制和數(shù)據(jù)聚合方案組成的協(xié)作數(shù)據(jù)采集傳輸框架,該框架可以顯著減少數(shù)據(jù)傳輸量和網(wǎng)絡(luò)連接數(shù)。雖然這些方案考慮到網(wǎng)絡(luò)拓?fù)浜湍芰抗牡纫蛩兀ㄟ^(guò)調(diào)整采集節(jié)點(diǎn)和接收節(jié)點(diǎn)部署方案等方式來(lái)優(yōu)化采集策略,但這些方案忽略了采集數(shù)據(jù)間的關(guān)聯(lián),未考慮節(jié)點(diǎn)特征和數(shù)據(jù)特征對(duì)采集策略的影響。因此,本文通過(guò)多目標(biāo)優(yōu)化方法綜合考慮多項(xiàng)采集收益和成本的影響因素,構(gòu)建多節(jié)點(diǎn)協(xié)同采集策略。
在大規(guī)模網(wǎng)絡(luò)環(huán)境下,多個(gè)節(jié)點(diǎn)上的安全事件通常存在兩類關(guān)聯(lián):節(jié)點(diǎn)間的關(guān)聯(lián)和節(jié)點(diǎn)內(nèi)安全事件間的關(guān)聯(lián)。節(jié)點(diǎn)間關(guān)聯(lián)是指具有相同特征(如設(shè)備廠商、設(shè)備類型、部署的網(wǎng)絡(luò)域、運(yùn)行狀態(tài))的多個(gè)節(jié)點(diǎn)可能遭受相同類型的威脅;節(jié)點(diǎn)內(nèi)安全事件間的關(guān)聯(lián)是指同一節(jié)點(diǎn)內(nèi)部的多個(gè)安全事件可能伴隨出現(xiàn)。因此在采集數(shù)據(jù)時(shí),可以利用這兩類隱含關(guān)聯(lián)縮減采集的范圍?;谏鲜鲇^測(cè),本節(jié)將Apriori關(guān)聯(lián)規(guī)則生成算法應(yīng)用于這兩種場(chǎng)景,設(shè)計(jì)了備選采集項(xiàng)確定算法,該算法用于確定可能發(fā)現(xiàn)威脅的備選采集項(xiàng),為后續(xù)的采集策略生成提供輸入。
3.1.1 基本概念
支持度具有對(duì)稱性,如式(3)所示。
定義2 頻繁集:大于最小支持度的項(xiàng)集稱為頻繁集,項(xiàng)的個(gè)數(shù)為的頻繁集被稱為頻繁項(xiàng)集。
定理1 如果一個(gè)項(xiàng)集是非頻繁集,那么其所有超集也是非頻繁集。
Apriori算法基于定理1,通過(guò)候選項(xiàng)集的笛卡爾積運(yùn)算和最小支持度剪枝生成頻繁集,其中,候選1項(xiàng)集為所有僅包含單個(gè)項(xiàng)的項(xiàng)集,候選項(xiàng)集為頻繁?1項(xiàng)集的笛卡爾積運(yùn)算 結(jié)果。
通過(guò)Apriori算法構(gòu)建關(guān)聯(lián)規(guī)則的具體流程如下。
(1)搜索候選1項(xiàng)集及其對(duì)應(yīng)的支持度,剪枝去掉支持度小于最小支持度的1項(xiàng)集,得到頻繁1項(xiàng)集。
(2)對(duì)頻繁項(xiàng)集進(jìn)行笛卡爾積計(jì)算,若滿足定理1則添加到候選+1項(xiàng)集中,剪枝去掉支持度小于最小支持度的項(xiàng)集,得到頻繁+1項(xiàng)集。迭代進(jìn)行步驟2,直到無(wú)法找到頻繁+1項(xiàng)集。
(3)由頻繁項(xiàng)集生成關(guān)聯(lián)規(guī)則,若頻繁項(xiàng)集中某一項(xiàng)大于最小置信度,則將該項(xiàng)加入關(guān)聯(lián)規(guī)則中。
Apriori關(guān)聯(lián)規(guī)則生成算法如下。
算法1 Apriori關(guān)聯(lián)規(guī)則生成算法
輸入 事務(wù)數(shù)據(jù)庫(kù),最小支持度閾值min_support
輸出 頻繁集
3.1.2 節(jié)點(diǎn)內(nèi)安全事件關(guān)聯(lián)規(guī)則生成
一般地,單個(gè)節(jié)點(diǎn)遭受的威脅往往由若干連續(xù)發(fā)生的安全事件組成。例如,攻擊者采用漏洞CVE-2018-2628對(duì)應(yīng)用服務(wù)程序Oracle WebLogic Server執(zhí)行遠(yuǎn)程命令攻擊,發(fā)動(dòng)該攻擊前,首先通過(guò)Nmap進(jìn)行主機(jī)探測(cè),確認(rèn)Windows主機(jī)的存在,然后使用工具WeblogicScan掃描該主機(jī)上是否存在WebLogic服務(wù)和CVE-2018-2628漏洞,若存在則針對(duì)該漏洞構(gòu)建T3協(xié)議進(jìn)行握手,并發(fā)送payload進(jìn)行入侵,從而破壞活動(dòng)。從這個(gè)例子中可以看出,在單個(gè)節(jié)點(diǎn)上發(fā)生的多個(gè)安全事件間在時(shí)序上具有關(guān)聯(lián)性。為了利用這種隱含的關(guān)系,需要對(duì)發(fā)生在單節(jié)點(diǎn)上的多個(gè)安全事件生成關(guān)聯(lián)規(guī)則。
在同一威脅導(dǎo)致的多個(gè)安全事件中,關(guān)聯(lián)性包括時(shí)間屬性上的關(guān)聯(lián)性和事件屬性上的關(guān)聯(lián)性兩類。例如,固定順序的攻擊步驟,導(dǎo)致了事件發(fā)生時(shí)間是固定順序的;攻擊由同一攻擊者發(fā)起,導(dǎo)致安全事件源IP屬性是相同的。因此本文主要依靠時(shí)間屬性和事件屬性來(lái)對(duì)在同一時(shí)間段內(nèi)發(fā)生的多個(gè)事件進(jìn)行關(guān)聯(lián),或者對(duì)含有相同源IP的多個(gè)事件進(jìn)行關(guān)聯(lián)。這種事件間的關(guān)聯(lián)通過(guò)Apriori算法,迭代進(jìn)行笛卡爾積運(yùn)算和最小支持度剪枝,生成事件間的關(guān)聯(lián)規(guī)則。
圖1 安全事件關(guān)聯(lián)規(guī)則生成示意
Figure 1 Schematic diagram of security event correlation rule generation
算法2 基于時(shí)間屬性的節(jié)點(diǎn)內(nèi)關(guān)聯(lián)規(guī)則生成算法
3) end if
通過(guò)事件屬性也可以生成關(guān)聯(lián)規(guī)則。例如,定義具有相同源IP為關(guān)聯(lián)條件,如果事件具有源IP屬性,同時(shí)該源IP屬性值與頻繁項(xiàng)集中某個(gè)安全事件的源IP屬性值相同,則將事件添加到候選項(xiàng)集中,按照相同的方式迭代進(jìn)行笛卡爾積運(yùn)算和最小支持度剪枝,生成關(guān)聯(lián)規(guī)則。
3.1.3 相同安全事件在節(jié)點(diǎn)間的關(guān)聯(lián)規(guī)則生成
節(jié)點(diǎn)間的相似性導(dǎo)致多個(gè)節(jié)點(diǎn)可能同時(shí)遭到同一入侵者的攻擊,產(chǎn)生同樣的安全事件,因此可將Apriori算法應(yīng)用于發(fā)生相同安全事件的節(jié)點(diǎn),生成節(jié)點(diǎn)間關(guān)聯(lián)規(guī)則,從而利用多節(jié)點(diǎn)的關(guān)聯(lián)協(xié)助確定備選采集項(xiàng)。具體的應(yīng)用方式如下。
算法3 節(jié)點(diǎn)間關(guān)聯(lián)規(guī)則生成算法
3)end if
本節(jié)利用3.1節(jié)生成的單節(jié)點(diǎn)中安全事件間關(guān)聯(lián)規(guī)則和發(fā)生相同安全事件的節(jié)點(diǎn)間關(guān)聯(lián)規(guī)則,結(jié)合實(shí)時(shí)的安全狀態(tài),生成備選采集項(xiàng),達(dá)到縮減采集范圍的目的。該算法的核心思路為依次將兩種關(guān)聯(lián)規(guī)則中與實(shí)時(shí)事件有關(guān)聯(lián)的事件加入備選安全事件集,然后遞歸搜索是否有與新加入事件具有關(guān)聯(lián)的事件,通過(guò)最遠(yuǎn)規(guī)則距離的約束來(lái)終止遞歸,最終將備選安全事件集映射為備選采集項(xiàng)。
圖2 節(jié)點(diǎn)關(guān)聯(lián)規(guī)則生成示意
Figure 2 Schematic diagram of node association rule generation
算法4 備選采集項(xiàng)構(gòu)建算法
輸出 備選采集項(xiàng)集合AI
算法3分為3個(gè)部分,首先將實(shí)時(shí)發(fā)生的安全事件加入備選安全事件集;然后在兩個(gè)關(guān)聯(lián)規(guī)則中迭代搜索備選安全事件集中相關(guān)聯(lián)的事件,將當(dāng)前規(guī)則距離和最遠(yuǎn)規(guī)則距離作為加入備選安全事件集的判斷條件,以決定是否將搜索到的事件加入備選安全事件集并記錄規(guī)則距離;最后,通過(guò)安全事件和采集項(xiàng)之間的映射關(guān)系,將備選安全事件集映射為備選采集項(xiàng)。算法的具體流程如下。
(1)在備選安全事件集合中增加當(dāng)前已發(fā)生事件,新增備選安全事件項(xiàng)的記錄距離為0,該步驟對(duì)應(yīng)算法第1~3行。
(2)設(shè)置當(dāng)前距離curDistance為0,該步驟對(duì)應(yīng)算法第5行。
(5)對(duì)每個(gè)實(shí)時(shí)發(fā)生的事件均執(zhí)行步驟(2)、步驟(3)和步驟(4),得到最終的備選安全事件集合,該迭代過(guò)程對(duì)應(yīng)算法4~22行。
(6)將備選安全事件集映射為備選采集,該步驟對(duì)應(yīng)算法23行。
在采集策略的生成過(guò)程中,采集行為可能帶來(lái)正向收益(如采集到入侵行為)和負(fù)面成本(如浪費(fèi)采集資源卻未監(jiān)測(cè)到任何入侵行為)。為了生成目標(biāo)函數(shù),需要評(píng)估采集收益和采集成本。
影響采集收益的因素包括節(jié)點(diǎn)間相似性收益、采集數(shù)據(jù)有效性收益和威脅嚴(yán)重程度收益。在節(jié)點(diǎn)間相似性方面,具有相似特征的節(jié)點(diǎn)在同時(shí)段可能遭受相同類型的攻擊,故通過(guò)評(píng)估節(jié)點(diǎn)的相似性,可以識(shí)別威脅相關(guān)節(jié)點(diǎn),相似性越高則協(xié)同采集收益越大;在采集數(shù)據(jù)有效性方面,對(duì)威脅分析而言,所采集數(shù)據(jù)的有效性越高,準(zhǔn)確分析出威脅的可能性越高,相應(yīng)的采集收益也越大;在威脅嚴(yán)重程度方面,對(duì)于整個(gè)系統(tǒng)的采集策略,若威脅嚴(yán)重程度較高,威脅影響較多的節(jié)點(diǎn),則該威脅對(duì)應(yīng)采集項(xiàng)的采集收益越大。
4.1.1 節(jié)點(diǎn)間相似性收益
根據(jù)節(jié)點(diǎn)特征的變動(dòng)頻繁程度,可以將它們分為3類,分別是靜態(tài)特征、半動(dòng)態(tài)特征和動(dòng)態(tài)特征。靜態(tài)特征是指在節(jié)點(diǎn)的整個(gè)生命期內(nèi)不會(huì)變動(dòng)的特征,如節(jié)點(diǎn)型號(hào)、主板型號(hào)、內(nèi)存大小、CPU類型和GPU類型等。由于某些入侵者可能根據(jù)節(jié)點(diǎn)的硬件型號(hào)發(fā)動(dòng)特定攻擊,產(chǎn)生相同的入侵行為,故靜態(tài)特征相似的節(jié)點(diǎn)可能發(fā)生類似的安全事件。半動(dòng)態(tài)特征是指在節(jié)點(diǎn)的整個(gè)生命期內(nèi)不會(huì)頻繁變動(dòng)的特征,如節(jié)點(diǎn)的操作系統(tǒng)版本和節(jié)點(diǎn)所在的網(wǎng)段等。攻擊者可以針對(duì)半動(dòng)態(tài)特征實(shí)施入侵行為,如針對(duì)系統(tǒng)版本漏洞進(jìn)行攻擊,根據(jù)網(wǎng)絡(luò)拓?fù)洵h(huán)境將節(jié)點(diǎn)當(dāng)作跳板攻擊網(wǎng)絡(luò)中其他節(jié)點(diǎn)。動(dòng)態(tài)特征指在節(jié)點(diǎn)的整個(gè)生命期內(nèi)頻繁變動(dòng)的特征,如開(kāi)啟的端口號(hào)、用戶進(jìn)程的MD5值、命令執(zhí)行記錄等。動(dòng)態(tài)特征值的相同表明節(jié)點(diǎn)具有發(fā)生相同安全事件的風(fēng)險(xiǎn)。
系統(tǒng)中全部的節(jié)點(diǎn)間相似性的收益如式(8)所示。
4.1.2 采集數(shù)據(jù)有效性收益
采集數(shù)據(jù)的有效性收益是指采集到的安全事件在有效監(jiān)測(cè)威脅方面的收益,本文采用互信息來(lái)衡量采集項(xiàng)的數(shù)據(jù)有效性。每類采集項(xiàng)至少生成一種安全事件,采集項(xiàng)和安全事件之間為一對(duì)多的關(guān)系,故通過(guò)各個(gè)安全事件數(shù)據(jù)有效性收益的疊加,可以得到單個(gè)節(jié)點(diǎn)上單個(gè)采集項(xiàng)的數(shù)據(jù)有效性收益系數(shù),如式(9)所示。
按照采集參數(shù)采集給定節(jié)點(diǎn)的數(shù)據(jù),得到該節(jié)點(diǎn)的數(shù)據(jù)有效性收益;綜合各個(gè)節(jié)點(diǎn)的數(shù)據(jù)有效性收益,獲得整個(gè)系統(tǒng)的數(shù)據(jù)有效性收益,如式(10)所示。
4.1.3 威脅的嚴(yán)重程度
威脅的嚴(yán)重程度與發(fā)生安全事件的節(jié)點(diǎn)數(shù)量和安全事件發(fā)生的頻率相關(guān),系統(tǒng)的威脅嚴(yán)重程度收益可用式(11)來(lái)計(jì)算:
影響采集成本的因素包括資源占用、數(shù)據(jù)隱私泄露、策略變動(dòng)和虛假預(yù)測(cè)風(fēng)險(xiǎn)。數(shù)據(jù)隱私泄露成本由采集項(xiàng)的敏感度和采集數(shù)據(jù)量決定,策略變動(dòng)成本是指之前采集到有效數(shù)據(jù)的采集項(xiàng)因策略變動(dòng)而停止采集導(dǎo)致的損失,虛假預(yù)測(cè)風(fēng)險(xiǎn)成本是由部署的采集項(xiàng)長(zhǎng)期未采集到安全事件導(dǎo)致的成本。
4.2.1 資源占用成本
資源占用成本指在數(shù)據(jù)采集過(guò)程中引發(fā)的計(jì)算資源、內(nèi)存資源、網(wǎng)絡(luò)帶寬和加密運(yùn)算等成本,這些成本與采集數(shù)據(jù)量和采集頻率均成正比,同時(shí)不同類型的采集項(xiàng)具有不同的采集數(shù)據(jù)量?;谏鲜鲑Y源占用,在單個(gè)節(jié)點(diǎn)上對(duì)采集項(xiàng)進(jìn)行采集所占用的資源成本如式(12)所示。
數(shù)據(jù)采集在整個(gè)系統(tǒng)中所占用資源的總成本如式(14)所示。
4.2.2 數(shù)據(jù)隱私泄露成本
4.2.3 策略變動(dòng)成本
策略變動(dòng)成本指因調(diào)整策略導(dǎo)致的采集收益減少的負(fù)面影響。策略變動(dòng)成本與采集項(xiàng)的效用相關(guān),若采集項(xiàng)持續(xù)未采集到安全事件,停止該采集項(xiàng)的成本較?。蝗舨杉?xiàng)頻繁采集到安全事件,則停止該采集項(xiàng)的成本急劇上升,具體如式(16)所示。
4.2.4 虛假預(yù)測(cè)風(fēng)險(xiǎn)成本
虛假預(yù)測(cè)風(fēng)險(xiǎn)成本指在某個(gè)節(jié)點(diǎn)上部署某個(gè)采集項(xiàng)卻長(zhǎng)期未采集到安全事件而產(chǎn)生的成本,該項(xiàng)成本與部署的頻次和未采集到任何安全事件的頻次相關(guān),具體如式(18)所示。
將采集策略中數(shù)據(jù)采集的收益量化為節(jié)點(diǎn)相似性、數(shù)據(jù)有效性和威脅嚴(yán)重程度收益,如式(18)所示;將數(shù)據(jù)采集的成本量化為資源占用成本、數(shù)據(jù)隱私泄露成本、策略變動(dòng)成本和虛假預(yù)測(cè)虛假成本等方面,如式(19)所示。最終,得到的目標(biāo)函數(shù)如式(20)所示。
根據(jù)采集項(xiàng)采集方式的不同,采集策略中采集項(xiàng)的采集參數(shù)是不一樣的,采集方式分為3種:主動(dòng)探測(cè)采集、定時(shí)采集和抽樣采集。主動(dòng)探測(cè)采集僅能表示是否對(duì)該采集項(xiàng)進(jìn)行采集,采集參數(shù)取值為0或1;定時(shí)采集指按指定的頻率定時(shí)采集數(shù)據(jù),采集參數(shù)取兩次采集行為的間隔時(shí)間;抽樣采集是指按照指定的概率來(lái)抽樣地采集數(shù)據(jù),將1%~100%的抽樣概率映射為1~100的采集參數(shù)。其中,定時(shí)采集和抽樣采集的采集參數(shù)均需要確定取值的基準(zhǔn)范圍,避免在后續(xù)計(jì)算過(guò)程中出現(xiàn)過(guò)度頻繁采集、頻率或概率取值為負(fù)、概率大于1等異常情況。
通過(guò)求解多目標(biāo)優(yōu)化函數(shù),獲得采集收益最大、采集成本最小時(shí)各節(jié)點(diǎn)的采集參數(shù),從而得到多節(jié)點(diǎn)的協(xié)同采集策略。如果協(xié)同采集策略決策變量多,導(dǎo)致優(yōu)化算法收斂較慢。為了解決此問(wèn)題,本文采用遺傳算法在多點(diǎn)并行搜索解,提升收斂速度,并避免局部最優(yōu)解。本文定義種群為采集策略解集,一個(gè)種群個(gè)體為一種采集策略解,采集策略解包括多個(gè)基因片段,每個(gè)基因表示單個(gè)節(jié)點(diǎn)對(duì)某個(gè)采集項(xiàng)的采集參數(shù)。
遺傳算法包括初始化、適應(yīng)度計(jì)算、個(gè)體選擇和交叉變異等。在初始化階段,隨機(jī)生成初始種群的基因,即隨機(jī)地生成初始采集策略。在適應(yīng)度計(jì)算階段,對(duì)每個(gè)采集策略按照策略和基因之間的映射方案進(jìn)行解碼,將解碼后的值作為適應(yīng)度計(jì)算的參數(shù),計(jì)算該采集策略的適應(yīng)度;判斷當(dāng)前解的適應(yīng)度是否滿足要求,若滿足則停止,否則執(zhí)行個(gè)體選擇。在個(gè)體選擇階段,根據(jù)選擇算子,將適應(yīng)度較低的采集策略作為“劣汰”部分進(jìn)行剪枝,篩選適應(yīng)度較高的一些采集策略作為“優(yōu)勝”部分,遺傳它們的基因。在交叉變異階段,按照交叉算子對(duì)優(yōu)勝策略進(jìn)行兩兩匹配,根據(jù)交叉概率交換部分基因,組合為新的采集策略;然后,新的采集策略根據(jù)變異概率在基準(zhǔn)范圍內(nèi)對(duì)基因進(jìn)行隨機(jī)變異。
算法過(guò)程中可能影響策略生成結(jié)果的因素包括:采集策略和基因間映射、采集策略的適應(yīng)性函數(shù)、優(yōu)勝策略的選擇算子、種群之間的交叉算子。下面對(duì)上述因素進(jìn)行具體介紹。
(1)采集策略和基因間映射。將采集策略進(jìn)行編碼,映射為種群個(gè)體的基因。采集項(xiàng)的個(gè)數(shù)和節(jié)點(diǎn)的個(gè)數(shù)共同決定了基因的個(gè)數(shù),單個(gè)節(jié)點(diǎn)的一個(gè)采集項(xiàng)取值表示種群中個(gè)體一個(gè)基因的值。
(2)采集策略的適應(yīng)性函數(shù)。對(duì)于采集項(xiàng)的收益和成本包括4.1節(jié)和4.2節(jié)提出的7種因素,通過(guò)計(jì)算每個(gè)節(jié)點(diǎn)收益和成本的差值,得到整個(gè)系統(tǒng)的成本和收益,最終構(gòu)建遺傳算法的適應(yīng)性函數(shù),如式(21)所示。
(3)優(yōu)勝策略的選擇算子。常見(jiàn)的選擇算子包括隨機(jī)競(jìng)爭(zhēng)選擇算子、錦標(biāo)賽選擇算子和輪盤(pán)選擇算子等。本文采用輪盤(pán)選擇算子,根據(jù)個(gè)體的適應(yīng)度和群體適應(yīng)度的比值,決定該個(gè)體的選擇概率,達(dá)到優(yōu)先選擇高適應(yīng)度個(gè)體的效果。在概率計(jì)算方面,由于不同個(gè)體的適應(yīng)度差距不大,選擇概率差異性較小,所以需要對(duì)每個(gè)個(gè)體的適應(yīng)度值減去最小的適應(yīng)度,然后對(duì)個(gè)體的適應(yīng)度進(jìn)行常數(shù)系數(shù)的成倍放大,增大個(gè)體之間的差距,增加高適應(yīng)度個(gè)體的優(yōu)勢(shì),加快迭代求解的速度。
(4)種群間的交叉算子。交叉算子采用隨機(jī)交叉方式,即隨機(jī)選擇兩個(gè)個(gè)體進(jìn)行基因交叉。單個(gè)節(jié)點(diǎn)的一個(gè)采集項(xiàng)取值用種群個(gè)體一個(gè)基因表示,只有在相同采集項(xiàng)對(duì)應(yīng)的基因間才可以按交叉概率進(jìn)行交叉操作。
本文在OpenStack云計(jì)算環(huán)境中進(jìn)行模擬實(shí)驗(yàn),分別從策略的適應(yīng)度值、時(shí)間開(kāi)銷和采集效果3方面衡量算法。在實(shí)驗(yàn)中模擬了20個(gè)節(jié)點(diǎn),將節(jié)點(diǎn)分配到3個(gè)網(wǎng)絡(luò)域,對(duì)每個(gè)節(jié)點(diǎn)設(shè)置了靜態(tài)特征、半動(dòng)態(tài)特征和動(dòng)態(tài)特征3類,共計(jì)項(xiàng)特征。靜態(tài)特征包括節(jié)點(diǎn)型號(hào)、主板型號(hào)、內(nèi)存大小、CPU類型和GPU類型;半動(dòng)態(tài)特征包括系統(tǒng)版本和網(wǎng)段;動(dòng)態(tài)特征包括開(kāi)啟的端口號(hào)、進(jìn)程MD5值和執(zhí)行的命令記錄。根據(jù)這些設(shè)定,可以得到完整的20×的節(jié)點(diǎn)特征矩陣,根據(jù)該矩陣可以計(jì)算得到節(jié)點(diǎn)間的相似度。
根據(jù)4.3節(jié)的討論,對(duì)每個(gè)節(jié)點(diǎn)設(shè)置了主動(dòng)探測(cè)、定時(shí)和抽樣3類采集方式;通過(guò)調(diào)研常用入侵檢測(cè)系統(tǒng)(Snort、OSSEC等)、安全數(shù)據(jù)集(KDD CUP99、ADFA IDS、MCFP等)和文獻(xiàn)[4-5]中采集數(shù)據(jù)的內(nèi)容和類型,本文選用具有代表性的12個(gè)采集項(xiàng)并設(shè)定其采集參數(shù)取值范圍,如表1所示。表2給出了表1的12個(gè)采集項(xiàng)可分析出的安全事件。
6.2.1 適應(yīng)度演化過(guò)程實(shí)驗(yàn)
針對(duì)3種不同規(guī)模的網(wǎng)絡(luò)環(huán)境和不同的攻擊狀態(tài),進(jìn)行采集策略生成實(shí)驗(yàn)。
(1)從20個(gè)節(jié)點(diǎn)中選擇3個(gè)進(jìn)行實(shí)驗(yàn),在節(jié)點(diǎn)1和節(jié)點(diǎn)2上監(jiān)測(cè)到端口掃描事件,在節(jié)點(diǎn)1上監(jiān)測(cè)到SSH弱口令試探事件,在此攻擊狀態(tài)下通過(guò)遺傳算法生成3個(gè)節(jié)點(diǎn)的采集策略。不同規(guī)模節(jié)點(diǎn)下采集收益和成本適應(yīng)度值的趨勢(shì)如圖3所示。
表1 采集項(xiàng)及采集參數(shù)
表2 安全事件及事件特有屬性
(2)從20個(gè)節(jié)點(diǎn)中選擇10個(gè)進(jìn)行實(shí)驗(yàn),在節(jié)點(diǎn)1和節(jié)點(diǎn)2上監(jiān)測(cè)到端口掃描事件,在節(jié)點(diǎn)1上監(jiān)測(cè)到SSH弱口令試探事件,在節(jié)點(diǎn)2上開(kāi)啟80端口,監(jiān)測(cè)到網(wǎng)站路徑掃描事件。在上述攻擊狀態(tài)下,通過(guò)遺傳算法生成10個(gè)節(jié)點(diǎn)的采集策略,各采集收益和成本在迭代過(guò)程中的適應(yīng)度值如圖3所示。
(3)針對(duì)20個(gè)節(jié)點(diǎn)進(jìn)行實(shí)驗(yàn),在節(jié)點(diǎn)4開(kāi)啟80端口,部署Apache服務(wù)器,在節(jié)點(diǎn)1、節(jié)點(diǎn)2、節(jié)點(diǎn)3和節(jié)點(diǎn)4上監(jiān)測(cè)到端口掃描事件,在節(jié)點(diǎn)1上監(jiān)測(cè)到DDoS攻擊事件,在節(jié)點(diǎn)4監(jiān)測(cè)到網(wǎng)站路徑掃描事件。在上述攻擊狀態(tài)下,通過(guò)遺傳算法生成20個(gè)節(jié)點(diǎn)的采集策略,各采集收益和成本在迭代過(guò)程中的適應(yīng)度值如圖3所示。
從圖3可知,不同網(wǎng)絡(luò)規(guī)模和攻擊狀態(tài)在采集策略生成過(guò)程中,本文所提出方案的各項(xiàng)采集收益、采集成本和采集策略的適應(yīng)度值波動(dòng)的總體趨勢(shì)較為相似,即各項(xiàng)采集收益逐步增加、采集成本逐漸減小、采集策略的適應(yīng)度值整體增加,其中采集策略的適應(yīng)度值為各項(xiàng)采集收益和采集成本的差值。除此之外,采集策略中的節(jié)點(diǎn)數(shù)目較少時(shí),各項(xiàng)采集收益和采集成本更易收斂。
觀察圖4可知,在20個(gè)節(jié)點(diǎn)的環(huán)境下,各項(xiàng)采集收益/成本增加變化的幅度。在遺傳算法的迭代過(guò)程中,采集收益的增加主要源于節(jié)點(diǎn)相似收益和數(shù)據(jù)有效性收益,威脅嚴(yán)重程度收益增加不多;整體適應(yīng)度值增加主要是因?yàn)椴杉杀镜臏p少。該過(guò)程表明初始的隨機(jī)采集策略對(duì)各個(gè)采集項(xiàng)均有采集,且可能以較高的頻率或概率進(jìn)行采集,隨著迭代的進(jìn)行,威脅無(wú)關(guān)項(xiàng)的采集頻率/概率逐步減小。
圖3 不同規(guī)模節(jié)點(diǎn)下采集收益和成本以及適應(yīng)度值的變化趨勢(shì)
Figure 3 Collection benefits, cost and fitness under different scale nodes
圖4 20個(gè)節(jié)點(diǎn)的采集策略適應(yīng)度值隨迭代次數(shù)的變化趨勢(shì)
Figure 4 Fitness value of the collection policy of 20 nodes with number of iterations
6.2.2 算法時(shí)間開(kāi)銷實(shí)驗(yàn)
針對(duì)3個(gè)節(jié)點(diǎn)、10個(gè)節(jié)點(diǎn)和20個(gè)節(jié)點(diǎn),分別在設(shè)定種群數(shù)為10、100和1 000情況下的采集策略生成實(shí)驗(yàn),設(shè)置遺傳算法的迭代次數(shù)為10 000次,每類實(shí)驗(yàn)進(jìn)行5次后取平均時(shí)間,算法時(shí)間開(kāi)銷如表3所示。
表3的結(jié)果表明,隨著節(jié)點(diǎn)數(shù)和種群數(shù)的增加,消耗的時(shí)間也會(huì)增加。造成該現(xiàn)象的原因是:節(jié)點(diǎn)數(shù)量影響了解空間的大小,節(jié)點(diǎn)數(shù)量越多,需要求解的采集策略參數(shù)越多,使得解空間越大和時(shí)間開(kāi)銷越大;種群個(gè)數(shù)影響了算法的收斂速度,種群越大,越容易出現(xiàn)高適應(yīng)度的個(gè)體,使得收斂速度越慢和時(shí)間開(kāi)銷越大。
表3 不同參數(shù)的時(shí)間開(kāi)銷
6.2.3 采集效果對(duì)比實(shí)驗(yàn)
為衡量采集效果,本文主要考慮了采集的數(shù)據(jù)量和有效性兩方面。以全采集策略作為威脅驅(qū)動(dòng)協(xié)同采集策略的對(duì)比實(shí)驗(yàn),全采集策略需要采集各個(gè)節(jié)點(diǎn)的所有采集項(xiàng)。
采集數(shù)據(jù)量指在固定時(shí)長(zhǎng)內(nèi)采集到的數(shù)據(jù)量。4類采集方案在采集數(shù)據(jù)量方面的對(duì)比如圖5所示。由圖5可知,在開(kāi)始采集數(shù)據(jù)后的第6個(gè)小時(shí),在部署網(wǎng)站的節(jié)點(diǎn)發(fā)生DDoS攻擊安全事件。圖5中的菱形實(shí)線代表全采集,各采集頻率取基準(zhǔn)范圍內(nèi)的最大頻率值。短橫虛線代表本文所提基于規(guī)則關(guān)聯(lián)的協(xié)同采集,該方案在開(kāi)始時(shí)隨機(jī)采集,之后隨著威脅狀態(tài)的變化對(duì)發(fā)生異常的采集項(xiàng)進(jìn)行針對(duì)性的采集策略調(diào)整,使采集的數(shù)據(jù)量呈緩慢減少趨勢(shì)。圓形實(shí)線表示概率采集,當(dāng)每次需要采集數(shù)據(jù)時(shí),通過(guò)概率判斷是否進(jìn)行該次采集。三角實(shí)線表示根據(jù)數(shù)據(jù)變化幅度自適應(yīng)采集,該方案根據(jù)數(shù)據(jù)變化幅度調(diào)整采集間隔,當(dāng)數(shù)據(jù)變化幅度大時(shí),降低采集間隔,反之增加采集間隔。綜合圖5的整體趨勢(shì),可知全采集方案采集的數(shù)據(jù)量最多,概率采集的數(shù)據(jù)量與全采集的數(shù)據(jù)量變化趨勢(shì)保持一致,根據(jù)數(shù)據(jù)變化幅度自適應(yīng)采集的數(shù)據(jù)量也較多,基于規(guī)則關(guān)聯(lián)的協(xié)同采集在4種采集方案中采集數(shù)據(jù)量最少。
數(shù)據(jù)有效性指威脅相關(guān)采集數(shù)據(jù)量與總采集數(shù)據(jù)量的比例。根據(jù)采集數(shù)據(jù)與當(dāng)前的威脅狀況是否相關(guān),可以判斷出采集數(shù)據(jù)是否有效。數(shù)據(jù)有效性越高,越容易分析出系統(tǒng)當(dāng)前正在遭受的威脅。4類采集方案在數(shù)據(jù)有效性方面的對(duì)比實(shí)驗(yàn)如圖6所示。通過(guò)觀察可以發(fā)現(xiàn),概率采集和全采集的數(shù)據(jù)有效性基本相同;根據(jù)數(shù)據(jù)幅度變化自適應(yīng)采集的數(shù)據(jù)有效性,與概率采集和全采集相比有所提高;基于規(guī)則關(guān)聯(lián)的協(xié)同采集的數(shù)據(jù)有效性高于其他采集方案。
圖5 不同采集方案的采集數(shù)據(jù)量
Figure 5 The amount of collected data of different collection policies
圖6 不同采集策略的數(shù)據(jù)有效性
Figure 6 Data validity of different collection policies
在復(fù)雜環(huán)境場(chǎng)景下,對(duì)大量節(jié)點(diǎn)上的海量安全數(shù)據(jù)進(jìn)行采集可能存在過(guò)度采集和欠采集的問(wèn)題。為了保證數(shù)據(jù)采集行為的準(zhǔn)確高效,需要生成準(zhǔn)確高效的協(xié)同采集策略。本文針對(duì)該需求,根據(jù)威脅、節(jié)點(diǎn)資源情況和節(jié)點(diǎn)相似度等信息,設(shè)計(jì)了協(xié)同策略生成方案。該方案通過(guò)節(jié)點(diǎn)間關(guān)聯(lián)規(guī)則和安全事件間關(guān)聯(lián)規(guī)則,構(gòu)建備選采集項(xiàng)。然后基于多目標(biāo)優(yōu)化,生成數(shù)據(jù)協(xié)同采集策略,為安全威脅的精準(zhǔn)分析提供有效輸入。
[1] LIN H Q, YAN Z, CHEN Y, et al. A survey on network security-related data collection technologies[C]//Proceedings of IEEE Access. 2018: 18345-18365.
[2] XIE H M, YAN Z, YAO Z, et al. Data collection for security measurement in wireless sensor networks: a survey[J]. IEEE Internet of Things Journal, 2019, 6(2): 2205-2224.
[3] ZHOU D H, YAN Z, FU Y L, et al. A survey on network data collection[J]. Journal of Network and Computer Applications, 2018, 116: 9-23.
[4] JING X Y, YAN Z, PEDRYCZ W. Security data collection and data analytics in the Internet: a survey[J]. IEEE Communications Surveys & Tutorials, 2019, 21(1): 586-618.
[5] LIU G, YAN Z, PEDRYCZ W. Data collection for attack detection and security measurement in mobile Ad Hoc networks: a survey[J]. Journal of Network and Computer Applications, 2018, 105: 105-122.
[6] 龐希愚, 姜波, 仝春玲, 等. 一種自適應(yīng)數(shù)據(jù)變化規(guī)律的數(shù)據(jù)采集算法[J]. 計(jì)算機(jī)技術(shù)與發(fā)展, 2013, 23(2): 157-161.
PANG X Y, JIANG B, TONG C L, et al. A kind of data acquisition algorithm of adaptive data change rule[J]. Computer Technology and Development, 2013, 23(2): 157-161.
[7] 楊明霞, 王萬(wàn)良, 邵鵬飛. 基于時(shí)間序列的自適應(yīng)采樣機(jī)制策略研究[J]. 計(jì)算機(jī)科學(xué), 2015, 42(7): 162-164, 181.
YANG M X, WANG W L, SHAO P F. Adaptive sampling algorithm based on TCP congestion strategy[J]. Computer Science, 2015, 42(7): 162-164, 181.
[8] 曾文序, 庫(kù)少平, 鄭浩. 基于旋轉(zhuǎn)門(mén)算法的自適應(yīng)變頻數(shù)據(jù)采集策略[J]. 計(jì)算機(jī)應(yīng)用研究, 2018, 35(3): 769-772.
ZENG W X, KU S P, ZHENG H. Strategy of self-adaptive frequency conversion data acquisition based on swing door trending algorithm[J]. Application Research of Computers, 2018, 35(3): 769-772.
[9] LIN H Q, YAN Z, FU Y L. Adaptive security-related data collection with context awareness[J]. Journal of Network and Computer Applications, 2019, 126: 88-103.
[10] 陳雷. 基于數(shù)據(jù)聚合的無(wú)線傳感器網(wǎng)絡(luò)主動(dòng)管理機(jī)制研究[D]. 長(zhǎng)沙: 湖南大學(xué), 2011.
CHEN L. Research of initiative management scheme for sensor networks based on data aggregation[D]. Changsha: Hunan University, 2011.
[11] CHEN L W, PENG Y H, TSENG Y C, et al. Cooperative sensing data collection and distribution with packet collision avoidance in mobile long-thin networks[J]. Sensors (Basel, Switzerland), 2018, 18(10): 3588.
[12] SAFARA F, SOURI A, SERRIZADEH M. Improved intrusion detection method for communication networks using association rule mining and artificial neural networks[J]. IET Communications, 2020, 14(7): 1192-1197.
[13] 章堅(jiān)武, 黃佳森, 周迪. 基于模糊理論與關(guān)聯(lián)規(guī)則的入侵檢測(cè)模型[J]. 電信科學(xué), 2019, 35(5): 59-69.
ZHANG J W, HUANG J S, ZHOU D. Intrusion detection model based on fuzzy theory and association rules[J]. Telecommunications Science, 2019, 35(5): 59-69.
[14] 王慧, 王宇, 邵翀. 網(wǎng)絡(luò)入侵檢測(cè)中群關(guān)聯(lián)模型的設(shè)計(jì)與分析[J].中國(guó)人民公安大學(xué)學(xué)報(bào)(自然科學(xué)版), 2018, 24(4): 74-77.
WANG H, WANG Y, SHAO C. Design and analysis of group association model in network intrusion detection[J]. Journal of People's Public Security University of China (Science and Technology), 2018, 24(4): 74-77.
[15] HU W, LI J, CHENG J, et al. Security monitoring of heterogeneous networks for big data based on distributed association algorithm[J]. Computer Communications, 2020, 152: 206-214.
[16] NGUYEN M T. Distributed compressive and collaborative sensing data collection in mobile sensor networks[J]. Internet of Things, 2020, 9: 100156.
[17] SHA C, SONG D D, YANG R, et al. A type of energy-balanced tree based data collection strategy for sensor network with mobile sink[J]. IEEE Access, 2019, 7: 85226-85240.
[18] DOUDOU M, DJENOURI D, BARCELO-ORDINAS J M, et al. Cost effective node deployment strategy for energy-balanced and delay-efficient data collection in wireless sensor networks[C]// Proceedings of 2014 IEEE Wireless Communications and Networking Conference (WCNC). 2014: 2868-2873.
[19] SARNO R, SINAGA F, SUNGKONO K R. Anomaly detection in business processes using process mining and fuzzy association rule learning[J]. Journal of Big Data, 2020, 7: 5.
[20] 郭濤敏. 基于輕量化關(guān)聯(lián)規(guī)則挖掘的安全日志審計(jì)技術(shù)研究[J]. 現(xiàn)代電子技術(shù), 2019, 42(15): 83-85, 90.
GUO T M. Research on security log audit technology based on lightweight association rules mining[J]. Modern Electronics Technique, 2019, 42(15): 83-85, 90.
[21] PAN D W, LIU D T, ZHOU J, et al. Anomaly detection for satellite power subsystem with associated rules based on Kernel Principal Component Analysis[J]. Microelectronics Reliability, 2015, 55(9/10): 2082-2086.
[22] B?HMER K, RINDERLE-MA S. Mining association rules for anomaly detection in dynamic process runtime behavior and explaining the root cause to users[J]. Information Systems, 2020, 90: 101438.
[23] 李鳳華, 李子孚, 李凌, 等. 復(fù)雜網(wǎng)絡(luò)環(huán)境下面向威脅監(jiān)測(cè)的采集策略精化方法[J]. 通信學(xué)報(bào), 2019, 40(4): 49-61.
LI F H, LI Z F, LI L, et al. Collection policy refining method for threat monitoring in complex network environment[J]. Journal on Communications, 2019, 40(4): 49-61.
Using rule association to generate data collection policies
CHEN Pei1,2, LI Fenghua1,2, LI Zifu1,2, GUO Yunchuan1,2, CHENG Lin3
1. Institute of Information Engineering, Chinese Academy of Sciences, Beijing 100093, China 2. School of Cyber Security, University of Chinese Academy of Sciences, Beijing 100049, China 3. China Information Technology Security Evaluation Center, Beijing 100085, China
Collecting security-related data of devices effectively is the foundation of analyzing network threats accurately. Existing data collection methods (full data collection, sampling based data collection and adaptive data collection) do not consider the validity of the collected data and their correlation, which will consume too much collection resources, resulting in low collection yield. To address this problem, considering the factors (relationship between node attributes, network topology relationship, threat status, node resource and node similarity) that impact collection costs and benefits, a rule association method to generate collection policies was designed. In the method, two types of association rules (inter-node association rules and inter-event association rules) were adopted to generate candidate data collection items and reduced the scope of data collection. Then, a multi-objective program was designed to maximize collection benefits and minimize collection costs. Further, a genetic algorithm was designed to solve this program. Proposed method was compared with existing data collection methods. The experimental results show that the number of the collected data records of proposed method is 1 000~3 000 less than that of others per 12 hours, and the validity of the collected data of proposed method is about 4%~10% higher than others, which proves the effectiveness of the proposed method.
policy optimization generation, multi-objective optimization, collaborative data collection, multiple class-association rules mining
TP393
A
10.11959/j.issn.2096?109x.2021085
2020?07?20;
2021?02?01
李子孚,lizifu@iie.ac.cn
國(guó)家重點(diǎn)研發(fā)計(jì)劃(2016QY06X1203);國(guó)家自然科學(xué)基金(U1836203);山東省重點(diǎn)研發(fā)計(jì)劃(重大科技創(chuàng)新工程)項(xiàng)目(2019JZZY020127)
The National Key R&D Program of China (2016QY06X1203),The National Natural Science Foundation of China (U1836203), Shandong Provincial Key Research and Development Program (2019JZZY020127)
陳佩, 李鳳華, 李子孚, 等. 基于規(guī)則關(guān)聯(lián)的安全數(shù)據(jù)采集策略生成[J]. 網(wǎng)絡(luò)與信息安全學(xué)報(bào), 2021, 7(5): 132-148.
CHEN P, LI F H, LI Z F, et al. Using rule association to generate data collection policies[J]. Chinese Journal of Network and Information Security, 2021, 7(5): 132-148.
陳佩(1993?),男,河南南陽(yáng)人,中國(guó)科學(xué)院信息工程研究所碩士生,主要研究方向?yàn)榫W(wǎng)絡(luò)與系統(tǒng)安全。
李鳳華(1966?),男,湖北浠水人,博士,中國(guó)科學(xué)院信息工程研究所研究員、博士生導(dǎo)師,主要研究方向?yàn)榫W(wǎng)絡(luò)與系統(tǒng)安全、信息保護(hù)、隱私計(jì)算。
李子孚(1992?),女,內(nèi)蒙古赤峰人,博士,中國(guó)科學(xué)院信息工程研究所工程師,主要研究方向?yàn)榫W(wǎng)絡(luò)與系統(tǒng)安全、訪問(wèn)控制。
郭云川(1977?),男,四川營(yíng)山人,博士,中國(guó)科學(xué)院信息工程研究所正高級(jí)工程師、博士生導(dǎo)師,主要研究方向?yàn)樵L問(wèn)控制、網(wǎng)絡(luò)安全。
成林(1983?),男,博士,中國(guó)信息安全測(cè)評(píng)中心助理研究員,主要研究方向?yàn)槊艽a學(xué)、云計(jì)算、大數(shù)據(jù)。