王 雙
(中國民航大學(xué)信息安全測評中心,天津 300300)
一種多源安全日志融合方法的研究
王 雙
(中國民航大學(xué)信息安全測評中心,天津 300300)
為了有效發(fā)現(xiàn)網(wǎng)絡(luò)中隱藏的攻擊事件,以多源日志為研究對象,提出改進(jìn)加權(quán)信任度值D-S證據(jù)理論算法來融合日志。經(jīng)過數(shù)據(jù)預(yù)處理和動態(tài)自適應(yīng)時間間隔閾值算法聚合生成超級告警日志,將安全設(shè)備對不同告警事件的檢測率作為證據(jù),動態(tài)修正權(quán)值并融合。實驗結(jié)果與傳統(tǒng)D-S證據(jù)理論算法的比較結(jié)果表明,改進(jìn)加權(quán)信任度值D-S證據(jù)理論算法能夠更準(zhǔn)確地檢測到網(wǎng)絡(luò)中的攻擊事件。
多源日志;動態(tài)自適應(yīng)時間間隔閾值;D-S證據(jù)理論;日志融合
隨著網(wǎng)絡(luò)環(huán)境日趨復(fù)雜,由被動防御轉(zhuǎn)變?yōu)橹鲃臃烙哑仍诿冀?。為了監(jiān)測可能發(fā)生的異常行為或網(wǎng)絡(luò)攻擊事件,在網(wǎng)絡(luò)邊界出入口部署防火墻、IPS、IDS等安全設(shè)備,設(shè)備的日志文件記錄了網(wǎng)絡(luò)的變化情況,各類設(shè)備每天都記錄大量日志,但不同設(shè)備之間的日志信息相互獨立。針對如何在海量日志中發(fā)現(xiàn)異常行為,國內(nèi)外學(xué)者開展了大量研究并取得了豐碩成果。Tim Bass[1]提出通過傳感器采集日志數(shù)據(jù),并將其作為數(shù)據(jù)源進(jìn)行態(tài)勢評估。Stephen Lau[2]創(chuàng)新性提出在三維空間中采用點來表示網(wǎng)絡(luò)流量信息,并將該技術(shù)運用到“The Spinning Cube of Potential Doom”系統(tǒng)中,以提高網(wǎng)絡(luò)安全態(tài)勢感知能力。劉效武等[3]提出基于粒子群算法計算D-S證據(jù)理論的最優(yōu)信任度值,降低多源日志的不確定性,實現(xiàn)基于多源日志融合的安全態(tài)勢評估模型。AsifiqbalH等[4]利用數(shù)據(jù)挖掘工具Weka對多源日志進(jìn)行解析,然后采用聚類算法過濾日志,對日志事件關(guān)聯(lián)分析,該算法在聚類時沒有考慮時間屬性。Myers J等[5]提出了一種面向多源異構(gòu)日志的關(guān)聯(lián)分析法,但未對告警日志進(jìn)行分類,在對日志進(jìn)行關(guān)聯(lián)分析和異常日志優(yōu)先級計算時,過多依賴先驗知識。黃林等[6]采用時間間隔閾值聚類算法對日志進(jìn)行聚合,但初始時間閾值更多依靠專家經(jīng)驗進(jìn)行設(shè)定,從而造成聚合度降低。上述研究均存在以下不足:①采用的日志數(shù)據(jù)源過于單一,忽略了事件之間的關(guān)聯(lián)性和多源日志數(shù)據(jù)的異構(gòu)性,不能還原出真實的攻擊行為;②對多源日志進(jìn)行融合時,設(shè)置相同信任度值導(dǎo)致融合后的結(jié)果不準(zhǔn)確,忽略了不同安全設(shè)備對異常事件的檢測率不同。
針對上述日志數(shù)據(jù)源單一、信任度值設(shè)置相同的問題,開展多源日志分析,探討同類及不同類告警日志的關(guān)系,采用動態(tài)自適應(yīng)時間間隔閾值的聚合算法形成超級預(yù)警日志,運用改進(jìn)加權(quán)信任度值D-S證據(jù)對多源超級預(yù)警日志進(jìn)行融合,將安全設(shè)備對不同告警事件的檢測率作為證據(jù),結(jié)合融合訓(xùn)練階段得到的告警數(shù)據(jù)不斷對權(quán)重進(jìn)行修正,有效發(fā)現(xiàn)隱藏的攻擊事件。
通過大量分析防火墻日志和IDS日志,設(shè)計一種多源日志融合分析的系統(tǒng)模型,包括4個功能模塊:日志采集模塊、數(shù)據(jù)預(yù)處理模塊、日志融合模塊和態(tài)勢展示模塊,如圖1所示。本文主要介紹系統(tǒng)模型中的數(shù)據(jù)預(yù)處理模塊和日志融合模塊。
圖1 多源日志分析系統(tǒng)功能模塊圖Fig.1 Functional module diagram of multi-source log analyzing system
由于網(wǎng)絡(luò)安全設(shè)備類型不同及網(wǎng)絡(luò)安全事件的不確定性,致使一些日志信息可能不完善甚至存在錯誤或缺失重要屬性。因此,為保證日志數(shù)據(jù)的準(zhǔn)確性和有效性,降低誤報率,需對日志進(jìn)行預(yù)處理。數(shù)據(jù)預(yù)處理包括兩個過程:日志清洗[7]和日志歸一化[8]。
通過清洗日志,刪除或補充日志重要屬性中不完整的數(shù)據(jù)[9],去除冗余數(shù)據(jù),為日志歸一化提供準(zhǔn)確數(shù)據(jù)。原始日志可能存在的錯誤信息包括:
1)信息不完整 日志屬性缺失和無用的日志數(shù)據(jù);
2)IP地址異常 為逃避追蹤,攻擊者通常會使用虛假的源IP地址,當(dāng)目的IP不在檢測網(wǎng)絡(luò)范圍內(nèi)時,需要過濾掉這類日志數(shù)據(jù);
3)重復(fù)日志數(shù)據(jù) 同一攻擊可能會在短時間內(nèi)產(chǎn)生大量相同的日志記錄,如果這些日志記錄為同一個安全事件,將此類記錄歸并為一個安全事件。
根據(jù)上述3種情況,采用如圖2所示的日志清洗流程。
圖2 日志清洗流程Fig.2 Log cleaning process
由于防火墻、IDS等安全設(shè)備類型不同,生成的日志屬性間的差異很大。因此,在對日志進(jìn)行處理時,需要先精簡各類安全設(shè)備的日志屬性,提取有用屬性,然后將不同日志格式進(jìn)行歸一化操作。在不丟失原始日志信息的基礎(chǔ)上,確定選取的日志屬性包括日志編號、源/目的IP、源/目的端口、時間、協(xié)議類型、設(shè)備類型[10],通過這些屬性確定不同的攻擊種類。采用XML格式[11]對這些日志進(jìn)行歸一化,格式如下:
上述歸一化的XML中,對應(yīng)的屬性含義如表1所示。
表1 屬性含義Tab.1 Attribute meaning
因此,將歸一化后的日志形式描述為:(logID,DeviceType,sourceIP,destIP,sourcePort,destPort,StartTime,EndTime,ProtocolType)。
1)定義聚合規(guī)則
根據(jù)攻擊事件之間的差異及其手段和攻擊方式,綜合考慮攻擊事件對系統(tǒng)造成的嚴(yán)重后果,將攻擊事件歸結(jié)為以下三類:
a)惡意代碼注入類 根據(jù)網(wǎng)絡(luò)或系統(tǒng)中存在的脆弱性,構(gòu)造跨站腳本、木馬等惡意代碼,注入到目標(biāo)系統(tǒng)的節(jié)點上,如SQL注入、跨站腳本攻擊(XSS)等。
b)掃描探測類 攻擊者通常采用NMAP等探測工具掃描目標(biāo)網(wǎng)絡(luò)主機端口,分析系統(tǒng)漏洞,達(dá)到攻擊目的。如弱口令猜測、漏洞利用等。
c)拒絕服務(wù)類 拒絕服務(wù)攻擊主要是對同一目標(biāo)發(fā)起攻擊,攻擊者可能向服務(wù)器注入流量,耗盡服務(wù)器資源,導(dǎo)致不能為合法用戶提供正常服務(wù)[12],如DDOS攻擊等。
結(jié)合以上對攻擊事件的分類,以及對日志屬性的分析,定義了4條告警日志聚合規(guī)則,如表2所示。
表2 聚合規(guī)則Tab.2 Aggregation rule
按照表2中定義的聚合規(guī)則,根據(jù)優(yōu)先級從最高到低的順序進(jìn)行匹配。當(dāng)告警日志到達(dá)時,先與優(yōu)先級最高的規(guī)則進(jìn)行匹配,若匹配不成功,則分別與次優(yōu)先級的規(guī)則進(jìn)行匹配。當(dāng)告警日志與某條規(guī)則匹配成功,則進(jìn)行下一條日志的匹配,如果相鄰的兩條日志屬于同一類攻擊,此時需與前一條日志進(jìn)行聚類。
因此,聚合規(guī)則是日志聚合的必要條件,也是后續(xù)對多源日志進(jìn)一步分析的前提。在對告警日志聚合時,為提高日志聚合的準(zhǔn)確率,采用自適應(yīng)時間間隔閾值算法,實時更新動態(tài)時間間隔。定義分析日志聚合的時間屬性。
定義1中間日志(midLog)用于存放初始時間閾值間隔、聚合過程中實時更新各種攻擊類型的間隔閾值、相鄰日志時間間隔和、相鄰日志時間間隔平方和。
2)自適應(yīng)時間間隔閾值聚合算法
自適應(yīng)時間間隔閾值聚合算法偽代碼如圖3所示。
圖3 自適應(yīng)時間間隔閾值聚合算法Fig.3 Adaptive time interval threshold aggregation algorithm
Step 1:取一部分訓(xùn)練集數(shù)據(jù),對模型進(jìn)行訓(xùn)練,將所得各類攻擊日志的間隔閾值存入中間日志,將其作為初始時間間隔閾值;
Step 2:讀取日志總條數(shù);
Step 3:執(zhí)行循環(huán),如果執(zhí)行次數(shù)小于等于日志總條數(shù),進(jìn)入Step 4,否則中止循環(huán);
Step 4:與定義的4條規(guī)則進(jìn)行匹配;
Step 5:如果小于等于中間日志中的間隔閾值,執(zhí)行Step6,否則執(zhí)行Step 7;
Step 6:進(jìn)行聚合,計算時間間隔和、時間間隔平方和、時間間隔平均值、時間間隔相對標(biāo)準(zhǔn)差,得到自適應(yīng)時間間隔;訓(xùn)練模型,將所得各類攻擊的初始間隔閾值存入中間日志,更新中間日志的間隔閾值;
看了這一條,讀者通過邏輯思維必然會覺得“原來鵝鼻山就是秦望山!秦始皇是登上鵝鼻山‘以望南海’的!”但再一想又不對了:大越不會有兩座秦望山,前一條說山在縣東南四十里,入城者已經(jīng)難以看到它,現(xiàn)在搬到縣西南七十里,使涉境者更難見到了。
Step 7:將該日志作為初始日志;求出該條日志與下一條到達(dá)日志間的時間間隔,與中間日志中的間隔閾值比較,如果小于等于中間間隔閾值,執(zhí)行Step 6,否則執(zhí)行下一次循環(huán)。
D-S證據(jù)理論是由DempsterAP[12]在1967年提出,并由Shafer推廣而發(fā)展起來的一種不確定性推理方法。在證據(jù)理論中,其主要特點是采用“區(qū)間估計”方法直接對“不知道”和“不確定”的數(shù)據(jù)信息進(jìn)行描述。下面對D-S證據(jù)理論進(jìn)行簡單介紹。
識別框架Θ:Θ是一個有限完備的論域集合,表示有限個系統(tǒng)狀態(tài){θ1,θ2,…,θn},而系統(tǒng)狀態(tài)假設(shè) Hi為Θ的一個子集,即Θ的冪集P(Θ)的一個元素。D-S證據(jù)理論的目標(biāo)是根據(jù)對系統(tǒng)狀態(tài)E1,E2,…,Em的觀察推測出當(dāng)前系統(tǒng)所處的狀態(tài),而這些觀察僅僅是系統(tǒng)狀態(tài)的不確定表現(xiàn),并不能唯一確定某些系統(tǒng)狀態(tài)。作為證據(jù)理論的底層概念,首先定義某個證據(jù)支持一個系統(tǒng)狀態(tài)的概率函數(shù),這個函數(shù)被稱為基本概率分配(BPA)[13]。
定義2BPA定義為從Θ的冪集到[0,1]區(qū)間的映射,即
其中:使m(A)>0的A 稱為焦元(Focalelements)。
定義3Dempster規(guī)則形式化定義如下:
在識別框架Θ上基于基本概率分配(BPA)m的信任函數(shù)為
在證據(jù)理論中,對于識別框架Θ中的某個假設(shè)A,根據(jù)基本概率分配(BPA)分別計算關(guān)于假設(shè)的信任函數(shù)Bel(A)和似然函數(shù)Pl(A)組成信任區(qū)間[Bel(A),Pl(A)],用以表示對某個假設(shè)的確認(rèn)程度[14]。
對于?A?Θ,識別框架Θ上的有限個mass函數(shù)m1,m2,…,mn作為證據(jù)的 Dempster合成規(guī)則為
式中
由于傳統(tǒng)證據(jù)理論對每個證據(jù)源的設(shè)定都有相同的信任值,但在真實的網(wǎng)絡(luò)環(huán)境中,安全設(shè)備對于相同網(wǎng)絡(luò)攻擊的檢測能力各有不同,因此提供的證據(jù)信任值也各有差異。為使得到的結(jié)果更加準(zhǔn)確,發(fā)現(xiàn)隱藏的攻擊行為,對D-S證據(jù)理論進(jìn)行改進(jìn),引進(jìn)距離函數(shù),對證據(jù)差異化進(jìn)行量化,算出證據(jù)的可信度值,將該值作為安全設(shè)備的加權(quán)值。采用不同加權(quán)信任度值對多源日志進(jìn)行融合,并根據(jù)訓(xùn)練階段融合結(jié)果呈現(xiàn)出的實際網(wǎng)絡(luò)安全態(tài)勢值不斷修正信任度權(quán)值。
根據(jù)研究和實驗總結(jié),設(shè)定Dempster合成規(guī)則。由于不同廠商的安全設(shè)備定義的規(guī)則不同,在對同種攻擊事件進(jìn)行檢測時,其檢測率也不同。通過量化距離函數(shù)對證據(jù)的差異化得到證據(jù)可信度取值,使BPA滿足其中:ri表示安全設(shè)備獲得的權(quán)值;mi(A)表示第i個安全設(shè)備對事件A的基本概率分配。
距離函數(shù)確定安全設(shè)備的權(quán)值為
搭建模擬網(wǎng)絡(luò)拓?fù)洵h(huán)境,如圖4所示,共劃分4個區(qū)域,分別為安全管理區(qū)域、對外應(yīng)用服務(wù)區(qū)域、生產(chǎn)網(wǎng)區(qū)域、內(nèi)網(wǎng)辦公區(qū)域。安全管理區(qū)域部署檢測安全事件的各廠商安全設(shè)備,包括綠盟漏洞掃描設(shè)備(RSAS)、入侵檢測系統(tǒng)(IDS)、安全審計系統(tǒng)等;對外應(yīng)用服務(wù)區(qū)域包括對外提供服務(wù)的服務(wù)器;防火墻(網(wǎng)御星云)部署在主干網(wǎng),配置防火墻和IDS相應(yīng)的規(guī)則。在網(wǎng)絡(luò)出口開放一個端口,用于模擬攻擊實驗。攻擊者采用科來數(shù)據(jù)包播放器軟件,對攻擊包進(jìn)行回放,攻擊包中包括的攻擊類型有口令猜測、HTTP攻擊、端口掃描、DNS攻擊、漏洞掃描。
依據(jù)1.1節(jié)提取日志屬性的關(guān)鍵字段和兩周攻擊實驗得到的原始數(shù)據(jù),對采集到的原始數(shù)據(jù)進(jìn)行處理后,所得部分實驗數(shù)據(jù)如表3所示。
圖4 模擬拓?fù)洵h(huán)境Fig.4 Simulation topology environment
運用2.1節(jié)的實驗數(shù)據(jù)進(jìn)行融合,融合過程包括訓(xùn)練階段和實驗階段。訓(xùn)練是為了能夠準(zhǔn)確得到安全設(shè)備在網(wǎng)絡(luò)中所占的權(quán)重和對攻擊的識別率;將融合后所得數(shù)據(jù)與真實攻擊進(jìn)行比較,如果結(jié)果偏差過大,則根據(jù)式(6)~式(8)、結(jié)合訓(xùn)練階段的報警數(shù)據(jù),動態(tài)修正加權(quán)值。
根據(jù)證據(jù)理論對超告警日志進(jìn)行融合,共選取超告警日志473條,其中防火墻日志91條,IDS日志382條;根據(jù)專家經(jīng)驗,設(shè)置防火墻日志的BPA為{0.7,0.3},IDS 日志的 BPA 為{0.78,0.22};然后采用加權(quán)證據(jù)理論對其融合,得到6種超告警日志數(shù)量,如表4所示。
因為不同類型的安全設(shè)備對攻擊事件檢測率各有差異,所以在進(jìn)行日志融合時設(shè)備所占的權(quán)重也有所不同。為了確定安全設(shè)備對不同安全事件的檢測率,反復(fù)實驗后得到不同設(shè)備的檢測率,并將對不同攻擊事件的監(jiān)測率作為證據(jù)理論融合的權(quán)值。經(jīng)過大量實驗得出安全設(shè)備對告警事件的檢測率,如表5所示。
表3 實驗數(shù)據(jù)(部分)Tab.3 Experimental data(part)
表4 防火墻和IDS中告警的日志數(shù)Tab.4 Number of alarms in firewallsand IDS
對表5進(jìn)行歸一化得到表6。
表5 安全設(shè)備對不同安全事件的檢測率Tab.5 Detection rate of security equipment for different security incidents
表6 安全事件檢測率歸一化Tab.6 Security event detection ratenormalization
將得到的歸一化檢測率作為證據(jù)進(jìn)行融合,由表6采用傳統(tǒng)證據(jù)理論融合得到表7。
表7 傳統(tǒng)D-S證據(jù)融合Tab.7 Traditional D-Sevidence fusion
從表7可以看出,經(jīng)過傳統(tǒng)D-S證據(jù)融合后端口掃描和HTTP攻擊的置信度較大,根據(jù)式(5)可以判斷當(dāng)前發(fā)生了這兩種攻擊,能夠及時為管理員提供管理決策??梢钥闯鯰CP攻擊和ICMP攻擊的置信度小,所以這兩種攻擊事件為誤報。原因可能是網(wǎng)絡(luò)鏈路不通,造成數(shù)據(jù)包過多,CPU不能及時處理。DNS攻擊的置信度較小,但在攻擊實驗室中發(fā)送了包含DNS攻擊的攻擊包,原因是融合時采用相同的信任度權(quán)值,網(wǎng)絡(luò)中不同安全設(shè)備對相同攻擊事件的檢測率并不相同。
因此,為提高對安全事件的檢測率,結(jié)合融合訓(xùn)練階段所得結(jié)果與真實攻擊進(jìn)行比較,根據(jù)式(6)~式(8)計算安全設(shè)備的權(quán)值,不斷修正信任度權(quán)值。經(jīng)過計算和訓(xùn)練將防火墻和IDS的權(quán)值重新調(diào)整定義為{0.78,0.22},再次進(jìn)行融合,結(jié)果如表8所示。
表8 加權(quán)信任度值的D-S證據(jù)融合Tab.8 D-Sevidence fusion of weighted trust value
由表8可以看出,經(jīng)過加權(quán)信任度證據(jù)理論融合后的端口掃描、HTTP攻擊和DNS攻擊置信度很大,這與實驗?zāi)M的攻擊相符;并且得出的結(jié)果更能準(zhǔn)確檢測原來的攻擊,更加符合真實攻擊行為。對比表7和表8,結(jié)合圖5可以得出,改進(jìn)后的證據(jù)理論能夠更加準(zhǔn)確地檢測網(wǎng)絡(luò)中的安全事件。
圖5 兩種融合算法對比結(jié)果Fig.5 Comparison of two fusion algorithms
針對攻擊類異常日志進(jìn)行融合,提高了檢測告警事件的準(zhǔn)確度。將安全設(shè)備對不同告警事件的檢測率作為證據(jù),結(jié)合融合訓(xùn)練階段得到的告警數(shù)據(jù)不斷對權(quán)重進(jìn)行修正,對多源日志進(jìn)行融合,發(fā)現(xiàn)了隱藏的攻擊事件,為建立風(fēng)險預(yù)警系統(tǒng)提供有效的數(shù)據(jù)支持。
[1]TIMB.Multisensor Data Fusion for Next Generation Distributed Intrusion Detection Systems[C]//1999 IRIS National Symposium on Sensor and Data Fusion,Laurel,USA,1999.
[2]STEPHEN L.The spinning cube of potential doom[J].Communications of the ACM,2004,47(6):25-26.
[3]劉效武,王慧強,禹繼國,等.基于多源融合的網(wǎng)絡(luò)安全態(tài)勢感知模型[J].解放軍理工大學(xué)學(xué)報(自然科學(xué)版),2012,13(4):403-407.
[4]ASIFIQBAL H,UDZIR N I,MAHMOD R,et al.Filtering events using clustering in heterogeneous security logs[J].Information Technology Journal,2011,10(4):798-806.
[5]MYERS J,GRIMAILA M R,MILLS R F.Log-based Distributed Security Event Detection Using Simple Event Correlator[C]//the 44th Hawaii International Conference on System Sciences,Hawaii,2011.
[6]黃 林,吳志杰,黃曉芳,等.一種改進(jìn)的多源異構(gòu)告警聚合方案[J].計算機應(yīng)用研究,2014,31(2):579-582.
[7]于兆良,張文濤,葛 偉,等.基于Hadoop平臺的日志分析模型[J].計算機工程與設(shè)計,2016,37(2):338-344.
[8]亞 靜.基于多源日志的網(wǎng)絡(luò)威脅分析系統(tǒng)的研究[D].北京:北京交通大學(xué),2014.
[9]趙 皓,高智勇,高建民,等.一種采用相空間重構(gòu)的多源數(shù)據(jù)融合方法[J].西安交通大學(xué)學(xué)報,2016,50(8):84-89.
[10]殷 俊,王海燕,潘顯萌.基于DNS重定向技術(shù)的網(wǎng)絡(luò)安全審計系統(tǒng)[J].計算機科學(xué),2016,43(S2):407-410.
[11]ALGHAMDINS,RAHAYUW,PARDEDEE.Semantic-based structural and content indexing for the efficient retrieval of queries over large XML data repositories[J].Future Generation Computer Systems,2014,37(7):212-231.
[12]謝 玨.分布式拒絕服務(wù)攻擊模擬系統(tǒng)設(shè)計與實現(xiàn)[D].四川:電子科技大學(xué),2014.
[13]趙新杰,劉 淵,孫 劍,等.基于遷移學(xué)習(xí)和D-S理論的網(wǎng)絡(luò)異常檢測[J].計算機應(yīng)用研究,2016,33(4):1137-1140.
[14]李建平,王曉凱.基于模糊神經(jīng)網(wǎng)絡(luò)的無線傳感器網(wǎng)絡(luò)可靠性評估[J].計算機應(yīng)用,2016,36(z2):69-72.
Research on multi-source security log fusion method
WANG Shuang
(Information Security Evaluation Center,CAUC,Tianjin 300300,China)
In order to effectively find hidden attacks in network,taking multi-source log as research object,an improved weighted trust value D-Sevidence theory is proposed to fuse logs.With data preprocessing and dynamic self adaptive time interval threshold algorithm,super warning log is aggregated.Taking detection rates of different alarm events by safety equipment as evidence,the weights of alarm data are dynamically revised and fused.Comparison between experimental result and traditional D-S evidence theory algorithm indicates that the improved weighted trustvalue D-Sevidence theory can improve the detection accuracy of network alarm event.
multi-source log;dynamic self-adaptive time interval threshold;D-Sevidence theory;log fusion
王雙(1986—),女,黑龍江哈爾濱人,實習(xí)研究員,碩士,研究方向為民航信息系統(tǒng)、民航網(wǎng)絡(luò)安全.
TP399
A
1674-5590(2017)05-0041-06
2017-05-08;
2017-06-14
國家自然科學(xué)基金項目(61601467);民航安全能力建設(shè)基金(PEAS0001)
?
劉佩佩)