楊光+吳鈺
摘要:獲取用戶行為數(shù)據(jù)集是內(nèi)部威脅研究的前提和基礎(chǔ),該文深度調(diào)研了當(dāng)今公開的內(nèi)部威脅實(shí)驗(yàn)數(shù)據(jù)集,通過分析KDD99、SEA、WUIL以及CERT-IT四種主流的數(shù)據(jù)集,提出上述數(shù)據(jù)集的優(yōu)缺點(diǎn),并指出未來數(shù)據(jù)集構(gòu)建的研究方向。
關(guān)鍵詞:內(nèi)部威脅;網(wǎng)絡(luò)安全;安全審計(jì)
中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)21-0055-02
1 引言
2013年“棱鏡門”事件震驚全球,美國安全部門雇員斯諾登利用職務(wù)之便竊取大量機(jī)密信息,直接揭露了美國歷史上最大的網(wǎng)絡(luò)監(jiān)控行為。2014年韓國信用機(jī)構(gòu)與英國巴克萊銀行的千萬條客戶信息遭到竊取,其中涉及信用卡號(hào)、身份ID、社保號(hào)等多項(xiàng)客戶隱私數(shù)據(jù)。2016年,我國某軍工企業(yè)離職人員利用暗中備份、欺騙同事等手段竊取了大量軍工用品數(shù)據(jù),大肆出賣給國外間諜機(jī)關(guān),最終被依法判處死刑。上述典型的內(nèi)部威脅攻擊案例引起了各國的高度重視,陸續(xù)開展了廣泛的研究。
當(dāng)前內(nèi)部威脅研究集中在檢測領(lǐng)域。根據(jù)檢測方法的不同,我們可以將現(xiàn)有內(nèi)部威脅檢測分為誤用檢測(Misuse Detection)與異常檢測(Anomaly Detection)兩類。其中誤用檢測基于已知攻擊特征數(shù)據(jù),將新數(shù)據(jù)與已知特征比較,從而檢測已知攻擊,其優(yōu)點(diǎn)是檢測效率高、準(zhǔn)確度高,然而不足是完全基于已知的攻擊特征,需要實(shí)時(shí)更新特征庫,而且無法有效應(yīng)對新型攻擊類型。異常檢測基于用戶正常行為模型,將新數(shù)據(jù)與正常行為模型進(jìn)行比較判斷攻擊,其實(shí)質(zhì)是“白名單”思想,優(yōu)點(diǎn)是更加靈活,學(xué)術(shù)界研究已經(jīng)證明可以用于檢測新型攻擊,不足是較高的誤報(bào)率成為實(shí)際應(yīng)用的主要限制因素。
表征內(nèi)部用戶行為的數(shù)據(jù)集是內(nèi)部威脅檢測研究的前提,其原因有二:(1)內(nèi)部正常與惡意用戶的行為數(shù)據(jù)集體現(xiàn)了正常行為與惡意行為的特征,可以由此分析用戶行為,建立正常行為模型以進(jìn)行異常檢測;(2)基于領(lǐng)域知識(shí)與數(shù)據(jù)分析建立的異常檢測分類器模型只有通過數(shù)據(jù)實(shí)驗(yàn)才能評估其有效性。因此為了開展內(nèi)部威脅檢測研究,研究者需要在模擬環(huán)境中構(gòu)造內(nèi)部威脅的實(shí)現(xiàn)場景,收集實(shí)驗(yàn)環(huán)境下的行為數(shù)據(jù),公開作為內(nèi)部威脅行為數(shù)據(jù)集,供所有研究者使用。接下來我們對KDD99、SEA、WUIL與CERT-IT四類現(xiàn)有公開的主要數(shù)據(jù)集作深入分析,以從中提取出現(xiàn)有數(shù)據(jù)集的不足,為未來的數(shù)據(jù)集研究提供方向。
2 KDD99數(shù)據(jù)集
KDD99數(shù)據(jù)集最早公開于1999年,當(dāng)時(shí)是作為該年度KDD CUP競賽的官方指定數(shù)據(jù)集。其實(shí)KDD99原始數(shù)據(jù)來自于美國國防部高級規(guī)劃署(DARPA)的入侵檢測評估項(xiàng)目的審計(jì)數(shù)據(jù),主要包括主機(jī)和網(wǎng)絡(luò)兩個(gè)維度,共收集了9周的系統(tǒng)審計(jì)與網(wǎng)絡(luò)流量數(shù)據(jù)。其中審計(jì)數(shù)據(jù)遵循基本安全模型(Basic Security Model),以Header和Token的形式組織數(shù)據(jù),其中的Header負(fù)責(zé)描述Token的大小、時(shí)間版本以及涉及的系統(tǒng)調(diào)用名稱等;而Token則負(fù)責(zé)具體的記錄描述,如用戶信息(用戶與用戶組ID)、進(jìn)程信息(進(jìn)程ID、會(huì)話ID)等。
KDD99網(wǎng)絡(luò)流量數(shù)據(jù)來自Tcpdump記錄,7周時(shí)間收集的約500萬條數(shù)據(jù)網(wǎng)絡(luò)數(shù)據(jù)作為訓(xùn)練集,其余2周時(shí)間收集的200萬條數(shù)據(jù)作為實(shí)驗(yàn)測試。KDD99中每一條數(shù)據(jù)記錄均是包含41個(gè)特征的多維特征向量,詳細(xì)記錄了每一次網(wǎng)絡(luò)連接的對象、時(shí)間、協(xié)議類型等詳細(xì)信息,從而細(xì)粒度地刻畫了四類網(wǎng)絡(luò)攻擊行為,分別是:拒絕服務(wù)攻擊(DOS)、探測攻擊(Probe)、用戶提權(quán)攻擊(U2R)、遠(yuǎn)程連接攻擊(R2L),正因?yàn)镵DD99數(shù)據(jù)集刻畫了主流的網(wǎng)絡(luò)攻擊行為,因此其成為了當(dāng)時(shí)安全研究人員廣為使用的第一個(gè)公開數(shù)據(jù)集。
盡管影響廣泛,但是KDD99數(shù)據(jù)集的不足仍然十分明顯,即由于創(chuàng)建時(shí)間較早,并且并非專用于內(nèi)部威脅檢測,因此與實(shí)際的內(nèi)部威脅數(shù)據(jù)差異較大,其應(yīng)用主要在入侵檢測領(lǐng)域,而非內(nèi)部威脅研究。
3 SEA數(shù)據(jù)集
2001年Schonlau等人第一次將內(nèi)部攻擊者分類成叛徒(Traitor)與偽裝者(Masquerader),其中叛徒指攻擊者來源于組織內(nèi)部,本身是內(nèi)部合法用戶,而偽裝者指外部攻擊者竊取了內(nèi)部合法用戶的身份憑證,從而利用內(nèi)部用戶身份實(shí)施內(nèi)部攻擊。隨后該團(tuán)隊(duì)構(gòu)造了一個(gè)公開的檢測偽裝者攻擊的數(shù)據(jù)集SEA,該數(shù)據(jù)被廣泛用于內(nèi)部偽裝者威脅檢測研究。
SEA數(shù)據(jù)集涵蓋70多個(gè)UNIX系統(tǒng)用戶的行為日志,這些數(shù)據(jù)來自于UNIX系統(tǒng)acct機(jī)制記錄的用戶使用的命令。SEA數(shù)據(jù)集中每個(gè)用戶都采集了15000條命令,從用戶集合中隨機(jī)抽取50個(gè)用戶作為正常用戶,剩余用戶的命令塊中隨機(jī)插入模擬命令作為內(nèi)部偽裝者攻擊數(shù)據(jù)。SEA數(shù)據(jù)集中的用戶日志類似于下面的命令序列:
{cpp, sh,cpp, sh, xrdb, mkpts...}
每個(gè)用戶的數(shù)據(jù)按照100命令長度分為150個(gè)塊,前三分之一數(shù)據(jù)塊用作訓(xùn)練該用戶正常行為模型,剩余三分之二數(shù)據(jù)塊隨機(jī)插入了測試用的惡意數(shù)據(jù)。SEA數(shù)據(jù)集中惡意數(shù)據(jù)的分布具有統(tǒng)計(jì)規(guī)律,任意給定一個(gè)測試集命令塊,其中含有惡意指令的概率為1%;而當(dāng)一個(gè)命令塊中含有惡意指令,則后續(xù)命令塊也含有惡意指令的概率達(dá)到80%??梢钥闯鯯EA中的數(shù)據(jù)集將連續(xù)數(shù)據(jù)塊看作一個(gè)會(huì)話(Session),只能模擬連續(xù)會(huì)話關(guān)聯(lián)的攻擊行為;此外由于缺乏用戶詳細(xì)個(gè)人信息(職位、權(quán)限等)、數(shù)據(jù)維度單一(僅有命令信息)以及構(gòu)造性(惡意數(shù)據(jù)由人工模擬)等因素,數(shù)據(jù)集在內(nèi)部威脅檢測研究中作用有限。
4 WUIL數(shù)據(jù)集
與SEA數(shù)據(jù)集不同,2014年Camina等人基于Windows系統(tǒng)環(huán)境,記錄表征用戶訪問文件的行為。通過借助Windows的審計(jì)工具,他們實(shí)驗(yàn)記錄20個(gè)用戶的打開文件/目錄的行為,每條記錄包含事件ID、事件時(shí)間以及事件對象及其路徑信息(如文件名與文件路徑)。此外,為了體現(xiàn)用戶的計(jì)算機(jī)知識(shí)背景與技能對文件訪問行為的影響,WUIL數(shù)據(jù)集來自于20個(gè)用戶,這些用戶背景各不相同,如職業(yè),學(xué)生、行政人員等。
與SEA數(shù)據(jù)集相比,WUIL數(shù)據(jù)集的優(yōu)勢在于惡意數(shù)據(jù)采集于實(shí)際用戶操作,實(shí)驗(yàn)中系統(tǒng)登錄后由攻擊者操作,借此模擬內(nèi)部攻擊者偽裝其他用戶身份未授權(quán)進(jìn)行惡意操作的攻擊場景。為了進(jìn)一步分析攻擊者個(gè)人知識(shí)能力對攻擊的影響,工作人員將模擬的攻擊分成初級、中級、高級三個(gè)層次,每個(gè)層次對應(yīng)著攻擊者具備的不同的知識(shí)層次、掌握的攻擊工具數(shù)量以及對計(jì)劃準(zhǔn)備程度,如初級層次的攻擊者不僅缺乏相應(yīng)的攻擊工具與技術(shù),也只是偶然使用其他用戶的電腦;而高級層次的攻擊者不僅攜帶了USB設(shè)備,還準(zhǔn)備了自動(dòng)化腳本搜索系統(tǒng)中的有價(jià)值文件,最終安全退出等。WUIL數(shù)據(jù)集從用戶瀏覽文件系統(tǒng)角度刻畫用戶行為,以此作為驗(yàn)證用戶身份的工具,該數(shù)據(jù)集不足之處是僅僅采集了用戶操作文件系統(tǒng)的行為,維度單一,缺乏全面地反映。
5 CERT-IT數(shù)據(jù)集
CERT-IT(Insider Threat)數(shù)據(jù)集來源于卡耐基梅隆大學(xué)(CMU)的內(nèi)部威脅中心,該中心由美國國防部高級研究計(jì)劃局(DARPA)贊助,與ExactData公司合作從真實(shí)企業(yè)環(huán)境中采集數(shù)據(jù)構(gòu)造了一個(gè)內(nèi)部威脅測試集。該數(shù)據(jù)集模擬了惡意內(nèi)部人實(shí)施的系統(tǒng)破壞、信息竊取與內(nèi)部欺詐三類主要的攻擊行為數(shù)據(jù)以及大量正常背景數(shù)據(jù)。
CERT數(shù)據(jù)集中涉及多個(gè)維度的用戶行為數(shù)據(jù),如文件訪問(創(chuàng)建、修改、刪除以文件名稱、類型等)、郵件收發(fā)、設(shè)備使用(移動(dòng)存儲(chǔ)設(shè)備、打印機(jī)等)、HTTP訪問以及系統(tǒng)登錄等行為,還包括了用戶的工作崗位以及工作部門等信息。CERT數(shù)據(jù)集提供了用戶全面的行為觀測數(shù)據(jù)以刻畫用戶行為模型。
CERT數(shù)據(jù)集考慮了內(nèi)部人行為建模多個(gè)維度,如關(guān)系模型、資產(chǎn)模型、行為模型、心理學(xué)模型、以及攻擊場景特征等來構(gòu)造攻擊數(shù)據(jù),從而達(dá)到了內(nèi)部攻擊的全方位模擬,不足之處有兩方面:(1)攻擊數(shù)據(jù)來源于人工模擬,與真實(shí)攻擊數(shù)據(jù)特征存在偏差;(2)僅僅采集了用戶在信息系統(tǒng)中的操作行為,沒有考慮用戶個(gè)體特征的建模(如職位、技術(shù)能力、工作績效等),因此無法避免實(shí)際檢測中的誤報(bào)。
6 總結(jié)
上述數(shù)據(jù)集為研究者提供了內(nèi)部威脅研究的實(shí)驗(yàn)數(shù)據(jù)支撐,但是由于每個(gè)數(shù)據(jù)集在構(gòu)造時(shí)均有一定的局限性,導(dǎo)致實(shí)際中部分研究者根據(jù)實(shí)驗(yàn)需求選擇或構(gòu)造其他的數(shù)據(jù)集?,F(xiàn)有公開的內(nèi)部威脅數(shù)據(jù)集一定程度上彌補(bǔ)了實(shí)驗(yàn)數(shù)據(jù)的缺失,促進(jìn)了內(nèi)部威脅研究的開展。但是由于其惡意數(shù)據(jù)多數(shù)來源于人工模擬,不可避免地與真實(shí)攻擊數(shù)據(jù)存在偏移,因此會(huì)影響內(nèi)部威脅檢測研究的實(shí)際準(zhǔn)確性;此外多數(shù)數(shù)據(jù)來源于用戶行為的某個(gè)方面(如命令或文件行為),不能全面反映內(nèi)部攻擊者行為特征,因此數(shù)據(jù)集采集與構(gòu)造方面均亟須產(chǎn)學(xué)研各界予以高度重視,投入足夠力量研究更完善的數(shù)據(jù)集獲取方案。本文認(rèn)為未來數(shù)據(jù)集獲取可以側(cè)重兩個(gè)方向:一是建立全面、深度地用戶行為審計(jì),從進(jìn)程、機(jī)器、用戶個(gè)體以及網(wǎng)絡(luò)等四個(gè)層次進(jìn)行立體的行為審計(jì),保證用戶行為刻畫的全面性;二是延長數(shù)據(jù)記錄的時(shí)間周期,從而保證盡可能獲取真實(shí)攻擊數(shù)據(jù),并且對真實(shí)數(shù)據(jù)進(jìn)行匿名化處理,從而可以獲取公開的真實(shí)攻擊行為數(shù)據(jù)集。
參考文獻(xiàn):
[1] KDD Cup 1999 Data, http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html
[2] 張有新,曾華燊,賈磊.入侵檢測數(shù)據(jù)集KDD CUP99研究 [J].計(jì)算機(jī)工程與設(shè)計(jì),2010, 31(22).
[3]Schonlau M. : Masquerading user data (1998), http://www.schonlau.net.