陳 暉,唐 勇
CHEN Hui1, TANG Yong2
(1. 四川大學(xué) 電氣信息學(xué)院,成都 610065;2. 中科院 成都計(jì)算機(jī)應(yīng)用技術(shù)研究所,成都 610041)
隨著網(wǎng)絡(luò)應(yīng)用的發(fā)展,給網(wǎng)絡(luò)的安全管理帶來了許多新的問題。一些新的更復(fù)雜的安全風(fēng)險(xiǎn)隱藏在各個(gè)應(yīng)用中,與應(yīng)用密不可分。譬如,基于Web服務(wù)的安全漏洞及利用這些漏洞的攻擊越來越多。一些未受控的應(yīng)用,占用正常應(yīng)用帶寬,如在企業(yè)網(wǎng)中,基于P2P的下載、娛樂占用大量的帶寬。如何針對(duì)這些問題進(jìn)行應(yīng)用管理的基礎(chǔ)在于應(yīng)用識(shí)別及分類。
應(yīng)用識(shí)別及分類的關(guān)鍵技術(shù)是協(xié)議識(shí)別,協(xié)議識(shí)別方法主要有基于IP/端口識(shí)別技術(shù)、基于行為模式識(shí)別技術(shù)、基于統(tǒng)計(jì)信息識(shí)別技術(shù)和基于DPI(深度包檢測(cè))識(shí)別技術(shù)。
基于IP/端口識(shí)別技術(shù)利用的是某些軟件使用固定端口及服務(wù)器IP可窮舉的特點(diǎn),人工統(tǒng)計(jì)IP/端口信息,一旦發(fā)現(xiàn)有連接匹配信息就能夠識(shí)別出相應(yīng)的應(yīng)用。由于該基于IP/端口識(shí)別模式使用的IP/端口特征碼本身就是用于描述連接信息,因此IP/端口識(shí)別技術(shù)不具備連接內(nèi)進(jìn)一步分析的能力,進(jìn)而不適用于連接重用情況。
基于行為模式識(shí)別技術(shù)和基于統(tǒng)計(jì)信息識(shí)別技術(shù)利用的是某些網(wǎng)絡(luò)軟件和用戶行為的特定規(guī)律進(jìn)行識(shí)別,不具有通用性且識(shí)別精度也很難滿足商業(yè)化需求。且基于行為模式識(shí)別技術(shù)和基于統(tǒng)計(jì)信息識(shí)別技術(shù)的控制策略都是基于網(wǎng)絡(luò)節(jié)點(diǎn)或連接,因此即使這兩種識(shí)別技術(shù)能夠識(shí)別單連接上的多種用戶行為也無法通過制定策略進(jìn)行區(qū)別控制。
基于DPI識(shí)別技術(shù)利用數(shù)據(jù)包載荷的固定特征進(jìn)行識(shí)別,識(shí)別結(jié)果精確可靠。但是DPI本身存在效率低下的缺點(diǎn),而且策略控制上同樣存在困難。
目前傳統(tǒng)協(xié)議識(shí)別技術(shù)大多受到連接的限制,能夠識(shí)別出連接使用的協(xié)議,卻無法進(jìn)一步識(shí)別連接內(nèi)的信息。對(duì)于一條連接只對(duì)應(yīng)一種行為來說,用戶行為能夠通過識(shí)別一條或多條連接來確定。對(duì)于一條連接對(duì)應(yīng)多種行為(連接重用),由于連接重用可以隱匿用戶的網(wǎng)絡(luò)行為,僅僅通過識(shí)別連接使用的協(xié)議是無法確定用戶正在進(jìn)行的真實(shí)操作。如何在連接重用的情況下有效地區(qū)分其中的合法行為與非法行為,提升原有系統(tǒng)的應(yīng)用協(xié)議識(shí)別及應(yīng)用分類的精準(zhǔn)度,是網(wǎng)絡(luò)行為分析的重要目的與重大難點(diǎn)。
針對(duì)以上問題,本文提供了一種高效的識(shí)別同一連接中不同用戶行為的方法,從而做到有效控制非法行為。
XAI全稱Extensive Application Inspection,拓展應(yīng)用識(shí)別技術(shù)。XAI技術(shù)是在DPI技術(shù)的基礎(chǔ)上發(fā)展起來的,它繼承了傳統(tǒng)DPI的所有功能,并在此基礎(chǔ)上更進(jìn)一步,將應(yīng)用層識(shí)別的范疇進(jìn)行了擴(kuò)展,將網(wǎng)絡(luò)流量中的更多的信息挖掘出來,提供了深層應(yīng)用信息識(shí)別、攻擊/威脅識(shí)別、拓?fù)渥R(shí)別等更加豐富和強(qiáng)大應(yīng)用層識(shí)別能力。從而使產(chǎn)品能夠進(jìn)行更精細(xì)的分析、管理、保障和統(tǒng)計(jì)。
XAI技術(shù)針對(duì)DPI技術(shù)從兩個(gè)方面進(jìn)行優(yōu)化和改進(jìn)。
通過XAI技術(shù),可以從相同的網(wǎng)絡(luò)流量中挖掘出更深層次的信息和更豐富的數(shù)據(jù),更好地為客戶創(chuàng)造價(jià)值。
具體來說,XAI技術(shù)可以提供以下四個(gè)方面的信息。
1) 應(yīng)用識(shí)別
XAI技術(shù)不僅繼承了傳統(tǒng)DPI所支持的所有識(shí)別技術(shù),包括報(bào)文特征識(shí)別和流特征識(shí)別等,而且在許多方面更進(jìn)一步,使得XAI技術(shù)的識(shí)別準(zhǔn)確度更高,識(shí)別能力更強(qiáng)。
2) 深層應(yīng)用信息識(shí)別
XAI技術(shù)能夠在應(yīng)用識(shí)別基礎(chǔ)之上,進(jìn)一步識(shí)別內(nèi)容層次和行為層次的描述信息,比如:HTTP瀏覽的具體行為,IM的帳號(hào)信息、聊天行為等;這就使產(chǎn)品不僅能針對(duì)應(yīng)用,而且能更進(jìn)一步針對(duì)深層應(yīng)用信息進(jìn)行分析、管理、保障和優(yōu)化。
3) 攻擊/威脅識(shí)別
XAI技術(shù)可從應(yīng)用流量中識(shí)別網(wǎng)絡(luò)中的非法入侵和惡意腳本(惡意腳本,惡意郵件,惡意插件等),為網(wǎng)絡(luò)安全保障提供預(yù)警和管理。
4) 拓?fù)渥R(shí)別
XAI 技術(shù)可以識(shí)別流量的位置信息,比如移動(dòng)網(wǎng)絡(luò)的蜂窩、WLAN 節(jié)點(diǎn)等,為運(yùn)營商或IT管理部門提供分區(qū)域監(jiān)控和管理能力。
XAI技術(shù)通過四川電力在各產(chǎn)品線,對(duì)從企業(yè)網(wǎng)到運(yùn)營商網(wǎng)絡(luò),從寬帶互聯(lián)網(wǎng)到移動(dòng)互聯(lián)網(wǎng)、WLAN的應(yīng)用層管理提供了全方位的技術(shù)支持。通過XAI技術(shù)提供的更細(xì)致和更豐富的信息,可以進(jìn)行更細(xì)粒度和更具差異化的策略控制,更好地為客戶提供以下價(jià)值。
1) 基于應(yīng)用協(xié)議以及應(yīng)用內(nèi)容、應(yīng)用行為等深層次應(yīng)用信息的分析、管理、保障和優(yōu)化;
2) 基于應(yīng)用流量的攻擊/威脅識(shí)別,更好地防止網(wǎng)絡(luò)入侵,為網(wǎng)絡(luò)安全保障提供預(yù)警和管理;
3) 基于應(yīng)用內(nèi)容識(shí)別,提供數(shù)據(jù)防護(hù)、關(guān)鍵帳號(hào)安全防護(hù)的能力;
4) 基于應(yīng)用行為的識(shí)別,提供對(duì)應(yīng)用行為的控制能力,防止非業(yè)務(wù)應(yīng)用和非法應(yīng)用,提高工作效率;
5) 基于對(duì)應(yīng)用內(nèi)容的識(shí)別,提供應(yīng)用層防泄密、控制關(guān)鍵文件資料的外發(fā)的能力;
6) 基于應(yīng)用流量的拓?fù)渥R(shí)別,提供對(duì)應(yīng)用流量進(jìn)行分區(qū)域控制的能力。
現(xiàn)在互聯(lián)網(wǎng)主要的工作在TCP和UDP協(xié)議上,這兩種協(xié)議的基礎(chǔ)就是網(wǎng)絡(luò)連接。只有用戶和服務(wù)提供者建立了連接,才能獲取網(wǎng)絡(luò)服務(wù)和信息。而連接是由一系列數(shù)據(jù)包構(gòu)成的。在以往DPI的設(shè)計(jì)邏輯中,通常假設(shè)在單一連接上傳遞的數(shù)據(jù)包都是用于同一用途的。比如,一條P2P連接全部由P2P數(shù)據(jù)包構(gòu)成。
但是隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,很多網(wǎng)站開始嘗試使用連接復(fù)用的方式提供服務(wù),即在一條連接上提供不同種類、不同功能的數(shù)據(jù)包。并且由于分類的細(xì)化,很多場(chǎng)景下用戶希望知道更為具體的行為,即使這些行為數(shù)據(jù)包位于同一連接上。在這種情況下,單一的連接識(shí)別方式在很多情況下已經(jīng)不能滿足用戶的需要,需要對(duì)每個(gè)特定的數(shù)據(jù)包進(jìn)行分析。在這種情況下,我們?cè)O(shè)計(jì)了基于數(shù)據(jù)包細(xì)分的新分類模式,對(duì)每個(gè)數(shù)據(jù)包進(jìn)行分析。當(dāng)然,數(shù)據(jù)包仍然不能游離與連接之外,因此這種新模式也充分利用了已有的基于連接的分類模式。用戶可以通過特征庫配置的方式為每條連接在這兩種模式間自由切換。
新模式的工作原理如下:首先定義一組起點(diǎn)特征,這些特征和以前的連接特征一樣,但是在匹配后,它們將激活新分類模式、為連接設(shè)置基礎(chǔ)特征、選擇后續(xù)數(shù)據(jù)包需要使用的細(xì)分特征庫。連接的基礎(chǔ)特征是連接的一種屬性,一般是一種能夠涵蓋該連接所有可能性的特征,比如視頻、游戲、P2P,或者服務(wù)提供商的信息,比如某網(wǎng)站或者某游戲?;A(chǔ)特征可以保存連接的基本屬性,如果后續(xù)數(shù)據(jù)包無法分類,我們?nèi)匀豢梢詾閷徲?jì)模塊提供一個(gè)基礎(chǔ)的分類結(jié)果。同時(shí),也可以定義一組結(jié)束特征,這組特征可以停止基于數(shù)據(jù)包的分類,一般用在性質(zhì)比較強(qiáng)的數(shù)據(jù)包類型上,比如木馬、違法內(nèi)容,也可以使用用戶下線等關(guān)鍵節(jié)點(diǎn)。圖解如圖1所示。
下面舉例說明:假設(shè)有一條連接,分別提供A、B、C三種視頻服務(wù),在DPI的基于連接模式下,這條連接會(huì)被表示為第一個(gè)看的的特征,假設(shè)為A。然后假定這條連接都提供的是A這種視頻服務(wù),停止分析。或者是給這條連接賦上高一級(jí)的特征,即視頻。都無法具體分類出出現(xiàn)的視頻服務(wù)種類。在新的框架下,當(dāng)XAI引擎發(fā)現(xiàn)連接中出現(xiàn)A服務(wù)(假設(shè)為起點(diǎn)特征)時(shí),如果在配置里面指定了這種服務(wù),引擎會(huì)馬上切換到基于數(shù)據(jù)包的細(xì)分模式,同時(shí)把這條連接標(biāo)識(shí)成為視頻服務(wù),繼續(xù)分析后續(xù)數(shù)據(jù)包。后續(xù)的數(shù)據(jù)包將只使用視頻的特征進(jìn)行分析,當(dāng)發(fā)現(xiàn)服務(wù)B時(shí),連接上會(huì)記錄服務(wù)B出現(xiàn),同時(shí)把該數(shù)據(jù)包表示為服務(wù)B,送往統(tǒng)計(jì)、控制或者日志模塊。如果在后續(xù)數(shù)據(jù)包中未發(fā)現(xiàn)A、B、C任何一種服務(wù),數(shù)據(jù)包會(huì)讀取連接的基礎(chǔ)特征,這種情況下為視頻,以避免審計(jì)模塊出現(xiàn)漏審。如果我們?cè)O(shè)置了結(jié)束特征,比如服務(wù)C,那么當(dāng)發(fā)現(xiàn)服務(wù)C的存在時(shí),引擎切換回基于連接的分類方式,后續(xù)數(shù)據(jù)包的分類結(jié)果將不再改變。
圖1 新模式工作原理示意圖
本文設(shè)計(jì)并實(shí)現(xiàn)了一種全新的基于XAI技術(shù)實(shí)現(xiàn)的應(yīng)用識(shí)別及分類方法,通過標(biāo)記不同的狀態(tài)特征來區(qū)分同一連接中的不同應(yīng)用,解決了連接共享類應(yīng)用的識(shí)別難題,狀態(tài)特征通過字符序列多維度圖的結(jié)構(gòu)來存儲(chǔ),保證了在大特征集合下的匹配速度。與傳統(tǒng)的應(yīng)用識(shí)別及分類方法如基于IP/端口識(shí)別技術(shù)、基于行為模式識(shí)別技術(shù)、基于統(tǒng)計(jì)信息識(shí)別技術(shù)、基于DPI(深度包檢測(cè))識(shí)別技術(shù)相比,解決了連接重用情況下傳統(tǒng)協(xié)議識(shí)別技術(shù)無法有效區(qū)分合法行為和非法行為的問題。
[1]智能流量管理技術(shù)實(shí)現(xiàn)篇之XAI識(shí)別技術(shù). http://tech.ccident.com/art/3735/20110718/2440473_1.html.
[2]崔志磊. 基于行為模式的計(jì)算機(jī)安全策略研究[J]. 蘇州市職業(yè)大學(xué)學(xué)報(bào), 2007, 18(3): 54-55.
[3]連一峰. 基于模式挖掘的用戶行為異常檢測(cè)[J]. 計(jì)算機(jī)學(xué)報(bào) 報(bào), 2002, 25(3): 325-330.
[4]Pei J, Han J, Mortazavi-Asl B, et al. Prefix Span:Mining Sequential Patterns Efficiently by Prefix- Projected Pattern Growth [C]. Proc. of 2001 Int. Conf. on Data Eng.,Heidelberg, Germany, 2001: 215-224.
[5]Taylor D E,Tumer J S.ClassBench: A packet classification benchmark[C]//IEEE/ACM Transactions on Networking,New York, 2007: 499-511.