李棟科
摘 要:結(jié)合目前海量日志挖掘的大數(shù)據(jù)特性,文章提出了海量網(wǎng)絡(luò)審計日志的敏感用戶挖掘分析架構(gòu)設(shè)想,探討了數(shù)據(jù)關(guān)聯(lián)技術(shù)、敏感用戶畫像、基于用戶畫像的敏感用戶監(jiān)控、基于群體關(guān)系挖掘的敏感群體監(jiān)控等在體系架構(gòu)中的分層應(yīng)用,并以此架構(gòu)為基礎(chǔ),提出未來需要進一步深入研究的關(guān)鍵技術(shù)和初步解決方案。
關(guān)鍵詞:大數(shù)據(jù);網(wǎng)絡(luò)審計日志;敏感用戶;挖掘分析
中圖分類號:TP39 文獻標(biāo)識碼:A
Abstract: Combining the big data features of current massive log mining, this paper proposes an assumption of sensitive user mining analysis framework for massive network audit logs and discusses data association technology, sensitive user portraits, sensitive user monitoring based on user portraits, sensitive groups based on group relationship mining in the architecture. Based on this architecture, we put forward key technologies and preliminary solutions that need further research in the future.
Key words: big data; network audit logs; sensitive user; mining analysis
1 引言
隨著互聯(lián)網(wǎng)規(guī)模的日益發(fā)展以及國家對網(wǎng)絡(luò)空間安全的重視,信息化平臺不斷完善壯大,相較過去,如今各企業(yè)、事業(yè)單位、國家行政機關(guān)、政府等機構(gòu)的網(wǎng)絡(luò)與互聯(lián)網(wǎng)已進一步融合,應(yīng)用和用戶數(shù)量的壯大、無線網(wǎng)絡(luò)的增長,其產(chǎn)生的數(shù)據(jù)量也在空前絕后的成倍增加。網(wǎng)絡(luò)技術(shù)帶來的極大便利性,也導(dǎo)致了新的安全性問題,企業(yè)的商業(yè)機密、工作資料可能通過網(wǎng)絡(luò)泄露,反動、黃色等非法信息泛濫難以根治。反恐、謠言、群體事件、失竊密等重大社會事件對社會安全和企業(yè)的經(jīng)營都造成了嚴(yán)重的危害。在此背景下,我國對于互聯(lián)網(wǎng)數(shù)據(jù)訪問內(nèi)容的關(guān)注程度日益提高,對于政府機關(guān)、企事業(yè)單位對互聯(lián)網(wǎng)的訪問行為,國家頒布執(zhí)行了一系列法律法規(guī),要求政府機構(gòu)和企事業(yè)單位、校園互聯(lián)網(wǎng)加強對互聯(lián)網(wǎng)內(nèi)容訪問的管理與審計[1]。目前,大多數(shù)單位均建設(shè)了網(wǎng)絡(luò)信息安全審計系統(tǒng)[2-4],系統(tǒng)在實現(xiàn)業(yè)務(wù)功能的同時產(chǎn)生了海量網(wǎng)絡(luò)審計日志[5-7],具體分為兩類。
行為日志:通過對網(wǎng)絡(luò)上所有用戶行為進行解析、記錄和告警,可以分為上網(wǎng)行為、OA 行為、運維行為和業(yè)務(wù)操作等。
網(wǎng)絡(luò)內(nèi)容日志:通過捕獲網(wǎng)絡(luò)上的原始數(shù)據(jù)包,然后進行協(xié)議解析,并還原原始報文應(yīng)用數(shù)據(jù)內(nèi)容,用于審計網(wǎng)絡(luò)數(shù)據(jù)的合規(guī)性。
本文將充分利用網(wǎng)絡(luò)審計系統(tǒng)的網(wǎng)絡(luò)審計日志,從大數(shù)據(jù)挖掘分析的角度實現(xiàn)面向反恐、謠言、群體事件、失竊密等重大社會事件的海量網(wǎng)絡(luò)審計日志的分析,旨在針對涉及信息內(nèi)容安全的敏感用戶的挖掘出行為模式,從而形成網(wǎng)絡(luò)訪問與社交過程中針對敏感用戶的行為監(jiān)控能力,實現(xiàn)在反恐、謠言、群體事件、失竊密等重大社會事件中針對敏感用戶的挖掘分析。
2 國內(nèi)外研究現(xiàn)狀
國內(nèi)外已經(jīng)有很多面向網(wǎng)絡(luò)信息安全的審計產(chǎn)品,國外的安全審計產(chǎn)品如芝加哥Netikus.Net公司開發(fā)Sentry系統(tǒng)用于Windows事件管理和服務(wù)器監(jiān)控、Dorian Software Creations公司開發(fā)的Event Archiver產(chǎn)品、Ripple Techa.公司的Log Caster產(chǎn)品,以及TNTSoftware公司開發(fā)的Event Log Monitor產(chǎn)品。國內(nèi)主要的安全審計產(chǎn)品有 AAS-M 系統(tǒng)是昂楷科技開發(fā)的專門為加強企業(yè)內(nèi)部運維安全的審計系統(tǒng)、安華金和數(shù)據(jù)庫監(jiān)控與審計系統(tǒng) x Secure-DBAudit、中軟華泰 Hua Tech 終端安全審計預(yù)警系統(tǒng)等。
在網(wǎng)絡(luò)日志采集方面,李旭芳等人[8]對零拷貝技術(shù)進行了研究與試驗,并成功實現(xiàn)了該技術(shù),從軟件上滿足了基于高速網(wǎng)絡(luò)的信息審計系統(tǒng)的需求。李明明[9]采用旁路截獲(交換機端口鏡像)流經(jīng)網(wǎng)絡(luò)上的所有數(shù)據(jù)包實現(xiàn)數(shù)據(jù)包零拷貝抓取,基于旁路網(wǎng)絡(luò)數(shù)據(jù)捕獲實現(xiàn)對網(wǎng)絡(luò)信息安全審計系統(tǒng)的內(nèi)部網(wǎng)絡(luò)監(jiān)管、智能審計等功能。
在各領(lǐng)域在網(wǎng)絡(luò)流量日志應(yīng)用方面,賈王晶等人[10]運用Apriori算法的改進版Fp-growth算法作為關(guān)聯(lián)規(guī)則的建立算法,在已有日志關(guān)聯(lián)技術(shù)的基礎(chǔ)上,提出能夠應(yīng)用在網(wǎng)絡(luò)犯罪取證中的新的取證方案。張躍仙等人[11]通過對網(wǎng)絡(luò)流量進行分析設(shè)計了針對計算機網(wǎng)絡(luò)犯罪的IP定位跟蹤軟件系統(tǒng),該系統(tǒng)可直接應(yīng)用于網(wǎng)絡(luò)犯罪的偵查辦案,為公安部門破獲網(wǎng)絡(luò)犯罪案件提供有利工具。
現(xiàn)在雖然有許多的商用網(wǎng)絡(luò)信息安全審計產(chǎn)品,但功能都不是很齊全。很多都只是對部分應(yīng)用層協(xié)議進行審計;有的可以對可疑行為事前告警,但針對網(wǎng)絡(luò)用戶以及用戶群體的挖掘深度還不夠,同時網(wǎng)絡(luò)審計日志的應(yīng)用在公安在反恐、謠言、群體事件、失竊密等重大社會事件中針對敏感用戶的挖掘分析應(yīng)用較少。
3 基于海量網(wǎng)絡(luò)審計日志的大數(shù)據(jù)挖掘分析架構(gòu)
本文提出的基于海量網(wǎng)絡(luò)審計日志的大數(shù)據(jù)挖掘分析架構(gòu)圖,如圖1所示。其中,網(wǎng)絡(luò)信息安全審計系統(tǒng)通過在旁路方式下偵聽的網(wǎng)絡(luò)中的數(shù)據(jù)包作為數(shù)據(jù)源,根據(jù)應(yīng)用層的協(xié)議定義,拼接和還原數(shù)據(jù),借助數(shù)據(jù)包拼接、協(xié)議?;謴?fù)和協(xié)議還原技術(shù),將數(shù)據(jù)還原到原始數(shù)據(jù),同時將審計過程中產(chǎn)生的網(wǎng)絡(luò)審計日志通過網(wǎng)絡(luò)審計日志回傳服務(wù)器回傳至網(wǎng)絡(luò)審計日志存儲集群,為網(wǎng)絡(luò)審計日志挖掘分析平臺提供海量日志數(shù)據(jù)。該架構(gòu)采用的旁路偵聽的模式是采用與交換機的鏡像端口相連,通過抓包的方式,實現(xiàn)對網(wǎng)絡(luò)數(shù)據(jù)的審計,其優(yōu)點是可靠性高,安全性好,不增加網(wǎng)絡(luò)延遲,設(shè)備故障時不影響整個網(wǎng)絡(luò)運行。
4 基于海量網(wǎng)絡(luò)審計日志的大數(shù)據(jù)挖掘分析工作流程
基于網(wǎng)絡(luò)審計日志存儲集群中的海量網(wǎng)絡(luò)審計日志數(shù)據(jù),本文提出了多維度深度分析的大數(shù)據(jù)處理平臺,該平臺重點面向公安業(yè)務(wù)實現(xiàn)敏感用戶監(jiān)控、敏感群體監(jiān)控兩個研究方向。為了達到以上目標(biāo),平臺主要包括三個層次,分別是數(shù)據(jù)層、挖掘分析層和業(yè)務(wù)層。數(shù)據(jù)層主要實現(xiàn)海量網(wǎng)絡(luò)審計日志的接入、存儲以及檢索。挖掘分析層是整個架構(gòu)的核心,主要包括兩方面的工作:敏感用戶畫像、敏感用戶關(guān)系挖掘,其工作流程圖如2所示。面向海量網(wǎng)絡(luò)審計日志的挖掘分析平臺在數(shù)據(jù)關(guān)聯(lián)的基礎(chǔ)上,采用分布式圖引擎對數(shù)據(jù)進行組織、存儲和計算。為了確保處理的時效性,同時降低平臺計算的復(fù)雜性,對于日志數(shù)據(jù)引入基于時間戳的衰退機制。在大規(guī)模圖建模基礎(chǔ)上,從動態(tài)特征、靜態(tài)特征和關(guān)聯(lián)特征等對敏感用戶進行多維度畫像?;诿舾杏脩舢嬒窈痛笠?guī)模圖引擎,挖掘敏感用戶的關(guān)系,為敏感群體用戶挖掘提供基礎(chǔ)。
5 關(guān)鍵技術(shù)研究與初步解決方案
5.1 數(shù)據(jù)關(guān)聯(lián)
目前網(wǎng)絡(luò)審計日志標(biāo)識的類型并不相同,各類審計日志之間存在孤島問題。針對網(wǎng)絡(luò)審計日志的大數(shù)據(jù)挖掘分析需要以網(wǎng)絡(luò)空間中的所有行為、內(nèi)容、交互關(guān)系為基礎(chǔ)。因此,首先需要打通各種類型的網(wǎng)絡(luò)審計日志數(shù)據(jù),采用統(tǒng)一的模型描述,為后續(xù)用戶畫像等打下基礎(chǔ)。本節(jié)從用戶的網(wǎng)絡(luò)行為和通信內(nèi)容出發(fā),從三個方面打通各種類型的日志,關(guān)聯(lián)出用戶的不同數(shù)據(jù)。
(1)賬號關(guān)聯(lián):用戶在網(wǎng)絡(luò)空間中針對不同應(yīng)用使用各種賬號,為了實現(xiàn)賬號與用戶的綁定,首先需要針對網(wǎng)絡(luò)審計日志中用戶的不同賬號進行關(guān)聯(lián)。賬號主要包括郵箱,內(nèi)容服務(wù)類應(yīng)用(網(wǎng)頁瀏覽、論壇、微博等)用戶名或昵稱,手機號,撥號賬號等。賬號關(guān)聯(lián)的方法包括以IP地址為基礎(chǔ)的賬號關(guān)聯(lián)(包括同類賬號的關(guān)聯(lián)以及不同類型賬號的關(guān)聯(lián))、以用戶昵稱的賬號關(guān)聯(lián)、以入網(wǎng)許可IMEI號為基礎(chǔ)的手機號關(guān)聯(lián)。
(2)內(nèi)容關(guān)聯(lián):以各種網(wǎng)絡(luò)審計日志存儲的內(nèi)容關(guān)鍵詞(URL)為基礎(chǔ),打通各種類型網(wǎng)絡(luò)審計日志,關(guān)聯(lián)用戶數(shù)據(jù)。
(3)移動網(wǎng)行為關(guān)聯(lián):針對網(wǎng)絡(luò)審計日志中包含手機號和社交網(wǎng)絡(luò)、APP等登錄賬號信息,可以關(guān)聯(lián)出用戶在移動互聯(lián)網(wǎng)中使用的IP地址和在移動網(wǎng)中手機號,進而關(guān)聯(lián)用戶在固網(wǎng)和移動網(wǎng)絡(luò)的行為數(shù)據(jù)。
基于以上三方面的數(shù)據(jù)關(guān)聯(lián)后,不同類型的日志數(shù)據(jù)能夠形成統(tǒng)一的平臺。不同業(yè)務(wù)系統(tǒng)日志在數(shù)據(jù)關(guān)聯(lián)后,需要采用統(tǒng)一的圖引擎進行處理,具體應(yīng)用中可采用大規(guī)模圖建模、圖查詢等技術(shù)[12-15]。
5.2 敏感用戶畫像
在數(shù)據(jù)關(guān)聯(lián)的基礎(chǔ)上,從多維度刻畫敏感用戶的身份信息、社交關(guān)系、內(nèi)容偏好、行為特征等,進而實現(xiàn)敏感用戶畫像,為后續(xù)的敏感用戶挖掘、敏感群體挖掘和敏感事件挖掘打下基礎(chǔ)。
代表性的用戶畫像標(biāo)簽標(biāo)注方法:針對用戶的網(wǎng)絡(luò)審計日志各類協(xié)議的網(wǎng)絡(luò)內(nèi)容,首先分析用戶是否命中敏感關(guān)鍵詞,其次在分析詞的基礎(chǔ)上,分析用戶的主題標(biāo)簽詞。
敏感用戶在網(wǎng)絡(luò)空間中可能擁有多個賬號信息,但是賬號具有很好的穩(wěn)定性,并且不同賬號之間一定存在一定的關(guān)聯(lián)性,很容易綁定到特定的用戶。因此,主要通過網(wǎng)絡(luò)審計日志中人口統(tǒng)計屬性和賬號屬性兩個方面的信息作為敏感用戶的唯一標(biāo)識。
采用用戶活躍度度量的方法標(biāo)注用戶屬性,用戶活躍度度量主要是針對用戶活躍的程度。在圖引擎中,重點挖掘兩類用戶,一類是活躍度非常高的用戶,另一類是活躍度非常低的用戶。
采用敏感用戶信息完備性度量標(biāo)注用戶屬性,主要按照敏感用戶標(biāo)簽集合中的標(biāo)簽權(quán)重以及標(biāo)簽的優(yōu)先級別計算敏感用戶信息的完備程度。
5.3 基于用戶畫像的敏感用戶挖掘
在數(shù)據(jù)關(guān)聯(lián)的基礎(chǔ)上,從賬號信息、真實身份等出發(fā),挖掘系統(tǒng)日志中用戶使用的各種賬號信息(郵箱、微博等私人賬號),并追蹤敏感用戶的在不同網(wǎng)絡(luò)中使用的各個賬號信息,收集多個數(shù)據(jù)源的行為數(shù)據(jù)、訪問內(nèi)容等。從賬號信息、IP地址信息、內(nèi)容標(biāo)簽、行為特征等多角度盡可能抽取全面的敏感用戶數(shù)據(jù)。進一步從日志的內(nèi)容信息和社交關(guān)系等出發(fā),判定敏感用戶的危險程度。具體方案如圖3所示。
5.4 基于群體關(guān)系挖掘的敏感群體挖掘
敏感用戶在網(wǎng)絡(luò)空間中產(chǎn)生大量的交互信息,通過對敏感用戶交互信息的挖掘,從郵件關(guān)系、APP通信、社交關(guān)系和短信關(guān)系出發(fā),在敏感畫像的支撐下,構(gòu)建敏感用戶的關(guān)系圖譜。在敏感用戶關(guān)系圖譜上主要進行四個方面的挖掘:頻繁關(guān)系挖掘、新關(guān)系挖掘、聯(lián)合群體挖掘和群體標(biāo)簽挖掘,具體的流程如圖4所示。
敏感群體挖掘在敏感用戶身份刻畫的基礎(chǔ)上,進一步針對敏感用戶的關(guān)系網(wǎng)絡(luò)進行挖掘分析,進而實現(xiàn)對敏感群體進行挖掘。
具體的解決方案:抽取敏感用戶的APP通信、郵件、社交(微博)、短信等多個業(yè)務(wù)系統(tǒng)中的日志數(shù)據(jù),采用非平衡二部圖建模敏感用戶之間、敏感用戶和敏感詞之間的關(guān)系。在關(guān)系建模時,主要考慮兩種關(guān)系,一是敏感用戶之間的關(guān)系,二是敏感用戶與敏感詞之間的關(guān)系,建模方法如圖5所示。在考慮用戶之間的關(guān)系時,通過邊的屬性代表敏感用戶之間不同的交互方式,節(jié)點代表用戶,并通過身份刻畫特征表示用戶屬性??紤]用戶和敏感詞之間的關(guān)系時,將各業(yè)務(wù)系統(tǒng)基于關(guān)鍵詞打通,解決各業(yè)務(wù)系統(tǒng)的孤立問題??紤]用戶和敏感詞之間的關(guān)系同時能夠為后續(xù)敏感用戶群標(biāo)簽挖掘奠定基礎(chǔ)。
在關(guān)系建模的基礎(chǔ)上,對關(guān)系圖進行挖掘分析。主要包括四個方面。
頻繁關(guān)系挖掘:以用戶交互圖為基礎(chǔ),通過頻繁模式挖掘算法挖掘用戶之間的頻繁交互模式。
新關(guān)系挖掘:在實時日志處理時,重點關(guān)注新敏感用戶產(chǎn)生的關(guān)系。一是通過新關(guān)系對應(yīng)的敏感用戶身份刻畫特征進行分析,甄別是否需要重點監(jiān)控。 二是分析新關(guān)系對敏感群體聚集效應(yīng)的評估。
聯(lián)合群體挖掘:從用戶交互圖出發(fā),挖掘交互圖中的社區(qū)結(jié)構(gòu)。挖掘算法擬采用局部相似性度量為基礎(chǔ),從內(nèi)容和關(guān)系兩方面聯(lián)合挖掘群體結(jié)構(gòu)關(guān)系。
群體標(biāo)簽挖掘:通過群體用戶的共現(xiàn)敏感詞,挖掘群體標(biāo)簽,進一步展示出群體用戶的意圖。
6 結(jié)束語
大數(shù)據(jù)挖掘分析技術(shù)具有的數(shù)據(jù)量大、挖掘效率高等特點,為大規(guī)模網(wǎng)絡(luò)安全態(tài)勢感知技術(shù)的突破創(chuàng)造了機遇。本文通過采集海量網(wǎng)絡(luò)審計日志的條件下提出一種面向海量網(wǎng)絡(luò)審計體重的敏感用戶挖掘體系架構(gòu),對敏感用戶挖掘分析和大數(shù)據(jù)技術(shù)的結(jié)合點進行了研究,并提出了基于海量網(wǎng)絡(luò)審計日志的大數(shù)據(jù)挖掘分析工作流程、關(guān)鍵技術(shù)研究以及初步解決方案,對于大數(shù)據(jù)在公安取證以及應(yīng)急管理等領(lǐng)域的應(yīng)用研究具有重要探索價值。
參考文獻
[1] 林元華.基于旁路接入的互聯(lián)網(wǎng)訪問內(nèi)容審計系統(tǒng)設(shè)計[D].華東理工大學(xué), 2011.
[2] 殷俊,王海燕,潘顯萌.基于DNS重定向技術(shù)的網(wǎng)絡(luò)安全審計系統(tǒng)[J].計算機科學(xué), 2016, 43(s2):407-410.
[3] 辛晶.基于安全審計系統(tǒng)在網(wǎng)絡(luò)安全管理中的應(yīng)用[J].電子技術(shù)與軟件工程, 2017(21):185-185.
[4] 林迅.信息安全審計系統(tǒng)的架構(gòu)設(shè)計[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用, 2016(10):53-54.
[5] Qing X. Log-Based Network Security Audit System Research and Design[J]. Advanced Materials Research, 2010, 129-131:1426-1431.
[6] 徐開勇, 龔雪容, 成茂才. 基于改進Apriori算法的審計日志關(guān)聯(lián)規(guī)則挖掘[J]. 計算機應(yīng)用, 2016, 36(7):1847-1851.
[7] 成茂才,徐開勇.基于可信計算平臺的審計日志安全存儲系統(tǒng)[J].計算機科學(xué), 2016, 43(6):146-151.
[8] 李旭芳.網(wǎng)絡(luò)信息審計系統(tǒng)中數(shù)據(jù)采集的研究與實現(xiàn)[J].計算機工程與設(shè)計, 2007, 28(3):550-552.
[9] 李明明.基于零拷貝的網(wǎng)絡(luò)信息安全審計系統(tǒng)的設(shè)計與實現(xiàn)[D].華中科技大學(xué), 2015.
[10] 賈王晶.面向網(wǎng)絡(luò)犯罪偵查的日志關(guān)聯(lián)取證技術(shù)研究[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用, 2017(12):152-153.
[11] 張躍仙.網(wǎng)絡(luò)犯罪偵查的IP定位跟蹤技術(shù)研究[J].信息網(wǎng)絡(luò)安全, 2011(6):72-74.
[12] Kelly R, Jacobsen D, Sun Y J, et al. KGraph: a system for visualizing and evaluating complex genetic associations[J]. Bioinformatics, 2007, 23(2):249-251.
[13] Liu J, Yao Y, Fu X, et al. Evolving K-Graph: Modeling Hybrid Interactions in Networks[C]// ACM International Symposium on Mobile Ad Hoc NETWORKING and Computing. ACM, 2017:29.
[14] Ahn J, Hong S, Yoo S, et al. A scalable processing-in-memory accelerator for parallel graph processing[C]// ACM/IEEE, International Symposium on Computer Architecture. IEEE, 2016:105-117.
[15] Kashyap N K, Pandey B K, Mandoria H L, et al. Graph Mining Using gSpan: Graph-Based Substructure Pattern Mining[J]. 2016, 7(2):132.
作者簡介:
李棟科(1983-),男,漢族,河南葉縣人,博士,工程師;主要研究方向和關(guān)注領(lǐng)域:網(wǎng)絡(luò)安全和大數(shù)據(jù)技術(shù)。