◆黃士超
數(shù)據(jù)挖掘在網(wǎng)絡取證中的應用與研究
◆黃士超
(廣州供電局有限公司 廣東 510620)
云計算、大數(shù)據(jù)、移動通信、智能手機、平板電腦等計算機多媒體技術和智能設備的普及應用,即為人們提供了便捷,也助長了犯罪販子作案方法和工具。許多犯罪分子利用智能手機、臺式電腦、筆記本或平板電腦等進行通信交流,密謀策劃和實施犯罪活動,因此公安機關或檢察機關在辦理案件時,不僅需要掌握傳統(tǒng)的取證技術,還需要掌握網(wǎng)絡取證技術。網(wǎng)絡取證可以從繳獲的電子犯罪工具中搜尋犯罪證據(jù),利用這些犯罪證據(jù)為嫌疑人定罪、量刑,進一步維護社會治安和經(jīng)濟繁榮發(fā)展,目前網(wǎng)絡取證技術經(jīng)過多年的研究已經(jīng)誕生了很多,比如高效截包技術、會話重建技術和專家識別系統(tǒng)等,都可以快速的識別網(wǎng)絡犯罪證據(jù),但是隨著犯罪也更加狡猾,信息傳播手段更加復雜、隱蔽性也大大的提升,因此為了能夠更好地提高網(wǎng)絡取證可靠度和可用性,本文提出引入數(shù)據(jù)挖掘技術,利用機器學習將犯罪證據(jù)關聯(lián)在一起進行分析,為抓獲犯罪分子定罪量刑作支撐。
網(wǎng)絡取證;高效截包;會話重建;專家識別系統(tǒng);數(shù)據(jù)挖掘
隨著云計算、大數(shù)據(jù)、4G通信等計算機技術的誕生,有力的提升了人類社會的信息化水平,目前人們進入到“互聯(lián)網(wǎng)+”時代,實現(xiàn)了電子商務、電子政務、手機銀行、在線旅游、智能學習平臺,大大提高了人們工作、生活和學習的信息化、共享化,但是也為一些犯罪分子提供了可乘之機,許多的犯罪分子利用智能手機、微信、微博或QQ等社交多媒體平臺,密謀犯罪活動,或者在網(wǎng)絡上發(fā)布一些不利于和諧社會的犯罪言論,助長了犯罪活動的囂張氣焰[1]。
因此,公檢法機關為了能夠維護社會治安,懲治犯罪活動,開始研究從電子設備中獲取犯罪證據(jù),但是這些犯罪嫌疑人通常會采用隱蔽的會話暗語,也會在第一時間破壞電子設備,因此網(wǎng)絡取證需要恢復這些設備或通訊會話,從而可以獲取犯罪證據(jù)[2]。目前,互聯(lián)網(wǎng)常用的網(wǎng)絡取證技術很多,但是犯罪分子采用的技術也大幅度提升,隱蔽性、破壞性更強,亟須引入更加先進的數(shù)據(jù)挖掘技術,利用深度學習、BP神經(jīng)網(wǎng)絡、支持向量機、K-means算法等,從網(wǎng)絡通信設備中挖掘有用的信息,以便能夠準確地識別犯罪證據(jù)。
網(wǎng)絡取證誕生于20世紀90年代末,一些網(wǎng)絡防火墻等安全防御專家為了幫助公檢法破案,將利用計算機多媒體設備進行犯罪的分子捉獲定罪,開始從網(wǎng)絡通信會話或電子設備中捕獲、記錄和分析犯罪證據(jù)[3]。網(wǎng)絡取證作為一種全新的計算機應用技術,融合了數(shù)字證據(jù)的采集、整合、識別、分析、關聯(lián)、應用等活動過程,可以準確揭示與犯罪活動相關的事實,旨在幫助公安機關抓獲犯罪嫌疑人,并且為其定罪和量刑做輔助支撐[4]。網(wǎng)絡取證涉及的設備多,取證過程充滿復雜性和多樣性,當前常用的技術包括高效截包技術、會話重建技術和專家識別系統(tǒng)等,詳細描述如下。
犯罪分子利用互聯(lián)網(wǎng)進行通信,傳輸?shù)男畔⒖梢酝ㄟ^數(shù)據(jù)包承載,因此為了能夠實時的監(jiān)控犯罪分子電子通信活動,可以采取高效截包技術,該技術可以避免數(shù)據(jù)包丟失,從而損壞犯罪分子的活動,不利于進行協(xié)議分子,可以保證電子證據(jù)的完整性,目前高效截包技術已經(jīng)引入了許多先進技術,比如將程序固話在硬件中,可以提高分析能力和處理速度,進一步提高數(shù)據(jù)處理性能。
會話重建是當前網(wǎng)絡取證的一個關鍵技術,其可以重構犯罪分子通話時的器情景,將斷續(xù)的、散亂無章的網(wǎng)絡會話技術集成在一起,形成一條完整的犯罪通信記錄證據(jù)。會話重建基于數(shù)據(jù)包重組技術,可以將截獲的數(shù)據(jù)包逐層分析,利用TCP/IP協(xié)議進行數(shù)據(jù)重建,重新組合過程中可以獲取更多的有力證據(jù)。
高效截包技術和會話重建技術適用于實時的獲取犯罪證據(jù)的過程,但是由于許多犯罪證據(jù)均已成為歷史信息,并且許多電子設備遭到破壞,因此需要重被破壞的電子設備存儲器中獲取犯罪證據(jù)就變得很難。人們提出利用專家系統(tǒng),可以配合網(wǎng)絡檢測技術和深度包過濾技術,利用專家的經(jīng)驗知識從海量數(shù)據(jù)存儲中恢復電子證據(jù)。目前典型的專家系統(tǒng)包括知識庫和推理機,可以將原始電子證據(jù)信息進行處理和識別,從而可以基于規(guī)則推理系統(tǒng)檢查電子證據(jù)的完整性。
目前,網(wǎng)絡犯罪分子采取的技術更加隱蔽,比如加密數(shù)據(jù)等,一旦犯罪活動被公檢法機關察覺,這些犯罪分子就會大肆破壞電子設備,將存儲的信息刪除。因此網(wǎng)絡證據(jù)的恢復越來越困難,網(wǎng)絡犯罪信息的關聯(lián)性也越來越低。因此,為了能夠使得犯罪證據(jù)更加完整,本文引入了先進的數(shù)據(jù)挖掘技術,利用回歸分析、深度學習和關聯(lián)分析算法,將電子信息證據(jù)集成在一起,提高犯罪證據(jù)的可用性和可靠性。
圖1 基于數(shù)據(jù)挖掘的網(wǎng)絡取證流程
回歸分析能夠有效地挖掘數(shù)據(jù)庫中的屬性值在時間特征產(chǎn)生的網(wǎng)絡證據(jù)信息?;貧w分析可以將相關的數(shù)據(jù)項映射到函數(shù)上,這個函數(shù)是一個關于實值預測變量的,能夠發(fā)現(xiàn)變量或屬性之間的相互依賴關系,進一步發(fā)現(xiàn)數(shù)據(jù)的趨勢特征,預測網(wǎng)絡證據(jù)數(shù)據(jù)的時間序列,發(fā)現(xiàn)網(wǎng)絡證據(jù)數(shù)據(jù)之間的特征關系內(nèi)容,更好地實現(xiàn)數(shù)據(jù)分析與操作,保證網(wǎng)絡證據(jù)信息的生命周期穩(wěn)定。
卷積神經(jīng)網(wǎng)絡是一種多層次的前饋型人工神經(jīng)網(wǎng)絡,包括兩個關鍵卷積層,分別是特征提取層和特征映射層,這兩個層次的出現(xiàn)使得卷積神經(jīng)網(wǎng)絡特別適用于網(wǎng)絡證據(jù)處理。特征提取層能夠與輸入神經(jīng)元進行有效連接,獲取輸入網(wǎng)絡證據(jù)信息,從而可以提取一些網(wǎng)絡證據(jù)特征,并且確定特征在時間序列中的相對位置。特征映射層可以將提取的特征映射到一個平面上,在這個平面上每一個神經(jīng)元都可以賦予相同的權值,經(jīng)過訓練和學習之后,卷積神經(jīng)網(wǎng)絡就可以得到一個良好的神經(jīng)網(wǎng)絡結構,可以更好地應用于網(wǎng)絡證據(jù)特征處理[3]。
Apriori算法可以描述網(wǎng)絡證據(jù)數(shù)據(jù)集中每一個數(shù)據(jù)項之間的關系,也即是如果某一個事件發(fā)生可能會引起其他事件一同發(fā)生,這種關系隱藏在數(shù)據(jù)中。經(jīng)過多年的研究,Apriori算法已經(jīng)得到了極大的改進,引入了許多先進的技術,比如遺傳算法、梯度算子、模擬退火等,提高了關聯(lián)規(guī)則發(fā)現(xiàn)的準確度和高效率,具有重要的作用和意義。
網(wǎng)絡取證是破壞犯罪活動證據(jù)的重要環(huán)節(jié),目前已有不少公檢法機關和人工智能的學者進行了相關的研究。經(jīng)過多年的發(fā)展,網(wǎng)絡取證誕生了高效截包、會話重建、專家識別系統(tǒng),這些網(wǎng)絡取證技術適用于不同的場景。但是,由于犯罪分子的活動更加隱蔽,具有反偵察能力的犯罪分子還破壞了許多的電子設備,存儲的信息也會被覆蓋或破壞,不利于網(wǎng)絡證據(jù)獲取。因此本文提出引入數(shù)據(jù)挖掘技術,基于先進的算法可以將這些證據(jù)信息關聯(lián)在一起,形成一個完整的證據(jù)鏈,幫助人們破獲犯罪分子行動或定罪量刑。
[1]許學添,鄒同浩.基于弱關聯(lián)挖掘的網(wǎng)絡取證數(shù)據(jù)采集系統(tǒng)設計與實現(xiàn)[J].計算機測量與控制,2017,25(1):123-126.
[2]侯歡歡.數(shù)據(jù)挖掘在計算機動態(tài)取證技術中的應用研究[J].數(shù)字技術與應用,2017(8):76-77.
[3]高輝.數(shù)據(jù)挖掘在計算機網(wǎng)絡病毒防御中的應用[J].電子技術與軟件工程,2017(10):216-216.
[4]周永杰.數(shù)據(jù)挖掘技術在計算機犯罪取證中的應用分析[J].數(shù)字通信世界,2018,161(05):117.