撖重祖
[摘 要] 計算機網(wǎng)絡(luò)的興起給人們帶來方便的同時,也促發(fā)了網(wǎng)絡(luò)犯罪的發(fā)生。大數(shù)據(jù)社會計算技術(shù)的產(chǎn)生,可以給我們打擊網(wǎng)絡(luò)犯罪,理清犯罪網(wǎng)絡(luò)體系提供重要的方法和依據(jù),如何合理科學(xué)的利用海量數(shù)據(jù)來打擊網(wǎng)絡(luò)犯罪成為當今大數(shù)據(jù)領(lǐng)域的重要課題。
[關(guān)鍵詞] 大數(shù)據(jù);社會計算;犯罪網(wǎng)絡(luò);分析;
[中圖分類號] TP39 [文獻標識碼] A [文章編號] 1002-8129(2017)02-0111-03
計算機網(wǎng)絡(luò)的興起不斷引領(lǐng)著社會的持續(xù)發(fā)展,從地球家園到地球村,人們的距離隨著網(wǎng)絡(luò)的出現(xiàn)逐漸縮短,形成了用于人際交互和通信的虛擬世界。自“9·11事件”后,網(wǎng)絡(luò)空間安全逐漸引起了世界各界的高度重視,而“人肉搜索”的出現(xiàn),再一次撼動人們的神經(jīng),上至政府機關(guān),下至百姓團體,無一不對這個虛擬的世界產(chǎn)生懷疑,是利是弊人們眾說紛紜。
就在人們覺得網(wǎng)絡(luò)空間仍朝著美好的方向發(fā)展的時候,一群居心叵測的不法分子早已將邪惡的雙手伸向善良的人們,從“猜猜我是誰”到“我是你的領(lǐng)導(dǎo)來我辦公室”,電信詐騙花樣不斷翻新,讓人防不勝防。正當人們?yōu)榱藢Ω陡魇礁鳂拥碾娦啪W(wǎng)絡(luò)詐騙絞盡腦汁的時候,以往傳統(tǒng)的犯罪活動也在網(wǎng)絡(luò)上不斷興風(fēng)作浪,網(wǎng)絡(luò)招嫖、網(wǎng)上販毒、網(wǎng)際賭場等違法犯罪活動屢禁不止,而此類犯罪活動又屬于人在境內(nèi),物在境外的分離式犯罪行為,我們對此只能束手無策。
隨著社會計算的產(chǎn)生,網(wǎng)絡(luò)關(guān)系挖掘逐漸浮現(xiàn)在人們眼前。從facebook到twitter,都使用了社會網(wǎng)絡(luò)分析的方法對其用戶群進行了進一步的挖掘,形成了獨具特色的社群推薦等相關(guān)功能。而這些方法的應(yīng)用也向世界各國的執(zhí)法機關(guān)提供了打擊網(wǎng)絡(luò)犯罪的新思路,執(zhí)法機關(guān)可以通過已知的相關(guān)新聞報道、電子物證等挖掘出犯罪團伙的大致信息,逐步形成現(xiàn)有的犯罪網(wǎng)絡(luò)分析技術(shù)的雛形。
犯罪網(wǎng)絡(luò)分析主要是基于犯罪組織結(jié)構(gòu)的研究,如恐怖襲擊、電信網(wǎng)絡(luò)詐騙、制毒販毒等,與盜竊等單人犯罪活動不同的是,這些犯罪活動具有嚴密的團伙組織,并且在組織中具有嚴格的等級制度,就恐怖襲擊而言,有幕后策劃者、武器裝備籌備者、恐怖活動實施者、軌跡擦除者等角色,而且每一個環(huán)節(jié)都緊密相連,有專門的團隊負責,且這些團隊都有自己的領(lǐng)導(dǎo)和下屬,保證團隊的運轉(zhuǎn)和恐怖活動的順利實施,正因為這些細小的環(huán)節(jié)導(dǎo)致打擊網(wǎng)絡(luò)犯罪活動愈發(fā)的困難。因此,犯罪網(wǎng)絡(luò)分析從整合各類犯罪活動信息入手,發(fā)現(xiàn)相關(guān)犯罪團伙的組織結(jié)構(gòu)和犯罪規(guī)模,從而為打擊犯罪提供有力保障。據(jù)報道,在“9·11事件”發(fā)生之后,F(xiàn)BI就曾通過社團分析和聚類來虛擬地構(gòu)建基地組織的基本框架結(jié)構(gòu),試圖通過此結(jié)構(gòu)來打破對于恐怖組織的零了解,但由于生成的社團缺乏層級關(guān)系,只是簡單的聚類,所以只是獲取了恐怖組織的人員配置和規(guī)模,并沒有深入地了解其組織架構(gòu)。
鑒于以往的犯罪分析工作都是通過手動整合和分析,耗時耗力,且準確率極低,為此國外率先研究出了例如Encase、Notebook等分析取證工具來對抗網(wǎng)絡(luò)犯罪。這些工具的出現(xiàn)雖然在一定程度上遏制網(wǎng)絡(luò)犯罪,但沒有從根本上解決網(wǎng)絡(luò)犯罪的問題,治標不治本,如何快速的發(fā)明一種強大的分析工具是重中之重。
美國心理學(xué)家米爾格蘭姆曾提出了六度分隔理論,該理論成功闡述了人與人之間存在的“弱紐帶”效應(yīng),也就是說每一個人和社會中的任何一個陌生人只需要通過六個人就可以相識,“弱紐帶”效應(yīng)不僅可以在求職、交往等方面起到重要的作用,更可以拉近人與人之間的關(guān)系。
正是基于六度分割理論,執(zhí)法部門從社會計算入手,正式提出犯罪網(wǎng)絡(luò)分析。犯罪網(wǎng)絡(luò)分析基于社會網(wǎng)絡(luò)分析,從獲取的公開信息入手,對海量的數(shù)據(jù)進行深層次挖掘,從而得出犯罪網(wǎng)絡(luò)的組織結(jié)構(gòu)。類似網(wǎng)絡(luò)人際關(guān)系挖掘,犯罪網(wǎng)絡(luò)分析也具有符合自身體系的語料庫,如我們可以從語句“李四是XX犯罪團伙的一號人物”得出李四應(yīng)該作為我們對此犯罪團伙分析的主要對象,并且我們可以預(yù)測到李四將會是所有語料庫中權(quán)重最大的詞語,并且會作為中心一號點,因而此犯罪集團的組織結(jié)構(gòu)會以其為最高點不斷向下展開,形成一定的結(jié)構(gòu)圖。以此類推,根據(jù)我們大數(shù)據(jù)庫中的各種數(shù)據(jù),從鏈接挖掘、pagerank算法入手,結(jié)合隨機游走模型,最后通過可視化技術(shù)即可得出相關(guān)犯罪團伙的組織結(jié)構(gòu)示意圖。此模型生成的示意圖不僅分析各人物實體間的關(guān)系,也就其所處的層級關(guān)系進行深入剖析,構(gòu)建具有一定層級關(guān)系的模型。
與微軟亞洲研究院提出的人立方不同的是,犯罪網(wǎng)絡(luò)分析不僅在圖形展示上突出重點人物以及人物之間的關(guān)系,還進一步計算出犯罪組織中的親密度,也就是通過權(quán)重規(guī)劃出策劃者、實施者等角色,為執(zhí)法部門打擊和瓦解犯罪團伙提供重要的依據(jù)。而且根據(jù)犯罪網(wǎng)絡(luò)模型的基本框架,如若所要分析的犯罪集團的成員出現(xiàn)變故,使用者將此消息輸入待分析的語段數(shù)據(jù)庫,那么此模型就會根據(jù)數(shù)據(jù)庫新添加的語段對現(xiàn)有已經(jīng)生成的完整網(wǎng)絡(luò)結(jié)構(gòu)進行部分修改。如某犯罪集團的組織者被警方擊斃或者逮捕,那么模型會根據(jù)數(shù)據(jù)庫中新添加的語段將此人名從網(wǎng)絡(luò)結(jié)構(gòu)中抹除,然后就現(xiàn)存的實體人名權(quán)重根據(jù)已有的數(shù)據(jù)進行分析,預(yù)測出下一個有可能成為組織領(lǐng)導(dǎo)者的人物,將其名稱放在網(wǎng)絡(luò)結(jié)構(gòu)的頂端,形成一個新的犯罪網(wǎng)絡(luò)。根據(jù)當今社會各類組織的層次結(jié)構(gòu),無論是公司還是行政機關(guān),都是呈現(xiàn)出金字塔式的分級,而犯罪網(wǎng)絡(luò)也是如此,故本文所述模型生成的網(wǎng)絡(luò)也是基于現(xiàn)實中的金字塔式層級,即從頂端到底端的人數(shù)逐漸增多。
就現(xiàn)今的犯罪網(wǎng)絡(luò)分析技術(shù)而言,仍存在許多不足之處,如無法通過權(quán)重實現(xiàn)人名與照片的一一對應(yīng),即使知道了組織結(jié)構(gòu),如若犯罪狡猾地使用了假名就會導(dǎo)致權(quán)重產(chǎn)生分歧,導(dǎo)致組織結(jié)構(gòu)產(chǎn)生錯誤,從而使得案件偵破無法進一步開展。就現(xiàn)今社會中存在的各類犯罪集團而言,其內(nèi)部都是以一定的化名或者代號來規(guī)定每個人,不僅方便組織串聯(lián)也有利于逃避警方的追捕,因此如何實現(xiàn)各人物真名、化名或者代號的一一對應(yīng)是現(xiàn)如今各類犯罪網(wǎng)絡(luò)分析模型所需解決的重點問題。
為此,我們會通過比較人物實體關(guān)系抽取中比較成熟的系統(tǒng),如Snowball系統(tǒng)和FASTUS抽取系統(tǒng),結(jié)合T-Rex關(guān)系抽取框架來對其進行改進,在保證準確率的前提下,提高抽取效率,實現(xiàn)對應(yīng)關(guān)系。
通過結(jié)合上述系統(tǒng),犯罪網(wǎng)絡(luò)分析技術(shù)所需要的框架就具有了一定的體系結(jié)構(gòu),在此基礎(chǔ)上,我們進一步優(yōu)化語料庫和測試用例,確保人物實體和姓名一一對應(yīng),保證數(shù)據(jù)的完整性和統(tǒng)一性,就此形成了犯罪網(wǎng)絡(luò)分析模型,并在未來會逐步完善此模型。
此模型較以往的手繪犯罪網(wǎng)絡(luò)有一定的提高,但由于人類關(guān)系不斷拓展,各家族之間產(chǎn)生了較多的聯(lián)系,同名同姓的人數(shù)也急劇增加,而重名問題在各類實體抽取技術(shù)中仍較難解決。為此,國外高校的研究院提出了基于詞語相似度的消歧技術(shù),該技術(shù)通過統(tǒng)計規(guī)律設(shè)計出較為龐大的語料庫,然后根據(jù)實體抽取所獲得的實體名稱,將其與語料庫中的相似權(quán)重從高到低的語料進行相似度檢測,并依據(jù)實驗結(jié)果所設(shè)定的閾值對其進行判斷,如若相似度高于閾值,則將其歸于和語料相似的語義中,若差別較大,則將其與下一個相似度較高的語料進行對比,直至找到相似度高于閾值的語料,獲取相應(yīng)的語義。
隨著國際環(huán)境的風(fēng)云突變和大數(shù)據(jù)技術(shù)的日益完善,犯罪網(wǎng)絡(luò)分析必將作為現(xiàn)今社會打擊網(wǎng)絡(luò)犯罪的重要手段應(yīng)用于各類執(zhí)法部門,以此提高打擊違法犯罪的效率,隨著相應(yīng)技術(shù)的迅速發(fā)展會愈發(fā)完善,為提高社會治安,維護社會穩(wěn)定做出重要貢獻。
[參考文獻]
[1] Tang L, Liu H. Community Detection and Mining in Social Media[M]. Community detection and mining in social media. Morgan & Claypool Publishers, 2010.
[2]王飛躍. 社會計算的基本方法與應(yīng)用[M]. 浙江大學(xué)出版社, 2013.
[3] Brandes U. A Faster Algorithm for Betweenness Centrality.J Math Soc[J]. Journal of Mathematical Sociology, 2004, 25(2).
[4] Girvan M, Newman MEJ. Community structure in social and biological network.2002
[5] 包昌火, 謝新洲, 申寧. 人際網(wǎng)絡(luò)分析[J]. 情報學(xué)報, 2003, 22(3).
[責任編輯:譚曉影]