蘇 洋
北京瑞源文德科技有限公司,北京 100176
?
手機電子取證的大數(shù)據(jù)應用*
蘇 洋
北京瑞源文德科技有限公司,北京 100176
大數(shù)據(jù)技術作為當前最為熱門的技術,本文將從電子取證的應用出發(fā),針對當前智能機數(shù)據(jù)的關聯(lián)分析方法,對當前主要分析手段進行總結,找到與大數(shù)據(jù)技術的結合點,給出大數(shù)據(jù)應用的幾個可能的方向,并對未來的應用進行展望。
電子取證;數(shù)據(jù)關聯(lián)分析;智能手機大數(shù)據(jù)應用
手機數(shù)據(jù),尤其是智能手機數(shù)據(jù)伴隨著智能手機軟硬件的高速發(fā)展,目前每月智能手機但從移動運營商產(chǎn)生的上網(wǎng)流量數(shù)據(jù)量也已經(jīng)平均達到1Gb,愛立信移動報告了解到,等到2021年,智能手機普通用戶每個月將用掉8.9 GB的數(shù)據(jù)。智能手機數(shù)據(jù)本身,還將包括機身存儲,云端備份,電腦備份等,如何應對這些數(shù)據(jù),來更好的完成數(shù)據(jù)關聯(lián)分析,相信大數(shù)據(jù)應用技術可以給我們指明方向。[1]
(一)手機號碼聯(lián)系人數(shù)據(jù)分析
作為傳統(tǒng)手機數(shù)據(jù)分析,以往最為關心的就是嫌疑人手機中的手機號碼聯(lián)系人碰撞分析模型。即將所有相關手機中的通訊錄、通話記錄、短信息進行存儲,以電話號碼為核心數(shù)據(jù)進行分析,這種分析的模型單一,數(shù)據(jù)量小,碰撞結果有限。只能給出有或無的單一指向性數(shù)據(jù)結果,作用有限.
(二)手機相關關系型數(shù)據(jù)分析
目前手機數(shù)據(jù)分析的最主要訴求,集中在時空刻畫,也就是是與時間,位置相關的數(shù)據(jù)關聯(lián)分析。在手機數(shù)據(jù)中與位置相關的數(shù)據(jù)關聯(lián)性被更多的關注與使用,下面將針對4種主要位置相關數(shù)據(jù)的分析手段總結如下:
1.通話基站數(shù)據(jù)。利用手機通話、上網(wǎng)時使用的運營商基站進行地理位置映射的數(shù)據(jù)分析模型。根據(jù)手機運營商基站的密度不同,定位的精度也從城市中的幾百米到鄉(xiāng)村的幾公里。
2.wifi ap數(shù)據(jù)。利用手機中wifi聯(lián)接數(shù)據(jù),根據(jù)wifi公共ap定位位置信息,目前公共wifi ap的相關數(shù)據(jù)庫已經(jīng)在陸續(xù)投入使用中,個人ap的位置數(shù)據(jù)則可以根據(jù)mac唯一性進行反向印證。
3.照片GPS數(shù)據(jù)。隨著手機中GPS數(shù)據(jù)的不斷豐富,照片圖片文件的Exif數(shù)據(jù)中有可能存儲當前照片拍攝地的準確GPS數(shù)據(jù),可以作為位置數(shù)據(jù)直接使用。
4.app定位數(shù)據(jù)。隨著智能手機app的不斷豐富,如下類別的APP數(shù)據(jù)中都有可能涉及到城市,鄉(xiāng)村,區(qū)域等的大范圍位置相關信息:
(1)點評類:當前位置LBS應用,附近商業(yè)信息等。
(2)地圖導航:當前位置,導航記錄。
(3)運動記錄:路書、軌跡、城市信息。
(4)天氣類:當前城市,周邊信息。
(5)旅游類:當前城市,目的地信息,訂單(交通工具、住宿)。
(6)交友類:當前城市,附近數(shù)據(jù)。
(7)上網(wǎng)類:當前城市。
(8)可穿戴設備APP:當前位置,軌跡。
(9)拼車類:當前位置,訂單數(shù)據(jù),軌跡等。
當前的大數(shù)據(jù)分析,除了個人的軌跡分析模型以外,還可以利用分析結果數(shù)據(jù)再次進行關聯(lián)分析,通行分析,碰面分析等都是在這個基礎上建立起來的,也是當前大數(shù)據(jù)應用的一個重要方面[2]。
同時,基于溝通的數(shù)據(jù)分析模型也已經(jīng)從電話號碼為核心數(shù)據(jù)進化為個人app虛擬身份即ID為核心數(shù)據(jù)的分析模型,將嫌疑人的所有虛擬身份,即眾多溝通app中的虛擬身份進行和并后統(tǒng)一分析,對所有溝通形式進行量化,進行親密程度,組織結構,上下級等等多種分析上來。
(三)手機內(nèi)容自識別大數(shù)據(jù)分析
在智能手機的快速發(fā)展浪潮的背景下,智能手機存儲的快速增長,個人數(shù)據(jù)量的規(guī)模也隨之快速增長起來,如何將這些非關系型數(shù)據(jù)進行分類,匯總,查詢,關聯(lián),也就是真正意義上的大數(shù)據(jù)分析,作為手機案件中數(shù)據(jù)挖掘的重要課題已經(jīng)出現(xiàn)在我們的面前。
下面單純以溝通類個人APP數(shù)據(jù)為例,嘗試分析建模如下:
1.語音:基于語音識別引擎,快速將語音文件轉(zhuǎn)換為語義后歸檔分析。
2.視頻:基于視頻識別技術,將可能的位置信息,內(nèi)容梗概進行自動分析。
3.圖片:基于圖像識別,面部識別,分析人物,位置,時間,內(nèi)容等等關鍵信息。
4.文件:基于語義匯總歸類,對文件內(nèi)容概要,關鍵詞過濾,詞頻統(tǒng)計等進行文件分類匯總。
5.文字:基于溝通文字,對內(nèi)容直接進行關聯(lián)分析。
綜上所述,在手機取證行業(yè)中,我們以往和現(xiàn)在的大數(shù)據(jù)應用,還僅僅是在手機數(shù)據(jù)中的關系型數(shù)據(jù)為基礎上,進行的分析建模,關聯(lián)分析,是原有大數(shù)據(jù)行業(yè)中,商業(yè)智能類型分析的一種延伸。
同時,可以看到伴隨智能手機的發(fā)展,個人數(shù)據(jù)的快速膨脹,智能手機APP數(shù)據(jù)種類與類型還在伴隨APP的數(shù)量快速增長過程中??梢灶A見的將來,就會有“海量”的數(shù)據(jù)涌入,應對此種情況,只有利用大數(shù)據(jù)的非關系型數(shù)據(jù)識別分類技術來進行自動化、半自動化的海量數(shù)據(jù)清洗解析與挖掘。為后期的數(shù)據(jù)關聯(lián)分析建立良好的基礎。
[1]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,50(1).
[2]王鋒,王恒認.手機定位技術的應用與問題——以犯罪偵查為視角[J].安徽警官職業(yè)學院學報,2013(6).
*證據(jù)科學教育部重點實驗室(中國政法大學)開放基金資助課題(2010KFKT06)。
D
A
蘇洋(1978-),男,漢族,北京人,研究生,北京瑞源文德科技有限公司,研發(fā)經(jīng)理,研究方向:手機電子取證。