張新宇, 陳 鵬, 顧海碩
(中國人民公安大學信息網(wǎng)絡(luò)安全學院,北京 100038)
時空軌跡數(shù)據(jù)是描述主體時空行為的重要手段,特別是在犯罪學中,時空軌跡數(shù)據(jù)能夠精確的刻畫犯罪人員在作案前后的空間行為,因此,利用人群的時空軌跡數(shù)據(jù)能夠有效地挖掘和分析出潛在的犯罪人員,對相關(guān)決策以及偵查破案等都具有很大的參考價值[1-2]。近年來,時空軌跡分析已經(jīng)在海洋地理[3-4]、交通運輸[5-6]、城市熱點分析[7-8]、新冠肺炎疫情防控[9-10]等領(lǐng)域廣泛應(yīng)用并取得了顯著成果,但是在公共安全領(lǐng)域,利用時空軌跡數(shù)據(jù)挖掘和分析犯罪人的時空行為模式,特別是發(fā)現(xiàn)軌跡數(shù)據(jù)中隱藏的異常行為模式還處在一個相對較少被觸及的階段。事實上,目前針對特定軌跡或異常軌跡的挖掘已經(jīng)開展了一些相應(yīng)的工作,如文獻[11]提出一種基于長短期記憶網(wǎng)絡(luò)的異常軌跡挖掘模型,有效識別了異常車輛軌跡;文獻[12]利用ST-DBSCAN算法和重點部位觀測點法標定軌跡數(shù)據(jù),并進行動態(tài)軌跡序列化建模進行了社區(qū)治安高危人員異常軌跡識別。此外,文獻[13]提出了一種時空軌跡的熱點區(qū)域提取算法應(yīng)用于交通管理,能夠高效地提取熱點區(qū)域。
與車輛等主體的異常出行軌跡相比,犯罪嫌疑人異常活動時可以選擇不同類型的交通工具,停留地點也根據(jù)潛在作案地點轉(zhuǎn)換。因此,其軌跡往往具有多模態(tài)、不確定性等特點,給軌跡數(shù)據(jù)分析帶來了較大的困難。然而,在一些特殊類型的犯罪活動中,犯罪嫌疑人仍然具有一定規(guī)律的時空行為模式。以系列入室盜竊案件的嫌疑人主體為例,該類人群屬于職業(yè)化犯罪群體,有著其獨特的行為模式,如在時空行為模式中常常會表現(xiàn)出事前“踩點”、事中“蹲點”、事后快速逃離作案現(xiàn)場等特點,而且往往會選擇在一些特殊時間段作案[14-15]。因此,這些典型的犯罪嫌疑人的行為特征是進行時空軌跡數(shù)據(jù)分析的關(guān)鍵要素,為深入挖掘潛在犯罪嫌疑人異常軌跡提供了可能。
Dempster-Shafer(D-S)證據(jù)理論用于處理不確定信息,推理時不需要先驗概率和條件概率,并依靠證據(jù)的積累不斷減少假設(shè)集的范圍,具有表達“不確定”的能力,利用其組合規(guī)則可以在多證據(jù)下進行異常檢測[16-18]。為此,本文擬利用入室盜竊案件嫌疑人的時空行為模式制定相應(yīng)的經(jīng)驗規(guī)則,基于D-S證據(jù)理論來構(gòu)建一種通過有效挖掘海量時空坐標點軌跡數(shù)據(jù)來發(fā)現(xiàn)潛在犯罪嫌疑人的分析方法,并以實際數(shù)據(jù)的案例來印證該方法的有效性。
D-S證據(jù)理論中的辨識框架Θ包含了所有可能的判別假設(shè),各假設(shè)之間獨立且互斥,其子集共有2Θ個[16]。本文用N={正常}、U={異常}兩種形式表示軌跡是否異常,則辨識框架Θ={U,N}有4種子集,分別為{U}、{N}、{U,N}和?。對?X?Θ,存在基本概率分配(Basic Probability Assignment,BPA)函數(shù)m(X),表示證據(jù)對假設(shè)X的信任程度,m(X)滿足m(?)=0且BPA可通過知識經(jīng)驗給出,根據(jù)BPA可計算證據(jù)對某命題X的信任函數(shù)Bel(X)和似然函數(shù)Pl(X):
式中,Bel(X)為包含在X中的所有子集的BPA之和,表示證據(jù)對X為真的信任程度,Pl(X)表示證據(jù)對X不為假的信任程度。Bel(X)和Pl(X)分別表示證據(jù)對假設(shè)X為真的信任程度的下限和上限,[Bel(X),Pl(X)]稱為信任度區(qū)間[16-21]。
本文在進行異常軌跡檢測前,首先進行時空距離約束,排除沒有作案可能性的主體;之后選取主體在案發(fā)前后是否在案件現(xiàn)場周邊出現(xiàn)(即是否存在“踩點”行為)、案發(fā)時是否圍繞案件現(xiàn)場徘徊(即是否存在“蹲點”行為)、案發(fā)后是否出行速度加快(即是否快速逃離作案現(xiàn)場)等3個指標作為證據(jù)判別軌跡的異常程度。
每個案件都有其時間和空間坐標,落在案件點Ci一定時空范圍外的坐標軌跡點在作案可能性上基本為零,為此,引入時空距離向量Vst=(S,T)表示時空坐標點Pi與案件的空間距離和時間距離。其中S與T的計算公式如下:
根據(jù)時空可達性,定義S和T的臨界值,若Ci與Pi的時空距離超過臨界值,則該Pi的作案嫌疑基本為零。設(shè)符合該條件的主體Bi形成的集合為Dst。
根據(jù)犯罪的時空臨近重復性原理[19-20],系列入室盜竊案件的嫌疑人在作案前大部分會有“踩點”行為,以搜索合適的犯罪目標,而在案件發(fā)生后一段時間,嫌疑人一般會選擇返回作案現(xiàn)場附近再次尋找作案機會。根據(jù)Bi∈Dst,設(shè)條件CLb為Bi在案發(fā)前出現(xiàn),CLa為在案發(fā)后出現(xiàn),擴大空間S的范圍為ds。設(shè)案發(fā)時間為t0,則案發(fā)前的時間距離為tb,案發(fā)后的時間距離為ta,此時Pi與Ci的時空距離條件應(yīng)滿足:(ds,-|t0-ta|)<Vst<(ds,|tb-t0|)。若案發(fā)前后均出現(xiàn),認為滿足經(jīng)驗條件CL。
對有著一定犯罪經(jīng)驗的嫌疑人,其在到達犯罪現(xiàn)場后往往因為目標有人看守并不會立即得手,在這種情況下嫌疑人一般會在目標附近徘徊等待目標看守離開,即“蹲點”行為。從時空軌跡上就會表現(xiàn)出圍繞作案現(xiàn)場的高密度軌跡,即案發(fā)時間前后在案件周圍大量聚集形成的軌跡點團簇。對此,可利用ST-DBSCAN算法進行聚類分析[21-23],以“時間鄰域”和“空間鄰域”作為參數(shù),假設(shè)存在某集合D={X1,X2,…Xn},設(shè)空間距離為Eps1,時間距離為Eps2,閾值點數(shù)目為Minpts,若案件點在周圍空間距離Eps1和時間距離Eps2以內(nèi)出現(xiàn)最少Minpts的軌跡點,則可認為出現(xiàn)了異常高密度軌跡,滿足經(jīng)驗條件CU。
入室盜竊犯罪嫌疑人在得手后通常迅速離開作案現(xiàn)場以躲避偵查。根據(jù)Bi∈Dst,可進行速度分析。設(shè)案發(fā)前主體Bi的移動速度為v1,案發(fā)后移動速度為v2,根據(jù)其經(jīng)緯度信息調(diào)用OSRM路徑規(guī)劃服務(wù),計算案發(fā)前后各10分鐘內(nèi)的移動距離進而計算時間,比較v1與v2的大小。若存在v2>v1,則認為其滿足經(jīng)驗條件Cs。
本文以案發(fā)前后出現(xiàn)CL、速度異常變化Cs和案發(fā)期間軌跡異常CU作為主要證據(jù)分別檢驗每條軌跡為異常的信任程度,其中時空距離約束條件為判別的前提,檢驗流程如圖1所示。Dempster組合規(guī)則根據(jù)多證據(jù)的基本信度分配從而得到綜合的BPA函數(shù),考慮到“Zadeh”悖論,設(shè)置m{U,N}為0.05。Bel(U)表示認為軌跡屬于異常的信任程度,Bel(U)值越大越異常;Pl(U)表示不認為軌跡為異常的程度,Pl(U)值越小越正常[24]。根據(jù)偵查知識經(jīng)驗,Bel(U)>70%的軌跡可認為異常,而Pl(U)<70%的軌跡可認為正常。
圖1 算法流程
本文選取北京市2007~2012年入室盜竊案件數(shù)據(jù)和同期部分人群的時空坐標點軌跡數(shù)據(jù)集為例進行分析。其中案件數(shù)據(jù)共125 654條,軌跡數(shù)據(jù)共有182個主體的18 669條。兩類數(shù)據(jù)均來自于北京市公安局。兩種數(shù)據(jù)中都包含時間信息和經(jīng)緯度點,分別對數(shù)據(jù)進行清洗、去重、格式轉(zhuǎn)換等預處理后,部分案件點和軌跡信息的空間可視化效果如圖2所示,其中線表示軌跡,標記點為案發(fā)點。
圖2 入室盜竊案件與軌跡數(shù)據(jù)示例
首先,根據(jù)異常軌跡研判的基礎(chǔ)條件進行異常軌跡篩選。限定時間范圍為案發(fā)前后各90分鐘以內(nèi),空間范圍為案件現(xiàn)場方圓100米以內(nèi),進行時空匹配,分析結(jié)果如表1所示,前三列表示每年發(fā)生的入室盜竊案件數(shù)目和待分析的軌跡總數(shù)目,時空約束案件數(shù)目表示經(jīng)過時空距離限定后有異常軌跡經(jīng)過的案件數(shù)目,時空約束軌跡數(shù)目表示在案件時空距離之內(nèi)的軌跡量,約束案件占比為時空約束案件數(shù)目與案件總數(shù)目的比值。在182個主體的18 669條軌跡中,發(fā)現(xiàn)201個案件與60個主體的222條軌跡存在顯性關(guān)聯(lián)。為此構(gòu)成主體集合B={B1,B2,…Bi,…B60}。其中,“案件-主體-軌跡”存在多種關(guān)聯(lián)關(guān)系,既包含有某個主體的一條軌跡與一個案件產(chǎn)生關(guān)聯(lián),也包括某個主體的多條軌跡與多個案件產(chǎn)生關(guān)聯(lián),以及多個主體的軌跡與一個案件相關(guān)等。經(jīng)統(tǒng)計,60個主體所涉及的案次共計232次。
表1 時空距離條件約束結(jié)果
證據(jù)指標將直接影響最終的判別結(jié)果,所以依據(jù)每個特征的異常頻率考慮每個證據(jù)指標的設(shè)置,同時如表2所示,根據(jù)統(tǒng)計基本信息R和實戰(zhàn)經(jīng)驗設(shè)置不同條件的可疑程度C。其中,案發(fā)前后時空位置條件約束中,tb設(shè)為3天,ta設(shè)為1天,ds為100米;案發(fā)期間時空位置條件約束中,空間距離Eps1設(shè)為100米,時間距離Eps2設(shè)為30分鐘,閾值點數(shù)目Minpts設(shè)為ln(n),n為分析對象主體的軌跡點數(shù)量。
表2 實驗數(shù)據(jù)統(tǒng)計
由表2得出,在案件現(xiàn)場位置前3天和后1天出現(xiàn)的軌跡數(shù)量比例為4.7%;速度變化異常的主體占比24.6%;而形成案發(fā)期間案件現(xiàn)場“異常高密度軌跡團簇”的主體占比極小,僅有3.4%。需要說明的是,在分析CU時,案件周邊的軌跡密度可能有3種情況,如圖3所示。其中,第一種為主體Bi恰好在案發(fā)時“經(jīng)過”案件現(xiàn)場;第二種為主體Bi長時間滯留在案件現(xiàn)場附近,但與案件位置沒有交集;第三種為主體Bi的軌跡在案件現(xiàn)場周邊高度集中,且與案件位置出現(xiàn)重合現(xiàn)象,即疑似徘徊“蹲點”。因此,在利用ST-DBSCAN算法獲得異常高密度軌跡點后還需要再進一步進行人工研判,符合條件的歸納為CU。
圖3 案件現(xiàn)場周邊異常軌跡的3種行為
本文以CL、CS、CU為主要判斷證據(jù),分別設(shè)置其特征值,根據(jù)實戰(zhàn)經(jīng)驗以及統(tǒng)計數(shù)據(jù)設(shè)定初始BPA如表3所示。
表3 BPA函數(shù)初始值設(shè)定
根據(jù)Bel(U)和Pl(U)的值為不同主體劃分不同程度的等級,檢測結(jié)果及分類等級如表4所示。
表4 檢測結(jié)果及分類等級
其中,可疑程度為A級的案件與軌跡相對時空關(guān)系如圖4所示,其中平面坐標分別為緯度和經(jīng)度,縱向坐標為時間,單位為秒,可見異常軌跡點與案件位置的相對關(guān)系并不顯著,Bel(U)近似為0;可疑程度為D級的案件與軌跡時空關(guān)系如圖5所示,異常軌跡點與案件位置在案發(fā)期間和案發(fā)后出現(xiàn)兩次軌跡重合,Bel(U)為82%;而可疑程度為E級的案件與軌跡時空關(guān)系如圖6所示,整體呈現(xiàn)出圍繞案發(fā)位置頻繁活動的現(xiàn)象,Bel(U)的值為92%。
圖4 A級案件與軌跡時空關(guān)系示例
圖5 D級案件與軌跡時空關(guān)系示例
圖6 E級案件與軌跡時空關(guān)系示例
對預處理過后的222條軌跡,受限于每個案件有其獨有的時空位置,再利用嫌疑人作案特點進行深入挖掘,且本文定量分析了嫌疑程度,為決策者提供了偵查依據(jù),節(jié)省了較大的人力和物力,在傳統(tǒng)的時空碰撞基礎(chǔ)上進一步減小了排查范圍。
對于海量軌跡數(shù)據(jù)而言,每個入室盜竊案發(fā)點的時空位置不同,但嫌疑人活動有其一定的特征。本文針對系列入室盜竊案件嫌疑人的行為特征,在時空距離約束的基礎(chǔ)上提出了一種基于證據(jù)理論和在案發(fā)前后與案發(fā)期間主體位置以及速度變化是否異常的檢測方法,通過異常度區(qū)間[Bel,Pl]對每條軌跡進行檢驗從而圈定異常的活動主體。實驗結(jié)果表明,該方法檢測入室盜竊異常軌跡效果較好,并且可以減少正常軌跡構(gòu)成的“噪聲”,給出相應(yīng)的可疑性等級,對案件研判具有一定的輔助決策作用。后續(xù)工作可結(jié)合案件本身特征、團伙作案下的同行主體分析等更多元的活動特征等行為證據(jù)檢測異常軌跡。