張永田, 吳升
(福州大學 福建省空間信息工程研究中心, 福建 福州 350003)
?
采用時空重排掃描統(tǒng)計量的犯罪集聚可視分析
張永田, 吳升
(福州大學 福建省空間信息工程研究中心, 福建 福州 350003)
首先,基于時空重排掃描統(tǒng)計量方法,對福州市2014年案事件數(shù)據(jù)進行日尺度與小時尺度的時空重排掃描統(tǒng)計,得到不同尺度下的犯罪時空集聚區(qū).然后,結(jié)合數(shù)據(jù)可視化技術,對分析結(jié)果進行多尺度、多視角的交互式可視化設計.結(jié)果表明:用戶可以通過選擇日期尺度,按月或按月日期段、周日期段查看犯罪熱點空間分布;也可以通過選擇小時尺度,按時段查看周日期或節(jié)假日犯罪熱點的空間分布.
掃描統(tǒng)計; 犯罪熱點; 交互式; 可視分析; 空間尺度; 時空聚集
隨著公安部“金盾工程”二期的完成,全國公安通信網(wǎng)絡和信息系統(tǒng)應用水平得到進一步的提升,案件信息每年以100~120萬條的速度遞增[1].面對不斷增長的海量信息,缺乏有效的數(shù)據(jù)挖掘及可視化分析手段使公安部門陷入了“庫中有數(shù)而心中無數(shù)”的困境.傳統(tǒng)的犯罪空間數(shù)據(jù)挖掘方法將時間和空間信息割裂開,無法全方位、立體地挖掘更深層的、富有價值的信息.此外,犯罪可視化與犯罪數(shù)據(jù)分析出現(xiàn)相互脫節(jié)的現(xiàn)象[2],特別是交互式可視化的設計方面尤為欠缺.掃描統(tǒng)計法是空間統(tǒng)計學的重要方法之一,眾多學者對其進行了相關研究[3-11].這些研究得到的犯罪集聚熱點空間范圍廣,時間跨度大,對犯罪預防的指導意義不大.本文選取更小的時間、空間尺度,針對目前犯罪時空數(shù)據(jù)挖掘方法與犯罪時空數(shù)據(jù)交互式可視分析的不足[12],應用時空重排掃描統(tǒng)計方法探測犯罪的時空集聚特性.
運用時空重排掃描統(tǒng)計法探測案事件的集聚區(qū)域.利用一個圓柱體掃描窗口,其底面中心對應于探測的地理區(qū)域中的一點,高則對應于相應的時間區(qū)間.底面半徑逐漸增大,使掃描的空間區(qū)域不斷擴大,直至設定的最大半徑.同時,圓柱體的高度也逐漸增加,每次增加一個規(guī)定的時間單位,直至預設的上限為止.掃描窗口的變化過程在整個研究區(qū)域內(nèi)重復進行,最終將生成數(shù)量龐大的掃描窗口.采用廣義似然比(GLR)判斷每個掃描窗口內(nèi)的案事件數(shù)量是否異常,其值反映該窗口為集聚的可能性,具有最大函數(shù)值的窗口即最有可能是集聚的[13].然后,利用蒙特卡羅假設檢驗方法對得到的候選聚集區(qū)域進行非隨機性的置信度分析,最終得到合理的犯罪集聚區(qū)[8].具體的建模過程[14]如下所示.
某一研究區(qū)z在d天中的案件數(shù)為Cz,d,則所有區(qū)域在所有時間范圍內(nèi)的總案件量C為
(1)
每個單位區(qū)域每天的預期案件量μz,d為
(2)
則圓柱體掃描窗口A內(nèi)的預期案件量為
(3)
令CA為圓柱體窗口A中的實際案件量,CA服從均數(shù)為μA的超幾何分布,其概率函數(shù)為
(4)
(4)
廣義似然函數(shù)值反映窗口為集聚的可能性.因此,在所有的候選集聚窗口里,最大的窗口最不可能是隨機發(fā)生的,最有可能是有效集聚的.通過計算掃描統(tǒng)計量能夠得出大量的可能為集聚的窗口,但為了驗證探測到的集聚窗口的非隨機性,還需要對這些區(qū)域進行置信度分析.掃描窗口統(tǒng)計量的無效假設為:案件量在時間和空間上的分布完全隨機.要得到掃描窗口統(tǒng)計量的概率分布極為困難,即使對一維的時間掃描統(tǒng)計量而言,其概率分布也十分復雜.
因此,通常情況下,可運用蒙特卡羅假設檢驗方法進行P值的計算.首先,根據(jù)總的案件數(shù)生成N個隨機分布的數(shù)據(jù)集,每個數(shù)據(jù)集都能夠得出各自最大的似然函數(shù)值,再將真實數(shù)據(jù)集中窗口的GLR與N個隨機生成的數(shù)據(jù)集的N個最大似然函數(shù)值進行由小到大的排序.若真實數(shù)據(jù)集某窗口的GLR排在第Q位,則P值為Q/N+1.因此,Q的排序越靠前,P值越小,說明集聚窗口屬于隨機的可能性越小.例如,利用蒙特卡羅方法生成999個隨機分布數(shù)據(jù)集,某窗口的廣義似然比排在第30位,則P=30/999+1=0.003,則該集聚窗口為隨機的概率為3%;若排序為10,則隨機的概率為1%.
研究區(qū)域為福州市行政管轄區(qū)中的鼓樓區(qū)、倉山區(qū)、臺江區(qū)全境,以及晉安區(qū)與馬尾區(qū)的部分街道(北緯25°57′~26°24′,東經(jīng)119°10′~119°39′).研究區(qū)域面積大約為408km2,常住人口大約為276.3萬[13].數(shù)據(jù)為經(jīng)過脫敏脫密處理后的2014年福州市案件數(shù)據(jù).
2.1日尺度犯罪時空
利用SaTScan9.3軟件對2014年福州各月案事件數(shù)據(jù)進行時空重排掃描統(tǒng)計分析.掃描窗口的最大空間上限為300m,即底面半徑最大為300m;窗口的時間跨度為1~15d,時間變化步長為1d;蒙特卡羅法模擬次數(shù)為999,當P<0.05時,認為犯罪集聚.以1月份盜竊案件為例,時空重排掃描統(tǒng)計后的結(jié)果,如表1所示.表1中:r為半徑;n為案件數(shù).
表1 1月份盜竊電動車案件聚集區(qū)探測結(jié)果
由表1可知:通過蒙特卡羅方法計算得出的6個犯罪熱點的P值為0.009 0~0.031 8,表明這些熱點集聚區(qū)域為隨機的概率是0.90%~3.18%,即集聚區(qū)屬于隨機的可能性非常小,因此,具有很高的非隨機性,是有意義的集聚區(qū).
為了從多角度查看月尺度下各個犯罪熱點的時空分布情況,設計以下3種交互可視方式.
圖1 1月份盜竊電動車案件聚集區(qū)可視分析Fig.1 Visual analysis of stealing electric bikes clusters in January
1) 按月查看犯罪熱點空間分布.如圖1所示.用戶可以通過左上部分的“月份軸”或“上月”、“下月”箭頭選擇某一月份.然后,選取案件類別中的某一類案件(缺省為所有種類案件).此時,甘特圖用空心矩形表示不同犯罪熱點所在的日期段,右側(cè)地圖用空心圓形表示該月所有犯罪熱點的空間分布,圓的大小代表了熱點范圍(掃描半徑).
用戶可以在甘特圖上選取該月的某個日期段,右側(cè)地圖以灰色圓形顯示所選日期對應的熱點位置;或者在右側(cè)地圖上選擇某個熱點,可查看該熱點的所屬轄區(qū)、日期、熱點半徑、案事件數(shù)量等詳細信息,左側(cè)甘特圖上將用灰色矩形顯示該熱點發(fā)生的日期段.
2) 按月日期段查看犯罪熱點空間分布,如圖2所示.用戶可以通過左上部分的“月日期軸”選取日期段(如6~8日),然后,選取案件類別中的某一類案件(缺省為所有種類案件).
此時,年歷圖上所有6~8日出現(xiàn)犯罪熱點的都用矩形框加以強調(diào).右側(cè)地圖用空心圓形表示當年所有6~8日出現(xiàn)犯罪熱點的空間分布.用戶也可在地圖上選取某一熱點查看該熱點詳情,年歷圖將以灰底矩形框著重顯示該熱點對應的月日期段.
3) 按周日期段查看犯罪熱點空間分布,如圖3所示.用戶可以通過左上部分的“周日期軸”選取一定日期段(如周一),也可選取案件類別中的某一類案件(缺省為所有種類案件).
此時,年歷圖上當年在周一出現(xiàn)賭博犯罪熱點的日期用矩形框加以強調(diào),右側(cè)地圖用空心圓形表示當年在周一出現(xiàn)犯罪熱點的空間分布.用戶也可在地圖上選取某一熱點查看該熱點詳情,年歷圖將以灰底矩形框著重顯示該熱點對應的周日期段.
圖2 6~8日扒竊案件聚集區(qū)可視分析 圖3 周一賭博案件聚集區(qū)可視分析 Fig.2 Visual analysis of pickpocket Fig.3 Visual analysis of gambling clusters on 6 to 8 clusters on Monday
2.2小時尺度犯罪時空
利用SaTScan 9.3軟件對2014年福州案事件數(shù)據(jù)按“小時”進行時空重排掃描統(tǒng)計分析.半徑上限為300 m,時間跨度為1~3 h,時間變化步長為1 h;蒙特卡羅法模擬次數(shù)為999,當P<0.05時,認為犯罪集聚.以周六案事件數(shù)據(jù)為例,時空重排掃描統(tǒng)計后的結(jié)果,如表2所示.
由表2可知:8個犯罪熱點的P值為0.013 0~0.049 9,表明了這些熱點集聚區(qū)域為隨機的概率是1.30%~4.99%,屬于隨機的可能性很小,具有較高的非隨機性.
在時段熱點的可視化設計方面,可以通過時鐘圖直觀地反映熱點的案發(fā)時段,如圖4所示.將圓分為12個區(qū)域,如圖4(a)所示.圖4(b),(c)中:灰色區(qū)域表示熱點時段;圓環(huán)內(nèi)部的“AM”表示午前0~12時,“PM”表示午后12~0時.由圖4(b),(c)可知:午前犯罪熱點出現(xiàn)在9~10時;午后犯罪熱點出現(xiàn)在7~8時.
表2 周六入室盜竊案件聚集區(qū)探測結(jié)果
(a) 時段熱點劃分 (b) 午前熱點時段 (c) 午后熱點時段圖4 時段熱點可視化設計Fig.4 Visual design of time periods hotspot
圖5 周六15~16時入室盜竊案件聚集區(qū)可視分析Fig.5 Visual analysis of burglary clusters from 15 to 16 pm on Saturday
為了方便用戶從多個角度對小時尺度的犯罪熱點進行時空分析,設計按周日期查看犯罪熱點空間分布,如圖5所示.
由圖5可知:用戶可通過左上部分的“時鐘圖”設置某一時段范圍(如15~16時),可選取某一周日期(缺省為所有周日期)或是將選項卡切換到節(jié)假日,選取某一節(jié)假日,再選取某一案件類別(缺省為所有種類案件),右側(cè)地圖用空心圓形表示當年在周六15~16時出現(xiàn)犯罪熱點的空間分布.用戶也可選取地圖上的某一熱點查看詳情.
基于時空數(shù)據(jù)挖掘理論、信息可視化技術,運用時空重排掃描統(tǒng)計方法,對福州市主城區(qū)2014年案事件進行時空聚集性分析.對案事件數(shù)據(jù)分別進行日尺度及小時尺度的時空重排掃描統(tǒng)計,將得到的分析結(jié)果運用信息可視技術對犯罪聚集區(qū)進行表達.通過對數(shù)據(jù)挖掘的結(jié)果進行多尺度、多視角的交互可視化設計,方便用戶對犯罪熱點進行多角度的查看分析,為公安部門科學決策提供技術支持.下一步將研究犯罪的預測,將研究區(qū)域格網(wǎng)化,分析各種場景(如商場、醫(yī)院、KTV、網(wǎng)吧等)對犯罪的影響并結(jié)合有效的預測模型,對各個網(wǎng)格犯罪的案發(fā)概率進行計算,為公安部門進一步細化警力配置提供依據(jù).
[1]程春惠.公安犯罪案件文本挖掘關鍵技術研究[D].杭州:浙江大學,2010:1-2.
[2]李代超,吳升.面向不同主題的犯罪大數(shù)據(jù)可視分析[J].地球信息科學學報,2014(5):735-745.
[3]NAUS J I.The distribution of the size of the maximum cluster of points on a line[J].Journal of the American Statistical Association,1965,60(310):532-538.
[4]KULLDORFF M,HEFFERNAN R,HARTMAN J.A space time permutation scan statistic for disease outbreak detection[J].Plos Medicine,2005,2(3):216-224.
[5]NAKAYA T,YANO K.Visualising crime clusters in a space-time cube: An exploratory data-analysis approach using space-time kernel density estimation and scan statistics[J].Transactions in GIS,2010,14(3):223-239.
[6]LEITNER M,HELBICH M.The impact of hurricanes on crime: A spatio-temporal analysis in the city of Houston, Texas[J].Cartography and Geographic Information Science,2011,38(2):213-221.
[7]王占宏.基于掃描統(tǒng)計方法的上海犯罪時空熱點分析[D].上海:華東師范大學,2013:89-97.
[8]ZEOLI A,PIZARRO J,GRADY S,et al.Homicide as Infectious disease: Using public health methods to investigate the diffusion of homicide[J].Justice Quarterly,2014,31(3):609-632.
[9]王培安,羅衛(wèi)華,白永平.基于空間自相關和時空掃描統(tǒng)計量的聚集比較分析[J].人文地理,2012(2):119-127.
[10]唐咸艷,李嶠,黃秋蘭,等.時空掃描統(tǒng)計量三維可視化的實現(xiàn)[J].中國衛(wèi)生統(tǒng)計,2015(4):693-694.
[11]李小洲,王勁峰.空間掃描統(tǒng)計量方法中候選聚集區(qū)域生成的快速算法[J].地球信息科學學報,2013(4):505-511.
[12]福州市統(tǒng)計局.福州統(tǒng)計年鑒[M].北京:中國統(tǒng)計出版社,2012:22-23.
[13]殷菲.時-空掃描統(tǒng)計量在傳染病早期預警中的應用研究[D].成都:四川大學,2007:20-21.
[14]LEITNER M.Crime modeling and mapping using geospatial technologies[M].Dordrecht:Springer Netherlands,2013:320-436.
[15]周麗君,張興裕,馬越,等.前瞻性時空掃描統(tǒng)計量與時空重排掃描統(tǒng)計量在傳染病聚集性探測中的適用性探討[J].現(xiàn)代預防醫(yī)學,2012(5):1068-1070.
(責任編輯: 錢筠 英文審校: 吳逢鐵)
Visual Analysis of Crime Clusters Based on Space-Time Permutation Scan Statistic
ZHANG Yongtian, WU Sheng
(Spatial Information Research Center of Fujian, Fuzhou University, Fuzhou 350003, China)
Firstly, based on space-time permutation scan statistic method, this paper analyzes crime of Fuzhou City in 2014 in days and hours, the space-time crime clusters in different scales are obtained. Then, combine with the data visualization technology and propose interactive visualization design for the results of the analysis in multi-scale and multi perspective. The results show that the method above enables users to view crime hot space distribution by date scale in monthly, month-date segment or week-date segment and by hour scale in week-date segment or holiday segment.
scan statistic; crime hot spots; interactive; visualization; space scale; spatio-temporal aggregate
10.11830/ISSN.1000-5013.201605025
2015-09-09
吳升(1972-),男,教授,博士,主要從事時空數(shù)據(jù)分析與可視化、數(shù)字區(qū)域與智慧城市、應急信息系統(tǒng)的研究.E-mail:ws0110@163.com.
國家“863”重大科技項目(2012AA12A208)
P 208
A
1000-5013(2016)05-0649-05