魏 東,張?zhí)斓t
(北京建筑大學(xué) 電氣與信息工程學(xué)院,北京100044)(北京市科學(xué)技術(shù)委員會(huì) 建筑大數(shù)據(jù)智能處理方法研究北京市重點(diǎn)實(shí)驗(yàn)室,北京100044)
犯罪嚴(yán)重威脅著人們的人身安全和財(cái)產(chǎn)安全,是影響社會(huì)安全與發(fā)展的心腹之患,及時(shí)有效地預(yù)測(cè)犯罪可以為公安部門(mén)提前防控及警力資源部署等工作提供科學(xué)可靠的依據(jù).而犯罪本身作為一種普遍的社會(huì)現(xiàn)象,在其發(fā)展過(guò)程中表現(xiàn)出歷史規(guī)律性,如“日?;顒?dòng)理論”指出,犯罪活動(dòng)總是與周?chē)锢憝h(huán)境緊密聯(lián)系在一起.且隨著經(jīng)濟(jì)改革的日趨深入,公安部門(mén)累積了大量犯罪案件數(shù)據(jù),為犯罪預(yù)測(cè)研究提供了充足的數(shù)據(jù)基礎(chǔ).因此,針對(duì)頻發(fā)案件的犯罪預(yù)測(cè)研究具有可行性,且具有重要意義.
迄今為止,國(guó)內(nèi)外研究學(xué)者已從多方面提出多種不同類(lèi)型的犯罪預(yù)測(cè)方法[1].Youngmi Lee等[2]考慮了犯罪整數(shù)值時(shí)間序列的因果檢驗(yàn)方法,結(jié)合Poisson INGARCH模型的均值方程,構(gòu)造了一種包含外生變量的犯罪回歸分析算法,并利用最小二乘估計(jì)法檢驗(yàn)最佳函數(shù);Stevens Heather R等[3]考慮了新南威爾士地區(qū)全年氣溫變化對(duì)犯罪率的影響,分別對(duì)攻擊案、盜竊案和欺詐案件案日、月和季度匯總,并通過(guò)時(shí)間序列分解圖可視化,以確定夏季和冬季的案件數(shù)量差異;Caetano R等[4]構(gòu)建了貝葉斯時(shí)空回歸模型,實(shí)現(xiàn)了對(duì)不同季節(jié)特征下犯罪結(jié)果的預(yù)測(cè).該文獻(xiàn)在分析了小區(qū)域范圍內(nèi)的財(cái)產(chǎn)犯罪后,利用時(shí)變回歸(Time-varying Regression)區(qū)分了時(shí)間常數(shù)和季節(jié)特性對(duì)犯罪的影響;Liu Ling等[5]對(duì)犯罪數(shù)據(jù)進(jìn)行深度自編碼表征,將無(wú)標(biāo)簽數(shù)據(jù)按概率形式標(biāo)簽化,以此為特征結(jié)合K-means算法進(jìn)行聚類(lèi)分析.
上述研究成果較好地解決了傳統(tǒng)人工犯罪分析預(yù)測(cè)方法難以系統(tǒng)地分析實(shí)時(shí)數(shù)據(jù)的不足.然而上述成果僅通過(guò)在不同維度上計(jì)算離散案件點(diǎn)的間隔長(zhǎng)度來(lái)進(jìn)行統(tǒng)計(jì)分析,一定程度上忽略了犯罪特有的近重復(fù)屬性[6].犯罪近重復(fù)性表示,過(guò)去犯罪率高的地區(qū)在一點(diǎn)時(shí)間內(nèi)仍將如此.環(huán)境犯罪學(xué)家把犯罪聚集的原因歸結(jié)為有動(dòng)機(jī)的罪犯的存在、可能的目標(biāo)的存在以及在這些地區(qū)缺乏足夠的監(jiān)護(hù)或威懾,這些因素在一段時(shí)間內(nèi)基本保持穩(wěn)定,時(shí)空格局持續(xù)存在[7].在重復(fù)受害中,最近的犯罪中受害的目標(biāo)更有可能在不久的將來(lái)成為新的犯罪的目標(biāo);而在近重復(fù)的情況下,靠近最近犯罪地點(diǎn)或事件的合適目標(biāo)將在不久的將來(lái)經(jīng)歷更高的受害風(fēng)險(xiǎn).另一方面,研究學(xué)者們通常忽視犯罪數(shù)據(jù)在全局地理區(qū)域內(nèi)的高度不均勻分布特性,導(dǎo)致輸入特征中“零犯罪”的占比極大,使模型預(yù)測(cè)結(jié)果稀疏表現(xiàn)嚴(yán)重.
為解決上述問(wèn)題,本文借鑒傳染病研究中的時(shí)空聚集度計(jì)算方式,針對(duì)犯罪預(yù)測(cè)研究,提出了一種基于平均最鄰近距離(Mean Nearest Distance)的改進(jìn)Knox算法(本文將其命名為Mnd-Knox算法)的犯罪預(yù)測(cè)方法,明確犯罪案件自相關(guān)性的時(shí)空分布尺度,避免了傳統(tǒng)犯罪研究對(duì)案件間自相關(guān)性分析不足的問(wèn)題;通過(guò)網(wǎng)格化地理信息管理方法,構(gòu)建權(quán)重矩陣,跨時(shí)空域的分析了案件間的依賴關(guān)系,緩解了現(xiàn)存犯罪數(shù)據(jù)分布不均衡問(wèn)題;最后在模型輸入中附加地理特征,集成犯罪發(fā)生時(shí)間地點(diǎn)和案發(fā)相關(guān)的地理環(huán)境,完善了模型對(duì)犯罪相關(guān)數(shù)據(jù)集的利用率,實(shí)現(xiàn)了對(duì)犯罪環(huán)境的模擬,以及識(shí)別案件時(shí)空分布格局的目的.此外,本文在數(shù)據(jù)挖掘部分,采用基于Adam改進(jìn)的深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)模型,有效地捕捉和學(xué)習(xí)犯罪在微觀尺度下時(shí)空分布特征的疏密度,借助Mnd-Knox算法選擇合適的微觀時(shí)空尺度,對(duì)具體實(shí)驗(yàn)區(qū)域的時(shí)空分布特征和犯罪近重復(fù)性進(jìn)行分析.在上述方法研究基礎(chǔ)上,本文將預(yù)測(cè)所得結(jié)果進(jìn)行可視化展示,以利用犯罪熱點(diǎn)信息地圖對(duì)警務(wù)工作加以指導(dǎo),更好地預(yù)防頻發(fā)型犯罪案件的發(fā)生和提高治安防控管理水平.
時(shí)空數(shù)據(jù)挖掘的關(guān)鍵在于抓取時(shí)空數(shù)據(jù)點(diǎn)間冗雜的自相關(guān)性.由于時(shí)空數(shù)據(jù)具有復(fù)雜的依賴關(guān)系,而傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)均采用統(tǒng)計(jì)方法,并假設(shè)數(shù)據(jù)點(diǎn)是獨(dú)立的,因此將其應(yīng)用于時(shí)空數(shù)據(jù)時(shí),效果欠佳.本文將從以下3個(gè)步驟進(jìn)行研究,捕捉時(shí)空數(shù)據(jù)點(diǎn)間的復(fù)雜自相關(guān)性:
1)通過(guò)采用Mnd-Knox算法分析不同類(lèi)型犯罪案件間,自相關(guān)性表現(xiàn)顯著的閾值,確定適用于分析時(shí)空分布特征和犯罪近重復(fù)性的時(shí)空預(yù)測(cè)尺度,處理得到頻發(fā)型犯罪案件的時(shí)空影響因子,為建立犯罪案件時(shí)空分布預(yù)測(cè)模型,提供可用于研究犯罪近重復(fù)性的數(shù)據(jù)基礎(chǔ);
2)顧及頻發(fā)型犯罪案件時(shí)空域中分布特征的稀疏性對(duì)犯罪預(yù)測(cè)模型訓(xùn)練學(xué)習(xí)過(guò)程的影響,通過(guò)網(wǎng)格化地理信息管理方法,構(gòu)建時(shí)空網(wǎng)格交互結(jié)構(gòu),以網(wǎng)格為單位計(jì)算各類(lèi)案件自相關(guān)性的影響權(quán)重,構(gòu)建案件間的自相關(guān)性影響權(quán)重矩陣,研究跨時(shí)空域的離散案件間的時(shí)空依賴關(guān)系,探討案件聚集性分布顯著和分布稀疏性較高的區(qū)域位置,同時(shí)利用移除空網(wǎng)格方法優(yōu)化犯罪數(shù)據(jù),達(dá)到平衡樣本比例的目的,避免了犯罪預(yù)測(cè)類(lèi)別失衡的問(wèn)題;
3)在第2)步所得數(shù)據(jù)的基礎(chǔ)上,附加相關(guān)地理特征數(shù)據(jù),深入探究犯罪周?chē)乩憝h(huán)境對(duì)案件發(fā)生的影響.最后,將所得實(shí)驗(yàn)數(shù)據(jù)代入DNN模型中,以得到最終預(yù)測(cè)結(jié)果.
本文所提出的犯罪時(shí)空數(shù)據(jù)挖掘框架如圖1所示,由確定時(shí)空閾值、建立時(shí)空網(wǎng)格框架、擴(kuò)充數(shù)據(jù)集、數(shù)據(jù)挖掘4部分組成.
圖1 犯罪預(yù)測(cè)框架圖
在確定時(shí)空閾值部分,本文提出了Mnd-Knox算法,并將其與卡方檢驗(yàn)相結(jié)合,來(lái)識(shí)別犯罪數(shù)據(jù)中給定時(shí)間段內(nèi)共同出現(xiàn)在相同或鄰近區(qū)域塊的案件簇,以最早發(fā)生的案件點(diǎn)為首,確定犯罪鏈.假定犯罪數(shù)據(jù)集S={x1,x2,…,xn}含n條犯罪記錄,每條記錄可表示為:
xi={qi,pi,ti}
(1)
其中xi表示出現(xiàn)在時(shí)間ti地點(diǎn)pi的案件qi,則Mnd-Knox算法將S劃分為m條相交且不相同的犯罪近重復(fù)鏈{Qi|j=1,2,…,m},每條犯罪鏈可表示為:
Qj={x1,x2,...,xnj}
(2)
式中nj表示時(shí)間閾值Nt內(nèi)Qj的記錄數(shù).
在建立時(shí)空網(wǎng)格部分,本文基于網(wǎng)格化地理信息管理方法建立了犯罪空間影響權(quán)重矩陣,將將Mnd-Knox算法處理所得數(shù)據(jù)和空間影響權(quán)重因子均投放到h等分的時(shí)空交互網(wǎng)格結(jié)構(gòu)中,所得到的網(wǎng)格化數(shù)據(jù)集D={D1,D2,…,Dk}包含k個(gè)網(wǎng)格,每個(gè)網(wǎng)格可表示為:
(3)
在擴(kuò)充數(shù)據(jù)集部分,本文依據(jù)犯罪學(xué)環(huán)境理論,將天氣數(shù)據(jù)集W={w1,w2,…,w366}縮放到單位范數(shù),此時(shí)每條記錄可表示為:
wi={tr,pi,ui}
(4)
式中,ui表示在地點(diǎn)pi時(shí)間ti時(shí)的天氣因子,然后再將其與其他犯罪相關(guān)位置數(shù)據(jù)投放在網(wǎng)格中,得到最終網(wǎng)格化數(shù)據(jù)集D′,此時(shí)每個(gè)網(wǎng)格可表示為:
(5)
式中,or表示在編號(hào)Gr網(wǎng)格中的警察局位置,er表示網(wǎng)絡(luò)熱點(diǎn)(即網(wǎng)絡(luò)平臺(tái)上評(píng)論數(shù)據(jù)量大、熱門(mén)度高的地點(diǎn))統(tǒng)計(jì)量.
在數(shù)據(jù)挖掘部分,本文基于Adam優(yōu)化的DNN算法從數(shù)據(jù)集D′中挖掘犯罪發(fā)展規(guī)律,在兼顧犯罪近重復(fù)性的時(shí)間與空間特征的同時(shí),捕捉時(shí)空自相關(guān)性尺度下的案件分布異常特征.
圖1中3個(gè)數(shù)據(jù)特征優(yōu)化處理模塊分別對(duì)應(yīng)后文中第4節(jié)3個(gè)小節(jié)的內(nèi)容,該框架既滿足宏觀分析離散案件點(diǎn)的間隔長(zhǎng)度,又可以微觀剖析參數(shù)間的自相關(guān)性.
本文采用美國(guó)芝加哥地區(qū)的犯罪信息作為研究數(shù)據(jù)集.芝加哥地處北美大陸中心地帶,是國(guó)際金融中心之一,也是美國(guó)第三大城市和美國(guó)最大的制造業(yè)中心.容納270萬(wàn)人口的芝加哥市案件量遠(yuǎn)高于其他城市,故被冠以“犯罪之城”的稱號(hào).當(dāng)?shù)鼐炀謹(jǐn)?shù)據(jù)統(tǒng)計(jì)結(jié)果表示,僅2016年一年各類(lèi)犯罪案件高達(dá)25萬(wàn)余起.本文采用芝加哥地區(qū)2016年1月1日至2016年12月31日的犯罪數(shù)據(jù)用于犯罪預(yù)測(cè)實(shí)驗(yàn)研究.
本文首先對(duì)犯罪數(shù)據(jù)集進(jìn)行初步預(yù)處理,如利用dropna()和fillna()函數(shù)刪除并填充缺失數(shù)據(jù)和遺存數(shù)據(jù)、groupby()聚合分類(lèi)等,最終獲得251044條有效數(shù)據(jù),部分?jǐn)?shù)據(jù)見(jiàn)表1.其中盜竊犯罪占69243起,毆打犯罪占48667起,刑
表1 芝加哥地區(qū)部分犯罪數(shù)據(jù)信息
事?lián)p害犯罪占30185起,襲擊犯罪占19333起,這4類(lèi)犯罪案發(fā)次數(shù)遠(yuǎn)超其他類(lèi)型案件,屬于頻發(fā)犯罪類(lèi)型,故本文將以上4類(lèi)犯罪作為研究重點(diǎn)進(jìn)行預(yù)測(cè)分析.
頻發(fā)型犯罪的發(fā)展規(guī)律通常被視為連續(xù)變量在時(shí)間軸上的橫移運(yùn)動(dòng),與傳染病的流行態(tài)勢(shì)極為相似[8].而Knox算法作為一種經(jīng)典的傳染病聚集性檢驗(yàn)方法,將其理論應(yīng)用于對(duì)犯罪數(shù)據(jù)預(yù)處理過(guò)程進(jìn)行優(yōu)化,能夠?qū)崿F(xiàn)案件間自相關(guān)性分析,從而得到犯罪近重復(fù)性信息.然而,傳統(tǒng)的Knox檢驗(yàn)方法需要人工確定閾值,在缺乏相關(guān)先驗(yàn)知識(shí)的情況下,主觀人為確定的閾值會(huì)存在一定的隨意性.如,She Bing等[9]在研究神宗和征出血熱疾病時(shí),人為指定空間閾值為500km和800km;Mja B等[10]將Knox算法應(yīng)用于垃圾處理及占道經(jīng)營(yíng)事件研究,人為選取空間閾值為500m,時(shí)間閾值為3h;Yue Han等[11]逐一選取900km、1000km…2000km作為空間閾值,構(gòu)建了12組權(quán)重矩陣,實(shí)驗(yàn)表明在不同閾值下事件呈現(xiàn)出的時(shí)空交互性差異較大,不能精準(zhǔn)反映出事件真實(shí)的自相關(guān)性.
本文對(duì)傳統(tǒng)Knox算法進(jìn)行了改進(jìn),以案件對(duì)平均最鄰近距離作為Knox檢驗(yàn)閾值,Mnd-Knox算法能夠體現(xiàn)出鄰近案件點(diǎn)比疏遠(yuǎn)案件點(diǎn)存在更為緊密的關(guān)系,解決了傳統(tǒng)Knox算法人工確定閾值的隨意性問(wèn)題.因此,本文在犯罪時(shí)空特征優(yōu)化提取過(guò)程中,利用Mnd-Knox模塊對(duì)犯罪近重復(fù)性的微觀尺度進(jìn)行分析.
Mnd-Knox算法具體流程如下:
本文首先利用如下公式計(jì)算案件對(duì)間的MND:
(6)
式中,n為案件點(diǎn)總數(shù);min(dij)表示案件點(diǎn)i與其最鄰近點(diǎn)j的距離.本文基于公式(1)將n個(gè)案件點(diǎn)兩兩配對(duì)得到n(n-1)/2組時(shí)空案件對(duì),并計(jì)算每對(duì)案件間的實(shí)際空間距離sij和實(shí)際時(shí)間距離tij.當(dāng)實(shí)際空間距離sij不大于空間閾值S時(shí),認(rèn)為案件對(duì)空間鄰近;當(dāng)實(shí)際時(shí)間距離tij不大于時(shí)間閾值t時(shí),認(rèn)為案件對(duì)空間鄰近.4類(lèi)臨近關(guān)系的案件對(duì)數(shù)值見(jiàn)表2.
表2 Mnd-Knox指數(shù)邏輯結(jié)構(gòu)表
表2中,D1為案件時(shí)空鄰近對(duì)數(shù),D2表示空間鄰近對(duì)數(shù),D3為時(shí)間鄰近對(duì)數(shù),D4為時(shí)空非鄰近對(duì)數(shù).時(shí)間鄰近且空間鄰近的案件對(duì)可被視為時(shí)空鄰近案件.在得到所有案件時(shí)空鄰近結(jié)構(gòu)后,利用卡方檢驗(yàn)方法對(duì)犯罪時(shí)空交互統(tǒng)計(jì)的顯著性進(jìn)行檢驗(yàn).卡方檢驗(yàn)假設(shè)犯罪是否時(shí)間臨近和是否空間鄰近是獨(dú)立無(wú)關(guān)的.
本文隨機(jī)抽取一對(duì)案件,并計(jì)算空間鄰近的概率:
(7)
式中,N表示案件總對(duì)數(shù).
假設(shè)案件不存在時(shí)空交互性,本文通過(guò)比較理論值E(Di)和實(shí)際值Di的誤差大小,計(jì)算卡方值χ2,并根據(jù)計(jì)算結(jié)果判斷時(shí)空聚集程度的顯著性.計(jì)算方法如下:
(8)
(9)
(10)
(11)
(12)
在擬合優(yōu)度檢驗(yàn)中,自由度v由矩陣的行數(shù)n和列數(shù)m計(jì)算可得:
v=(n-1)(m-1)
(13)
基于Python編程語(yǔ)言實(shí)現(xiàn)的Mnd-Knox算法優(yōu)化流程如下:
算法1.Mnd-Knox算法的部分流程
輸入:犯罪數(shù)據(jù)集S
輸出:時(shí)間閾值Nt
1.def time_long(time1,time2,type=″day″)://時(shí)間差函數(shù)
2.day1=time.strptime(str(time1.strftime(″%Y-%m-%d″))
3.day2=time.strptime(str(time2.strftime(″%Y-%m-%d″))
4.iftype==′day′://時(shí)間轉(zhuǎn)換
5.Nt=np.mean(b)
6.num=int(time.mktime(day1)))/(24*60*60)
7.returnabs(int(num))
8.endif
9.for i in range(len(S.timestamp)):
10. list_a=[]
11. for j in rang(i+1,len(S.timestamp)):
12.time_list=time_long(S.timestamp[i],
13.S.timestamp[j])//ti時(shí)刻與其他時(shí)刻的時(shí)間差列表
14.min_list.append(min(time_list))最鄰近距離
15. endfor;
16.Nt=np.mean(b)//平均最鄰近距離
17.endfor
18.returnNt
算法1中,time1和time2為任意兩個(gè)案件點(diǎn)的時(shí)刻.
本文通過(guò)上述研究成果,分別計(jì)算得出芝加哥2016年4類(lèi)案件的平均最鄰近距離:1)盜竊案56m;2)毆打案145m;3)刑事?lián)p害案233m;4)襲擊案64m.4類(lèi)案件的時(shí)空檢驗(yàn)結(jié)果如圖2所示.橫坐標(biāo)上的時(shí)間不是一個(gè)時(shí)刻,而是代表一個(gè)累積量,也代表了犯罪案件發(fā)生的前后依賴關(guān)系.顯然在宏觀時(shí)間趨勢(shì)下,犯罪時(shí)間域的分布離散程度越來(lái)越高,近重復(fù)程度逐漸減弱.
圖2 時(shí)空檢驗(yàn)圖
本文選取95%置信度(即p<0.05)作為顯著性判斷標(biāo)準(zhǔn),得到4類(lèi)案件的時(shí)間閾值見(jiàn)表3.
表3 芝加哥2016年4類(lèi)主要案件調(diào)查結(jié)果
本文所提出的Mnd-Knox算法能夠在時(shí)空域中捕捉離散點(diǎn)間之間的依賴關(guān)系,從而可以識(shí)別出犯罪近重復(fù)性在時(shí)間和空間上的鄰近性.本文根據(jù)所計(jì)算得出的4類(lèi)案件近重復(fù)性時(shí)空分布閾值,確定適用于分析時(shí)空分布特征和犯罪近重復(fù)性的時(shí)空預(yù)測(cè)尺度.在構(gòu)建犯罪預(yù)測(cè)模型時(shí),本文選取其前一天及其前Nt天的犯罪頻次作為模型的輸入特征,以便為犯罪預(yù)測(cè)模型提供可用于分析離散案件點(diǎn)間依賴關(guān)系的犯罪近重復(fù)性因子,在加入該因子后模型輸入層含有犯罪時(shí)間近重復(fù)性信息,能夠?yàn)榉缸飼r(shí)空預(yù)測(cè)模型的構(gòu)建提供案件自相關(guān)性分析的數(shù)據(jù)基礎(chǔ).
4.2.1 建立案件間空間鄰近性權(quán)重矩陣
犯罪行為人多數(shù)會(huì)選擇在其熟悉的環(huán)境內(nèi)發(fā)生犯罪,但是以往犯罪預(yù)測(cè)研究中通常著重分析時(shí)間、空間和犯罪類(lèi)型[12]等因素,未考慮網(wǎng)格的地理特征,使得模型無(wú)法預(yù)測(cè)空間維度上犯罪的位移.為此,本文在時(shí)空數(shù)據(jù)處理過(guò)程中添加網(wǎng)格化處理模塊,并在該模塊中采用網(wǎng)格化犯罪特征優(yōu)化方法,通過(guò)空間鄰近性構(gòu)建空間權(quán)重矩陣,將多區(qū)域之間的關(guān)聯(lián)性進(jìn)行量化.
本文首先在地圖上界定芝加哥市的邊界,得到一個(gè)矩形的空間區(qū)域,然后在保證不破環(huán)犯罪鏈的前提下,將該區(qū)域劃分為200*200的網(wǎng)格,并對(duì)網(wǎng)格進(jìn)行編碼后利用核密度估計(jì)法(Kernel Density Estimation,KDE)計(jì)算相鄰網(wǎng)格的時(shí)間因素在不同網(wǎng)格距離下的影響權(quán)重,選擇徑向基函數(shù)作為核函數(shù).徑向基函數(shù)的取值僅依賴于到原點(diǎn)距離的實(shí)值,同時(shí)可控制函數(shù)的徑向作用范圍(即犯罪近重復(fù)范圍),便于將有限維數(shù)據(jù)映射到高維空間,其形式定義為:
(14)
式中,σ為核密度函數(shù)的帶寬,Δt表示時(shí)間段中任意時(shí)刻到某個(gè)犯罪中心點(diǎn)的時(shí)間長(zhǎng)度,該中心的犯罪自相關(guān)性影響是局部的,所生成的平滑估計(jì)面可以展示時(shí)間區(qū)域內(nèi)的犯罪聚集情況,對(duì)于某段時(shí)間內(nèi)犯罪事件中的任意一點(diǎn)x,設(shè)xi(i=1,2,…,n)是該時(shí)間段內(nèi)同類(lèi)型犯罪的其他點(diǎn),其中n為樣本數(shù)量,xi到x的距離決定了該時(shí)間段內(nèi)其他點(diǎn)對(duì)點(diǎn)x的權(quán)重.則點(diǎn)x處的犯罪概率密度為:
(15)
在上述研究基礎(chǔ)上,本文構(gòu)建了案件空間權(quán)重矩陣,其中網(wǎng)格編碼為1-6的網(wǎng)格權(quán)重矩陣見(jiàn)表4,其中犯罪空間權(quán)重矩陣的行信息代表在一段時(shí)間內(nèi)某犯罪區(qū)域?qū)ζ渌鲄^(qū)域的影響因子.
表4 網(wǎng)格編碼前6的空間權(quán)重矩陣
基于Python編程語(yǔ)言實(shí)現(xiàn)的時(shí)空交互網(wǎng)格結(jié)構(gòu)構(gòu)建部分函數(shù)如下:
算法2.構(gòu)建網(wǎng)格交互結(jié)構(gòu)流程中部分函數(shù)
輸入:數(shù)據(jù)集D,網(wǎng)格劃分疏密度h
算法參數(shù):芝加哥市區(qū)域邊界經(jīng)緯度City(x1,y1,x2,y2)分別為緯度(最南)、經(jīng)度(最西)、緯度(最北)、經(jīng)度(最東)
輸出:網(wǎng)格化數(shù)據(jù)集D′
1.def get_diagonals(self)://定位子網(wǎng)格函數(shù)
2.map=self.get_map_coordinates()//獲取網(wǎng)格邊界
3.diagonals=[]
4.foriinrang(0,h*h-h-1):
5.if(i!=0andi%n==0):
6. continue
7. endif
8. diagonals.append((map[i],map[i+n+1]))
9. endfor
10.return diagonals
11.def get_map_coordinates(h)://獲取區(qū)域邊界函數(shù)
12. asserth>1//報(bào)錯(cuò)函數(shù)
13. epsilon=1e-6//取數(shù)據(jù)集中最大最小經(jīng)緯度作為芝加哥的最大最小經(jīng)緯度,并外擴(kuò)epsilon
14. lat_start=D.lat.min()-epsilon
15. lat_end=D.lat.max()+epsilon
16. long_start=D.long.min()-epsilon
17. long_end=D.lat.min()+epsilon
18. delta_lat=abs(lat_end-lat_start)/h
19. delta_long=abs(long_end-long_start)/h//距離取絕對(duì)值
20. Chicago=City(lat_start,long_start,lat_end,long_end)
21. cells=Chicago.get_diagonals()//子網(wǎng)格劃分
22. ……
4.2.2 時(shí)空網(wǎng)格交互結(jié)構(gòu)建立以及數(shù)據(jù)不平衡性處理
隨著時(shí)間的推移,犯罪空間影響權(quán)重是動(dòng)態(tài)變化的,每一時(shí)段的犯罪空間影響權(quán)重因子都不相同.因此,本文構(gòu)建時(shí)空網(wǎng)格交互結(jié)構(gòu)將時(shí)間和空間因子順序排列于網(wǎng)格中,來(lái)完成跨時(shí)空域的案件自相關(guān)性分析.本文在二維空間網(wǎng)格平面上,垂直于平面方向延伸出時(shí)間軸,得到三維立體網(wǎng)格結(jié)構(gòu),并以天為單位進(jìn)行統(tǒng)計(jì),得到一個(gè)200*200*366(其中2016年全年共366天)的時(shí)空網(wǎng)格交互結(jié)構(gòu).時(shí)空交互網(wǎng)格結(jié)構(gòu)同時(shí)考慮時(shí)間和空間因素,將Mnd-Knox算法處理所得數(shù)據(jù)和空間影響權(quán)重因子同時(shí)映射到對(duì)應(yīng)網(wǎng)格中,統(tǒng)計(jì)一定時(shí)間段內(nèi)(即各類(lèi)案件對(duì)應(yīng)的近重復(fù)性閾值Nt)單位網(wǎng)格內(nèi)的累積犯罪數(shù)據(jù)來(lái)分析犯罪在跨時(shí)空域上的分布特征.
在此基礎(chǔ)上,針對(duì)犯罪數(shù)據(jù)不平衡問(wèn)題,利用filter()和list.remove()函數(shù)篩選出“零案件”網(wǎng)格并將其移除,以平衡樣本比例,避免了犯罪預(yù)測(cè)模型在學(xué)習(xí)訓(xùn)練過(guò)程中,出現(xiàn)預(yù)測(cè)結(jié)果傾斜的問(wèn)題.不平衡性犯罪數(shù)據(jù)處理流程,如圖3所示.
圖3 數(shù)據(jù)不平衡性數(shù)據(jù)處理流程圖
傳統(tǒng)的犯罪預(yù)測(cè)方法通常僅單獨(dú)考慮時(shí)間或空間因素[13],導(dǎo)致模型對(duì)時(shí)間和空間的選擇敏感性較高.有研究注意到不同區(qū)域的犯罪均受地理環(huán)境特征影響,如氣候變量[14,15]、失業(yè)率[16]、Twitter評(píng)論[17,18]等.因此,本文在犯罪時(shí)間、地點(diǎn)數(shù)據(jù)集的基礎(chǔ)上擴(kuò)充相關(guān)環(huán)境因子數(shù)據(jù)集,從kaggle公開(kāi)數(shù)據(jù)集中選取氣候特征、警察局位置及網(wǎng)絡(luò)數(shù)據(jù)作為附加地理特征,見(jiàn)表5.
表5 附加地理特征數(shù)據(jù)集
其中氣候特征,尤其是溫度特征是導(dǎo)致罪犯產(chǎn)生犯罪行為的重要因素之一[19].本文將氣候特征細(xì)分為降雪量、降水量、平均溫度、最高溫度和最低溫度;警察局?jǐn)?shù)據(jù)統(tǒng)計(jì)了芝加哥地區(qū)所有網(wǎng)絡(luò)上公開(kāi)的警察局位置經(jīng)緯度;網(wǎng)絡(luò)數(shù)據(jù)選擇的是芝加哥地區(qū)yelp平臺(tái)的公開(kāi)數(shù)據(jù)集.yelp作為美國(guó)最大的點(diǎn)評(píng)網(wǎng)站,相關(guān)數(shù)據(jù)囊括芝加哥地區(qū)的網(wǎng)紅餐館、大型購(gòu)物中心、高客滿率酒店、熱門(mén)旅游景點(diǎn)等熱點(diǎn)位置.本文將網(wǎng)絡(luò)數(shù)據(jù)中yelp熱點(diǎn)位置與犯罪案件點(diǎn)位置進(jìn)行對(duì)比,結(jié)果如圖4所示,可以看出二者聚集性表現(xiàn)相似度極高.yelp可以反映出不同位置繁華程度、交通擁堵情況及人流量等特點(diǎn),這些因素均可直接影響犯罪發(fā)生的可能性,故可以作為預(yù)測(cè)模型的附加地理特征.
圖4 數(shù)據(jù)聚集性分析
以往研究中,研究人員提出了多種基于數(shù)據(jù)驅(qū)動(dòng)的建模方法,如DBSCAN[20]、多層感知機(jī)[21]、隨機(jī)森林[22]、模糊BP神經(jīng)網(wǎng)絡(luò)[23]、模糊VIKOR算法[24]、卷積神經(jīng)網(wǎng)絡(luò)[25]等.在這些建模方法中,DNN相比于其他方法,在非線性系統(tǒng)建模方面優(yōu)勢(shì)明顯[26].考慮到隨著時(shí)間推移,不同網(wǎng)格內(nèi)的犯罪案件的發(fā)生數(shù)量存在波動(dòng)性(即時(shí)空犯罪影響因子的局部變異),本文采用基于Adam優(yōu)化的DNN算法[27]捕捉犯罪時(shí)空序列中的異質(zhì)性特征,高效擬合犯罪時(shí)空序列中的特征分布并進(jìn)行犯罪預(yù)測(cè).
由于芝加哥數(shù)據(jù)集規(guī)模較小,為了防止過(guò)擬合,本文選用隱含層為3層的DNN網(wǎng)絡(luò)結(jié)構(gòu).增加每層神經(jīng)元的數(shù)量能在一定程度上提高模型的預(yù)測(cè)性能,但也同時(shí)提升了學(xué)習(xí)參數(shù)的復(fù)雜度,易造成過(guò)擬合,因此,本文將各層神經(jīng)元數(shù)量設(shè)定為{5,10,20,50,100,150},并采用k-fold交叉驗(yàn)證[28]的方法確定隱層神經(jīng)元數(shù)量,模型結(jié)構(gòu)如圖5所示.
圖5 犯罪預(yù)測(cè)DNN模型結(jié)構(gòu)
本文針對(duì)芝加哥犯罪數(shù)據(jù)采用上述方法進(jìn)行實(shí)驗(yàn)研究,在訓(xùn)練預(yù)測(cè)模型時(shí),均采用7:3的比例隨機(jī)劃分?jǐn)?shù)據(jù)集,取70%的數(shù)據(jù)作為訓(xùn)練集,30%的數(shù)據(jù)作為測(cè)試集,并選擇MAE值作為評(píng)價(jià)指標(biāo)進(jìn)行分析,以驗(yàn)證模型的有效性.具體計(jì)算公式如下:
(16)
6.2.1 實(shí)驗(yàn)結(jié)果對(duì)比
本節(jié)首先將經(jīng)過(guò)簡(jiǎn)單處理(見(jiàn)第3節(jié))后的數(shù)據(jù)作為基礎(chǔ)模型的輸入,并將基礎(chǔ)模型預(yù)測(cè)性能與經(jīng)過(guò)上文所述方法優(yōu)化后的模型性能進(jìn)行對(duì)比,見(jiàn)表6.
表6 各類(lèi)案件模型性能評(píng)估MAE值
表6中的模型3結(jié)合了3種輸入數(shù)據(jù)優(yōu)化方法,包括:1)通過(guò)Mnd-Knox算法確定時(shí)空閾值;2)結(jié)合網(wǎng)格化地理信息管理方法對(duì)附加地理特征及基礎(chǔ)犯罪特征在時(shí)空域中的自相關(guān)性進(jìn)行提取后.由表6易知,模型3對(duì)于4類(lèi)案件的預(yù)測(cè)均取得了較為理想的結(jié)果;對(duì)于犯罪近重復(fù)性表現(xiàn)較為突出的盜竊案而言,利用3種特征優(yōu)化方法共同優(yōu)化后的模型(即模型3)誤差顯著降低,預(yù)測(cè)性能有明顯提升;而對(duì)于犯罪近重復(fù)性相對(duì)較弱的襲擊案、刑事?lián)p害案和毆打案來(lái)說(shuō),模型3性能提升幅度相對(duì)較小,但仍具有很好的預(yù)測(cè)能力.這說(shuō)明將本文所提出的3種優(yōu)化方法綜合運(yùn)用于犯罪預(yù)測(cè)研究,能夠深入分析犯罪案件間的自相關(guān)性,且有一定的積極作用.
本文進(jìn)一步整合了不同類(lèi)型案件數(shù)據(jù)下,3種優(yōu)化方法的作用效果,如圖6所示,其中縱坐標(biāo)表示各方法的優(yōu)化效果占總優(yōu)化效果的比例.
圖6 3種優(yōu)化方法效果對(duì)比圖
由圖6可知,對(duì)于全年案發(fā)數(shù)量最高的盜竊案而言,犯罪行為人實(shí)施犯罪前通常會(huì)掌握人們行為規(guī)律、窺測(cè)作案地點(diǎn)周?chē)h(huán)境,然后選擇作案目標(biāo)、時(shí)機(jī)、逃跑路線等,且盜竊行為常帶有習(xí)慣性,直接導(dǎo)致盜竊案件具有極高的近重復(fù)性,因此經(jīng)過(guò)Mnd-Knox優(yōu)化后,預(yù)測(cè)效果提升最為明顯.而襲擊案經(jīng)過(guò)Mnd-Knox算法優(yōu)化后的效果未達(dá)到最優(yōu),但經(jīng)過(guò)網(wǎng)格化處理后的優(yōu)化效果最佳,這與該類(lèi)案件社會(huì)破壞力及影響規(guī)模極強(qiáng)的特性有關(guān).同時(shí)襲擊行為人需要進(jìn)行充分準(zhǔn)備、嚴(yán)密策劃、嚴(yán)謹(jǐn)組織,但襲擊目標(biāo)較為特定,因此襲擊案仍具有發(fā)生二次重復(fù)犯罪的可能性,但影響相對(duì)較小.另外,襲擊組織形式呈網(wǎng)格化,在相應(yīng)的網(wǎng)格結(jié)構(gòu)中,沒(méi)有明顯的權(quán)利中心,只有大量不同的節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)均可為其他節(jié)點(diǎn)提供幫助與支持,所以對(duì)襲擊案預(yù)測(cè)模型進(jìn)行網(wǎng)格化城市管理優(yōu)化效果顯著.其次對(duì)于毆打案和刑事?lián)p害案而言,兩者均表現(xiàn)出一定的近重復(fù)性,因此Mnd-Knox優(yōu)化效果較好.在毆打案預(yù)測(cè)模型輸入中附加地理特征后,優(yōu)化效果較為良好,這說(shuō)明這類(lèi)案件受周?chē)陀^事物的影響較大,當(dāng)某地區(qū)缺乏有效監(jiān)管且具備有利的作案環(huán)境時(shí),會(huì)導(dǎo)致該類(lèi)案件頻發(fā).
6.2.2 與其他犯罪預(yù)測(cè)算法性能對(duì)比
對(duì)比研究中,本文選取目前最新的犯罪預(yù)測(cè)模型與本文提出的基于Mnd-Knox算法和時(shí)空交互網(wǎng)格結(jié)構(gòu)改進(jìn)的犯罪預(yù)測(cè)模型(即模型3)進(jìn)行比較分析,見(jiàn)表7.對(duì)比模型的平均絕對(duì)誤差數(shù)據(jù)由文獻(xiàn)[29]提供,包含對(duì)盜竊、搶劫和搶奪案3類(lèi)數(shù)據(jù)集的預(yù)測(cè)結(jié)果,該結(jié)果數(shù)據(jù)取值均保留到小數(shù)點(diǎn)后兩位,本文采用MAE的平均值對(duì)比相應(yīng)模型預(yù)測(cè)性能.
表7 評(píng)估模型性能的MAE值對(duì)比
對(duì)比各類(lèi)模型MAE的平均值易知,模型3對(duì)不同類(lèi)型案件的數(shù)據(jù)集進(jìn)行預(yù)測(cè),其預(yù)測(cè)性能表現(xiàn)最佳,均能穩(wěn)定在較低的平均絕對(duì)誤差水平上.而嶺回歸模型雖能在一定程度上擬合模型,但對(duì)于非線性的犯罪數(shù)據(jù)而言,容易出現(xiàn)回歸結(jié)果失真的情況;彈性網(wǎng)絡(luò)模型對(duì)重要特征的選擇較為敏感,該模型適用于特征變量高度相關(guān)的情況,而犯罪數(shù)據(jù)常表現(xiàn)為離散的案件點(diǎn),且案件間的自相關(guān)性從宏觀數(shù)據(jù)間隔上難以被判別;K最近鄰模型的回歸前提是需要找到一個(gè)案件點(diǎn)的k個(gè)最近鄰案件點(diǎn),其中k值需要憑借先驗(yàn)知識(shí)確定,而導(dǎo)致實(shí)驗(yàn)結(jié)果的不穩(wěn)定性,同時(shí),犯罪近重復(fù)性的強(qiáng)弱是隨案發(fā)地點(diǎn)、時(shí)間、周?chē)h(huán)境、案件類(lèi)型等因素動(dòng)態(tài)變化,因此,在K最近鄰模型中選擇固定的k值不利于犯罪近重復(fù)性的分析.
6.2.3 4類(lèi)案件的優(yōu)化效果
圖7和圖8給出了4類(lèi)案件模型預(yù)測(cè)效果圖,在同一坐標(biāo)尺度下,可更加直觀地比較經(jīng)過(guò)特征優(yōu)化后的預(yù)測(cè)模型3與基礎(chǔ)模型的預(yù)測(cè)效果.
圖7 基礎(chǔ)模型預(yù)測(cè)誤差
由圖7和圖8可以看出,除盜竊案以外的3類(lèi)案件進(jìn)行特征優(yōu)化后的預(yù)測(cè)結(jié)果均出現(xiàn)多個(gè)誤差峰值,這是由于案件發(fā)生時(shí)的特殊社會(huì)形勢(shì)或犯罪行為人的反常表現(xiàn)所導(dǎo)致的.犯罪的發(fā)生受諸多因素共同作用,因此這些峰值的產(chǎn)生原因較為復(fù)雜,很難精準(zhǔn)預(yù)測(cè)其規(guī)律性.但是,很顯然進(jìn)行特征優(yōu)化后的模型整體性能得到了較大程度的提升,表明該模型能夠較好地反映芝加哥市犯罪在時(shí)間和空間上的發(fā)生趨勢(shì).
圖8 模型3預(yù)測(cè)誤差
由上述分析可知,基于Mnd-Knox及網(wǎng)格化地理信息管理方法進(jìn)行特征優(yōu)化的犯罪時(shí)空預(yù)測(cè)模型,能夠較為充分地挖掘犯罪在時(shí)間及空間上的復(fù)雜內(nèi)在規(guī)律,并預(yù)測(cè)未來(lái)一段時(shí)間內(nèi)某地發(fā)生某類(lèi)案件的概率.將犯罪預(yù)測(cè)結(jié)果投放在網(wǎng)格中進(jìn)行可視化展示,可以直觀地對(duì)決策人員加以指導(dǎo).本文整合了4類(lèi)案件預(yù)測(cè)結(jié)果,將犯罪率前50的網(wǎng)格作為犯罪熱點(diǎn),并利用Python中的Plotly Express進(jìn)行可視化展示,如圖9所示.
圖9 犯罪熱點(diǎn)圖
圖9中選取預(yù)測(cè)模型輸出值較高的網(wǎng)格作為犯罪熱點(diǎn),方便相關(guān)人員采取及時(shí)有效的應(yīng)對(duì)措施,并重點(diǎn)在犯罪熱點(diǎn)地區(qū)進(jìn)行警力和資源部署,同時(shí)可以根據(jù)預(yù)測(cè)結(jié)果制定短期及長(zhǎng)期工作計(jì)劃,以優(yōu)化警力資源利用.
犯罪數(shù)據(jù)集的特征提取及預(yù)處理是犯罪預(yù)測(cè)研究中的關(guān)鍵一環(huán).本文提出了一種基于Mnd-Knox及網(wǎng)格化管理的犯罪時(shí)空預(yù)測(cè)方法,針對(duì)以往研究中缺乏分析犯罪案件間時(shí)空自相關(guān)性的問(wèn)題,借助Mnd-Knox算法確定時(shí)間和空間維度上近重復(fù)性的閾值,并利用該值提取與被預(yù)測(cè)點(diǎn)存在自相關(guān)性的時(shí)空特征,同時(shí)構(gòu)建時(shí)空交互網(wǎng)格結(jié)構(gòu)去除不均衡的犯罪數(shù)據(jù),對(duì)時(shí)空分布特征提取進(jìn)行了優(yōu)化,最后融合附加地理特征,解決了現(xiàn)存數(shù)據(jù)利用不充分、犯罪特性考慮不周全等問(wèn)題,從而提高了犯罪時(shí)空預(yù)測(cè)模型的性能.
本文主要貢獻(xiàn)如下:
1)創(chuàng)新性地將傳染病研究時(shí)空聚集度技術(shù)應(yīng)用于犯罪領(lǐng)域,研究犯罪時(shí)空近重復(fù)性尺度,一方面創(chuàng)新性地采用有別于直接利用原始犯罪數(shù)據(jù)集進(jìn)行預(yù)測(cè)的方法,克服了簡(jiǎn)單宏觀預(yù)測(cè)導(dǎo)致數(shù)據(jù)利用不充分的問(wèn)題;另一方面能夠較好的擬合頻發(fā)犯罪類(lèi)型案件發(fā)展規(guī)律,考慮到鄰近案件點(diǎn)比疏遠(yuǎn)案件點(diǎn)存在更為緊密的關(guān)系,使其在預(yù)測(cè)頻發(fā)案件時(shí)具有更好的效果.
2)引入城市網(wǎng)格化管理思路,在犯罪點(diǎn)間的內(nèi)部聯(lián)系保留更完整的前提下,將預(yù)處理后的犯罪數(shù)據(jù)點(diǎn)投放到三維時(shí)空交互網(wǎng)格結(jié)構(gòu)中,結(jié)合核密度估計(jì)法統(tǒng)計(jì)單位網(wǎng)格中的數(shù)據(jù)信息,再提供欠采樣方法,解決了數(shù)據(jù)傾斜問(wèn)題.
3)在分析犯罪時(shí)間地點(diǎn)數(shù)據(jù)的基礎(chǔ)上,融合周?chē)锢憝h(huán)境因素,如天氣情況、警察局及熱點(diǎn)地區(qū)位置信息共同作為模型輸入,全面模擬犯罪環(huán)境,同時(shí)提高犯罪相關(guān)數(shù)據(jù)利用率及模型預(yù)測(cè)準(zhǔn)確率.
4)結(jié)合常用誤差度量標(biāo)準(zhǔn)對(duì)不同疏密程度的網(wǎng)格化預(yù)測(cè)模型進(jìn)行評(píng)估,并利用犯罪熱點(diǎn)地圖可視化技術(shù)展示預(yù)測(cè)結(jié)果.
通過(guò)實(shí)驗(yàn)結(jié)果比較表明,本文所提出的優(yōu)化模型用于預(yù)測(cè)4類(lèi)案件后,模型性能表現(xiàn)良好,能夠達(dá)到預(yù)期目標(biāo),特別是用于分析自相關(guān)性顯著的案件類(lèi)型時(shí),效果最佳.下一步本文計(jì)劃針對(duì)未來(lái)一周和未來(lái)半個(gè)月的犯罪數(shù)量進(jìn)行預(yù)測(cè),此時(shí)需要根據(jù)案件點(diǎn)距離的核密度變化調(diào)整預(yù)測(cè)模型的輸入?yún)?shù),從而能夠?yàn)楣膊块T(mén)制定長(zhǎng)期工作計(jì)劃提供輔助作用.公安部門(mén)可借鑒本文預(yù)測(cè)結(jié)果,從長(zhǎng)期及短期犯罪發(fā)生規(guī)律入手布置犯罪防控工作.