石拓,張齊,石磊
(1.北京警察學(xué)院 公安管理系,北京 102202;2.北京警察學(xué)院 北京市公安局警察學(xué)院警務(wù)情報(bào)與數(shù)據(jù)智能標(biāo)準(zhǔn)實(shí)驗(yàn)室,北京 102202;3.中國傳媒大學(xué) 媒體融合與傳播國家重點(diǎn)實(shí)驗(yàn)室,北京 100024)
盜竊犯罪是始終困擾社會治安穩(wěn)定的一大難 題,它是犯罪人以非法占有為目的,從而實(shí)施嚴(yán)重影響社會秩序、侵犯他人人身財(cái)產(chǎn)安全的犯罪行為[1]。根據(jù)中國統(tǒng)計(jì)年鑒關(guān)于公安機(jī)關(guān)立案的刑事案件統(tǒng)計(jì)情況,近20 年來,中國盜竊類案件數(shù)始終占到案件總數(shù)的一半以上[2],給人民的財(cái)產(chǎn)和隱私安全帶來巨大威脅。特別是近幾年來,盜竊案件呈現(xiàn)出作案手段隱蔽、案件線索難尋的特點(diǎn),所以在此類案件的防控中主動(dòng)預(yù)防優(yōu)于被動(dòng)響應(yīng)?!皩?shí)現(xiàn)對犯罪空間內(nèi)的發(fā)案趨勢進(jìn)行預(yù)測”是開展主動(dòng)預(yù)防的最優(yōu)路徑,也是公安機(jī)關(guān)實(shí)現(xiàn)“智慧警務(wù)”運(yùn)作模式的必然選擇。如果能夠?qū)崿F(xiàn)對犯罪空間內(nèi)發(fā)案趨勢的有效預(yù)測,則可以較為準(zhǔn)確地研判各個(gè)犯罪空間內(nèi)的發(fā)案情況,從而鎖定犯罪熱點(diǎn)地區(qū),為公安機(jī)關(guān)提前防控、合理布警提供科學(xué)依據(jù)。
在實(shí)戰(zhàn)工作中,盜竊犯罪發(fā)案趨勢的預(yù)測多依靠公安辦案經(jīng)驗(yàn)或人工統(tǒng)計(jì)規(guī)律給出定性的結(jié)論[3]。如今伴隨著大數(shù)據(jù)環(huán)境的數(shù)據(jù)挖掘和人工智能技術(shù)的崛起,該類犯罪的發(fā)案趨勢便可依賴智能技術(shù)得到更為科學(xué)精準(zhǔn)的定量結(jié)論,為打防工作提供科學(xué)量化指導(dǎo)。
目前,借助智能算法進(jìn)行盜竊犯罪預(yù)測研究主要是從時(shí)空角度入手,依托歷史發(fā)案數(shù)據(jù),融合地理空間特征構(gòu)建數(shù)學(xué)模型,預(yù)測犯罪的高發(fā)區(qū)域和時(shí)段[4]。顏靖華等[5]以天為犯罪預(yù)測時(shí)間尺度,應(yīng)用LSTM 記憶盜竊犯罪案件的長期或短期特征,得到每日盜竊犯罪案件數(shù)量的預(yù)測結(jié)果。沈寒蕾等[6]構(gòu)建二值化長短期記憶模型BDLSTM 和頻數(shù)統(tǒng)計(jì)長短期記憶模型RD-LSTM,對入室盜竊案件發(fā)生概率及案件發(fā)生數(shù)量進(jìn)行預(yù)測。朱小波等[7]引入粒子群PSO 優(yōu)化算法,構(gòu)建改進(jìn)后的PSO-BP 神經(jīng)網(wǎng)絡(luò)模型,對一般盜竊犯罪數(shù)量進(jìn)行預(yù)測。陳笛[8]應(yīng)用ARIMA 模型和指數(shù)平滑模型對盜竊犯罪發(fā)案數(shù)量進(jìn)行預(yù)測,從時(shí)序維度的犯罪預(yù)測上取得了一定效果。石拓等[9]基于Bagging 算法,提出了基于特征選擇準(zhǔn)確度和差異性雙重考量的集成學(xué)習(xí)算法,通過對影響盜竊犯罪發(fā)生因子的有效選擇,利用更少維度的特征數(shù)據(jù)集提升盜竊犯罪預(yù)測效率和準(zhǔn)度。翟一鳴等[10]基于Prophet 算法將節(jié)假日因素納入時(shí)序分析模型中,對現(xiàn)有的犯罪預(yù)測模型進(jìn)行多重優(yōu)化,豐富了犯罪預(yù)測方法的體系。
雖然上述時(shí)空視角下的盜竊犯罪預(yù)測方法已有一定的研究積累,但現(xiàn)有預(yù)測方法主要存在兩方面問題:1)空間維度下的多視角特征融合度不夠,僅以空間區(qū)域內(nèi)已發(fā)案件數(shù)據(jù)為單一輸入特征開展預(yù)測,缺乏其他視角下的特征融入;2)時(shí)間序列維度下的預(yù)測動(dòng)態(tài)適應(yīng)性不足,即若采用不同歷史天數(shù)預(yù)測未來發(fā)案情況,需要重新構(gòu)造相應(yīng)天數(shù)的樣本數(shù)據(jù)訓(xùn)練模型,不能實(shí)現(xiàn)天數(shù)的動(dòng)態(tài)調(diào)整來預(yù)測發(fā)案,致使時(shí)空視角下盜竊犯罪預(yù)測的準(zhǔn)確率、魯棒性及靈活性無法兼顧,限制了現(xiàn)有模型預(yù)測的效能。
鑒于以上問題,本文提出一種基于自注意力和多尺度視角特征動(dòng)態(tài)融合的盜竊犯罪預(yù)測模型(a theft crime prediction model based on the dynamic fusion of self attention and multi-scale perspective features,DF-SAMS)。首先,以盜竊發(fā)案的經(jīng)緯度位置信息為基礎(chǔ),將犯罪數(shù)據(jù)投射到一定大小地圖柵格內(nèi),并在數(shù)據(jù)預(yù)處理中構(gòu)建了一種面向不同時(shí)間長度的動(dòng)態(tài)自適應(yīng)數(shù)據(jù)預(yù)處理方法(one for all),將不同時(shí)序長度的已發(fā)盜竊案件數(shù)據(jù),匹配為預(yù)期時(shí)序長度的訓(xùn)練數(shù)據(jù),采用Glove模型映射后進(jìn)一步拼接天氣、時(shí)間、區(qū)域位置屬性情況特征向量,構(gòu)造出多維度特征融合的輸入向量;其次,采用自注意力機(jī)制動(dòng)態(tài)計(jì)算出自定義時(shí)間范圍內(nèi)各天內(nèi)發(fā)案數(shù)據(jù)的依賴關(guān)系,生成多視角特征動(dòng)態(tài)融合的向量;隨后,在CNN 卷積模塊采用多尺度窗口信息融合方式,捕獲高層次特征,最終實(shí)現(xiàn)盜竊犯罪輸入信息的多維高階特征編碼,送入分類器,預(yù)測出每個(gè)地圖柵格內(nèi)的發(fā)案態(tài)勢。通過引入本文所提算法,能夠顯著提升盜竊案件預(yù)測的準(zhǔn)確率和靈活性,為公安部門在盜竊犯罪防控甚至更多類型犯罪預(yù)測場景中,提供新的技術(shù)思路和研究范式。
本文所提出的基于自注意力和多尺度視角特征動(dòng)態(tài)融合(DF-SAMS)的盜竊犯罪預(yù)測模型結(jié)構(gòu)如圖1 所示。該DF-SAMS 模型主要由4 個(gè)模塊組成:動(dòng)態(tài)自適應(yīng)數(shù)據(jù)預(yù)處理模塊、多視角特征動(dòng)態(tài)融合、多尺度窗口編碼器模塊以及分類器模塊。
圖1 多尺度視角特征動(dòng)態(tài)融合的盜竊犯罪預(yù)測模模型Fig.1 Prediction model of theft crime based on DF-SAMS
盜竊犯罪案件原始數(shù)據(jù)只包含發(fā)案位置的文本描述信息,需要應(yīng)用地址信息編碼,將盜竊犯罪發(fā)案區(qū)位投射于對應(yīng)地圖經(jīng)緯度位置上。隨后將數(shù)據(jù)進(jìn)一步處理為預(yù)期長度的特征序列表示,實(shí)現(xiàn)時(shí)序數(shù)據(jù)的動(dòng)態(tài)自適應(yīng)處理。具體可以分為地圖經(jīng)緯投射、時(shí)序動(dòng)態(tài)自適應(yīng)處理和分布式向量表征三步。
1.1.1 地圖經(jīng)緯投射
采用百度地圖地址解析,抽取犯罪案件發(fā)生地的經(jīng)緯度信息。將對應(yīng)研究區(qū)域的矢量地圖進(jìn)行預(yù)設(shè)數(shù)量( 5×5、7×7、9×9)的柵格劃分,得到每一網(wǎng)格的經(jīng)緯度范圍,而后將發(fā)案地點(diǎn)以經(jīng)緯度為依據(jù),按照日期投射到對應(yīng)的柵格地圖上,統(tǒng)計(jì)獲得每一網(wǎng)格內(nèi)每天的盜竊犯罪發(fā)案個(gè)數(shù),數(shù)據(jù)處理樣例如圖2 所示。
圖2 不同柵格尺度下盜竊發(fā)案數(shù)據(jù)地圖投射處理樣例Fig.2 Example of map projection processing of theft data under different grid divisions
1.1.2 時(shí)序動(dòng)態(tài)自適應(yīng)處理
由以上的數(shù)據(jù)預(yù)處理過程,可以得到每個(gè)網(wǎng)格在每天的盜竊犯罪發(fā)案統(tǒng)計(jì)信息,隨后將數(shù)據(jù)送入時(shí)序動(dòng)態(tài)自適應(yīng)處理步驟。在傳統(tǒng)方法中,假設(shè)采用m天的盜竊發(fā)案歷史數(shù)據(jù)進(jìn)行預(yù)測,就需要將訓(xùn)練數(shù)據(jù)統(tǒng)一構(gòu)造為序列長度為m的形式,即 IDk=[dk1dk2···dkm],其中 IDk表示第k個(gè)柵格區(qū)域的標(biāo)號,dkl,l∈[1,m]表 示第k個(gè)柵格區(qū)域內(nèi)的第l天的盜竊犯罪發(fā)案歷史記錄。當(dāng)模型需要采用不同時(shí)序長度的發(fā)案歷史數(shù)據(jù),即m取不同數(shù)值時(shí),則每次都需要重新將數(shù)據(jù)整理成對應(yīng)長度為不同數(shù)值m的序列來從頭訓(xùn)練對應(yīng)模型,大大增加了模型訓(xùn)練的數(shù)據(jù)預(yù)處理工作量。為解決上述問題,本文在數(shù)據(jù)處理模塊中提出一種可以將不同時(shí)序長度的發(fā)案數(shù)據(jù)補(bǔ)齊為預(yù)期長度序列(one for all)的方法,假設(shè)擬利用時(shí)序長度為m天的歷史數(shù)據(jù)訓(xùn)練模型進(jìn)行預(yù)測,只需要在生成訓(xùn)練數(shù)據(jù)時(shí),將所有訓(xùn)練數(shù)據(jù)統(tǒng)一構(gòu)造成長度為預(yù)期長度為n的序列。當(dāng)m<n時(shí),從列表左側(cè)擴(kuò)充 (n-m)天的歷史數(shù)據(jù),用特殊標(biāo)簽“UNK”代替;當(dāng)m≥n時(shí),將會從列表左側(cè)將數(shù)據(jù)截?cái)喑砷L度為n的序列,如此就可以實(shí)現(xiàn)發(fā)案數(shù)據(jù)時(shí)序動(dòng)態(tài)自適應(yīng)處理的目標(biāo)。由于采用該方法生成的模型訓(xùn)練數(shù)據(jù)包含不同時(shí)間范圍的歷史數(shù)據(jù),所以只需一次性處理數(shù)據(jù),就可以得到自適應(yīng)利用不同范圍天數(shù)的歷史發(fā)案數(shù)據(jù)預(yù)測犯罪趨勢的能力,大幅降低了重復(fù)處理和訓(xùn)練的工作量。
1.1.3 多視角特征分布式表征
根據(jù)公安實(shí)踐經(jīng)驗(yàn)可知,盜竊犯罪的發(fā)案態(tài)勢與案發(fā)當(dāng)天的天氣、作案時(shí)間和地理位置屬性有極強(qiáng)相關(guān)性[11-13],為此本文進(jìn)一步引入多視角特征作為輸入以提升盜竊犯罪預(yù)測精度。將發(fā)案數(shù)據(jù)、天氣、作案時(shí)間、地理位置共4 種特征向量進(jìn)行融合作為模型輸入。具體做法是對4 種輸入特征均采用分布式向量表示。由于每天的發(fā)案是離散數(shù)據(jù),因此可以對于每個(gè)柵格區(qū)域中的盜竊案件預(yù)設(shè)歷史天數(shù)的發(fā)案序列 IDk通過預(yù)訓(xùn)練Glove embedding 模型,將其映射為維度s維的分布式向量。
針對天氣、作案時(shí)間和地理位置3 類特征則通過構(gòu)建特征詞表,隨機(jī)初始化為固定維度分別為i、j、o維的向量,隨后在模型訓(xùn)練過程中不斷更新向量參數(shù),對此3 種特征進(jìn)行分布式向量表征。
最后將案件個(gè)數(shù)、天氣、作案時(shí)間和地理位置這4 種向量的序列矩陣,直接拼接構(gòu)成n(s+i+j+o)維的矩 陣X=[X1X2···Xn]T,其中n表示樣 本的容量。進(jìn)一步用Xt,t∈[1,n]表 示樣本集X中的某個(gè)樣本元素。然后將此時(shí)獲得的X作為輸入向量,送入到多視角特征動(dòng)態(tài)融合模塊,以進(jìn)一步捕獲時(shí)序依賴特征信息。
在時(shí)間序列預(yù)測任務(wù)中,常常基于CNN 編碼器[14-16]或是LSTM 編碼器對輸入特征間的依賴關(guān)系進(jìn)行提取[17-19]。CNN 特征編碼器只能捕獲窗口范圍內(nèi)的特征依賴關(guān)系,缺乏更多尺度下的關(guān)系考量;而基于LSTM 的特征編碼器雖然能捕獲較大范圍的特征信息,但該編碼器仍存在長距離依賴捕獲能力不足的問題。為了解決上述問題,本文引入自注意力(self-attention)機(jī)制,動(dòng)態(tài)融合一段時(shí)間范圍內(nèi)各天盜竊發(fā)案數(shù)據(jù)的歷史信息依賴關(guān)系,以進(jìn)一步提取更大范圍的潛在時(shí)序關(guān)聯(lián)信息。
在將各類別特征向量化表示形成特征輸入矩陣X后,給每天的數(shù)據(jù)向量Xt隨機(jī)初始化一個(gè)keyt值,k eyt值是一個(gè)用戶可自己設(shè)置的維度為p的向量,取值將會在算法模型的不斷訓(xùn)練中通過學(xué)習(xí)獲得。然后利用點(diǎn)積模型計(jì)算自注意力層輸入Xt與各個(gè)天數(shù)向量表征之間的相似度,通過相似度對比得出該天與各發(fā)案天數(shù)Xkey的重要程度,得到注意力得分 Score(keyt,Xkey),再利用softmax函數(shù)將注意力得分轉(zhuǎn)換為[0,1]之間的概率分布[20],得到權(quán)重系數(shù)αt,根據(jù)權(quán)重系數(shù)對輸入X序列元素進(jìn)行加權(quán)求和,得到自注意力模塊計(jì)算的更新向量,t∈[1,n],具體計(jì)算如下:
經(jīng)過多視角特征動(dòng)態(tài)融合模塊計(jì)算后,就得到了各歷史天數(shù)之間的依賴關(guān)系。為了捕獲更高層次的特征,本文采用多尺度窗口CNN 特征編碼器,對盜竊犯罪發(fā)案的高階信息采取進(jìn)一步融合編碼,如圖3 所示。
圖3 基于CNN 的多尺度窗口編碼器Fig.3 Multi-scale window encoder based on CNN
采用3 種不同尺度大小的卷積窗口捕獲2-gram、3-gram、4-gram 的特征,通過該模塊模型將獲得更多尺度的犯罪發(fā)案依賴信息,多窗口的卷積操作計(jì)算公式為
式中:Ua_gram表示輸入數(shù)據(jù)經(jīng)過不同尺度卷積核操作后的計(jì)算結(jié)果;a表示采用的卷積核尺寸。然后疊加偏置c,再使用激活函數(shù)f激活得到所需的特征,進(jìn)一步更新公式為
上述不同尺寸的卷積窗口得到的特征大小也是不一樣的,因此對每個(gè)計(jì)算后的特征向量再使用池化函數(shù),使它們的維度相同,此處采用K-max pooling 方法[21]進(jìn)一步提取特征,計(jì)算公式為
式(6)表示保留Ua_gram中前K個(gè)信息值的最大值,最后將3 種窗口編碼后的特征進(jìn)行拼接形成融合向量v,送入后續(xù)分類器模塊進(jìn)行犯罪發(fā)案態(tài)勢預(yù)測。
在公安實(shí)際工作中,盜竊犯罪的打防工作更多關(guān)注未來時(shí)段內(nèi)發(fā)案情況的高低態(tài)勢[22],進(jìn)而可根據(jù)發(fā)案態(tài)勢尋得犯罪熱點(diǎn)區(qū)域進(jìn)行布防[23],實(shí)現(xiàn)針對盜竊犯罪的提前預(yù)警和警力部署。為此本文立足實(shí)踐需求,將發(fā)案態(tài)勢分為高發(fā)、中發(fā)、低發(fā)3 個(gè)熱度等級,把模型的最后模塊設(shè)計(jì)為分類器,將前期模塊計(jì)算處理后的特征向量用softmax 函數(shù)進(jìn)行分類,得到當(dāng)前輸入樣本條件下的未來目標(biāo)天數(shù)發(fā)案預(yù)測分布P。Softmax 函數(shù)是深度學(xué)習(xí)中常用且有效的分類器,計(jì)算公式為
經(jīng)過以上各模塊的處理計(jì)算,實(shí)現(xiàn)了應(yīng)用預(yù)期時(shí)序長度的盜竊犯罪發(fā)案數(shù)據(jù)預(yù)測未來的發(fā)案態(tài)勢。本文采用模型計(jì)算得到的預(yù)測結(jié)果所對應(yīng)目標(biāo)日期發(fā)案數(shù)量的概率分布情況,與真實(shí)發(fā)案數(shù)量概率分布情況的接近程度作為模型的交叉熵?fù)p失函數(shù),計(jì)算公式為
式中:p表示真實(shí)發(fā)案概率分布情況;q為預(yù)測得到的發(fā)案概率分布情況,該值越小表明模型越優(yōu)。在模型參數(shù)求解過程中,采用Adam 梯度下降法[24]更新計(jì)算參數(shù),最終獲得使交叉熵?fù)p失函數(shù)取值最小的對應(yīng)參數(shù)即為模型最優(yōu)參數(shù),最優(yōu)模型也隨之確定。
本實(shí)驗(yàn)以“天”為研究的時(shí)間粒度,采用我國北方某大型城市B 市2014—2018 年,共1 862 天的實(shí)際盜竊犯罪案件情況為數(shù)據(jù)集,應(yīng)用氣象局發(fā)布的包括晴天、下雨、下雪等氣象數(shù)據(jù)作為天氣維度的特征描述;采用盜竊案件發(fā)案地點(diǎn)所屬的柵格區(qū)域數(shù)據(jù)為地理位置維度的特征描述。由于盜竊犯罪與季節(jié)和具體日期等時(shí)間特性具有相關(guān)性[25],所以本文就以案發(fā)的具體日期作為作案時(shí)間維度的特征描述。分別設(shè)置樣本時(shí)間范圍為5~15 天的發(fā)案情況,分別嘗試將 5×5、7 ×7和9×9柵格地圖劃分下的數(shù)據(jù)作為訓(xùn)練集來預(yù)測未來一天的發(fā)案趨態(tài)勢,如利用2018 年1 月1 日至1 月5 日的數(shù)據(jù)預(yù)測1 月6 日的發(fā)案態(tài)勢,某柵格區(qū)域內(nèi)盜竊犯罪輸入的原始數(shù)據(jù)樣例如表1 所示。
表1 某柵格區(qū)域內(nèi)盜竊犯罪輸入的原始數(shù)據(jù)樣例Table 1 Original data sample of theft crime in a grid area
盜竊犯罪態(tài)勢預(yù)測問題本質(zhì)上是一個(gè)多分類問題,因此本文選擇精確率p、召回率r、F1值作為評價(jià)指標(biāo)。具體計(jì)算公式為
式中:TP 表示正類樣本被判定正類的數(shù)量;FP表示負(fù)類樣本被判定為正類的數(shù)量;FN表示正類樣本被判定負(fù)類的數(shù)量。
為了兼顧算法模型預(yù)測能力的性能和效能,本文分別在 5×5、7×7和 9×9柵格的地圖劃分模式下開展測試實(shí)驗(yàn),3 種劃分模式的實(shí)驗(yàn)過程參數(shù)設(shè)置保持一致,如表2 所示。
表2 實(shí)驗(yàn)參數(shù)設(shè)置Table 2 Experimental parameter setting
為了驗(yàn)證本文所提DF-SAMS 模型的性能優(yōu)劣,分別選取了目前在犯罪預(yù)測場景中較為常用的CNN、LSTM、Bi-LSTM、LSTM-CNN 四個(gè)模型作對比。實(shí)驗(yàn)中針對不同的模型編碼器,均采用相同的特征向量數(shù)據(jù)作為輸入,分別在 5×5、7×7、9×9柵格地圖劃分模式下進(jìn)行測試,對比實(shí)驗(yàn)結(jié)果如表3~5 所示。
表3 5 ×5柵格地圖劃分下的模型對比效果Table 3 Model comparison effect under a grid map division of 5×5
表4 7 ×7柵格地圖劃分下的模型對比效果Table 4 Model comparison effect under a grid map division of 7×7
表5 9 ×9柵格地圖劃分下的模型對比效果Table 5 Model comparison effect under a grid map division of 9×9
上述實(shí)驗(yàn)結(jié)果表明,在不同的地圖柵格尺度劃分下,5 個(gè)模型在盜竊犯罪時(shí)空預(yù)測場景中都表現(xiàn)出較好的性能。但由于CNN 和LSTM 在時(shí)序維度特征的提取上,存在范圍受限和長跨度依賴關(guān)系捕獲不佳的問題,所以各項(xiàng)評價(jià)指標(biāo)都明顯遜色于其他3 種模型。事實(shí)上盜竊犯罪發(fā)案在時(shí)間維度上也是存在較強(qiáng)依賴關(guān)系的,所以Bi-LSTM、LSTM-CNN 和本文所提出的DF-SAMS 模型都獲得了比較好的預(yù)測效果。但由于提出的DF-SAMS 模型融入多視角特征,并且在時(shí)序維度上引入了自注意力機(jī)制,同時(shí)又采用了多尺度窗口CNN 進(jìn)行特征編碼,所以在多樣性和高層次信息方面都捕獲了更好的特征,使得其實(shí)驗(yàn)的各項(xiàng)指標(biāo)顯著優(yōu)于其他模型,最高精確率達(dá)到了0.899,F(xiàn)1值也達(dá)到了0.901,這一水平的預(yù)測精度能夠很好地服務(wù)于公安防控實(shí)戰(zhàn)工作。
通過進(jìn)一步觀察實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),7×7柵格地圖劃分下的各模型預(yù)測效果都優(yōu)于 5×5柵格地圖劃分下的評價(jià)指標(biāo),而采用 9×9柵格地圖劃分下的精確率p和F1值效果表現(xiàn)更佳,這在一定程度上揭示出在開展盜竊犯罪中,越是細(xì)粒度的空間劃分,越能夠取得較優(yōu)的預(yù)測效果,這也為公安數(shù)據(jù)警務(wù)建設(shè)提供了一種思路,即在犯罪時(shí)空預(yù)測中要盡量做到精細(xì)化、科學(xué)化分析。
為了進(jìn)一步驗(yàn)證本文在動(dòng)態(tài)自適應(yīng)數(shù)據(jù)預(yù)處理模塊所提出的one for all 訓(xùn)練方法在簡化數(shù)據(jù)處理過程中是否犧牲了預(yù)測效果,本文又分別在5×5和 9 ×9柵格地圖劃分下作了對比測試,實(shí)驗(yàn)選取預(yù)測效果較好的5、6、7 天作為訓(xùn)練數(shù)據(jù)時(shí)序天數(shù),并對不同數(shù)據(jù)處理方法下的5、6、7 天預(yù)測指標(biāo)求平均值,用DF-SAMS(avg)表示,其測試結(jié)果如圖4~6 所示。
圖4 5×5 柵格地圖劃分下不同數(shù)據(jù)處理方式的測試對比效果Fig.4 Test comparison of different data processing methods under a grid division of 5×5
圖5 7×7 柵格地圖劃分下不同數(shù)據(jù)處理方式的測試對比效果Fig.5 Test comparison of different data processing methods under a grid division of 7×7
圖6 9×9 柵格地圖劃分下不同數(shù)據(jù)處理方式的測試對比效果Fig.6 Test comparison of different data processing methods under a grid division of 9×9
上述實(shí)驗(yàn)中,one for all 訓(xùn)練方法得到的模型分別對采用歷史時(shí)間為5、6、7 天的數(shù)據(jù)樣本集進(jìn)行了測試,實(shí)驗(yàn)結(jié)果表明其在 5×5柵格地圖劃分下的預(yù)測平均精確率為0.872,而采用傳統(tǒng)的數(shù)據(jù)處理方法,即將訓(xùn)練數(shù)據(jù)分別構(gòu)造成長度為5、6、7 的向量,再分別訓(xùn)練單獨(dú)的預(yù)測模型,其預(yù)測準(zhǔn)確率分別為0.867、0.874、0.878,平均精確率為0.873,可見利用本文所提出的動(dòng)態(tài)自適應(yīng)數(shù)據(jù)預(yù)處理one for all 方法得到的預(yù)測結(jié)果與傳統(tǒng)數(shù)據(jù)處理方法所獲結(jié)果差距甚微,反而在r值和F1分值上的表現(xiàn)更優(yōu)。進(jìn)一步觀察到在 7×7和 9×9柵格地圖劃分下,one for all 訓(xùn)練方法得到的模型分別在采用歷史時(shí)間范圍為5、6、7 天時(shí),對應(yīng)的平均預(yù)測精準(zhǔn)率分別達(dá)到了0.891 和0.893,與傳統(tǒng)數(shù)據(jù)處理方法所得預(yù)測結(jié)果的精度出入十分微小,在值和兩個(gè)指標(biāo)上的結(jié)果與傳統(tǒng)數(shù)據(jù)處理方法所得預(yù)測結(jié)果差距也不大。這說明本文所提出的one for all 模型數(shù)據(jù)處理方法不僅能實(shí)現(xiàn)采用一個(gè)模型預(yù)測不同時(shí)間范圍內(nèi)的犯罪態(tài)勢,而且能保證模型與傳統(tǒng)處理方法的預(yù)測結(jié)果基本持平,印證了所提模型在盜竊犯罪發(fā)案態(tài)勢預(yù)測上的運(yùn)算高效性和效果優(yōu)越性。
本文著眼于公安實(shí)戰(zhàn)部門對于盜竊犯罪智能化防控的需求,提出了基于自注意力機(jī)制和多尺度多視角特征動(dòng)態(tài)融合的預(yù)測模型。模型分別從訓(xùn)練數(shù)據(jù)預(yù)處理和深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)兩個(gè)角度出發(fā)。首先提出了one for all 的動(dòng)態(tài)自適應(yīng)數(shù)據(jù)的匹配方法,實(shí)現(xiàn)了在不損失預(yù)測效果的前提下節(jié)省模型的訓(xùn)練數(shù)據(jù)構(gòu)造工作量;其次,在模型的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)中通過融入多視角特征提升預(yù)測效果,并嘗試引入了自注意力機(jī)制,以捕獲盜竊犯罪發(fā)案的時(shí)序依賴信息,進(jìn)一步使用多尺度窗口的CNN 編碼器提取更高階的依賴信息,達(dá)成了盜竊犯罪時(shí)空精準(zhǔn)預(yù)測的目標(biāo)。實(shí)驗(yàn)表明,本文提出的DF-SAMS 模型具有良好的特征提取和發(fā)案態(tài)勢預(yù)測性能,相較于實(shí)驗(yàn)中另外4 種常用的犯罪預(yù)測神經(jīng)網(wǎng)絡(luò)模型,本文所提模型表現(xiàn)出更好的測試結(jié)果。
未來工作中將繼續(xù)擴(kuò)充輸入特征,如考慮引入警力分布、交通設(shè)施等數(shù)據(jù),并進(jìn)一步完善模型網(wǎng)絡(luò)結(jié)構(gòu),探索更優(yōu)的參數(shù)設(shè)置和數(shù)據(jù)預(yù)處理方法,不斷提升模型訓(xùn)練效率和預(yù)測性能,以期實(shí)現(xiàn)對本文DF-SAMS 模型的進(jìn)一步優(yōu)化與改進(jìn),更好提升公安機(jī)關(guān)開展盜竊犯罪打防工作的效率和準(zhǔn)度。