邱凌峰,胡嘯峰,周 睿, 顧海碩,唐 正,鄭超慧,張學(xué)軍
(1.中國人民公安大學(xué) 信息技術(shù)與網(wǎng)絡(luò)安全學(xué)院,北京 102623;2.安全防范技術(shù)與風(fēng)險(xiǎn)評(píng)估公安部重點(diǎn)實(shí)驗(yàn)室,北京 102623;3.清華大學(xué) 工程物理系,北京 100084;4.清華大學(xué) 公共安全研究院,北京 100084)
2017年4月,中共中央、國務(wù)院決定在河北設(shè)立雄安新區(qū),這是以習(xí)近平總書記為核心的黨中央作出的一項(xiàng)重大歷史性戰(zhàn)略選擇,是千年大計(jì)、國家大事。
隨著雄安新區(qū)的建設(shè)和發(fā)展,當(dāng)?shù)氐娜丝诮Y(jié)構(gòu)和周邊環(huán)境等將會(huì)發(fā)生巨大改變,并由此帶來一系列的社會(huì)安全問題[1]。《河北雄安新區(qū)規(guī)劃綱要》(以下簡稱《綱要》)中明確提出,要構(gòu)筑“現(xiàn)代化城市安全體系”,提高針對(duì)公共安全領(lǐng)域的突發(fā)事件的監(jiān)測(cè)預(yù)警和應(yīng)急處置能力。作為突發(fā)事件中的第4大類,針對(duì)社會(huì)安全事件的預(yù)警和防控工作將是構(gòu)筑“現(xiàn)代化城市安全體系”的一項(xiàng)重要內(nèi)容。社會(huì)安全事件的誘發(fā)主體往往是人,具有較強(qiáng)不確定性,其安全風(fēng)險(xiǎn)是動(dòng)態(tài)變化的,預(yù)測(cè)和預(yù)防的難度較大,因此,針對(duì)社會(huì)安全事件的預(yù)測(cè)預(yù)警研究十分必要。
盜竊犯罪是一個(gè)比重巨大,并且嚴(yán)重影響社會(huì)安全的世界性和歷史性的隱患,嚴(yán)重消耗著社會(huì)資源,是一類典型的社會(huì)安全事件。這一全國乃至全球普遍存在的犯罪形式,同樣也成為雄安新區(qū)必將要面對(duì)的社會(huì)安全風(fēng)險(xiǎn)。據(jù)全國數(shù)據(jù)統(tǒng)計(jì),2013—2017年,檢察機(jī)關(guān)起訴的刑事犯罪嫌疑人中,盜竊犯罪達(dá)146.3萬人,排名第1,占比超過25%[2]。因此,針對(duì)盜竊犯罪的治理工作將有助于降低雄安新區(qū)面臨的社會(huì)安全風(fēng)險(xiǎn),對(duì)保護(hù)人民財(cái)產(chǎn)安全、維持社會(huì)穩(wěn)定具有重要意義。在盜竊犯罪嫌疑人中,盜竊前科人員再犯罪問題突出,常反復(fù)作案,且作案手段隱蔽、高超,涉案金額往往較大。在盜竊案高發(fā),而社會(huì)治安資源有限的情況下,針對(duì)盜竊前科人員進(jìn)行預(yù)警,從而重點(diǎn)治理,能夠提高社會(huì)治安資源利用率,震懾其他盜竊人員,并降低盜竊犯罪風(fēng)險(xiǎn)。
本文利用脫密處理后的A市2012—2016年盜竊犯罪數(shù)據(jù),基于多種機(jī)器學(xué)習(xí)模型,構(gòu)建盜竊前科人員分類預(yù)測(cè)模型,并根據(jù)預(yù)測(cè)結(jié)果進(jìn)一步挖掘盜竊人員的作案規(guī)律。A市與雄安新區(qū)同處華北平原腹地,城市間距離較近,交通便利,地貌、氣候、水文等地理環(huán)境具有很高的相似度。A市是我國北方的一線中心城市,經(jīng)濟(jì)、文化發(fā)達(dá),人口高度密集,雄安新區(qū)的發(fā)展定位為未來的首都副中心,經(jīng)濟(jì)、文化、人口密度極可能達(dá)到與A市相當(dāng)?shù)乃?,成為京津冀地區(qū)的核心城市區(qū)域,社會(huì)環(huán)境也具有相似性。基于自然與社會(huì)環(huán)境的相似性,宏觀上可以推斷,2個(gè)城市整體的流動(dòng)人口規(guī)模與密度、安全防范水平、重點(diǎn)人員跨地域作案動(dòng)機(jī)、作案成本等多種風(fēng)險(xiǎn)要素也可能具有較高的相似性。因此,利用A市數(shù)據(jù)進(jìn)行盜竊犯罪發(fā)生規(guī)律的研究,將有助于雄安新區(qū)在建立社會(huì)安全防控體系的過程中識(shí)別、歸納共性問題,有針對(duì)性地提出預(yù)防措施,完善警務(wù)、應(yīng)急以及綜合治理系統(tǒng)的頂層設(shè)計(jì)方案。
在此基礎(chǔ)上,根據(jù)《綱要》的要求,針對(duì)研究過程中的數(shù)據(jù)應(yīng)用、數(shù)據(jù)分析及研究結(jié)果中的數(shù)據(jù)挖掘規(guī)律,提出對(duì)雄安新區(qū)構(gòu)建基于數(shù)據(jù)驅(qū)動(dòng)的社會(huì)安全事件預(yù)測(cè)預(yù)警和綜合研判系統(tǒng)的思考及建議。
在國內(nèi)外相關(guān)研究中,基于數(shù)據(jù)主導(dǎo)的犯罪預(yù)測(cè)取得了良好的效果[3-4]。文獻(xiàn)[5]基于統(tǒng)計(jì)學(xué)的方法,利用犯罪人員的定罪歷史預(yù)測(cè)3種類型的累犯;文獻(xiàn)[6]基于隨機(jī)森林,利用定罪數(shù)量,年齡,犯罪類型,犯罪歷史的多樣性和藥物濫用等特征對(duì)患有精神障礙人員進(jìn)行分類預(yù)測(cè);文獻(xiàn)[7]基于樸素貝葉斯,利用發(fā)案的日期和地點(diǎn),犯罪類型,罪犯ID和熟人等特征預(yù)測(cè)嫌疑人犯罪風(fēng)險(xiǎn);文獻(xiàn)[8]通過罪犯、犯罪目標(biāo)、犯罪環(huán)境3個(gè)因素預(yù)測(cè)犯罪發(fā)生的可能性;文獻(xiàn)[9]基于支持向量機(jī),利用案件信息及受害者身份信息,預(yù)測(cè)犯罪嫌疑人的身份特征;文獻(xiàn)[10]基于改進(jìn)的GA-BP神經(jīng)網(wǎng)絡(luò),利用案件信息、人口及經(jīng)濟(jì)信息、土地利用信息等,對(duì)財(cái)產(chǎn)犯罪的時(shí)空分布進(jìn)行預(yù)測(cè);文獻(xiàn)[11]基于隨機(jī)森林,利用刑事案件中罪犯的特征,預(yù)測(cè)可能的犯罪嫌疑人。
已有研究為基于數(shù)據(jù)主導(dǎo)的犯罪預(yù)測(cè)提供了豐富的方法和思路,但是,這些研究利用的信息大多是在確定了嫌疑人身份后才能獲得的,如:年齡、犯罪歷史、熟人等。而在大多數(shù)情況下,盜竊事件發(fā)生后,嫌疑人的身份是未知的,能獲取的信息只有案發(fā)的時(shí)間、地點(diǎn)、盜竊手段和損失金額。針對(duì)該問題,本文基于多種機(jī)器學(xué)習(xí)方法,利用發(fā)案時(shí)間、發(fā)案地點(diǎn)、實(shí)施手段和損失金額作為特征,對(duì)盜竊人員進(jìn)行分類預(yù)測(cè)。
本文首先從盜竊犯罪數(shù)據(jù)中提取出發(fā)案時(shí)間、發(fā)案地點(diǎn)、實(shí)施手段和損失金額作為特征,預(yù)處理后,按時(shí)間順序?qū)?shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,然后利用測(cè)試集檢驗(yàn)訓(xùn)練好的模型,最后利用表現(xiàn)最優(yōu)的模型進(jìn)行結(jié)果分析,具體流程如圖1所示。
圖1 盜竊前科人員預(yù)測(cè)流程Fig.1 Forecast flow chart for Larceny Ex-convict
本文選取A市2012—2016年的實(shí)際盜竊案數(shù)據(jù)進(jìn)行盜竊前科人員的分類預(yù)測(cè)研究。其中數(shù)據(jù)集共包括7 772條案件信息,每條數(shù)據(jù)包含案件信息和案犯類型(初犯累犯慣犯),按照盜竊事件發(fā)生后可獲得的信息維度,提取出“發(fā)案時(shí)間”、“發(fā)案地點(diǎn)”、“實(shí)施手段”和“損失金額”共4個(gè)特征,對(duì)盜竊人員的類型進(jìn)行分類預(yù)測(cè)。
數(shù)據(jù)集中的盜竊前科人員為此次犯罪之前受過刑罰處罰的盜竊人員,類型包括初犯、累犯和慣犯3種。累犯是在此次犯罪之前已受過刑罰處罰的前科人員;初犯和慣犯為初次受到刑罰處罰的前科人員,其中,慣犯的歷次犯罪行為未被發(fā)現(xiàn)、處理和登記,也是初次受到刑罰處罰,慣犯的犯罪規(guī)律有可能與初犯和累犯存在差異。本文基于大量數(shù)據(jù),挖掘規(guī)律性較強(qiáng)的盜竊犯罪特征,累犯數(shù)據(jù)的隨機(jī)性低于初犯和慣犯,再犯罪規(guī)律預(yù)期更為顯著,因此,對(duì)其作案規(guī)律的探索意義大于初犯和慣犯,本文在算法的性能評(píng)估中重點(diǎn)關(guān)注模型對(duì)累犯的預(yù)測(cè)精度。
因此,本文對(duì)盜竊前科人員作案規(guī)律的研究,包括了累犯、初犯、慣犯3種,但考慮到研究的現(xiàn)實(shí)意義與犯罪規(guī)律的魯棒性,對(duì)累犯進(jìn)行重點(diǎn)挖掘。3.1節(jié)發(fā)現(xiàn)累犯的預(yù)測(cè)精度很高,而初犯和慣犯的精度較低,印證了上文的觀點(diǎn),即累犯作案的規(guī)律性可能強(qiáng)于初犯與慣犯。
本文預(yù)處理工作是將“發(fā)案時(shí)間”、“發(fā)案地點(diǎn)”和“實(shí)施手段”的原有數(shù)據(jù)類型轉(zhuǎn)化為整型數(shù)據(jù),從“簡要案情”中提取出損失金額,將初犯、累犯、慣犯分別標(biāo)記為0,1,2,預(yù)處理后的數(shù)據(jù)樣式如表1所示。
表1 數(shù)據(jù)樣式Table1 Data pattern
由于“發(fā)案時(shí)間”、“發(fā)案地點(diǎn)”和“實(shí)施手段”原有分類過多,導(dǎo)致模型預(yù)測(cè)準(zhǔn)確性不高,本文根據(jù)數(shù)據(jù)類型特點(diǎn),結(jié)合公安工作經(jīng)驗(yàn),對(duì)這3個(gè)特征進(jìn)行歸類后,模型的分類預(yù)測(cè)精度明顯提升,參見3.1內(nèi)容。
2.2.1 實(shí)施手段處理
實(shí)施手段指盜竊人員進(jìn)行盜竊時(shí)使用的方法,如剪門掛鎖、順手牽羊等共90多種。考慮不同類型的盜竊人員作案經(jīng)驗(yàn)的不同,選擇的手段可能具有差異性,將“實(shí)施手段”分為4類。其中,“其他類”標(biāo)記為“4”(該類型為記錄時(shí)無法確定具體使用的盜竊手段);將有破壞行為的手段標(biāo)記為“3”(包括通過破壞車、門、窗等破壞手段盜竊房屋或車內(nèi)物品);將有扒竊行為的手段標(biāo)記為“1”;不包含破壞行為和扒竊行為的手段標(biāo)記為“2”,如表2所示。
表2 實(shí)施手段分類Table 2 Classification of means
2.2.2 發(fā)案時(shí)間處理
原始數(shù)據(jù)中的發(fā)案時(shí)間精確到“年/月/日/時(shí)/分”,種類達(dá)到了幾千種,采用原始分類會(huì)導(dǎo)致分類準(zhǔn)確性下降;現(xiàn)實(shí)中,失主發(fā)現(xiàn)物品被盜與案件發(fā)生的時(shí)間往往具有不一致性,采用原有發(fā)案時(shí)間也會(huì)對(duì)結(jié)果分析帶來一定的偏差。因此,本文將時(shí)間分析的尺度調(diào)整為1天中的4個(gè)時(shí)段,結(jié)果如表3所示。
表3 發(fā)案時(shí)間分類Table 3 Classification of duration
2.2.3 發(fā)案地點(diǎn)處理
發(fā)案地點(diǎn)指盜竊人員實(shí)施盜竊的地點(diǎn),原始分類共90多種,如:地鐵站、商場、網(wǎng)吧和賓館等。根據(jù)公安實(shí)習(xí)經(jīng)驗(yàn),手法熟練的扒手往往會(huì)在人流量大的車站實(shí)施盜竊;有經(jīng)驗(yàn)的盜竊人員知道網(wǎng)吧里上網(wǎng)的人戒備心較低,放在桌上的手機(jī)容易盜走。本文按照人流量大小、安保力量多少和市民在該地點(diǎn)所持的戒備心高低,將“發(fā)案地點(diǎn)”分為4類,結(jié)果如表4所示。
表4 發(fā)案地點(diǎn)分類Table 4 Classification of location
其中,大型公共場所包括汽車站、醫(yī)院等;商業(yè)地區(qū)包括商場、繁華街道等;休閑娛樂場所包括網(wǎng)吧、KTV等;住所包括賓館、居民小區(qū)等。
2.2.4 損失金額處理
損失金額指案件被盜物品的價(jià)值,其大小可能影響不同類型盜竊人員的選擇。原始數(shù)據(jù)中,簡要案情記錄了案件發(fā)生的經(jīng)過,其中包括丟棄的物品名稱和估價(jià),主要分為3種類型:“包含丟失物品的估價(jià)”、“沒有估價(jià)但包含物品的品牌”、“沒有估價(jià)和品牌但有丟失物品名稱”,如:
1)丟失蘋果牌土豪金色6PLUS手機(jī),價(jià)值5 000元。
2)丟失蘋果5手機(jī)。
3)丟失手機(jī)。
將上述3類數(shù)據(jù)標(biāo)記為“1”、“0”、“2”,并采用正則表達(dá)式提取出金額或被盜物品的品牌。對(duì)類型“1”賦值“5000”;對(duì)類型“0”,提取出“蘋果5”,并與建立好的字典“蘋果5:4000”進(jìn)行匹配,賦值“4000”;類型“2”屬于缺失值,由于數(shù)量較多,用類型“0”和“1”中的頻繁項(xiàng)進(jìn)行插補(bǔ),結(jié)果如表5所示。
表5 損失金額分類Table 5 Classification of loss of the victim
由于類型“2”具有較大的不確定性,針對(duì)該不確定性,本文進(jìn)行了敏感性分析。統(tǒng)計(jì)發(fā)現(xiàn),“損失金額”75%的值集中在3 000到60 000,在該區(qū)間內(nèi),以500為步長,對(duì)類型“2”進(jìn)行賦值,每次賦值后都進(jìn)行5折交叉驗(yàn)證。根據(jù)結(jié)果顯示,交叉驗(yàn)證準(zhǔn)確率變化的標(biāo)準(zhǔn)差較小(0.003 3),說明分類結(jié)果對(duì)類型“2”的賦值不敏感。
2.2.5 不平衡數(shù)據(jù)處理
原始數(shù)據(jù)中,初犯、累犯和慣犯的數(shù)量分別為:4 488,906和2 378條,具有一定的不平衡性,這容易導(dǎo)致模型對(duì)初犯和慣犯學(xué)習(xí)較好,而對(duì)累犯(盜竊前科人員)的預(yù)測(cè)效果不理想[12-14],因此,本文利用SMOTE算法對(duì)累犯樣本進(jìn)行采樣處理。
SMOTE算法[15]首先對(duì)少數(shù)類樣本進(jìn)行分析,對(duì)其中的每1個(gè)樣本 ,以歐氏距離為標(biāo)準(zhǔn)計(jì)算其到所有少數(shù)類樣本的距離,并得到其K近鄰數(shù)據(jù)點(diǎn),在此基礎(chǔ)上,根據(jù)原始數(shù)據(jù)樣本的不平衡比例,設(shè)置采樣比,從而確定采樣倍率。進(jìn)而,對(duì)于每1個(gè)少數(shù)類樣本,從其K近鄰數(shù)據(jù)點(diǎn)中隨機(jī)選擇若干樣本,并分別與原始數(shù)據(jù)樣本按照如下式(1)生成新的樣本數(shù)據(jù)。
Χnew=Χ+rand(0,1)×|Χ-Χn|
(1)
式中:Χn為Χ的K近鄰數(shù)據(jù)點(diǎn),Χnew為新的樣本數(shù)據(jù)。
利用SMOTE算法處理后,初犯、累犯和慣犯的數(shù)據(jù)量依次是4 488,2 721和2 378條,數(shù)據(jù)不平衡性得到了降低。
數(shù)據(jù)集劃分考慮實(shí)戰(zhàn)應(yīng)用的場景:歷史數(shù)據(jù)用于訓(xùn)練模型,利用訓(xùn)練好的模型對(duì)新數(shù)據(jù)進(jìn)行分類預(yù)測(cè),2者之間存在時(shí)序性。本文選取2012—2015年的數(shù)據(jù)作為訓(xùn)練集(共9 172條,其中初犯4 367條,累犯2 538條,慣犯2 267條),2016年的數(shù)據(jù)作為測(cè)試集(共415條,其中初犯121條,累犯183條,慣犯111條)。
本文選取查準(zhǔn)率(Precision)、查全率(Recall)和F1作為評(píng)價(jià)指標(biāo)[16-17]。其中,累犯的查準(zhǔn)率表示“預(yù)測(cè)為累犯的盜竊人員中有多少是真的累犯”;查全率表示“所有的累犯中有多少被正確預(yù)測(cè)”;當(dāng)這2項(xiàng)指標(biāo)難以直觀比較時(shí),根據(jù)F1評(píng)價(jià)模型的預(yù)測(cè)精度,該值綜合了查準(zhǔn)率和查全率,F(xiàn)1為1時(shí),代表模型的綜合性能最好,為0時(shí)性能最差;3項(xiàng)指標(biāo)的計(jì)算如式(2)~(4)所示。
Precision=TP/(TP+FP)
(2)
Recall=TP/(TP+FN)
(3)
F1=2×Precision×Recall/(Precision+Recall)
(4)
式中:TP表示被正確分類為正樣本數(shù);FP表示被錯(cuò)誤分類的負(fù)樣本數(shù);FN表示被錯(cuò)誤分類的正樣本數(shù)。
由于建模的目標(biāo)是預(yù)測(cè)盜竊前科人員,對(duì)比不同機(jī)器學(xué)習(xí)算法時(shí)只關(guān)注其對(duì)累犯的預(yù)測(cè)精度。利用python3.6中的Scikit-learn開源機(jī)器學(xué)習(xí)模型庫實(shí)現(xiàn)邏輯斯蒂[18]、支持向量機(jī)[19]、決策樹[20]、隨機(jī)森林[21]、K近鄰[22]和樸素貝葉斯[23]共6種機(jī)器學(xué)習(xí)模型的建立,并計(jì)算模型在測(cè)試集上對(duì)累犯的預(yù)測(cè)精度,結(jié)果如表6所示。
表6 不同算法對(duì)累犯預(yù)測(cè)精度的比較Table 6 Comparison of prediction accuracy of recidivism by different algorithms
由表6可知,隨機(jī)森林在預(yù)測(cè)累犯時(shí)性能最優(yōu),3項(xiàng)指標(biāo)均達(dá)到了0.85。決策樹和樸素貝葉斯模型有某1項(xiàng)指標(biāo)較高,但綜合指標(biāo)F1只有0.6左右。
利用sklearn.metrics模塊的classification_report功能計(jì)算隨機(jī)森林模型對(duì)3類盜竊前科人員的分類預(yù)測(cè)結(jié)果,如表7所示。
根據(jù)表7,特征歸類后隨機(jī)森林模型預(yù)測(cè)3類盜竊前科人員的F1分別為0.66,0.86和0.64,較歸類前提高了0.18,0.33和0.40,說明2.2節(jié)的歸類是合理的。對(duì)比發(fā)現(xiàn),模型對(duì)累犯的預(yù)測(cè)精度明顯高于初犯、慣犯,說明2012—2016年間,盜竊前科人員作案可能具有穩(wěn)定性和明顯的規(guī)律性。
表7 隨機(jī)森林分類預(yù)測(cè)結(jié)果Table 7 Classification and prediction results of random forests
根據(jù)表7中歸類后的預(yù)測(cè)精度,認(rèn)為測(cè)試集中被正確分類的盜竊前科人員(尤其是累犯)的作案規(guī)律具有代表性。篩選出被正確分類的盜竊前科人員,統(tǒng)計(jì)其“發(fā)案時(shí)間”、“發(fā)案手段”、“地點(diǎn)”中各類型(類型“1”、“2”、“3”、“4”)占比及造成損失的均值,結(jié)果如表8所示。
表8 3類盜竊前科人員發(fā)案規(guī)律統(tǒng)計(jì)Table 8 Statistics on the law of three types of larceny ex-convict
注:手段1~4類型見表2;時(shí)間1~4類型見表3;地點(diǎn)1~4類型見表4;損失均值為損失金額的平均值。
由表8可知,累犯的作案規(guī)律與初犯、慣犯明顯不同。累犯造成的損失均值為5 885元,比初犯和慣犯都高了2 000多元;“實(shí)施手段”方面,累犯很少選擇破壞性的手段(類型“3”)且扒手較多;“發(fā)案地點(diǎn)”方面,累犯幾乎不會(huì)選擇大型公共場所和住所(類型“1”、“4”),而初犯的選擇沒有明顯的偏好;“發(fā)案時(shí)間”方面,具有多次作案經(jīng)歷的累犯和慣犯幾乎都選擇下午時(shí)段(類型“3”)。綜上所述,相比于初犯和慣犯,累犯的作案規(guī)律更為顯著,對(duì)前科人員的作案規(guī)律挖掘更具有參考意義。根據(jù)累犯的作案規(guī)律,盜竊前科人員很可能偏好選擇下午時(shí)段和人流量大的地區(qū)實(shí)施盜竊,另外,扒竊案高發(fā)的地區(qū)也可能是盜竊前科人員作案的熱點(diǎn)地區(qū)。這一規(guī)律可以為雄安新區(qū)的治安巡邏區(qū)域劃分、防控力量布局等社會(huì)治安防控工作提供決策支持。
雄安新區(qū)的設(shè)立是我國重大的戰(zhàn)略選擇,需要結(jié)合先進(jìn)的技術(shù)手段保障其長期、穩(wěn)定的安全發(fā)展?!毒V要》中明確提出,“要利用信息智能等技術(shù),構(gòu)建全時(shí)全域、多維數(shù)據(jù)融合的城市安全監(jiān)控體系,形成人機(jī)結(jié)合的智能研判決策和響應(yīng)能力”。本文利用多種機(jī)器學(xué)習(xí)算法,使用實(shí)際盜竊犯罪數(shù)據(jù),對(duì)盜竊前科人員進(jìn)行分類預(yù)測(cè),進(jìn)而根據(jù)預(yù)測(cè)結(jié)果進(jìn)行分析,挖掘盜竊前科人員作案的時(shí)空熱點(diǎn)。該方法可以根據(jù)數(shù)據(jù)的變化不斷調(diào)整參數(shù),以保證預(yù)測(cè)的準(zhǔn)確性和穩(wěn)定性,是數(shù)據(jù)驅(qū)動(dòng)下社會(huì)安全風(fēng)險(xiǎn)預(yù)測(cè)的一種嘗試。雄安新區(qū)的社會(huì)安全防控體系建設(shè)需要較長的迭代周期,其面臨的社會(huì)安全風(fēng)險(xiǎn)需要大量的人力、物力、財(cái)力支撐,警務(wù)資源、應(yīng)急資源的合理化、集約化應(yīng)用具有重要意義,本文的研究提供針對(duì)類似社會(huì)安全問題的規(guī)律挖掘框架,有助于自動(dòng)化地發(fā)掘類似社會(huì)安全問題的發(fā)生規(guī)律,有助于針對(duì)性地部署和調(diào)整警務(wù)與應(yīng)急資源,提高智能研判決策和響應(yīng)能力,符合《綱要》的要求,也對(duì)應(yīng)了雄安新區(qū)安全體系發(fā)展建設(shè)的獨(dú)特需求。
根據(jù)《綱要》的要求,雄安新區(qū)將要建設(shè)1套基于智能技術(shù)和多維數(shù)據(jù)的社會(huì)安全預(yù)測(cè)預(yù)警和綜合研判系統(tǒng)(以下簡稱“系統(tǒng)”)。結(jié)合研究過程中遇到的問題,本文針對(duì)該“系統(tǒng)”的前期建設(shè)和后期使用提出以下思考和建議。
1)制定統(tǒng)一的數(shù)據(jù)格式,保證數(shù)據(jù)的使用效率。隨著雄安新區(qū)建設(shè)的推進(jìn),“系統(tǒng)”將有大量數(shù)據(jù)接入,如人口數(shù)據(jù)、接警數(shù)據(jù)、天氣數(shù)據(jù)、金融數(shù)據(jù)和通信數(shù)據(jù)等,大規(guī)模的數(shù)據(jù)集可以為社會(huì)安全事件的準(zhǔn)確預(yù)測(cè)提供基礎(chǔ)保障。但建設(shè)前期如果不注重統(tǒng)一數(shù)據(jù)格式,各類數(shù)據(jù)關(guān)聯(lián)和數(shù)據(jù)清洗工作會(huì)占用大量的時(shí)間和人力,嚴(yán)重降低數(shù)據(jù)的使用效率,導(dǎo)致“系統(tǒng)”后期使用的時(shí)效性大打折扣。以本文研究為例,本文使用數(shù)據(jù)中,存在著大量的缺失值與不規(guī)范問題,如:數(shù)據(jù)中對(duì)損失金額的描述為阿拉伯?dāng)?shù)字與繁體字混用,單位有“元”、“美元”、“美金”,利用正則表達(dá)式提取“損失金額”很難一步到位,需要將1個(gè)表格分為近30個(gè)表格,嚴(yán)重消耗時(shí)間和人力;對(duì)作案地點(diǎn)和作案手段進(jìn)行非數(shù)值特征轉(zhuǎn)化時(shí),發(fā)現(xiàn)同一類特征有多種的表示方法(最多可達(dá)8~10種),將多種特征按規(guī)律進(jìn)行分類后,模型對(duì)累犯的預(yù)測(cè)精度顯著提高。綜上所述,數(shù)據(jù)缺乏統(tǒng)一的格式,將對(duì)“系統(tǒng)”的工作效率產(chǎn)生較大的影響。因此,雄安新區(qū)在“系統(tǒng)”的前期建設(shè)時(shí),應(yīng)注重?cái)?shù)據(jù)格式的統(tǒng)一(即數(shù)據(jù)類型、錄入格式等進(jìn)行統(tǒng)一規(guī)范),并通過大量訓(xùn)練結(jié)果的反饋不斷地完善這一數(shù)據(jù)格式,將有利于數(shù)據(jù)融合和綜合應(yīng)用,為“系統(tǒng)”的后期使用打下基礎(chǔ)。
2)實(shí)現(xiàn)數(shù)據(jù)實(shí)時(shí)接入,提高社會(huì)安全風(fēng)險(xiǎn)的動(dòng)態(tài)感知能力。社會(huì)安全風(fēng)險(xiǎn)動(dòng)態(tài)變化特征明顯,“系統(tǒng)”的數(shù)據(jù)接入也具有實(shí)時(shí)性要求。仍以本文研究為例,對(duì)預(yù)測(cè)結(jié)果的綜合研判后,發(fā)現(xiàn)累犯作案的時(shí)空熱點(diǎn)具有明顯規(guī)律性,這一規(guī)律很可能代表了盜竊前科人員的作案規(guī)律,按這一規(guī)律進(jìn)行巡邏區(qū)域劃分和防控力量部署,將很可能壓縮盜竊前科人員的作案空間,降低其作案風(fēng)險(xiǎn)。同時(shí),相關(guān)的防控工作也很可能影響盜竊前科人員的作案選擇,并由此帶來相關(guān)數(shù)據(jù)的變化。若能將相關(guān)數(shù)據(jù)實(shí)時(shí)輸入,“系統(tǒng)”就可以自動(dòng)調(diào)整模型參數(shù),并將新形成的規(guī)律反饋至有關(guān)部門,為相關(guān)治安防控策略的改變和部署提供決策支持。因此,雄安新區(qū)“系統(tǒng)”的后期使用時(shí),應(yīng)將新數(shù)據(jù)按一定的時(shí)間尺度進(jìn)行接入,交付系統(tǒng)模型進(jìn)行計(jì)算和綜合研判,相關(guān)部門可根據(jù)得出的規(guī)律進(jìn)行防控策略的實(shí)時(shí)調(diào)整,以應(yīng)對(duì)各類動(dòng)態(tài)變化的社會(huì)安全風(fēng)險(xiǎn)。
1)利用A市2012—2016年實(shí)際盜竊數(shù)據(jù),提取“發(fā)案時(shí)間”、“發(fā)案地點(diǎn)”、“實(shí)施手段”和“損失金額”作為特征,通過特征工程和SMOTE算法對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,基于邏輯斯蒂、支持向量機(jī)、決策樹、隨機(jī)森林、K近鄰和樸素貝葉斯共6種機(jī)器學(xué)習(xí)模型,構(gòu)建分類預(yù)測(cè)模型,對(duì)盜竊人員進(jìn)行分類預(yù)測(cè)。結(jié)果顯示,隨機(jī)森林表現(xiàn)最優(yōu),預(yù)測(cè)累犯的查準(zhǔn)率、查全率和F1分別達(dá)到了0.86,0.85和0.86。
2)根據(jù)數(shù)據(jù)挖掘的結(jié)果,累犯的盜竊金額明顯高于初犯和慣犯;盜竊前科人員可能傾向于選擇下午時(shí)段和人流量大的地區(qū)實(shí)施盜竊。
3)提供針對(duì)類似社會(huì)安全問題的規(guī)律挖掘框架,有助于自動(dòng)化地發(fā)掘類似社會(huì)安全問題的發(fā)生規(guī)律,有助于針對(duì)性地部署和調(diào)整警務(wù)與應(yīng)急資源,為雄安新區(qū)基于智能技術(shù)和多維數(shù)據(jù)的社會(huì)安全預(yù)測(cè)預(yù)警和綜合研判系統(tǒng)建設(shè)提供方法支撐,同時(shí),根據(jù)本文研究過程和研究結(jié)果,對(duì)該系統(tǒng)的建設(shè)提出“制定統(tǒng)一的數(shù)據(jù)格式”和“實(shí)現(xiàn)數(shù)據(jù)實(shí)時(shí)接入”2方面的思考及建議,為雄安新區(qū)的“現(xiàn)代化城市安全體系”建設(shè)提供參考借鑒。