張書浩 周妍 黃晴
1.浙江警察學(xué)院 2.浙江省杭州市公安局蕭山區(qū)分局
受到2020年初新冠疫情影響,人們?nèi)粘I畹姆椒矫婷娑际艿搅溯^大的沖擊,尤其是公共交通領(lǐng)域,在疫情期間,公交車、地鐵等公共交通設(shè)施流量驟減,私家車出行比例上升,導(dǎo)致疫情前交通事故的空間分布特點與疫情后存在著部分差異,疫情前的交通事故空間分布分析的參考價值可能存在一定的局限性和差異性。且在疫情下,大部分警力投入疫情防控中,交通事故的精準(zhǔn)預(yù)測與預(yù)防顯得尤為重要。
鑒于上述原因,對疫情前后的交通事故空間分布特性進行分析并對比,利用分布特性的空間差異,找出在大型公共衛(wèi)生事件(如新冠疫情)對交通事故空間分布特性的影響,對于疫情下交通事故的預(yù)防及未來大型公共衛(wèi)生事件下警力的布控有重要意義。因此,本文以2019年10月~12月和2020年10月~12月共六個月間某市某區(qū)發(fā)生的事故為研究對象,采用聚類法,分析疫情前后交通事故空間分布特征的差異,從而為公安機關(guān)在疫情狀況下的警力部署提供幫助。
目前,國內(nèi)外對交通事故空間分析的研究大都針對事故整體進行事故多發(fā)區(qū)域、事故熱點區(qū)域分析。在時空數(shù)據(jù)模型的實際應(yīng)用方面,從2000年以來,該模型結(jié)構(gòu)的建立與改進更多用來滿足特殊行業(yè)和研究的需要。如David等提出基于圖論的時空數(shù)據(jù)模型,尹章才等和黃照強等又對該模型進行了更深入的擴展研究及延伸實驗;Rasinmaki等針對自然林分設(shè)計了一種以嵌套地理實體類結(jié)構(gòu)為基礎(chǔ)的環(huán)境資源時空數(shù)據(jù)模型,之后又進一步探究并新增了時空數(shù)據(jù)處理、時空數(shù)據(jù)查詢和林分模擬分析等功能。
根據(jù)現(xiàn)有研究,本文利用DBSCAN聚類、核密度計算等方式,對事故發(fā)生的空間分布進行可視化處理分析,從而得到疫情前后交通事故空間分布特征變化,并根據(jù)事故發(fā)生點附近的興趣點種類及數(shù)量,分析變化產(chǎn)生的原因。
本文的數(shù)據(jù)來源于2019年10月~12月以及2020年10月~12月某市某區(qū)的交通事故報警數(shù)據(jù)共20381條。報警數(shù)據(jù)包括報警時間、接警單警情地址、接警單警情類型(包括普通路面堵塞、普通路面事故、危險駕駛、其他)、報警內(nèi)容(包括財產(chǎn)損失情況、人員傷亡、涉事車輛拍照)。由于普通路面交通事故在空間上的分布與地理環(huán)境緊密相關(guān),本文從中篩選出普通路面事故數(shù)據(jù),并將得到的相關(guān)事故接警單警情地址利用高德地圖OPI定位轉(zhuǎn)化為經(jīng)緯度數(shù)據(jù),對部分無效數(shù)據(jù)進行剔除后共得到16067條有效數(shù)據(jù)。其中,部分案件因報警地點描述較為模糊,故本文采取將其定位在最近興趣點方法。經(jīng)驗證,對總的交通事故空間分布分析以及之后的聚類分析并無影響。
將得到的16067條數(shù)據(jù)(其中2019年共7341條、2020年共8636條)進行可視化處理,得到2019年10月~12月、2020年10月~12月某區(qū)交通事故的分部熱點圖,如圖1所示。
DBSCAN是一種基于密度的空間聚類算法。該算法將具有足夠密度的區(qū)域劃分為簇,并在具有噪聲的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意形狀的簇,DBSCAN算法將“簇”定義為密度相連的點的最大集合。利用DBSCAN地理坐標(biāo)聚類模型,分別對2019年與2020年某區(qū)交通事故發(fā)生地點進行分析,求出事故發(fā)生頻率較高區(qū)域的中心點,即為事故的熱點中心。具體過程如下:
根據(jù)不同事故地點的經(jīng)緯度,計算出兩點之間的歐氏距離,以事故地點A于事故地點B為例,公式如下:
式中Along、 Alat表示事故地點A的經(jīng)度和緯度(單位:度),Blong、 Blat表示事故地點B的經(jīng)度與緯度(單位:度),C1、 C2表示經(jīng)緯度與實際距離轉(zhuǎn)化的系數(shù),數(shù)值分別為100000與111320(單位:m/度)。
根據(jù)求出的歐氏距離,對事故地點進行區(qū)塊的劃分。設(shè)定一定值X(單位:米)對任意一事故點,以其為圓心,在半徑為X的范圍內(nèi),若事故點數(shù)量超過N個,則將其定義為核心點;若其半徑為X的范圍內(nèi)事故點少于N個,但跟任意核心點距離小于X的點定義為邊界點。若一個事故點既不是核心點,也不是邊界點,將其定義為噪聲點。核心點、邊界點、噪聲點的定義解釋如圖2所示。
將定義為噪音點的事故點排除,邊界點與核心點進行聚類,組成聚類的簇,即為事故的熱點區(qū)塊。
將定值X設(shè)定為250(單位:米),核心點附近最少數(shù)量N為5(單位:個),得到2019年符合條件的區(qū)塊數(shù)109個、2020年132個。由于大部分區(qū)塊事故點數(shù)量較少,參考價值較小,因此將其去除。保留下事故點數(shù)量在50以上的區(qū)塊進行分析,最終得到2019年事故區(qū)塊16個、2020年事故區(qū)塊14個。部分事故區(qū)塊點數(shù)量詳見表1、表2。
?
根據(jù)上表中各年事故點數(shù)前8的區(qū)塊進行比較,可以發(fā)現(xiàn),在事故總量相近的前提下,2020年的事故發(fā)生明顯比2019年疫情爆發(fā)前更加集中。針對這種情況,繼續(xù)對這些事故區(qū)塊進行分析研究,利用模擬退火算法尋找各事故區(qū)塊的中心熱點。
模擬退火算法與貪心算法相同,且在尋找最優(yōu)解的過程中引入了隨機變量因素。最早應(yīng)用于統(tǒng)計力學(xué)中,在給定的溫度下,隨著溫度不斷的降低,微觀粒子會在各個溫度的情況下達(dá)到一個平衡的狀態(tài),當(dāng)物體在常溫時,內(nèi)能最小。模擬固體退火的過程,給定一個初始溫度點以及初始解,隨著溫度的下降,在每個平衡狀態(tài)下得到新的解,如果新的解小于前一個解,則接受新的解,否則以設(shè)定的概率接受新解。因其具有概率跳突性,能夠有效防止求出的解為局部最優(yōu)解,從而找到全局最優(yōu)解。
利用該思想,對每一個區(qū)塊中任一一點到其余所有事故點的歐氏距離和進行計算:
Step1:選擇各個點經(jīng)緯度的平均值作為出發(fā)點;
Step2:將控制參數(shù)S設(shè)為10^9,將當(dāng)前點向上下左右各走S,包括當(dāng)前點一找到5個新點;
Step3:計算這5個點到簇中各個距離的點的距離之和,取最小的點,并設(shè)定仍使用當(dāng)前點設(shè)定接受的概率為5%,得到區(qū)域內(nèi)的某點到其余事故點的歐氏距離和最小,將該點定義為區(qū)塊內(nèi)的事故中心熱點。2019年與2020年各區(qū)塊的中心熱點經(jīng)緯度詳見表3、表4。
將經(jīng)緯度與熱力圖相結(jié)合,結(jié)果如圖3所示。
結(jié)合圖表數(shù)據(jù)后,進行對比發(fā)現(xiàn),疫情前后事故的中心熱點均集中在城鎮(zhèn)區(qū)域,且大部分的點位有所重合。但是疫情發(fā)生后城鎮(zhèn)區(qū)域內(nèi)的事故熱點更加集中,為了凸顯結(jié)論,對各區(qū)塊的事故核密度進行計算。
核密度估計原理(Kernel Density Estimation,KDE),指某一點處的密度大小與一定范圍內(nèi)所包含的其他數(shù)據(jù)點存在著相關(guān)性,從而采用非參數(shù)的方法對空間數(shù)據(jù)的一階屬性進行討論。核密度計算的公式如下:
表示空間網(wǎng)絡(luò)核密度估計值,n為區(qū)塊內(nèi)事故數(shù)的總量,h為空間窗寬,K為高斯核函數(shù),di表示第i個事故點到該區(qū)塊內(nèi)中線熱點的歐氏距離。
高斯核函數(shù)在不同情況下的公式如下:
根據(jù)不同的區(qū)塊,將事故點與中心熱點的歐氏距離最大值設(shè)定為空間窗寬,得到各區(qū)塊的空間窗寬值,部分結(jié)果如下:
?
?
帶入公式(2)、(3)中,得到各區(qū)塊的核密度值:
?
?
結(jié)合兩表數(shù)據(jù)以及各區(qū)塊的分布可知,在相同的區(qū)域內(nèi),疫情后事故分布核密度大于疫情前事故核密度,空間窗寬值在疫情后也明顯變小,證明疫情后事故分布更為集中在各城市中心區(qū)域。
研究發(fā)現(xiàn),除了道路本身的因素外,事故的發(fā)生一定程度上與周邊POI興趣點的分布存在一定聯(lián)系。POI數(shù)據(jù)全稱Point of Interesting,指的是在地圖上具有興趣的地點,如商店、車站、醫(yī)院、住宅小區(qū)等地點均屬于POI數(shù)據(jù)。POI數(shù)據(jù)能夠利用于城市規(guī)劃、地理信息研究等方面,因此獲取全面準(zhǔn)確的POI數(shù)據(jù)是進行研究前的必備工作。POI數(shù)據(jù)分為23大類,查閱資料后,結(jié)合之前的聚類觀察以及相關(guān)文獻(xiàn)參考分析,少數(shù)興趣點類型對事故發(fā)生的影響較小,對交通事故發(fā)生影響較小的類別剔除,留下影響較大的類別共8類。
由于POI數(shù)據(jù)獲取的限制,POI多邊形搜索一次最多返還500個同類型興趣點,為了保證數(shù)據(jù)收集的完整性,需要將研究區(qū)域進行切割,保證每個區(qū)域內(nèi)的興趣點值小于500個,因此將研究區(qū)塊劃分為大小相同的500×500(單位:米)的網(wǎng)格。由于部分地區(qū)的興趣點分布較為集中,可能存在部分網(wǎng)格的POI數(shù)據(jù)大于500個,因此對區(qū)域內(nèi)的POI數(shù)據(jù)數(shù)量進行判斷,若返還的數(shù)值為500,則利用四叉樹索引的概念,將該網(wǎng)格劃分成等大小的四個網(wǎng)格后繼續(xù)進行數(shù)據(jù)搜集,直至每一個網(wǎng)格內(nèi)的POI數(shù)據(jù)數(shù)量均小于500個,而部分地區(qū)內(nèi)可能會存在POI數(shù)據(jù)為0的情況,為減少密匙利用次數(shù),將附近的四個網(wǎng)格進行合并,使每個網(wǎng)格內(nèi)POI數(shù)據(jù)數(shù)量至少為1。
利用該思想,對2019年的熱點區(qū)塊與2020年的熱點區(qū)塊進行分析。將包含區(qū)塊內(nèi)所有事故點的最小矩形設(shè)定為區(qū)塊POI數(shù)據(jù)采集的范圍,得到所有區(qū)塊中8類興趣點的數(shù)量。為了方便分析,給出2019年以及2020年各類興趣點的個數(shù)及所占百分比,結(jié)果詳見表9。
?
由于框選區(qū)域的不同,興趣點個數(shù)并不能直觀反應(yīng)出各類興趣點對交通事故發(fā)生的影響改變,因此選擇所占百分比進行比較。在事故發(fā)生較為集中的區(qū)域,疫情發(fā)生后休閑娛樂類顯著下降,對交通事故發(fā)生的影響力下降,汽車相關(guān)服務(wù)類、公司企業(yè)類、政治機構(gòu)及社會團體類顯著上升,對交通事故發(fā)生的影響力也上升。住宿類、風(fēng)景名勝類、醫(yī)療保健服務(wù)類基本不變。
本文針對20381條事故數(shù)據(jù)進行分析處理,得到聚類區(qū)塊共30個,并計算出各區(qū)塊內(nèi)的熱點位置,針對各區(qū)塊內(nèi)的興趣點數(shù)量進行分析統(tǒng)計,得到對交通事故發(fā)生具有較大影響的興趣點種類。研究結(jié)果表明,疫情影響下大部分的事故集中于人口密集的區(qū)域或是主要通行區(qū)域。由于疫情狀況下,大部分的警力投入在疫情防控工作中,因此當(dāng)再次遇到類似的公共突發(fā)事件時,能夠借鑒此次事件,進行針對性的部署。此外在日常工作中,可以對事故數(shù)據(jù)進行分析處理,對事故發(fā)生熱點進行計算,從而針對事故多發(fā)地點進行針對性的部署,如設(shè)置崗?fù)ぁ⒀策夵c等,從而降低事故發(fā)生率,為交通警力的部署提供理論性支持。