許致遠(yuǎn),張慧
(聯(lián)通數(shù)字科技有限公司,北京 100032)
按照應(yīng)急管理部發(fā)布的《應(yīng)急管理信息化發(fā)展戰(zhàn)略規(guī)劃框架(2018-2022 年)》中要求,各地要加強(qiáng)數(shù)據(jù)分析應(yīng)用,充分挖掘數(shù)據(jù)價值,為風(fēng)險防范、指揮調(diào)度、應(yīng)急處置等提供智能化、精細(xì)化的決策支撐手段。
在各類災(zāi)害事件中,人是主要的承受主體,針對受災(zāi)人口進(jìn)行搶險救援的高效性和精準(zhǔn)性要求也最高。但自然災(zāi)害等突發(fā)事件發(fā)生的時間和位置是難以精準(zhǔn)預(yù)測的,而黃金救援時間有限。
傳統(tǒng)條件下,一般通過實(shí)地走訪等現(xiàn)場調(diào)查和土地利用密度等遙感調(diào)查相結(jié)合的方法,來獲取受災(zāi)人口預(yù)警分析所需要的基礎(chǔ)數(shù)據(jù),以便快速、準(zhǔn)確地確定災(zāi)害發(fā)生的位置,掌握受災(zāi)群眾的分布和移動情況[1]。但這個過程中需要花費(fèi)的人力、物力和時間成本較高,且準(zhǔn)確度依賴于所使用人口估算模型與受災(zāi)場景的適配程度,其劣勢在現(xiàn)代化應(yīng)急響應(yīng)要求日漸嚴(yán)苛的情況下逐漸暴露出來,亟需補(bǔ)充更為高效且性價比高的基礎(chǔ)數(shù)據(jù)獲取渠道。手機(jī)信令數(shù)據(jù)便是其中一種。
將手機(jī)信令數(shù)據(jù)服務(wù)于應(yīng)急管理領(lǐng)域由來已久,相比于通過傳統(tǒng)方式獲取所需數(shù)據(jù),其在成本、精度和效率等方面的多重優(yōu)勢比較明顯。比如,手機(jī)信令數(shù)據(jù)時效性高、連續(xù)性好,且無需額外投入硬件設(shè)備、無須組織大規(guī)模入戶調(diào)查,即可實(shí)時、快速地把握應(yīng)急事件發(fā)生后受災(zāi)人口的數(shù)量變化和群體流動遷徙規(guī)律[2]。
手機(jī)信令數(shù)據(jù)是一種典型的時空大數(shù)據(jù),當(dāng)手機(jī)用戶進(jìn)行通話、收發(fā)短信、上網(wǎng)或者攜帶手機(jī)移動等動作時,都會與運(yùn)營商基站發(fā)生通訊,相關(guān)數(shù)據(jù)會被完整記錄下來。其數(shù)據(jù)字段中不僅包含用戶行為發(fā)生的時間和空間位置信息,也包含通話、短信和上網(wǎng)日志等內(nèi)容,數(shù)據(jù)價值極高,是研究群體性行為規(guī)律與空間分布特征的高質(zhì)量數(shù)據(jù)源之一。經(jīng)過清洗、脫敏、聚類、擴(kuò)樣以及模型計算等一系列加工處理后可用于用戶行為偏好、移動軌跡監(jiān)測、人群出行活動等多種場景下的研究輔助[3]。
手機(jī)信令數(shù)據(jù)特征主要體現(xiàn)在時空連續(xù)性、信息關(guān)聯(lián)性、存儲冗余性以及實(shí)時高效性等多個方面。該類數(shù)據(jù)的最大優(yōu)勢便體現(xiàn)在其時空連續(xù)性上,手機(jī)只要開啟,無論是否使用都會主動或被動地同蜂窩基站產(chǎn)生聯(lián)系,從而生成信令數(shù)據(jù),可覆蓋研究對象活動軌跡的大部分信息;同時,其劣勢也很明顯,信令數(shù)據(jù)量大、冗余較多且敏感度高,對服務(wù)器算力和數(shù)據(jù)挖掘算法的要求也相對較高,需要有針對性地加強(qiáng)數(shù)據(jù)脫敏算法和數(shù)據(jù)隱私安全保障[4]。
目前,手機(jī)信令數(shù)據(jù)的應(yīng)用按照對數(shù)據(jù)及時性的需求不同主要可分為兩類場景:一類是準(zhǔn)實(shí)時數(shù)據(jù)的簡單聚類統(tǒng)計,主要應(yīng)用于人口熱力圖分析等,技術(shù)成本較高且精準(zhǔn)度有限;另一類是離線數(shù)據(jù)的模型沉淀和分析,一般將準(zhǔn)實(shí)時數(shù)據(jù)和離線數(shù)據(jù)日模型/ 月模型放在一起,用于一定時間段內(nèi)的規(guī)律性分析和宏觀發(fā)展趨勢監(jiān)測,應(yīng)用較為廣泛且較為成熟。在應(yīng)急管理領(lǐng)域兩種數(shù)據(jù)處理方式皆有使用,用于滿足災(zāi)害發(fā)生前后的實(shí)際需求。
為保障數(shù)據(jù)后續(xù)的可用性和完整性,原始的手機(jī)信令數(shù)據(jù)必須要進(jìn)行異常數(shù)據(jù)清洗、格式化入庫等一系列的預(yù)處理操作。
由于手機(jī)信令數(shù)據(jù)是通過運(yùn)營商通信網(wǎng)絡(luò)采集、匯聚的,在傳輸過程中極易受到基站、建筑物、網(wǎng)絡(luò)、服務(wù)器等多種因素的影響,會產(chǎn)生各種各樣的“臟數(shù)據(jù)”:有的是由于基站漂移、基站間乒乓效應(yīng)等通信系統(tǒng)固有問題導(dǎo)致的信令數(shù)據(jù)記錄錯誤;有的是由于一些不確定因素在日志記錄或傳輸過程中丟失了一部分;有的是由于系統(tǒng)錯誤而出現(xiàn)了重復(fù)數(shù)據(jù)記錄[5]。這些“臟數(shù)據(jù)”會使得以后的數(shù)據(jù)分析結(jié)果出現(xiàn)或大或小的誤差,因此在進(jìn)行挖掘分析之前需要對這些數(shù)據(jù)進(jìn)行清洗等操作,比如對錯誤數(shù)據(jù)進(jìn)行修正、對缺失的數(shù)據(jù)進(jìn)行補(bǔ)全或刪除、對重復(fù)的數(shù)據(jù)去除冗余條目等。
經(jīng)過清洗等一系列數(shù)據(jù)預(yù)處理操作后,手機(jī)信令數(shù)據(jù)會以JSON 字符串的形式存在,常用的信令碼表字段名、字段類型等如表1 所示:
表1 手機(jī)信令數(shù)據(jù)常見字段示意
海量的手機(jī)信令數(shù)據(jù)較為零散,無法直接反映客觀現(xiàn)象規(guī)律,比如以2021 年11 月某天早高峰一個小時內(nèi)從A 點(diǎn)到B 點(diǎn)的所有用戶軌跡數(shù)據(jù)作為測試數(shù)據(jù)集,可視化后如圖1 所示:
圖1 原始的測試數(shù)據(jù)集可視化示例
單一的聚類算法難以產(chǎn)生較為有效的收斂效果,因此可以使用DBSCAN 與K-means 結(jié)合的綜合聚類算法進(jìn)行數(shù)據(jù)處理,提高應(yīng)急管理場景中受災(zāi)人口計算的效率[6]。
DBSCAN 是典型的基于密度的聚類算法,能夠?qū)⒕哂幸欢芏葏^(qū)域的散點(diǎn)聚為一類,并且能夠有效過濾數(shù)據(jù)集中的噪聲數(shù)據(jù),最終得到若干數(shù)據(jù)簇。該算法通常以空間距離為搜索半徑,計算步驟主要可分為以下四步[7]:
(1)給定距離Dis、最小密度個數(shù)MinPt、樣本數(shù)據(jù)集{X};
(2)從樣本{X} 中任意選取一個點(diǎn)x,依次掃描整個樣本,統(tǒng)計小于Dis的點(diǎn)的個數(shù),記為M;
(3)如果M大于等于MinPt,則標(biāo)記該點(diǎn)為核心點(diǎn)并將該區(qū)域內(nèi)的點(diǎn)都標(biāo)記為同一個簇;如果M小于MinPt,則將該點(diǎn)標(biāo)記為噪聲點(diǎn),可以直接刪除;
(4)重復(fù)以上步驟,掃描完整個樣本數(shù)據(jù)集{X}后,便可得到若干個包含聚類中心(即核心點(diǎn))和聚類個數(shù)的數(shù)據(jù)簇。
基于DBSCAN 算法進(jìn)行密度聚類,將密度較大的軌跡段聚合,密度較小的軌跡段作為噪聲數(shù)據(jù)剔除掉,可以得到如圖2 的處理結(jié)果,雖去除了部分噪聲影響,但收斂效果仍有限。
圖2 基于DBSCAN處理后的數(shù)據(jù)集可視化示例
故引入典型的基于劃分的聚類算法K-means,使得到的聚類中心更為準(zhǔn)確,達(dá)到更好的數(shù)據(jù)收斂效果[8]。該算法屬于無監(jiān)督算法,可使最終獲得的聚類結(jié)果達(dá)到“類內(nèi)的點(diǎn)足夠近、類間的點(diǎn)足夠遠(yuǎn)”。思路大致可描述如下:
(1)給定數(shù)據(jù)集{X},取其中n個數(shù)據(jù)進(jìn)行兩兩組合,計算出距離分布矩陣,使用極大似然法對得到的距離分布矩陣中第k個距離值的泊松分布情況進(jìn)行估算,即,每個距離值范圍內(nèi)的最小值記為MinE;
(2)在集合{X}中選取任意一點(diǎn)P,以點(diǎn)P 為圓心,找出半徑為Ek的圓內(nèi)所有的點(diǎn),記為點(diǎn)集{Pi,Pj},若點(diǎn)集{Pi,Pj}中點(diǎn)的數(shù)量小于MinE,將點(diǎn)P 標(biāo)記為噪音點(diǎn),否則將點(diǎn)P 標(biāo)記為核心點(diǎn);
(3)在剔除噪音點(diǎn)的點(diǎn)集合中隨機(jī)選取n個點(diǎn)作為初始聚類中心,記為集合{N},計算集合中的點(diǎn)分別到集合{N} 內(nèi)點(diǎn)距離最小的點(diǎn),對于每個類使用均值方法更新中心點(diǎn),如此循環(huán)直到原中心點(diǎn)與新中心點(diǎn)的誤差小于某一閾值時,結(jié)束聚類計算。
該種算法綜合性較好,由于先期采用DBSCAN 將集合中的噪聲數(shù)據(jù)做了初步的篩除,使得最終聚類結(jié)果比單純使用K-means 質(zhì)量要高很多,并且可以避免因噪音點(diǎn)的影響而陷入局部最優(yōu)解的誤區(qū)之中。將測試集數(shù)據(jù)進(jìn)行處理后可得到圖3 的可視化效果:
圖3 基于優(yōu)化算法處理后的數(shù)據(jù)集可視化示例
比較圖2和圖3 可以看出,結(jié)合K-means 之后的綜合聚類算法處理后的軌跡段集合收斂性更好些,并且可以避免因噪音點(diǎn)的影響而陷入局部最優(yōu)解的誤區(qū)之中。
基于以上綜合聚類算法的持續(xù)優(yōu)化,沉淀用戶狀態(tài)識別模型、精準(zhǔn)定位模型、路網(wǎng)擬合模型以及常駐用戶模型等,利用災(zāi)害發(fā)生前后移動通信量異常、通信基站服務(wù)狀態(tài)監(jiān)測等信息,運(yùn)營商可以為各級應(yīng)急管理部門提供突發(fā)事件區(qū)域的人群洞察、監(jiān)測分析和研判預(yù)測等數(shù)據(jù)服務(wù),輔助管理部門進(jìn)行災(zāi)情預(yù)警、人流監(jiān)測、災(zāi)后評估,并可間接估算災(zāi)區(qū)受災(zāi)人口等,對進(jìn)一步提升我國重大災(zāi)害的應(yīng)急處置能力具有現(xiàn)實(shí)意義。
利用手機(jī)信令數(shù)據(jù),可以對預(yù)警區(qū)域進(jìn)行實(shí)時動態(tài)的人口流動監(jiān)測,一方面輔助人群疏散的交通規(guī)劃,另一方面進(jìn)行短信告警和疏散指引,輔助應(yīng)急管理部門實(shí)現(xiàn)災(zāi)前預(yù)警通知和快速疏散。
基于用戶軌跡表,可以獲得災(zāi)害預(yù)警區(qū)域及周邊交通道路范圍內(nèi)的人口流動情況實(shí)時熱力,輔助應(yīng)急管理人員實(shí)時掌握預(yù)警區(qū)域內(nèi)的人流密度,同時也為疏散聚居或聚集人群進(jìn)行合理的交通規(guī)劃提供數(shù)據(jù)支撐,一般以API 接口方式直接對接給應(yīng)急測繪系統(tǒng),輸出數(shù)據(jù)字段如表2 所示:
表2 應(yīng)急測繪系統(tǒng)接口數(shù)據(jù)字段示意
基于信令數(shù)據(jù)中的位置信息,可準(zhǔn)確圈定預(yù)警區(qū)域作為圍欄,根據(jù)不同場景、不同標(biāo)簽(如職住地、駐留時長、用戶年齡、號碼歸屬地)等預(yù)置規(guī)則,通過短信精準(zhǔn)、快速地觸達(dá)預(yù)警區(qū)域常住人口以及高危企業(yè)工作人員等手機(jī)在網(wǎng)用戶,及時、清晰地提醒人們?yōu)暮︻A(yù)警信息以及如何安全撤離、如何避免傷害等。
在不確定的自然災(zāi)害面前,預(yù)防預(yù)警永遠(yuǎn)是放在第一位的,所謂“預(yù)防多一份心思,救援少百分力氣”,因此,手機(jī)信令數(shù)據(jù)在此階段的合理應(yīng)用也便顯得尤為重要。
災(zāi)害發(fā)生以后,第一時間快速評估受災(zāi)人口、傷亡人口、失聯(lián)人口的數(shù)量,定位受災(zāi)人口聚集區(qū)域并有針對性地組織救援力量、分配救援物資等是應(yīng)急管理部門最緊要的工作之一。
比如,在實(shí)際工作中,可以“人”和“地”為主題構(gòu)建數(shù)據(jù)分析模型,實(shí)現(xiàn)受災(zāi)區(qū)域范圍內(nèi)實(shí)時人口熱力變化分析、可視化展示以及歷史數(shù)據(jù)回放等,將災(zāi)區(qū)職住人口在突發(fā)事件發(fā)生前后多個時間節(jié)點(diǎn)的流動變化情況進(jìn)行直觀對比,為應(yīng)急管理部門對災(zāi)情影響程度的評估和救援資源的高效部署提供數(shù)據(jù)支撐。
一方面,從宏觀上監(jiān)測受災(zāi)區(qū)域范圍內(nèi)人口流動情況、人員聚集狀態(tài)以及受災(zāi)人員性別、年齡等基礎(chǔ)畫像,對人口異常轉(zhuǎn)移、回流情況設(shè)定預(yù)警閾值,輔助救援計劃制定和應(yīng)急疏散等。
另一方面,對綜合轉(zhuǎn)移區(qū)域、緊急轉(zhuǎn)移人口、集中安置點(diǎn)分布、安置人數(shù)、專業(yè)救援隊伍、社會救援力量等進(jìn)行分析,輔助安置點(diǎn)設(shè)置和轉(zhuǎn)移人口的后續(xù)服務(wù)。
通過對洪澇、臺風(fēng)、地震、林火以及化工廠爆炸等重大災(zāi)害影響下的人、地等多維度數(shù)據(jù)進(jìn)行柵格化、精細(xì)化分析,有效彌補(bǔ)定期普查數(shù)據(jù)更新周期較長帶來的弊端,已逐漸成為救援安置工作高效進(jìn)展的保障。
突發(fā)災(zāi)害的破壞性和影響力可能會比較久遠(yuǎn)且難以快速估算,對于應(yīng)急管理部門來說,需要借助多方渠道核實(shí)受災(zāi)情況,總結(jié)經(jīng)驗教訓(xùn)并完成應(yīng)急預(yù)案的動態(tài)調(diào)整。
可以通過數(shù)據(jù)可視化或者定期數(shù)據(jù)分析報告等形式,將應(yīng)急管理部門關(guān)注的數(shù)據(jù)指標(biāo)加以計算和呈現(xiàn),主要涵蓋區(qū)域內(nèi)受災(zāi)人員特征、受災(zāi)態(tài)勢剖析以及不同群體的位置軌跡變化等內(nèi)容,并根據(jù)人員行為特征預(yù)判疑似傷亡、疑似失聯(lián)、呼叫特定救援號碼以及異常聚集等情況,提醒救援和評估單位重點(diǎn)關(guān)注,主要涉及的分析指標(biāo)和常用數(shù)據(jù)口徑如表3 所示:
表3 災(zāi)害核查評估常用數(shù)據(jù)指標(biāo)示意
綜上所述,手機(jī)信令數(shù)據(jù)經(jīng)過預(yù)處理、聚類、時間序列分析等一系列操作后,可以充分發(fā)揮其作為時空大數(shù)據(jù)的優(yōu)勢,通過構(gòu)建和完善不同應(yīng)急環(huán)境下的人口計算模型,有效輔助應(yīng)急管理部門進(jìn)行災(zāi)前預(yù)警和安全疏散、災(zāi)區(qū)人口密度監(jiān)測以及災(zāi)后及時的核查評估等工作,是對傳統(tǒng)應(yīng)急數(shù)據(jù)的有力補(bǔ)充,具備操作可行性且已經(jīng)受到了應(yīng)急管理部門的重視和認(rèn)可。
接下來,有幾方面工作值得持續(xù)關(guān)注:
一是模型算法的進(jìn)一步完善:使用手機(jī)信令數(shù)據(jù)進(jìn)行人口監(jiān)測和預(yù)測,其準(zhǔn)確度在很大程度上依賴于模型算法的適配性,不同的受災(zāi)范圍、災(zāi)害類型均需要調(diào)整相應(yīng)的數(shù)據(jù)口徑和權(quán)重、參數(shù),其計算效率和適用范圍有待提升;
二是與其他多源數(shù)據(jù)融合建模:除了信令數(shù)據(jù)以外,互聯(lián)網(wǎng)數(shù)據(jù)、遙感數(shù)據(jù)、測繪數(shù)據(jù)、路網(wǎng)信息數(shù)據(jù)以及視頻數(shù)據(jù)等都是高質(zhì)量的應(yīng)急管理相關(guān)數(shù)據(jù)來源,它們可以相互參照,恰當(dāng)?shù)娜诤匣蚵?lián)合使用可發(fā)揮意想不到的效能;
三是與應(yīng)急信息化系統(tǒng)的聯(lián)動:手機(jī)信令數(shù)據(jù)作為應(yīng)急指揮決策輔助系統(tǒng)的組成部分,需要同其他應(yīng)急信息化,比如應(yīng)急測繪系統(tǒng)、天眼系統(tǒng)、EGIS 系統(tǒng)等,數(shù)據(jù)間的互聯(lián)互通才可充分放大其價值。