韓 磊,於志勇,2,3,朱偉平,於志文
(1.福州大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福州 350116; 2.福建省網(wǎng)絡(luò)計(jì)算與智能信息處理重點(diǎn)實(shí)驗(yàn)室,福州 350116;3.空間數(shù)據(jù)挖掘與信息共享教育部重點(diǎn)實(shí)驗(yàn)室,福州 350002; 4.西北工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,西安 710072)
隨著我國城市化進(jìn)程的不斷加快,城市建設(shè)取得了巨大成就,但是,城市人口密度大、人員流動(dòng)性強(qiáng)的狀況也引起了一些公共安全問題,車輛目的地推測對解決城市公共安全問題具有重要意義。警察獲知目標(biāo)車輛某時(shí)刻從某地出發(fā),其需要盡可能準(zhǔn)確地掌握該車輛的目的地以制定行動(dòng)計(jì)劃。然而,在很多情況下,由于數(shù)據(jù)丟失、隱私保護(hù)等原因,使得準(zhǔn)確推測該車輛的目的地十分困難。此時(shí),警察可以通過已知的目標(biāo)車輛位置信息來推測其目的地,但是由于已知車輛信息太少(在通常情況下,警察只知道車輛的出發(fā)時(shí)刻和出發(fā)位置),其目的地推測的準(zhǔn)確率通常不高。
目前,在城市道路中分布著大量進(jìn)行全天錄像的攝像頭,可通過這些視頻數(shù)據(jù)來獲取更多關(guān)于目標(biāo)車輛的途經(jīng)信息,進(jìn)而提高車輛目的地推測的準(zhǔn)確率。從視頻中識(shí)別目標(biāo)車輛的途徑信息,需要一定的人工和機(jī)器成本,且攝像頭數(shù)量規(guī)模龐大,通過所有的視頻數(shù)據(jù)進(jìn)行全時(shí)全域搜索時(shí)難度巨大。因此,通過盡可能少的時(shí)空搜索(通過搜索城市攝像頭視頻數(shù)據(jù)來查看某個(gè)時(shí)刻目標(biāo)車輛是否途經(jīng)某個(gè)位置)來準(zhǔn)確推測出目標(biāo)車輛的目的地,引起了研究人員的廣泛關(guān)注。
本文研究面向目的地推測的時(shí)空搜索優(yōu)化問題,通過對道路攝像頭的所有視頻錄像進(jìn)行時(shí)空搜索以獲取車輛的途經(jīng)信息,從而提高車輛目的地推測的準(zhǔn)確率。在此基礎(chǔ)上,使用基于概率的單一指標(biāo)、基于概率和基尼指數(shù)的復(fù)合指標(biāo)[1]以及基于概率和信息增益的復(fù)合指標(biāo)[2]來評價(jià)時(shí)空搜索方法的性能。
針對目標(biāo)搜索問題,文獻(xiàn)[3]提出并建立了一種海上立體搜尋全局優(yōu)化模型,文獻(xiàn)[4]就飛機(jī)發(fā)生事故失去動(dòng)力后黑匣子落水點(diǎn)的位置問題進(jìn)行了研究,文獻(xiàn)[5]以馬航事件為背景,基于貝葉斯方法提出一種針對特定區(qū)域的失蹤目標(biāo)搜索算法。
基于已知車輛位置信息判斷車輛目的地是移動(dòng)預(yù)測的目標(biāo),針對該問題,文獻(xiàn)[6]提出了一種基于移動(dòng)性近似的目的地預(yù)測算法,該算法關(guān)注軌跡本身的運(yùn)動(dòng)行為以尋找潛在目的地,然后利用移動(dòng)梯度下降法來確定目標(biāo)的目的地。文獻(xiàn)[7]研究了個(gè)人社會(huì)信息和出行信息對出行目的地選擇行為的影響。文獻(xiàn)[8]通過調(diào)查GPS數(shù)據(jù),建立利用Markov模型進(jìn)行目的地預(yù)測的概率模型。文獻(xiàn)[9]根據(jù)人類日常移動(dòng)路線表現(xiàn)出的時(shí)間和空間的規(guī)律性,使用拓展的連續(xù)路徑模式挖掘算法從軌跡中提取運(yùn)動(dòng)模式,并從該運(yùn)動(dòng)模式中構(gòu)建模式樹以進(jìn)行目的地預(yù)測。此外,在歷史信息中(如道路狀況、駕駛習(xí)慣[10]和軌跡長度[11-13]等)加入外部信息也可以提高預(yù)測的準(zhǔn)確率。文獻(xiàn)[14]提出了SMLP算法,該算法在Markov模型的基礎(chǔ)上利用網(wǎng)絡(luò)內(nèi)用戶的相關(guān)性對位置進(jìn)行預(yù)測。
主動(dòng)感知指智能體采取一定行為以獲取更多環(huán)境相關(guān)信息。在機(jī)器視覺[15]和機(jī)器人學(xué)領(lǐng)域,主動(dòng)感知已經(jīng)被廣泛應(yīng)用于定位和導(dǎo)航任務(wù)[16]。此外,主動(dòng)感知還在同步定位和映射[17]、越野駕駛[18]、機(jī)器人探索[19]、雷達(dá)目標(biāo)追蹤、聲吶和光電探測器[20]等方面得到應(yīng)用。基于車輛起始位置,通過時(shí)空搜索獲取更多車輛途經(jīng)信息以提高車輛目的地預(yù)測準(zhǔn)確率的思想與主動(dòng)感知[21]相似。在一個(gè)主動(dòng)感知過程中,系統(tǒng)會(huì)根據(jù)環(huán)境狀態(tài)主動(dòng)執(zhí)行感知行為[22]以對環(huán)境進(jìn)行認(rèn)知。
本文針對城市中的目標(biāo)車輛搜索問題,提出一種面向目的地推測的時(shí)空搜索優(yōu)化算法,該算法主要包括移動(dòng)預(yù)測和主動(dòng)感知2個(gè)部分。傳統(tǒng)目的地預(yù)測方法無車輛途經(jīng)點(diǎn)搜索過程,本文算法增加了這一過程,以獲取更多車輛途經(jīng)信息。
為了更好地定義面向目的地推測的時(shí)空搜索優(yōu)化問題,本文定義如下符號:令攝像頭視頻集合D={d1,d2,…,d|D|},位置集合L={l1,l2,…,l|L|},行程集合N={n1,n2,…,n|N|},行程時(shí)間序列T=
(1)
IInterval表示搜索時(shí)刻與車輛起始出發(fā)時(shí)刻的差值,即IInterval=tk-t1。最后,本文將q(cr,tk,li)實(shí)例化后的tk、li稱為time-location,需要考慮(t|T|-t1)×|L|個(gè)候選time-location。
在一般情況下,車輛到達(dá)目的地后就無法通過城市道路攝像頭搜索到該車輛,因此,本文假設(shè)車輛當(dāng)前行程結(jié)束后短時(shí)間內(nèi)將無法通過攝像頭視頻數(shù)據(jù)再次搜索到該車輛的蹤跡。此外,查詢視頻錄像的成本(包括人力和機(jī)器成本)遠(yuǎn)大于模型訓(xùn)練和目的地推測的計(jì)算成本,因此,完成車輛目的地推測任務(wù)的代價(jià)可通過時(shí)空搜索次數(shù)N來預(yù)估,使用AAccuracy作為模型性能的評估度量,AAccuracy表示車輛cr在行程nu中目的地lx的推測準(zhǔn)確率,計(jì)算公式如下:
(2)
其中,#tr()表示軌跡條數(shù)。
問題(面向目的地推測的時(shí)空搜索優(yōu)化)給出車輛的歷史行程軌跡集合T′R、車輛cr行程nu的起始時(shí)刻t1、起始位置lt1,以及當(dāng)天可供時(shí)空搜索使用的道路攝像頭視頻錄像數(shù)據(jù)dj。優(yōu)化目標(biāo)是在N次時(shí)空搜索q(cr,tk,li)的條件下最大化車輛cr行程nu的目的地lx推測的準(zhǔn)確率AAccuracy。優(yōu)化問題表達(dá)式如下:
givecr,nu,(t1,lt1),T′R,N,q(cr,ti,lk)indj
returnlx,s.t.maxAAccuracy
(3)
假設(shè)已知車輛歷史行程軌跡T′R,在僅知道車輛某時(shí)刻從某地出發(fā)的情況下推測該車輛的目的地,方法有以下2種:根據(jù)車輛的起始位置信息推測出車輛目的地;通過時(shí)空搜索獲取車輛途經(jīng)信息,再結(jié)合車輛的起始位置信息推測車輛目的地。
對于第1種方法,本文基于簡單一階Markov模型進(jìn)行實(shí)現(xiàn),其推測車輛目的地的流程如圖1所示。
圖1 基于簡單一階Markov模型的車輛目的地推測
設(shè)車輛位置轉(zhuǎn)移概率(簡稱M)表示車輛從一個(gè)位置移動(dòng)到另一個(gè)位置的概率,M計(jì)算公式如下:
(4)
(5)
對于第2種方法,本文基于引入時(shí)空搜索的一階Markov模型進(jìn)行實(shí)現(xiàn),其推測車輛目的地的流程如圖2所示。
圖2 基于改進(jìn)一階Markov模型的車輛目的地推測
Fig.2 Vehicle destination inference based on improved first-order Markov model
此時(shí)車輛位置轉(zhuǎn)移概率計(jì)算如下:
(6)
(7)
由于車輛軌跡信息不足(只知車輛出發(fā)位置和出發(fā)時(shí)刻),基于簡單一階Markov模型推測車輛目的地時(shí)的準(zhǔn)確率不高,因此本文基于改進(jìn)一階Markov模型來推測車輛目的地。在時(shí)空搜索方式的選擇上,本文提出基于概率的單一指標(biāo)、基于概率和基尼指數(shù)的復(fù)合指標(biāo)以及基于概率和信息增益的復(fù)合指標(biāo)來評估不同時(shí)空搜索方式的性能,并基于3種指標(biāo)分別實(shí)現(xiàn)算法CFMM-MidQuery、CFMM-UtilityQuery-Gini和CFMM-UtilityQuery-Info。
設(shè)車輛cr行程的起始時(shí)間為t1,起始位置為li,首先確定車輛cr在tmid時(shí)刻的N個(gè)可能性最大的位置,表示為lq[1],lq[2],…,lq[j],…,lq[N]。然后執(zhí)行時(shí)空搜索q(cr,tmid,lq[j]),得到N個(gè)返回結(jié)果,這些結(jié)果可能包含一個(gè)1(即確定了目標(biāo)車輛cr在tmid時(shí)刻的位置為lq[j])或者所有結(jié)果都是0(即tmid時(shí)刻在lq[1],lq[2],…,lq[j],…,lq[N]這些位置均未找到目標(biāo)車輛cr),然后將q(cr,tmid,lq[j])的返回結(jié)果作為條件訓(xùn)練一階Markov模型。該過程為CFMM-MidQuery算法過程,其偽代碼如下。
算法1CFMM-MidQuery算法
輸入T′R(車輛歷史行程軌跡),
輸出車輛cr的終點(diǎn)位置
1.根據(jù)T′R計(jì)算t1時(shí)刻位置為lt1的車輛在tmid時(shí)刻的位置分布概率LSm
2.遍歷向量LSm,返回N個(gè)概率最大的位置編號索引:lq[1],lq[2],…,lq[j],…,lq[N]
3.執(zhí)行時(shí)空搜索q(cr,tmid,lq[j])
4.根據(jù)T′R、
5.根據(jù)LSc返回概率最大的位置
6.END
CFMM-MidQuery算法需要先指定搜索時(shí)刻,其不能說明哪個(gè)搜索時(shí)刻是最佳選擇,而在CFMM-UtilityQuery算法中,按照效益值大小將不同的候選time-location進(jìn)行排序,選擇效益大的time-location執(zhí)行時(shí)空搜索,然后將返回結(jié)果作為條件訓(xùn)練模型(模型構(gòu)建過程與CFMM-MidQuery相同)。在此基礎(chǔ)上,本文分別實(shí)現(xiàn)基于概率和基尼指數(shù)復(fù)合評估指標(biāo)的CFMM-UtilityQuery-Gini算法與基于概率和信息增益復(fù)合評估指標(biāo)的CFMM-UtilityQuery-Info算法。
3.2.1 CFMM-UtilityQuery-Gini算法
假設(shè)目標(biāo)車輛cr的起始時(shí)間為t1,起始位置為lt1。首先,基于概率和基尼指數(shù)復(fù)合評估指標(biāo)計(jì)算tk時(shí)刻搜索位置ls對于推測車輛cr目的地的效用,計(jì)算公式如式(8)所示。
(1-ggini(tk,ls))
(8)
式(8)由兩部分組成:p(lt1,ls)|(t1→tk)表示q(cr,tk,ls)=1的概率,(1-ggini(tk,ls))用于評估以q(cr,tk,ls)=1作為條件篩選訓(xùn)練數(shù)據(jù)后車輛cr終點(diǎn)位置分布的混亂程度。若終點(diǎn)位置分布概率為P={p1,p2,…,pk,…,pM},則原始基尼指數(shù)計(jì)算公式如式(9)所示。
(9)
因此,本文基尼指數(shù)計(jì)算公式如式(10)所示。
ggini(tk,ls)=ggini{p(lt1,lx)|(t1→t|T|),
q(cr,tk,ls)=1}
(10)
CFMM-UtilityQuery-Gini算法偽代碼如下:
算法2CFMM-UtilityQuery-Gini算法
輸入T′R(車輛歷史行程軌跡),
輸出車輛cr的終點(diǎn)位置
1.FOR tmid←t1TO t|T|
2.根據(jù)T′R計(jì)算t1時(shí)位置為lt1的車輛在tmid時(shí)刻的位置分布概率LSm
3.FOR lmid←l1TO l|L|
4.根據(jù)T′R計(jì)算t1時(shí)刻位置為lt1、tmid時(shí)刻位置為lmid的車輛終點(diǎn)位置分布概率LSme
5.END FOR
7.END FOR
9.執(zhí)行時(shí)空搜索q(cr,ti,lq[i])并且返回搜索結(jié)果
10.根據(jù)T′R、
11.返回LSe中概率最大的位置
12.END
3.2.2 CFMM-UtilityQuery-Info算法
假設(shè)目標(biāo)車輛cr的起始時(shí)間為t1,起始位置為lt1。首先,基于概率和信息增益復(fù)合評估指標(biāo)計(jì)算tk時(shí)刻搜索位置ls對于推測車輛cr目的地的效用,其計(jì)算公式如式(11)所示。
(11)
其中,Iinfo(tk,ls)評估q(cr,tk,ls)=1作為條件篩選訓(xùn)練數(shù)據(jù)后車輛終點(diǎn)位置分布的混亂程度。若終點(diǎn)位置分布概率為P={p1,p2,…,pk,…,pM},則熵計(jì)算公式如式(12)所示。
(12)
因此,本文信息增益計(jì)算公式如式(13)所示。
Iinfo(tk,ls)=E{p(lt1,lt|T|)|(t1→t|T|)}-
E{p(lt1,lt|T|)|(t1→t|T|),
q(cr,tk,ls)=1}
(13)
CFMM-UtilityQuery-Info算法偽代碼如下:
算法3CFMM-UtilityQuery-Info算法
輸入TR′(車輛歷史行程軌跡),
輸出車輛cr的終點(diǎn)位置
1.根據(jù)T′R計(jì)算t1時(shí)刻位置為lt1的車輛終點(diǎn)位置分布概率LSse
2.根據(jù)LSse和式(12)計(jì)算熵E1
3.FOR tmid←t1TO t|T|
4.根據(jù)T′R計(jì)算t1時(shí)位置為lt1的車輛在tmid時(shí)刻的位置分布概率LSm
5.FOR lmid←l1TO l|L|
6.根據(jù)T′R計(jì)算t1時(shí)刻位置為lt1、tmid時(shí)刻位置為lmid的車輛終點(diǎn)位置分布概率LSme
7.根據(jù)LSme和式(12)計(jì)算熵E2
8.END FOR
10.END FOR
12.執(zhí)行時(shí)空搜索q(cr,ti,lq[i])
13.根據(jù)T′R、
14.返回LSe中概率最大的位置
15.END
本文的實(shí)驗(yàn)數(shù)據(jù)來自滴滴出行平臺(tái)(https://gaia.didichuxing.com),原始數(shù)據(jù)為成都市部分區(qū)域的滴滴訂單數(shù)據(jù),采集區(qū)域的面積大小約為8.37 km×8.35 km,采集日期范圍為2016年11月1日—2016年11月30日,原始數(shù)據(jù)信息如表1所示。
表1 原始數(shù)據(jù)信息
在數(shù)據(jù)集中,不同車輛的GPS點(diǎn)是無序的,需要對數(shù)據(jù)集中車輛訂單ID和時(shí)間使用二級排序算法生成出租車的GPS點(diǎn)序列。由于原始數(shù)據(jù)時(shí)間精度為3 s,如果同一行程軌跡相鄰兩GPS點(diǎn)的時(shí)間相差超過3 s,則認(rèn)為該軌跡數(shù)據(jù)部分缺失,按照3 s的時(shí)間精度補(bǔ)全缺失數(shù)據(jù)。如果缺失時(shí)長不超過60 s,則在該段缺失時(shí)間內(nèi)車輛被認(rèn)為是勻速直線行駛;若缺失時(shí)間超過60 s,則認(rèn)為該軌跡缺失嚴(yán)重,將其舍棄。
在排好序的出租車GPS點(diǎn)序列中,每輛車每分鐘包括若干個(gè)GPS坐標(biāo)點(diǎn),且不同分鐘內(nèi)GPS點(diǎn)的個(gè)數(shù)不同,因此,本文以分鐘為單位將時(shí)間離散化,每分鐘僅取時(shí)間最小的一條位置數(shù)據(jù)表示車輛在該時(shí)間的位置。最后根據(jù)數(shù)據(jù)范圍將該區(qū)域劃分成大小約為0.93 km×0.93 km的方格[23](共計(jì)81個(gè)網(wǎng)格),將車輛的軌跡數(shù)據(jù)投影到網(wǎng)格中,一個(gè)網(wǎng)格就代表一個(gè)位置區(qū)域。
本文基于相同的實(shí)驗(yàn)數(shù)據(jù)集,測試不同階Markov模型推測車輛目的地的準(zhǔn)確率,結(jié)果如圖3所示。從圖3可以看出,當(dāng)Markov模型階數(shù)達(dá)到3時(shí),車輛目的地推測的準(zhǔn)確率達(dá)到最高(2階Markov模型和3階Markov模型在推測車輛目的地時(shí)的準(zhǔn)確率基本一致),然后隨著模型階數(shù)的增加其推測準(zhǔn)確率逐漸降低,因此,當(dāng)有多個(gè)時(shí)空搜索返回結(jié)果為1時(shí),本文僅選擇一個(gè)time-location參與模型的訓(xùn)練與預(yù)測。
圖3 不同階數(shù)Markov模型的推測性能對比
Fig.3 Comparison of inference performance of Markov models with different orders
為研究相同數(shù)據(jù)集下車輛目的地推測準(zhǔn)確率與IInterval的關(guān)系,本文基于二階Markov模型改變IInterval(固定起始時(shí)間,改變中間搜索時(shí)刻),測試模型推測準(zhǔn)確率,結(jié)果如圖4所示。從圖4可以看出,隨著IInterval的增大,車輛目的地推測的準(zhǔn)確率也逐漸提高。因此,當(dāng)有多個(gè)時(shí)空搜索返回結(jié)果為1時(shí),本文僅選擇IInterval最大的time-location參與模型的訓(xùn)練與預(yù)測。
圖4 不同IInterval時(shí)的二階Markov模型推測準(zhǔn)確率
Fig.4 Inference accuracy of second-order Markov model with differentIInterval
圖5所示為不同行程時(shí)長下的軌跡統(tǒng)計(jì)情況,由圖5可以看出,隨著時(shí)長的增加,大于該時(shí)長的軌跡比例逐漸減小,即在搜索時(shí)刻逐漸增大時(shí),通過攝像頭視頻錄像找到車輛的可能性將降低。
圖5 不同行程時(shí)長下的軌跡統(tǒng)計(jì)情況
由圖4可以看出,隨著IInterval的增大,車輛目的地推測的準(zhǔn)確率逐漸提高;由圖5可以看出,隨著搜索時(shí)刻的增大,行程時(shí)長大于該搜索時(shí)刻的軌跡比例逐漸減小。因此,CFMM-MidQuery算法很難選擇合適的中間搜索時(shí)刻。本文基于二階Markov模型,測試相同搜索次數(shù)下不同中間搜索時(shí)刻時(shí)車輛目的地推測的準(zhǔn)確率,結(jié)果如圖6所示,從圖6可以看出,在相同搜索次數(shù)下,IInterval為5 min時(shí),CFMM-MidQuery算法推測車輛目的地的準(zhǔn)確率最高。
圖6 不同搜索時(shí)刻下CFMM-MidQuery算法推測準(zhǔn)確率
Fig.6 Inference accuracy of CFMM-MidQuery algorithm at different search times
由圖6可以看出,當(dāng)搜索時(shí)刻為5 min時(shí),CFMM-MidQuery算法的性能較好,因此,將CFMM-MidQuery算法的搜索時(shí)間定為5 min,本文將之稱為CFMM-MidQuery-5算法。比較CFMM-MidQuery-5、CFMM-UtilityQuery-Info、CFMM-UtilityQuery-Gini 3種算法,結(jié)果如圖7所示。從圖7可以看出,當(dāng)N較小時(shí),CFMM-UtilityQuery-Gini和CFMM-MidQuery-5算法推測車輛目的地的準(zhǔn)確率沒有太大區(qū)別,且2種算法略優(yōu)于CFMM-UtilityQuery-Info算法;當(dāng)N進(jìn)一步增大時(shí),CFMM-UtilityQuery算法推測車輛目的地的準(zhǔn)確率明顯高于CFMM-MidQuery-5算法,而CFMM-UtilityQuery-Info、CFMM-UtilityQuery-Gini 2種算法在推測車輛目的地的準(zhǔn)確率方面無明顯區(qū)別。基于概率單一指標(biāo)的方法只考慮當(dāng)前時(shí)空搜索找到目標(biāo)車輛的概率,不考慮當(dāng)前時(shí)空搜索對車輛目的地推測的效用,并且該指標(biāo)需要指定搜索時(shí)刻,限制了時(shí)空搜索范圍,導(dǎo)致時(shí)空搜索次數(shù)較高時(shí)無法執(zhí)行更合適的時(shí)空搜索;信息增益和基尼指數(shù)都是評價(jià)車輛位置分布混亂程度的度量,都能在客觀上反映車輛位置的概率分布情況,因此,這2種復(fù)合指標(biāo)在推測車輛目的地的準(zhǔn)確率方面無明顯區(qū)別。
圖7 不同搜索次數(shù)下3種算法車輛目的地推測準(zhǔn)確率對比
Fig.7 Comparison of inference accuracy of vehicle destination using 3 algorithms under different search times
獲取目標(biāo)車輛更多的行程途經(jīng)信息可以提高車輛目的地推測的準(zhǔn)確率。本文提出基于概率和基尼指數(shù)的復(fù)合指標(biāo)與基于概率和信息增益的復(fù)合指標(biāo),不僅考慮當(dāng)前時(shí)空搜索下找到目標(biāo)車輛的可能性,還兼顧當(dāng)前時(shí)空搜索對目的地推測的長期效用。復(fù)合指標(biāo)無需指定搜索時(shí)間,可以將不同時(shí)間下的空間搜索進(jìn)行比較,解決了概率單一指標(biāo)需要指定搜索時(shí)間的問題。實(shí)驗(yàn)結(jié)果表明,在高搜索次數(shù)條件下,復(fù)合指標(biāo)的評估效果明顯優(yōu)于概率單一指標(biāo)。
本文假設(shè)車輛行程結(jié)束后短時(shí)間內(nèi)無法通過視頻數(shù)據(jù)再次搜索到該車輛的蹤跡,該假設(shè)過于理想,下一步將基于車輛一天中的完整軌跡在給定時(shí)刻進(jìn)行車輛位置搜索,以解決上述假設(shè)的局限性問題。