鄭思靜,陳勇,朱奕璋,陳喜群
(1.浙江大學 工程師學院 智能交通研究所,浙江 杭州 310058;2.浙江大學 建筑工程學院 智能交通研究所,浙江 杭州 310058)
隨著人工智能和大數(shù)據(jù)技術(shù)的發(fā)展,與個體出行相關(guān)的位置服務(wù)數(shù)據(jù)日益豐富,通過分析數(shù)據(jù)揭示微觀個體出行行為機理,有助于理解宏觀交通流的涌現(xiàn)規(guī)律和演化過程,為實時預測城市人群移動奠定理論基礎(chǔ).出行目的地識別是個體行為分析的重要內(nèi)容[1],有助于優(yōu)化城市空間中的人群移動與交通疏導,還有利于個性化的用戶推廣[2].
出行目的地識別方法主要分為2 個大類:模型驅(qū)動和數(shù)據(jù)驅(qū)動.在模型驅(qū)動方面,Qiao 等[3]通過構(gòu)建混合馬爾可夫模型來提高個體出行目的地識別精度,考慮出行數(shù)據(jù)的非高斯和時空特征來計算位置轉(zhuǎn)移概率.隨著人口流動性研究的深入,引力模型、輻射模型及改進的輻射模型等被用于人類移動模式識別.Yan 等[4-5]提出識別城市人群移動量的人口權(quán)重機會模型以及同時識別個體和群體移動模式的統(tǒng)一模型.上述模型驅(qū)動研究提出的模型均在宏觀層面進行出行識別,未實現(xiàn)微觀層面的個體出行目的地識別.在數(shù)據(jù)驅(qū)動方面,大數(shù)據(jù)和人工智能算法被廣泛應(yīng)用于智慧交通領(lǐng)域.Feng 等[6]將多模態(tài)數(shù)據(jù)嵌入基于注意力機制的循環(huán)神經(jīng)網(wǎng)絡(luò),通過聯(lián)合嵌入控制人類移動的多種因素來捕獲復雜的順序轉(zhuǎn)換,以規(guī)則的方式刻畫多層次周期性,并利用周期性特征來增強循環(huán)神經(jīng)網(wǎng)絡(luò)的識別精度.桂志鵬等[7]提出結(jié)合長短時記憶模型和注意力機制的端到端出行目的地實時識別模型,該模型能夠兼顧軌跡點的位置語義和重要性.現(xiàn)有數(shù)據(jù)驅(qū)動方面的研究側(cè)重于利用大量數(shù)據(jù)訓練神經(jīng)網(wǎng)絡(luò),大多數(shù)模型較為復雜,缺乏可解釋性且泛化能力有限.
基于位置的服務(wù)(location based services,LBS)經(jīng)地理位置坐標脫敏處理后,有助于向用戶提供與位置相關(guān)的增值服務(wù).雖然LBS 數(shù)據(jù)覆蓋范圍廣,定位精度高,但存在數(shù)據(jù)質(zhì)量參差不齊的問題[8],如手機定位關(guān)閉、信號中斷導致的定位數(shù)據(jù)存在數(shù)據(jù)稀疏、信息缺失、位置偏移.因此,基于局部可觀測LBS 數(shù)據(jù)識別出行目的地具有重要的理論和實際意義.本研究提出基于個體記憶效應(yīng)和距離效應(yīng)的出行目的地識別(memorydistance effect,MDE)模型,通過研究出行者的歷史出行行為習慣,識別出行目的地;利用杭州市LBS 數(shù)據(jù)進行參數(shù)標定、性能評估、模型對比與敏感性分析.
個體出行軌跡存在部分缺失的情況,為此通過挖掘個體出行行為特征,構(gòu)建出行目的地識別模型.記憶效應(yīng)是個體連續(xù)移動行為中的重要特征[9],它使個體傾向于頻繁返回訪問過的地點.例如,在探索優(yōu)先返回(exploration and preferential return,EPR)模型[10]中,假設(shè)個體訪問新地點的概率PN滿足PN∝S-γ,其中S為個體已經(jīng)訪問過的地點總數(shù),γ 為模型參數(shù)(γ >0 );個體訪問之前地點的概率為 1-PN.可以看出,個人訪問的地點越多,探索新地點的概率就越小,即個體對在訪問過的地點之間移動具有強烈偏好.受EPR 模型啟發(fā),考慮目的地對個體的吸引力受到個體記憶和目的地位置的影響.若個人曾經(jīng)訪問過某個地點,便會對該地點產(chǎn)生記憶效應(yīng),從而提高未來訪問該地點的概率.由于人們對不同地點的訪問頻率分布服從齊普夫定律[11],本研究基于齊普夫定律量化個體記憶特征的影響,從個體出行行為角度刻畫歷史出行信息對于個體出行目的地決策的影響,具有可解釋性.
如圖1 所示,對于從點O出發(fā)的某次出行,真實目的地位于點Dm,由于手機定位信息缺失或者采樣周期過長導致LBS 數(shù)據(jù)缺失,產(chǎn)生截斷目的地,記為.D1~D6為該個體歷史出行中曾訪問過的目的地.定義A為某一地點對個人吸引力的影響[5],使用從點O出發(fā)到不同目的地的訪問頻率來表示地點排序:
圖1 基于個體記憶效應(yīng)和距離效應(yīng)的出行目的地識別模型示意圖Fig.1 Illustration of trip destination recognition model based on individual memory effect and distance effect
式中:λ 為記憶效應(yīng)強度表征參數(shù);rn為地點Dn在歷史訪問目的地集合中的排名.例如,個體訪問最常訪問地點的概率為A1=λ/1,訪問第二常訪問地點的概率為A2=λ/2,依此類推.
引力模型又稱重力模型[12]:兩地間的出行量與兩地活力乘積成正比,與兩地間距離的冪成反比,表達式為
式中:Tij為點j對點i的吸引力,Mi為起點i的活力(通常為人口數(shù)),Nj為終點j的活力,dij為從點i到點j的空間距離,β 為距離效應(yīng)強度表征參數(shù).在出行目的地選擇過程中(如上班、上學、就醫(yī)、就餐、購物等),人們通常選擇距離比較近、能夠滿足出行需求的目的地.受引力模型啟發(fā),將距離效應(yīng)引入出行目的地識別模型,表達式為
式中:Bmn為在距離影響下從點O出發(fā)選擇點Dn作為目的地的概率,dmn為從點O到點Dn的空間距離.為了消除距離為0 的影響,若個體在當前位置不變,則分母上加1.基于上述個體出行的歷史記憶特征和距離效應(yīng)特征,將式(1)和式(3)結(jié)合,構(gòu)建MDE 模型,表達式為
式中:Pmn為當個體位于位置點時,選擇候選目的地Dn的概率.
由于個體出行特征存在異質(zhì)性,采用隨機缺失方法構(gòu)建數(shù)據(jù)集,設(shè)定隨機缺失率 ξ,將真實目的地Dm之前的軌跡點按照 ξ 進行隨機剔除,得到截斷目的地.依據(jù)個體目的地訪問個數(shù)進行分層抽樣,采用五折交叉驗證,并使用非線性最小二乘法對識別模型進行參數(shù)估計.模型輸入為從當前點O出發(fā)到候選目的地點Dn的訪問排名rn、當前點距候選目的地點Dn地理距離dmn.模型輸出為Pmn.0/1 為模型的真實標簽,表示Dn是否為真實目的地,Pmn越接近100%表明目的地識別得越準確.
LBS 數(shù)據(jù)記錄出行者不同時刻的出行位置信息,通過分析LBS 數(shù)據(jù)可以挖掘歷史出行起訖點(OD)和活動軌跡信息從而識別出行者真實出行目的地,具體流程如圖2 所示.1)對LBS 數(shù)據(jù)進行預處理,提取以活動為目的的分段出行數(shù)據(jù)片段.2)采用GeoHash 網(wǎng)格編碼方法[13]對軌跡點進行網(wǎng)格編碼,疊加歷史出行軌跡得到用戶的歷史目的地集合.3)利用部分個體出行軌跡觀測數(shù)據(jù)識別真實出行目的地,建立MDE 模型.4)對預處理后的個體出行歷史軌跡數(shù)據(jù)進行隨機剔除,構(gòu)建訓練集和測試集,采用非線性最小二乘法進行模型參數(shù)標定.由上述流程可知,所建模型具有2 個特點:1)綜合考慮個體記憶效應(yīng)和距離效應(yīng),具有良好的可解釋性;2)模型結(jié)構(gòu)簡潔,參數(shù)數(shù)量少,便于標定和遷移.
圖2 出行目的地識別模型流程圖Fig.2 Flowchart of trip destination recognition model
采用2021 年1 月6 日至2 月5 日杭州市200 名匿名個體、62 800 次出行的LBS 數(shù)據(jù)進行實證分析.通過刪除重要特征值缺失的異常數(shù)據(jù),設(shè)置速度閾值對噪聲數(shù)據(jù)進行清洗,刪除不合理的軌跡點,構(gòu)造分類決策樹來識別駐留點,將出行行程分段,得到包括用戶ID、起訖點時間和經(jīng)緯度、中間軌跡點時間和經(jīng)緯度等信息的一次出行數(shù)據(jù).通過人工隨機抽樣部分出行軌跡來判斷出行行程分段的合理性.如圖3 所示為個體出行次數(shù)分布,s為用戶出行次數(shù).除少量個體出行次數(shù)較多以外(如快遞配送員),出行次數(shù)普遍位于300~500.如圖4 所示為個體出行時間分布,fs為出發(fā)頻率,fe為到達頻率.可以看出,用戶出行時間覆蓋全天,8:00—18:00 的活躍度較高.
圖3 個體出行次數(shù)降序排列Fig.3 Descending ranking of number of individual trips
圖4 個體出行時間分布Fig.4 Departure and arrival time distribution of individual trips
數(shù)據(jù)集所有軌跡點均由經(jīng)緯度表示,若直接用于個體出行目的地表征,在數(shù)據(jù)量較大的情況下經(jīng)緯度變化極大,容易造成維度災問題,此時不僅訓練模型困難,而且計算效率低下.在諸如個性化服務(wù)推薦的實際應(yīng)用中無須精準預測個體的經(jīng)緯度信息.與此同時,基于GeoHash 的網(wǎng)格編碼技術(shù)已被廣泛應(yīng)用于出行流動性挖掘研究[14-15],用GeoHash 對軌跡數(shù)據(jù)進行編碼能以較小網(wǎng)格表示目的地,對于出行目的地識別有較高的應(yīng)用價值.本研究采用GeoHash 網(wǎng)格地理位置編碼算法表示軌跡點的位置特征.網(wǎng)格化編碼精度與GeoHash編碼長度有關(guān),編碼長度越長,網(wǎng)格劃分越小[15].網(wǎng)格劃分過小會導致數(shù)據(jù)覆蓋過于稀疏,不利于模型訓練.為此采用GeoHash6 進行編碼,所劃分網(wǎng)格的長為1.22 km,寬為0.61 km.
通過對杭州市域范圍進行GeoHash 網(wǎng)格編碼,將200 個匿名個體共計62 800 次出行的目的地與相應(yīng)網(wǎng)格進行匹配和疊加,結(jié)果如圖5 所示.可以看出,這200 個匿名個體出行聚焦在主城區(qū),城區(qū)的出行分布較為密集.
圖5 個體出行目的地疊加分布Fig.5 Overlay distribution of individual trip destinations
如圖6 所示為個體水平層面出行距離分布、出行目的地訪問數(shù)量分布以及出行目的地訪問頻率分布情況,其中P為概率,d為出行距離,nd為出行目的地個數(shù),f為訪問頻率.圖6(a)為所有個體歷史所有出行的距離分布,由出行起點和出行終點的球面距離計算得到;圖6(b)為訪問目的地個數(shù)對應(yīng)的個體數(shù)占總個體數(shù)的比例分布;圖6(c)為目的地個體訪問次數(shù)對應(yīng)的出行目的地數(shù)量占所有個體目的地數(shù)量總和的概率分布.可以看出,1)出行距離主要分布在0~10 km,隨著出行距離增加,出行概率指數(shù)型下降;2)大多數(shù)個體出行目的地數(shù)量不超過20,與Alessandretti 等[16]的研究結(jié)果一致;3)個體出行在少數(shù)幾個地點活躍度高(如家、工作地),大部分地點的出行訪問頻率較低.
圖6 所有個體出行特征統(tǒng)計Fig.6 Statistics of all individual trip characteristics
采用部分觀測數(shù)據(jù)缺失的數(shù)據(jù)集訓練模型,得到參數(shù)估計值λ=0.832,β=1.809.為了直觀展示測試集識別效果,識別出的測試集部分個體目的地分布如圖7 所示.可以看出,模型識別結(jié)果與真實數(shù)據(jù)非常相近,表明市中心各目的地的出行人數(shù)都與實際值具有很好的吻合度.
圖7 真實與識別目的地分布對比Fig.7 Comparison of real and recognized destination distribution
為了量化評估模型識別性能并進行性能對比,將馬爾可夫鏈[17](Markov chain,MC)模型、決策樹(decision tree,DT)模型[18]以及隨機森林(random forest,RF)模型[19]作為基準模型.其中MC 模型基于所有個體的歷史出行記錄來構(gòu)建出行轉(zhuǎn)移矩陣,并基于出行者當前所在位置來預測出行目的地;DT 模型是經(jīng)典的基于樹的分類方法,能夠通過學習樣本發(fā)現(xiàn)個體出行的轉(zhuǎn)移規(guī)律,并對新的數(shù)據(jù)做出正確分類;RF 模型是集成多個決策樹的分類器.在對比實驗中,各基準模型的輸入與MDE 模型的輸入保持相同.MDE 模型的輸出為按照概率由大到小排序的位置列表,即top-k列表,其中k為目標個體最有可能選擇的k個位置.使用召回率rk、折扣累計收益gk、F1 分數(shù)量化模型識別性能,這3 個指標均位于0~1.0,數(shù)值越大說明模型識別精度越高.相對于比二分類問題,多分類問題更重視識別列表中排名靠前的若干目的地,因此采用折扣累計收益衡量目的地識別模型精度,按照排序列表對識別效果進行加權(quán)評估,計算式[20]為
式中:若第i處識別準確,則li=1 ;否,則為0.F1為模型精確率和召回率的調(diào)和平均,計算式為
式中:p為精確率,r為召回率.
不同識別模型的性能對比結(jié)果如表1 所示.可以看出,rk和gk隨k增大而增大.在測試集中,當k=1 時,MDE 模型的r1=0.56,識別模型的識準率隨著k增大而提高,當k=5 時,r5=0.89.對比其他模型,MDE 模型識別效果最好,在r3指標上相比MC 模型提升了20.9 個百分點,在g3指標上相比MC 模型提升了12.8 個百分點.當k=1 時,在召回率和折扣累計收益指標方面,MDE 模型相比于其他3 種基準模型的識別提升效果不夠明顯,但隨著k增大,MDE 模型相比于其他3 種基準模型的識別精度有大幅度提升,表明MDE 模型具有較好的識別效果.由表可知,MDE 模型的識別性能較對比模型的識別性能好.如圖8 所示為不同訪問目的地個數(shù)下的F1 分數(shù),nh為歷史目的地訪問個數(shù),由于存在個體異質(zhì)性,出行選擇具有較強的不確定性,多分類識別問題難度高于二分類問題.可以看出,隨著訪問目的地個數(shù)即多分類問題的類型增多,模型依然能夠保持穩(wěn)定準確的識別性能.
表1 不同目的地識別模型性能對比Tab.1 Performance comparison of different trip destination recognition models
圖8 不同訪問目的地個數(shù)的F1 分數(shù)Fig.8 F1-score for different numbers of destinations visited
為了探究所提模型中距離效應(yīng)和記憶效應(yīng)的有效性,進行消融實驗,實驗結(jié)果如表2 所示.將只考慮個體記憶效應(yīng)的出行目的地識別模型(memory effect,ME)和只考慮距離效應(yīng)的出行目的地識別模型(distance effect,DE)作為對比模型,在實驗中與MDE 模型保持相同的輸入輸出.可以看出,綜合考慮個體記憶效應(yīng)和距離效應(yīng)的MDE模型比對比模型的識別效果好.MDE 模型在r1指標上相比DE 模型提升了4 個百分點,在r3指標上相比DE 模型提升了13 個百分點,MDE 模型在F1 分數(shù)指標上相比ME 模型提升了18 個百分點,驗證了雙效應(yīng)融合的必要性.
表2 個體記憶效應(yīng)和距離效應(yīng)模型的消融實驗Tab.2 Ablation experiments of individual memory effect and distance effect models
為了進一步對比模型識別效果,從個體層面對比個體回轉(zhuǎn)半徑分布、訪問頻率分布.定義個體回轉(zhuǎn)半徑為
式中:N為總位移數(shù);ra為個體在a次位移后的位置;rCM,a為個體的a次位移所得的質(zhì)心,
訪問頻率為在一定時間內(nèi)個體訪問某個地點的次數(shù).如圖9 所示,rg為個體回轉(zhuǎn)半徑,f為訪問頻率,MDE 模型的個體回轉(zhuǎn)半徑分布以及訪問頻率分布均能與真實值匹配,MDE 模型相較于基準模型能夠更好地刻畫個體出行訪問頻率特征.特別是在90~110 km 對個體回轉(zhuǎn)半徑的識別,MDE 模型表現(xiàn)更佳.
圖9 所有個體出行特征對比Fig.9 Comparison of all individual trip characteristics
為了更直觀地對比所有個體出行特征刻畫效果,使用JS 散度(Jensen-Shannon divergence,JSD)進行評價.JSD 能夠定量地度量2 個概率分布的相似性[21],本質(zhì)上是KL 散度(Kullback-Leibler divergence,KLD)的變體,與KLD 類似,若2 種分布越相似,JSD 越小.JSD 的值域范圍為[0,1.0],完全相同為0,完全相反為1.0.相較于KLD,JSD 對相似度的判別更加確切.KLD 的計算式為
式中:U、V均為已知的概率分布.當且僅當U=V時,式(9)取等號.因此,KLD 具有非對稱性,無法準確地測量2 個概率分布的實際差異.為了解決這個問題,JSD 構(gòu)造平均概率分布來比較U與V的差異.JSD 的計算式為
統(tǒng)計MDE 模型、MC 模型、DT 模型以及RF 模型下所有個體回轉(zhuǎn)半徑分布和訪問頻率分布的JSD的計算結(jié)果如表3 所示.可以看出,MDE 模型的JS 散度遠小于其他3 種基準模型,表明MDE 模型能夠更好地展現(xiàn)個體出行特征分布.
表3 不同對比模型出行特征分布的JS 散度Tab.3 JS divergence of trip characteristic distribution of different comparison models
從群體層面對比模型,識別結(jié)果如圖10 所示.通過散點圖直觀對比模型出行量的識別值和實際值,出行量為2 個GeoHash 網(wǎng)格之間的移動量統(tǒng)計值,成對的灰色點表示模型識別值和真實值分布;空心點表示在不同分位數(shù)箱中識別結(jié)果的平均值;箱線圖是可視化數(shù)據(jù)分布的方法,表示識別行程數(shù)在觀測行程數(shù)的不同分位數(shù)箱中的分布,箱線圖中的虛線代表中位數(shù),下線為下四分位數(shù)(25%分位數(shù)),上線為上四分位數(shù)(75%分位數(shù)).箱線圖的繪制方法:先找出1 組數(shù)據(jù)的中位數(shù)和2 個四分位數(shù),然后連接2 個四分位數(shù)畫出箱體,中位數(shù)在箱體中間.如果Y=X位于10%到90%置信區(qū)間之間,則用矩形標記框,否則用矩形疊加橢圓形標記框.可以看出,MDE 模型能夠比基準模型更準確地識別出行目的地.在出行次數(shù)為1~50 時,MC 模型、DT 模型以及RF 模型均低估了真實的出行次數(shù),原因在于基準模型在影響個體出行目的地選擇的因素上考慮不夠全面,MDE 模型通過考慮個體歷史出行習慣及其對出行距離選擇的影響來識別個體出行目的地,因此在識別效果上表現(xiàn)更佳.MC 模型設(shè)每個狀態(tài)只依賴前一個狀態(tài),不依賴過去的歷史,這簡化了計算和分析,但不能充分利用歷史數(shù)據(jù).DT 模型可以較好地處理非線性關(guān)系,由于只考慮每個變量的影響,忽略了變量之間的相互關(guān)系,可能會導致模型的性能下降.RF 模型的泛化能力較強,但是在解決回歸問題時效果不是很好,不能做出超越訓練集數(shù)據(jù)范圍的識別,因此在測試集上訓練出的結(jié)果較真實值低.為了直觀地對比群體層面的特征刻畫效果,采用S?rensen 相似性指數(shù)(S?rensen similarity index,SSI)來衡量各模型的識別效果.SSI 是常用的統(tǒng)計工具,用于評估2 個樣本的相似度.Lenormand 等[22]使用修改版本的SSI 來衡量流動性識別模型是否正確地再現(xiàn)真實出行量(平均),計算式為
為了測試模型魯棒性,對缺失率進行參數(shù)敏感性分析.MDE 模型、MM 模型、DT 模型以及RF 模型的精度指標隨缺失率的變化情況如圖11所示.圖中,精度指標包括r1(g1與r1的數(shù)值相等)、r3、r5、g3、g5、F1 分數(shù).相較于基準模型,MDE 模型在低缺失率情況下有較好的識別效果.在高缺失率情況下,決策樹模型的識別效果更好,原因是MDE 模型具有處理高度缺失值的能力,能夠靈活處理數(shù)據(jù),自動忽略不相關(guān)特征.雖然LBS數(shù)據(jù)覆蓋范圍廣,定位精度高,但存在由于手機定位關(guān)閉、信號中斷等原因?qū)е碌臄?shù)據(jù)稀疏、信息缺失等問題.本研究提出研究基于尾部缺失LBS數(shù)據(jù)的出行目的地識別方法.在這樣的情境之下,MDE 模型具有最好的識別效果和應(yīng)用價值.以F1 分數(shù)為例,當缺失率處于[0,0.6)時,MDE 模型的F1 分數(shù)遠高于其他3 種基準模型,驗證了所提模型對于尾部軌跡數(shù)據(jù)缺失情況下的微觀個體出行目的地識別問題具有良好的適應(yīng)性;隨著缺失率的增加,MDE 模型在[0.6,1.0) 的性能有所下降,可能的原因是隨著數(shù)據(jù)缺失率的增加,距離真實目的地的距離增大,導致距離效應(yīng)的效用有所下降,其余對比模型受該影響相對較低.
圖11 不同模型的缺失率敏感性分析Fig.11 Sensitivity analysis of missing rate for different models
為了測試模型魯棒性,對數(shù)據(jù)集的日期類別進行敏感性分析.MDE 模型的各指標評估值隨時間的變化情況如圖12 所示.可以看出,MDE 模型在周一至周日、工作日和非工作日的性能保持穩(wěn)定,無明顯變化,證明MED 模型對于數(shù)據(jù)集的日期類別不敏感.
圖12 所提模型的時間敏感性分析Fig.12 Sensitivity analysis of time for proposed model
針對位置服務(wù)數(shù)據(jù)缺失情況下的微觀個體出行目的地識別問題,建立基于個體記憶效應(yīng)和距離效應(yīng)的出行目的地識別模型,并采用真實數(shù)據(jù)標定和檢驗模型.結(jié)果表明所建模型的準確率、召回率、精確度和F1 分數(shù)優(yōu)于馬爾可夫模型、決策樹模型以及隨機森林模型的對應(yīng)指標,且所建模型具有較高的魯棒性.開展個體出行記憶效應(yīng)模塊和距離效應(yīng)模塊的消融實驗,驗證了綜合考慮個體記憶效應(yīng)和距離效應(yīng)的必要性.所建模型采用GeoHash 網(wǎng)格編碼方法提高了個體出行目的地的空間分辨率,利用個體歷史出行信息簡化模型結(jié)構(gòu),從個體出行行為機理角度出發(fā),具有可解釋性,實現(xiàn)部分個體出行軌跡觀測數(shù)據(jù)缺失情況下的出行目的地識別,同時結(jié)構(gòu)簡單,易于標定參數(shù),能夠在出行識別等領(lǐng)域得到較好應(yīng)用.未來研究可以考慮更多個體出行影響因素,如出行時間、出行成本,開發(fā)準確性更高的識別模型.同時,由于LBS 數(shù)據(jù)自身缺乏真值的問題,未來考慮采用更精細化的數(shù)據(jù)進一步提升出行目的地識別準確性以及模型驗證的合理性.