摘要 為提升不同信令頻率下的端點(diǎn)識(shí)別效果,該研究提出一種基于深度森林的出行端點(diǎn)識(shí)別方法。該方法考慮信令切換模式、空間位移及時(shí)間停留等輸入特征,提升了不同信令頻率下的端點(diǎn)識(shí)別效果。在此基礎(chǔ)上,結(jié)合真實(shí)出行試驗(yàn)及數(shù)據(jù)仿真技術(shù),對(duì)比分析了現(xiàn)階段主流方法的端點(diǎn)識(shí)別效果,總結(jié)了信令頻率對(duì)出行端點(diǎn)識(shí)別的影響規(guī)律。結(jié)果表明:該研究提出的方法優(yōu)于隨機(jī)森林、時(shí)空聚類等方法,真實(shí)信令頻率下識(shí)別準(zhǔn)確率達(dá)89.70%,當(dāng)信令平均間隔小于330 s時(shí),該研究提出方法識(shí)別準(zhǔn)確率較其他方法平均提升3.53%。隨著信令頻率降低,端點(diǎn)識(shí)別效果先平穩(wěn)后下降,當(dāng)信令平均時(shí)間間隔小于128 s時(shí),整體識(shí)別效果較穩(wěn)定,平均識(shí)別準(zhǔn)確率高于78.90%。
關(guān)鍵詞 出行端點(diǎn)識(shí)別;深度森林;信令數(shù)據(jù);信令頻率
中圖分類號(hào) U491.1 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 2096-8949(2025)01-0014-03
0 引言
準(zhǔn)確高效地識(shí)別出行端點(diǎn)是提取城市出行OD、分析出行結(jié)構(gòu)的基礎(chǔ)環(huán)節(jié),對(duì)城市交通規(guī)劃及管控具有重要意義。近年來,以手機(jī)信令數(shù)據(jù)為代表的移動(dòng)大數(shù)據(jù)蓬勃發(fā)展[1,2],手機(jī)信令數(shù)據(jù)具有覆蓋范圍廣、連續(xù)被動(dòng)采集等優(yōu)勢(shì),能夠有效彌補(bǔ)傳統(tǒng)交通調(diào)查方法的缺陷,近年來受到了研究者的廣泛關(guān)注[3]。
信令頻率是手機(jī)信令數(shù)據(jù)的平均時(shí)間間隔,反映了原始信令數(shù)據(jù)包含的信息量,對(duì)出行端點(diǎn)、出行方式等識(shí)別具有重要影響[4]。實(shí)際環(huán)境中,受手機(jī)使用強(qiáng)度、通信網(wǎng)絡(luò)等因素的影響,不同出行下的信令頻率往往存在較大差異?,F(xiàn)有研究對(duì)基于信令數(shù)據(jù)的出行端點(diǎn)識(shí)別方法進(jìn)行了較為充分的探索[5],但針對(duì)信令頻率這一影響手機(jī)信令數(shù)據(jù)實(shí)際應(yīng)用效果的關(guān)鍵因素仍缺乏充分探究。對(duì)此,該研究提出了一種基于深度森林的出行端點(diǎn)識(shí)別方法,該方法考慮了原始信令數(shù)據(jù)間的關(guān)聯(lián)性,通過構(gòu)建位置切換模式特征補(bǔ)充頻率降低帶來的信息損益,進(jìn)一步提高了不同信令頻率下的出行端點(diǎn)穩(wěn)定識(shí)別。在此基礎(chǔ)上,采用數(shù)據(jù)仿真方法探究信令頻率對(duì)出行端點(diǎn)識(shí)別的影響,形成量化規(guī)律,為信令數(shù)據(jù)的高效應(yīng)用提供支撐。
1 出行端點(diǎn)識(shí)別模型
1.1 深度森林模型
基于gcForest(multi-Grained Cascade Forest)模型,該研究構(gòu)建了一種出行端點(diǎn)識(shí)別方法。gcForest是一種深度森林模型[6],其具備訓(xùn)練數(shù)據(jù)需求低、對(duì)超參數(shù)不敏感及泛化能力強(qiáng)的優(yōu)點(diǎn),適用于多頻信令頻率下的端點(diǎn)識(shí)別,gcForest結(jié)構(gòu)圖如圖1所示。
多粒度滑動(dòng)窗口用于挖掘原始信令數(shù)據(jù)間的關(guān)聯(lián),當(dāng)序列長(zhǎng)度為n,滑動(dòng)窗口長(zhǎng)度為m時(shí),生成長(zhǎng)度為n-m+1的二維特征集合;級(jí)聯(lián)森林結(jié)構(gòu)借鑒了DNN(Deep Neural Networks)的逐層結(jié)構(gòu),在每一層中,模型的輸出特征會(huì)在模型內(nèi)部進(jìn)行轉(zhuǎn)化傳遞,從而實(shí)現(xiàn)在基模型基礎(chǔ)上的進(jìn)一步集成,詳見公式(1)。
(1)
式中:F——初始輸入特征,Eb——分類器模型,Pb——基分類器輸出概率,F(xiàn) '——融合特征矩陣。
1.2 基于深度森林的出行端點(diǎn)識(shí)別
基于深度森林進(jìn)行出行端點(diǎn)識(shí)別的具體流程為:數(shù)據(jù)預(yù)處理、特征構(gòu)建、端點(diǎn)序列識(shí)別。特征工程對(duì)出行端點(diǎn)識(shí)別至關(guān)重要,出行端點(diǎn)通常關(guān)聯(lián)真實(shí)位置附近的一個(gè)或多個(gè)基站,故出行端點(diǎn)處的信令軌跡在時(shí)空上表現(xiàn)為一定的聚集性。同時(shí)實(shí)際場(chǎng)景中受通信網(wǎng)絡(luò)容量等因素的影響,信令常出現(xiàn)乒乓切換現(xiàn)象,出行者停留時(shí)間越長(zhǎng),出現(xiàn)此現(xiàn)象的概率越大,因此,采用位移、序列切換模式等特征區(qū)分端點(diǎn)與非端點(diǎn)。該模型的輸入特征包含時(shí)間特征、空間移動(dòng)特征、位置切換特征、序列模式特征等,具體如下所示。
(1)同一位置指紋連續(xù)出現(xiàn)次數(shù)。位置指紋定義為信令數(shù)據(jù)的經(jīng)緯度坐標(biāo),鑒于多個(gè)基站可能共享相同地理位置,位置指紋的重復(fù)出現(xiàn)次數(shù)反映出行者停留的可能性。
(2)連續(xù)切換模式特征。連續(xù)切換模式通過標(biāo)定持續(xù)時(shí)間超過特定閾值的連續(xù)切換序列,量化用戶在特定區(qū)域的停留時(shí)長(zhǎng)。該研究采用基于增量窗口的識(shí)別方法進(jìn)行標(biāo)定,當(dāng)一段時(shí)間內(nèi)反復(fù)且只出現(xiàn)了某幾個(gè)基站時(shí),則將該段軌跡識(shí)別為乒乓切換段,若該段持續(xù)時(shí)長(zhǎng)大于閾值,則將其標(biāo)記為停留段。
(3)同一基站連續(xù)連接時(shí)長(zhǎng)。與同一基站連續(xù)連接時(shí)間越長(zhǎng),停留概率越高。
(4)基站切換速度。相鄰信令連接基站的切換速度,反映出行者的移動(dòng)狀態(tài)。
(5)相鄰位置切換距離。當(dāng)位置發(fā)生變化時(shí),切換基站的空間距離,其反映出行者的位移狀態(tài)。
(6)連接基站數(shù)量。不同時(shí)間窗口內(nèi)連接的不同位置指紋的數(shù)量,反映出行者單位時(shí)間內(nèi)的位置變化狀態(tài)。
(7)位置切換數(shù)量。不同時(shí)間窗口內(nèi)不同位置指紋的切換次數(shù),反映出行者的位置變動(dòng)頻率。
(8)位置停留時(shí)間。不同時(shí)間窗口內(nèi)每個(gè)位置指紋的平均停留時(shí)間,反映出行者單位時(shí)間內(nèi)的移動(dòng)狀態(tài)。
(9)位置切換距離。不同時(shí)間窗口內(nèi)不同位置指紋的平均距離,該研究中的距離根據(jù)經(jīng)緯度計(jì)算球面距離。
在特征構(gòu)建完成后,通過深度森林算法訓(xùn)練端點(diǎn)識(shí)別模型,利用ID與日期對(duì)數(shù)據(jù)集進(jìn)行劃分。應(yīng)用k-fold交叉驗(yàn)證法循環(huán)訓(xùn)練數(shù)據(jù)集,選取兩組信令為測(cè)試集,剩余數(shù)據(jù)作為訓(xùn)練集。深度森林模型的預(yù)測(cè)對(duì)象是單條信令數(shù)據(jù),受模型表現(xiàn)影響會(huì)導(dǎo)致預(yù)測(cè)結(jié)果中的出行端點(diǎn)不連續(xù)問題,因此還需進(jìn)一步提取出行端點(diǎn)。根據(jù)空間距離及前后時(shí)間差,對(duì)深度森林算法識(shí)別出的停留序列進(jìn)行合并、刪減處理,得到最終的出行端點(diǎn)。
2 數(shù)據(jù)采集試驗(yàn)
該研究同國(guó)內(nèi)通信運(yùn)營(yíng)商合作,在中國(guó)某省會(huì)城市開展了為期15 d的出行試驗(yàn)。試驗(yàn)場(chǎng)景包含上班、購(gòu)物、就醫(yī)、散步等多種日常活動(dòng),出行試驗(yàn)最終采集信令數(shù)據(jù)7.9萬條,數(shù)據(jù)字段包含時(shí)間戳、位置區(qū)編號(hào)、小區(qū)編號(hào)及用戶編碼。試驗(yàn)獲取信令數(shù)據(jù)單日最少295條,最多1 861條,中位數(shù)777條,平均值814條。統(tǒng)計(jì)出行日志的端點(diǎn)段與非端點(diǎn)段信令間隔,發(fā)現(xiàn)端點(diǎn)段信令間隔主要分布在750 s以內(nèi),而非端點(diǎn)段信令間隔主要分布在250 s以內(nèi),后者分布更集中,且信令頻率更高。
3 結(jié)果驗(yàn)證與分析
該研究對(duì)比了基于深度森林方法(DF)與現(xiàn)階段主流的出行端點(diǎn)識(shí)別方法,并研究了基于規(guī)則(RB),基于凝聚聚類(AC),基于時(shí)空聚類(ST-DBSCAN)以及基于隨機(jī)森林(RF)方法在不同信令頻率下的端點(diǎn)識(shí)別效果。
3.1 評(píng)價(jià)指標(biāo)
該研究使用召回率、精確率、F1與多識(shí)別率對(duì)識(shí)別結(jié)果進(jìn)行評(píng)價(jià)。召回率定義為正樣本中被預(yù)測(cè)為正的概率,如式(2)所示。
(2)
(3)
(4)
式中:Re——召回率,Tp——真正的個(gè)數(shù),F(xiàn)n——假負(fù)的個(gè)數(shù);精確率則衡量預(yù)測(cè)為正的樣本中真正為正的概率,如式(3)所示,式中Pr——精確率,F(xiàn)p——假正的個(gè)數(shù);F1——召回率和精確率的調(diào)和平均。
3.2 端點(diǎn)識(shí)別效果對(duì)比
端點(diǎn)識(shí)別效果,如表1所示,該研究提出的深度森林方法識(shí)別效果最好,識(shí)別準(zhǔn)確率較隨機(jī)森林方法提升4.90%,多識(shí)別率顯著低于隨機(jī)森林、時(shí)空聚類及凝聚層次聚類方法,規(guī)則類方法多識(shí)別率較低,并且其識(shí)別精確率僅有58.45%,整體識(shí)別效果較差。該研究提出的方法考慮了端點(diǎn)處的切換模式特征,能夠最大限度地捕捉信令序列中的時(shí)空停留信息,整體識(shí)別效果較好。
3.3 信令頻率對(duì)端點(diǎn)識(shí)別效果的影響
完成原始頻率下的結(jié)果驗(yàn)證后,該研究進(jìn)一步分析了不同信令頻率對(duì)端點(diǎn)識(shí)別效果的影響,通過間隔抽取與間隔刪除的方法對(duì)信令數(shù)據(jù)進(jìn)行抽稀,模擬原始數(shù)據(jù)量10%、20%、25%、33%、50%、66%、80%及90%的多頻率信令數(shù)據(jù),以評(píng)估信令頻率變化對(duì)端點(diǎn)識(shí)別性能的影響。不同信令頻率下的端點(diǎn)識(shí)別效果,如圖2所示。可見,隨著信令頻率降低,端點(diǎn)識(shí)別效果先平穩(wěn)后下降,當(dāng)信令數(shù)據(jù)量高于50%時(shí)(平均時(shí)間間隔小于128 s),各識(shí)別方法(深度森林、隨機(jī)森林和時(shí)空聚類)的F1指標(biāo)穩(wěn)定高于80%,其中深度森林方法識(shí)別效果最好。隨著信令頻率下降,端點(diǎn)識(shí)別準(zhǔn)確率逐步降低,當(dāng)信令數(shù)據(jù)量高于20%時(shí),深度森林方法識(shí)別效果均優(yōu)于其他方法。
4 結(jié)語(yǔ)
該研究構(gòu)建了一套基于深度森林算法的出行端點(diǎn)識(shí)別模型,該模型結(jié)合信令切換模式、移動(dòng)特性等關(guān)鍵特征實(shí)現(xiàn)停留點(diǎn)與非停留點(diǎn)的有效區(qū)分,結(jié)合真實(shí)出行試驗(yàn)數(shù)據(jù)對(duì)比總結(jié)了不同信令頻率下的端點(diǎn)識(shí)別效果變化規(guī)律。結(jié)果表明:該研究提出的深度森林方法識(shí)別準(zhǔn)確率達(dá)89.71%,當(dāng)信令平均間隔小于330 s時(shí),該方法表現(xiàn)均優(yōu)于其他方法;出行端點(diǎn)的識(shí)別效果隨信令頻率降低而下降,但當(dāng)信令平均間隔小于128 s時(shí),識(shí)別效果變化不顯著。
參考文獻(xiàn)
[1]昝雨堯,王翔,俄文娟,等.多源數(shù)據(jù)融合的城市區(qū)域時(shí)變停車需求識(shí)別方法[J].交通運(yùn)輸工程與信息學(xué)報(bào), 2022(2):82-94.
[2]冉斌.手機(jī)數(shù)據(jù)在交通調(diào)查和交通規(guī)劃中的應(yīng)用[J].城市交通, 2013(1):72-81+32.
[3]陳曉光.基于手機(jī)信令數(shù)據(jù)的出行端點(diǎn)識(shí)別誤差與交通小區(qū)劃分尺度研究[D].成都:西南交通大學(xué), 2020.
[4]王彥琛,楊飛,李榮玲,等.手機(jī)信令定位頻率對(duì)交通方式識(shí)別的影響[J].西南交通大學(xué)學(xué)報(bào), 2024(5):1158-1166.
[5]JIANG H, YANG F, ZHU X, et al. Improved F-DBSCAN for Trip End Identification Using Mobile Phone Data in Combination with Base Station Density[J]. Journal of Advanced Transportation, 2022:1-17.
[6]ZHOU Z H, FENG J. Deep forest[J]. National Science Review, 2019(1):74-86.
收稿日期:2024-06-14
作者簡(jiǎn)介:王嘉鑫(1999—),男,碩士研究生,研究方向:城市交通規(guī)劃與管理。