董 慧
(安徽工業(yè)經(jīng)濟職業(yè)技術(shù)學(xué)院 國有資產(chǎn)管理處,合肥 230051)
共享單車的推廣符合綠色低碳出行發(fā)展要求,能夠提升出行便利程度、緩解交通壓力,在實際應(yīng)用環(huán)節(jié)需配合不同城市的交通情況構(gòu)建出行目的地預(yù)測模型,在設(shè)置流量變化、車輛數(shù)量及閾值等參數(shù)的基礎(chǔ)上精準(zhǔn)預(yù)測出行目的地。
本研究在分析用戶出行規(guī)律及時空范圍內(nèi)交通情況的基礎(chǔ)上,采用深度學(xué)習(xí)預(yù)測模型DPNNst進行目的地預(yù)測,以達到整合交通資源、降低出行成本的目的,有助于實現(xiàn)共享發(fā)展的目標(biāo)。
預(yù)測共享單車出行目的地,需先對用戶歷史騎行軌跡及地理位置關(guān)系、用戶行為序列時間關(guān)系、天氣事件等外部因素進行綜合計算考量。深度學(xué)習(xí)預(yù)測模型DPNNst綜合了卷積神經(jīng)網(wǎng)絡(luò)、長短期記憶網(wǎng)絡(luò)、全連接神經(jīng)網(wǎng)絡(luò)等多種神經(jīng)網(wǎng)絡(luò),在實踐應(yīng)用環(huán)節(jié)能夠準(zhǔn)確對共享單車用戶出行目的地進行預(yù)測[1]。本研究將目的地預(yù)測要素分為用戶與候選地進行二分類建模預(yù)測,根據(jù)預(yù)測結(jié)果,候選地中的位置是目的地則分類為1,否則為0。本研究設(shè)計的預(yù)測模型整體網(wǎng)絡(luò)架構(gòu)有3個層次,分別為用戶行為序列、空間地理位置、外部特征,每部分具體建模流程如下。
采集用戶的歷史行為信息,并將其按照時間排序,構(gòu)成行為序列,進一步組成向量,輸入多層長短期記憶網(wǎng)絡(luò),利用LSTM系統(tǒng)訓(xùn)練網(wǎng)絡(luò),幫助模型快速掌握用戶歷史行為規(guī)律,最終做出行為預(yù)測。
統(tǒng)計用戶起始點到目的地間的模式計數(shù),按照時間順序生成行為序列,見圖1。
圖1 用戶行為序列數(shù)據(jù)Fig.1 Data of users’ behavior sequence
設(shè)當(dāng)前時刻為t時刻、時間窗口為n,序列范圍設(shè)計為從t-n到t-1,并將其記為[xt-n,xt-(t-1), …,xt-2,xt-1],該序列值表示用戶在起始點到目的地之間的騎行次數(shù),此環(huán)節(jié)如未發(fā)生記錄,則記為0。
選擇定長序列長度,幫助模型分析用戶騎行的周期性規(guī)律。如訓(xùn)練數(shù)據(jù)不夠充足,也可選擇變長序列進行訓(xùn)練,將輸入向量設(shè)為Xu={x1,x2,…xn-1}。
提取LSTM訓(xùn)練中的第t個輸入值,計算其對應(yīng)的遺忘門f、輸入門i、輸出門o,得出:
ft=σ(Wf[ht-1,xt]+bf)
it=σ(Wi[ht-1,xt]+bi)
ot=σ(Wo[ht-1,xt]+bo)
ht=ot*tanh(Ct)
(1)
(2)
繪制矩陣圖分析用戶空間地理位置的變化情況,將位置關(guān)系以圖片形式傳輸?shù)蕉鄬泳矸e神經(jīng)網(wǎng)絡(luò),在此神經(jīng)網(wǎng)絡(luò)中實現(xiàn)訓(xùn)練后傳輸?shù)蕉鄬尤B接網(wǎng)絡(luò),分析起始地點與目的地的對應(yīng)關(guān)系,計算可能性概率。要注意在時間維度外,還有空間維度,將時空關(guān)系映射到二維平面也需構(gòu)建矩陣,如圖2所示,將此矩陣視作表示點與點之間關(guān)系,即表示不同地理位置關(guān)系的圖。
圖2 地理空間位置關(guān)系卷積過程Fig.2 Convolution process of geographical spatial position relation
通過卷積神經(jīng)網(wǎng)絡(luò),在圖2中標(biāo)記出起始點與目的地,在此基礎(chǔ)上生成2通道(channel)的圖Xp={xstrart,xdest},其中Xp∈Rr*I*J*2,r表示圖的數(shù)量,I和J分布為圖的寬和高,在進行基層的卷積后,得出:
(3)
(4)
1.3 外部特征
1.4 網(wǎng)絡(luò)融合
融合三層結(jié)構(gòu)網(wǎng)絡(luò),使每個結(jié)構(gòu)的最后一層都連接到全神經(jīng)網(wǎng)絡(luò)中,在此部分進行交叉組合,用softmax分類函數(shù)對三層結(jié)構(gòu)輸出的結(jié)果進行分類,得出目的地概率值,其中損失函數(shù)需使用交叉熵:
(5)
針對公式(5),使用Adam進行優(yōu)化訓(xùn)練,得出最終模型結(jié)果:
(6)
深度學(xué)習(xí)預(yù)測模型DPNNst的全過程算法見表1。
表1 目的地預(yù)測網(wǎng)絡(luò)算法Tab.1 Destination prediction network algorithm
采用F1值指標(biāo),計算參照公式(4),得出模型準(zhǔn)確性公式:
(7)
公式(7)中的Precision表示準(zhǔn)確率,Recall表示召回率,準(zhǔn)確率的計算參照公式(5),召回率的計算參照公式(3),進一步得出:
(8)
公式(8)中TP值表示判定結(jié)果,值為正類,屬于正確的預(yù)測結(jié)果;值為負類,屬于錯誤的預(yù)測結(jié)果[3]。
在實驗環(huán)節(jié),采用Pythom庫函數(shù)進行建模,配合使用的編碼環(huán)境為:CPU版本1.2.1、CUDA 8.0.61、CUDNN版本8.0,運行環(huán)境為:處理器Intel i7,內(nèi)存16GB、顯存8G Nvidia-GTX1070顯卡。
將LSTM訓(xùn)練網(wǎng)絡(luò)中的10個隱層定義進行功能劃分,設(shè)置2層卷積層,內(nèi)核的大小分別為5*5和10*10,Batch Size值設(shè)置在1000上下,Drop-out率設(shè)置為0.8。實際訓(xùn)練操作環(huán)節(jié)采用多個epochs,不考慮設(shè)備及其他因素影響,對超參數(shù)進行適當(dāng)調(diào)整后取最優(yōu)結(jié)果,深度學(xué)習(xí)預(yù)測模型DPNNst的試驗?zāi)J脚c評判標(biāo)準(zhǔn)F1值的關(guān)系見圖3[4]。
圖3 目的地預(yù)測模型在測試集上的結(jié)果Fig.3 Results of the destination prediction model on the test set
應(yīng)用DPNNst模型時,只對用戶行為序列構(gòu)成進行LSTMs訓(xùn)練記為DPNNst1,F1值為30.10%。在此基礎(chǔ)上添加地理位置空間因素,記為DPNNst2,F1值為32.82%。在用戶行為序列及地理位置空間的基礎(chǔ)上添加外部特征因素,記為DPNNst3,F1值為34.75%。在DPNNst3的基礎(chǔ)上將FCs層數(shù)調(diào)整到5層,F1值達到41.26%。再將LSTM層數(shù)調(diào)整到5層,F1值達到42.71%??梢娔P洼斎胍蛩卦蕉?訓(xùn)練層級越多,得出的預(yù)測結(jié)果就越準(zhǔn)確。共享單車用戶出行行為具有一定的隨機性,導(dǎo)致車輛召回率較低,但在應(yīng)用過程中該模型能夠較好地解決此類實際問題。
(9)
(10)