張鹍鵬
(哈爾濱工業(yè)大學(xué)(深圳), 建筑學(xué)院, 廣東, 深圳 518000)
隨著網(wǎng)絡(luò)通信技術(shù)及計(jì)算機(jī)技術(shù)的發(fā)展與應(yīng)用,居民對公共出行的體驗(yàn)要求更高,特別是公交客流預(yù)測、到站預(yù)測等軟件服務(wù)項(xiàng)目為乘客提供了更為實(shí)時(shí)準(zhǔn)確的公交線路信息,方便了乘客的同時(shí)提升了公共交通運(yùn)行效率。近年,對公交客流預(yù)測問題已出現(xiàn)了許多相關(guān)文獻(xiàn)。Vishal等[1]提出了神經(jīng)網(wǎng)絡(luò)與小波變換混合模型,以驗(yàn)證模型預(yù)測的適應(yīng)性。范光鵬等[2]利用LSTM神經(jīng)網(wǎng)絡(luò)模型,結(jié)合卡爾曼濾波對公交到站時(shí)間進(jìn)行預(yù)測。賈慶林[3]提出小波神經(jīng)網(wǎng)絡(luò)模型,對公交客流量進(jìn)行預(yù)測。邊冰等[4]將RBF神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于公交到站時(shí)間預(yù)測,驗(yàn)證了RBF模型的快速收斂性。文中利用RBF神經(jīng)網(wǎng)絡(luò)模型的快速收斂性與準(zhǔn)確性,將其應(yīng)用于公交客流量預(yù)測中,檢驗(yàn)結(jié)果表明RBF模型具有更高的預(yù)測經(jīng)度。
RBF神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。網(wǎng)絡(luò)結(jié)構(gòu)可劃分為3層:輸入層、隱含層、輸出層[5]。其中,隱含層能夠依據(jù)輸入樣本自動(dòng)調(diào)整網(wǎng)絡(luò)結(jié)構(gòu),并能夠局部逼近實(shí)際真值,通過樣本數(shù)據(jù)的訓(xùn)練,對局部加權(quán)值進(jìn)行調(diào)整,實(shí)現(xiàn)快速收斂。由于徑向基函數(shù)RBF能夠依據(jù)輸入樣本的不同對網(wǎng)絡(luò)結(jié)構(gòu)自動(dòng)生成和調(diào)整,局部逼近能力較強(qiáng),實(shí)現(xiàn)與真實(shí)值的高度逼近,在樣本訓(xùn)練過程中,僅需對局部權(quán)值進(jìn)行調(diào)節(jié)即可實(shí)現(xiàn)網(wǎng)絡(luò)的快速運(yùn)行和收斂,該特性使得RBF網(wǎng)絡(luò)模型具有較快的訓(xùn)練收斂速度。另外,與BP網(wǎng)絡(luò)模型相比,RBF網(wǎng)絡(luò)模型對非線性特征提取能力更強(qiáng),能夠更為準(zhǔn)確地提取出客流的隱含特征,同時(shí)RBF網(wǎng)絡(luò)模型結(jié)構(gòu)簡單,模型運(yùn)算資源占用少,有利于在嵌入式設(shè)備中得到實(shí)現(xiàn),更適合用于短時(shí)客流預(yù)測。
圖1 RBF神經(jīng)網(wǎng)絡(luò)預(yù)測模型結(jié)構(gòu)
選用高斯函數(shù)作為基函數(shù),公式[6-7]為
(1)
其中,xk表示樣本數(shù)據(jù),ci表示基函數(shù)的中心值,σ表示方差。
RBF網(wǎng)絡(luò)的輸出結(jié)果公式[8]為
(2)
RBF神經(jīng)網(wǎng)絡(luò)中有幾個(gè)關(guān)鍵參數(shù),其影響整個(gè)網(wǎng)絡(luò)的訓(xùn)練速度與輸出結(jié)果,主要包括基函數(shù)中心值、方差值及隱含層輸出權(quán)重值。首先,采用K值聚類法計(jì)算基函數(shù)的中心值,生成h個(gè)聚類中心,聚類中心的初始值可以為任意值,可取h個(gè)樣本數(shù)據(jù)作為其初始化值。然后運(yùn)算每個(gè)樣本與聚類中心之間的歐式距離,篩選出距離最小的樣本構(gòu)成新的數(shù)據(jù)組[9]。對新構(gòu)建的數(shù)據(jù)組計(jì)算均值,獲得一組新的聚類中心值,運(yùn)算公式為:
(3)
其中,c為求取的聚類中心值,N表示樣本總?cè)萘?,m表示第i組向量中的樣本元素?cái)?shù)量,xij表示樣本。依照該流程進(jìn)行循環(huán)迭代運(yùn)算,直到計(jì)算所得的聚類中心值C收斂,即得到最終均值。
方差值的求取可采用以下簡化公式[10]:
(4)
式中,σi表示方差,cmax表示聚類中心的最大值,h表示樣本的總數(shù)量。
隱含層輸出權(quán)重值(即第二層連接至第三層的權(quán)值系數(shù))的計(jì)算具有多種方案,這里采用最小二乘法進(jìn)行計(jì)算,公式[11]為
(5)
通過對主要參數(shù)的原始,將神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及參數(shù)配置到最優(yōu)狀態(tài),然后進(jìn)行樣本數(shù)據(jù)的訓(xùn)練。訓(xùn)練流程如圖2所示。
圖2 RBF神經(jīng)網(wǎng)絡(luò)訓(xùn)練流程
首先對原始樣本進(jìn)行數(shù)據(jù)預(yù)處理,對網(wǎng)絡(luò)主要參數(shù)進(jìn)行初始化配置,然后輸出樣本數(shù)據(jù),通過誤差計(jì)算與參數(shù)修正的循環(huán)迭代,當(dāng)誤差的平方和小于設(shè)定的最小閾值時(shí),則認(rèn)為訓(xùn)練已收斂,輸出最終所需的網(wǎng)絡(luò)預(yù)測模型,最后可另取樣本對預(yù)測模型進(jìn)行驗(yàn)證。訓(xùn)練模型引入了數(shù)據(jù)的預(yù)處理和參數(shù)初始化,通過對中心值、方差值、權(quán)重值的初始估算,使初始值與模型參數(shù)真值相接近,與隨機(jī)選取初始值相比,降低訓(xùn)練次數(shù),提高訓(xùn)練速度,降低模型算法復(fù)雜度。
影響公交客流量的因素種類較多,其中包括天氣、日期、季節(jié)、上班高峰時(shí)段等關(guān)鍵因素,需要借助公交IC卡刷卡記錄、線路和站點(diǎn)、氣象數(shù)據(jù)等多種數(shù)據(jù)類型,多種數(shù)據(jù)類型的結(jié)構(gòu)及存儲(chǔ)方式存在差異,需要對數(shù)據(jù)進(jìn)行一些預(yù)處理,以使其適應(yīng)于預(yù)測模型的輸入,在進(jìn)行樣本訓(xùn)練前,需要對多源數(shù)據(jù)進(jìn)行必要的預(yù)處理。
預(yù)測模型的數(shù)據(jù)來源主要有兩大部分,一部分是有公交公司提供的記錄數(shù)據(jù),主要包括IC卡記錄數(shù)據(jù)、線路基本信息、站點(diǎn)分布信息等,另一部分為國家氣象共享平臺(tái)提供的數(shù)據(jù),主要包括天氣溫度、濕度、風(fēng)力、雨水量等氣象信息。首先,需要對原始數(shù)據(jù)進(jìn)行預(yù)處理,篩選剔除其中包括的異常數(shù)據(jù),濾除干擾數(shù)據(jù)對預(yù)測結(jié)果的影響,然后對多種數(shù)據(jù)進(jìn)行融合,使得多種數(shù)據(jù)在時(shí)間和空間緯度上進(jìn)行準(zhǔn)確匹配[12-13]。通過數(shù)據(jù)的預(yù)處理,降低數(shù)據(jù)的缺失、錯(cuò)誤、冗余等問題,提升數(shù)據(jù)質(zhì)量,從而提高預(yù)測模型輸出結(jié)果的準(zhǔn)確性。
圖3 多源數(shù)據(jù)預(yù)處理流程
多源數(shù)據(jù)預(yù)處理流程如圖3所示,選用雨水量、溫度、時(shí)間、站點(diǎn)作為預(yù)測模型的輸入元素,主要包括數(shù)據(jù)格式轉(zhuǎn)換、檢測、問題定位、修正及驗(yàn)證幾個(gè)部分,首先根據(jù)模型需求對數(shù)據(jù)格式進(jìn)行轉(zhuǎn)換,然后是對數(shù)據(jù)依次進(jìn)行流程性篩查,篩選排查出缺失、冗余、錯(cuò)誤及無用數(shù)據(jù),對檢測結(jié)果進(jìn)行評估,定位異常數(shù)據(jù)的原因及位置,對數(shù)據(jù)進(jìn)行相應(yīng)的修正,剔除異常及無用數(shù)據(jù),對冗余多余數(shù)據(jù)進(jìn)行合并、刪減等處理,最后對數(shù)進(jìn)行驗(yàn)證,保證各輸入元素在時(shí)間和空間上能夠準(zhǔn)確對應(yīng)。
以某路公交刷卡記錄數(shù)據(jù)為樣本數(shù)據(jù),獲取連續(xù)300天的刷卡統(tǒng)計(jì)數(shù)據(jù),每天統(tǒng)計(jì)數(shù)據(jù)的起始時(shí)間為早上6點(diǎn)至晚上9點(diǎn),以20分鐘為單位對客流量統(tǒng)計(jì)值進(jìn)行劃分,篩選掉無效統(tǒng)計(jì),共獲得280天的有效統(tǒng)計(jì)樣本。將其中200個(gè)樣本數(shù)據(jù)作為訓(xùn)練樣本數(shù)據(jù),另外80個(gè)樣本作為預(yù)測測試樣本數(shù)據(jù)。
分別采用傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)模型和RBF神經(jīng)網(wǎng)絡(luò)模型對樣本進(jìn)行訓(xùn)練,測試對比2種預(yù)測模型的性能。其中,BP神經(jīng)網(wǎng)絡(luò)模型的隱含層具有16個(gè)神經(jīng)元,學(xué)習(xí)概率為0.1,誤差最小閾值設(shè)置為0.001,通過1000次迭代運(yùn)行達(dá)到收斂。RBF神經(jīng)網(wǎng)絡(luò)模型的隱含層具有9個(gè)神經(jīng)元,學(xué)習(xí)概率為0.01,誤差最小閾值設(shè)置為0.001,通過200次迭代運(yùn)行即可實(shí)現(xiàn)收斂。2種預(yù)測模型的預(yù)測結(jié)果如圖4所示。
圖4 兩種預(yù)測模型測試結(jié)果
從預(yù)測結(jié)果中可以明顯看出與傳統(tǒng)BP網(wǎng)絡(luò)相比,RBF網(wǎng)絡(luò)的預(yù)測結(jié)果更接近真實(shí)值。從圖4可以看出誤差的分布,BP網(wǎng)絡(luò)的相對誤差值分布于0.15-0.4之間,而RBF網(wǎng)絡(luò)的相對誤差分布于-0.1-0.1之間,RBF網(wǎng)絡(luò)的預(yù)測誤差更小,而RBF網(wǎng)絡(luò)的訓(xùn)練時(shí)間僅為BP網(wǎng)絡(luò)的20%左右,驗(yàn)證了RBF預(yù)測模型的快速性和精確性。
為驗(yàn)證RBF模型的訓(xùn)練快速性,分別選用不同時(shí)間段的樣本對預(yù)測模型進(jìn)行訓(xùn)練,在不同時(shí)間段的樣本輸入條件下,統(tǒng)計(jì)模型收斂所花費(fèi)的訓(xùn)練次數(shù),統(tǒng)計(jì)結(jié)果如表1所示。表中以1 h為單位,選取9點(diǎn)到14點(diǎn)的樣本,分別作為BP和RBF 2種模型的輸入樣本,統(tǒng)計(jì)2種模型在不同的樣本輸入下其訓(xùn)練需要花費(fèi)的迭代次數(shù),由表1中可知,RBF模型具有更快的收斂速度。
表1 不同樣本輸入下模型訓(xùn)練次數(shù)統(tǒng)計(jì)
由于公交客流量受到多種因素影響,很難對其直接建立數(shù)學(xué)模型,傳統(tǒng)的客流量預(yù)測方法很難實(shí)現(xiàn)精確預(yù)測,無法為乘客出行提供較為精準(zhǔn)的交通引導(dǎo)服務(wù)。近年,神經(jīng)網(wǎng)絡(luò)預(yù)測模型逐漸被應(yīng)用到公交調(diào)度中,文中提出將RBF神經(jīng)網(wǎng)絡(luò)模型應(yīng)用到公交客流量預(yù)測,以雨水量、溫度、時(shí)間、站點(diǎn)作為預(yù)測模型的輸入,公交線路客流量為輸出,對比實(shí)驗(yàn)結(jié)果驗(yàn)證了其在公交客流預(yù)測中的快速收斂性和預(yù)測精確性。