曹旦旦,范書(shū)瑞,夏克文
(1. 河北工業(yè)大學(xué)電子信息工程學(xué)院, 天津 300401;2. 河北工業(yè)大學(xué)大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室, 天津 300401)
在如今這個(gè)大數(shù)據(jù)時(shí)代,通過(guò)對(duì)大數(shù)據(jù)進(jìn)行分析來(lái)快速精確預(yù)測(cè)某一時(shí)間某一地點(diǎn)的共享單車短時(shí)需求量,從而合理地確定單車的投放數(shù)量和調(diào)度安排,是個(gè)亟待解決的問(wèn)題?,F(xiàn)階段對(duì)共享單車需求量預(yù)測(cè)的研究主要有如下方法。在影響共享單車短時(shí)需求量的各種因素方面,Campbell等(2016)[1]通過(guò)對(duì)北京共享單車項(xiàng)目的調(diào)查指出,影響共享單車需求因素主要有距離、氣溫、降水、空氣質(zhì)量等;Matton 和 Godavarthy(2017)[2]指出氣溫、風(fēng)力、降水等氣候條件是影響共享單車需求的主要因素;Faghih-Imani 等(2014)[3]提出,時(shí)點(diǎn)因素也是影響共享單車需求的重要變量,包括每天的時(shí)間段、是否周末、高峰時(shí)間等;Zhang等[4]和Li等[5]還發(fā)現(xiàn)車站的位置、大小、服務(wù)范圍是否重疊也會(huì)對(duì)車輛的需求量產(chǎn)生影響。在共享單車需求預(yù)測(cè)方法方面,文獻(xiàn)[6]對(duì)共享單車需求的預(yù)測(cè)采用的方法集中在傳統(tǒng)線性O(shè)LS模型、二分類和多分類Logit模型等,這些經(jīng)驗(yàn)?zāi)P托枰罅坑^測(cè)數(shù)據(jù),且具有明顯的局域性,回歸關(guān)系不能很好符合實(shí)際情況。Kaltenbrunner等人[7]對(duì)里昂和巴塞羅那的公共自行車系統(tǒng)采用時(shí)間序列分析來(lái)預(yù)測(cè)其每小時(shí)的需求情況。Bacciu 等(2017)[8]采用機(jī)器學(xué)習(xí)中的支持向量機(jī)和隨機(jī)森林模型預(yù)測(cè)了共享單車站點(diǎn)是否會(huì)在短時(shí)間內(nèi)有單車歸還,但沒(méi)有系統(tǒng)討論單車使用的短期需求等問(wèn)題。
目前國(guó)內(nèi)外對(duì)在短時(shí)間內(nèi)的共享單車需求量預(yù)測(cè)的研究較少。而機(jī)器學(xué)習(xí)由于其預(yù)算速度高效,預(yù)測(cè)精度高且應(yīng)用范圍廣等優(yōu)點(diǎn),已經(jīng)廣泛應(yīng)用于各種算法和計(jì)算機(jī)等交叉學(xué)科。為了避免上述算法的缺陷,本文提出了當(dāng)前最為主流的五種機(jī)器學(xué)習(xí)模型:隨機(jī)森林,極端隨機(jī)樹(shù),人工神經(jīng)網(wǎng)絡(luò),支持向量機(jī)和XGBoost。將這幾種模型分別應(yīng)用于美國(guó)共享單車系統(tǒng),并在bike-sharing數(shù)據(jù)集上對(duì)各學(xué)習(xí)方法進(jìn)行了仿真。通過(guò)性能比較發(fā)現(xiàn),極端隨機(jī)樹(shù)和隨機(jī)森林方法在實(shí)驗(yàn)中效果比較好,可以用來(lái)對(duì)單車短時(shí)需求量進(jìn)行預(yù)測(cè)。
和之前的預(yù)測(cè)方法相比較,本文所使用的需求量預(yù)測(cè)方法的創(chuàng)新之處在于:①上述已做的相關(guān)工作中,對(duì)單車需求量的預(yù)測(cè)主要使用一個(gè)方法,而本文則使用了多個(gè)機(jī)器學(xué)習(xí)方法,實(shí)現(xiàn)對(duì)需求量的預(yù)測(cè),并對(duì)不同方法的預(yù)測(cè)效果以及相關(guān)指標(biāo)進(jìn)行了對(duì)比。②和其它相關(guān)工作相比較,本文將大數(shù)據(jù)機(jī)器學(xué)習(xí)方法引入共享單車行業(yè)的“小時(shí)級(jí)”短期需求預(yù)測(cè),提升行業(yè)對(duì)即時(shí)性需求的預(yù)測(cè)效率,從而輔助企業(yè)的實(shí)時(shí)調(diào)度,提高單車資源的整體利用水平。
SVM是一種有監(jiān)督學(xué)習(xí)模型,通常用來(lái)解決線性和非線性問(wèn)題。本次研究中需構(gòu)建非線性的單車需求量預(yù)測(cè)回歸模型。SVM利用非線性映射算法將影響單車需求量的的低維特征空間非線性轉(zhuǎn)化到另一個(gè)高維空間使其線性可分,從而在高維特征空間采用線性方法對(duì)影響單車需求量樣本的非線性特征進(jìn)行線性分析。在搭建模型的過(guò)程中,采用核函數(shù)RBF來(lái)預(yù)測(cè)每小時(shí)的單車需求量,因?yàn)镽BF核函數(shù)不僅可以處理線性可分和不可分問(wèn)題,且參數(shù)少,構(gòu)建的模型的復(fù)雜度低,預(yù)測(cè)效率高。
神經(jīng)網(wǎng)絡(luò)構(gòu)建網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),通過(guò)確定學(xué)習(xí)規(guī)則、模擬人體神經(jīng)元的工作過(guò)程。其結(jié)構(gòu)由輸入層、隱藏層和輸出層構(gòu)成。本文的網(wǎng)絡(luò)結(jié)構(gòu)為:輸入層由10個(gè)神經(jīng)元組成,代表影響單車需求量的10個(gè)特征變量,隱層設(shè)置為4個(gè)神經(jīng)元,輸出層由1個(gè)神經(jīng)元組成,不同的層次之間具有不同的網(wǎng)絡(luò)權(quán)值,神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)問(wèn)題就是網(wǎng)絡(luò)權(quán)值的調(diào)整問(wèn)題。網(wǎng)絡(luò)權(quán)值確定后,對(duì)于給定的輸入,通過(guò)整個(gè)網(wǎng)絡(luò)的處理,得到最終的輸出結(jié)果。
隨機(jī)森林是利用多棵CART樹(shù)對(duì)訓(xùn)練集樣本進(jìn)行訓(xùn)練,然后對(duì)測(cè)試集樣本進(jìn)行回歸預(yù)測(cè)的模型。它由多個(gè)決策樹(shù)構(gòu)成,且這些決策樹(shù)之間無(wú)關(guān)聯(lián)性。在用隨機(jī)森林模型預(yù)測(cè)共享單車需求量的過(guò)程中,每當(dāng)輸入一個(gè)新的樣本時(shí),隨機(jī)森林中的每一棵決策樹(shù)分別對(duì)這個(gè)樣本進(jìn)行一次回歸預(yù)測(cè),最后將得到的所有的回歸結(jié)果進(jìn)行算術(shù)平均得到的值為最終的模型輸出。
Gourt P等人[9]提出了極端隨機(jī)樹(shù)算法,它是一種集成算法。在用極端隨機(jī)樹(shù)模型預(yù)測(cè)共享單車需求量的過(guò)程中,按照決策樹(shù)里的CART算法來(lái)生成基回歸器,且在形成決策樹(shù)的過(guò)程中隨機(jī)性強(qiáng),每個(gè)基回歸器使用全部的影響單車需求量的特征樣本進(jìn)行訓(xùn)練;這樣重復(fù)迭代K次,生成K顆決策樹(shù),直至生成極端隨機(jī)樹(shù);最后用該極端隨機(jī)樹(shù)對(duì)單車數(shù)據(jù)集的測(cè)試樣本進(jìn)行預(yù)測(cè),得出每小時(shí)的單車需求總量,然后統(tǒng)計(jì)一下所有的基回歸器的預(yù)測(cè)結(jié)果,通過(guò)投票決策的方法來(lái)產(chǎn)生最終的回歸預(yù)測(cè)結(jié)果。
XGBoost算法的基本思想是把多棵預(yù)測(cè)準(zhǔn)確率較低的樹(shù)模型組合起來(lái),構(gòu)建一個(gè)準(zhǔn)確率較高的模型。該模型不斷地迭代提升,每次迭代生成一棵樹(shù)來(lái)擬合上一棵樹(shù)的殘差。最后訓(xùn)練完成得到K棵樹(shù),來(lái)預(yù)測(cè)一個(gè)樣本的分?jǐn)?shù),最后將每棵樹(shù)對(duì)應(yīng)的分?jǐn)?shù)加起來(lái)后就得到了該樣本的預(yù)測(cè)值。
3.1.1 實(shí)驗(yàn)環(huán)境
本次實(shí)驗(yàn)環(huán)境在Windows7系統(tǒng)中使用Anaconda Navigator3(Jupyter notebook),Python3.6為實(shí)驗(yàn)平臺(tái)進(jìn)行仿真。
3.1.2 實(shí)驗(yàn)數(shù)據(jù)說(shuō)明
針對(duì)本次研究選用 UCI(University of California Irvine)的Bike Sharing Dataset 中的每小時(shí)自行車使用量部分。相應(yīng)的,由于自行車騎行情況同天氣有明顯的關(guān)系,所以數(shù)據(jù)中的特征變量主要由相關(guān)氣候指數(shù)組成,比如溫度,濕度,是否下雨,所處季節(jié)等,同時(shí)還包括假日以及周末等特征。該自行車使用數(shù)據(jù)來(lái)自于美國(guó)華盛頓特區(qū)2011到2012年兩年的首都共享單車租用記錄和對(duì)應(yīng)時(shí)間的天氣和季節(jié)信息,該數(shù)據(jù)集包含17370個(gè)樣本點(diǎn)。使用的數(shù)據(jù)字段包括16個(gè)變量,其具體名稱和含義見(jiàn)表1。其中具體的時(shí)間因素影響特征又包括24個(gè)時(shí)段變量、7個(gè)星期變量、是否周末、是否其它法定假日以及工作日等多個(gè)維度。
表1 實(shí)驗(yàn)中使用的UCI數(shù)據(jù)集
3.2.1 氣象因子的影響
自行車是一種受氣象影響顯著的交通工具,圖3所示為2011-2012年華盛頓地區(qū)共享單車租借總量與五種氣象因子的相關(guān)性熱力分布圖。
圖1 氣象因子與共享單車需求量的熱力圖
由圖可得,共享單車需求量與五種氣象因子之間都存在相關(guān)性,溫度、體感溫度與租車人數(shù)成正相關(guān)-寒冷抑制租車需求,其中temp和atemp的意義及其與count的相關(guān)系數(shù)十分接近,均為0.4,因此可以只取temp作為溫度的特征;濕度與租車人數(shù)負(fù)相關(guān)-雨雪天氣抑制租車需求;單車需求量與溫度和濕度的相關(guān)性最高,分別為0.4和-0.32。
3.2.2 時(shí)間因子的影響
1)共享單車使用量受時(shí)間影響,利用2011-2012年美國(guó)華盛頓地區(qū)共享單車項(xiàng)目數(shù)據(jù)進(jìn)行時(shí)序變化規(guī)律分析,結(jié)果如圖2所示。
圖2 日期與共享單車需求量的折線圖
2012年的租借數(shù)明顯比2011年高,說(shuō)明隨著時(shí)間的推移,共享單車逐漸被更多的人熟悉和認(rèn)可,使用者越來(lái)越多。月份對(duì)租借數(shù)影響顯著,從1月份開(kāi)始每月的租借數(shù)快速增加,到6月份達(dá)到頂峰,隨后至10月緩慢降低,10月后急劇減少。這明顯與季節(jié)有關(guān)。
季節(jié)對(duì)租借數(shù)的影響符合預(yù)期:寒冷季節(jié)(1,2,12月),工作日租車人數(shù)高于非工作日,寒冷季節(jié)租車以通勤為主;溫暖、涼爽季節(jié)(5-11月),非工作日租車人數(shù)高于工作日。春季騎車人少,隨著天氣轉(zhuǎn)暖,騎車人逐漸增多,并在秋季(天氣最適宜時(shí))達(dá)到頂峰;隨后進(jìn)入冬季,天氣變冷,騎車人減少。由此得出yr、mnth等時(shí)間因素對(duì)count也存在明顯影響,因?yàn)樵路莺图竟?jié)對(duì)租借數(shù)的影響重合,且月份更加詳細(xì),因此在隨后的建模過(guò)程中可以選取月份特征,刪除季節(jié)特征。
2)圖3進(jìn)一步考察了以每天的不同時(shí)間段為單位,各星期對(duì)租借數(shù)的影響,并繪制折線圖。
圖3 星期與共享單車需求量的折線圖
上圖中的1-6代表周一到周六,0代表周日。從圖中可以看出,周一到周五租車人數(shù)相對(duì)較多,說(shuō)明非周末情況下上班族需要用車,周一到周五,每天有兩個(gè)高峰期,分別是早上8點(diǎn)左右和下午17點(diǎn)左右用車人較多,正好是工作日的上下班高峰期;而介于兩者之間的白天時(shí)間變化規(guī)律不明顯,可能與節(jié)假日有關(guān),因此需要考慮這些法定節(jié)假日的影響;而周六日的整體租車人數(shù)比較少,其中周六日的上午9點(diǎn)到下午5點(diǎn)用車人數(shù)較多。進(jìn)一步體現(xiàn)了時(shí)間段尤其是上下班高峰時(shí)間是影響單車需求的重要因素,也體現(xiàn)了節(jié)假日與周末兩個(gè)日期特征對(duì)需求的影響。
1)特征篩選:通過(guò)以上對(duì)影響因子的分析,在接下來(lái)建模時(shí)要?jiǎng)h除“注冊(cè)用戶數(shù)量”、“未注冊(cè)用戶數(shù)量”、atemp和季節(jié)這四個(gè)對(duì)預(yù)測(cè)結(jié)果影響較小的特征。
2)虛擬變量:通過(guò)pandas庫(kù)中的get_dummies()函數(shù)對(duì)季節(jié),月份和天氣等分類變量創(chuàng)建二進(jìn)制虛擬變量;
3)調(diào)整目標(biāo)變量:為了更輕松地訓(xùn)練模型,需要將溫度、濕度和風(fēng)速等連續(xù)變量標(biāo)準(zhǔn)化,使它們的均值為0,標(biāo)準(zhǔn)差為1;同時(shí)保存換算因子,在后續(xù)進(jìn)行預(yù)測(cè)時(shí)可以還原數(shù)據(jù)。
4)數(shù)據(jù)集劃分:本文將總的樣本集劃分為訓(xùn)練集樣本(2011年1月1日0時(shí)至2012年12月10日17時(shí)樣本) 和測(cè)試集樣本(剩余觀測(cè)值),并對(duì)5種典型的機(jī)器學(xué)習(xí)模型采用5折交叉驗(yàn)證來(lái)設(shè)定。
基于多種機(jī)器學(xué)習(xí)方法實(shí)現(xiàn),以及華盛頓地區(qū)共享單車項(xiàng)目數(shù)據(jù)集,完成該地區(qū)每小時(shí)的單車需求量的預(yù)測(cè)。具體實(shí)驗(yàn)方法如下:①首先,對(duì)原始單車項(xiàng)目數(shù)據(jù)進(jìn)行處理,構(gòu)建復(fù)合要求的數(shù)據(jù)集;②通過(guò)調(diào)用訓(xùn)練集完成對(duì)機(jī)器學(xué)習(xí)模型的訓(xùn)練,使模型不斷提高預(yù)測(cè)能力;③通過(guò)調(diào)用驗(yàn)證集對(duì)訓(xùn)練出來(lái)的模型進(jìn)行驗(yàn)證評(píng)估;④對(duì)預(yù)測(cè)效果進(jìn)行統(tǒng)計(jì)分析,判斷預(yù)測(cè)的精確度,并統(tǒng)計(jì)均方誤差、平均絕對(duì)誤差和R平方得分等各項(xiàng)指標(biāo)來(lái)選出最佳的預(yù)測(cè)模型;⑤調(diào)用測(cè)試集,用最優(yōu)模型對(duì)單車需求量進(jìn)行預(yù)測(cè),并與實(shí)際的騎行人數(shù)進(jìn)行對(duì)比。
3.5.1 實(shí)驗(yàn)結(jié)果說(shuō)明
評(píng)價(jià)回歸模型性能的主要的幾個(gè)指標(biāo)是平均絕對(duì)誤差(MAE)、均方誤差(RMSE)、分?jǐn)?shù)以及CV曲線圖等幾個(gè)指標(biāo),具體定義如下
(1)
(2)
(3)
3.5.2 各模型均方誤差比較結(jié)果
均方誤差是用來(lái)衡量模型預(yù)測(cè)值與真實(shí)值之間的偏差的物理量,當(dāng)有一個(gè)預(yù)測(cè)值和真實(shí)值之間相差特別大時(shí),那么RMSE就會(huì)很大,說(shuō)明該模型的預(yù)測(cè)效果很差。圖4給出了五種方法的均方誤差結(jié)果比較。均方誤差越低,證明該模型的預(yù)測(cè)準(zhǔn)備率越高。
圖4 均方誤差結(jié)果比較
3.5.3 平均絕對(duì)誤差比較結(jié)果
平均絕對(duì)誤差是衡量模型的預(yù)測(cè)值與真實(shí)值之間平均相差多大的物理量,也就是預(yù)測(cè)值的無(wú)偏性。其值越低,就意味著該模型的預(yù)測(cè)效果越好。圖5給出了五種模型的平均絕對(duì)誤差的比較結(jié)果。
圖5 平均絕對(duì)誤差結(jié)果比較
各個(gè)模型在該數(shù)據(jù)集上的均方誤差及平均絕對(duì)誤差比較結(jié)果如圖4和圖5所示??梢缘贸觯瑹o(wú)論是RMSE還是MAE,從訓(xùn)練集的預(yù)測(cè)結(jié)果來(lái)看極端隨機(jī)樹(shù)算法的預(yù)測(cè)精度最高,其單車需求量預(yù)測(cè)結(jié)果的均方誤差和平均絕對(duì)誤差分別僅為36.84和22.93,其次是隨機(jī)森林算法,其單車需求量預(yù)測(cè)結(jié)果的均方誤差和平均絕對(duì)誤差分別為38.29和23.52,其它模型在訓(xùn)練集上的回歸預(yù)測(cè)精度大小依次為人工神經(jīng)網(wǎng)絡(luò)(RMSE=41.12,MAE=27.31)>XGboost(RMSE=55.02,MAE=38.25)>支持向量機(jī)回歸(RMSE=98.11,MAE=59.65)。由此可以得出極端隨機(jī)樹(shù)的預(yù)測(cè)精度最高。
3.5.4 R平方得分比較結(jié)果
R平方得分是通過(guò)數(shù)據(jù)的變化來(lái)表征一個(gè)模型擬合的好壞,通過(guò)該值可以精確地得出每個(gè)模型在該數(shù)據(jù)集上的的預(yù)測(cè)精確度。其值越接近1,表明方程的變量對(duì)y的解釋能力越強(qiáng),這個(gè)模型對(duì)數(shù)據(jù)的擬合效果較好,其值越接近0,表明模型擬合的越差。通過(guò)對(duì)數(shù)據(jù)集進(jìn)行5折交叉驗(yàn)證后的訓(xùn)練集得分和驗(yàn)證集的R得分如圖6和圖7所示。
圖6 訓(xùn)練集上的R得分結(jié)果比較
圖7 驗(yàn)證集上的R得分結(jié)果比較
由上圖可以看出,訓(xùn)練集得分最高的依舊是極端隨機(jī)樹(shù),R得分已經(jīng)達(dá)到了1.00,說(shuō)明在訓(xùn)練集上的預(yù)測(cè)精度相當(dāng)高,完全不存在預(yù)測(cè)誤差,其次是隨機(jī)森林,預(yù)測(cè)精度達(dá)到0.99,僅次于極端隨機(jī)樹(shù)。接著是人工神經(jīng)網(wǎng)絡(luò)(score=0.953)>XGboost(score=0.843),最差的是支持向量機(jī)回歸,得分僅為0.336,預(yù)測(cè)精度極低。從驗(yàn)證集預(yù)測(cè)精度來(lái)看,仍然是極端隨機(jī)樹(shù)得分最高為0.941,其次是人工神經(jīng)網(wǎng)絡(luò),再次是隨進(jìn)森林,得分為0.932,XGboost得分0.837,預(yù)測(cè)誤差大,而支持向量機(jī)回歸對(duì)驗(yàn)證集的預(yù)測(cè)精度極低,僅為0.33,說(shuō)明該模型不適合在該數(shù)據(jù)集上的進(jìn)行預(yù)測(cè)。由此得出極端隨機(jī)樹(shù)的預(yù)測(cè)精度最高。
3.5.5 CV曲線比較結(jié)果
CV學(xué)習(xí)曲線是樣本個(gè)數(shù)和經(jīng)驗(yàn)損失函數(shù)之間的曲線,是監(jiān)督學(xué)習(xí)算法中診斷模型偏差和方差的很好的工具,不僅可以用來(lái)判斷模型是否過(guò)擬合或欠擬合,還可以判斷是否為了提高算法的性能需要收集更多的數(shù)據(jù)。為了驗(yàn)證不同模型在該數(shù)據(jù)集上的擬合能力和預(yù)測(cè)準(zhǔn)確率,將訓(xùn)練數(shù)據(jù)集的大小看成自變量,將模型在訓(xùn)練集上的準(zhǔn)確率和驗(yàn)證集上的準(zhǔn)確率作為因變量來(lái)繪制CV曲線圖如圖8-圖12所示。通過(guò)不同模型的CV曲線圖能夠很直觀地看出模型的擬合問(wèn)題和增加訓(xùn)練數(shù)據(jù)集的大小是否能解決模型的過(guò)擬合問(wèn)題。
由圖8和圖9兩種單一機(jī)器學(xué)習(xí)模型的CV曲線圖可得,支持向量機(jī)模型是高偏差模型,模型在訓(xùn)練集上的準(zhǔn)確率和驗(yàn)證集上的準(zhǔn)確率都很低,在0.4-0.5之間,模型不能很好地?cái)M合數(shù)據(jù);通過(guò)增加訓(xùn)練數(shù)據(jù)集的個(gè)數(shù),支持向量機(jī)模型的準(zhǔn)確率有所提升,但是還是處于嚴(yán)重的高偏差狀態(tài)。和該模型相比,人工神經(jīng)網(wǎng)絡(luò)模型則表現(xiàn)的比較好,隨著訓(xùn)練數(shù)據(jù)集的增加,兩條曲線逐漸收斂,說(shuō)明不存在過(guò)擬合現(xiàn)象;模型在訓(xùn)練集上的準(zhǔn)確率和驗(yàn)證集上的準(zhǔn)確率也得到了大幅度提升,此時(shí)增加訓(xùn)練數(shù)據(jù)集的個(gè)數(shù)能夠改善模型的性能。
圖8 支持向量機(jī)模型學(xué)習(xí)曲線圖
圖9 人工神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)曲線圖
圖10,圖11和圖12所示的3個(gè)圖為典型的集成學(xué)習(xí)模型的CV曲線圖。由圖可得,XGboost模型在訓(xùn)練集和驗(yàn)證集上的準(zhǔn)確率都很低,處于高偏差狀態(tài),且隨著訓(xùn)練數(shù)據(jù)集的增加,效果不但沒(méi)有改善,反而變得更差;隨機(jī)森林模型和極端隨機(jī)樹(shù)模型則表現(xiàn)的比較好,模型在訓(xùn)練集上和驗(yàn)證集上的得分都很高,訓(xùn)練集上的得分分別達(dá)到了0.98和1.00左右,驗(yàn)證集上的得分達(dá)到了0.93和0.94左右,說(shuō)明模型能夠很好地?cái)M合數(shù)據(jù)。隨著樣本的增加,訓(xùn)練集代價(jià)函數(shù)一直都很大,驗(yàn)證集的損失函數(shù)也逐漸增大,具有很小的偏差和方差,誤差逐漸減小。但是,訓(xùn)練準(zhǔn)確率和驗(yàn)證準(zhǔn)確率還是存在較小的差距,說(shuō)明這兩個(gè)模型還是存在輕微的過(guò)擬合。這兩個(gè)模型都很優(yōu),但是相比與隨機(jī)森林模型,極端隨機(jī)樹(shù)模型更優(yōu)。
圖10 隨機(jī)森林模型學(xué)習(xí)曲線圖
圖11 XGboost模型學(xué)習(xí)曲線圖
圖12 極端隨機(jī)樹(shù)模型學(xué)習(xí)曲線圖
3.5.6 預(yù)測(cè)結(jié)果分析
用以上得到的最優(yōu)網(wǎng)絡(luò)模型對(duì)經(jīng)過(guò)預(yù)處理和轉(zhuǎn)換后的測(cè)試集數(shù)據(jù)進(jìn)行預(yù)測(cè),預(yù)測(cè)的結(jié)果和實(shí)際的結(jié)果如圖13所示。從圖中可以得出,極端樹(shù)模型能夠很好地預(yù)測(cè)數(shù)據(jù),除了最后10天,因?yàn)檫@10天是節(jié)假日,自行車需求量和平時(shí)不一樣。預(yù)測(cè)的每小時(shí)使用量曲線和實(shí)際車輛使用量曲線趨勢(shì)相吻合,滿足回歸預(yù)測(cè)過(guò)程中的經(jīng)驗(yàn)誤差要求。因此,極端隨機(jī)樹(shù)預(yù)測(cè)模型在共享單車短期需求預(yù)測(cè)中是可行的。
圖13 預(yù)測(cè)結(jié)果與真實(shí)結(jié)果對(duì)比曲線
本文把幾種典型的機(jī)器學(xué)習(xí)方法應(yīng)用在美國(guó)共享單車數(shù)據(jù)集上實(shí)現(xiàn)單車的短時(shí)需求量預(yù)測(cè),并通過(guò)仿真比較了各個(gè)模型的性能。仿真的結(jié)果為:極端隨機(jī)樹(shù)方法在所選城市的數(shù)據(jù)集上的具有很高的預(yù)測(cè)精度,其次是隨機(jī)森林和人工神經(jīng)網(wǎng)絡(luò),都具有較好的回歸預(yù)測(cè)能力。不僅具有很好的泛化能力,切擬合效果好。相比而言,XGboost模型預(yù)測(cè)效果偏差,支持向量回歸機(jī)最不適合應(yīng)用在該數(shù)據(jù)集上,預(yù)測(cè)精度低,擬合效果差。因此極端隨機(jī)樹(shù)適合于城市共享單車短時(shí)需求量預(yù)測(cè)系統(tǒng),可以用來(lái)對(duì)單車短時(shí)需求量進(jìn)行預(yù)測(cè)。