• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      高速列車晚點(diǎn)預(yù)測的機(jī)器學(xué)習(xí)模型

      2021-01-19 14:28:20胡瑞文超張夢穎徐傳玲
      中國鐵路 2020年11期
      關(guān)鍵詞:晚點(diǎn)列車運(yùn)行列車

      胡瑞,文超,3,張夢穎,徐傳玲

      (1.西南交通大學(xué)綜合交通運(yùn)輸國家地方聯(lián)合工程實(shí)驗(yàn)室,四川成都610031;2.西南交通大學(xué)綜合交通大數(shù)據(jù)應(yīng)用技術(shù)國家工程實(shí)驗(yàn)室,四川成都610031;3.滑鐵盧大學(xué)鐵路研究中心,安大略滑鐵盧N2L 3G1)

      0 引言

      智能高鐵將云計(jì)算、大數(shù)據(jù)、北斗定位、下一代移動(dòng)通信、人工智能等先進(jìn)技術(shù),通過新一代信息技術(shù)與高速鐵路技術(shù)的集成,全面感知、融合處理、主動(dòng)學(xué)習(xí)和科學(xué)決策,實(shí)現(xiàn)高鐵的智能建造、智能裝備和智能運(yùn)營。智能調(diào)度理論是高速鐵路智能運(yùn)營的核心基礎(chǔ)理論,“列車晚點(diǎn)傳播問題”和“軌道交通調(diào)度指揮智能化及風(fēng)險(xiǎn)預(yù)警”入選由教育部、科技部、中國科學(xué)院、國家自然科學(xué)基金委員會(huì)等聯(lián)合發(fā)起的《10 000個(gè)科學(xué)難題交通運(yùn)輸科學(xué)卷》[1],說明運(yùn)營調(diào)度智能化理論是軌道交通運(yùn)輸組織優(yōu)化亟待解決的難題。

      得益于大數(shù)據(jù)技術(shù)的發(fā)展,機(jī)器學(xué)習(xí)方法已經(jīng)在諸多領(lǐng)域的理論研究和運(yùn)營實(shí)踐中凸顯了優(yōu)勢[2]。在數(shù)據(jù)充足的條件下,機(jī)器學(xué)習(xí)模型可以研究列車間更為復(fù)雜的作用過程,更深入地解析晚點(diǎn)傳播及恢復(fù)過程[3]。文超等[4]認(rèn)為傳統(tǒng)數(shù)學(xué)模型不能有效處理列車運(yùn)行產(chǎn)生的巨復(fù)雜數(shù)據(jù),而機(jī)器學(xué)習(xí)相關(guān)模型適用于處理數(shù)據(jù)驅(qū)動(dòng)的智能鐵路運(yùn)營分析。Lulli等[5]以描述大型鐵路路網(wǎng)的態(tài)勢為目標(biāo),混合傳統(tǒng)分析和數(shù)據(jù)驅(qū)動(dòng)模型的描述方法,構(gòu)建了一個(gè)動(dòng)態(tài)鐵路多源數(shù)據(jù)分析系統(tǒng)。孫略添等[6]運(yùn)用灰色模型對技術(shù)站列車晚點(diǎn)進(jìn)行預(yù)測,再綜合運(yùn)用馬爾可夫和改進(jìn)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行修正和預(yù)測,最后將2種方法進(jìn)行了對比,顯示神經(jīng)網(wǎng)絡(luò)模型在大規(guī)模數(shù)據(jù)集情形下預(yù)測精度更高。Huang等[7]提出一種基于SVR算法和KF算法的混合模型用于預(yù)測列車運(yùn)行時(shí)間,該混合模型結(jié)合了2種算法的特點(diǎn),做到了更短計(jì)算時(shí)間下的高準(zhǔn)確率預(yù)測。解熙等[8]建立以6個(gè)絕對指標(biāo)和5個(gè)相對指標(biāo)的列車晚點(diǎn)事件統(tǒng)計(jì)體系,對傳統(tǒng)城市軌道交通晚點(diǎn)評價(jià)進(jìn)行了完善。

      目前,相關(guān)研究對鐵路運(yùn)行數(shù)據(jù)的處理尚不夠精細(xì),沒有充分結(jié)合高速列車調(diào)度實(shí)際與機(jī)器學(xué)習(xí)模型運(yùn)算特點(diǎn),因此優(yōu)先運(yùn)用相關(guān)模型對列車數(shù)據(jù)進(jìn)行分析,對列車數(shù)據(jù)進(jìn)行篩選,可使其在機(jī)器學(xué)習(xí)模型預(yù)測中發(fā)揮更有效的作用。

      1 晚點(diǎn)數(shù)據(jù)統(tǒng)計(jì)分析

      1.1 數(shù)據(jù)描述

      數(shù)據(jù)來源于中國鐵路廣州局集團(tuán)有限公司管轄的廣深高鐵,時(shí)間跨度為2015年6—12月,共計(jì)10萬余條。廣深高速鐵路全長113 km,鐵路下行方向分別是廣州南、慶盛、虎門、光明城、深圳北、福田共6個(gè)車站。列車運(yùn)行數(shù)據(jù)包含高速列車的計(jì)劃運(yùn)行圖和實(shí)際運(yùn)行圖,具體為列車車次、到達(dá)車站、實(shí)際到達(dá)時(shí)間、實(shí)際出發(fā)時(shí)間、圖定到達(dá)時(shí)間、圖定出發(fā)時(shí)間和經(jīng)停股道等。使用的數(shù)據(jù)經(jīng)過預(yù)處理和清洗,具體處理對象有數(shù)據(jù)記錄為空值、數(shù)據(jù)記錄錯(cuò)誤、數(shù)據(jù)存在極端異常值等,經(jīng)過清洗后的數(shù)據(jù)各參數(shù)間不存在數(shù)量級差異。

      1.2 列車晚點(diǎn)描述性統(tǒng)計(jì)

      要詳細(xì)了解列車運(yùn)行數(shù)據(jù)的特征和規(guī)律,對列車運(yùn)行數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì)是必要的手段。列車晚點(diǎn)時(shí)間作為度量列車運(yùn)行情況的重要指標(biāo)也是預(yù)測的目標(biāo),有必要對其進(jìn)行詳細(xì)分析和挖掘,為下一步建模預(yù)測晚點(diǎn)時(shí)間做準(zhǔn)備。箱線圖是一種常見的數(shù)據(jù)描述方法,常用于表示數(shù)據(jù)量較大且分布跨度較大的數(shù)據(jù)集,將一組數(shù)據(jù)按照由大至小的順序排列,不被納入箱中的數(shù)據(jù)作為數(shù)據(jù)分布的異常值,上邊緣為最大值,然后是上四分位數(shù)值、中間值、下四分位數(shù)和下邊緣。在實(shí)際調(diào)度過程中,只有終到時(shí)間大于圖定終到時(shí)間4 min的列車才統(tǒng)計(jì)為晚點(diǎn)列車,廣深高鐵各站到達(dá)晚點(diǎn)時(shí)間箱線見圖1,其中廣州南站晚點(diǎn)時(shí)間為始發(fā)站出發(fā)晚點(diǎn)時(shí)間,其余各站為到達(dá)晚點(diǎn)時(shí)間。

      圖1 各站晚點(diǎn)時(shí)間箱線

      由圖1可知,廣州南站出發(fā)晚點(diǎn)列車數(shù)為784列,平均晚點(diǎn)時(shí)間為14.96 min;慶盛站晚點(diǎn)列車數(shù)1 070列,平均晚點(diǎn)時(shí)間10.15 min;虎門站晚點(diǎn)列車數(shù)604列,平均晚點(diǎn)時(shí)間11.20 min;光明城站晚點(diǎn)列車數(shù)1 259列,平均晚點(diǎn)時(shí)間12.95 min;深圳北站晚點(diǎn)列車數(shù)237列,平均晚點(diǎn)時(shí)間17.68 min。各站晚點(diǎn)數(shù)據(jù)描述性統(tǒng)計(jì)見表1。結(jié)合圖1和表1可知,各站的晚點(diǎn)時(shí)間均值都大于第二分位數(shù),這表明各站的晚點(diǎn)時(shí)間分布很不均勻,這也是圖1中各站箱線圖繪制的都更接近底部的原因,部分嚴(yán)重晚點(diǎn)列車?yán)吡似骄睃c(diǎn)時(shí)間。圖1中各站箱線圖上方異常值較多則說明數(shù)據(jù)呈現(xiàn)明顯的右偏態(tài)勢。晚點(diǎn)偏度系數(shù)指標(biāo)也證實(shí)了廣深線所有車站的晚點(diǎn)數(shù)據(jù)分布呈現(xiàn)右偏,廣州南站和深圳北站晚點(diǎn)偏度系數(shù)較低,分別為2.16和1.82,而中間站的晚點(diǎn)偏度系數(shù)均較高。

      對列車相關(guān)數(shù)據(jù)進(jìn)行進(jìn)一步分析可知,在始發(fā)站廣州南站的始發(fā)列車晚點(diǎn)數(shù)雖不多,但晚點(diǎn)時(shí)間偏高,隨著列車在廣州南—慶盛區(qū)間運(yùn)行,產(chǎn)生了更多的晚點(diǎn)列車,但是晚點(diǎn)時(shí)間得到了部分恢復(fù),其中慶盛站—虎門區(qū)間恢復(fù)了大量晚點(diǎn)時(shí)間較短的列車。這是因?yàn)榱熊囋趨^(qū)間運(yùn)行中可有效吸收5 min左右的晚點(diǎn)時(shí)間,但對于始發(fā)晚點(diǎn)時(shí)間大于10 min的列車,往往并不能有效恢復(fù)晚點(diǎn),甚至?xí)a(chǎn)生增晚的情況,導(dǎo)致始發(fā)晚點(diǎn)事件本就嚴(yán)重的列車在終到站依舊晚點(diǎn)。從晚點(diǎn)方差指標(biāo)可以看出全線晚點(diǎn)列車分布都不均勻,列車晚點(diǎn)時(shí)間跨度都較大,其中始發(fā)站廣州南站的始發(fā)晚點(diǎn)方差達(dá)到了252.11,深圳北站的終到晚點(diǎn)時(shí)間方差是236.19,始發(fā)和終到站的晚點(diǎn)時(shí)間分布跨度最大。各站的晚點(diǎn)時(shí)間峰度指標(biāo)均大于3,表示廣深線的晚點(diǎn)數(shù)據(jù)分布非常陡。

      表1 各站晚點(diǎn)數(shù)據(jù)描述性統(tǒng)計(jì)

      2 晚點(diǎn)特征分析及數(shù)據(jù)降維

      結(jié)合預(yù)處理后的數(shù)據(jù)計(jì)算各列車在各站的到達(dá)晚點(diǎn)時(shí)間、出發(fā)晚點(diǎn)時(shí)間、停站時(shí)間、實(shí)際區(qū)間運(yùn)行時(shí)間、圖定區(qū)間運(yùn)行時(shí)間、列車接續(xù)時(shí)間、車站冗余時(shí)間、區(qū)間冗余時(shí)間共8個(gè)列車運(yùn)行參數(shù)。由于列車運(yùn)行參數(shù)較多且其數(shù)據(jù)量較大,有必要對參數(shù)進(jìn)行定量的相關(guān)性分析和數(shù)據(jù)降維處理。

      2.1 晚點(diǎn)影響因素定量分析

      對于多個(gè)特征系數(shù)常用皮爾遜相關(guān)系數(shù)(Pearson)去度量特征系數(shù)間的聯(lián)系強(qiáng)度,該系數(shù)計(jì)算公式和應(yīng)用可參考文獻(xiàn)[9]?,F(xiàn)令X1為到達(dá)晚點(diǎn)時(shí)間,X2為出發(fā)晚點(diǎn)時(shí)間,X3為停站時(shí)間,X4為實(shí)際區(qū)間運(yùn)行時(shí)間,X5為圖定區(qū)間運(yùn)行時(shí)間,X6為列車接續(xù)時(shí)間,X7為車站冗余時(shí)間,X8為區(qū)間冗余時(shí)間,Z為目標(biāo)值,即下一車站列車到達(dá)晚點(diǎn)時(shí)間。經(jīng)過計(jì)算得到各特征系數(shù)之間與目標(biāo)值之間的Pearson(見表2)。從表2可知,X1、X2、X3、X4、X7共5個(gè)列車運(yùn)行參數(shù)與目標(biāo)值的Pearson為正,表明其與列車到下一車站的晚點(diǎn)時(shí)間呈現(xiàn)正相關(guān)性,其余特征系數(shù)值X5、X6、X8的Pearson為負(fù),表明其與列車到下一車站的晚點(diǎn)時(shí)間呈現(xiàn)負(fù)相關(guān)性。

      表2 列車運(yùn)行參數(shù)Pearson

      2.2 晚點(diǎn)影響因素?cái)?shù)據(jù)降維

      Lasso模型是一種常見的回歸方法,通過壓縮估計(jì)構(gòu)建懲罰函數(shù),計(jì)算出一個(gè)更簡潔的模型。模型的相關(guān)公式和應(yīng)用可參考文獻(xiàn)[10]。λ取值為5,經(jīng)過計(jì)算得到相關(guān)系數(shù)非零的數(shù)量為5個(gè),各參數(shù)相關(guān)系數(shù)分別為0.298 85、0.601 71、0、0.200 85、-0.426 10、0、0、-0.356 77。將Lasso模型計(jì)算的參數(shù)系數(shù)與Pearson的結(jié)果進(jìn)行結(jié)合,得到晚點(diǎn)特征評估表(見表3)。

      表3 晚點(diǎn)特征評估

      由 表3可 知,X1、X2、X4、X5、X8這5個(gè) 參 數(shù) 在Lasso系數(shù)評估中都是不可縮減的一部分,再綜合考慮Pearson相關(guān)系數(shù)和列車運(yùn)行實(shí)際情況,停站時(shí)間也是預(yù)測列車在下一車站晚點(diǎn)時(shí)間的重要因素,而列車接續(xù)時(shí)間和車站冗余時(shí)間不會(huì)因列車晚點(diǎn)而產(chǎn)生時(shí)間值上的變化,只是將事件發(fā)生的時(shí)間點(diǎn)在時(shí)間的水平坐標(biāo)上平移,因此添加X3停站時(shí)間也作為預(yù)測晚點(diǎn)時(shí)間的參數(shù)。綜上,共有6個(gè)參數(shù)被用于預(yù)測模型建立。

      3 基于梯度提升決策樹的晚點(diǎn)預(yù)測

      機(jī)器晚點(diǎn)預(yù)測是鐵路運(yùn)營智能化的功能之一,既可一定程度上減輕調(diào)度員的工作壓力,也可為調(diào)度行車指揮命令提供參考,選擇梯度提升決策樹模型進(jìn)行預(yù)測。

      3.1 模型介紹

      GBDT算法是一種集成算法,廣泛應(yīng)用于工業(yè)界、金融界和各類數(shù)學(xué)競賽中[11],由Gradient Boosting算法和Decision Tree算法2部分組成,將2者綜合即為梯度提升決策樹,該集成算法以殘差下降為優(yōu)化方向,不停地將上一個(gè)優(yōu)化的輸出作為下一次優(yōu)化的輸入,從而以期達(dá)到最優(yōu)值。該模型算法在回歸分析中的表現(xiàn)非常出色,是目前使用度高且具有良好泛化能力的算法。模型具體步驟如下:

      (1)假設(shè)有訓(xùn)練集數(shù)據(jù)。(xm,ym)為一組數(shù)據(jù),則訓(xùn)練集數(shù)據(jù)為:

      (2)確定生成數(shù)個(gè)數(shù)(迭代數(shù))為N,損失函數(shù)為L(y,f(x)),yi為真實(shí)值,c為對應(yīng)預(yù)測值,則設(shè)置初始化弱回歸器為:

      (3)對迭代次數(shù)n=1,2,3,…,N,設(shè)置負(fù)梯度為:

      運(yùn)用上式計(jì)算回歸樹,得到第n顆回歸樹。其葉子節(jié)點(diǎn)域?yàn)镽ns,s=1,2,3,???,S,S為回歸樹N的葉子節(jié)點(diǎn)個(gè)數(shù),計(jì)算S的最優(yōu)擬合值為:

      得到S的最優(yōu)解后,從而更新回歸器:

      (4)得到最終學(xué)習(xí)器為:

      擬解決的是回歸問題,利用負(fù)梯度擬合殘差可實(shí)現(xiàn)回歸功能[12]。

      3.2 晚點(diǎn)預(yù)測實(shí)驗(yàn)及結(jié)果分析

      要運(yùn)用GBDT模型進(jìn)行晚點(diǎn)時(shí)間預(yù)測,還需要對相關(guān)重要參數(shù)的取值進(jìn)行研究,將數(shù)據(jù)集劃分為訓(xùn)練集和測試集,選取總數(shù)據(jù)量的20%作為測試集,訓(xùn)練集數(shù)據(jù)進(jìn)行參數(shù)訓(xùn)練?,F(xiàn)選取了一些主要參數(shù)包括nums學(xué)習(xí)器的數(shù)量、max_features最大特征數(shù)、subsample采樣比例、max_depth樹的最大深度。

      nums是學(xué)習(xí)器的數(shù)量,即初始學(xué)習(xí)器的迭代次數(shù),通常取值過小易導(dǎo)致欠擬合,取值過大易導(dǎo)致過擬合,在此默認(rèn)取值100。nums參數(shù)訓(xùn)練結(jié)果見圖2,nums參數(shù)隨著取值增加訓(xùn)練集分?jǐn)?shù)快速提升,該參數(shù)取值100。

      圖2 nums參數(shù)訓(xùn)練結(jié)果

      max_features是最大特征數(shù),劃分子節(jié)點(diǎn)時(shí)需考慮的值。max_features參數(shù)訓(xùn)練結(jié)果見圖3,max_features參數(shù)隨著取值增加測試集分?jǐn)?shù)波動(dòng)巨大,當(dāng)取值大于0.8后較穩(wěn)定,因此該參數(shù)取值1。

      圖3 max_features參數(shù)訓(xùn)練結(jié)果

      subsample是采樣比例,即在多少數(shù)據(jù)集上運(yùn)用決策樹去提升梯度,該值默認(rèn)比例為100%。subsample參數(shù)訓(xùn)練結(jié)果見圖4,subsample參數(shù)隨著取值增加,模型測試集分?jǐn)?shù)波動(dòng)較大,參數(shù)取值超過0.6后準(zhǔn)確度達(dá)到了平穩(wěn)且優(yōu)異的狀態(tài),因此該參數(shù)值為1。

      圖4 subsample參數(shù)訓(xùn)練結(jié)果

      max_depth是樹的最大深度,決定決策樹生出子樹的深度。max_depth參數(shù)訓(xùn)練結(jié)果見圖5,max_depth參數(shù)隨著取值增加測試集分?jǐn)?shù)快速提升,取值10以后準(zhǔn)確度非常平穩(wěn),因此該參數(shù)取值17。

      圖5 max_depth參數(shù)訓(xùn)練圖

      在確定了主要參數(shù)取值后,運(yùn)用GBDT模型預(yù)測各列車在下一車站的晚點(diǎn)時(shí)間,用R2值和平均絕對誤差MAE評價(jià)回歸模型,R2值著重評價(jià)晚點(diǎn)時(shí)間預(yù)測準(zhǔn)確度,MAE著重評價(jià)對各車次晚點(diǎn)時(shí)間預(yù)測的誤差。

      結(jié)果顯示預(yù)測準(zhǔn)確率較高,晚點(diǎn)列車訓(xùn)練集數(shù)據(jù)的R2值為0.97,測試集R2值為0.89;晚點(diǎn)列車訓(xùn)練集數(shù)據(jù)MAE為0.09 min,測試集MAE為0.32 min。同時(shí),設(shè)置以機(jī)器學(xué)習(xí)的近鄰算法模型(KNN)為預(yù)測方法的對照組,鄰近樣本個(gè)數(shù)設(shè)置為5,葉子節(jié)點(diǎn)數(shù)量設(shè)置為30,則對照組晚點(diǎn)列車測試集數(shù)據(jù)的R2值為0.76,MAE為0.84 min。因此,基于GBDT模型的高速列車晚點(diǎn)時(shí)間預(yù)測的效果是非常優(yōu)秀的??紤]到測試集數(shù)據(jù)量較大,因此僅顯示測試集部分列車的預(yù)測情況,晚點(diǎn)時(shí)間預(yù)測效果見圖6。

      圖6 GBDT模型部分預(yù)測結(jié)果對比

      繪制圖6時(shí),先繪制表示實(shí)際晚點(diǎn)時(shí)間的藍(lán)色折線,當(dāng)預(yù)測完全一致時(shí),表示預(yù)測晚點(diǎn)時(shí)間黃色折線將覆蓋藍(lán)色折線。結(jié)合模型指標(biāo)與圖6可知,該模型預(yù)測結(jié)果貼近實(shí)際,其預(yù)測準(zhǔn)確度很高,可以為列車晚點(diǎn)預(yù)測提供一定輔助作用。

      4 結(jié)束語

      基于高速列車運(yùn)行實(shí)績,通過充分挖掘和分析列車運(yùn)行數(shù)據(jù),運(yùn)用皮爾遜相關(guān)系數(shù)分析數(shù)據(jù)的相關(guān)性,運(yùn)用Lasso模型實(shí)現(xiàn)數(shù)據(jù)降維,并進(jìn)而建立高速列車晚點(diǎn)預(yù)測的GBDT機(jī)器學(xué)習(xí)模型,模型測試結(jié)果表明所建立模型能夠很好地預(yù)測高速列車晚點(diǎn)。準(zhǔn)確預(yù)測高速列車的晚點(diǎn)時(shí)間,能夠降低調(diào)度工作負(fù)荷、提高調(diào)度決策的質(zhì)量,是高速鐵路實(shí)現(xiàn)智能調(diào)度的重要環(huán)節(jié)。智能運(yùn)營是智能高鐵的核心價(jià)值體現(xiàn),是智能高鐵研究和實(shí)踐必須攻克的難題,其中高速列車晚點(diǎn)預(yù)測及列車運(yùn)行調(diào)整的高鐵調(diào)度是重要內(nèi)容,利用機(jī)器學(xué)習(xí)方法預(yù)測高速列車的晚點(diǎn),將能夠?yàn)楦哞F調(diào)度智能化提供理論支撐,相關(guān)預(yù)測模型可作為高鐵智能調(diào)度決策系統(tǒng)的相應(yīng)模塊,助力高鐵智能調(diào)度系統(tǒng)開發(fā)。

      猜你喜歡
      晚點(diǎn)列車運(yùn)行列車
      基于馬爾科夫鏈的高鐵列車連帶晚點(diǎn)橫向傳播
      晚點(diǎn)的火車(外三首)
      金沙江文藝(2022年4期)2022-04-26 14:14:22
      登上末日列車
      關(guān)愛向列車下延伸
      改善地鐵列車運(yùn)行舒適度方案探討
      穿越時(shí)空的列車
      高速鐵路初始晚點(diǎn)致因-影響列車數(shù)分布模型
      列車運(yùn)行控制系統(tǒng)技術(shù)發(fā)展趨勢分析
      相同徑路的高速列車運(yùn)行圖編制方法
      西去的列車
      中國火炬(2014年11期)2014-07-25 10:32:08
      嫩江县| 安溪县| 车险| 九江县| 西吉县| 兰州市| 麦盖提县| 武功县| 竹溪县| 慈利县| 饶河县| 温泉县| 天峨县| 舒城县| 威远县| 乐东| 乳源| 石家庄市| 嘉鱼县| 阜阳市| 望都县| 横峰县| 铅山县| 嵊泗县| 偃师市| 民勤县| 博湖县| 中西区| 仙桃市| 会东县| 开封县| 高台县| 通化市| 潼关县| 黑水县| 平原县| 曲靖市| 丹棱县| 兰溪市| 梧州市| 延安市|