• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于隨機森林算法的港口集裝箱吞吐量預(yù)測方法

      2022-03-01 12:03:30謝新連王余寬許小衛(wèi)
      關(guān)鍵詞:吞吐量決策樹集裝箱

      謝新連,王余寬,2,許小衛(wèi),馬 昊

      (1. 大連海事大學(xué) 交通運輸工程學(xué)院,遼寧 大連 116026; 2. 武漢理工大學(xué) 航運學(xué)院,湖北 武漢 430063)

      0 引 言

      港口作為海運網(wǎng)絡(luò)的重要節(jié)點,它的發(fā)展與所在區(qū)域向海經(jīng)濟發(fā)展互為支撐。港口集裝箱吞吐量是港口管理部門制定港口發(fā)展規(guī)劃的主要依據(jù)之一,如何更加準(zhǔn)確地預(yù)測集裝箱吞吐量一直是學(xué)術(shù)界和工程界的研究熱點。

      總結(jié)已有的研究文獻,港口集裝箱吞吐量預(yù)測方法主要包括以下幾種:指數(shù)平滑法[1]、多元回歸分析法[2]、灰色預(yù)測法[3]、神經(jīng)網(wǎng)絡(luò)預(yù)測法[4-7]、組合預(yù)測法[8-9]等,各個模型具有以下特點:指數(shù)平滑法是對單一變量進行建模分析,難以計算特征變量的影響,對波動幅度大的數(shù)據(jù)適應(yīng)性也較差;多元回歸分析考慮特征變量對集裝箱吞吐量的影響,但無法避免特征變量間的共線性效應(yīng);灰色模型雖然所需的參數(shù)較少,但其快速遞增和衰減的特性導(dǎo)致只適用于短期預(yù)測;神經(jīng)網(wǎng)絡(luò)對離散、非線性數(shù)據(jù)有較好的應(yīng)用效果,但對訓(xùn)練樣本容量需求較大,而且容易陷入局部最優(yōu);組合預(yù)測在計算權(quán)重值大小時,精度很難保證。綜上分析,可見已有的方法的局限性限制了港口集裝箱吞吐量預(yù)測精度,因此提出對集裝箱吞吐量預(yù)測方法的研究是十分必要的。

      隨機森林算法(random forest algorithm,RFA)是一種基于決策樹理論的機器學(xué)習(xí)算法,能夠評估所有特征變量的重要性,同時避免線性分析所面臨的多元共線性的問題,L. BREIMAN[10]描述了隨機森林算法進行多維變量重要性排序以及決策樹構(gòu)建等技術(shù)。隨機森林算法的優(yōu)勢在于集成了多棵決策樹,可以處理數(shù)以千計的特征變量,實驗顯示該算法計算速度較快,準(zhǔn)確率較高。目前隨機森林算法在短時交通流預(yù)測[11]、熱軋帶鋼質(zhì)量預(yù)測[12]、太陽能輻照度預(yù)測[13]等方面已被應(yīng)用。

      筆者將RFA應(yīng)用于港口集裝箱吞吐量的預(yù)測,并將RFA與多元回歸分析、三次指數(shù)平滑和BP神經(jīng)網(wǎng)絡(luò)的預(yù)測結(jié)果比較,結(jié)果表明:基于RFA的預(yù)測方法預(yù)測準(zhǔn)確性更高。

      1 隨機森林算法

      RFA通過組合個體決策樹,并基于投票機制進行決策,包含分類和回歸兩種模型,其中分類模型基于決策樹預(yù)測值的多數(shù)票進行決策,回歸基于決策結(jié)果的平均值進行決策。 在訓(xùn)練階段,從初始樣本集合中進行bootsrap抽樣(隨機且有放回地抽取), 并對每個bootsrap樣本建一棵決策樹,每棵樹即為一個弱分類器,通過建立多個弱分類器對高維數(shù)據(jù)間的內(nèi)在聯(lián)系進行分析,然后將多個弱分類器組合, 通過投票機制得出決策結(jié)果,進而構(gòu)成一個強分類器,一個包含K棵決策樹的RFA決策模型結(jié)構(gòu)如圖1。

      RFA的特點是:每棵決策樹分割節(jié)點的數(shù)量是從樣本集特征數(shù)量中隨機選擇出來,然后通過定量分析對該節(jié)點數(shù)量所產(chǎn)生效果進行評估,以決定該棵決策樹的分割節(jié)點數(shù)量。為所有決策樹隨機提供分割節(jié)點數(shù)量,這種隨機性使得由眾多決策樹結(jié)合起來得到的集合決策樹擁有更好的預(yù)測性能。

      圖1 RFA決策樹構(gòu)建示意Fig. 1 Schematic diagram of decision tree construction of random forest algorithm (RFA)

      2 集裝箱吞吐量預(yù)測模型

      2.1 隨機森林結(jié)構(gòu)

      RFA預(yù)測模型參數(shù)包含決策樹數(shù)量和節(jié)點變量個數(shù)。決策樹數(shù)量決定預(yù)測模型的泛化能力,節(jié)點變量個數(shù)為單棵決策樹的分裂節(jié)點數(shù)量,影響決策精確度。一般而言,泛化誤差是在使用bootstrap抽樣法抽樣時,樣本未被抽中導(dǎo)致的,假設(shè)樣本數(shù)量為N,則樣本被抽中的概率為[1-(1-1/N)N],當(dāng)N趨向于無窮時,[1-(1-1/N)N]收斂于0.632,即在總樣本集中存在36.8%的樣本未被抽中,這部分樣本稱為袋外(out-of-bag,OOB)樣本,利用OOB樣本計算模型的泛化誤差稱為OOB估計。OOB估計步驟為:

      1)將各個訓(xùn)練集分別作為OOB樣本,計算RFA決策樹各弱分類器的決策結(jié)果。

      2)以投票模式選舉得到各個OOB樣本的最終決策結(jié)果。

      3) 計算每一棵決策樹的OOB估計結(jié)果,即每一棵樹樣本分類錯誤數(shù)量與樣本總數(shù)的比率。模型的泛化誤差計算式為:

      (1)

      式中:EK為包含K棵決策樹的RFA模型的泛化誤差;ε[yn,Ck(xn)]為對第n個訓(xùn)練樣本的OOB估計誤差進行計算;xn為第n個訓(xùn)練樣本;yn為第n個訓(xùn)練樣本的分類結(jié)果;Ck(xn)為K棵決策樹對xn的決策結(jié)果。

      對于組成RFA模型的每棵決策樹,均可計算得到一個OOB估計誤差,進而通過式(1)計算得到模型的泛化誤差EK。計算不同決策樹數(shù)量時模型的泛化誤差,當(dāng)泛化誤差最小時即獲得最優(yōu)決策樹數(shù)量。而節(jié)點變量個數(shù)的最優(yōu)值一般為特征變量數(shù)量的1/3,實例數(shù)據(jù)中特征變量為17個,則需要分別計算并比較節(jié)點變量個數(shù)為5和6時的模型決策誤差,選取決策誤差較小時對應(yīng)的值為RFA模型的節(jié)點變量個數(shù)。

      2.2 變量重要性分析

      為了提高RFA的預(yù)測精度,需要確定影響港口集裝箱吞吐量相關(guān)變量,并計算其影響程度。(mean decrease in accuracy, MDA)是用來衡量變量重要性的參量,MDA基于OOB估計來計算,其值直接表示該變量對模型預(yù)測準(zhǔn)確度的降低程度,值越大表示該變量對港口集裝箱吞吐量的影響越大。用Mv表示第v個變量的MDA值,其計算公式為:

      (2)

      式中:t為RFA模型的決策樹數(shù)量;en為第n個樣本的OOB估計誤差。

      對所有變量進行多次重要性分析,求其分值平均值并排序,從樣本集所有特征變量中排除冗余特征變量,并對分值計算結(jié)果結(jié)合實際分析,篩選出V個對集裝箱吞吐量影響程度較大的特征變量,組成預(yù)測模型的變量集合。

      2.3 決策模型

      基于篩選出的具有重要影響的特征變量樣本集,運用bootstrap方法隨機抽得b個樣本,然后從所有特征變量中隨機選取v′個變量,即得到一個樣本集。重復(fù)以上操作A次,則得到由A個獨立樣本集形成的總樣本集。對各樣本集構(gòu)建決策樹模型,得到包含K棵決策樹的隨機森林。最后通過每棵樹投票形式尋找得分最高結(jié)果作為預(yù)測的結(jié)果。最終獲得的RFA模型為:

      (3)

      2.4 評價指標(biāo)選取

      為驗證隨機森林算法對集裝箱吞吐量的預(yù)測效果,采用相對誤差Er(relative error)、平均絕對百分比誤差EMAP(mean absolute percentage error)、均方誤差EMS(mean square error)、和均方根誤差ERMS(root mean square error)4個指標(biāo)來檢驗?zāi)P偷念A(yù)測精度。ER用來評價預(yù)測方法中每一個測試樣本的預(yù)測效果,EMAP、EMS及ERMS作為模型整體預(yù)測效果的誤差檢驗方法,4個指標(biāo)計算如式(4)~式(7):

      (4)

      (5)

      (6)

      (7)

      式中:ER,n為第n個樣本的相對誤差;xn,r和xn,p分別為第n個測試樣本的真實值和模型預(yù)測值;N為測試樣本數(shù)量。

      3 應(yīng)用實例

      3.1 變量獲取

      從中國交通運輸統(tǒng)計網(wǎng)、《大連市統(tǒng)計年鑒》、《遼寧統(tǒng)計年鑒》和《中國統(tǒng)計年鑒》中獲取所需數(shù)據(jù),時間域為2000年—2019年,其中2000年—2014年數(shù)據(jù)作為預(yù)測模型的訓(xùn)練樣本集,2015年—2019年的數(shù)據(jù)為驗證樣本。

      影響集裝箱吞吐量預(yù)測的環(huán)境因素較多,表1統(tǒng)計了港口集裝箱吞吐量數(shù)據(jù)和可能對集裝箱吞吐量產(chǎn)生影響的17個特征變量,包括區(qū)域生產(chǎn)總值、周邊港口集裝箱吞吐量、東三省對外貿(mào)易量等,實驗選取18個變量的所有數(shù)據(jù)構(gòu)成預(yù)測模型的總樣本集。

      表1 模型變量Table 1 The model variables

      3.2 模型參數(shù)優(yōu)選

      一般而言,節(jié)點變量個數(shù)為特征變量個數(shù)的1/3,本例中通過實驗得到節(jié)點變量個數(shù)為6時,RFA預(yù)測誤差最小。圖2給出了不同的決策樹數(shù)量所導(dǎo)致的模型誤差,當(dāng)決策樹數(shù)量為500時模型誤差達到最低點,因此,選擇決策樹數(shù)量為500。

      圖2 模型決策樹誤差Fig. 2 Model decision tree error

      3.3 變量重要性分析及特征優(yōu)選

      根據(jù)MDA分析原理得變量重要性分值,如表2,第三產(chǎn)業(yè)增加值、營口港集裝箱吞吐量、大連市生產(chǎn)總值的重要性較大,分值在7以上;遼寧省生產(chǎn)總值、遼寧省對外經(jīng)貿(mào)總額等6個變量重要性分值在5~7之間;而機場旅客吞吐量的重要性分值則不足3,說明該變量對模型的增益效果很低。

      根據(jù)變量重要性排序,依次疊加選取重要性最高得變量,將所選變量組成特征集合進行集裝箱吞吐量預(yù)測。隨著特征變量個數(shù)得增加,模型預(yù)測準(zhǔn)確度變化趨勢如圖3。變量數(shù)目小于5時,預(yù)測準(zhǔn)確度隨變量數(shù)目增加而顯著提升;在變量數(shù)量為9時,預(yù)測準(zhǔn)確度為95.66%,達到峰值;在變量數(shù)目為16時,即把機場旅客吞吐量加入特征變量集合時,預(yù)測準(zhǔn)確度出現(xiàn)較大波動。由此看出,預(yù)測準(zhǔn)確度并非嚴格隨變量數(shù)目的增加而升高,這說明部分變量對港口集裝箱吞吐量預(yù)測有干擾,此類冗余特征的刪除有助于提升預(yù)測準(zhǔn)確度。因此,研究提取重要性排序前九的變量數(shù)據(jù)進行預(yù)測建模,篩選出的變量既可用于隨機森林模型預(yù)測,亦可在其他預(yù)測方法中應(yīng)用。

      表2 變量重要性得分Table 2 Importance score of variables

      圖3 預(yù)測準(zhǔn)確度與優(yōu)選變量數(shù)目關(guān)系Fig. 3 Relationship between prediction accuracy and the number of preferred variables

      3.4 預(yù)測結(jié)果分析

      將RFA預(yù)測結(jié)果與多元回歸分析法、三次指數(shù)平滑法以及BP神經(jīng)網(wǎng)絡(luò)預(yù)測法的預(yù)測結(jié)果對比分析。4種方法對2015年—2019年大連港集裝箱吞吐量的預(yù)測值及誤差如圖4,顯而易見:相比于其它3種方法,RFA預(yù)測結(jié)果更接近實際值,并且在不同年份的預(yù)測波動較小。

      圖4 4種模型預(yù)測值Fig. 4 Forecasting results of four kinds of models

      如表3為4種模型的預(yù)測值及誤差,其中平均誤差值為各年預(yù)測誤差絕對值的平均值。RFA預(yù)測值平均誤差率為4.34%,各年絕對誤差最大值為5.65%,而多元回歸和BP神經(jīng)網(wǎng)絡(luò)的平均誤差率均接近10%,三次指數(shù)平滑平均誤差率大于10%,絕對誤差率高達22.8%,可見RFA預(yù)測最接近實際值。

      圖5展示了4種模型預(yù)測結(jié)果總體相對誤差分布,可以看出,多元回歸相對誤差為負值,三次指數(shù)平滑和BP神經(jīng)網(wǎng)絡(luò)均為正值,說明此3個模型預(yù)測結(jié)果均出現(xiàn)偏離實際值現(xiàn)象,而隨機森林相對誤差在0附近說明其預(yù)測結(jié)果貼合實際值。據(jù)圖4和圖5可知,隨機森林模型在各個年份可提供較為準(zhǔn)確的單點預(yù)測效果。

      表3 模型預(yù)測值及誤差Table 3 Model prediction values and errors

      圖5 4種模型預(yù)測箱線圖Fig. 5 Boxplot diagram of four kinds of models

      為了進一步驗證RFA的預(yù)測性能,對4種模型的EMAP、EMS和ERMS指標(biāo)進行分析,如表4??梢?,RFA的EMAP低于5%,其EMS僅為其它模型的20%左右,ERMS值也在各個模型中最低。在各個指標(biāo)表現(xiàn)上,多元回歸和BP神經(jīng)網(wǎng)絡(luò)表現(xiàn)較為相似,而三次指數(shù)平滑EMAP達到12.99%,在各個指標(biāo)中表現(xiàn)均為最差??芍?,隨機森林預(yù)測各項誤差評價指標(biāo)上均優(yōu)于其他3個預(yù)測方法,預(yù)測性能優(yōu)勢顯著。

      表4 模型評價指標(biāo)Table 4 Model evaluation index

      通過實驗分析,RFA在進行具有時間特性的港口貨物吞吐量預(yù)測中,預(yù)測結(jié)果更接近實際值,預(yù)測誤差也明顯低于BP神經(jīng)網(wǎng)絡(luò)模型、多元回歸分析法和三次指數(shù)平滑法。同時,RFA在保證準(zhǔn)確預(yù)測吞吐量整體變化趨勢的基礎(chǔ)上,在較長時間內(nèi)對各個年份的單點預(yù)測結(jié)果也較為接近實際,提高了吞吐量預(yù)測的準(zhǔn)確性。

      4 結(jié) 語

      港口集裝箱吞吐量的預(yù)測與復(fù)雜的環(huán)境影響變量相關(guān),隨機森林算法消除了特征變量的共線性影響,并基于MDA分析各變量的影響程度,篩選出有重要影響的特征變量,其中第三產(chǎn)業(yè)增加值重要性分值最高,營口港集裝箱吞吐量重要性排名第二。第三產(chǎn)業(yè)的發(fā)展是經(jīng)濟發(fā)展的關(guān)鍵體現(xiàn),而營口港作為大連港的近鄰港口,則會因同質(zhì)競爭而出現(xiàn)吞吐量間的重要關(guān)聯(lián)性,可以預(yù)見,重要變量分析結(jié)果將有助于分析港口發(fā)展與經(jīng)濟發(fā)展的關(guān)聯(lián)性,輔助港口管理人員對港口間協(xié)同發(fā)展進行合理規(guī)劃。

      根據(jù)變量優(yōu)選結(jié)果對2015年—2019年大連港集裝箱吞吐量進行預(yù)測,與三次指數(shù)平滑法、多元回歸分析和BP神經(jīng)網(wǎng)絡(luò)的預(yù)測結(jié)果相比誤差更小,預(yù)測性能更優(yōu)。一定程度上預(yù)測結(jié)果將有助于港口管理人員更好地規(guī)劃港口貨源供應(yīng)、貨場分布、泊位布局以及水陸交通樞紐建設(shè)等。根據(jù)大連自貿(mào)港建設(shè)規(guī)劃研究,目前遼寧省內(nèi)港口間存在貨源分布差異大的現(xiàn)象,這導(dǎo)致部分港口出現(xiàn)貨源過量而無處安放問題,通過吞吐量預(yù)測可分析得到港口貨物需求量,進而根據(jù)需求提供貨物量,這將有助于港口規(guī)劃貨源供應(yīng)以及貨場分配等,更好地節(jié)約和利用社會資源。

      隨著海洋強國戰(zhàn)略的部署和實施,航運業(yè)向著智慧航運的方向發(fā)展。應(yīng)用隨機森林算法預(yù)測港口集裝箱吞吐量,更加準(zhǔn)確、高效、合理地助力港口建設(shè),助力政府推進智慧航運發(fā)展。

      猜你喜歡
      吞吐量決策樹集裝箱
      美軍一架C-130J正在投放集裝箱
      軍事文摘(2023年5期)2023-03-27 09:13:10
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      虛實之間——集裝箱衍生出的空間折疊
      決策樹和隨機森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      我家住在集裝箱
      中國公路(2017年8期)2017-07-21 14:26:20
      2016年10月長三角地區(qū)主要港口吞吐量
      集裝箱化(2016年11期)2017-03-29 16:15:48
      2016年11月長三角地區(qū)主要港口吞吐量
      集裝箱化(2016年12期)2017-03-20 08:32:27
      基于決策樹的出租車乘客出行目的識別
      一種新型自卸式污泥集裝箱罐
      專用汽車(2015年2期)2015-03-01 04:06:52
      基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
      即墨市| 射洪县| 依兰县| 曲靖市| 呼玛县| 洪雅县| 福安市| 特克斯县| 兴安盟| 平武县| 当涂县| 克什克腾旗| 永仁县| 利川市| 宣武区| 民丰县| 闻喜县| 赞皇县| 嘉义市| 濮阳市| 临汾市| 正镶白旗| 太仆寺旗| 永平县| 邻水| 乐安县| 牙克石市| 西乌| 奉新县| 金塔县| 新干县| 津南区| 西青区| 台湾省| 大方县| 远安县| 石阡县| 乌恰县| 饶平县| 安顺市| 若羌县|