谷潤平,來靖晗,魏志強(qiáng)
(中國民航大學(xué)空中交通管理學(xué)院,天津 300300)
隨著航班量不斷增長,其延誤情況愈發(fā)嚴(yán)重,若不及時分析所潛在的影響因素與規(guī)律,并研究相關(guān)估計模型以盡可能減小延誤損失,將對民航業(yè)各方的效益造成不良后果。因此,對其針對性的研究是十分必要的,同時,延誤預(yù)測研究將為民航相關(guān)部門的航班運(yùn)行決策提供理論參考[1]。
目前,已有多種算法[2-14]進(jìn)行了延誤預(yù)測的相關(guān)研究。國外,Kim[2]等研究了容量和需求對紐約地區(qū)機(jī)場延誤水平的影響;Mukherjee[3]等采用邏輯回歸和決策樹模型,預(yù)測機(jī)場地面延誤的發(fā)生;Noboru[4]等利用淺層人工神經(jīng)網(wǎng)絡(luò)(ANN, artificial neural network)對機(jī)場空域進(jìn)行延誤預(yù)測;Khanmohammadi[6]等引入多級輸入層神經(jīng)網(wǎng)絡(luò)算法處理航班數(shù)據(jù)中的名義變量,以預(yù)測延誤;Pyrgiotis等[7]進(jìn)行了近似網(wǎng)絡(luò)延誤建模,并運(yùn)用排隊論模型進(jìn)行單個機(jī)場的延誤計算;Rebollo[8]等利用隨機(jī)森林方法預(yù)測航班的平均離港延誤;國內(nèi),徐濤[9]等針對空運(yùn)需求與機(jī)場容量沖突條件,采用增量式排列支持向量機(jī)算法進(jìn)行延誤預(yù)警;程華[10]等結(jié)合航班數(shù)據(jù)特點(diǎn),構(gòu)建了基于C4.5決策樹方法的延誤預(yù)測模型;羅謙[11]等采用構(gòu)建的非線性回歸模型,預(yù)測了大型樞紐機(jī)場的航班延誤;吳薇薇[12]等運(yùn)用加權(quán)馬爾科夫鏈模型,對關(guān)鍵機(jī)場的整體延誤狀態(tài)進(jìn)行預(yù)測;吳仁彪[13]等進(jìn)行基于Spark并融合氣象數(shù)據(jù)的并行化航班延誤預(yù)測;張敏[14]運(yùn)用集對分析的方法,建立了航班延誤預(yù)警模型。
綜上,國內(nèi)外學(xué)者多以某一具體機(jī)場的延誤問題作為研究對象,且對延誤特性的統(tǒng)計量化規(guī)律研究有所欠缺;對延誤影響參數(shù)的優(yōu)化研究較少,忽視了其預(yù)測效率和結(jié)構(gòu)優(yōu)化;另外,延誤預(yù)測建??紤]的影響因素較為局限,多是僅考慮航班時刻表中的參數(shù)數(shù)據(jù),缺少全面性與系統(tǒng)性,在實踐應(yīng)用中具有一定限制。近年來,面向大數(shù)據(jù)的深度學(xué)習(xí)方法廣泛應(yīng)用于計算機(jī)視覺、語音識別、自然語言處理等方面,其性能明顯優(yōu)于傳統(tǒng)算法[15]。鑒于此,首先利用數(shù)據(jù)處理與統(tǒng)計方法,全面分析航班延誤影響因素與規(guī)律,之后采用灰色關(guān)聯(lián)算法,進(jìn)行延誤相關(guān)性分析以篩選出關(guān)鍵因素,最終實現(xiàn)基于灰色GA-BP神經(jīng)網(wǎng)絡(luò)的延誤分析與預(yù)測建模方法,實現(xiàn)延誤的高精度估計,為提高航班正常率與運(yùn)行效率提供研究思路,其方法示意圖如圖1。
圖1 航班延誤預(yù)測建模流程
航班延誤情況可能會出現(xiàn)明顯的差異性,即具有不同的延誤分布特性與規(guī)律[16,17],將航班延誤定義為實際起飛/到達(dá)相對于計劃起飛/到達(dá)時間的偏離,正值即為航班延誤時長。依據(jù)某航空公司2018全年的航班延誤統(tǒng)計數(shù)據(jù),運(yùn)用數(shù)據(jù)統(tǒng)計與處理方法,獲得基于時空屬性的起飛與到達(dá)延誤統(tǒng)計分布曲線,以進(jìn)行延誤特性分析。
2.1.1 月統(tǒng)計延誤分布
對起飛延誤和到達(dá)延誤在全年每個月中的平均延誤情況進(jìn)行統(tǒng)計,結(jié)果如圖2。每月的延誤水平會有一定差異,即波動性較強(qiáng);全年的延誤水平隨著季節(jié)差異性而變化,其中平均延誤時長的分布浮動在20~80min之間,且7月份延誤狀況最嚴(yán)重。另外,到達(dá)平均延誤時間整體大于起飛平均延誤,且變化趨勢相似。
圖2 月統(tǒng)計延誤分布
2.1.2 周統(tǒng)計延誤分布
星期屬性在航班延誤程度上也有一定波動性,每日平均延誤時長具有一定差異性,每周平均延誤時長整體穩(wěn)定在30~70min之間,如圖3。同時,在該條件下,航班到達(dá)延誤平均時間明顯較起飛延誤平均時間長。
圖3 周統(tǒng)計延誤分布
2.1.3 小時統(tǒng)計延誤分布
對于起飛與到達(dá)延誤水平,兩者變化規(guī)律趨于一致,且各時段隨著時間變量都具有明顯的強(qiáng)波動性,如圖4。另外,延誤時長較高的時段整體集中在8時和13時,即為繁忙時段。
圖4 小時統(tǒng)計延誤分布
2.1.4 空間分布統(tǒng)計分析
由圖5可知,由于不同機(jī)場規(guī)模以及發(fā)展水平等眾多因素的影響,導(dǎo)致不同機(jī)場的延誤水平具有較大差異性。因此,獲取所涉及機(jī)場的規(guī)模數(shù)據(jù)、正常性數(shù)據(jù)及其機(jī)場服務(wù)評級作為航班延誤的影響參數(shù)。
圖5 多機(jī)場統(tǒng)計延誤分布
由上述分布特性分析可知,航班延誤在時空屬性上具有強(qiáng)烈的關(guān)聯(lián)性。月份、星期和時段特征可以一定程度上來表征延誤分布特性及其航班延誤程度,同時考慮節(jié)假日的差異性,因此將是否節(jié)假日屬性與小時、星期和月份屬性作為時間影響參數(shù)。同時,各機(jī)場的起飛延誤和到達(dá)延誤具有明顯相似的變化趨勢,相關(guān)性較強(qiáng),即起飛延誤會一定程度上影響到達(dá)延誤,是以將起飛延誤作為后續(xù)到達(dá)延誤估計模型的影響參數(shù)。
據(jù)此,結(jié)合民航航班正常統(tǒng)計辦法規(guī)定,以航空公司、機(jī)場、天氣和其它四個維度為出發(fā)點(diǎn),基于航空公司歷史航班運(yùn)行數(shù)據(jù)及獲取的相關(guān)影響參數(shù)數(shù)據(jù),建立航班延誤估計指標(biāo)體系,如圖6。通過處理該延誤相關(guān)數(shù)據(jù),具體包括數(shù)據(jù)清洗、定量化及其多維匹配與融合,為后續(xù)延誤預(yù)測模型的構(gòu)建提供基礎(chǔ)。
圖6 航班延誤估計參數(shù)指標(biāo)
由上述航班延誤的分布規(guī)律與影響因素分析可知,各參數(shù)都能夠不同程度地反映延誤度,比較容易建立建模數(shù)據(jù)庫。然而,因獲取的影響因素數(shù)據(jù)具有多樣性的特點(diǎn),且各因素影響下的延誤情況具有一定差異性,與歷史運(yùn)行數(shù)據(jù)進(jìn)行匹配后構(gòu)建的數(shù)據(jù)庫,將會引入不必要的延誤預(yù)測誤差。因此,采用灰色關(guān)聯(lián)分析(Grey Relational Analysis,GRA)優(yōu)選參數(shù)建模數(shù)據(jù)庫,依據(jù)關(guān)聯(lián)度大小來厘定延誤參數(shù)建模數(shù)據(jù)庫的有效性。
GRA是一種基于關(guān)聯(lián)性分析的多因素量化分析方法,其主要思想是根據(jù)相關(guān)計算得到影響因子間的灰色關(guān)聯(lián)度,以此衡量各因子與研究對象的關(guān)聯(lián)與貢獻(xiàn)程度[18]。因子之間具有越為相似的變化態(tài)勢與程度,則表明其關(guān)聯(lián)性越強(qiáng)?;疑P(guān)聯(lián)建模具體流程如下:
1)確定分析序列
令某航班的到達(dá)延誤時間(X0)為參考序列,且影響延誤各個指標(biāo)參數(shù)分別為:航班號(X1)、機(jī)號(X2)、機(jī)型(X3)、計劃起飛(X4)、計劃到達(dá)(X5)、起飛機(jī)場(X6)、到達(dá)機(jī)場(X7)、航班性質(zhì)(X8)、月份(X9)、星期(X10)、是否節(jié)假日(X11)、飛機(jī)狀態(tài)(X12)、起飛機(jī)場規(guī)模(X13)、到達(dá)機(jī)場規(guī)模(X14)、起飛機(jī)場正常性(X15)、到達(dá)機(jī)場正常性(X16)、起飛機(jī)場評級(X17)、到達(dá)機(jī)場評級(X18)、天氣狀況(X19)、延誤波及(X20)、流量控制(X21)、軍事活動(X22)、空管狀態(tài)(X23)、旅客(X24)、特殊事件(X25)、其它(X26)、起飛延誤(X27)為比較序列。
參考序列X0={X0(k)|k=1,2,…,n}與比較序列Xi={Xi(k)|k=1,2,…,n},(i=1,2,…,n)構(gòu)成的矩陣為
(1)
2)無量綱化
為了消除各序列數(shù)據(jù)的量綱差異,利用均值化法進(jìn)行延誤數(shù)據(jù)及其相關(guān)影響因子數(shù)據(jù)的處理,公式為
(i=1,2,…,27;k=1,2,…,n)
(2)
3)計算序列間關(guān)聯(lián)系數(shù)
X0與Xi的關(guān)聯(lián)系數(shù)公式如下
(3)
4)計算序列間關(guān)聯(lián)度
將各關(guān)聯(lián)系數(shù)ξ0i集中體現(xiàn)在一個值,即為關(guān)聯(lián)度。其值越大,表明兩者的幾何曲線形狀越接近,相關(guān)性越強(qiáng)。公式如下
(4)
5)序列間關(guān)聯(lián)度排序
對各比較序列與參考序列的關(guān)聯(lián)度由高到低進(jìn)行排序,得到各影響因素與延誤的相關(guān)性結(jié)果,例如:假設(shè)γ01<γ02,即表示X1與X0更為一致,X1與延誤的相關(guān)程度更高。
優(yōu)化模型的基本思路為:由于BP神經(jīng)網(wǎng)絡(luò)具有易陷入局部極小值等不足,將遺傳算法(Genetic algorithm,GA)作為其優(yōu)化方法,實現(xiàn)非線性與多維空間的全局尋優(yōu)。首先,將延誤預(yù)測網(wǎng)絡(luò)的初始權(quán)值與閾值作為其遺傳染色體基因進(jìn)行相關(guān)編碼,完成GA算法的種群初始化;然后,計算遺傳過程中的個體適應(yīng)度,經(jīng)由選擇、交叉和變異算子運(yùn)行,得到高適應(yīng)度的染色體并保留,繼而獲得新種群,直至達(dá)到算法終止條件[19]。
GA-BP網(wǎng)絡(luò)延誤預(yù)測模型構(gòu)建流程圖如圖7,其優(yōu)化建模的具體實現(xiàn)步驟如下所示:
(5)
式中:Xi為第i個數(shù)據(jù)樣本;Xmax為序列中的最大值,Xmin為其最小值。
2)GA參數(shù)設(shè)置及其種群初始化。標(biāo)定遺傳中的種群規(guī)模為80,迭代次數(shù)為200,交叉及變異概率分別為0.6、0.08,并進(jìn)行相關(guān)染色體基因編碼。
3)計算適應(yīng)度。設(shè)定適應(yīng)度為預(yù)測值和期望值之間的誤差平方和,公式為
(6)
式中:k為系數(shù);n為輸出個數(shù);yi為第i個神經(jīng)節(jié)點(diǎn)的期望值,oi為其實際值。
4)隨機(jī)性選擇種群個體,并進(jìn)行交叉和變異,從而生成新染色體,保留優(yōu)化的染色體并遺傳至下一代得到新種群。
5)重復(fù)3)、4)步,當(dāng)適應(yīng)度收斂至迭代次數(shù)時,獲得最優(yōu)染色體,以此作為BP網(wǎng)絡(luò)模型的初始權(quán)值與閾值。
6)設(shè)置BP參數(shù)?;谶z傳進(jìn)化得到的初始權(quán)值與閾值,標(biāo)定延誤預(yù)測網(wǎng)絡(luò)模型中的學(xué)習(xí)算法為Trainlm,學(xué)習(xí)率為0.01,訓(xùn)練次數(shù)與目標(biāo)分別為1000和10e-5。
7)將GRA優(yōu)化的延誤影響因子數(shù)據(jù)與到達(dá)延誤時間數(shù)據(jù)輸入網(wǎng)絡(luò)。輸入層的神經(jīng)節(jié)點(diǎn)獲取延誤影響因子數(shù)據(jù)后,由激活函數(shù)fX計算得到Y(jié)″,之后輸出到隱含層神經(jīng)節(jié)點(diǎn),并由激活函數(shù)gX計算得到Y(jié),其運(yùn)行公式為
Y″=fX(WinY′+θin)
(7)
Y=gX(WoutY″+θout)
(8)
式中:Y′、Y″和Y分別為輸入層、隱含層與輸出層;Win和θin分別為輸入層到隱含層之間的權(quán)值與閾值;Wout和θout分別為隱含層至輸出層之間的權(quán)值與閾值;fX為Logsig函數(shù),gX為Purelin函數(shù),公式為
(9)
gX=X
(10)
式中:X為輸入樣本數(shù)據(jù)。
8)計算輸出Y與輸入到達(dá)延誤時間數(shù)據(jù)間的誤差δ。將δ反饋至前兩層神經(jīng)節(jié)點(diǎn),分別修正每層神經(jīng)節(jié)點(diǎn)的權(quán)值與閾值,并基于新的權(quán)值與閾值對7)步進(jìn)行循環(huán)運(yùn)算,直至δ小于訓(xùn)練目標(biāo)10e-5。
圖7 GA優(yōu)化BP神經(jīng)網(wǎng)絡(luò)流程圖
根據(jù)獲取的某航空公司2018年1月1日-2018年12月31日全年實際延誤數(shù)據(jù)及其相關(guān)參數(shù)數(shù)據(jù),由式(1)對航班到達(dá)延誤及影響因素,取分辨系數(shù)ρ=0.5,根據(jù)式(2)、(3)、(4)計算關(guān)聯(lián)度,將特征按照關(guān)聯(lián)度由大至小排序,見表1。其中,關(guān)聯(lián)度閾值取0.8,即選擇灰色關(guān)聯(lián)度大于0.8的影響因子為主要影響因子,作為GA-BP網(wǎng)絡(luò)的輸入。
表1 延誤影響因子的灰色關(guān)聯(lián)分析結(jié)果
由表1中的灰色關(guān)聯(lián)度可知,航班號、機(jī)號、起飛機(jī)場規(guī)模及到達(dá)機(jī)場規(guī)模4個因子相比于其它因子而言與到達(dá)延誤的關(guān)聯(lián)度不大,表明該數(shù)據(jù)序列對到達(dá)延誤時間的影響能力不足,可作為無效數(shù)據(jù)點(diǎn)進(jìn)行剔除。最終選取關(guān)聯(lián)度在0.8以上的23個影響因子作為GA-BP網(wǎng)絡(luò)模型的輸入神經(jīng)元,到達(dá)延誤時間作為輸出結(jié)果。
利用預(yù)處理后的延誤優(yōu)化參數(shù)數(shù)據(jù)庫,據(jù)經(jīng)驗公式并通過網(wǎng)絡(luò)性能測試,確定中間層設(shè)置6個神經(jīng)節(jié)點(diǎn),進(jìn)行灰色GA-BP網(wǎng)絡(luò)延誤預(yù)測模型構(gòu)建。令網(wǎng)絡(luò)訓(xùn)練集為隨機(jī)選擇的7000個樣本數(shù)據(jù)集,檢驗樣本為其余300個樣本數(shù)據(jù)集,對其進(jìn)行網(wǎng)絡(luò)模型的學(xué)習(xí)訓(xùn)練與效能驗證對比。
首先,通過GA算法優(yōu)化延誤預(yù)測模型網(wǎng)絡(luò),即獲得該網(wǎng)絡(luò)初始權(quán)值與閾值的最優(yōu)解。隨著代數(shù)增加,適應(yīng)度函數(shù)在遺傳進(jìn)化中的變化曲線如圖8。經(jīng)過多次迭代,種群個體的適應(yīng)力得到增強(qiáng),進(jìn)化80代附近時個體適應(yīng)度趨于穩(wěn)定。
圖8 GA算法進(jìn)化曲線
該延誤預(yù)測模型網(wǎng)絡(luò)的訓(xùn)練誤差結(jié)果如圖9,在較少的訓(xùn)練次數(shù)下,達(dá)到最佳驗證性能;延誤預(yù)測與期望的對比曲線如圖10,由預(yù)測的擬合曲線可知,灰色GA-BP網(wǎng)絡(luò)模型在航班延誤預(yù)測應(yīng)用中的擬合程度與預(yù)測精度較高。
圖9 灰色GA-BP網(wǎng)絡(luò)延誤預(yù)測訓(xùn)練誤差圖
圖10 預(yù)測與期望對比
為了進(jìn)一步評估此灰色GA-BP網(wǎng)絡(luò)性能的質(zhì)量與優(yōu)化效果,針對進(jìn)行灰色關(guān)聯(lián)模型篩選的關(guān)鍵因子數(shù)據(jù)和未篩選的原始數(shù)據(jù),分別采用GA-BP網(wǎng)絡(luò)、BP網(wǎng)絡(luò)模型進(jìn)行預(yù)測。將不同隨機(jī)數(shù)據(jù)組合分為5組進(jìn)行試驗,運(yùn)用相同模型參數(shù),選擇絕對誤差(MAE)以及擬合優(yōu)度(R2)作為模型性能指標(biāo),對該延誤預(yù)測模型的模擬和驗證結(jié)果進(jìn)行評價與對比,結(jié)果見表2。
表2 模型指標(biāo)評價結(jié)果
由表2可知,灰色GA-BP網(wǎng)絡(luò)延誤預(yù)測模型的擬合優(yōu)度平均值為0.938,且每組均不小于0.8,平均絕對誤差僅為12.027,與未進(jìn)行GRA與GA優(yōu)化的延誤預(yù)測網(wǎng)絡(luò)模型相比,該模型性能與精度得到了提高,效果與適用性更好,驗證了其延誤估計的可靠性。
1)依據(jù)航空公司的實際延誤數(shù)據(jù),對其延誤分布進(jìn)行了不同條件下的統(tǒng)計分析,全面、系統(tǒng)地分析了延誤因素的影響,建立了延誤影響指標(biāo)體系,為后續(xù)建模參數(shù)的選擇提供基礎(chǔ)。
2)以灰色關(guān)聯(lián)分析方法進(jìn)行航班延誤相關(guān)性的度量,對多個變量指標(biāo)進(jìn)行了定量計算與篩選,優(yōu)選了延誤影響參數(shù),由此確定23個主要的決定指標(biāo)參數(shù)作為輸入,后續(xù)模型結(jié)構(gòu)得到簡化,網(wǎng)絡(luò)訓(xùn)練效率得到提升。
3)灰色GA-BP延誤預(yù)測模型與優(yōu)化前的網(wǎng)絡(luò)模型相比,平均絕對誤差至少下降了5%,提升了模型穩(wěn)定性,優(yōu)化了模型性能與精度,可為航班延誤預(yù)估提供支撐,從而有力降低延誤損失。