王晨博 吳曉龍 謝智成 張 藝 時統(tǒng)宇
(中國民航大學(xué) 空中交通管理學(xué)院,天津 300300)
航空業(yè)是我國運(yùn)輸業(yè)的重要分支之一。近幾年隨著我國國民經(jīng)濟(jì)的快速發(fā)展,人們逐漸開始選擇飛機(jī)作為出行工具,而航班延誤率是乘客考慮航班的重要因素之一。
本文運(yùn)用美國聯(lián)邦航空局的航空系統(tǒng)性能指標(biāo)數(shù)據(jù)庫中的機(jī)場分析模塊。在航班起飛延誤時長的基礎(chǔ)上,運(yùn)用時間序列預(yù)測分析方法對航班延誤時間序列建模,并對比基于LM 算法的BP 神經(jīng)網(wǎng)絡(luò)模型,分析航班延誤趨勢,觀察延誤特性。
自回歸滑動平均模型(簡稱:ARMA 模型)是一種隨機(jī)時間序列分析模型,由博克斯(Box)和詹金斯(Jenkins)于20 世紀(jì)70年代創(chuàng)立。它的基本思想是:某些時間序列是依賴于時間的一組隨機(jī)變量,構(gòu)成該時序的單個序列值雖然具有不確定性,但是整個序列的變化卻有一定的規(guī)律性,可以通過相應(yīng)的數(shù)學(xué)模型進(jìn)行近似描述。在ARMA 模型中,對一組指標(biāo)序列進(jìn)行預(yù)測時,主要利用過去值、當(dāng)期值以及滯后隨機(jī)擾動項的加權(quán)建模,從而解釋并且預(yù)測時間序列的變化發(fā)展規(guī)律。建立ARMA 模型進(jìn)行時間序列預(yù)測分析時,該時間序列必須是平穩(wěn)的[7],否則得出的結(jié)果不具有參考價值。
人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,縮寫ANN),簡稱神經(jīng)網(wǎng)絡(luò)(neural network,縮寫NN),是一種模仿生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和功能的數(shù)學(xué)模型或計算模型。在分層型神經(jīng)網(wǎng)絡(luò)中按功能分,有三種結(jié)構(gòu),輸入層、隱藏層及輸出層。神經(jīng)網(wǎng)絡(luò)由大量的人工神經(jīng)元聯(lián)結(jié)進(jìn)行計算現(xiàn)代神經(jīng)網(wǎng)絡(luò)是一種非線性統(tǒng)計性
圖1 神經(jīng)元模型
常見有BP 神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、深度神經(jīng)網(wǎng)絡(luò)及徑向基神經(jīng)網(wǎng)絡(luò)等。本文使用的是BP(Back-propagation,反向傳播)神經(jīng)網(wǎng)絡(luò),是一種按照誤差反向傳播算法訓(xùn)練多層前饋神經(jīng)網(wǎng)絡(luò)。
正向傳播階段,一層神經(jīng)元,只會影響其下一層神經(jīng)元的狀態(tài),如果輸出層得不到期望的輸出的結(jié)果,則進(jìn)入誤差的反向傳播階段,誤差沿原來的路徑返回,網(wǎng)絡(luò)根據(jù)誤差信號修改各層的連接權(quán),使誤差達(dá)到最小。
標(biāo)準(zhǔn)的BP 神經(jīng)網(wǎng)絡(luò)收斂過程存在收斂速度慢,存在所謂“局部最小值”的問題??梢酝ㄟ^L-M(Levenberg-Marquardt)算法來優(yōu)化這些問題,L-M 是改進(jìn)的高斯-牛頓法,大大提高了計算速度,減少計算時間。LM 算法收斂速度快。如果要求精度高,該算法的優(yōu)點尤其突出。在許多情況下,采用LM 算法的訓(xùn)練函數(shù)trainlm 可以獲得比其它算法更小的均方誤差[8]。
原數(shù)據(jù)中大多會有一些收集時產(chǎn)生的錯誤數(shù)據(jù),這些數(shù)據(jù)不能真實的反應(yīng)情況而且在后續(xù)使用過程中會造成誤差。首先,去除通航航班、軍航航班、本場飛行航班和缺失部分運(yùn)行數(shù)據(jù)的國際航班等異常數(shù)據(jù),并根據(jù)實際應(yīng)用需求,去除凌晨00:00-04:59 的數(shù)據(jù)。之后,采用不合理數(shù)據(jù)予以剔除,然后采用一維插值方法進(jìn)行數(shù)據(jù)填充。預(yù)處理后延誤時序共有6953 個數(shù)據(jù)點。
2.4.1 模型識別
模型的建立,使用的數(shù)據(jù)要求平穩(wěn),利用自相關(guān)函數(shù)和偏相關(guān)函數(shù)可以大致確定p、q 的范圍。若自相關(guān)系數(shù)呈現(xiàn)拖尾,偏自相關(guān)系數(shù)呈現(xiàn)p 階截尾,則定為AR(p)模型;若自相關(guān)系數(shù)呈現(xiàn)q 階截尾,偏自相關(guān)系數(shù)呈現(xiàn)拖尾,則定MA(a)為模型;若自相關(guān)系數(shù)和偏自相關(guān)系數(shù)都呈現(xiàn)拖尾,則定為ARMA 模型。
2.4.2 模型定階
現(xiàn)有常用的兩個模型選擇方法有赤池信息準(zhǔn)則(Akaike information criterion,AIC) 和 貝 葉 斯 信 息 準(zhǔn) 則(Bayesian Information Criterion,BIC)本文采用AIC 準(zhǔn)則對模型進(jìn)行階數(shù)確定。它是衡量統(tǒng)計模型擬合優(yōu)良性的一種標(biāo)準(zhǔn),由日本統(tǒng)計學(xué)家赤池弘次于1973 年提出并創(chuàng)立和發(fā)展的,因此又稱赤池信息量準(zhǔn)則,它建立在熵的概念上,提供了權(quán)衡估計模型復(fù)雜度和擬合數(shù)據(jù)優(yōu)良性的標(biāo)準(zhǔn)。函數(shù)一般定義如下:
2.4.4 殘差分析
2.5.1 模型建立
原始數(shù)據(jù)內(nèi)容包含航班起飛延誤時長及到達(dá)延誤時長等信息,將這些數(shù)據(jù)作為的輸入,將平均到達(dá)延誤時長作為輸出,投入到神經(jīng)網(wǎng)絡(luò)擬合中。訓(xùn)練數(shù)據(jù)、驗證數(shù)據(jù)、測試數(shù)據(jù)的占比分別為70%、15%和15%。本文使用神經(jīng)網(wǎng)絡(luò)模型,共有1 個輸入層,其中9 個輸入元素,隱藏層設(shè)置10 個神經(jīng)元和1 個輸出參數(shù)進(jìn)行模型建立。
2.5.2 估計結(jié)果
工具箱自身設(shè)置有統(tǒng)計結(jié)果,該模型性能最佳結(jié)果在第12次迭代得到,此時該模型的均方誤差為288.329??梢钥闯錾窠?jīng)網(wǎng)絡(luò)模型得出結(jié)果的均方誤差隨著迭代次數(shù)的推進(jìn),逐漸降低,并且得到模型的R 值及回歸值為0.32232,R 值測量的是目標(biāo)之間的相關(guān)性,越接近1 表示越密切關(guān)系,越接近0 表示越隨機(jī)關(guān)系。
可以計算兩種模型的均方誤差值MSE 和均方根誤差值RMSE來反映估計量于被估計量之間的差異程度,更小值為最佳。
?
??? ???? ?????
????????????? ?????? ?????????? ????????
??????? ?????? ?????????? ?????????
對比R2值、MSE 和RMSE 值可以看出,時間序列模型的擬合效果比神經(jīng)網(wǎng)絡(luò)好,均方誤差和均方根誤差更小,R2更接近1。經(jīng)過時間序列模型的建模預(yù)測,觀察預(yù)測值和實際值的差異,分析標(biāo)準(zhǔn)殘差值變化、殘差直方圖,可以看出殘差大部分集中在0 值附近,說明擬合誤差較小,分析殘差自相關(guān)圖、偏自相關(guān)圖可以看出在一階滯后時整體圖像趨于平穩(wěn),說明殘差不具有自相關(guān)性。分位數(shù)圖,分位數(shù)圖中大部分藍(lán)點在紅線上,說明殘差接近正太分布,預(yù)測值據(jù)有一定可靠性。分析BP 神經(jīng)網(wǎng)絡(luò)結(jié)果回歸圖,R 值僅0.3 左右,虛線和藍(lán)線相差較遠(yuǎn),說明模型擬合效果并不理想。相對比于訓(xùn)練的BP 神經(jīng)網(wǎng)絡(luò)模型,ARMA 模型預(yù)測的數(shù)據(jù)更加準(zhǔn)確,更具有參考價值。
合理的預(yù)測模型對運(yùn)行規(guī)劃有著很大的意義。隨著航班的運(yùn)行,海量的數(shù)據(jù)被記錄下來,通過研究這些數(shù)據(jù),建立適合的數(shù)學(xué)擬合模型,可能對航班延誤問題有新的認(rèn)識,并能做出合理應(yīng)對,提高運(yùn)營能力。本文根據(jù)航班延誤時長的數(shù)據(jù)規(guī)律,其航班延誤時間長短不定,走勢一般是非平穩(wěn),通過差分運(yùn)算建立ARIMA(0,1,3)模型對比BP 神經(jīng)網(wǎng)絡(luò)模型,對預(yù)測延誤時間結(jié)果具有較好的結(jié)果,對歷史數(shù)據(jù)進(jìn)行利用,預(yù)測對比實際數(shù)據(jù),得出結(jié)論,有一定的使用價值。乘客可以根據(jù)模型預(yù)測結(jié)果判斷是否選擇該線路,有助于幫助其做出合理的決策。航空公司可以參考優(yōu)化航班安排計劃,提升運(yùn)行效率,進(jìn)一步提高公司服務(wù)品質(zhì),對未來公司發(fā)展有一定積極作用。