王 輝,陳 超
(中國民航大學(xué)航空工程學(xué)院,天津 300300)
隨著中國航空業(yè)的持續(xù)發(fā)展,航班延誤問題隨之顯現(xiàn),不僅造成經(jīng)濟(jì)上的損失和負(fù)面的社會(huì)影響,而且航班延誤的發(fā)生嚴(yán)重影響機(jī)場(chǎng)和航空公司的正常運(yùn)作。因此,對(duì)航班延誤問題進(jìn)行研究分析,實(shí)現(xiàn)航班延誤有效預(yù)測(cè)十分必要,通過準(zhǔn)確預(yù)測(cè)給部門調(diào)度運(yùn)行提供可靠依據(jù),進(jìn)而保障民航業(yè)的健康發(fā)展。
針對(duì)航班延誤問題的預(yù)測(cè),國內(nèi)外專家學(xué)者通過不同的角度進(jìn)行研究。Khanmohammadi 等[1]提出新的多層輸入層神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)方法,將各級(jí)延遲來源系統(tǒng)化設(shè)置,并依據(jù)神經(jīng)系統(tǒng)方式判斷發(fā)生可能性對(duì)肯尼迪機(jī)場(chǎng)延誤的航班進(jìn)行預(yù)測(cè);曹衛(wèi)東等[2]分析樞紐機(jī)場(chǎng)航班離港延誤狀況,提出基于遺傳禁忌搜索思想的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)算法,得出導(dǎo)致航班延誤的多因素之間的因果關(guān)系;Cheng 等[3]根據(jù)大實(shí)時(shí)數(shù)據(jù)下的航班延誤區(qū)域風(fēng)險(xiǎn)管理方法,提出長期離港預(yù)測(cè)模型和改進(jìn)的實(shí)時(shí)到達(dá)預(yù)測(cè)模型,實(shí)現(xiàn)航班延誤的預(yù)測(cè)研究;Ding 等[4]設(shè)計(jì)了基于灰色預(yù)測(cè)和危險(xiǎn)預(yù)測(cè)的加權(quán)組合預(yù)測(cè)方法,通過修正解析出延誤的周期性特點(diǎn);羅赟騫等[5]根據(jù)相空間重構(gòu)理論分析出延誤存在的混沌特性,選用差分進(jìn)化算法在支持向量機(jī)回歸模型基礎(chǔ)上預(yù)測(cè)延誤規(guī)律。
上述研究只是基于整體歷史數(shù)據(jù),定性分析影響航班運(yùn)行的各種因素,無法將航班延誤序列中隱藏的規(guī)律挖掘出來。為了解析出航班延誤規(guī)律特性,提高航班延誤預(yù)測(cè)準(zhǔn)確率,通過對(duì)延誤序列的分析,并由此提出結(jié)合相關(guān)函數(shù)分析和SG 濾波的改進(jìn)互補(bǔ)集合經(jīng)驗(yàn)?zāi)B(tài)分解(ICEEMDAN, improved complementary ensemble empirical mode decomposition with adaptive noise)的去噪算法,利用互相關(guān)函數(shù)分析模態(tài)分量所包含原始序列信息容量,并根據(jù)模態(tài)分量中噪聲與信號(hào)自相關(guān)函數(shù)的差異,對(duì)判定混有噪聲的分量進(jìn)行SG濾波處理,該算法能達(dá)到良好的去噪水平。針對(duì)延誤序列波動(dòng)幅度大、無明顯規(guī)律的特點(diǎn),對(duì)處理得到分量分別建立支持向量機(jī)(SVM,support vetor machine)回歸預(yù)測(cè)模型,實(shí)現(xiàn)航班延誤短期預(yù)測(cè)。
自適應(yīng)噪聲集合經(jīng)驗(yàn)?zāi)B(tài)分解ICEEMDAN 方法是由Colominas 等[6]在自適應(yīng)白噪聲的完全集合經(jīng)驗(yàn)?zāi)B(tài)分解[7]基礎(chǔ)上提出的信號(hào)處理方法。該分解方法在信號(hào)處理過程中加入特殊噪聲Ek(w(i)),即高斯白噪聲被EMD 分解[8]后所得到的第k 層imfk。算法設(shè)定M(·)為計(jì)算局部均值,Ek(·)為由EMD 分解產(chǎn)生第k 個(gè)分量。ICEEMDAN 算法步驟為:
1)原始序列信號(hào)x(t)加入I 組高斯白噪聲信號(hào)得到x(i)(t)=x(t)+β0w(i),通過EMD 分解計(jì)算局部均值得到第1 組殘差和imf1分量為
2)繼續(xù)加入特殊白噪聲r(shí)1+ β1E2(w(i))做EMD 分解局部平均值求出第2 組殘差和imf2分量為
3)類比計(jì)算出k 組殘差和imfk,即
4)直至分解結(jié)束,得到所有imf1~imfk和剩余分量Res。
在延誤序列的分解過程引入噪聲輔助分析,若不能自適應(yīng)消除殘留噪聲,會(huì)對(duì)結(jié)果造成污染。雖然ICEEMDAN 方法降低了噪聲在分量中的殘留,但通過對(duì)模態(tài)分量的分析發(fā)現(xiàn),前幾個(gè)imf 分量誤差超過標(biāo)準(zhǔn)范圍,在后續(xù)的處理中誤差會(huì)被放大甚至產(chǎn)生錯(cuò)誤結(jié)果。因此,對(duì)模態(tài)分量進(jìn)行降噪處理成為延誤預(yù)測(cè)過程不可或缺的環(huán)節(jié)。在此通過相關(guān)系數(shù)分析方法[9]進(jìn)行噪聲判定,即通過互相關(guān)函數(shù)和自相關(guān)函數(shù)來實(shí)現(xiàn)計(jì)算識(shí)別混合噪聲的分量。
自相關(guān)函數(shù)和互相關(guān)函數(shù)定義如下
歸一化處理相關(guān)系數(shù)為
互相關(guān)函數(shù)判定imf 分量和原始序列信息的匹配程度,計(jì)算分量包含原始延誤序列的信息容量。歸一化自相關(guān)函數(shù)判定imf 分量是否混有噪聲,混有噪聲的imf 分量自身呈現(xiàn)弱相關(guān)性,其歸一化函數(shù)表現(xiàn)為在0點(diǎn)處取得最大值為1,隨著序列延續(xù)迅速衰減到極小值。相對(duì)應(yīng)的未被噪聲污染的模態(tài)分量的歸一化值不會(huì)迅速衰減,跟隨序列延續(xù)呈現(xiàn)波動(dòng)。
經(jīng)過相關(guān)系數(shù)判定后,選用SG 去噪方法[10]對(duì)含有噪聲的模態(tài)分量進(jìn)行濾波處理。SG 算法在對(duì)imf 分量進(jìn)行濾波去噪時(shí),首先在序列上選定合適的窗口進(jìn)行擬合處理,并隨著序列窗口進(jìn)行滑動(dòng),計(jì)算得到平滑數(shù)值代替原來的值。該方法是在序列數(shù)據(jù)窗口設(shè)定多項(xiàng)式基礎(chǔ)上的最佳擬合,基本保留原序列的信息,顯著提高序列信噪比。
通過取點(diǎn)xi附近左l 個(gè)點(diǎn)和右r 個(gè)點(diǎn)擬合一個(gè)M次多項(xiàng)式,多項(xiàng)式通過最小二乘法擬合出在xi的光滑數(shù)值,即
對(duì)判定混有噪聲imf 分量應(yīng)用SG 濾波,轉(zhuǎn)化公式為
其中:s(·)為濾波擬合函數(shù)。
綜上,改進(jìn)ICEEMDAN 分解去噪方法步驟(圖1)如下:
1)對(duì)航班延誤序列x(t)進(jìn)行ICEEMDAN 分解得到imf 分量和剩余分量Res;
2)分別根據(jù)公式計(jì)算各imf 分量的相關(guān)系數(shù),包括自相關(guān)函數(shù)Rxx(τ)=E(imfn(t)·imfn(t+τ))和互相關(guān)函數(shù)Rxy(τ)=E(imfn(t)·x(t+τ));
3)通過互相關(guān)函數(shù)確定各模態(tài)分量包含原始序列信息的容量,根據(jù)自相關(guān)函數(shù)分析各模態(tài)分量混合噪聲信息;
4)研究相關(guān)系數(shù)特點(diǎn),確定序列噪聲的模態(tài)分界點(diǎn),對(duì)判定含有噪聲的模態(tài)分量imf1~imfn進(jìn)行SG 濾波,得到去噪的分量
圖1 改進(jìn)ICEEMDAN 分解去噪方法Fig.1 Improved ICEEMDAN denoising method
支持向量機(jī)回歸算法用于延誤序列的預(yù)測(cè)思想如下:設(shè)定延誤序列樣本集合{(x1,y1),…,(xk,yk)},xi∈Rn為延誤序列樣本輸入,yi∈R1為預(yù)測(cè)結(jié)果輸出,將非線性序列映射到高維空間進(jìn)行回歸預(yù)測(cè),映射函數(shù)[11]為
其中:w 為加權(quán)系數(shù)向量;φ(xi)為構(gòu)造數(shù)據(jù)到高維特征空間的映射;b 為偏置量。
支持向量機(jī)回歸函數(shù)標(biāo)準(zhǔn)形式可表示為
引入拉格朗日乘子,回歸函數(shù)近似為
引入核函數(shù)[12]可表示為
定義低維到高維空間的映射,在回歸函數(shù)求解過程利用核函數(shù)代替非線性映射簡化算法?;貧w函數(shù)方程表達(dá)式為
航班延誤預(yù)測(cè)使用歷史數(shù)據(jù)序列作為輸入進(jìn)行研究分析,但對(duì)于波動(dòng)幅度大、規(guī)律特征不明顯的航班延誤序列,現(xiàn)階段單一模型無法通過數(shù)據(jù)整體分析,得出航班的延誤規(guī)律,直接整體預(yù)測(cè)時(shí)難以取得良好的效果,因此,從延誤序列中分離出有效的延誤規(guī)律成為首要解決的問題。
建立預(yù)測(cè)組合模型,首先,通過改進(jìn)的ICEEMDAN分解去噪方法對(duì)航班延誤序列處理得到模態(tài)分量,顯現(xiàn)出延誤序列中隱含的特征信息,接著根據(jù)各分量的數(shù)據(jù)特征計(jì)算相應(yīng)的模型參數(shù)并建立SVM 回歸預(yù)測(cè)模型,最終得到航班延誤的預(yù)測(cè)值。組合預(yù)測(cè)模型的流程如圖2所示。
圖2 組合預(yù)測(cè)模型流程圖Fig.2 Flow chart of combined prediction model
航班延誤預(yù)測(cè)組合模型的步驟如下:
1)通過改進(jìn)的ICEEMDAN 去噪算法對(duì)航班延誤序列分解處理得到去噪后分量、無需去噪的分量和剩余分量Res;
2)分別建立支持向量機(jī)回歸預(yù)測(cè)模型SVR1~SVRk+1根據(jù)分量特征選取核函數(shù)K(xi,x);
3)通過網(wǎng)格搜索和V 折交叉驗(yàn)證(VFCV)[13]得到所有預(yù)測(cè)模型SVR1~SVRk+1回歸誤差估計(jì),確定最優(yōu)參數(shù)組合(C,γ)并計(jì)算各序列的預(yù)測(cè)值;
4)統(tǒng)計(jì)各分量模型預(yù)測(cè)值并計(jì)算疊加,得到航班延誤預(yù)測(cè)數(shù)據(jù),根據(jù)誤差指標(biāo)進(jìn)行回歸誤差分析。
航班延誤數(shù)據(jù)來源于VariFlight 網(wǎng)站,選擇旅客吞吐量為千萬級(jí)別的某國際樞紐機(jī)場(chǎng)為研究對(duì)象,獲取2017年1月1日至2018年3月23日每日進(jìn)出港延誤航班數(shù)據(jù),共得到447 個(gè)有效實(shí)驗(yàn)樣本,其中350個(gè)數(shù)據(jù)用作模型訓(xùn)練樣本,97 個(gè)數(shù)據(jù)用作結(jié)果測(cè)試樣本,航班延誤序列如圖3所示。
圖3 機(jī)場(chǎng)航班延誤序列Fig.3 Airport flight delay sequence
對(duì)航班延誤樣本進(jìn)行ICEEMDAN 處理,根據(jù)序列本身的時(shí)間尺度分解出模態(tài)分量,直至分解完成最后得出剩余分量。從圖4可看出,非線性非穩(wěn)態(tài)的航班延誤序列被分解為7 個(gè)波動(dòng)類似正弦的imf 分量和1個(gè)代表序列趨勢(shì)的剩余分量Res。
圖4 航班延誤序列ICEEMDAN 處理結(jié)果Fig.4 ICEEMDAN processing results of flight delay sequence
互相關(guān)函數(shù)描述了模態(tài)分量和原始延誤序列的匹配程度,分析模態(tài)分量包含原始延誤序列的信息的容量,定義兩者之間的相互依存關(guān)系,函數(shù)數(shù)值對(duì)分量進(jìn)行有效的信息量判決。各模態(tài)分量與原始序列的互相關(guān)函數(shù)如表1所示,其中imf1~imf3、imf7及Res分量與原始序列的相關(guān)性較高。
表1 模態(tài)分量互相關(guān)函數(shù)表Tab.1 Cross-correlation function of model components
歸一化自相關(guān)函數(shù)判定模態(tài)分量是否包含噪聲信息,依據(jù)白噪聲自相關(guān)函數(shù)特點(diǎn),圖5模態(tài)分量歸一化自相關(guān)函數(shù)圖發(fā)現(xiàn)前兩個(gè)分量在起點(diǎn)處取得最大值,隨著序列延續(xù)其自相關(guān)函數(shù)急速衰減,在0 點(diǎn)附近波動(dòng),因此,判定前二階分量被白噪聲污染。
圖5 歸一化自相關(guān)函數(shù)Fig.5 Normalized autocorrelation functions
然而,被污染分量imf1~imf2與原始延誤序列有相對(duì)強(qiáng)的相關(guān)性,其互相關(guān)函數(shù)達(dá)到0.446 5 和0.380 8,因此,篩選掉這兩個(gè)分量會(huì)造成數(shù)據(jù)量的缺失,可對(duì)imf1~imf2進(jìn)行SG 濾波去噪處理,保留其原始分量信息,分量imf1~imf2經(jīng)過SG 濾波去噪,結(jié)果如圖6所示。
圖6 SG 濾波處理Fig.6 SG filter wave processing
表2 預(yù)測(cè)模型參數(shù)及統(tǒng)計(jì)結(jié)果Tab.2 Parameters and statistical results of predictive models
表2中均方根誤差RMSE 和擬合度R2是交叉驗(yàn)證中訓(xùn)練集的驗(yàn)證結(jié)果,分析發(fā)現(xiàn)驗(yàn)證誤差隨著分量頻率的增加而增大,各分量驗(yàn)證均方根誤差最大值在10 以內(nèi),且擬合度數(shù)值都趨向于1,說明各分量預(yù)測(cè)模型訓(xùn)練結(jié)果良好。圖7和圖8為分量驗(yàn)證疊加結(jié)果,用來證明延誤組合預(yù)測(cè)模型數(shù)據(jù)訓(xùn)練的可靠性。除了在航班延誤序列突變區(qū)段出現(xiàn)偏離,總驗(yàn)證值曲線貼合實(shí)際值曲線,驗(yàn)證結(jié)果誤差量基本趨向于0,表現(xiàn)出組合預(yù)測(cè)模型對(duì)訓(xùn)練樣本數(shù)據(jù)的良好學(xué)習(xí)能力。
圖7 航班延誤序列驗(yàn)證結(jié)果Fig.7 Verification results of flight delay sequence
為進(jìn)一步驗(yàn)證改進(jìn)組合模型對(duì)航班延誤預(yù)測(cè)的有效性和可靠性,分別使用改進(jìn)組合模型和ICEEMDANSVM 預(yù)測(cè)模型進(jìn)行延誤預(yù)測(cè),并將預(yù)測(cè)結(jié)果比對(duì)分析。表3為各模型多步預(yù)測(cè)累加誤差統(tǒng)計(jì)分析。
圖8 驗(yàn)證結(jié)果誤差Fig.8 Verification error
表3 預(yù)測(cè)模型統(tǒng)計(jì)分析Tab.3 Statistical analysis of predicting models
模型采用五步一次實(shí)現(xiàn)延誤的滾動(dòng)預(yù)測(cè),結(jié)果表明:改進(jìn)組合模型有較高的預(yù)測(cè)精度,預(yù)測(cè)結(jié)果的均方根誤差較ICEEMDAN-SVM 模型降低8.7%,平均絕對(duì)百分比誤差(MAPE)降低11.9%,相比與原始序列的擬合度提高了9.5%。各模型航班延誤預(yù)測(cè)數(shù)據(jù)與實(shí)際樣本數(shù)據(jù)對(duì)比,如圖9所示。改進(jìn)組合預(yù)測(cè)模型在航班延誤序列曲線的波動(dòng)過程中,對(duì)序列波動(dòng)表現(xiàn)出較強(qiáng)的跟隨能力,而ICEEMDAN-SVM 模型因?yàn)槿鄙僭肼暤倪^濾,預(yù)測(cè)會(huì)受到噪聲干擾,結(jié)果有一定的延后性,甚至在序列波動(dòng)劇烈片段,會(huì)出現(xiàn)預(yù)測(cè)數(shù)據(jù)嚴(yán)重偏離實(shí)際延誤曲線,雖然兩種預(yù)測(cè)模型在極端值的預(yù)測(cè)能力上都有所欠缺,但改進(jìn)組合模型在數(shù)據(jù)峰值的回落過程和波動(dòng)復(fù)雜區(qū)段更能貼合原始數(shù)據(jù)。
圖9 航班延誤預(yù)測(cè)數(shù)據(jù)與原始序列對(duì)比Fig.9 Predicted vs.original data
綜上所述,航班延誤序列與其他類型的數(shù)據(jù)相比,其特點(diǎn)是波動(dòng)幅值較大、頻率較高,因此,簡單模型難以實(shí)現(xiàn)對(duì)航班延誤的準(zhǔn)確預(yù)測(cè)?;诖?,提出了改進(jìn)ICEEMDAN 去噪算法對(duì)航班延誤序列分解,將序列中隱藏的信息解析為近似正余弦的模態(tài)分量,并通過相關(guān)函數(shù)分析和SG 濾波處理,消除了虛假噪聲分量對(duì)最終結(jié)果造成的影響,然后對(duì)各分量建立合適的SVM預(yù)測(cè)模型,最終實(shí)現(xiàn)較高精確度的航班延誤預(yù)測(cè)。
1)改進(jìn)的航班延誤組合預(yù)測(cè)模型,將非線性、波動(dòng)劇烈的延誤序列分解使之平穩(wěn)化和規(guī)律化,得到不同頻率尺度的模態(tài)分量,再對(duì)分解后的規(guī)律分量建模,解決了對(duì)整體不規(guī)則序列不能準(zhǔn)確構(gòu)建模型的難題。
2)對(duì)分解后的模態(tài)分量模態(tài)進(jìn)行相關(guān)函數(shù)分析,使用SG 濾波處理混有噪聲的分量,并分別建立SVM回歸預(yù)測(cè)模型,根據(jù)分量特征統(tǒng)一選擇RBF 核函數(shù),解決了因核函數(shù)類型過多增加模型決策復(fù)雜度和降低預(yù)測(cè)準(zhǔn)確度的問題;再通過網(wǎng)格搜索和VFCV 驗(yàn)證獲得模型參數(shù),從而保證預(yù)測(cè)準(zhǔn)確性,驗(yàn)證結(jié)果表明各序列模型在對(duì)應(yīng)的參數(shù)下的預(yù)測(cè)結(jié)果良好。
3)改進(jìn)的組合預(yù)測(cè)模型使用相關(guān)函數(shù)分析和SG濾波,彌補(bǔ)了ICEEMDAN 分解結(jié)果混雜噪聲問題,可較準(zhǔn)確地剖析出航班延誤的特征,并通過訓(xùn)練模型參數(shù)優(yōu)化更準(zhǔn)確地描述延誤規(guī)律,提高了航班延誤的預(yù)測(cè)精度。
4)雖然改進(jìn)組合預(yù)測(cè)方法能夠?qū)崿F(xiàn)航班延誤短期預(yù)測(cè),但在延誤序列劇烈波動(dòng)的區(qū)段模型預(yù)測(cè)準(zhǔn)確性就會(huì)下降,經(jīng)過研究發(fā)現(xiàn)處理得到的分量波動(dòng)幅值較大,使用SVM 回歸模型預(yù)測(cè)在相對(duì)應(yīng)區(qū)段出現(xiàn)誤差影響。由于機(jī)場(chǎng)氣象因素和空域限制條件所影響,若在后續(xù)預(yù)測(cè)方法中加入相關(guān)因素的影響,將會(huì)大幅度提高在特定區(qū)段的預(yù)測(cè)準(zhǔn)確度。