樊 瑋,朱杰杰
(中國民航大學計算機科學與技術(shù)學院,天津 300300)
航線旅客流量組合預(yù)測模型
樊 瑋,朱杰杰
(中國民航大學計算機科學與技術(shù)學院,天津 300300)
航線旅客流量預(yù)測是航空公司航線網(wǎng)絡(luò)優(yōu)化的關(guān)鍵技術(shù),傳統(tǒng)的預(yù)測方法包括回歸法、時間序列法等面向旅客訂座數(shù)進行預(yù)測,鮮見考慮航線旅客流量數(shù)據(jù)較強的隨機性和持續(xù)增長特性。為了解決上述問題,該研究在回歸法的基礎(chǔ)上分別基于兩種不同的參考期進行預(yù)測,并提出一種組合預(yù)測模型。該模型的構(gòu)建分為4個階段:①將傳統(tǒng)的訂座數(shù)預(yù)測轉(zhuǎn)換為對客座率的預(yù)測,并對客座率數(shù)據(jù)的一階累加平滑處理,使得研究目標曲線變得平滑且單調(diào);②采用DOW策略的回歸法模型預(yù)測目標年份的數(shù)據(jù);③以相鄰年度同期擬合曲線的點差值來模擬年度增長量,建立預(yù)測模型;④針對第2、3階段兩種模型的預(yù)測結(jié)果,取加權(quán)平均值,建立新的組合預(yù)測模型。該研究選取某航空公司2011—2015年全年XMNPEK航段客座率數(shù)據(jù)為依據(jù),預(yù)測2016年上半年的客座率數(shù)據(jù)。對比傳統(tǒng)的回歸法、時間序列法兩種模型的預(yù)測結(jié)果,平均絕對誤差由原來的4.76和4.21縮減到3.77,預(yù)測的準確性有明顯提高。
航線旅客流量;組合預(yù)測;線性回歸;時間序列
航線訂座數(shù)據(jù)預(yù)測是航空公司航線網(wǎng)絡(luò)規(guī)劃的基礎(chǔ),伴隨著航空公司收益管理系統(tǒng)的深入實施,航空公司在單一航班預(yù)測方面,積累了豐富的經(jīng)驗[1],然而,由于應(yīng)用上的滯后,近年來國內(nèi)航空公司才逐漸重視航線整體預(yù)測,并將其應(yīng)用于基于起始地—目的地的航線網(wǎng)絡(luò)優(yōu)化[2]。常見的航線預(yù)測算法有基于時間序列的預(yù)測算法[3]、回歸法、基于支持向量機的預(yù)測算法[4]、基于神經(jīng)網(wǎng)絡(luò)的預(yù)測算法[5]等。然而這些算法大都面向旅客訂座數(shù)進行預(yù)測,且鮮見考慮民航旅客市場隨年度的增長特性[6-8]。由于市場運力的波動,會導(dǎo)致訂座數(shù)據(jù)由于受航線上總座位數(shù)的波動而產(chǎn)生較大波動,且數(shù)據(jù)隨機性較大。因此,該研究擬在解決上述問題的基礎(chǔ)上,進行航線訂座整體預(yù)測研究。
對航線旅客流量的預(yù)測一般都基于歷史訂座數(shù)據(jù),單一航班的訂座數(shù)據(jù)穩(wěn)定性相對較高,而航線上往往在每周的不同天(DOW,day ofweek)具有不同的機型、航班數(shù)量,航線總座位數(shù)相差較大,同時訂座數(shù)也相差較大,因此,該研究采用相對穩(wěn)定的航線客座率進行預(yù)測,預(yù)測結(jié)果可依據(jù)當日航線總座位數(shù)折算為預(yù)測訂座數(shù)。
考慮到銷售異常及航班銷售限制,在預(yù)測之前必須進行數(shù)據(jù)預(yù)處理。首先需要統(tǒng)計1年的航線訂座數(shù)據(jù)均值及標準差,濾去訂座數(shù)據(jù)超出3倍標準差的航班;其次,對銷售旺期客座率接近100%的航班,考慮到銷售受到實際座位數(shù)的限制,對訂座數(shù)據(jù)要作10%左右的放大處理。此外,該研究將每年的日期分別記作第1~365天。選取某航空公司2014年和2015年全年XMNPEK航段客座率數(shù)據(jù),以x軸代表第1~365天的航班日期,y軸代表每天的客座率數(shù)據(jù),如圖1所示,可見航班客座率的變化具有較強的隨機性。但同時也易發(fā)現(xiàn),兩年對應(yīng)時間段客座率趨勢的變化具有一定的相關(guān)性。
圖1 XMNPEK航線2014和2015年客座率變化曲線Fig.1 PLF variation curve of XMNPEK route in 2014 and 2015
鑒于圖1所示數(shù)據(jù)較強的隨機性,記原始數(shù)據(jù)為
該研究首先對原始數(shù)據(jù)進行一階累加并得到一階累加數(shù)列
圖2顯示了分別對2014和2015年的客座率數(shù)據(jù)進行累加處理后得到的曲線,可看出累加處理后的曲線較處理前,不但更加平滑且具有明顯的單調(diào)性。
圖2 XMNPEK航線2014和2015年客座率一階累加曲線Fig.2 PLF first order accumulated value curve in 2014 and 2015 of XMNPEK route
回歸法是航班訂座常用的方法[9],一般采用同一個DOW的歷史數(shù)據(jù)對未來航班進行預(yù)測,和傳統(tǒng)方法不同之處在于,該研究是對航線整體的預(yù)測,且將預(yù)測目標轉(zhuǎn)換為客座率的一階累加,但歷史數(shù)據(jù)的選擇依然采用了相同DOW的策略,如要預(yù)測第n天的客座率,可利用第n-49、n-42、…、n-7的歷史數(shù)據(jù),一般用前面7個數(shù)據(jù)點擬合曲線,每個數(shù)據(jù)點間隔7天,注意,這里暫時不考慮節(jié)假日對數(shù)據(jù)的影響。
首先對一階累加結(jié)果進行線性擬合,設(shè)天數(shù)為xi,累加結(jié)果為yi,n=365,則擬合如下
該模型對于未來擬預(yù)測的數(shù)據(jù)可直接擬合,將某天的一階累加預(yù)測結(jié)果記為b^i,則預(yù)測時需同時計算第i-1天的一階累加預(yù)測結(jié)果b^i-1,如此,航線客座率在第i天的預(yù)測結(jié)果為
受市場經(jīng)濟影響,航線銷售量持續(xù)增長,且由于節(jié)假日的影響,單采用n-49、n-42、…、n-7的歷史數(shù)據(jù)進行線性擬合必然導(dǎo)致整體預(yù)測數(shù)據(jù)準確率降低,考慮到這兩個因素,該研究首先使用線性回歸對要預(yù)測的航線客座率及去年同期數(shù)據(jù)進行線性擬合,并找出同一點上的年度差值,進行組合預(yù)測。
假設(shè)預(yù)測2016年第i天客座率,預(yù)測過程如下:
1)通過一階累加處理2014和2015年的XMNPEK航線的客座率數(shù)據(jù),分別得到如下兩個數(shù)列
這里要指出關(guān)鍵的一點,如果是參考往年同期的數(shù)據(jù),擬預(yù)測年份的括號內(nèi)標i記為年份對應(yīng)的0~365天,代表相對應(yīng)擬預(yù)測年份第i天的去年同期的某個日期。
2)將兩個數(shù)列分別進行線性擬合,得到兩條直線fb(2014)(x),fb(2015)(x)。
3)計算2014和2015的年度差值。差值模型為
其中:ωn(x)代表擬預(yù)測年份的x天分別映射到參考期年份同期之間年度差值,ω的下標n代表擬預(yù)測年份和最大參考期年份之間的差值;y為參考期中的最大參考年份。
因此,2014和2015的年度差值為
其中:預(yù)測年份為 2016,參考期為{2015,2014},n 為預(yù)測年份(2016)與最大參考年份(2015)差值為1。
4)式(8)為單獨使用 2015、2014兩年求得的年度差值,為了防止過擬合和降低特殊年份帶來的影響,該研究中選取了2011—2015年某航空公司在XMNPEK航段上5年的全年數(shù)據(jù)進行預(yù)測,并分別以{2015,2014}、{2014,2013}、{2013,2012}、{2012,2011}4 組數(shù)據(jù)為參考期進行預(yù)測。重復(fù)步驟1)~步驟3),并計算年度差值。
5)根據(jù)現(xiàn)有的數(shù)據(jù),經(jīng)過線性回歸,擬合ω1(x)、ω2(x)、ω3(x)、ω4(x),預(yù)測得到2015和2016之間的年度差值為ω0(x)。
6)外推得到預(yù)測2016年的客座率累加結(jié)果為
為了提高精度,將上述兩個預(yù)測模型的預(yù)測結(jié)果加權(quán)平均得到最終的預(yù)測結(jié)果為
其中,k1+k2=1。根據(jù)2014和2015年的歷史數(shù)據(jù),分別用1.1節(jié)和1.2節(jié)的算法預(yù)測2015年全年每天的客座率,并和實際值相比,得出預(yù)測誤差項為
取 k1在(0,1)之間,以 0.02的精度遍歷,分別求出每個k1對應(yīng)的最小誤差e,得到k1=0.38,k2=0.62。
以某航空公司XMNPEK航線客座率數(shù)據(jù)為例,該公司在本條航線上每日有7個班次,選取2014和2015年全年數(shù)據(jù)作為歷史數(shù)據(jù),用來預(yù)測2016年上半年數(shù)據(jù),預(yù)測提前期25天。分別采用傳統(tǒng)的回歸預(yù)測法[10]、基于時間序列的預(yù)測法進行預(yù)測,該研究提出的組合預(yù)測算法,結(jié)果如圖3~圖5所示。
圖3 傳統(tǒng)回歸算法預(yù)測效果比較圖Fig.3 Comparison of traditional regression forecasting algorithms
圖4 時間序列的算法效果比較圖Fig.4 Comparison of time series for casting algorithm s
圖5 組合預(yù)測算法效果比較圖Fig.5 Comparison of combined for casting algorithms
表1中分別計算上述3種算法的平均絕對誤差,顯然,組合預(yù)測算法平均絕對誤差遠小于其他各種單一誤差的最小誤差,組合預(yù)測模型的效果較好。
表1 不同預(yù)測方法預(yù)測值平均相對誤差對比Tab.1 Comparison of mean absolute errors of predicted values by different prediction algorithms
本文主要研究航線旅客流量預(yù)測,為了解決航線上運力隨時變化的問題,將傳統(tǒng)的訂座數(shù)預(yù)測轉(zhuǎn)換為對客座率的預(yù)測,針對航線客座率數(shù)據(jù)隨機性較大的問題,采用了一階累加來平滑數(shù)據(jù)。在具體算法設(shè)計上,考慮到旅客流量和航空公司投入運力的逐年增長,以本年度和往年同期擬合曲線的點差值來模擬年度增長量,經(jīng)多重線性回歸,形成一種新的組合預(yù)測模型。實例仿真表明,組合預(yù)測模型比單一模型的預(yù)測結(jié)果更可靠、更合理。
[1]ARSLAN A M,FRENK JBG,SEZER SO.On the single-leg airline revenue management problem in continuous time[J].Mathematical Methods of Operational Research,2015,81(1):1-26.
[2]王 帥,潘志林.我國民航航路航線的優(yōu)化和設(shè)計問題探討[J].科技創(chuàng)新與應(yīng)用,2016(21):67.
[3]王 楠,張 顯.大數(shù)據(jù)時間序列分析航班旅客人數(shù)預(yù)測[J].統(tǒng)計與咨詢,2016(4):26-28.
[4]王文然,陳金良,張艦齊.基于最小二乘支持向量機的航路流量預(yù)測與評估[J].東北師大學報(自然科學版),2015,47(3):83-89.
[5]朱 倩.基于小波神經(jīng)網(wǎng)絡(luò)模型的民航旅客流量預(yù)測研究[D].北京:北京交通大學,2014.
[6]張橋艷.國內(nèi)航線市場需求預(yù)測方法研究[J].桂林航天工業(yè)學院學報,2016,21(1):20-23.
[7]張 乾.我國民航業(yè)和GDP關(guān)系實證研究[J].時代金融旬刊,2016(9):15-17.
[8]馮馳一,張 麗.民航客運量與GDP的線性分析[J].科學與財富,2012(9):33.
[9]施天威,趙忠明,劉永良,等.基于最小一乘法的瓦斯含量預(yù)測研究[J].礦業(yè)安全與環(huán)保,2016,43(1):54-56.
[10]瞿 鈞.回歸分析在航空運量預(yù)測中的應(yīng)用[J].數(shù)理統(tǒng)計與管理,1988(3):7-10.
Combined forecasting model for passenger traffic volume on route
FAN Wei,ZHU Jiejie
(College of Computer Science,CAUC,Tianjin 300300,China)
Prediction of passenger traffic volume on route is one of the most important technologies of route network optimization.Traditional prediction method is based on passenger booking data.Generally used models include regression method,time series method and so on.However,these models consider less about the randomness of route flow data and the continuous growth of passenger volume.In order to solve these problems,combined forecast model is proposed based on regression method,which rely on two different reference periods.Construction of the model is divided into four stages:a.using load factor data to forecast and the visiting rate data of first-order accumulative smoothing makes the target curve becomes smooth and monotonous;b.using DOW method to predict the target year data;c.using the fitting curve of the adjacent pointvalue to simulate the annual growth amount and build a forecasting model;d.taking average weighted value based on forecasting results from the above two stages,and establishing a new combined forecasting model.XMNPEK segment guest rate data of an airline in 2011—2015 is used to predict the load factor data for the first half of 2016.Compared with traditional regression method and time series method,mean absolute error of the current method is reduced from 4.76 and 4.21 to 3.77 and the prediction accuracy is improved obviously.
passenger traffic volume on route;combined forecasting;linear regression;time series
樊瑋(1968—),男,陜西乾縣人,教授,博士,研究方向為數(shù)據(jù)挖掘、計算機軟件理論與應(yīng)用和智能信息處理.
TP301;V352
A
1674-5590(2017)05-0026-04
2016-12-08;
2017-03-02
國家自然科學基金項目(U1333109);中央高?;究蒲袠I(yè)務(wù)費專項(3122016B006)
?
孟 欣)