李晨婉,韋 薇
2020 年,全國(guó)客運(yùn)航空公司共執(zhí)行航班352.06 萬(wàn)班次,其中,正常航班311.64 萬(wàn)班次,平均航班正常率為88.52%[1]。與往年的正常航班比例相比,正常航班率有所提升,但天氣、空管、旅客等帶來的航班延誤所造成的經(jīng)濟(jì)成本損失和運(yùn)營(yíng)成本的額外增加,會(huì)使旅客的出行和航空公司受到負(fù)面影響。為了緩解航班延誤問題的影響,首先要對(duì)航班延誤原因進(jìn)行分析,其次根據(jù)航班延誤的問題進(jìn)行提前預(yù)測(cè),并在預(yù)測(cè)的基礎(chǔ)上對(duì)航班資源加以調(diào)整。Kim Myeonghyeon、Noriko Etani[2-3]分別將機(jī)場(chǎng)和天氣作為研究航班延誤時(shí)間的主要因素,根據(jù)延誤的傳播和被傳播程度及進(jìn)行分組,前者以濟(jì)州機(jī)場(chǎng)為研究對(duì)象,得出機(jī)場(chǎng)和航線與航班延誤之間存在關(guān)聯(lián)關(guān)系,天氣情況和機(jī)場(chǎng)對(duì)航班延誤的影響非常大。許保光等、賈萌、沙夢(mèng)一等[4-6]從機(jī)場(chǎng)繁忙程度對(duì)航班延誤波及分析,分析了三個(gè)波及延誤的主要原因,并建立關(guān)于延誤波及的貝葉斯模型進(jìn)行延誤預(yù)測(cè)。王晶華、代曉旭和張兆寧[7-9]從交通網(wǎng)絡(luò)層面利用傳染病模型,模擬病毒傳播的方式來模擬延誤的傳播預(yù)測(cè)下一階段大面積延誤傳播的發(fā)生。王輝等、吳仁彪等、谷潤(rùn)平等、王興隆等、丁建立等[10-15]使用深度學(xué)習(xí)融合的集成訓(xùn)練方法對(duì)航班延誤進(jìn)行分析,對(duì)主要特征進(jìn)行提取,通過更新迭代的算法訓(xùn)練模型,大大提高了準(zhǔn)確率和訓(xùn)練效率。
以上研究都是在延誤預(yù)測(cè)的算法和延誤波及的相關(guān)因素研究的領(lǐng)域,在考慮延誤預(yù)測(cè)航班波及其中的影響作用時(shí),缺少在影響因素的不同層面進(jìn)行分析,不同層面的因素對(duì)延誤結(jié)果的影響程度不同。本文就航班延誤擴(kuò)散對(duì)航班延誤的影響進(jìn)行進(jìn)一步的探究,將產(chǎn)生延誤的影響因子細(xì)分為橫向因子和縱向因子,分別就兩個(gè)空間層面的影響因素進(jìn)行預(yù)測(cè),最終將兩個(gè)層面的影響因素綜合分析,與橫向因子和縱向因子分別作用時(shí)進(jìn)行對(duì)比分析。
航班延誤的生命周期由航班延誤的產(chǎn)生、航班延誤的擴(kuò)散以及航班延誤的消除三個(gè)過程組成。在執(zhí)行航班任務(wù)的過程中,由于惡劣天氣、飛行器的故障、突發(fā)情況等原因造成的航班延誤,通常認(rèn)為是獨(dú)立因素造成的延誤問題。在獨(dú)立延誤因素之外,航班延誤波及在延誤擴(kuò)散中占據(jù)很大的比重。所以,對(duì)航班延誤波及原因的分析是航班延誤預(yù)測(cè)的必要步驟。在研究波及延誤的影響時(shí),將延誤的擴(kuò)散方式也從空間方向上分為兩大類,分別是橫向擴(kuò)散和縱向擴(kuò)散。
航空公司安排同一架飛機(jī)在一天內(nèi)執(zhí)行多個(gè)航班任務(wù),在延誤產(chǎn)生的過程中,當(dāng)某個(gè)航班發(fā)生延誤,就會(huì)對(duì)下一航班造成影響,該延誤稱為前序航班延誤。航班的飛行計(jì)劃是連續(xù)的,容易引發(fā)連鎖反應(yīng),造成后續(xù)航班的延誤稱為航班延誤擴(kuò)散的延誤,以這種方式造成延誤的原因稱作為航班延誤的縱向因子。借助時(shí)空網(wǎng)絡(luò)圖表示縱向因子的作用過程,如圖1 所示。
圖1 縱向因子作用示意圖
縱向擴(kuò)散主要影響的對(duì)象是航班,本文忽略了空中突發(fā)事件對(duì)于航班正常飛行的影響,主要考慮由相鄰航班發(fā)生的延誤,也就是前序航班延誤順延到下一趟航班的延誤以及航班相關(guān)的影響因素包括航班運(yùn)行的時(shí)間和航空公司等,這些因素與航班延誤也存在互相影響的關(guān)系,縱向擴(kuò)散的影響指標(biāo)如表1 所示。
表1 縱向擴(kuò)散影響下的延誤指標(biāo)分類
航班延誤橫向擴(kuò)散的產(chǎn)生主要發(fā)生在航班著陸和起飛的階段。機(jī)場(chǎng)容量、機(jī)場(chǎng)過站航班量、過站時(shí)間和延誤之間存在一定的關(guān)系。本文中影響航班延誤的主要因素之一橫向因素,主要作用于機(jī)場(chǎng)層面。
由于機(jī)場(chǎng)、跑道容量等資源有限,因此飛機(jī)的起飛降落都有一定的計(jì)劃,一旦某架飛機(jī)發(fā)生延誤,產(chǎn)生滯留等結(jié)果,就會(huì)導(dǎo)致其到達(dá)時(shí)機(jī)場(chǎng)容量不足而只能讓后續(xù)航班延遲起飛,從而對(duì)機(jī)場(chǎng)的其它航班產(chǎn)生一定的影響,其導(dǎo)致的延誤稱為源延誤時(shí)間,源延誤時(shí)間的產(chǎn)生由于最小過站時(shí)間的限制又會(huì)增加航班的進(jìn)港延誤,從而形成延誤的橫向擴(kuò)散。從空間地域方面造成的航班延誤的原因可稱作為航班延誤的橫向因子,影響航班獨(dú)立延誤和波及延誤的因素,主要影響因素包括機(jī)場(chǎng)容量、機(jī)場(chǎng)規(guī)模、目的機(jī)場(chǎng)的航班延誤數(shù)量以及天氣等因素。借助時(shí)空網(wǎng)絡(luò)圖,以機(jī)場(chǎng)作為橫軸按時(shí)間順序自左到右。起點(diǎn)為機(jī)場(chǎng)的首個(gè)延誤航班,如圖2 所示。
圖2 橫向因子作用示意圖
縱向因素影響航班波及延誤,主要影響因素有前序航班的延誤狀態(tài)以及飛行時(shí)間,起落時(shí)間段等。根據(jù)機(jī)場(chǎng)和航班兩個(gè)載體進(jìn)一步把航班延誤的影響因素在空間上分為縱橫兩向。由航班橫向因子的作用示意圖來看,橫向因子的主要作用范圍在飛機(jī)所在機(jī)場(chǎng),在不考慮突發(fā)事件的基礎(chǔ)上提出天氣、所在機(jī)場(chǎng)、是否改道和安全問題造成的延誤四個(gè)指標(biāo)作為橫向擴(kuò)散的影響因素,如表2 所示。
表2 橫向擴(kuò)散影響下的延誤指標(biāo)分類
梯度提升決策樹(Light Gradient Boosting Machine,LightGBM) 在以梯度提升樹(Gradient Boosting Decision Tree,GBDT)算法為基礎(chǔ)的分布式梯度提升框架。占用內(nèi)存小,使用直方圖算法:將特征值分成許多小筒,進(jìn)而在筒上搜索分裂點(diǎn),減少了計(jì)算代價(jià)和存儲(chǔ)代價(jià),得到更好的性能。傳統(tǒng)的機(jī)器學(xué)習(xí)一般不能支持直接輸入類別特征,需要先轉(zhuǎn)化成多維的0~1 特征,這樣無論在空間上還是時(shí)間上效率都不高。在這樣的算法中也需要控制樹的深度和每個(gè)葉子結(jié)點(diǎn)的最小數(shù)據(jù)量,從而減少過擬合。將Histogram 算法、GOSS(Gradient-based One-Side Sampling) 算法和EFB(Exclusive Feature Bundling) 算法引入,生成一葉子需要的復(fù)雜度大大降低了,從而極大節(jié)約了計(jì)算時(shí)間。同時(shí),Histogram 算法還將特征浮點(diǎn)數(shù)轉(zhuǎn)換成0~255 位的整數(shù)進(jìn)行存儲(chǔ),大大節(jié)約了內(nèi)存存儲(chǔ)。
LightGBM 采用分布式的GBDT,選擇直方圖算法。基本思想是先把連續(xù)的浮點(diǎn)特征值離散化成k個(gè)整數(shù),同時(shí)構(gòu)造一個(gè)寬度為k的直方圖。在遍歷數(shù)據(jù)的時(shí)候,根據(jù)離散化后的值作為索引在直方圖中累積統(tǒng)計(jì)量,當(dāng)遍歷一次數(shù)據(jù)后,直方圖累積了數(shù)據(jù)的統(tǒng)計(jì)量,然后根據(jù)直方圖的離散值,遍歷尋找最優(yōu)的分割點(diǎn)。直方圖算法原理如圖3 所示。
圖3 直方圖算法原理
LightGBM 的預(yù)測(cè)模型是由一系列弱學(xué)習(xí)器(即一系列決策樹) 組成的,其表達(dá)形式如下:
式中:F代表強(qiáng)學(xué)習(xí)器,xi代表第i個(gè)樣本,L代表?yè)p失函數(shù),yi為第i個(gè)樣本預(yù)測(cè)值,α 為一常數(shù), 可使損失函數(shù)最小化,m為樣本個(gè)數(shù),LR為學(xué)習(xí)速率,ωij為在第j個(gè)決策樹的第i個(gè)葉節(jié)點(diǎn)中所有樣本的最佳替代值,Cl1為l1 項(xiàng)正則化系數(shù),Cl2為l2項(xiàng)正則化系數(shù),Rl為決策樹總量;Lj為第j顆決策樹葉節(jié)點(diǎn)個(gè)數(shù)。
為驗(yàn)證模型可行性,在Window10 環(huán)境下,利用python3.10 實(shí)現(xiàn)lightGBM 對(duì)模型的預(yù)測(cè)。根據(jù)表1 和表2 選取變量,并且選擇航班信息如:航班尾號(hào)、始發(fā)機(jī)場(chǎng)編號(hào)、始發(fā)機(jī)場(chǎng)名稱、航空公司、目的機(jī)場(chǎng)城市名稱、計(jì)劃出發(fā)時(shí)間、計(jì)劃到達(dá)時(shí)間、實(shí)際出發(fā)時(shí)間、實(shí)際到達(dá)時(shí)間。
選取美國(guó)交通運(yùn)輸部一年的航班數(shù)據(jù),其中對(duì)存在延誤的7 萬(wàn)余個(gè)航班數(shù)據(jù)和31 個(gè)特征變量進(jìn)行分析。將數(shù)據(jù)缺失進(jìn)行補(bǔ)充,少數(shù)異常值處理掉。少數(shù)缺失值用均值補(bǔ)充,數(shù)據(jù)中差距較大的數(shù)據(jù)做刪除處理。將數(shù)據(jù)中的缺失值和異常值進(jìn)行處理,部分?jǐn)?shù)據(jù)如表3 所示:
表3 部分航班數(shù)據(jù)融合示例
使用pyhon3.10 讀取總數(shù)據(jù),刪除多余的特征變量,對(duì)剩余的特征提取特征變量和目標(biāo)變量,按照訓(xùn)練數(shù)據(jù)80%、驗(yàn)證數(shù)據(jù)20%劃分訓(xùn)練集和測(cè)試集,模型訓(xùn)練和搭建,不斷迭代選取最優(yōu)參數(shù)后使用驗(yàn)證數(shù)據(jù)集對(duì)模型預(yù)測(cè)并畫出ROC(Receiver Operating Characteristic) 曲線驗(yàn)證模型,得出準(zhǔn)確率進(jìn)行評(píng)估。數(shù)據(jù)處理流程如圖4 所示。
圖4 數(shù)據(jù)分析流程
通過AUC(Area Under Curve) 值檢驗(yàn)使用LightGBM 方法的可行性。并且將橫向特征和縱向特征分別作為航班延誤預(yù)測(cè)的基礎(chǔ)特征進(jìn)行預(yù)測(cè),得到的準(zhǔn)確率與綜合預(yù)測(cè)的結(jié)果和相對(duì)比如圖5 和表4 所示。
表4 不同特征值的結(jié)果對(duì)比
圖5 模型ROC 曲線結(jié)果
模型的AUC 值越接近1 表示越可行,所以驗(yàn)證了使用LightGBM 的方法構(gòu)建模型預(yù)測(cè)時(shí)可行的。如表4 所示,橫向預(yù)測(cè)的準(zhǔn)確率為80.2%,縱向預(yù)測(cè)的準(zhǔn)確率為78.53%,綜合預(yù)測(cè)的準(zhǔn)確率為91.5%,綜合預(yù)測(cè)的準(zhǔn)確度遠(yuǎn)高于橫向預(yù)測(cè)和縱向預(yù)測(cè)的結(jié)果,符合要求??傻贸?,從空間擴(kuò)散的角度研究航班延誤預(yù)測(cè)問題時(shí),分析橫向空間的影響力比縱向空間的影響力更有效但精度往往較低,將橫向因素和縱向因素結(jié)合分析的航班預(yù)測(cè)結(jié)果最為理想。其中,橫向因素中包含天氣這一主要影響因素,所得到的準(zhǔn)確率高于縱向因素作為特征值時(shí)的結(jié)果。
首先通過分析航班延誤的原因,探討航班延誤空間擴(kuò)散產(chǎn)生后對(duì)航班延誤的影響,將航班延誤空間擴(kuò)散形式界定為橫向和縱向擴(kuò)散;其次從橫向因素和縱向影響因素兩個(gè)視角入手,分析橫向因素和縱向因素的成因和擴(kuò)散方式;最后對(duì)橫向數(shù)據(jù)集、縱向數(shù)據(jù)集以及綜合數(shù)據(jù)集分別作為輸入集對(duì)航班延誤進(jìn)行預(yù)測(cè)。最終得到在相同的環(huán)境條件下,從橫縱向空間擴(kuò)散的角度研究航班延誤,得出橫縱向共同作用下的預(yù)測(cè)思路可以取得更好的預(yù)測(cè)效果。
本文研究的內(nèi)容還有一定的欠缺:(1) 忽略了很多突發(fā)影響因素,只考慮了一般情況下的結(jié)果。(2) 采集樣本數(shù)據(jù)不夠充足,應(yīng)擴(kuò)寬橫向影響因素的范圍,細(xì)分影響因素類型并分析。得到預(yù)測(cè)結(jié)果后的延誤優(yōu)化也是重要的一個(gè)環(huán)節(jié),可以在以后進(jìn)一步研究。