陳靜杰,梁國棟,劉家學(xué)
(1.中國民航大學(xué) 電子信息與自動(dòng)化學(xué)院,天津 300300;2.中國民航大學(xué) 中國民航環(huán)境與可持續(xù)發(fā)展研究中心(智庫),天津 300300;3.中國民航大學(xué)綜合交通大數(shù)據(jù)應(yīng)用技術(shù)國家工程實(shí)驗(yàn)室,天津 300300)
國際民航組織要求飛機(jī)運(yùn)營人聘請(qǐng)第三方核查上報(bào)油耗數(shù)據(jù)的合理性,第三方可采用區(qū)間估計(jì)方法篩選出合理性較高的數(shù)據(jù),然而,隨著油耗數(shù)據(jù)基數(shù)增大,區(qū)間外的截尾油耗數(shù)據(jù)量也隨之升高,且其分布的稀疏性及非正態(tài)性導(dǎo)致傳統(tǒng)的油耗區(qū)間估計(jì)方法[1,2]不再適用,因此,有必要建立針對(duì)航段截尾油耗數(shù)據(jù)的核查方法。
飛機(jī)油耗估計(jì)是建立相關(guān)核查方法的基礎(chǔ)。當(dāng)前,國內(nèi)外學(xué)者對(duì)飛機(jī)油耗估計(jì)的研究主要有兩個(gè)方面,其一,針對(duì)特定飛行階段的油耗估計(jì),如滑行[3]、爬升[4]、巡航[5]、下降[6]等。其二,基于飛行數(shù)據(jù)驅(qū)動(dòng)飛機(jī)性能模型[7,8]、深度學(xué)習(xí)模型[9,10]的全航程油耗估計(jì)。特定飛行階段的油耗估計(jì)方法較難直接應(yīng)用于油耗數(shù)據(jù)核查,而將全航程油耗估計(jì)方法應(yīng)用于油耗數(shù)據(jù)核查的難點(diǎn)在于:特征選擇和建立快速、準(zhǔn)確的估計(jì)模型。傳統(tǒng)的飛行特征選擇方法以經(jīng)驗(yàn)分析、相關(guān)性系數(shù)為主,具有局限性,其它特征選擇及改進(jìn)方法包括:卡方檢驗(yàn)[11]、最小冗余最大相關(guān)性(mRMR)[12]、基于樹的方法[13]等,主要是單獨(dú)衡量數(shù)據(jù)集中每個(gè)特征與目標(biāo)值相關(guān)性的大小。然而,存在某些特征在樣本集整體上與目標(biāo)值的相關(guān)性較弱,但在樣本集局部上卻與目標(biāo)值表現(xiàn)出較強(qiáng)的相關(guān)性。因此,常規(guī)的特征選擇方法容易遺漏重要的局部特征。此外,諸多全航程油耗估計(jì)方法對(duì)于飛機(jī)處在正常運(yùn)行條件范圍內(nèi)的估計(jì)效果較好,但航段截尾油耗數(shù)據(jù)分布于低油耗和高油耗區(qū)間,其運(yùn)行條件相對(duì)特殊,傳統(tǒng)油耗估計(jì)方法對(duì)該類數(shù)據(jù)的估計(jì)準(zhǔn)確度不高。
針對(duì)上述問題,本文提出了基于分類和沙普利加性解釋(classification and Shapley additive explanations,C-SHAP)的改進(jìn)分位數(shù)回歸森林區(qū)間估計(jì)方法(quantile regression forest,QRF),可提高估計(jì)區(qū)間質(zhì)量。
由于航段截尾油耗數(shù)據(jù)的特殊性,基于單因素的油耗估計(jì)方法難以對(duì)該部分?jǐn)?shù)據(jù)的合理性做出正確判斷。因此,需考慮其它與油耗相關(guān)的飛行特征,建立基于多因素的油耗估計(jì)方法,進(jìn)而從多個(gè)角度核查該部分?jǐn)?shù)據(jù),而選擇合理的輸入特征集對(duì)估計(jì)方法至關(guān)重要。本文提出通過對(duì)特征、樣本集分類并結(jié)合SHAP模型的方法篩選出最優(yōu)的飛行特征集。
SHAP模型[14]計(jì)算特征重要性的核心思想來源于博弈論,即確定各輸入特征對(duì)估計(jì)結(jié)果的貢獻(xiàn)程度。設(shè):M維的初始特征集為F={x1,x2,…,xM}, 其中,xi代表飛行特征i的值,SHAP通過一種加性特征歸因方法解釋模型的估計(jì)值
(1)
式中:f(x) 是模型的估計(jì)值;g是解釋模型;z′∈{0,1}M, 即當(dāng)輸入特征xi存在時(shí)z′i為1,反之為0;φ0是訓(xùn)練樣本中目標(biāo)變量的平均值,本文的目標(biāo)變量是油耗;φi是特征i的SHAP值,SHAP值的具體計(jì)算步驟如下:
(1)根據(jù)初始候選飛行特征集F構(gòu)建其冪集S,M維的特征集F共有2M個(gè)冪集。
(2)在所有冪集S上訓(xùn)練基線模型,由于本文采用的油耗估計(jì)模型是分位數(shù)回歸森林,因此,其基線模型是隨機(jī)森林回歸??傻玫皆趦缂疭上的估計(jì)fS,fS∪{i}是在該冪集中引入新的特征i而構(gòu)建的新冪集上的估計(jì)。進(jìn)而計(jì)算特征i在該冪集模型上的邊際貢獻(xiàn)fS∪{i}(xS∪{i})-fS(xS), 其中,xS是該冪集S的所有特征值。
(3)特征i的SHAP值φi是所有可能邊際貢獻(xiàn)的加權(quán)均值
(2)
(4)根據(jù)SHAP模型的核心思想,具有較大SHAP值的特征更為重要,特征i的重要性(FI)表示為
(3)
式中:n為訓(xùn)練樣本的數(shù)目。
C-SHAP方法進(jìn)行特征選擇的步驟如下:
(1)首先,將候選飛行特征按其性質(zhì)分為全航程和飛行階段油耗影響特征兩類。由于全航程特征與飛機(jī)油耗間具有明確的強(qiáng)相關(guān)性,全部予以保留。
(2)其次,將樣本集按航段分類。采用SHAP模型分別在各航段樣本子集上選擇給定閾值數(shù)量下的飛行階段特征子集。
(3)再次,將各航段的飛行特征選擇結(jié)果取并集,計(jì)算各特征的權(quán)值,并進(jìn)行重要性排序,進(jìn)一步選擇出給定閾值數(shù)量的最優(yōu)飛行階段特征子集。
(4)最后,綜合全航程特征集與最優(yōu)飛行階段特征子集獲得最優(yōu)輸入飛行特征集。
對(duì)航段截尾油耗數(shù)據(jù)進(jìn)行區(qū)間估計(jì)時(shí),由于樣本集中的航段截尾油耗樣本相對(duì)較少(注:本文將每個(gè)航段油耗樣本集中小于0.05分位、大于0.95分位油耗值的樣本定義為航段截尾油耗樣本),而QRF進(jìn)行估計(jì)的原理如圖1所示,需通過Bootstrap抽樣方法得到多個(gè)樣本子集以建立不同的決策樹,進(jìn)而構(gòu)建森林。在這種情況下,每棵決策樹葉子中的航段截尾油耗觀測(cè)樣本數(shù)目進(jìn)一步減少,導(dǎo)致QRF模型對(duì)該類數(shù)據(jù)的估計(jì)結(jié)果偏高或者偏低。因此,本文采用在解決高維樣本類別不平衡問題中相對(duì)有效的隨機(jī)過采樣算法[15](random oversampling,ROS)重構(gòu)樣本集,即增加訓(xùn)練集中航段截尾油耗樣本的權(quán)值,以提高模型在面向航段截尾油耗數(shù)據(jù)估計(jì)時(shí)的準(zhǔn)確性。
由于訓(xùn)練集中航段截尾油耗樣本相對(duì)較少,需使用較高的過采樣率,然而隨著過采樣率的增大,會(huì)引入噪聲,造成過擬合問題,因此,在盡可能提高航段截尾油耗樣本權(quán)值的同時(shí)要確定最大過采樣率。本文提出基于網(wǎng)格搜索的過采樣率尋優(yōu)方法,其原理如圖2所示,其核心思想在于通過遍歷網(wǎng)格中的過采樣率,不斷重構(gòu)訓(xùn)練集進(jìn)行區(qū)間估計(jì)和評(píng)價(jià),在保證滿足可靠性的前提下尋找最大過采樣率。
圖2 網(wǎng)格搜索確定最大過采樣率原理框架
本文在采用C-SHAP方法進(jìn)行特征選擇、隨機(jī)過采樣方法重構(gòu)訓(xùn)練集的基礎(chǔ)上,建立了QRF航段截尾油耗區(qū)間估計(jì)模型,通過輸入飛行特征數(shù)據(jù),估計(jì)該航班油耗的條件分位數(shù),進(jìn)而構(gòu)建一定置信度的油耗估計(jì)區(qū)間。
QRF由隨機(jī)森林結(jié)合分位回歸理論發(fā)展得到,可獲得因變量的全部條件分布信息,相較于深度學(xué)習(xí)模型具有運(yùn)算速度快、魯棒性強(qiáng)等優(yōu)點(diǎn)。
隨機(jī)森林算法可看作是一個(gè)適應(yīng)性近鄰分類和回歸的過程。設(shè):訓(xùn)練集 {Xi,Yi},i=1,2…n, 其中,Xi=[Xi,1,Xi,2,…,Xi,M] 是M維的輸入飛行特征向量;Yi是在該飛行特征條件下的油耗目標(biāo)值;n是樣本量;隨機(jī)森林由k棵決策樹構(gòu)成,本文采用的決策樹是CART回歸樹;θ是決定森林中每棵樹生成的參數(shù)向量,則該決策樹可表示為T(θ); 其葉子節(jié)點(diǎn)為。 當(dāng)給定新的飛行特征輸入向量x,按照T(θ) 的劃分規(guī)則,可確定唯一的葉子節(jié)點(diǎn)(x,θ), 該葉子中每個(gè)觀測(cè)樣本的權(quán)重為
(4)
式中:R是該葉子節(jié)點(diǎn)對(duì)應(yīng)的特征空間。對(duì)于森林而言,每個(gè)觀測(cè)樣本在k棵樹上的權(quán)重均值為
(5)
隨機(jī)森林對(duì)條件期望E(Y∣X=x) 的估計(jì)是由k棵樹上相應(yīng)葉子中觀測(cè)樣本的加權(quán)平均近似
(6)
類比隨機(jī)森林對(duì)條件期望的近似過程,目標(biāo)值y的條件分布估計(jì)可表示為
F(y∣X=x)=P(Y≤y∣X=x)=
E(1{Yi≤y}∣X=x)
(7)
利用觀測(cè)樣本的權(quán)重均值來逼近目標(biāo)值的條件分布,其分布函數(shù)為
(8)
由此,QRF對(duì)α分位下的條件分位數(shù)估計(jì)為
(9)
航段截尾油耗數(shù)據(jù)區(qū)間估計(jì)方法流程如圖3所示。利用航班QAR(quick access recorder)數(shù)據(jù)作為初始數(shù)據(jù)源,獲得油耗及相關(guān)的飛行特征數(shù)據(jù)。首先通過C-SHAP方法選擇給定閾值數(shù)量的輸入飛行特征集。隨后,通過對(duì)航段截尾油耗訓(xùn)練樣本隨機(jī)過采樣以增加該類樣本在訓(xùn)練集中的權(quán)重,并通過網(wǎng)格搜索法確定最大過采樣率。
圖3 航段截尾油耗數(shù)據(jù)區(qū)間估計(jì)方法框架
QRF模型通過估計(jì)給定上、下限油耗條件分位數(shù)構(gòu)建估計(jì)區(qū)間,基于重構(gòu)訓(xùn)練集,通過網(wǎng)格搜索和k-折交叉驗(yàn)證的方法獲得模型的最優(yōu)超參數(shù),完成航段截尾油耗數(shù)據(jù)區(qū)間估計(jì)模型的建立。
最后,基于航段截尾油耗測(cè)試數(shù)據(jù)得到各航班油耗的估計(jì)區(qū)間,并采用相應(yīng)的評(píng)價(jià)指標(biāo)對(duì)估計(jì)區(qū)間質(zhì)量進(jìn)行評(píng)價(jià)。
采用估計(jì)區(qū)間可信度(estimation interval coverage probability,EICP)、估計(jì)區(qū)間歸一化平均帶寬(normalized mean estimation interval width,NMEIW)以及綜合指標(biāo)(coverage width based criterion,CWC)[16]評(píng)價(jià)模型的估計(jì)性能。
(1)估計(jì)區(qū)間可信度
EICP指真實(shí)值落入估計(jì)區(qū)間的概率,是估計(jì)區(qū)間可靠性的表征
(10)
(11)
式中:Ui和Li是估計(jì)區(qū)間的上、下限;n為測(cè)試集的樣本量。
(2)估計(jì)區(qū)間歸一化平均帶寬
如果僅追求EICP,估計(jì)區(qū)間的上下包絡(luò)線將接近極值,那么得到的估計(jì)區(qū)間對(duì)決策者毫無意義。在相同的EICP下,較窄的估計(jì)區(qū)間質(zhì)量更高,為此,引入NMEIW來衡量估計(jì)區(qū)間的寬窄
(12)
式中:R為測(cè)試集的變化范圍,用于對(duì)平均帶寬做規(guī)范化處理。
(3)綜合指標(biāo)
區(qū)間估計(jì)的目標(biāo)是較高的EICP和較窄的NMEIW,然而從理論上看,這兩個(gè)目標(biāo)相互矛盾,因?yàn)橐坏㎞MEIW減小,EICP理應(yīng)隨之減小,為合理評(píng)價(jià)估計(jì)區(qū)間的質(zhì)量,引入綜合指標(biāo)定量表示二者的權(quán)衡情況。
CWC=NMEIW×(1+γ×e(-η×(EICP-μ)))
(13)
(14)
式中:μ表示置信度,本文取μ=0.9;η用于EICP小于μ時(shí)施加的懲罰量,本文取η=50;γ判斷是否需要對(duì)當(dāng)前估計(jì)區(qū)間懲罰。
本文使用某飛機(jī)運(yùn)營人2012年、2013年A330機(jī)型共8152次航班的QAR數(shù)據(jù)作為初始數(shù)據(jù)源,使用其提取、計(jì)算油耗及相關(guān)的飛行特征參數(shù)見表1。由于滑行階段、離場(chǎng)起飛階段、著陸滑跑階段的飛機(jī)油耗占比相對(duì)其它飛行階段較少,對(duì)油耗總量影響不顯著。因此本文未考慮這些階段的飛行特征。候選飛行特征選取原則是:從飛機(jī)性能、運(yùn)行方式以及飛行環(huán)境等角度盡可能多提取與油耗相關(guān)的特征。
表1 候選飛行特征及計(jì)算該特征所需的QAR參數(shù)
將油耗及初始候選飛行特征集按大圓距離劃分為不同航段子集,分別取每個(gè)航段中小于0.05分位和大于0.95分位油耗值的數(shù)據(jù)作為航段截尾油耗樣本集,并取其20%作為測(cè)試集,共116次航班,測(cè)試集外的其余數(shù)據(jù)作為訓(xùn)練集,共8036次航班。
SHAP模型的基學(xué)習(xí)器為隨機(jī)森林,其參數(shù)設(shè)置為:決策樹數(shù)目為100;隨機(jī)特征數(shù)為輸入特征數(shù)的平方根;葉子尺寸為1。C-SHAP方法對(duì)飛行階段特征的重要性排序如圖4所示。
圖4 飛行階段特征重要性排序
設(shè)置飛行階段特征選擇的重要性閾值為6,再綜合全航程飛行特征,則基于C-SHAP方法得到的最優(yōu)特征子集為:大圓距離、輪擋時(shí)間、起飛重量、飛行距離、巡航地速、巡航總溫、巡航高度、巡航馬赫數(shù)、下降距離、爬升距離。
基于網(wǎng)格搜索確定的最大過采樣率為3,即生成2511個(gè)航段截尾油耗樣本,其余油耗樣本數(shù)目不變,則重構(gòu)訓(xùn)練集共包含9730個(gè)樣本。
為了得到估計(jì)性能較好的QRF模型,需尋找相對(duì)較優(yōu)的主要超參數(shù)組合:決策樹數(shù)目、隨機(jī)特征數(shù)目和葉子尺寸。隨機(jī)特征數(shù)目一般按經(jīng)驗(yàn)設(shè)置為全部特征數(shù)的平方根;其余較優(yōu)的超參數(shù)通過網(wǎng)格搜索和5-折交叉驗(yàn)證獲得,且將CWC作為交叉驗(yàn)證的評(píng)價(jià)指標(biāo),超參數(shù)網(wǎng)格設(shè)置見表2。
表2 超參數(shù)網(wǎng)格設(shè)置
得到較優(yōu)的超參數(shù)組合為:決策樹數(shù)目是500;隨機(jī)特征數(shù)是3;葉子尺寸是5。90%置信度的估計(jì)區(qū)間下限、上限的分位點(diǎn)設(shè)置為:0.05、0.95。
在90%置信度下,本文所提方法基于航段截尾油耗測(cè)試集的區(qū)間估計(jì)結(jié)果如圖5所示,為了清晰展示油耗區(qū)間估計(jì)結(jié)果,將航段截尾油耗測(cè)試樣本按油耗值升序排列。
圖5 區(qū)間估計(jì)結(jié)果
為驗(yàn)證本文所提方法的有效性,另選取常規(guī)的特征選擇方法:斯皮爾曼秩相關(guān)系數(shù)(Spearman)、最小冗余最大相關(guān)性(mRMR)、隨機(jī)森林(RF),在給定特征閾值數(shù)目為10的條件下進(jìn)行特征選擇,結(jié)果見表3。
表3 各方法的最優(yōu)特征選擇結(jié)果
然后,結(jié)合QRF方法構(gòu)建3種航段截尾油耗區(qū)間估計(jì)對(duì)比方法,即Spearman-QRF、mRMR-QRF、RF-QRF,以驗(yàn)證本文所提特征選擇方法的有效性。在使用隨機(jī)過采樣方法重構(gòu)訓(xùn)練集前,通過測(cè)試集得到各方法的估計(jì)區(qū)間評(píng)價(jià)結(jié)果見表4。
表4 重構(gòu)訓(xùn)練集前各方法的估計(jì)區(qū)間評(píng)價(jià)結(jié)果
表4顯示,3種對(duì)比方法的EICP均低于90%置信度,造成相對(duì)較高的CWC,估計(jì)區(qū)間質(zhì)量較差,本文方法的EICP高于90%置信度,雖然NMEIW相對(duì)較高,但具有相對(duì)較小的CWC,估計(jì)區(qū)間質(zhì)量較好。究其原因,是對(duì)比模型的特征選擇不夠合理造成,從表3可以得知,各種特征選擇方法均選取了所有全局特征,這是由于全航程特征對(duì)航班油耗影響顯著且各特征間沒有冗余,然而,在飛行階段特征的選擇上卻不盡相同,一個(gè)顯著的區(qū)別在于巡航地速,3種對(duì)比方法認(rèn)為巡航地速特征的重要性較小,而C-SHAP方法認(rèn)為巡航地速對(duì)油耗影響顯著。可直接應(yīng)用航段截尾油耗測(cè)試集來分析模型進(jìn)行估計(jì)時(shí)巡航地速特征對(duì)其影響情況。對(duì)于一個(gè)航段內(nèi)的測(cè)試樣本,巡航地速特征與其SHAP值的關(guān)系如圖6所示,具有較強(qiáng)的線性相關(guān)性,其值越小,SHAP值越大,對(duì)模型估計(jì)結(jié)果起正向作用,即模型的油耗估計(jì)值越大,而其值越大,SHAP值越小,對(duì)模型估計(jì)結(jié)果起負(fù)向作用,即模型的油耗估計(jì)值越小,驗(yàn)證了巡航地速特征對(duì)模型估計(jì)及飛機(jī)油耗量具有重要影響。
圖6 巡航地速與其SHAP值關(guān)系
巡航地速對(duì)油耗的影響也可從理論上進(jìn)行說明,如圖7所示,根據(jù)飛機(jī)的地速、空速、風(fēng)速的矢量三角關(guān)系,在巡航過程中,飛機(jī)的空速會(huì)穩(wěn)定在一個(gè)定值附近波動(dòng),這時(shí)如果飛機(jī)順風(fēng),地速相對(duì)較高,完成一定的地面距離時(shí)油耗較少,如果飛機(jī)逆風(fēng),則地速相對(duì)較低,完成一定的地面距離油耗較高。因此,巡航地速可謂是間接反映了飛機(jī)飛行過程中受風(fēng)的影響情況,與油耗密切相關(guān),這也說明了采用C-SHAP方法進(jìn)行特征選擇的合理性。
利用隨機(jī)過采樣方法重構(gòu)訓(xùn)練集后,基于航段截尾油耗測(cè)試集得到各方法的估計(jì)區(qū)間評(píng)價(jià)結(jié)果見表5。
表5 重構(gòu)訓(xùn)練集后各方法的估計(jì)區(qū)間評(píng)價(jià)結(jié)果
從表5可以看出,經(jīng)過隨機(jī)過采樣處理后,縮小了4種方法的估計(jì)區(qū)間寬度,并且3種對(duì)比方法的EICP并未因此減少,從而在一定程度上降低了CWC,而本文方法的EICP雖有所減少,但可保證大于90%置信度,在滿足估計(jì)可靠性的前提下,縮小了區(qū)間寬度,提高了估計(jì)區(qū)間質(zhì)量。
(1)本文首先針對(duì)飛機(jī)油耗估計(jì)中存在特征選擇不夠合理的問題,提出了C-SHAP特征選擇方法,相較于傳統(tǒng)以及改進(jìn)的特征選擇方法,可識(shí)別出重要的局部特征。其次,利用隨機(jī)過采樣方法在數(shù)據(jù)層面上改進(jìn)了QRF模型,使該模型的估計(jì)更有針對(duì)性。
(2)C-SHAP方法適用于特征集和樣本集可分類的特征選擇問題上。基于隨機(jī)過采樣改進(jìn)的QRF方法可應(yīng)用于非正常情況下目標(biāo)值的區(qū)間估計(jì)問題。
(3)目前,采用隨機(jī)過采樣方法處理高維類別不平衡樣本相對(duì)有效,也可研究其它更為精確的采樣方法。