陳靜杰,王 希
(1.中國民航大學(xué) 電子信息與自動化學(xué)院,天津 300300;2.中國民航大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,天津 300300;3.中國民航大學(xué) 中國民航環(huán)境與可持續(xù)發(fā)展研究中心(智庫),天津 300300;4.中國民航大學(xué) 綜合交通大數(shù)據(jù)應(yīng)用技術(shù)國家工程實驗室,天津 300300)
目前,國內(nèi)外很多學(xué)者運用不同的方法對飛機油耗進(jìn)行了預(yù)測,主要分為基于飛機性能參數(shù)的油耗模型[1]和基于飛行數(shù)據(jù)分析的油耗模型。Baklacioglu等[2]設(shè)計了一種遺傳算法優(yōu)化的神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),綜合巡航飛行階段和燃油消耗對實際空速和高度變化的依賴性,利用實際飛行數(shù)據(jù)預(yù)測飛機的燃油流量;Lawrance等[3]提出了基于動力學(xué)的參數(shù)化、簡單的線性、高斯過程回歸和k近鄰回歸4種基于近期歷史高頻飛行數(shù)據(jù)生成的燃料模型來預(yù)測飛機燃料消耗;Singh等[4]提出了一個降低航空燃料消耗的綜合框架,利用混合層次分析-過程熵方法,采用成對比較矩陣,對這些子因素相對于“航空油耗降低”目標(biāo)的優(yōu)先等級進(jìn)行了測量;陳靜杰等提出一種基于距離最大法的領(lǐng)域搜索聚類算法,運用標(biāo)準(zhǔn)歐氏距離和近鄰搜索策略不斷地迭代更新,對飛機油耗進(jìn)行精準(zhǔn)分類[5];對QAR數(shù)據(jù)進(jìn)行統(tǒng)計,找出下降過程油耗的特征指標(biāo),并利用Pearson和K-means進(jìn)行相關(guān)系數(shù)特征選取和對應(yīng)油耗聚類[6];針對飛機的爬升階段提出一種綜合性的自適應(yīng)GA-BP強預(yù)測模型,克服了突變數(shù)據(jù)所產(chǎn)生的影響[7]。
然而足夠規(guī)模實測航班QAR數(shù)據(jù)表明,由于油耗數(shù)據(jù)的分散性,影響飛機油耗的眾多變量之間往往存在著非線性映射關(guān)系[8],很多學(xué)者采用神經(jīng)網(wǎng)絡(luò)、支持向量機回歸、高斯過程、核函數(shù)主成分分析、核偏最小二乘等非線性建模技術(shù)[9-13]。然而復(fù)雜的非線性問題難以用單一的全局模型來解決,因此,非線性建模技術(shù)局部學(xué)習(xí)方法[14]中的即時學(xué)習(xí)算法被提出,該算法能夠很好地處理非線性過程,以及動態(tài)更新以適應(yīng)突變的特征,利用歷史數(shù)據(jù)中最相關(guān)的樣本來構(gòu)建在線本地模型。
針對飛機油耗數(shù)據(jù)受多種外界因素影響而存在復(fù)雜非線性的問題,為了精準(zhǔn)地對飛機油耗進(jìn)行預(yù)測,本文提出一種基于即時學(xué)習(xí)和增強自適應(yīng)差分進(jìn)化相關(guān)向量機的油耗預(yù)測方法,采用即時學(xué)習(xí)算法構(gòu)建最相關(guān)樣本,接著引入增強優(yōu)化的相關(guān)向量機模型,對飛機油耗進(jìn)行預(yù)測。為驗證本文方法的有效性和準(zhǔn)確性,與其它優(yōu)化方法進(jìn)行對比測試,驗證了本文所提出動態(tài)更新數(shù)據(jù)庫的即時學(xué)習(xí)算法,以及增強自適應(yīng)差分進(jìn)化算法相關(guān)向量機模型具有更高預(yù)測精度,提高了飛機油耗的預(yù)測準(zhǔn)確率。
即時學(xué)習(xí)(just-in-time learning,JITL)算法是一種基于局部建模理論和數(shù)據(jù)庫科學(xué)的學(xué)習(xí)方法,該方法基于相似輸入產(chǎn)生相似輸出的原理,依據(jù)某種準(zhǔn)則設(shè)計合理的相似性度量,選擇與當(dāng)前工作點相似性較大的歷史數(shù)據(jù)組建立一系列局部模型,從而實現(xiàn)對當(dāng)前工作點的輸出估計值,根據(jù)當(dāng)前待測樣本Xq和歷史數(shù)據(jù)中的樣本Xi, 計算它們距離和角度大小[15,16],公式如下
(1)
(2)
式中: ΔXq=Xq-Xq-1, ΔXi=Xi-Xi-1,θi為ΔXq與ΔXi的夾角,決定了建模的精度,當(dāng)cos(θi)<0時,則認(rèn)為Xi偏離于Xq, 可認(rèn)為兩個樣本的相似度較低,放棄選用該樣本。當(dāng)cos(θi)≥0時,即Xq與Xi間的夾角較小,相似性較好,則當(dāng)前待測樣本Xq與數(shù)據(jù)集中的樣本Xi的相似度公式如下
(3)
式中:λ∈[0,1] 為權(quán)值系數(shù),D(Xq,Xi)∈[0,1],D(Xq,Xi) 的值越大,說明Xq與Xi越相似。針對當(dāng)前的工況點Xq, 根據(jù)相似度準(zhǔn)則選擇最相近的數(shù)據(jù)建立局部模型。
即時學(xué)習(xí)算法能夠很好處理非線性過程,依據(jù)每個工作點的狀態(tài)在線構(gòu)建若干最相關(guān)樣本的局部模型,并且不斷更新以適應(yīng)突變動態(tài),從而獲得較好的預(yù)測精度,該算法局部建立模型時需要樣本數(shù)據(jù)較少,因此選取該算法對飛機油耗預(yù)測過程中的樣本數(shù)據(jù)進(jìn)行預(yù)處理。算法首先對數(shù)據(jù)進(jìn)行歸一化處理,當(dāng)一個查詢樣本(即歷史樣本)進(jìn)入時,將該歷史數(shù)據(jù)樣本和新預(yù)測樣本進(jìn)行相似度量的計算,選取進(jìn)行建模所需的樣本集,將所得到的樣本集進(jìn)行建模,得到預(yù)測輸出值,此時該預(yù)測過程全部結(jié)束,舍棄所建立的模型,等待下一個查詢樣本進(jìn)入進(jìn)行新的循環(huán)操作,具體流程如圖1所示。
圖1 即時學(xué)習(xí)建模原理
算法能夠很好地解決解決飛機油耗數(shù)據(jù)受多種外界因素影響而存在復(fù)雜非線性的問題,該方法將數(shù)據(jù)進(jìn)行歸一化處理,考慮了輸入輸出樣本之間的相關(guān)性,利用相似度指標(biāo)對輸入樣本和輸出樣本進(jìn)行相似度計算,對相似度進(jìn)行綜合后,最后選出與當(dāng)前工作點相似性較大的歷史數(shù)據(jù)組作為相關(guān)樣本集,即重構(gòu)樣本,這樣能夠不斷地根據(jù)每一個狀態(tài)建立系統(tǒng)若干局部模型,并且有效剔除存在異常值的樣本。
(4)
式中: Φ(xi)=[1,k(xi,x1),…,k(xi,xl)]T,k(x,xi) 為非線性基函數(shù)。
則訓(xùn)練樣本集的似然函數(shù)式為
(5)
式中:Φ∈Rn×(n+1)是核函數(shù)矩陣,其中w和σ2的似然估計容易導(dǎo)致過擬合現(xiàn)象,所以為權(quán)值定義高斯先驗概率分布
(6)
式中:α=(α0,α1,…,αn)T。
由貝葉斯準(zhǔn)則計算連接權(quán)值后的后驗概率分布為
p(w,α,σ2/t)=p(w/t,α,σ2)p(α,σ2/t)
(7)
其中
(8)
式中:后驗均值μ=σ-2∑ΦTt, 協(xié)方差∑=(σ-2ΦTΦ+A)-1,A=diag(α0,α1,…,αn)。
根據(jù)概率預(yù)測公式,所求條件概率為
(9)
2.1.1 RVM中核函數(shù)的差分進(jìn)化算法優(yōu)化
相關(guān)向量機中,核函數(shù)參數(shù)是影響相關(guān)向量機性能的關(guān)鍵參數(shù),其值的確定對整體模型的性能起著至關(guān)重要的影響。為了能夠高效優(yōu)化核函數(shù)參數(shù),引入了差分進(jìn)化算法(differential evolution,DE)。
該算法是一種基于隨機種群的搜索方法[17],算法通過變異、交叉和選擇等操作獲得最優(yōu)個體,具體步驟如下:
(10)
式中:j∈(1,2,…,D);i∈(1,2,…,NP);rand(0,1) 是[0,1]之間的均勻分布的隨機數(shù)。
(11)
式中:隨機選擇整數(shù)r1,r2,r3∈{1,2,…,Np};F是縮放因子,控制搜索步長。
(12)
式中:交叉概率因子CR∈(0,1];randj,i∈[0,1];jrand∈{1,2,…,D}, 避免變異失效即產(chǎn)生實驗個體與目標(biāo)個體相同。
(4)選擇操作:用貪婪選擇的策略進(jìn)行一對一篩選,選擇子個體與父個體中適應(yīng)度較優(yōu)者保存到下一代
(13)
2.1.2 DE的增強自適應(yīng)算法優(yōu)化
DE算法仍具有易早熟,較難搜索到全局最優(yōu)解等缺陷。增強自適應(yīng)差分進(jìn)化算法(enhanced fitness-adaptive differential evolution,EFADE)能夠引入新的三角變異算子和兩種自適應(yīng)方案來更新控制參數(shù),在全局搜索和局部開發(fā)之間尋求更好的平衡,并通過優(yōu)化過程提高算法的收斂速度[18]。
(14)
(15)
(16)
(17)
f(xbest)=f(xmin)=min{f(xi)},i=1,2,3
(18)
(2)參數(shù)F自適應(yīng):F與種群的收斂速度密切相關(guān),F(xiàn)的值由搜索空間中產(chǎn)生差分向量的兩個隨機變量之間相對位置動態(tài)地調(diào)整差分向量值的大小,以協(xié)調(diào)全局搜索和局部搜索能力。具體方法如下:
在每一代G上根據(jù)均勻分布,獨立生成縮放因子F1、F2和F3
Fi=rand(0,ki),i=1,2,3
(19)
(20)
式中:rand(a,b) 是返回(a,b)之間的實數(shù)的函數(shù);為了避免擾動函數(shù)為零,采用了小的恒定值ε=0.0001; 若ki>1, 則令ki=1。
(3)參數(shù)CR自適應(yīng):CR反應(yīng)了實驗個體繼承和變異的程度,實際上控制著種群的多樣性。一個好的搜索策略在算法的初期應(yīng)該進(jìn)行全面搜索,以保持種群的多樣性;在算法的后期應(yīng)該增強局部搜索,以加快收斂速度。在每一代G中,根據(jù)以下兩個均勻分布中的一個,獨立地生成每個單獨目標(biāo)向量的交叉概率CR:
(1)CR1∈[0.05,0.15];
(2)CR2∈[0.9,1];
在每一代中,這兩個集合是根據(jù)它們在進(jìn)化過程中的經(jīng)驗自適應(yīng)地選擇的
(21)
(22)
(23)
(24)
RVM模型核函數(shù)參數(shù)值的確定對整體模型的性能起著至關(guān)重要的影響,人為設(shè)置參數(shù)不當(dāng)會產(chǎn)生預(yù)測誤差。為了能夠自適應(yīng)地獲得高效的優(yōu)化核函數(shù)參數(shù),引入差分進(jìn)化算法對相關(guān)向量機進(jìn)行改進(jìn),但差分進(jìn)化算法仍具有易早熟,較難搜索到全局最優(yōu)解等缺陷,基于此,提出了增強自適應(yīng)差分進(jìn)化相關(guān)向量機模型,能夠在全局搜索和局部開發(fā)之間尋求更好的平衡,RVM參數(shù)可自適應(yīng)獲取最優(yōu)值,從而提高了預(yù)測精度?;谥貥?gòu)樣本的EFADE-RVM飛機油耗預(yù)測流程如圖2所示。
圖2 基于重構(gòu)樣本的EFADE-RVM飛機油耗預(yù)測流程
(1)對油耗數(shù)據(jù)進(jìn)行歸一化預(yù)處理,采用即時學(xué)習(xí)算法進(jìn)行相似性度量計算,并建立局部模型選取最相關(guān)樣本,對數(shù)據(jù)進(jìn)行重構(gòu);
(2)初始化相關(guān)參數(shù),并建立相關(guān)向量機的模型;
(3)采用相關(guān)向量機對油耗數(shù)據(jù)進(jìn)行學(xué)習(xí),用相對誤差來判斷是否達(dá)到最優(yōu);
(4)采用差分進(jìn)化算法對核函數(shù)參數(shù)進(jìn)行優(yōu)化,并使用增強自適應(yīng)算法防止差分進(jìn)化算法過早結(jié)束,從而搜索全局最優(yōu)解;
(5)統(tǒng)計飛機油耗訓(xùn)練誤差,如誤差不滿足算法結(jié)束要求,則返回步驟(3);
(6)訓(xùn)練終止,根據(jù)最優(yōu)核函數(shù)參數(shù)建立飛機油耗預(yù)測模型。
為評價所提方法的預(yù)測性能,采用均方根誤差RMSE和決定系數(shù)R2作為預(yù)測精度的評價指標(biāo),計算公式如下
(25)
(26)
本文選取QAR數(shù)據(jù)中A330機型2013年各航程飛機油耗數(shù)據(jù)為樣本進(jìn)行飛機油耗預(yù)測研究,從中選取1000組數(shù)據(jù),變化曲線如圖3所示。
圖3 數(shù)據(jù)變化曲線
從飛機油耗數(shù)據(jù)中選取800組作為訓(xùn)練樣本,200組作為測試樣本。為了進(jìn)一步分析該算法的性能,分別采用RVM、DE-RVM、SADE-RVM、EFADE-RVM這4種建模方法對飛機油耗進(jìn)行建模預(yù)測,預(yù)測效果如圖4(a)所示,可以看出與其它4種方法相比,EFADE-RVM更接近真實值,獲得了更好的預(yù)測結(jié)果,另外,從圖4(b)殘差圖可以看出EFADE-RVM總體殘差較小。4種建模方法對應(yīng)的RMSE和R2見表1,可以看出相比較單一的RVM算法,基于RVM改進(jìn)的后3種算法的均方根誤差和決定系數(shù)都有明顯的改善,其中EFADE-RVM算法獲得了更高的預(yù)測精度。
圖4 基于JITL和EFADE-RVM飛機油耗預(yù)測結(jié)果
表1 不同比例建模的RMSE
即時學(xué)習(xí)中,局部數(shù)據(jù)的數(shù)量選取對模型的精度起著重要的影響作用,在EFADE-RVM模型的基礎(chǔ)上,選取原訓(xùn)練樣本中不同比例的樣本分別進(jìn)行模型建立,觀察在不同數(shù)據(jù)比例下,模型的預(yù)測效果。所得均方根誤差變化如圖5所示,可以看出當(dāng)比例為40%~90%時,JITL-EFADE-RVM均比EFADE-RVM獲得了更好的RMSE值,說明本文所提出的方法對預(yù)測結(jié)果的精度有所提升;當(dāng)比例為10%~30%時,由于訓(xùn)練數(shù)據(jù)不足,JITL-EFADE-RVM的RMSE反而比EFADE-RVM低;當(dāng)選取的比例為100%時,JITL-EFADE-RVM相當(dāng)于普通EFADE-RVM,并且當(dāng)比例為60%時,即當(dāng)選取訓(xùn)練樣本比例為60%時,RMSE值達(dá)到最小,預(yù)測精度最高,具體RMSE見表2。
圖5 不同訓(xùn)練樣本比例建模的RMSE
表2 不同比例建模的RMSE
總體看來,與比例為100%時的RMSE相比,除10%~30%外,其余比例下的樣本建模所得到的均方根誤差值都有所改善(100%的比例相當(dāng)于未使用即時學(xué)習(xí)時的EFADE-RVM),可以看出,基于即時學(xué)習(xí)的重構(gòu)樣本方法能夠有效利用相似度指標(biāo)建立系統(tǒng)若干局部模型,剔除存在異常值的樣本,能夠很好地處理非線性過程存在的問題,從而動態(tài)地更新數(shù)據(jù)庫從而獲得較好的預(yù)測精度。
本文針對飛機油耗數(shù)據(jù)受多種外界因素影響而存在復(fù)雜非線性的問題,利用即時學(xué)習(xí)能夠根據(jù)相似度定義指標(biāo)、動態(tài)獲取數(shù)據(jù)集和增強自適應(yīng)差分進(jìn)化算法能夠自適應(yīng)獲得預(yù)測模型中的最優(yōu)核函數(shù),首先對油耗數(shù)據(jù)采用即時學(xué)習(xí)算法,選取最相關(guān)樣本集,接著建立相關(guān)向量機模型,并采用差分進(jìn)化算法來選取向量機的最優(yōu)核函數(shù),以及增強自適應(yīng)算法來引入三角變異算子和兩種自適應(yīng)方案更全面、更快地搜索全局最優(yōu)解,來對飛機油耗數(shù)據(jù)進(jìn)行預(yù)測。結(jié)果表明本文提出的模型取得了更好的預(yù)測精度,對非線性飛機油耗預(yù)測問題提供了參考方法。運用其它建模和優(yōu)化方法進(jìn)行對比分析從而獲得更好的預(yù)測結(jié)果將會是今后進(jìn)一步的工作任務(wù)。