楊 雄,蘇志剛,楊金鋒,張海剛
(1.中國民航大學(xué) 電子信息與自動(dòng)化學(xué)院,天津 300300;2.中國民航大學(xué) 中歐航空工程師學(xué)院, 天津 300300;3.深圳職業(yè)技術(shù)學(xué)院 粵港澳大灣區(qū)人工智能應(yīng)用技術(shù)研究院,廣東 深圳 518055)
快速存取記錄器(quick access recorder,QAR)即是一種常見的飛行數(shù)據(jù)記錄設(shè)備[1]。目前,QAR數(shù)據(jù)越來越被民航安全專家所重視,這標(biāo)志著民航界從事故尋因這種預(yù)防航空危險(xiǎn)的被動(dòng)思維到日常監(jiān)控提升航空安全水平的主動(dòng)出擊思維的轉(zhuǎn)變。但目前實(shí)際應(yīng)用的閾值方法面臨著機(jī)型多樣性、地理多樣性和氣候多樣性的挑戰(zhàn),很難兼顧每種條件設(shè)定閾值[2],因此亟需一種有效的方法從航空高維數(shù)據(jù)中準(zhǔn)確地檢測出異常事件。
目前國內(nèi)外學(xué)術(shù)界對QAR數(shù)據(jù)應(yīng)用于航空異常事件的研究可分為基于擬合回歸的方法、基于聚類的方法和基于分類的方法?;跀M合回歸的方法是無監(jiān)督方法,不需要標(biāo)簽。擬合的方法使用多個(gè)自變量參數(shù)來擬合一個(gè)因變量,從而找出自變量和因變量之間的關(guān)系[3,4]。基于聚類的方法也屬于無監(jiān)督方法,與回歸方法不同的是基于聚類的方法首先會(huì)找一個(gè)聚類中心,計(jì)算其余點(diǎn)與中心點(diǎn)的相對距離,檢測出相對距離較大的點(diǎn)即為異常點(diǎn)[5,6]?;诜诸惖姆椒ㄊ怯斜O(jiān)督方法,使用分類器通過異常標(biāo)簽來檢測異常[7,8]?;跀M合和聚類的方法根據(jù)不同的規(guī)則來分析航空數(shù)據(jù),側(cè)重挖掘和利用數(shù)據(jù)間關(guān)系[9],但因?yàn)闆]有標(biāo)簽信息,無法統(tǒng)一比較這些算法的性能,因此很難評估這些算法在大規(guī)模數(shù)據(jù)應(yīng)用上的有效性。在另一方面,基于分類的方法優(yōu)勢在于可以充分利用標(biāo)簽屬性和有監(jiān)督模型學(xué)習(xí)到數(shù)據(jù)類別的判別邊界,但在航空領(lǐng)域標(biāo)簽信息很難獲取。
為了比較每一種算法的性能,本文克服標(biāo)簽獲取的困難,以飛機(jī)最常發(fā)生事故的著陸進(jìn)近階段為檢測目標(biāo)[10],通過數(shù)據(jù)源匹配得到異常標(biāo)簽。針對航空高維數(shù)據(jù)的特點(diǎn),提出了一種基于斯皮爾曼等級相關(guān)系數(shù)(spearman rank correlation coefficient,SRCC)特征處理、梯度提升樹(gradient boosting decision tree,GBDT)和遞歸特征消除(recursive feature elimination,RFE)經(jīng)過交叉驗(yàn)證(cross validation,CV)特征處理的混合特征選取方法,最后使用貝葉斯優(yōu)化改進(jìn)目標(biāo)函數(shù)的極限梯度提升樹(extreme gradient boosting,XGBoost)的異常檢測模型。
航空異常著陸事件檢測方案主要包括以下過程:首先將QAR數(shù)據(jù)和參數(shù)監(jiān)控標(biāo)準(zhǔn)數(shù)據(jù)匹配,得到異常標(biāo)簽;再對數(shù)據(jù)進(jìn)行預(yù)處理,處理數(shù)據(jù)匹配和數(shù)據(jù)重抽樣;然后使用混合特征選取的方法選擇合適的特征;隨后使用貝葉斯優(yōu)化的加權(quán)XGBoost算法訓(xùn)練出模型;最后在未做任何改變的測試集上模型評估。整個(gè)檢測方案的流程如圖1所示。
本文選用同一天氣狀況下一個(gè)月份的波音737-800和737-900ER的QAR數(shù)據(jù)作為實(shí)驗(yàn)基礎(chǔ),總共861個(gè)航班。借助航空公司的譯碼軟件AirFase得到譯碼后的QAR數(shù)據(jù)和超限事件參數(shù)庫,超限事件參數(shù)庫是AirFase軟件根據(jù)民航法規(guī)設(shè)定的參數(shù)閾值[11]得到的航班超限異常,部分超限參數(shù)閾值見表1。
圖1 模型流程
表1 部分參數(shù)閾值及觸發(fā)條件
QAR數(shù)據(jù)中有航班注冊號、機(jī)型號、航班執(zhí)行日期、飛行時(shí)間和各參數(shù)記錄,超限事件參數(shù)庫里面有航班注冊號、機(jī)型號、異常階段、異常事件發(fā)生事件及異常程度等。通過匹配兩個(gè)數(shù)據(jù)源中的航班注冊號和航空公司注冊號,搜索超限異常參數(shù)數(shù)據(jù)源中的異常事件發(fā)生的時(shí)間在QAR數(shù)據(jù)中的航班執(zhí)行日期和時(shí)間,通過這些參數(shù)可以唯一確定哪個(gè)航班在哪個(gè)時(shí)間點(diǎn)發(fā)生了何種異常。最終通過正則化過濾、航班號匹配、異常時(shí)間定位等手段實(shí)現(xiàn)了QAR譯碼數(shù)據(jù)和標(biāo)準(zhǔn)超限參數(shù)庫的匹配從而得到異常標(biāo)簽。整個(gè)過程如圖2所示。
圖2 數(shù)據(jù)源匹配得到異常標(biāo)簽
將監(jiān)控參數(shù)標(biāo)準(zhǔn)庫與每個(gè)航班的QAR數(shù)據(jù)匹配,得到每個(gè)異常發(fā)生的時(shí)間點(diǎn)。再將一個(gè)航班中第一秒發(fā)生異常的時(shí)間點(diǎn)和最后一秒發(fā)生異常的時(shí)間點(diǎn)中間的時(shí)間段全部打上異常標(biāo)簽,即得到QAR異常參數(shù)數(shù)據(jù)集。
為了確保不同航班有相同的輸入長度,對每個(gè)航班的數(shù)據(jù)樣本進(jìn)行重抽樣。對于每個(gè)航班f來說,樣本數(shù)據(jù)可以表示為式(1)
(1)
對每個(gè)航班按相同的規(guī)則進(jìn)行重抽樣。飛機(jī)在剛著陸時(shí),剎車會(huì)拉到最大以降低速度。將飛機(jī)剎車值突變的點(diǎn)設(shè)為著陸點(diǎn),每個(gè)航班取著陸點(diǎn)前29點(diǎn),著陸后取10點(diǎn),每個(gè)航班總計(jì)40個(gè)時(shí)間戳,取值的范圍涵蓋了飛機(jī)在500英尺至在滑行跑道上的高度,因此總共有34 440行樣本。
在飛機(jī)飛行時(shí),會(huì)有多個(gè)傳感器來記錄同一參數(shù),以保證當(dāng)一個(gè)傳感器發(fā)生故障時(shí)其它傳感器還能繼續(xù)工作。這種冗余機(jī)制一方面保障飛機(jī)的安全,但另一方面在數(shù)據(jù)分析時(shí)卻會(huì)帶來不必要的麻煩。因此本文結(jié)合3種特征選取方式:過濾法(Filter)、包裹法(Wrapper)和嵌入法(Embedding)[12],設(shè)計(jì)出一種針對航空高維數(shù)據(jù)的混合特征提取算法?;旌咸卣鬟x取算法首先對航空參數(shù)采取斯皮爾曼等級相關(guān)系數(shù)消除冗余特征,之后采用梯度提升算法選取與異常事件最相關(guān)的特征,其中使用遞歸特征消除。
1.3.1 斯皮爾曼冗余特征處理
斯皮爾曼等級相關(guān)系數(shù)特征處理是一種過濾的方法,它值的范圍從-1到1。值1表示強(qiáng)正相關(guān),值-1表示強(qiáng)負(fù)相關(guān),當(dāng)相關(guān)系數(shù)接近于0時(shí),表示特征之間不存在相關(guān)關(guān)系。在當(dāng)前數(shù)據(jù)集種負(fù)相關(guān)和正相關(guān)都是相關(guān),所以取相關(guān)矩陣的絕對值。斯皮爾曼等級相關(guān)系數(shù)表示為式(2)
(2)
其中,d為A、B兩個(gè)變量中元素對應(yīng)相減得到一個(gè)排行差分集合,其中di=Ai-Bi,N為單個(gè)元素總個(gè)數(shù),在這為QAR數(shù)據(jù)的行數(shù)。如果兩個(gè)變量的相關(guān)系數(shù)越接近1,說明兩個(gè)變量具有很強(qiáng)的相關(guān)性,可以認(rèn)為是冗余的,本文經(jīng)過實(shí)驗(yàn)將相關(guān)閾值設(shè)為0.95。經(jīng)過冗余值列處理后,著陸階段QAR數(shù)據(jù)的特征由152維降至78維。
圖3為原始數(shù)據(jù)和數(shù)據(jù)預(yù)處理后的熱力圖對比,右側(cè)從淺至深的漸變色表示相關(guān)系數(shù)從小到大的變化,顏色越深,說明兩個(gè)變量之間的相關(guān)系數(shù)越大,這兩個(gè)變量更有可能互為冗余列。通過圖3(a)、圖3(b)可以看出經(jīng)過數(shù)據(jù)預(yù)處理之后,深色區(qū)域明顯變少,深色程度明顯變?nèi)酢?/p>
1.3.2 GBDT-RFE-CV關(guān)鍵特征選取
GBDT是集成學(xué)習(xí)Boosting的一種,Boosting方法以連續(xù)的方式訓(xùn)練一堆單獨(dú)的模型,每個(gè)單獨(dú)的模型都從前一個(gè)模型的誤差中學(xué)習(xí)。而GBDT每個(gè)模型采用基于分類與回歸樹(classification and regression trees,CART),通過每個(gè)模型在上一輪模型的殘差基礎(chǔ)上進(jìn)行學(xué)習(xí),學(xué)習(xí)的方向是前一個(gè)模型損失函數(shù)的梯度下降方向[13]。GBDT特征選取是一種基于模型的方法,設(shè)有K個(gè)CART樹的決策空間F,通過訓(xùn)練數(shù)據(jù)集,GBDT的每顆CART樹fk在不同特征上分裂節(jié)點(diǎn)(node)的次數(shù)之和為不同特征的重要度,之后通過設(shè)定特征數(shù)目閾值或者選取性能指標(biāo)選取合適的特征子集。
RFE[14]是一種Wrapper特征選取的方法,它的目標(biāo)是通過遞歸地考慮越來越小的特征集來選擇特征。首先,在初始特征集上訓(xùn)練估計(jì)器,得到每個(gè)特征的重要性。然后,從當(dāng)前的特征集合中剔除最不重要的特征。這個(gè)過程在修剪集上遞歸地重復(fù),直到最終達(dá)到需要選擇的特征數(shù)。
GBDT特征選取和RFE方法組成了一組嵌入法特征選取方法。首先,GBDT模型在原始特征上訓(xùn)練,每個(gè)特征得到一個(gè)權(quán)重即特征重要度。之后,那些擁有最小絕對值權(quán)重的特征被移出特征集空間。如此遞歸重復(fù),直至剩余的特征數(shù)量達(dá)到設(shè)定的特征數(shù)量閾值。為了讓算法自動(dòng)地選取合適的特征,本文采取交叉驗(yàn)證的方法,能夠自動(dòng)調(diào)整特征子集空間的特征數(shù)量,具體的算法流程如下所示。
圖3 數(shù)據(jù)預(yù)處理前后熱力圖對比
算法1:GBDT-RFE-CV特征選取
輸入:含有M個(gè)特征的訓(xùn)練集S,n折交叉驗(yàn)證,特征選取設(shè)定的閾值L
輸出:最佳特征子集
(1)將訓(xùn)練集分層抽樣劃分為n輪數(shù)據(jù)集,每輪n-1份為訓(xùn)練集,1份為測試集
(2)每一份數(shù)據(jù)集通過GBDT訓(xùn)練得到?jīng)Q策空間F
(4)根據(jù)每棵樹上特征node數(shù)目得到特征重要度
(6)在M特征空間遍歷刪除最不重要的特征,得到新的子集空間Mi
(7)使用Mi特征子集執(zhí)行交叉驗(yàn)證,得到驗(yàn)證分?jǐn)?shù),并丟棄最不重要的特征,得到新的子集空間Mi+1
(8)end for
(9)end for
(10)統(tǒng)計(jì)最高的交叉驗(yàn)證分?jǐn)?shù)得到最佳特征子集
1.4.1 改進(jìn)XGBoost
XGBoost的也是集成學(xué)習(xí)Boosting的一種,相比于GBDT,XGBoost對代價(jià)函數(shù)進(jìn)行二階泰勒展開,并在代價(jià)函數(shù)中引入了正則項(xiàng),用于控制模型的復(fù)雜程度。因此從原理上XGBoost的性能更好,更適合用作最終的異常檢測器。XGBoost的目標(biāo)函數(shù)[15]是由訓(xùn)練損失和正則化兩部分組成,訓(xùn)練損失函數(shù)的定義如式(3)所示,正則化即樹的復(fù)雜度定義如式(4)所示,目標(biāo)函數(shù)的定義如式(5)所示
(3)
(4)
(5)
對于二分類問題,XGBoost的默認(rèn)損失函數(shù)為交叉熵?fù)p失(cross entropy loss,CE),定義為
(6)
交叉熵?fù)p失明確了誤差越大損失越大的準(zhǔn)則,但是對于非平衡數(shù)據(jù)而言,總的交叉熵?fù)p失在多數(shù)類別樣本中更容易降低,對整個(gè)分類器性能卻沒多大提高。為了提高模型對少數(shù)類別樣本的學(xué)習(xí)能力,本文通過改變分類器的目標(biāo)函數(shù),引入代價(jià)敏感學(xué)習(xí)(cost sensitive learning,CS)函數(shù)[16]和聚焦損失(focal loss,F(xiàn)L)函數(shù),從而改進(jìn)分類器的性能。
代價(jià)敏感學(xué)習(xí)函數(shù)的定義為
(7)
(8)
式中:w為負(fù)例(negative,neg)多數(shù)樣本比正例(positive,pos)少數(shù)樣本的比例。代價(jià)敏感學(xué)習(xí)平衡了正負(fù)類的重要性,使得模型更加重視正樣本。
聚焦損失函數(shù)是由Lin等[17]提出,旨在解決one-stage目標(biāo)檢測器樣本的類別不平衡問題和不同難易程度的樣本學(xué)習(xí)不平衡問題,聚焦損失函數(shù)的定義為
(9)
式中:γ為調(diào)節(jié)因子,降低容易分類樣本的權(quán)重,使分類器聚焦于難樣本的訓(xùn)練。當(dāng)γ等于0時(shí),聚焦損失函數(shù)為一般的交叉熵函數(shù)。
本文將代價(jià)敏感度學(xué)習(xí)函數(shù)與聚焦損失函數(shù)結(jié)合,因此整個(gè)模型的損失函數(shù)為
(10)
損失函數(shù)的一階導(dǎo)gi和二階導(dǎo)hi為
(11)
(12)
此時(shí)對應(yīng)近似的目標(biāo)函數(shù)為
(13)
將式(5)代入式(9)進(jìn)一步簡化得到
(14)
式中:Gj和Hj分別是關(guān)于近似損失函數(shù)一階偏導(dǎo)數(shù)和二階偏導(dǎo)數(shù)的累加之和。
1.4.2 貝葉斯參數(shù)優(yōu)化
對于XGBoost的其它參數(shù),如果單純靠手工調(diào)節(jié)參數(shù),不但繁瑣復(fù)雜,而且算法也無法發(fā)揮出最好的性能。本文借助貝葉斯算法自動(dòng)調(diào)節(jié)參數(shù)使算法達(dá)到最好的效果。貝葉斯優(yōu)化[18]通過建立目標(biāo)函數(shù)的代理概率模型,利用它來選擇最優(yōu)的超參數(shù),以對真實(shí)目標(biāo)函數(shù)進(jìn)行評估。貝葉斯優(yōu)化在選擇超參數(shù)集時(shí)會(huì)考慮到以往的評估,通過以這種有先驗(yàn)信息的方式選擇參數(shù)組合,模型將關(guān)注最有希望的驗(yàn)證分?jǐn)?shù)的參數(shù)空間區(qū)域。這種方法只需要較少的迭代次數(shù)就能獲得最佳的超參數(shù)值集,因?yàn)樗雎粤四切┎粫?huì)帶來任何影響的參數(shù)空間區(qū)域。改進(jìn)目標(biāo)函數(shù)后的XGBoost的流程如圖4所示。
圖4 貝葉斯優(yōu)化流程
本文研究的是航空異常事件的檢測與識別,因此真陽性(true positive,TP)即為航空異常事件樣本預(yù)測為異常的實(shí)例數(shù)量,假陰性(false negatives,F(xiàn)N)即為航空異常事件樣本預(yù)測為正常事件的實(shí)例數(shù)量,真陰性(true negatives,TN)即為航空正常事件樣本預(yù)測為正常著陸事件的實(shí)例數(shù)量,假陽性(false positive,F(xiàn)P)即為航空正常事件樣本預(yù)測為異常事件的實(shí)例數(shù)量?;煜仃囌f明見表2。
表2 混淆矩陣說明
對于非平衡數(shù)據(jù)而言,單一的準(zhǔn)確率指標(biāo)不足以反映模型的好壞,需要綜合考慮多數(shù)樣本和少數(shù)樣本分類的準(zhǔn)確性[19]。因此本文采用靈敏性和特異性來分析混淆矩陣,使用ROC曲線和PR曲線圍成的面積來評估分類器的性能。所有的指標(biāo)范圍都在[0,1]之間,越靠近1說明算法性能越好,反之則說明算法性能較差。各指標(biāo)說明見表3。
表3 評價(jià)指標(biāo)說明
本文的GBDT-RFE-CV算法在特征選取過程中設(shè)置了不同特征數(shù)子集,圖為不同特征子集的數(shù)目和交叉驗(yàn)證分?jǐn)?shù),圖中豎線與曲線交叉的點(diǎn)為交叉分?jǐn)?shù)最大的點(diǎn),豎線所對應(yīng)的橫坐標(biāo)為所選取的最佳特征子集,在圖5中可以看出算法選取的最佳特征子集數(shù)為18,選取的特征參數(shù)如圖6所示,選取的特征反映了航空器的飛行狀態(tài)、飛機(jī)操縱和發(fā)動(dòng)機(jī)狀態(tài)。飛行狀態(tài)的參數(shù)如垂直下降速率、俯仰角、加速度、雷達(dá)高度等,飛機(jī)員操作參數(shù)如剎車、操縱舵等,飛機(jī)發(fā)動(dòng)機(jī)參數(shù)如低壓轉(zhuǎn)子N1、高壓轉(zhuǎn)子N2。
本文經(jīng)過貝葉斯參數(shù)調(diào)節(jié)后的XGBoost超參數(shù)見表4。
本文改進(jìn)XGBoost目標(biāo)函數(shù)是在原始XGBoost的基礎(chǔ)上導(dǎo)入由式(11)、式(12)推導(dǎo)出的一階導(dǎo)數(shù)和二階導(dǎo)數(shù),最終w取5,γ取2實(shí)驗(yàn)效果最好。
圖5 GBDT-RFE-CV特征選取的分?jǐn)?shù)與特征值數(shù)量
圖6 GBDT-RFE-CV選取的關(guān)鍵特征
表4 貝葉斯優(yōu)化后的參數(shù)值及含義
為了展示特征選取的必要性和對比經(jīng)過貝葉斯調(diào)參后的改進(jìn)XGBoost算法在航空異常事件檢測中的優(yōu)越性,本文統(tǒng)計(jì)了各算法的精度、查準(zhǔn)率、查全率、F1分?jǐn)?shù)、ROC_AUC、PR_AUC、特征選取時(shí)間和各模型運(yùn)行時(shí)間,繪制出各模型的ROC曲線和PR曲線。
2.3.1 改進(jìn)對比
表5和圖7展示了算法改進(jìn)的對比實(shí)驗(yàn),總共分為6組改進(jìn)對比,分別為了對比混合特征選取、經(jīng)過目標(biāo)函數(shù)改變后的XGBoost和貝葉斯調(diào)參后的效果,其中本文的模型使用的是混合特征選取和貝葉斯優(yōu)化的改進(jìn)目標(biāo)目標(biāo)函數(shù)的XGBoost,整個(gè)模型流程首先使用SRCC刪除航空數(shù)據(jù)冗余特征,再結(jié)合異常標(biāo)簽使用GBDT-RFE-CV以提取關(guān)鍵特征,然后通過導(dǎo)入由式(11)、式(12)自定義XGBoost的目標(biāo)函數(shù),最后使用貝葉斯算法來調(diào)節(jié)XGBoost的超參數(shù)。從表中可以從兩個(gè)方面看出算法改進(jìn)后的提升效果。首先是特征選取時(shí)間和算法訓(xùn)練時(shí)間,提升效果最明顯的對比是直接使用GBDT-RFE-CV關(guān)鍵特征選取和先使用SRCC刪除冗余再使用GBDT-RFE-CV混合的特征選取,特征選取時(shí)間從1 h 20 min降低到23 min 52 s,運(yùn)行時(shí)間降低了71%。且經(jīng)過特征選取后,對比原始數(shù)據(jù)模型訓(xùn)練時(shí)間和測試時(shí)間都有所縮短,原始數(shù)據(jù)需66.82 s才能訓(xùn)練模型,本文經(jīng)過特征提取后訓(xùn)練時(shí)間僅需24.56 s,訓(xùn)練時(shí)間縮短了63%。這些都顯示出混合特征算法的必要性。第二從算法性能上對比,可以看出SRCC雖然在性能方面提升不明顯,但是特征選取耗費(fèi)的時(shí)間上,SRCC僅需15 s就能刪除冗余特征,能很好降低特征選取時(shí)間。對比經(jīng)過混合特征選取、改進(jìn)XGBoost和貝葉斯調(diào)參后F1分?jǐn)?shù)分別較XGBoost在原始數(shù)據(jù)的模型提升了0.09、0.19和0.22,ROC曲線圍成的面積分別提升了0.007、0.011和0.017,PR曲線圍成的面積提升了0.034、0.051和0.068,說明這3種改進(jìn)方式層層遞進(jìn),顯示出這些改進(jìn)的有效性。
表5 算法改進(jìn)對比
圖7 改進(jìn)對比的ROC曲線和PR曲線
2.3.2 不同模型性能對比
表6展示了改進(jìn)目標(biāo)函數(shù)后的XGBoost模型和其它機(jī)器學(xué)習(xí)算法的對比。為了對比本文模型的有效性,在航空著陸異常數(shù)據(jù)集上通過相同的混合特征提取,選用經(jīng)典的5組機(jī)器學(xué)習(xí)算法作為對比實(shí)驗(yàn),這些算法及改進(jìn)算法已經(jīng)在航空數(shù)據(jù)異常檢測中初步應(yīng)用,分別是K最近鄰[20](K-nearest neighbor,KNN)、決策樹(decision tree,DT)、隨機(jī)森林[6](random forest,RF)、多層感知機(jī)(multilayer perceptron,MLP)和邏輯回歸[3](logistic regression,LR)算法。對比算法都是直接從sklearn庫[21]中直接調(diào)用,本文的模型是在原始XGBoost庫的基礎(chǔ)上自定義目標(biāo)函數(shù)后經(jīng)過貝葉斯超參數(shù)調(diào)節(jié)得到。從中可以看出KNN、MLP、LR這些算法的Recall、F1分?jǐn)?shù)很低,說明這些算法不能很好檢測出全部的異常。再對比幾種樹模型,可以看出單一樹來做異常檢測的決策樹算法在查準(zhǔn)率和查全率都比不上基于Bagging模型的隨機(jī)森林算法和基于Boosting模型的XGBoost算法,說明單一的決策樹算法在航空數(shù)據(jù)異常檢測上效果并不好。此外還可以看出基于Bagging方式的隨機(jī)森林算法能大幅提升檢測效果,但是相對比于基于Boosting方式的XGBoost算法,隨機(jī)算法除了查全率之外其它指標(biāo)都比XGBoost要差。表6中也可以看出本文提出的模型異常檢測性能均優(yōu)于其它算法。
表6 不同模型性能對比
本文提出了一種基于機(jī)器學(xué)習(xí)的航空著陸異常事件檢測模型。相比于民航業(yè)常用在單維數(shù)據(jù)中使用閾值分析的方法,本文通過提取多維數(shù)據(jù)的特征,使用機(jī)器學(xué)習(xí)模型從航空數(shù)據(jù)中檢測異常。本文方法包括數(shù)據(jù)預(yù)處理、刪除冗余特征、提取關(guān)鍵特征、改進(jìn)XGBoost模型的目標(biāo)函數(shù)、超參數(shù)優(yōu)化、建模評估一系列過程。實(shí)驗(yàn)使用了數(shù)據(jù)匹配得到異常標(biāo)簽從而統(tǒng)一的評估各算法模型性能。經(jīng)過實(shí)驗(yàn)對比可以看出,本文提出了混合特征選取的方法對于航空高維數(shù)據(jù)是有效且必要的,節(jié)省了特征提取的時(shí)間。在異常檢測模型評估中,本文引入代價(jià)敏感學(xué)習(xí)函數(shù)和聚焦損失函數(shù)來改進(jìn)XGBoost目標(biāo)函數(shù),并通過貝葉斯參數(shù)優(yōu)化XGBoost模型,實(shí)驗(yàn)結(jié)果表明,本文模型能夠有效的檢測出航空異常著陸事件。然而本文的工作仍存在一些不足,本文的工作僅僅是檢測異常,而從數(shù)據(jù)中發(fā)現(xiàn)可能導(dǎo)致異常的因素,從而挖掘出更有價(jià)值的信息是下一步的工作。