朱興動,章思宇,范加利
(1. 海軍航空大學,山東 煙臺 264000;2. 海軍航空大學青島校區(qū),山東 青島 266000)
飛機發(fā)動機是飛機核心部分,發(fā)動機的可靠性直接影響飛機能否正常完成飛行任務,因此對飛機發(fā)動機的故障和維修記錄的統(tǒng)計分析就顯得尤為重要,對于提高飛行的安全性和整機的可靠性有著極大的作用。本文在充分查閱某型飛機的資料和相關單位搜集機務維修記錄與數(shù)據(jù)的基礎上,運用多元統(tǒng)計分析理論,提出了一個基于Fisher判別分析法的分類預測模型,找出各影響因子與故障所在系統(tǒng)之間的內在聯(lián)系[1]。
發(fā)動機作為飛機的核心組成部分,其本身結構十分復雜。通過比對GJB4855—2003和技術資料可知,該型飛機中所有系統(tǒng)與飛機發(fā)動機相關的有發(fā)動機系統(tǒng)、發(fā)動機起動系統(tǒng)、發(fā)動機操縱系統(tǒng)、發(fā)動機指示及告警系統(tǒng)和動力裝置系統(tǒng)五類[2]。據(jù)此,可以根據(jù)故障件型號將所有故障分到這五個系統(tǒng)中。
飛機發(fā)動機的維修記錄多為自然語言記錄,且項目較多,較為繁雜,不便于使用數(shù)據(jù)統(tǒng)計分析工具進行分析判別。為了更有效地使用維修質控記錄,需要進行篩選和標準化等一系列數(shù)據(jù)預處理工作。
1)選擇影響故障分布的指標
影響故障分布的指標有很多,如發(fā)生故障時飛行的總時間、總架次、故障部位等。根據(jù)經驗,選取故障發(fā)生月份、故障發(fā)生部位、故障件返修次數(shù)、故障件修后時次、飛機修后工作時間、專業(yè)、發(fā)動機修后工作時間、發(fā)現(xiàn)時機、故障件無故障工作時次等9個指標作為故障分系統(tǒng)的因變量。在這九個指標中,月份、故障發(fā)生部位、專業(yè)、發(fā)現(xiàn)時機為自然語言敘述,其余指標為數(shù)值。
2)數(shù)據(jù)的標準化方法[3]
如使用SPSS工具對數(shù)據(jù)進行分析,需按照一定的規(guī)則將部分非結構化數(shù)據(jù)標準化。為此,本文使用自行編寫的程序,先掃描所有故障記錄,對各選定指標的具體名稱,按照出現(xiàn)次數(shù)進行統(tǒng)計,統(tǒng)計結果按頻數(shù)從小到大排序,再賦予相應的數(shù)值,完成自然語言記錄的標準化。最終,標準化的結果如表1所示。
具體指標對應的各名稱和值如下:
①月份:一至十二月分別賦值1~12。
②故障發(fā)生部位:1-彈艙,2-設備艙,3-后機身,4-電源艙,5 -其他,6-起落架艙,7-前機身,8-座艙,9-發(fā)動機艙。
③-專業(yè):1-綜合航電,2-電氣,3-儀表,4-飛機,5-機械,6-發(fā)動機,7-特設。
表1 數(shù)據(jù)標準化結果
④發(fā)現(xiàn)時機:1-滑行,2-周期性工作,3-換季檢查,4-其他,5-飛行中,6-更換發(fā)動機,7-定期檢查,8-空中,9-直接機務準備,10-飛行后檢查,11-飛行啟動,12-特定檢查,13-再次出動準備,14-機械日,15-預先機務準備。
⑤系統(tǒng):1-發(fā)動機操作系統(tǒng),2-動力裝置,3-發(fā)動機系統(tǒng),4-發(fā)動機操縱系統(tǒng),5-發(fā)動機指示及告警系統(tǒng)。
除上述4個自然語言描述的指標和發(fā)動機系統(tǒng)之外,故障件修后時次、飛機修后時間、發(fā)動機修后工作時間、故障件無故障工作時次的數(shù)據(jù)均為數(shù)值,為更便于進行數(shù)據(jù)分析,將發(fā)動機修后工作時間、故障修后時次、飛機修后工作時間、故障件無故障工作時次等幾個數(shù)值較大的指標進行概化,分為0,0-500,500-1 000,1 000-1 500,1 500-2 000,2 000小時以上6個檔次,并根據(jù)不同檔次從大到小依次按0-6賦值。
通過以上規(guī)則,使用自行編寫的數(shù)據(jù)標準化程序完成數(shù)據(jù)標準化,為統(tǒng)計及計算過程做好數(shù)據(jù)準備。
影響發(fā)動機故障分布的指標多種多樣,且每個指標對于分類結果的影響并不相同,為了簡化模型與計算過程,需要通過一定的分析手段去除一些非關鍵的指標。
使用SPSS統(tǒng)計分析軟件,得到組均值均等性檢驗表如表2所示。
表2中,各統(tǒng)計量含義和取值范圍如下所示。
Wilks Lambda∶Wilks Lambda是組內平方和與總平方和之比,取值范圍為0~1,值越小說明該因素對模型影響越大[4]。
F:即F檢驗,用于檢驗模型中的各個因素是否可以用于模型的估計,F(xiàn)沒有取值范圍,值越大說明該因素越適合模型。
df1:表示自由度。
表2 組均值均等性檢驗表
df2:無特殊意義,需滿足df1+df2=N,N為模型的樣本數(shù)量。
Sig.:Sig.表示顯著性,取值范圍為0~1,值越小說明組間的差異越顯著。
在篩選過程中,最需要關注的是顯著性指標。由表中數(shù)據(jù)最后一列Sig.值可以看出,月份、故障件返修次數(shù)和發(fā)現(xiàn)時機3個指標的值超過了0.05,這就意味著,在0.05的顯著水平上,不能拒絕月份、故障件返修次數(shù)和發(fā)現(xiàn)時機這三個指標在分組的均值相等的假設,即認為其余六個指標在分組的均值是有顯著差異的。因此,可以認為月份、故障件返修次數(shù)和發(fā)現(xiàn)時機這三個指標對于分類影響不大,為簡化模型和計算,之后的計算過程中將不再考慮這三個指標。
2.2.1 Fisher判別法簡介
Fisher判別法是一種經典的分組判別法,其基本思想是將高維的數(shù)據(jù)點投影到低維空間,使得數(shù)據(jù)點更加聚集。當分組數(shù)為k時,指標為p個,借助方差分析構造出k個判別函數(shù),函數(shù)的通式如下所示:
(1)
其中,確定參數(shù)ci的原則是使組間差距最大,組內差距最小。對于一個未分類的樣本數(shù)據(jù),將p個指標分別代入求出Fi值后,值最大的對應的分組即為該樣本所在組[5]。
2.2.2 數(shù)據(jù)集檢驗
在使用Fisher判別分析前,需要對數(shù)據(jù)進行檢驗,以便確定Fisher法是否適用于目前的數(shù)據(jù)集。檢驗的方法主要是通過計算數(shù)據(jù)集的Fisher典型判別函數(shù)得分情況,即計算典型判別式的特征值和在組差異的顯著性值。特征值占總體特征值的比例越大,也即正則相關性值越大,說明典型函數(shù)的判別能力越強,顯著性值越小,說明該典型函數(shù)在分組時的差異更顯著。
將數(shù)據(jù)輸入程序,經過計算獲得如表3、4所示的結果。
表3 特征值
表4 Wilks Lambda
由表3和表4的檢驗結果可以看出,分組需要四個Fisher典型判別函數(shù)。其中判別函數(shù)1至判別函數(shù)3在顯著水平0.05上判別效果是顯著的,且前三個判別函數(shù)可以解釋整體方差的99.8%,說明前三個函數(shù)可以較好的對數(shù)據(jù)集進行分組,即該數(shù)據(jù)集可以通過Fisher判別犯法進行分組的。因此可以認為,F(xiàn)isher判別分析是適用于當前數(shù)據(jù)集的[6]。
2.2.3 系統(tǒng)分組模型的建立
Fisher判別法致力于尋找一個最能夠反映組與組之間差異的投影方向,即尋找使組之間差異最大,每個組內部離差平方和最小的線性判別函數(shù)[7]。
多個分組的Fisher判別函數(shù)系數(shù)的求法如下所述,設有k個分組G1,G2,…,Gk,其均值和協(xié)方差矩陣分別為μ1,μ2,…,μk和Σ1,Σ2,…,Σk,從k個分組中抽取一個含p個指標的觀測樣本,假定建立的判別函數(shù)為
C(Y)=c1Y1+…+cpYpC′Y
(2)
其中,系數(shù)c1,c2,…,cp確定的原則是使得組間差達到最大,而組內差到達最小。
當X∈Gi時,有
i=1,2,…,k
(3)
令
(4)
B相當于組間差,E相當于組內差,使用判別分析的思想,構造的最大特征根,而系數(shù)向量C為最大特征根對應的特征向量[8]。
(5)
求得Δ(C)極大值,即可得到判別函數(shù),顯然B0,E0均為負定矩陣,Δ(C)的極大值方程為
|B0-λE0|=0
(6)
根據(jù)以上計算思想,將數(shù)據(jù)集輸入SPSS統(tǒng)計分析軟件,使用SPSS聚類分析功能進行模型的訓練[9],獲得系統(tǒng)判別函數(shù)的系數(shù)如下表所示。
表5 分類函數(shù)系數(shù)
由表5可得六個系統(tǒng)判別函數(shù)分別為:
F1=5756x1-0801x2+3337x3+2495x4-
5395x5+0936x6-35932
(7)
F2=5998x1-1261x2+3416x3+3443x4-
4290x5+0676x6-41841
(8)
F3=5866x1-0821x2+3079x3+2946x4-
3939x5+1044x6-36858
(9)
F4=6231x1-0657x2+3300x3+2268x4-
7391x5+1744x6-35855
(10)
F5=5415x1-1046x2+3555x3+3220x4-
5345x5+0485x6-33337
(11)
其中,x1為故障發(fā)生部位,x2為故障件修后時次,x3為飛機修后時間,x4為專業(yè),x5為故發(fā)動機修后工作時間,x6為故障件無故障工作時次。
假設故障發(fā)生在起落架艙,故障專業(yè)類別為特設專業(yè),且該故障件的修后時次為141.3小時,該機發(fā)動機修后工作時間為100小時,距飛機上次大修時間為1000小時,該故障件的無故障工作時間為200小時,在這種情況下,根據(jù)前文所述的數(shù)據(jù)標準化方法,向判別函數(shù)組中代入以下參數(shù):
通過計算可得到各方程的值為
根據(jù)Fisher判別法的判別標準,由于在5個F值中F5最大,故認為若符合上述情況時,故障最有可能發(fā)生在系統(tǒng)5,即發(fā)動機指示及告警系統(tǒng)中。
模型的分類效果如圖1所示。
由圖可以看出,第1、4、5三組與其他分組之間相距較遠,分類效果較好,而2、3組之間距離較近,導致系統(tǒng)分類可能會出現(xiàn)差錯,影響分類結果的準確性。
為了檢驗模型的判斷結果的正確性,下面將使用歐氏距離法進行驗證[10]。
歐氏距離法是一種通過計算觀測點到組質心距離,通過比較距離大小來進型分類的方法[11],觀測點到組質心距離最近,則說明觀測點屬于該組。
歐氏距離法分兩步,第一步計算觀測點坐標值,計算公式如下所示:
(12)
其中,方程的個數(shù)由典型函數(shù)判別式個數(shù)來確定,Xi為計算出的坐標值,xi為輸入參數(shù),n為輸入參數(shù)的個數(shù)。
第二步則通過歐氏距離計算公式得到觀測點坐標值到質心的距離,公式如下所示:
(13)
其中,X為組質心坐標值,n為坐標的維數(shù)。
通過SPSS計算可得源數(shù)據(jù)集的標準化典型函數(shù)判別式和組質心處函數(shù)分別如表6和表7所示,由前文所述,由于第四個方程的置信度未到達要求,故僅用前三個方程進行計算。
表6 標準化典型函數(shù)判別式系數(shù)
表7 組質心處函數(shù)
由表中系數(shù)可得觀測點的坐標公式如下所示:
X1=-0265x1-0830x2+0008x3+0439x4+
1585x5-0495x6-0369
(14)
X2=0479x1+0434x2-0363x3-0333x4-
974x5+0601x6-2354
(15)
X3=0605x1-0072x2+0287x3+0497x4-
1101x5±0003x6-7684
(16)
其中,x1為故障發(fā)生部位,x2為故障件修后時次,x3為飛機修后時間,x4為專業(yè),x5為故發(fā)動機修后工作時間,x6為故障件無故障工作時次。
代入前文所述的參數(shù),由公式(14)、(15)、(16)通過計算可得該觀測點的坐標如下所示:
再將觀測點的坐標代入公式(13)中,使用表7 中的組質心函數(shù)得到該觀測點到各質心的距離為
可以看出,D5的距離最短,因此認為在該情況下發(fā)生的故障是屬于系統(tǒng)5,即發(fā)動機指示及告警系統(tǒng),這與通過模型判斷所得結果相一致,說明模型計算所得結果是準確的。
常用的預測模型有許多種,如趨勢外推模型,線性回歸模型,神經網絡等等。下面使用多元線性回歸預測模型[12]來對數(shù)據(jù)進行分析預測。
通過SPSS軟件計算得到多元回歸預測模型如式(17)所示,擬合效果如圖2所示:
Y=-0172x1-0064x2+0109x3+0065x4-
0409x5-0161x6+5188
(17)
其中,x1為故障發(fā)生部位,x2為故障件修后時次,x3為飛機修后時間,x4為專業(yè),x5為故發(fā)動機修后工作時間,x6為故障件無故障工作時次。
圖2 多元線性回歸預測模型擬合效果
通過實際的數(shù)據(jù)檢驗,多元線性回歸模型的綜合預測正確率為40.9%,而Fisher故障分系統(tǒng)預測模型的最終預測正確率為74.4%,可見在預測正確率上,分系統(tǒng)預測模型的預測效果優(yōu)于多元線性回歸模型。
本文使用Fisher判別法,設計了一種系統(tǒng)故障預測模型,并使用歐氏距離法驗證了模型預測的準確性。相比于其他常用預測分析模型,本模型采用Fisher判別分析思想,易于理解和實際應用,且分類效果較為良好。通過大量實際維修記錄數(shù)據(jù)的檢驗,該模型可以對70%以上的數(shù)據(jù)樣本進行正確分類。但是,由于機務維修記錄往往存在錯漏和不準確的現(xiàn)象,導致預測結果的準確率會受到一定的影響。隨著維修記錄的數(shù)據(jù)不斷增加,新的影響指標的加入,該模型的預測準確性將會隨之增加,同時挖掘出數(shù)據(jù)與數(shù)據(jù)之間更有價值的信息。