于洪霞, 李 興
(1.上海電力學(xué)院 數(shù)理學(xué)院, 上海 201399;2.華泰財(cái)產(chǎn)保險(xiǎn)有限公司 電商事業(yè)部, 上海 201315)
?
一種基于MLP神經(jīng)網(wǎng)絡(luò)的大額損失飛行事故預(yù)測(cè)模型
于洪霞1, 李 興2
(1.上海電力學(xué)院 數(shù)理學(xué)院, 上海 201399;2.華泰財(cái)產(chǎn)保險(xiǎn)有限公司 電商事業(yè)部, 上海 201315)
運(yùn)用多層感知器(MLP)神經(jīng)網(wǎng)絡(luò)方法構(gòu)建了大額損失飛行事故的預(yù)測(cè)模型,并利用CASE數(shù)據(jù)庫(kù)中抽取的飛行事故案例進(jìn)行了檢驗(yàn).預(yù)測(cè)效果檢驗(yàn)表明,所構(gòu)建的模型具有較好的擬合程度和預(yù)測(cè)效果.機(jī)身價(jià)值和機(jī)齡是大額損失飛行事故的重要影響因素.
大額損失飛行事故; 分類變量; 多層感知器; 神經(jīng)網(wǎng)絡(luò)方法
飛行事故對(duì)民航企業(yè)及全社會(huì)都會(huì)產(chǎn)生重大的負(fù)面影響.除了發(fā)生全損事故外,當(dāng)由于自然災(zāi)害或意外事故等原因造成大額損失時(shí),負(fù)面影響依然嚴(yán)重.因此,國(guó)內(nèi)外的眾多研究人員在民航事故統(tǒng)計(jì)及預(yù)測(cè)相關(guān)領(lǐng)域已開(kāi)展了各種研究.
羅曉利[1]對(duì)中國(guó)民航1990~2003年間152起飛行事件進(jìn)行了統(tǒng)計(jì)研究;杜紅兵和李珍香[2]對(duì)世界及國(guó)內(nèi)進(jìn)近著陸運(yùn)輸飛行事故原因及預(yù)防對(duì)策進(jìn)行了研究;王永剛和呂學(xué)梅[3]進(jìn)行了民航事故癥候數(shù)據(jù)的關(guān)聯(lián)度分析;SALAM R G[4]應(yīng)用隨機(jī)模擬研究了事故的發(fā)生概率和損失程度,并建立了評(píng)估模型.于洪霞等人[5]運(yùn)用Logistic回歸分析研究了全損飛行事故的影響因素并構(gòu)建了預(yù)測(cè)模型.
神經(jīng)網(wǎng)絡(luò)方法是一種模擬生物神經(jīng)系統(tǒng),具有學(xué)習(xí)功能的方法.它是一個(gè)由大量神經(jīng)元廣泛相互連接而成的非線性復(fù)雜網(wǎng)絡(luò)系統(tǒng),能夠深入挖掘隱藏在影響因素背后數(shù)據(jù)之間的復(fù)雜關(guān)系,近年來(lái)已廣泛地應(yīng)用于各種復(fù)雜系統(tǒng)的預(yù)測(cè),比如地震災(zāi)害易損性估計(jì)[6];丁松濱和王飛[7]運(yùn)用神經(jīng)網(wǎng)絡(luò)研究了飛機(jī)的飛行事故萬(wàn)時(shí)率.
Rumelhart等人提出了多層感知器(Multilayer Perceptron,MLP)方法,主要用于解決非線性可分?jǐn)?shù)據(jù)的多類別分解問(wèn)題.本文將運(yùn)用神經(jīng)網(wǎng)絡(luò)方法中研究比較成熟的MLP方法構(gòu)建了大額損失飛行事故的預(yù)測(cè)模型,進(jìn)而將結(jié)果與已有全損飛行事故的研究成果進(jìn)行了對(duì)比分析.
本文選取的數(shù)據(jù)來(lái)自于Airclaims公司的CASE世界航空事故賠案數(shù)據(jù)庫(kù).CASE數(shù)據(jù)庫(kù)中包含8 000余條自1952年以來(lái)的飛行事故案例,滿足本研究所需的數(shù)據(jù)基礎(chǔ).
本研究中大額損失的定義采用的是CASE數(shù)據(jù)庫(kù)中的定義:損失金額大于等于100萬(wàn)美元或損失比例大于等于機(jī)身價(jià)值的10%,兩者滿足一條即歸類為大額損失.從更新日期為2008年6月14日的CASE數(shù)據(jù)庫(kù)中檢索到的世界民航國(guó)內(nèi)、國(guó)際定期客貨航班發(fā)生在起飛、航路和降落過(guò)程中的非全損事故損失記錄共計(jì)230條,其中大額損失事故有169條,占比73%,非大額損失(小額損失)事故有61條,占比27%.數(shù)據(jù)簡(jiǎn)要統(tǒng)計(jì)匯總?cè)绫?所示.
表1 數(shù)據(jù)損失程度統(tǒng)計(jì)
為進(jìn)行Logistic回歸分析,首先要將樣本數(shù)據(jù)轉(zhuǎn)化為分類變量數(shù)據(jù).轉(zhuǎn)化后的數(shù)據(jù)包括4個(gè)自變量:航班類型,分為兩組(在國(guó)際間執(zhí)行的航班賦值為1,在某國(guó)家內(nèi)執(zhí)行的航班賦值為0);飛機(jī)制造商,分為3組(波音賦值為1,空客賦值為2,其他制造商賦值為3);機(jī)身價(jià)值,分為3組(大于3 000萬(wàn)美元時(shí)賦值為1,在1.0×107~3.0×107美元之間時(shí)賦值為2,小于等于1 000萬(wàn)美元時(shí)賦值為3);機(jī)齡,分為3組(大于25年賦值為1,在15~25年之間賦值為2,小于等于14年賦值為3).另外,還包括一個(gè)因變量,即損失程度,大額損失賦值為1,小額損失賦值為0.
2.1 MLP神經(jīng)網(wǎng)絡(luò)建模
2.1.1 網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)設(shè)定
對(duì)于網(wǎng)絡(luò)結(jié)構(gòu)中具體參數(shù)的設(shè)定如下.
(1) 輸入層節(jié)點(diǎn)數(shù) 輸入層起緩沖存儲(chǔ)器的作用,把數(shù)據(jù)源加到網(wǎng)絡(luò)上.在本模型中,取11.
(2) 隱含層數(shù) 文獻(xiàn)[8]和文獻(xiàn)[9]提出,具有一個(gè)隱含層的網(wǎng)絡(luò)可以用任意精度去逼近一個(gè)復(fù)雜的系統(tǒng),因此只考慮具有一個(gè)隱含層的神經(jīng)網(wǎng)絡(luò)模型.
(3) 隱含層內(nèi)節(jié)點(diǎn)數(shù) 由于節(jié)點(diǎn)太少不能充分表達(dá)系統(tǒng)中的非線性關(guān)系,節(jié)點(diǎn)太多又會(huì)發(fā)生過(guò)度擬合的問(wèn)題.通過(guò)對(duì)不同的節(jié)點(diǎn)數(shù)進(jìn)行試驗(yàn),最終選擇了5個(gè)節(jié)點(diǎn).
(4) 輸出層節(jié)點(diǎn) 選擇的輸出層節(jié)點(diǎn)為1個(gè),選取的是因變量等于1時(shí)的擬概率,在0~1之間.
2.1.2 MLP神經(jīng)網(wǎng)絡(luò)模型構(gòu)建
根據(jù)上文討論,輸入層有11個(gè)節(jié)點(diǎn),隱藏層有5個(gè)節(jié)點(diǎn),輸出層有2個(gè)節(jié)點(diǎn),假設(shè)輸入層與隱藏層之間的權(quán)值V=(vji)11×5,B=(b1,b2,b3,…,b5)為隱藏層節(jié)點(diǎn)的偏置權(quán)值,b為輸出層神經(jīng)元的偏置權(quán)值.隱藏層與輸出層之間的權(quán)值為W=(wj)5×1,隱藏層的激活函數(shù)為f1(·),輸出層的激活函數(shù)為f2(·),則隱藏層的輸出為:
輸出層神經(jīng)元的輸出為:
其中,激活函數(shù)都取Sigmoid函數(shù),即:
S型函數(shù)具有可微分性,更接近生物神經(jīng)元的信號(hào)輸出形式,飽和非線性特征,增強(qiáng)了網(wǎng)絡(luò)的非線性影射能力.計(jì)算的風(fēng)險(xiǎn)等級(jí)在(0,1)之間,所以選用S型函數(shù).
2.1.3 MLP模型的訓(xùn)練
模型的訓(xùn)練類型選用批處理,優(yōu)化算法選用梯度下降法.網(wǎng)絡(luò)經(jīng)過(guò)訓(xùn)練后達(dá)到一定的穩(wěn)定狀態(tài),形成11×5×1的網(wǎng)絡(luò)模型,各權(quán)值取值如表2和表3所示.
表2 輸入層與隱藏層各權(quán)值取值
表3 隱藏層與輸出層各權(quán)值取值
2.2 模型預(yù)測(cè)效果
通過(guò)對(duì)230條數(shù)據(jù)進(jìn)行準(zhǔn)確率判斷,結(jié)果如表4所示.由表4可知,模型對(duì)樣本數(shù)據(jù)分類情況的綜合預(yù)測(cè)準(zhǔn)確率為71.3%,而且大額損失預(yù)測(cè)準(zhǔn)確率也在76.9%,表明預(yù)測(cè)結(jié)果較好.
表4 樣本數(shù)據(jù)預(yù)測(cè)分類情況
注:分類臨界值為0.600.
表5為各因子標(biāo)準(zhǔn)化重要性排序,可以看出,機(jī)身價(jià)值與機(jī)齡兩個(gè)因素對(duì)大額損失有重要影響.
于洪霞等人[5]指出,全損飛行事故的影響因素中機(jī)齡和航班類型因素具有統(tǒng)計(jì)學(xué)意義.機(jī)身價(jià)值和飛機(jī)制造商不具有統(tǒng)計(jì)學(xué)意義.將大額損失飛機(jī)事故影響因素與全損飛行事故的影響因素對(duì)比可以得出以下兩個(gè)結(jié)論.
(1) 全損飛行事故與大額損失飛行事故中相同的影響因素是機(jī)齡.老齡飛機(jī)發(fā)生全損和大額損失飛行事故的概率較高,而且機(jī)齡越老,全損和大額損失的概率越高.這個(gè)結(jié)論提醒我們應(yīng)更加關(guān)注老齡飛機(jī).
(2) 機(jī)身價(jià)值在大額損失事故的影響因素中具有統(tǒng)計(jì)學(xué)意義.隨著技術(shù)的發(fā)展,飛機(jī)的價(jià)值越來(lái)越高,本研究提醒民航運(yùn)輸企業(yè)有必要對(duì)高價(jià)值飛機(jī)提高風(fēng)險(xiǎn)意識(shí).
表5 各因子標(biāo)準(zhǔn)化重要性排序
綜上所述,本文所構(gòu)建的模型預(yù)測(cè)效果較好,可以為民航企業(yè)安全預(yù)算、投資決策和安全管理等方面提供科學(xué)參考.
[1] 羅曉利.1990~2003年中國(guó)民航152起小于間隔飛行事件的分類統(tǒng)計(jì)研究[J].中國(guó)安全科學(xué)學(xué)報(bào),2004,14(12):26-30.
[2] 杜紅兵,李珍香.進(jìn)近著陸運(yùn)輸飛行事故原因及預(yù)防對(duì)策研究[J].中國(guó)安全科學(xué)學(xué)報(bào),2006,16(6):118-122.
[3] 王永剛,呂學(xué)梅.民航事故癥候的關(guān)聯(lián)度分析和灰色模型預(yù)測(cè)[J].安全與環(huán)境學(xué)報(bào),2006,6(6):127-130.
[4] SALAM,ROMEL G.Estimating the cost of commercial airlines catastrophes—a stochastic simulation approach[C]∥Casualty Actuarial Society Forum Casualty Actuarial Society.Arlington,Virginia,2003:379-422.
[5] 于洪霞,季建華,李興.一種基于Logistic回歸的全損飛行事故分析與預(yù)測(cè)[J].中國(guó)安全科學(xué)學(xué)報(bào),2010,20(3):34-38.
[6] 成小平,胡聿賢,帥向華.基于神經(jīng)網(wǎng)絡(luò)模型的房屋震害易損性估計(jì)方法[J].自然災(zāi)害學(xué)報(bào),2000,9(2):68-73.
[7] 丁松濱,王飛.基于BP神經(jīng)網(wǎng)絡(luò)的民航安全預(yù)測(cè)方法研究[J].中國(guó)民航學(xué)院學(xué)報(bào),2006,24(1):53-56.
[8] CYBENKO G.Approximation by superpositions of a sigmoidal function[J].Mathematics of Control,Signals and Systems,1989,2(4):303-314.
[9] HORNIK K,STINCHCOMBE M,WHITE H.Multilayer feed forward networks are universal approximators[J].Neural Networks,1989(2):359-366.
(編輯 胡小萍)
Analysis and Forecast Model of Major Loss Flight AccidentsBased on MLP Neural Networks Method
YU Hongxia1, LI Xing2
(1.SchoolofMathematicsandPhysics,ShanghaiUniversityofElectricPower,Shanghai201399,China; 2.EcommerceBusinessUnit,HuataiP&CInsuranceCo.Ltd,Shanghai201315,China)
Multilayer Perceptron(MLP) neural networks method is applied to build a forecast model of major loss flight accidents.Then the model is tested with sample data in CASE accident database.The results demonstrate that the model is adequate,effective.The model indicates that hull value and aircraft age are significantly effective factors to major loss flight accidents.
major loss flight accidents; categorical variables; multilayer perceptron(MLP); neural networks method
10.3969/j.issn.1006-4729.2016.05.019
2015-09-09
簡(jiǎn)介:于洪霞(1978-),博士,講師,遼寧朝陽(yáng)人.主要研究方向?yàn)樽顑?yōu)化理論及應(yīng)用.E-mail:yuhongxialx@aliyun.com.
X928.03;O212
A
1006-4729(2016)05-0504-03