任宇軒
摘要:飛機缺材是航材保障部門亟需解決的問題,基于缺材風(fēng)險現(xiàn)狀,提出了一種基于隨機森林的分類器,其由多個決策樹組成,根據(jù)學(xué)習(xí)結(jié)果在之后的學(xué)習(xí)中選擇區(qū)分度更高的決策樹。最后通過實例驗證表明該方法具有一定的可信度。
關(guān)鍵字:隨機森林 缺材停飛 風(fēng)險管理
1 引言
航材保障工作是為飛機提供維修、更換所需器材,而缺材停飛是指飛機因缺航材導(dǎo)致無法執(zhí)行飛行任務(wù)的情況,是航材部門最需要避免的問題。在對缺材停飛進(jìn)行風(fēng)險管理中,合理的利用保障數(shù)據(jù)進(jìn)行分析十分重要。而缺材停飛屬于小概率事件,對于保障數(shù)據(jù)而言缺材數(shù)據(jù)樣本規(guī)模極小,對其進(jìn)行分析屬于處理不平衡數(shù)據(jù)樣本集,容易發(fā)生樣本集內(nèi)正樣本與負(fù)樣本比例極不平衡,對這類樣本集進(jìn)行數(shù)據(jù)分析會導(dǎo)致結(jié)果出現(xiàn)偏差,算法會使得分類結(jié)果偏向于樣本容量大的一類,如何解決不平衡樣本集對數(shù)據(jù)分析結(jié)果帶來的影響是當(dāng)前的熱點研究方向。
2 基于隨機森林的分類器設(shè)計
代價敏感的隨機森林可以較好的處理不平衡數(shù)據(jù)同時能夠避開過擬合問題,但是代價函數(shù)構(gòu)建的不準(zhǔn)確,則達(dá)不到處理不平衡數(shù)據(jù)的目的。傳統(tǒng)代價函數(shù)的構(gòu)造沒有考慮數(shù)據(jù)集的實際分布,且采用歐式距離計算樣本距離,而特征空間中所有特征的重要性不同,并且同一特征對不同類別的重要性也不同,僅僅計算歐式距離對重要特征不公平,構(gòu)造的代價函數(shù)不準(zhǔn)確,導(dǎo)致分類器的整體性能較差。由于隨機森林在選擇訓(xùn)練樣本、特征子空間過程中引入了隨機性,導(dǎo)致了基分類器在處理不平衡數(shù)據(jù)時的性能差異,而傳統(tǒng)隨機森林算法在最終決策階段采取平等投票,平等投票會影響分類器的整體性能。
本文根據(jù)樣本實際分布構(gòu)造代價因子,將權(quán)重距離引入代價函數(shù)的計算過程。詳細(xì)步驟如下:
一是分別計算每個特征列的平均值作為兩類數(shù)據(jù)的數(shù)據(jù)中心。
二是計算各類別中心到整個數(shù)據(jù)集中心的權(quán)重距離。在數(shù)據(jù)集中,重要特征相對較少,計算類別中心到整個數(shù)據(jù)集中心的歐式距離構(gòu)造代價對重要特征不公平,本算法引入權(quán)重距離,利用信息增益衡量每個屬性在多數(shù)類與少數(shù)類中的重要性。
第三步,設(shè)多數(shù)類 ,少數(shù)類 ,其中樣本數(shù)分別為 ,能夠定義 系數(shù)如下:
3 實例驗證
利用某保障單位數(shù)據(jù)對隨機森林分類器,代價敏感隨機森林分類器與決策樹算法進(jìn)行比較。將代價敏感的隨機森林算法與普通隨機森林算法結(jié)果相比較,0表示未發(fā)生缺材,1表示發(fā)生缺材。下表中1/0表示實際為1算法分類結(jié)果為0,以此類推,實驗結(jié)果如下表。
4 結(jié)語
類別分布不平衡的問題給現(xiàn)有算法的分類帶來了困難,這是由于現(xiàn)有算法基于類別平衡假設(shè),導(dǎo)致少數(shù)類被正確分類的比重較低?;诖鷥r敏感的隨機森林算法對于不平衡數(shù)據(jù)分析有較好的效果,在缺材風(fēng)險管理中具有一定的現(xiàn)實意義。
參考文獻(xiàn)
[1]高聰. 基于隨機森林的不平衡大數(shù)據(jù)分類算法研究[D].東北電力大學(xué),2018.
[2]曹鵬. 不均衡數(shù)據(jù)分類方法的研究[D].東北大學(xué),2014.
[3]楊杰明,高聰,曲朝陽,闞中鋒,高冶,常成.基于代價敏感的隨機森林不平衡數(shù)據(jù)分類算法[J].科學(xué)技術(shù)與工程,2018,18(06):285-290.