李睿峰, 許愛強(qiáng), 孫偉超, 王樹友
(海軍航空大學(xué), 山東 煙臺 264001)
在航空電子設(shè)備故障診斷中,由于測試項(xiàng)目眾多,導(dǎo)致原始數(shù)據(jù)維數(shù)較高,需要消耗大量的運(yùn)算時(shí)間與存儲空間[1]。因此,如何去除冗余信息和不相關(guān)特征,對測試數(shù)據(jù)進(jìn)行約簡,是航空電子設(shè)備故障診斷研究領(lǐng)域的一個(gè)基本問題[2-3]。
近年來,特征選擇一直是一個(gè)活躍的研究領(lǐng)域[4],一個(gè)好的特征選擇算法可以有效提取數(shù)據(jù)集中的關(guān)鍵信息[5-6]。文獻(xiàn)[7]在電子電路故障診斷中使用粗糙集約簡冗余特征。文獻(xiàn)[8]提出了一種考慮特征相關(guān)性構(gòu)成的特征選擇算法。文獻(xiàn)[9]將粒子群優(yōu)化方法應(yīng)用于特征選擇過程。文獻(xiàn)[10]將超限學(xué)習(xí)機(jī)技術(shù)應(yīng)用于特征選擇過程。文獻(xiàn)[11]研究了基于K-means聚類的特征選擇算法。
現(xiàn)有的特征選擇算法通常都是針對某一具體應(yīng)用而開發(fā)的,在特定的學(xué)習(xí)任務(wù)上表現(xiàn)出了優(yōu)于其他算法的性能,但這不能表明該算法總是“優(yōu)越”的[12],不同的特征選擇算法可能會偏向于不同的數(shù)據(jù)集。因此,為了確定哪種特征選擇算法對當(dāng)前任務(wù)最有效,需要事先發(fā)掘這些算法對于各類數(shù)據(jù)集的適用情況。
元學(xué)習(xí)是一種利用以往知識經(jīng)驗(yàn)來為新任務(wù)推薦有效學(xué)習(xí)算法的方法,目前已經(jīng)在數(shù)據(jù)挖掘領(lǐng)域得到了廣泛的應(yīng)用。通過元學(xué)習(xí),可以提取歷史數(shù)據(jù)集和學(xué)習(xí)算法的元特征[13],在新的學(xué)習(xí)任務(wù)到來之時(shí),結(jié)合與當(dāng)前數(shù)據(jù)集最為相近的歷史數(shù)據(jù)集上各類算法的性能,推薦有效的學(xué)習(xí)算法[14]。因此,建立一個(gè)用于特征選擇算法推薦的元學(xué)習(xí)系統(tǒng),可以直接為給定的故障診斷任務(wù)尋找最佳算法,有效避免因遍歷所有特征選擇算法導(dǎo)致的計(jì)算時(shí)間和空間上的開支。
此外,由于航空電子設(shè)備大部分時(shí)間處于正常狀態(tài),歷史數(shù)據(jù)中故障樣本貧瘠,數(shù)據(jù)集具有嚴(yán)重的類別不平衡特點(diǎn)。因此,建立的特征選擇算法推薦系統(tǒng)應(yīng)該能夠更好地適應(yīng)數(shù)據(jù)集不平衡這一特點(diǎn)。
綜上,提出了一種基于元學(xué)習(xí)框架的航空電子設(shè)備特征選擇算法推薦方法。首先,分析了采用基于統(tǒng)計(jì)和信息論的元特征來描述歷史數(shù)據(jù)集的方法;然后,提出了考慮分類精度、查準(zhǔn)查全率(precision recall curve, PRC)面積、算法運(yùn)行速度和選擇特征數(shù)量的綜合指標(biāo),用于評價(jià)算法性能;最后,給出了特征選擇算法推薦方法的框架,以及對于新數(shù)據(jù)集的算法推薦過程。采用了自動測試系統(tǒng)(automatic test system, ATS)日常維護(hù)中采集到的42種航電設(shè)備的測試數(shù)據(jù),結(jié)合13個(gè)過濾型特征選擇算法建立了元數(shù)據(jù)庫,采用留一法進(jìn)行了交叉驗(yàn)證。
根據(jù)前文分析,特征選擇算法在給定數(shù)據(jù)集上的性能和數(shù)據(jù)集特征密切相關(guān)。因此,建立元數(shù)據(jù)庫首先需要對數(shù)據(jù)集特征(元特征)進(jìn)行提取,并明確用于衡量算法性能的評價(jià)指標(biāo)。
高質(zhì)量的元特征[15]才能保證為新數(shù)據(jù)集推薦的特征選擇算法更加合理。典型的元特征包括基于統(tǒng)計(jì)和信息論的元特征、基于基準(zhǔn)分類器的元特征和基于模型的元特征等[16-19]。其中,基于統(tǒng)計(jì)和信息論類型的元特征被廣泛采用[12]。基于統(tǒng)計(jì)和信息論的元特征又可以分為3類:一般元特征、統(tǒng)計(jì)元特征和信息論元特征。
假設(shè)具有N個(gè)樣本的數(shù)據(jù)集表示為
(1)
1.1.1 一般元特征
一般元特征用于概述數(shù)據(jù)集的基本信息,包括:① 樣本數(shù)量N;② 特征維數(shù)K;③ 輸出值數(shù)量M;④ 數(shù)據(jù)維度dim=K/N。
1.1.2 統(tǒng)計(jì)元特征
統(tǒng)計(jì)元特征用來表征數(shù)值型特征向量的統(tǒng)計(jì)學(xué)特性,包括各類特征的分布特性以及特征之間的相關(guān)性。這些特征主要有以下內(nèi)容。
(1) 標(biāo)準(zhǔn)差:σ(fk)。
(3) 協(xié)方差
(4) 相關(guān)系數(shù)
(5) 偏度
(6) 峭度
1.1.3 信息論元特征
基于信息理論的元特征更適用于描述離散特征,由于從航空電子設(shè)備采集的測試數(shù)據(jù)集中每類特征在每個(gè)樣本上都對應(yīng)著獨(dú)立的取值,因此可以應(yīng)用信息論元特征。
特征向量fk的熵用于度量其隨機(jī)性,表示為
(2)
式中:qi,k=P(xi,k)為特征向量fk對每個(gè)xi,k的取值概率。
(1) 規(guī)范化類熵
式中:πm=P(lm)為每個(gè)類輸出的取值概率。
(2) 規(guī)范化特征熵
(3) 聯(lián)合熵
(4) 互信息
MI(fk,y)=H(fk)+H(y)-H(fk,y)=
(5) 等價(jià)特征數(shù)
(6) 噪信比
一個(gè)算法性能的優(yōu)劣,可以從多個(gè)方面進(jìn)行評價(jià),數(shù)據(jù)挖掘領(lǐng)域通常采用多標(biāo)準(zhǔn)度量指標(biāo)。文獻(xiàn)[20]結(jié)合學(xué)習(xí)算法準(zhǔn)確性和總執(zhí)行時(shí)間提出基于比率的多標(biāo)準(zhǔn)度量指標(biāo)ARR多準(zhǔn)則評估方法。文獻(xiàn)[14]在此基礎(chǔ)上針對特征選擇算法推薦問題的特點(diǎn),將選出的特征數(shù)量考慮在內(nèi),提出了EARR(extend ARR)多標(biāo)準(zhǔn)度量指標(biāo)。這兩種方法都采用了兩個(gè)算法指標(biāo)間的比值進(jìn)行計(jì)算,以消除指標(biāo)間量綱差異帶來的影響。
航空電子設(shè)備面臨著測試數(shù)據(jù)不平衡的問題[18],正常樣本的數(shù)量常常是故障樣本數(shù)量的幾倍甚至幾十倍,因此僅僅依靠分類精度來衡量算法的性能是不全面的。而且,故障樣本的檢測率在航空電子設(shè)備故障診斷領(lǐng)域中更有意義,也更為重要,因此本文在衡量算法性能時(shí)考慮了PRC面積指標(biāo)。PRC是以查準(zhǔn)率和查全率(基于混淆矩陣得出)為坐標(biāo)軸繪制的曲線,曲線下面積的大小在一定程度上表征了學(xué)習(xí)器在查準(zhǔn)率和查全率上取得相對“雙高”的比例。在樣本數(shù)量不均衡的數(shù)據(jù)集里,PRC面積更能有效衡量分類器性能的好壞。
在EARR多標(biāo)準(zhǔn)度量指標(biāo)的基礎(chǔ)上,進(jìn)一步將PRC面積考慮在內(nèi),就可以得到一個(gè)綜合指標(biāo),即算法Ai相比Aj在數(shù)據(jù)集Dk上的綜合度量指數(shù)(multi-metric index, MMI):
(3)
進(jìn)一步,用算法Ai相比于其余算法在數(shù)據(jù)集Dk上MMI值的算術(shù)平均值表示算法Ai在數(shù)據(jù)集Dk上的MMI值:
(4)
式中:N為特征選擇算法數(shù)量。
明確了元特征和算法性能指標(biāo)之后,就可以基于歷史數(shù)據(jù)集建立元數(shù)據(jù)庫,進(jìn)而開發(fā)出用于特征選擇算法推薦的元學(xué)習(xí)框架,如圖1所示。其主要思想是利用元特征來描述數(shù)據(jù)集,并學(xué)習(xí)不同算法的性能;然后針對給定數(shù)據(jù)集與歷史數(shù)據(jù)集的相似程度,利用元數(shù)據(jù)庫選出合適的特征選擇方法。
圖1 算法流程圖Fig.1 Algorithm flow chart
其中,元數(shù)據(jù)庫由歷史數(shù)據(jù)集的元特征和候選特征選擇算法在這些數(shù)據(jù)集上的MMI構(gòu)成。新數(shù)據(jù)集到來之時(shí),根據(jù)元特征尋找其近鄰數(shù)據(jù)集,推薦合適的特征選擇算法。
(5)
由于歐幾里得距離是數(shù)據(jù)挖掘領(lǐng)域常用的衡量數(shù)據(jù)集之間距離的指標(biāo),因此新數(shù)據(jù)集Dnew和歷史數(shù)據(jù)集Di之間的距離就可以表示為
(6)
通過式(6),可以找到新數(shù)據(jù)集Dnew的k個(gè)近鄰數(shù)據(jù)集。如果dist(Dnew,Ds)=0,則視為Dnew與歷史數(shù)據(jù)集Ds完全一致(這種情況的可能性極小,除非Dnew就是某個(gè)歷史數(shù)據(jù)集),直接從元數(shù)據(jù)庫中提取出候選特征選擇算法在數(shù)據(jù)集Ds上的MMI值排序,作為推薦結(jié)果。
在dist(Dnew,Di)≠0的情況下,從元數(shù)據(jù)庫中提取出候選特征選擇算法在這k個(gè)歷史數(shù)據(jù)集上的MMI值,利用Dnew和Di(i=1,2,…,k)之間的距離對其加權(quán)求和,則候選算法在Dnew上的綜合指標(biāo)可估計(jì)為
(7)
根據(jù)式(7),可以評估每個(gè)特征選擇算法在Dnew上的綜合指標(biāo),進(jìn)而將候選算法根據(jù)估計(jì)的指標(biāo)值進(jìn)行排序。整個(gè)推薦過程可以表示如下。
步驟 1提取數(shù)據(jù)集Dnew的元特征,并運(yùn)用式(5)進(jìn)行歸一化處理。
步驟 2根據(jù)式(6)計(jì)算Dnew和各歷史數(shù)據(jù)集Di之間的距離,并將距離值從小到大進(jìn)行排序。
步驟 3如果存在dist(Dnew,Ds)=0,直接從元數(shù)據(jù)庫中提取出特征選擇算法在數(shù)據(jù)集Ds上的綜合指標(biāo)排序,作為推薦結(jié)果。
步驟 4在dist(Dnew,Di)≠0的情況下,根據(jù)步驟2的結(jié)果找出Dnew的k個(gè)近鄰數(shù)據(jù)集,運(yùn)用式(7)估計(jì)候選算法在Dnew上的MMI值。
步驟 5使用估計(jì)的MMI值對特征選擇算法進(jìn)行排序,作為推薦結(jié)果。
目前尚沒有統(tǒng)一的指標(biāo)用來評價(jià)元學(xué)習(xí)方法的性能,但關(guān)注點(diǎn)通常在于衡量推薦結(jié)果與理想結(jié)果的差異性。文獻(xiàn)[20]采用Spearman秩相關(guān)系數(shù)衡量算法推薦排序與理想排序之間的一致性,以評估推薦排序的質(zhì)量。文獻(xiàn)[14]采用了Friedman檢驗(yàn)和Holm procedure檢驗(yàn)判定各數(shù)據(jù)集上候選算法之間是否存在顯著性差異,進(jìn)而提出了推薦命中率這一評價(jià)指標(biāo)。此外,文獻(xiàn)[14]提出了推薦性能比例的概念,計(jì)算推薦算法與最優(yōu)算法性能指標(biāo)的比值,以衡量兩者的接近程度。為了對特征選擇算法的推薦結(jié)果進(jìn)行有效評價(jià),本文采用了推薦命中率和推薦性能比例兩個(gè)指標(biāo)。
(1) 推薦命中率
(8)
進(jìn)一步,推薦命中率可以表示為
(9)
式中:G表示全部數(shù)據(jù)集的數(shù)量。
(2) 推薦性能比例
通過推薦命中率,可以判定推薦的算法是否有效。在此基礎(chǔ)上,推薦性能比例能夠進(jìn)一步展示推薦的算法與最優(yōu)算法在性能上的差距。推薦系統(tǒng)在數(shù)據(jù)集Di上的推薦性能比例表示為
(10)
(1) 數(shù)據(jù)集
ATS在對航空電子設(shè)備日常維護(hù)中采集到的檢測數(shù)據(jù),對于內(nèi)場維修中的故障診斷具有重要意義[18],因此本文采用了某飛行部隊(duì)修理廠航電車間3年來對42個(gè)航空電子設(shè)備的檢測數(shù)據(jù)建立元數(shù)據(jù)庫。這些設(shè)備覆蓋通信導(dǎo)航、顯示控制、電子對抗等3個(gè)專業(yè),各設(shè)備對應(yīng)的測試項(xiàng)目和指標(biāo)是根據(jù)履歷本要求來確定的,測試結(jié)果包含布爾型、整型、浮點(diǎn)型等數(shù)值型數(shù)據(jù)。在檢修過程中,如果遇到某個(gè)測試項(xiàng)目異常的情況,會通過返廠檢查的方式確定其故障類別。數(shù)據(jù)集信息如表1所示。
表1 航空電子設(shè)備數(shù)據(jù)集信息
續(xù)表1
ATS對設(shè)備施加的每個(gè)測試項(xiàng)目對應(yīng)著數(shù)據(jù)集的一個(gè)特征。由表 1可以看出,這些數(shù)據(jù)集的特征數(shù)量從8 到229不等,實(shí)例數(shù)量從132到858不等。此外,由于航空電子設(shè)備大部分時(shí)間處于正常狀態(tài),因此設(shè)備歷史數(shù)據(jù)中正常數(shù)據(jù)的規(guī)模遠(yuǎn)大于故障數(shù)據(jù)。實(shí)驗(yàn)采用留一法在這些數(shù)據(jù)集上對本文提出的特征選擇算法推薦方法進(jìn)行評價(jià),并與計(jì)算MMI值時(shí)不考慮PRC面積的方法進(jìn)行了比較。
(2) 特征選擇算法
在Weka實(shí)驗(yàn)環(huán)境下,選擇了13種特征選擇算法。這些算法是不同搜索策略和評價(jià)方法的組合,是以往研究者為解決特定領(lǐng)域的特征選擇問題而提出的,并且得到了廣泛的應(yīng)用。其中,搜索策略包括順序搜索、遺傳搜索[21]、秩搜索[22]、散射搜索[23]、禁忌搜索[24]等。評價(jià)方法包括相關(guān)性指標(biāo)[25-26]、一致性指標(biāo)[27-28]等。具體介紹如表2所示。
表 2 采用的特征選擇算法
雖然Weka框架封裝的特征選擇算法遠(yuǎn)多于13種,但是其他算法(例如用于特征評估的算法[29],貪婪搜索策略[30]等)只能給出特征排序,需要通過設(shè)置閾值的方式選出子集,閾值設(shè)定會涉及到多方面因素,故沒有將其作為候選算法。此外,新提出的特征選擇算法都可以在Weka框架內(nèi)實(shí)現(xiàn)。
(3) 分類器
由于不同的分類器內(nèi)部機(jī)制不同,對特征選擇算法的偏好程度也不同,為了對所提出的特征選擇算法推薦方法進(jìn)行客觀評價(jià),保證該方法并不只局限于某種類型的分類器,實(shí)驗(yàn)選擇了4 種具有代表性的分類算法:基于決策樹的C4.5、基于概率的樸素貝葉斯(Naive Bayes)、基于規(guī)則的 PART和基于實(shí)例(instance-based)算法(其近鄰值設(shè)置為1,IB1)[14]。這些分類器代表了各自所屬的類型,在以往的相關(guān)研究中被廣泛采用。
(4) 參數(shù)設(shè)置
關(guān)于參數(shù)α和β對實(shí)驗(yàn)結(jié)果的影響,相關(guān)領(lǐng)域的研究人員已經(jīng)進(jìn)行了深入分析,在α和β取10%的情況下,推薦系統(tǒng)已經(jīng)很大程度地偏向于推薦運(yùn)行速度快且選出的特征數(shù)量少的算法。為了充分發(fā)掘參數(shù)α和β對推薦系統(tǒng)性能的影響,實(shí)驗(yàn)將參數(shù)α和β均設(shè)置為從1%到10%,以1%步長增長的取值序列,采用網(wǎng)格搜索法,以最大化推薦性能比例均值為目標(biāo),尋找最優(yōu)參數(shù)設(shè)置。此外,文獻(xiàn)[14]通過研究指出,k近鄰值設(shè)置為歷史數(shù)據(jù)集數(shù)量的28%到47%之間會取得較好的推薦效果,故本文將k值設(shè)置為15。
針對每個(gè)數(shù)據(jù)集的特征選擇和分類過程均在Weka3.8.4實(shí)驗(yàn)環(huán)境下進(jìn)行,該階段可以得到分類精度、PRC面積、特征數(shù)量、運(yùn)行時(shí)間等實(shí)驗(yàn)結(jié)果。MMI值計(jì)算、確定最優(yōu)算法集合、算法推薦和結(jié)果評價(jià)過程在MATLAB 2018a軟件中運(yùn)行。實(shí)驗(yàn)電腦配置為:Windows 10操作系統(tǒng),Inter Core i7-7700HQ CPU,2.80 GHz主頻和8 G RAM。具體實(shí)驗(yàn)過程如下。
(1) 建立元數(shù)據(jù)庫
首先,按照第1.1節(jié)給出的公式,采集所有數(shù)據(jù)集的元特征。然后,在這些數(shù)據(jù)集上應(yīng)用第3.2節(jié)列舉的特征選擇算法,通過 5×10 折交叉驗(yàn)證,收集分類精度、PRC面積、運(yùn)行時(shí)間、特征數(shù)量等指標(biāo)值,根據(jù)式(3)和式(4)計(jì)算MMI值。最后,將每個(gè)數(shù)據(jù)集的元特征和MMI值組合為二元組,添加到元數(shù)據(jù)庫。此處將5×10 折交叉驗(yàn)證的結(jié)果分別計(jì)算MMI值,用于后面最優(yōu)算法集合的確定,取其均值添加到元數(shù)據(jù)庫。
(2) 確定最優(yōu)算法集
對于數(shù)據(jù)集Di,前面的計(jì)算中得到了50 組 MMI值。由于這些指標(biāo)數(shù)據(jù)通常不能滿足正態(tài)性以及方差齊性,因此選擇非參數(shù)假設(shè)檢驗(yàn)的Friedman檢驗(yàn)來確定每個(gè)數(shù)據(jù)集上 13個(gè)算法是否存在顯著性差異。如果檢驗(yàn)結(jié)果顯示這些算法的性能不存在顯著差異,那么這 13 個(gè)特征選擇算法均被加入到最優(yōu)算法集合中。否則,在此基礎(chǔ)上進(jìn)一步進(jìn)行多重比較,將MMI均值最大的算法作為最優(yōu)算法,挑選出其余算法中與之沒有顯著差異的算法加入到最優(yōu)算法集合中。
(3) 算法推薦及結(jié)果評價(jià)
將每個(gè)數(shù)據(jù)集Di依次作為測試數(shù)據(jù)集,其余41個(gè)數(shù)據(jù)集構(gòu)成元數(shù)據(jù)庫。首先,根據(jù)當(dāng)前數(shù)據(jù)集Di的元特征,按照式(6)從元數(shù)據(jù)庫中識別出其k個(gè)近鄰數(shù)據(jù)集。然后,基于式(7)和k個(gè)近鄰數(shù)據(jù)集上的MMI值,估計(jì)各特征選擇算法在Di上綜合指標(biāo)MMI值,并將這些估計(jì)值進(jìn)行排序。最后,利用第3.1節(jié)中給出的評價(jià)指標(biāo)對推薦結(jié)果進(jìn)行評價(jià)。
為了確定最優(yōu)參數(shù)組合,實(shí)驗(yàn)過程中需要根據(jù)第3.2節(jié)設(shè)定的參數(shù)α和β取值范圍,重復(fù)計(jì)算MMI值,并根據(jù)推薦結(jié)果計(jì)算推薦性能比例均值。以取得最大推薦性能比例均值的α和β值作為最終的實(shí)驗(yàn)參數(shù)。
受文章篇幅限制,不再對參數(shù)尋優(yōu)過程作詳細(xì)描述,只在實(shí)驗(yàn)結(jié)果中備注了最終參數(shù)取值。
3.4.1 推薦命中率
在42個(gè)數(shù)據(jù)集上推薦排名第1位的算法如圖 2所示。4個(gè)子圖分別為4個(gè)分類器上的結(jié)果,“○”表示推薦命中,“×”表示推薦未命中。不考慮PRC面積指標(biāo)的算法推薦結(jié)果如圖3所示。
圖2 算法推薦結(jié)果Fig.2 Algorithm recommendation results
在MMI值不考慮PRC面積的情況下,推薦結(jié)果如圖3所示。
圖3 不考慮PRC面積指標(biāo)的算法推薦結(jié)果Fig.3 Algorithm recommendation results without considering PRC area index
根據(jù)圖2和圖3的結(jié)果,結(jié)合式(8),可以得到推薦系統(tǒng)在各個(gè)數(shù)據(jù)集上的推薦命中情況。進(jìn)一步,運(yùn)用式(9),可得兩種方法的推薦命中率,結(jié)果如表3所示。
表3 推薦命中率對比
由圖 2、圖 3和表 3可以得出以下結(jié)論。
(1) 本文提出的特征選擇算法推薦方法能夠?yàn)?2個(gè)數(shù)據(jù)集中的大部分推薦合適的算法。在選用的4個(gè)分類器上,均取得了較高的推薦命中率,分別為40、38、39和39個(gè)數(shù)據(jù)集推薦了最優(yōu)的特征選擇算法,說明該方法的泛化性能較好。另外,所提方法為每個(gè)數(shù)據(jù)集推薦的特征選擇算法各不相同,說明為數(shù)據(jù)集推薦最合適的特征選擇算法是非常必要的。
(2) 采用C4.5分類器的情況下推薦命中率最高,只有2個(gè)數(shù)據(jù)集沒有推薦命中,說明決策樹類的分類器對于處理當(dāng)前問題更有優(yōu)勢,在具體應(yīng)用中建議采用決策樹類的分類器,為特定數(shù)據(jù)集推薦特征選擇算法。
進(jìn)一步,將排名前兩位、前三位的算法作為推薦結(jié)果,如果其中至少有一個(gè)算法與最優(yōu)算法無顯著差異,則表明推薦命中,結(jié)合式(8)確定推薦命中情況,進(jìn)而運(yùn)用式(9)計(jì)算推薦命中率,結(jié)果如表4所示。
從表4可以看出,以排名前三位的算法作為推薦時(shí),推薦命中率已經(jīng)達(dá)到一個(gè)相當(dāng)高的水平,因此可以將實(shí)驗(yàn)輸出設(shè)置為推薦排名前3位的算法。
表 4 推薦命中率對比
3.4.2 推薦性能比例
根據(jù)式(10)計(jì)算排名第1算法的推薦性能比例如圖4所示。
圖4 不同分類器推薦性能比例Fig.4 Recommendation performance ratio of different classifies
在不考慮PRC面積的情況下,推薦性能比例如圖5所示。由于在計(jì)算綜合指標(biāo)時(shí)考慮PRC面積會進(jìn)一步增大不同算法間MMI值的差距,因?yàn)椴豢紤]PRC面積相當(dāng)于統(tǒng)一認(rèn)定算法間PRC面積的比值為1。為了消除這種影響,實(shí)驗(yàn)中計(jì)算推薦性能比例時(shí),根據(jù)兩種方法得出的算法排序,統(tǒng)一采用考慮PRC面積方法計(jì)算得到的MMI值來計(jì)算。
圖5 不考慮PRC面積不同分類器的推薦性能比例Fig.5 Recommendation performance ratio of different classifiers without considering PRC area
進(jìn)一步,計(jì)算4個(gè)分類器上的推薦性能比例均值,結(jié)果如表5所示。
表 5 推薦性能比例均值
由圖 4、圖 5和表 5可以看出,本文提出的推薦方法在4個(gè)分類器上的推薦性能比例普遍較高,最低值也高于93%。且在相當(dāng)一部分?jǐn)?shù)據(jù)集上,推薦性能比例為100%,表明經(jīng)過推薦得到的算法與最優(yōu)算法完全一致或者性能基本一致。相比較而言,不考慮PRC面積指標(biāo)的算法推薦性能比例普遍低于考慮PRC面積指標(biāo)的推薦方法,且推薦性能比例為100%的數(shù)據(jù)集也少于后者。
由于航空電子設(shè)備測試數(shù)據(jù)集具有顯著的不平衡性特點(diǎn),從表 5可以看出,考慮PRC面積的方法推薦結(jié)果更能接近最佳特征選擇算法。這說明采用推薦的特征選擇算法會取得較高的MMI值,實(shí)際上最終選出了哪些特征并不重要,因?yàn)镸MI值高的特征選擇算法能夠更好地兼顧診斷精度、PRC面積這些正面指標(biāo)和運(yùn)行時(shí)間、特征數(shù)量這些負(fù)面指標(biāo),必將對后續(xù)的故障診斷產(chǎn)生有利影響。
當(dāng)前應(yīng)用于修理廠的ATS大多數(shù)只具備對航空電子設(shè)備的測試功能,部分ATS可以進(jìn)行簡單的故障診斷,而缺乏對測試數(shù)據(jù)的深入分析和處理。本文提出的特征選擇算法推薦方法可以封裝到ATS,在日常的檢測和維護(hù)過程中,將采集到的測試數(shù)據(jù)提取元特征并添加到元知識庫中,在有緊急需要的情況下調(diào)用推薦方法,為當(dāng)前故障診斷任務(wù)推薦合適的特征選擇算法,在保證后續(xù)故障診斷精度的前提下進(jìn)一步提高效率,同時(shí)又能兼顧航空電子設(shè)備測試數(shù)據(jù)不平衡的特點(diǎn)。
(1) 本文提出的方法能夠?yàn)楹娇针娮釉O(shè)備測試數(shù)據(jù)集中的大部分推薦合適的特征選擇算法。應(yīng)用在4個(gè)不同類型的分類器上,以排名第一的算法作為推薦的命中率分別為95.24%、90.48%、92.86%和92.86%;以排名前三位的算法作為推薦輸出時(shí),推薦命中率已經(jīng)達(dá)到了一個(gè)相當(dāng)高的水平。
(2) 針對航空電子設(shè)備測試數(shù)據(jù)集的類別不均衡性特點(diǎn),推薦方法相比于不考慮PRC面積的方法,能更有效地推薦特征選擇算法。
(3) 本文提出的方法在航空電子設(shè)備測試數(shù)據(jù)集上的推薦性能比例普遍較高,應(yīng)用在4個(gè)不同類型的分類器上,推薦性能比例均值分別為98.31%、97.48%、98.17%和97.25%,說明該方法能夠滿足航空電子設(shè)備故障診斷的應(yīng)用需求。
實(shí)驗(yàn)所使用的數(shù)據(jù)集覆蓋了通信導(dǎo)航、顯示控制、電子對抗等3個(gè)專業(yè)的大部分航空電子設(shè)備,隨著裝備的更新?lián)Q代,在新的航空電子設(shè)備應(yīng)用之后,同樣可以將其測試數(shù)據(jù)融入到元數(shù)據(jù)庫中,以增強(qiáng)數(shù)據(jù)庫的多樣性,提高推薦方法的推廣能力。
在未來的研究中,還應(yīng)在ATS的測試平臺上開發(fā)出具體的應(yīng)用模塊,在日常檢修中繼續(xù)收集各類航空電子設(shè)備的測試數(shù)據(jù),結(jié)合本領(lǐng)域提出的各種特征選擇算法,進(jìn)一步豐富元數(shù)據(jù)庫。