黃玉婧, 徐 智, 單添敏, 曹 亮, 王景霖, 沈 勇
1.故障診斷與健康管理技術(shù)航空科技重點(diǎn)實(shí)驗(yàn)室,上海 201601;2.航空工業(yè)上海航空測(cè)控技術(shù)研究所,上海 201601)
直升機(jī)由于其靈活機(jī)動(dòng)、受空間限制較小的優(yōu)勢(shì),近幾年來(lái)在工業(yè)、民用、國(guó)防等領(lǐng)域都得到了越來(lái)越廣泛的應(yīng)用。尤其在國(guó)防領(lǐng)域,軍用直升機(jī)的工作條件往往較為惡劣,其飛行的可靠性尤為重要。其中傳動(dòng)系統(tǒng)作為其核心功能系統(tǒng),不僅需要滿足小體積、大功率的要求,而且其工作環(huán)境往往存在電磁、高溫等干擾,另外也會(huì)有不可避免的工藝誤差、材料缺陷,因此直升機(jī)傳動(dòng)系統(tǒng)的故障診斷是一個(gè)重要的研究方向[1-2]。滾動(dòng)軸承作為直升機(jī)的核心零部件之一,是影響直升機(jī)健康運(yùn)行的重要因素,因此對(duì)其進(jìn)行高效準(zhǔn)確的故障診斷具有重要意義[3-4]。
近幾年來(lái),眾多學(xué)者對(duì)滾動(dòng)軸承故障診斷開(kāi)展了研究。張琛等[5]利用集合經(jīng)驗(yàn)?zāi)B(tài)分解進(jìn)行信號(hào)的篩選和重構(gòu),并根據(jù)重構(gòu)信號(hào)奇異值熵的大小來(lái)進(jìn)行滾動(dòng)軸承故障類型的判斷。陳海周等[6]利用最小熵解卷積,對(duì)強(qiáng)噪聲環(huán)境下的故障信號(hào)進(jìn)行降噪,再對(duì)降噪后的Teager能量信號(hào)進(jìn)行頻域特征提取。隨著機(jī)器學(xué)習(xí)的進(jìn)一步推廣,越來(lái)越多的學(xué)者將機(jī)器學(xué)習(xí)算法應(yīng)用到滾動(dòng)軸承故障診斷上。徐可等[7]首先對(duì)經(jīng)驗(yàn)?zāi)B(tài)分解進(jìn)行改進(jìn),提取能量特征,再利用優(yōu)化支持向量機(jī)進(jìn)行故障識(shí)別。汪朝海等[8]在經(jīng)驗(yàn)?zāi)B(tài)分解的基礎(chǔ)上將分量能量和分量局部平均頻率生成復(fù)合特征,再用主成分分析法實(shí)現(xiàn)故障識(shí)別。Han等[9]在兩個(gè)數(shù)據(jù)集上對(duì)比了極限學(xué)習(xí)機(jī)、概率神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)和隨機(jī)森林(Random Forest,RF)這4種分類算法,證明RF在分類準(zhǔn)確性、穩(wěn)定性和魯棒性上均表現(xiàn)更優(yōu)。
為了進(jìn)一步提高直升機(jī)滾動(dòng)軸承故障診斷的精度,解決分類算法常用的時(shí)域特征指標(biāo)在直升機(jī)部件與傳遞路徑復(fù)雜、信號(hào)表現(xiàn)非平穩(wěn)等條件下,在特征空間內(nèi)可能存在重疊,難以充分反映信號(hào)特性,從而影響分類精度的問(wèn)題,將傳統(tǒng)時(shí)域指標(biāo)和多尺度空間的思想相結(jié)合,構(gòu)造能夠表征更豐富信息的多尺度特征,并進(jìn)行有效的特征選擇處理,通過(guò)RF模型實(shí)現(xiàn)故障的有效分類診斷。
在滾動(dòng)軸承的故障診斷中,時(shí)域特征是一類常用且有效的指標(biāo),其計(jì)算方法簡(jiǎn)單,且能表征豐富信息。時(shí)域特征根據(jù)量綱的有無(wú)可以分成兩類。本文共提取出10個(gè)時(shí)域特征,其中有量綱指標(biāo)4項(xiàng),無(wú)量綱指標(biāo)6項(xiàng),各指標(biāo)具體計(jì)算公式如下。
(1)
② 均方根(Xrms):有量綱指標(biāo),表征信號(hào)有效值。
(2)
③ 方差(Xvar):有量綱指標(biāo),表征信號(hào)動(dòng)態(tài)分量。
(3)
④ 標(biāo)準(zhǔn)差(Xst):有量綱指標(biāo),表征信號(hào)離散程度。
(4)
⑤ 波形指標(biāo)(Sf):無(wú)量綱指標(biāo)。
(5)
⑥ 脈沖指標(biāo)(If):無(wú)量綱指標(biāo),表征信號(hào)沖擊存在情況。
(6)
⑦ 裕度指標(biāo)(CLf):無(wú)量綱指標(biāo),表征設(shè)備磨損程度。
(7)
⑧ 峰值指標(biāo)(Cf):無(wú)量綱指標(biāo),表征峰值在波形中的極端性。
(8)
⑨ 峭度指標(biāo)(Kv):無(wú)量綱指標(biāo),表征波形平緩程度。
(9)
⑩ 偏度指標(biāo)(Sv):無(wú)量綱指標(biāo),表征信號(hào)分布的非對(duì)稱性。
(10)
Relief算法始于1992年,被用來(lái)處理二分類下的特征選擇問(wèn)題。該算法通過(guò)特征與類別之間的關(guān)聯(lián)性為特征賦予權(quán)重,關(guān)聯(lián)性取決于特征對(duì)相近樣本的區(qū)分能力,區(qū)分能力強(qiáng),關(guān)聯(lián)性大,權(quán)重也大,根據(jù)被賦予權(quán)重的大小來(lái)選擇更敏感的特征。但是Relief只能解決二分類問(wèn)題,為解決多分類的問(wèn)題,ReliefF算法應(yīng)運(yùn)而出,其主要思想是一個(gè)具有良好分類效果的特征會(huì)具有凝聚同類樣本、疏遠(yuǎn)異類樣本的能力,該算法性能更強(qiáng)、更穩(wěn)定[10]。
ReliefF的具體計(jì)算流程如下[11]。
設(shè)樣本集為D,隨機(jī)從D中抽取出的樣本為R,抽取共m次。
① 將全部特征權(quán)重置0,即w(F)=0,其F=1,2,…,n,其中n為特征總數(shù)。
②Hj(j=1,2,…,k)為從R的同類別樣本集中抽取的k個(gè)最近鄰樣本,另外從R的各個(gè)不同類別樣本集中均抽取k個(gè)最近鄰樣本Mj(C)(j=1,2,…,k),其中C≠Class(R)。
③ 計(jì)算每個(gè)特征的權(quán)重。第F個(gè)特征的權(quán)重W(F)可由式(11)計(jì)算。
(11)
式中:p(C)和p(Class(R))都表示相應(yīng)類別的概率;diff(F,R1,R2)為樣本R1和R2在第F個(gè)特征上的距離,代表差異度,計(jì)算方法如下。
如果特征是離散型,則有:
(12)
如果特征是連續(xù)型,則有:
(13)
式(11)中的diff(F,R,Hj)和diff(F,R,Mj(C))可依據(jù)式(12)和式(13)計(jì)算。
④ 由于樣本隨機(jī)抽取m次,循環(huán)步驟②和步驟③共m次,完成n個(gè)特征權(quán)重的迭代更新,式(11)中的下標(biāo)i是指第i次循環(huán)。
⑤ 循環(huán)完成后,選擇大權(quán)重的部分特征組成優(yōu)化特征子集,用于后續(xù)的應(yīng)用。
RF是一種集成式分類器,它是由很多隨機(jī)生成的決策樹(shù)集成而來(lái)。每棵決策樹(shù)是獨(dú)立弱分類器,當(dāng)有未知類別樣本輸入時(shí),每棵決策樹(shù)都會(huì)獨(dú)立進(jìn)行判斷,再按“少數(shù)服從多數(shù)”原則,投票得到該樣本的類別[12]。
分類回歸樹(shù)(Classification and Regression Tree,CART)在目前的決策樹(shù)構(gòu)造算法中十分典型。CART算法是一種二分遞歸分裂算法,選擇基尼(Gini)指數(shù)作為屬性度量指標(biāo)。Gini指數(shù)通過(guò)考慮屬性所有可能的二元分裂,最終按照Gini指數(shù)最小時(shí)的模式進(jìn)行分裂,當(dāng)前樣本集將分裂為兩個(gè)子集[13]。CART算法在此規(guī)則下,由上至下不斷分裂,直到出現(xiàn)葉節(jié)點(diǎn)停止,完成決策樹(shù)的構(gòu)造。
RF的具體實(shí)現(xiàn)流程如下[14]。
① 利用Bootstrap重采樣算法,有放回地隨機(jī)抽取樣本,生成k個(gè)子樣本集,即RF的規(guī)格為k。
③ 將測(cè)試樣本輸入到由前兩步得到的RF模型,每個(gè)分類二叉樹(shù)都會(huì)產(chǎn)生一個(gè)分類結(jié)果,按照“少數(shù)服從多數(shù)”的原則,根據(jù)全部k個(gè)結(jié)果投票確定最終分類結(jié)果。
傳統(tǒng)的各種時(shí)域特征指標(biāo),無(wú)論有無(wú)量綱,都是在單一尺度下進(jìn)行分析。但由于直升機(jī)系統(tǒng)部件和傳遞路徑復(fù)雜,因此采集到的信號(hào)中可能包含多個(gè)信號(hào)源。并且考慮到信號(hào)的非平穩(wěn)性,單一尺度下的特征在特征空間內(nèi)可能會(huì)有重疊,難以充分反映信號(hào)特性。綜合上述考慮,這里參考多尺度概念[15],考慮信號(hào)在多個(gè)尺度下的特征,以保證信號(hào)的整體完整性信息和局部細(xì)節(jié)信息[16],提出多尺度特征指標(biāo),反映信號(hào)在多尺度空間中的特性。
首先對(duì)原始時(shí)域信號(hào)進(jìn)行不同尺度的粗粒化處理,得到其在不同尺度下的分布。對(duì)于時(shí)域序列x={x1,x2,…,xn},進(jìn)行長(zhǎng)度為τ的信號(hào)分割,其中第j個(gè)信號(hào)段為
(14)
具體粗?;幚磉^(guò)程如圖1所示,得到相應(yīng)粗粒度序列y(τ)如下:
圖1 粗?;^(guò)程
(15)
式中:τ為尺度因子。
對(duì)不同尺度的粗粒度序列y(τ)進(jìn)行各項(xiàng)時(shí)域特征的提取,即可得到所需多尺度特征。由于當(dāng)τ=1時(shí)的多尺度序列y(1)即為原始時(shí)域序列x,此時(shí)計(jì)算得到的即是傳統(tǒng)時(shí)域特征。
為了更好做到滾動(dòng)軸承健康類別的區(qū)分,達(dá)到更高分類精度,需要提取能夠表征軸承狀態(tài)的有效特征。本研究在傳統(tǒng)時(shí)域指標(biāo)的基礎(chǔ)上,結(jié)合多尺度空間對(duì)特征空間重疊和信號(hào)跨尺度復(fù)雜性問(wèn)題的優(yōu)勢(shì),構(gòu)建多尺度指標(biāo)。同時(shí)為了降低多尺度指標(biāo)對(duì)計(jì)算成本的壓力并剔除分類無(wú)用特征,采用ReliefF算法進(jìn)行特征篩選,篩選后的特征將用于RF模型的訓(xùn)練和滾動(dòng)軸承故障分類。該算法流程圖如圖2所示。
圖2 算法流程圖
該算法具體流程如下。
① 對(duì)采集到的7種健康狀態(tài)的軸承數(shù)據(jù)進(jìn)行各自的多尺度空降構(gòu)建,其中尺度因子τ的選擇范圍在1~10之間,對(duì)得到的多尺度序列分別進(jìn)行10種特征指標(biāo)的提取,由此每個(gè)信號(hào)都會(huì)對(duì)應(yīng)一個(gè)100維的原始高維多尺度特征集。該特征集能夠表征不同尺度下的信號(hào)特征,反映相應(yīng)健康狀態(tài)信息。
② 為了對(duì)原始高維多尺度特征集進(jìn)行冗余和負(fù)面特征的剔除,同時(shí)減輕計(jì)算成本,選擇ReliefF算法,根據(jù)特征對(duì)相似樣本的分類能力,對(duì)全體特征進(jìn)行權(quán)重分配。對(duì)相似樣本的區(qū)分效果越好的特征將會(huì)被賦予越大的權(quán)重。選擇權(quán)重最大的一部分特征用于之后RF模型的構(gòu)建和測(cè)試。
③ 隨機(jī)抽取全體信號(hào)樣本的60%作為訓(xùn)練集,利用訓(xùn)練集的敏感多尺度特征和標(biāo)簽進(jìn)行RF模型的訓(xùn)練,剩余40%用于模型測(cè)試。RF綜合所有子分類器的結(jié)果進(jìn)行投票,占比最大的類別被確定為最終分類結(jié)果。
為了對(duì)所提出的算法進(jìn)行有效性驗(yàn)證,選用凱斯西儲(chǔ)大學(xué)的公開(kāi)滾動(dòng)軸承數(shù)據(jù)進(jìn)行分析[17]。圖3為試驗(yàn)臺(tái)結(jié)構(gòu),左側(cè)為產(chǎn)生動(dòng)力的驅(qū)動(dòng)電機(jī),中間為扭矩傳感器,右側(cè)為施加載荷的測(cè)力計(jì),試驗(yàn)軸承用于支撐電機(jī)轉(zhuǎn)軸,在電機(jī)的驅(qū)動(dòng)端和風(fēng)扇端均裝有振動(dòng)加速度傳感器。
圖3 凱斯西儲(chǔ)大學(xué)試驗(yàn)臺(tái)[17]
分析所用的軸承數(shù)據(jù)采樣頻率為48 kHz,軸承健康類型共7種包括:健康軸承,以及攜帶0.007 in和0.021 in內(nèi)圈、外圈、滾動(dòng)體故障的6種故障軸承。其中每種健康類型均安排電機(jī)負(fù)載為1馬力、2馬力(1馬力=0.75 kW)下的各100個(gè)樣本。為了增加分類的難度,在采集到的信號(hào)中均加入噪聲,以達(dá)到在負(fù)載變化的條件下,有效識(shí)別不同類型、不同程度軸承故障的目的。每種健康類型中隨機(jī)抽60%用作訓(xùn)練集,剩余40%用作測(cè)試集。表1為樣本安排情況。
表1 樣本安排情況
將所有樣本數(shù)據(jù)均按照最大尺度τ=10進(jìn)行粗粒化處理,構(gòu)造多尺度序列空間。再對(duì)每個(gè)尺度下的粗粒度序列均進(jìn)行10種特征的提取,即每個(gè)樣本將對(duì)應(yīng)一個(gè)100維的原始高維多尺度特征。
由于每個(gè)特征的分類能力不一致,并且100維的特征會(huì)給計(jì)算成本帶來(lái)壓力,通過(guò)ReliefF算法對(duì)每個(gè)特征的分類能力進(jìn)行評(píng)估,并賦予相應(yīng)權(quán)重,特征分類能力越強(qiáng),權(quán)重將越大。圖4為原始高維多尺度特征經(jīng)過(guò)ReliefF算法得到的權(quán)重圖,其中橫坐標(biāo)是全體特征的編號(hào),第1~10個(gè)特征對(duì)應(yīng)尺度因子τ=1,第11~20個(gè)特征對(duì)應(yīng)尺度因子τ=2,后面同理。
圖4 原始高維多尺度特征權(quán)重分布
為了與不考慮多尺度下的10個(gè)原始時(shí)域特征做對(duì)比,在原始高維多尺度特征中選擇權(quán)重最大的前10個(gè)特征作為敏感特征,用作RF的輸入。每種健康類型中隨機(jī)抽60%用作訓(xùn)練集,剩余40%用作測(cè)試集。圖5為該算法最終得到的分類結(jié)果。橫軸表示測(cè)試樣本編號(hào),1~80、81~160、161~240、241~320、321~400、401~480、481~560依次指表1中的7種健康狀況??v軸為7種健康狀況相應(yīng)類型標(biāo)簽??梢钥吹剿岢龅乃惴ㄟ_(dá)到了95.18%的分類精度。
為了證明所提出的算法的優(yōu)勢(shì),將不考慮多尺度下的10個(gè)原始時(shí)域特征作為輸入進(jìn)行對(duì)比,分類結(jié)果如圖6所示,分類精度為93.39%。可以看出輸入特征數(shù)目相等的情況下,多尺度特征和ReliefF的結(jié)合能夠?yàn)榉诸愄峁┬阅芨玫奶卣鳌?/p>
圖6 原始時(shí)域特征分類結(jié)果
另外,為了說(shuō)明RF算法的優(yōu)勢(shì),在輸入同樣是前10個(gè)敏感多尺度特征的前提下,選擇K最鄰近(K-Nearest Neighbor,KNN)算法和樸素貝葉斯(Naive Bayes,NB)算法進(jìn)行對(duì)比,相應(yīng)分類結(jié)果如圖7所示。KNN算法對(duì)應(yīng)精度為80.36%,NB算法對(duì)應(yīng)精度為91.96%,均低于RF算法的精度,能夠看出RF在該方法中的優(yōu)勢(shì)。
圖7 KNN算法和NB算法分類結(jié)果對(duì)比
本文圍繞提高直升機(jī)滾動(dòng)軸承故障診斷精度問(wèn)題,結(jié)合傳統(tǒng)時(shí)域特征和多尺度空間的優(yōu)勢(shì),提出多尺度特征的概念,結(jié)合ReliefF算法的特征選擇功能和RF算法集成學(xué)習(xí)優(yōu)勢(shì),提出一種基于多尺度空間的直升機(jī)滾動(dòng)軸承故障診斷方法。利用公開(kāi)數(shù)據(jù)集對(duì)所提出的方法進(jìn)行驗(yàn)證和對(duì)比??梢钥闯?,所提出的方法針對(duì)7種健康狀況軸承可以達(dá)到95%以上的分類精度,相較于原始時(shí)域特征達(dá)到的93.39%分類精度,以及KNN算法80.36%的分類精度、NB算法91.96%的分類精度,都有明顯提升,說(shuō)明其具有良好的可行性。然而所提出的算法目前僅應(yīng)用于定轉(zhuǎn)速、定負(fù)載工況下的軸承數(shù)據(jù),針對(duì)變轉(zhuǎn)速、變負(fù)載等工況還有待進(jìn)一步研究。