王蘭蘭,朱 捷,周正平,常兆慶
(1.鄭州鐵路職業(yè)技術(shù)學(xué)院,河南 鄭州 451460;2.鄭州航空工業(yè)管理學(xué)院 管理工程學(xué)院,河南 鄭州 450046;3.南京航空航天大學(xué) 自動(dòng)化學(xué)院,江蘇 南京 211106;4.江蘇曙光光電有限公司,江蘇 揚(yáng)州 225000)
滾動(dòng)軸承是旋轉(zhuǎn)機(jī)械的關(guān)鍵部件,一旦其發(fā)生故障,會(huì)嚴(yán)重影響設(shè)備的安全穩(wěn)定運(yùn)行,并可能會(huì)造成安全事故,以及難以估計(jì)的經(jīng)濟(jì)損失。因此,準(zhǔn)確識(shí)別滾動(dòng)軸承的故障狀態(tài),并對(duì)軸承進(jìn)行故障診斷具有重要的意義[1,2]。
滾動(dòng)軸承故障辨識(shí)屬于典型的多分類問(wèn)題。隨著當(dāng)前機(jī)械設(shè)備(旋轉(zhuǎn)機(jī)械)逐步向大型化和系統(tǒng)化方向發(fā)展,軸承的故障特征也往往具有多樣性;并且在對(duì)軸承的故障進(jìn)行信息處理過(guò)程中,還往往存在進(jìn)化的知識(shí),因此,在處理這類復(fù)雜數(shù)據(jù)時(shí),采用傳統(tǒng)的單一分類器往往會(huì)顯得力不從心。
為了提高最終的故障辨識(shí)效率,利用融合算法整合多個(gè)分類器,將是今后軸承故障辨識(shí)領(lǐng)域研究的關(guān)鍵之一[3,4]。
隨機(jī)森林(random forests,RF)是集成學(xué)習(xí)的代表算法之一。該算法通過(guò)將隨機(jī)性引入到?jīng)Q策樹中,改善了決策樹易過(guò)擬合的現(xiàn)象,解決了人工神經(jīng)網(wǎng)絡(luò)(artificial neural networks,ANN)收斂速度過(guò)慢,且易陷于過(guò)擬合的問(wèn)題;同時(shí),也克服了支持向量機(jī)(support vector machines,SVM)在處理大樣本數(shù)據(jù)時(shí)能力不足的缺點(diǎn)。隨機(jī)森林算法具有較強(qiáng)的抵抗噪聲干擾能力,通過(guò)集成多種特征向量,可以有效地提高故障診斷的準(zhǔn)確率。
吳海濱等人[5]通過(guò)改進(jìn)多尺度幅值感知排列熵與隨機(jī)森林,解決了滾動(dòng)軸承故障類別辨識(shí)問(wèn)題,以及對(duì)故障嚴(yán)重程度進(jìn)行分類的問(wèn)題。張西寧等人[6]提出了一種基于多維縮放和隨機(jī)森林的軸承故障診斷方法;該方法先利用多維縮放對(duì)故障特征集進(jìn)行了降維處理,再利用隨機(jī)森林算法對(duì)軸承故障進(jìn)行了辨識(shí)。
為了解決傳統(tǒng)的隨機(jī)森林算法存在的故障特征數(shù)目過(guò)大、復(fù)雜度過(guò)高及易產(chǎn)生過(guò)擬合等問(wèn)題,李兵等人[7]提出了一種基于改進(jìn)隨機(jī)森林的故障診斷方法;該方法分別改進(jìn)了決策樹bagging方式和綜合投票方法,可以很好地對(duì)電機(jī)軸承故障狀態(tài)進(jìn)行識(shí)別。者娜等人[8]先利用變分模態(tài)分解(VMD)方法,對(duì)軸承故障原始信號(hào)進(jìn)行了預(yù)處理,并提取出了其特征向量,然后利用隨機(jī)森林模型對(duì)反應(yīng)堆金屬撞擊信號(hào)進(jìn)行了識(shí)別。陳石等人[9]提出了一種基于小波包能量熵和隨機(jī)森林的級(jí)聯(lián)H橋多電平逆變器故障診斷方法;該方法利用PCA對(duì)故障特征進(jìn)行了降維,然后再利用隨機(jī)森林算法對(duì)逆變器故障進(jìn)行了分類,提高了逆變器故障識(shí)別的準(zhǔn)確率。
由此可見,隨機(jī)森林算法目前已廣泛應(yīng)用于故障診斷、數(shù)據(jù)挖掘和圖像處理等領(lǐng)域[10-12]。
基于上述分析,筆者提出一種基于隨機(jī)森林的滾動(dòng)軸承故障模式辨識(shí)方法。首先,提取出滾動(dòng)軸承振動(dòng)信號(hào)的時(shí)域統(tǒng)計(jì)指標(biāo),作為特征向量;然后,利用隨機(jī)森林算法對(duì)滾動(dòng)軸承故障進(jìn)行診斷;最后,利用綜合故障模擬實(shí)驗(yàn)臺(tái)的軸承數(shù)據(jù),將其與傳統(tǒng)分類器的診斷結(jié)果進(jìn)行對(duì)比,以驗(yàn)證該模式辨識(shí)方法的有效性。
隨機(jī)森林(RF)[13,14]是以CART決策樹作為弱分類器的一種集成學(xué)習(xí)算法。該算法在決策樹的基礎(chǔ)上引入隨機(jī)屬性選擇,其本質(zhì)是一個(gè)包含多個(gè)決策樹的組合分類器,由Leo Breiman和Adele Cutler于2001年提出。
隨機(jī)森林由多個(gè)決策樹{h(x,θm),m=1,2,…M}組成,其中,θm是相互獨(dú)立的隨機(jī)向量,其最終的分類結(jié)果由多個(gè)決策樹的綜合投票來(lái)決定。相比于單個(gè)分類器,隨機(jī)森林算法具有更好的分類結(jié)果,可以有效地提升學(xué)習(xí)系統(tǒng)的泛化能力。
假定一數(shù)據(jù)集為D={Xi,Yi},Xi∈Rk,Yi∈{1,2,…c},隨機(jī)地建立一個(gè)由多個(gè)決策樹{h(x,θm),m=1,2,…M}組成的森林,各決策樹之間沒有關(guān)聯(lián),當(dāng)輸入樣本xi時(shí),隨機(jī)森林的基決策樹都會(huì)給出各自的識(shí)別結(jié)果,最后將投票數(shù)多的類別作為該輸入的最終分類。
隨機(jī)森林算法流程如下:
(1)利用bootstrap重采樣方法[15]從原始數(shù)據(jù)集中隨機(jī)抽取n個(gè)樣本,組成單決策樹的訓(xùn)練集(依次為每一個(gè)bootstrap訓(xùn)練集訓(xùn)練組建分類數(shù),共產(chǎn)生n棵決策樹構(gòu)成一片“森林”,這些決策樹均不進(jìn)行剪枝),每個(gè)訓(xùn)練集大小約為原始數(shù)據(jù)集的2/3。雖然隨機(jī)的有放回采樣存在一定的重復(fù)率,但可以避免決策樹陷入局部最優(yōu)的情況;
(2)定義訓(xùn)練樣本的輸入特征個(gè)數(shù)為M。隨機(jī)森林中的單棵決策樹從根節(jié)點(diǎn)開始自上而下遞歸分裂,每棵決策樹在每個(gè)節(jié)點(diǎn)上分裂時(shí),從M個(gè)特征向量里隨機(jī)(無(wú)放回)選擇m個(gè)特征向量(m取M的向下整數(shù)),然后按照分裂節(jié)點(diǎn)不純度最小的原則從上述特征中挑選出一個(gè)最好的特征進(jìn)行分裂生長(zhǎng)。m在整個(gè)森林生長(zhǎng)的過(guò)程中保持不變,重復(fù)上述過(guò)程依次分裂,直至該決策樹遍歷所有的特征屬性;
(3)在分類階段,通過(guò)集合n棵決策樹的分類結(jié)果,采用相對(duì)多數(shù)投票原則來(lái)決定樣本的類別。
隨機(jī)森林的分類原理決定了它在處理數(shù)據(jù)時(shí),能夠避免由于模型輸入數(shù)據(jù)維數(shù)上升而使得分類精度下降的情況,保證了在原始信號(hào)特征維數(shù)較大的情況下,仍能獲得良好的分類效果。
隨機(jī)森林分類過(guò)程如圖1所示。
圖1 隨機(jī)森林分類過(guò)程
此處的原始數(shù)據(jù)來(lái)源于一雙跨雙轉(zhuǎn)子綜合故障模擬平臺(tái)—HZXT-DS-001型綜合故障模擬實(shí)驗(yàn)臺(tái)。
該綜合故障模擬平臺(tái)實(shí)物圖如圖2所示。
圖2 雙跨雙轉(zhuǎn)子綜合故障模擬平臺(tái)
該綜合故障模擬平臺(tái)的軸承安裝端實(shí)物圖,如圖3所示。
圖3 故障軸承安裝端
由圖3左半部分可見,采樣通道共5個(gè)。
實(shí)驗(yàn)中,筆者測(cè)得滾動(dòng)軸承NSK6308在滾動(dòng)體故障、保持架故障、內(nèi)圈故障、外圈故障、正常情況共5種狀態(tài)下的振動(dòng)信號(hào)各80組。其中,訓(xùn)練樣本30組,測(cè)試樣本20組,剩下30組作為驗(yàn)證樣本。
采樣轉(zhuǎn)速分別為2 600 r/min、2 800 r/min、3 000 r/min、3 200 r/min,采樣頻率為8 kHz。
采樣轉(zhuǎn)速在3 000 r/min下,在通道1中采集到滾動(dòng)軸承的5種運(yùn)行狀態(tài)結(jié)果,如圖4所示。
圖4 滾動(dòng)軸承在部分故障下的振動(dòng)信號(hào)
為了降低采集到的原始信號(hào)中環(huán)境噪聲等干擾信息,筆者先將原始振動(dòng)信號(hào)經(jīng)一維小波消噪,然后再提取信號(hào)中所包含的時(shí)域、頻域和時(shí)頻域的多域特征。
最后筆者提取到的16個(gè)多域特征如表1所示。
由于有5個(gè)通道,此處共可得到5×16=80維的特征,筆者將原始的特征數(shù)據(jù)集歸一化處理至[-1,1]的區(qū)間。
表1 為chi通道構(gòu)造的原始特征參數(shù)(i=1,2,3,4,5)
基于隨機(jī)森林算法的故障辨識(shí)具體流程如下:
輸入:高維特征訓(xùn)練集T和測(cè)試集U;
輸出:故障類別集S;
(1)采集振動(dòng)數(shù)據(jù),并進(jìn)行處理;
(2)從時(shí)域、頻域和時(shí)頻域方面提取特征指標(biāo),構(gòu)建原始數(shù)據(jù)特征集并進(jìn)行數(shù)據(jù)歸一化處理;
(3)隨機(jī)森林故障辨識(shí)
1)Fori=1 ∶N(i為基學(xué)習(xí)器數(shù)目,此處的基學(xué)習(xí)器為決策樹)
①對(duì)訓(xùn)練集T采用Bagging方法中的重采樣算法,得到訓(xùn)練子集Ti;
②利用訓(xùn)練子集Ti訓(xùn)練出決策樹,為Hi;
③將測(cè)試集U輸入至Hi,得到結(jié)果Si;
2)對(duì)Si利用相對(duì)多數(shù)投票法得到最終分類結(jié)果S;
End
隨機(jī)森林中基決策樹數(shù)目與辨識(shí)精度的關(guān)系曲線圖如圖5所示。
圖5 隨機(jī)森林中基決策樹數(shù)目與辨識(shí)精度的關(guān)系
從圖5中可以看出:隨著基決策樹數(shù)目增多,隨機(jī)森林的分類準(zhǔn)確率逐漸增加。
圖5中,由于基決策樹數(shù)目為30,筆者在保證單個(gè)決策樹的識(shí)別精度不低于65的基礎(chǔ)上,將每個(gè)輸入值各決策樹的特征數(shù)設(shè)為35。
為了對(duì)隨機(jī)森林故障辨識(shí)模型的故障分類能力進(jìn)行驗(yàn)證,在2 600 r/min、2 800 r/min、3 000 r/min、3 200 r/min幾種采樣轉(zhuǎn)速下,筆者分別對(duì)幾種故障狀態(tài)進(jìn)行故障辨識(shí)。
不同轉(zhuǎn)速下,隨機(jī)森林的分類識(shí)別率如表2所示。
表2 隨機(jī)森林不同轉(zhuǎn)速下故障辨識(shí)結(jié)果
從表2中看出:在不同轉(zhuǎn)速下,隨機(jī)森林對(duì)幾種故障狀態(tài)的分類準(zhǔn)確率都比較高。
為了驗(yàn)證隨機(jī)森林法在故障辨識(shí)精度上的優(yōu)越性,筆者將該算法獲得的分類準(zhǔn)確率與分類器,即BP神經(jīng)網(wǎng)絡(luò)(back propagation neural network,BPNN)、k近鄰分類(k-nearest neighbor classification,KNN)、支持向量機(jī)(support vector machines,SVM)獲得的分類準(zhǔn)確率進(jìn)行了對(duì)比。
不同分類器的分類結(jié)果如表3所示。
表3 不同分類器的分類準(zhǔn)確率
從表3中可以看出:
在不同轉(zhuǎn)速下,隨機(jī)森林的分類準(zhǔn)確率高于其他3種分類方式。這是因?yàn)橄啾葌鹘y(tǒng)的分類器BP、KNN、SVM,隨機(jī)森林不需要繁瑣的參數(shù)尋優(yōu)過(guò)程和最優(yōu)的特征向量選擇;
同時(shí),隨機(jī)森林算法可以利用簡(jiǎn)單的弱分類器(決策樹),以投票的形式產(chǎn)生最終的分類結(jié)果,從而可以有效地提高診斷的精度。
在變工況和轉(zhuǎn)速波動(dòng)條件下,為了驗(yàn)證隨機(jī)森林方法的辨識(shí)精度,筆者分別選擇2 600 r/min~2 800 r/min,2 800 r/min~3 000 r/min,3 000 r/min~3 200 r/min,2 600 r/min~2 800 r/min~3 000 r/min的4個(gè)轉(zhuǎn)速范圍對(duì)隨機(jī)森林方法的辨識(shí)性能進(jìn)行驗(yàn)證。
在變工況下,隨機(jī)森林分類識(shí)別率如表4所示。
表4表明,在轉(zhuǎn)速波動(dòng)時(shí),隨機(jī)森林方法仍然具有較高的辨識(shí)精度。
表4 隨機(jī)森林在變工況下分類準(zhǔn)確率
為了進(jìn)一步測(cè)試不同訓(xùn)練樣本數(shù)目對(duì)隨機(jī)森林法故障辨識(shí)精度的影響,筆者隨機(jī)設(shè)置訓(xùn)練樣本數(shù)目分別為10、15、20、25、30,經(jīng)測(cè)試,得到了不同訓(xùn)練樣本數(shù)目與故障識(shí)別率的關(guān)系,如圖6所示。
圖6 不同訓(xùn)練樣本比例對(duì)應(yīng)的平均識(shí)別正確率
從圖6可以看出:
(1)隨著訓(xùn)練樣本數(shù)目的增加,幾種分類器故障識(shí)別準(zhǔn)確率不斷增大;
(2)在訓(xùn)練樣本數(shù)較少的情況下,隨機(jī)森林分類識(shí)別準(zhǔn)確率一直保持穩(wěn)定,而其他傳統(tǒng)分類器的故障分類準(zhǔn)確率則受訓(xùn)練樣本數(shù)目的影響較大。
由于在實(shí)際情況下采集到的滾動(dòng)軸承振動(dòng)信號(hào)往往伴隨噪聲等干擾信息,為了驗(yàn)證隨機(jī)森林法的抗干擾能力,筆者在所建立的測(cè)試集中加入隨機(jī)擾動(dòng)。
擾動(dòng)矩陣定義為M=0.2*F(120,16),F為隨機(jī)函數(shù),旨在產(chǎn)生區(qū)間為[0,1]的隨機(jī)數(shù);120表示測(cè)試樣本的數(shù)量為120個(gè),16表示測(cè)試集特征參數(shù)的個(gè)數(shù)為16個(gè)。
各分類方法故障識(shí)別率如圖7所示。
圖7 各分類方法在抗噪性方面的對(duì)比
圖7結(jié)果表明:
與傳統(tǒng)的分類方法相比,隨機(jī)森林具有更好的抗噪聲等干擾能力。
由此可見,筆者提出的方法在滾動(dòng)軸承故障辨識(shí)方面有良好的工程實(shí)用價(jià)值。
針對(duì)滾動(dòng)軸承故障診斷中存在的特征選取困難,以及分類精度較低的問(wèn)題,筆者提出了一種基于隨機(jī)森林的滾動(dòng)軸承故障辨識(shí)方法。首先,提取出滾動(dòng)軸承振動(dòng)信號(hào)中的時(shí)域特征,將其作為特征向量;然后,以這些特征向量作為隨機(jī)森林算法的輸入,對(duì)軸承進(jìn)行了故障診斷;最后,利用SQI實(shí)驗(yàn)平臺(tái)軸承數(shù)據(jù),對(duì)該方法的可行性與有效性進(jìn)行了驗(yàn)證。
研究結(jié)果表明:
(1)在不同轉(zhuǎn)速下,隨機(jī)森林對(duì)幾種故障狀態(tài)分類準(zhǔn)確率都比較高;并且在變工況和波動(dòng)轉(zhuǎn)速下,隨機(jī)森林方法也具有良好的辨識(shí)性能;
(2)在不同轉(zhuǎn)速下,與BP、KNN、SVM 3種分類方式相比,隨機(jī)森林的分類準(zhǔn)確率更高;
(3)在樣本數(shù)目較少的情況下,隨機(jī)森林仍然能保持穩(wěn)定的分類識(shí)別率;
(4)相較于BP、KNN、SVM分類器,隨機(jī)森林算法具有良好的抗噪聲干擾能力。
在VMD的分解中,分解個(gè)數(shù)K值的選擇直接決定著VMD分解的結(jié)果,因此,在后續(xù)的工作中,筆者將對(duì)如何合理有效地選取K值做進(jìn)一步的研究。