王訓(xùn)訓(xùn),陳 天,劉正杰,俞 嘯,丁恩杰
(中國(guó)礦業(yè)大學(xué) 物聯(lián)網(wǎng)(感知礦山)研究中心, 徐州 221000)
作為機(jī)械生產(chǎn)設(shè)備的動(dòng)力源泉,電機(jī)設(shè)備有著越來越重要的作用。電機(jī)需要經(jīng)常在復(fù)雜環(huán)境下高速運(yùn)轉(zhuǎn),因此電機(jī)的諸多子部件容易發(fā)生失效。一旦電機(jī)部件發(fā)生損壞,勢(shì)必會(huì)影響正常生產(chǎn)和人的生命安全。近年來,隨著機(jī)器學(xué)習(xí)的高速發(fā)展,我們對(duì)電機(jī)故障的診斷不僅僅局限于傳統(tǒng)的人為經(jīng)驗(yàn),高精度的故障診斷方法層出不窮。
傳統(tǒng)的人為判斷電機(jī)故障主要靠看、聽、聞、摸,這樣會(huì)導(dǎo)致診斷不及時(shí)以及效率低下[1]。隨著數(shù)據(jù)挖掘以及機(jī)器學(xué)習(xí)方法的發(fā)展,數(shù)據(jù)驅(qū)動(dòng)的電機(jī)故障診斷越來越受到重視。電機(jī)故障診斷有如下步驟:首先對(duì)提取到的樣本信號(hào)(包括溫度、電流、振動(dòng)信號(hào)等,本文主要討論振動(dòng)信號(hào))進(jìn)行信號(hào)處理,主要對(duì)傳感器采集的振動(dòng)信號(hào)提取其故障特征;接著需要對(duì)處理過的信號(hào)進(jìn)行特征篩選,篩選出對(duì)故障敏感的特征信息;篩選出的特征一般為維度較高的故障特征,無法直接對(duì)其進(jìn)行模式識(shí)別,因此需要對(duì)故障特征進(jìn)行降維操作;最后將低維的故障特征導(dǎo)入分類器模型,用來進(jìn)行狀態(tài)模式識(shí)別[2]。
電機(jī)故障診斷的方法有很多,本文對(duì)隨機(jī)森林故障模式識(shí)別算法進(jìn)行優(yōu)化,并討論了一種新的特征篩選算法對(duì)電機(jī)振動(dòng)信號(hào)特征進(jìn)行敏感度篩選。
粒子群優(yōu)化(以下簡(jiǎn)稱PSO)是由Eberhart和Kennedy提出的,他們受鳥群體性活動(dòng)的啟發(fā),通過每個(gè)單獨(dú)個(gè)體的合作來找到最優(yōu)化的解。PSO因?yàn)槠鋬?yōu)越的性能成為一種廣泛使用的優(yōu)化算法。PSO優(yōu)化分為局部最優(yōu)化和全局最優(yōu)化。
PSO中粒子選取一個(gè)適應(yīng)度值用來表示問題的可能解,而適應(yīng)度值取決于適應(yīng)度函數(shù)。PSO尋找最優(yōu)解的策略:PSO中粒子的移動(dòng)速度決定其距離和方向,并且粒子移動(dòng)速度根據(jù)移動(dòng)經(jīng)驗(yàn)進(jìn)行動(dòng)態(tài)的選擇[3]。PSO算法的步驟如下:(1)隨機(jī)選取若干粒子,用適應(yīng)度值對(duì)選取的粒子進(jìn)行優(yōu)劣程度初始化;(2)通過局部最優(yōu)pbest和全局最優(yōu)gbest的值,讓初始化的粒子在解空間中尋找新的坐標(biāo);(3)根據(jù)更新后的粒子坐標(biāo)計(jì)算適應(yīng)度值,在此值的基礎(chǔ)上重新計(jì)算pbest和gbest的坐標(biāo)。
設(shè)有一個(gè)種群Y=(Y1,Y2,…,Ym),該種群包括m個(gè)粒子。種群Y在搜索空間中進(jìn)行更新,更新公式如下:
(1)
(2)
式中:Yid和Vid分別為粒子i在搜索空間中的位置和速度信息;k表示當(dāng)前迭代次數(shù);Pid和Pgd分別為個(gè)體極值和種群的全局極值;ω為慣性權(quán)重;c1,c2為非負(fù)加速度因子;r1,r2的取值范圍為[0,1],為隨機(jī)數(shù)。在本文中,為了防止粒子在空間中任意移動(dòng),將粒子的速度限定在規(guī)定的確定區(qū)間內(nèi)。
假設(shè)有m個(gè)樣本{y1,y2,…,ym},記為集合Q。Q集合中有放回的進(jìn)行m次抽取,每次抽取一個(gè)樣本。其中Q含有m個(gè)樣本。m次抽取的樣本組成一個(gè)新的集合,則新的集合中不包含Q中某個(gè)樣本的概率:
(3)
當(dāng)m→時(shí),有:
(4)
由上可知,新的集合含有和Q集合相同的樣本總數(shù)m,而且新的集合中含有重復(fù)樣本。若去除重復(fù)樣本,新集合則大概含有原集合的63.2%樣本。
根據(jù)BootStrap方法延伸出隨機(jī)森林(以下簡(jiǎn)稱RF)算法,RF算法可以產(chǎn)生多個(gè)訓(xùn)練集,其在生成決策樹時(shí),隨機(jī)地抽取分離屬性集。具體的RF算法如下:
1) 采用重采樣方法,隨機(jī)產(chǎn)生N個(gè)訓(xùn)練集,記為S={S1,S2,…,SN};
2) 分別選擇S集合中的N個(gè)訓(xùn)練集,在每個(gè)訓(xùn)練集上生成對(duì)應(yīng)的決策樹,記為C={C1,C2,…,CN},在每個(gè)內(nèi)部節(jié)點(diǎn)選擇屬性前,首先需要根據(jù)節(jié)點(diǎn)選擇對(duì)應(yīng)的分裂集,并選擇最好的分類方式;
3) 為了得到更好的分類效果,需要使每棵樹充分生長(zhǎng),而不對(duì)其進(jìn)行剪枝操作;
4) 根據(jù)得到的決策樹在測(cè)試集上測(cè)試分類效果;
5) 運(yùn)用投票方式,測(cè)試集所屬類別即為決策樹中輸出最多的類別。
RF算法具有大量的參數(shù),并且對(duì)不同的訓(xùn)練樣本集沒有固定的參數(shù)選擇規(guī)則。為了解決這一問題,本文采用PSO算法加權(quán)優(yōu)化RF模型(PSO_RF),以達(dá)到對(duì)RF的參數(shù)(如剪枝閾值、預(yù)測(cè)試樣本數(shù)、決策樹數(shù)量等)最優(yōu)化處理。PSO_RF算法能夠快速地篩選出最優(yōu)解,避免了參數(shù)通過經(jīng)驗(yàn)選取,既能選出最優(yōu)解,又節(jié)省了大量時(shí)間[4]。PSO_RF算法步驟如下:
① 根據(jù)經(jīng)驗(yàn)隨機(jī)確定算法的參數(shù)作為PSO_RF算法的初始參數(shù);
② 根據(jù)重采樣算法,在數(shù)據(jù)集隨機(jī)選取l個(gè)子訓(xùn)練集,并在這l個(gè)子訓(xùn)練集上隨機(jī)選擇x個(gè)預(yù)測(cè)試樣本,決策樹則根據(jù)l個(gè)子訓(xùn)練集剩余的(l-x)個(gè)樣本而生成;
③ 生成所有決策樹后,測(cè)試每棵決策樹上的結(jié)果,并計(jì)算相應(yīng)的權(quán)值;
④ 計(jì)算初始參數(shù)下總的模型分類結(jié)果;
⑤ 將上述分類結(jié)果作為適應(yīng)度值,采用PSO算法對(duì)初始參數(shù)進(jìn)行迭代優(yōu)化,并與歷史分類結(jié)果進(jìn)行對(duì)比,最終選出最優(yōu)的模型參數(shù)。
調(diào)整蘭德指數(shù)(以下簡(jiǎn)稱ARI)是由蘭德指數(shù)(以下簡(jiǎn)稱RI)改進(jìn)得到的新的評(píng)價(jià)指標(biāo)。對(duì)于給定的樣本集合X={x1,x2,…,xn},集合Z表示真實(shí)的類,而集合G表示經(jīng)過K均值算法得到的類[5]。因此ARI的定義:
(5)
式中:a表示X同屬G和Z的數(shù)目;b表示X屬于Z但不屬于G的數(shù)目;c表示X屬于G但不屬于Z的數(shù)目;d表示X既不屬于Z也不屬于G的數(shù)目。
由上述公式可得,ARI的取值范圍為-1~1。ARI的取值越小,表示聚類結(jié)果和真實(shí)情況差距越大,因此ARI值衡量的是兩類數(shù)據(jù)的擬合度。
隨機(jī)森林特征重要性指數(shù)(以下簡(jiǎn)稱RFFI)能夠計(jì)算每個(gè)特征在所有特征變量中的重要性。RFFI的主要原理是計(jì)算每個(gè)特征變量在RF的每棵樹上有多大的貢獻(xiàn),然后取平均值RFFIave,RFFIave即表示不同特征之間對(duì)樣本分類結(jié)果貢獻(xiàn)大小[6]。RFFI選擇基尼指數(shù)和袋外數(shù)據(jù)錯(cuò)誤率作為貢獻(xiàn)度的評(píng)價(jià)指標(biāo)。RFFI值越大,表示該特征重要程度越高。
為了達(dá)到對(duì)樣本集更好的特征提取,本文提出一種ARI和RFFI融合的特征提取方法(ARP)。首先根據(jù)K均值聚類算法對(duì)每種特征分析,計(jì)算出反映類間擬合度的ARI值;然后計(jì)算每類特征在電機(jī)不同的運(yùn)行狀態(tài)下的RFFI來描述特征之間的重要程度。對(duì)于每類統(tǒng)計(jì)特征,ARI值越低,其類間偏離度越大,而RFFI的值越高,其特征重要性越大。因此,提出利用ARI歸一化值(歸一化區(qū)間為0~1)與RFFI的乘積(ARP)來選擇故障狀態(tài)敏感統(tǒng)計(jì)特征。計(jì)算特征ARP值的主要步驟有:
a) 若某一樣本集電機(jī)故障種類數(shù)為N,且每類故障都含有P類振動(dòng)樣本信號(hào),每個(gè)樣本共有K類統(tǒng)計(jì)特征。設(shè)故障的原始特征集CS={CS1,CS2,…,CSk},且CSk:
(6)
接著利用K均值聚類算法,計(jì)算其ARI指數(shù)以評(píng)估聚類程度。對(duì)原始特征集CS采取聚類分析,能夠得到相應(yīng)的ARI值。
ARI={ARI(1),ARI(2),…,ARI(k)}
(7)
最后需要對(duì)ARI序列進(jìn)行歸一化,歸一化范圍為0~1,記為ARInor。
b) 計(jì)算相同電機(jī)狀態(tài)樣本信號(hào)的第k種特征的RFFI值,即矩陣CSk的隨機(jī)森林特征重要性。其中:
RFFIave=∑(errOBB2-errOBB1)/Ntree
(8)
RFFIave用來表示數(shù)據(jù)集各個(gè)特征的重要性,其值越大,表明該特征對(duì)數(shù)據(jù)集的影響越大。
c) 獲得ARP序列,其定義為ARInor和RFFIave的乘積:
ARP=ARInor·RFFIave
(9)
對(duì)ARP采取降序排列,因此ARP的值越大,對(duì)應(yīng)的統(tǒng)計(jì)特征故障狀態(tài)越敏感。
綜上,總的算法流程如圖1所示。
圖1 算法流程圖
本文的振動(dòng)信號(hào)數(shù)據(jù)集來源于2017年度國(guó)家重點(diǎn)研發(fā)計(jì)劃“礦山安全生產(chǎn)物聯(lián)網(wǎng)關(guān)鍵技術(shù)與裝備研發(fā)”項(xiàng)目。該數(shù)據(jù)集共有8種工作狀態(tài)(1種正常狀態(tài)和7種故障狀態(tài)),圖2為電機(jī)各個(gè)運(yùn)行狀態(tài)的振動(dòng)波形。
(a) 電機(jī)內(nèi)置轉(zhuǎn)子弓形
(b) 電機(jī)內(nèi)置破損轉(zhuǎn)子條
(c) 電機(jī)內(nèi)置故障軸承
(d) 電機(jī)內(nèi)置不對(duì)中系
(e) 電機(jī)內(nèi)置轉(zhuǎn)子不平衡
(f) 電機(jī)定子繞組故障
(g) 電機(jī)電壓不平衡和單相
(h) 電機(jī)正常
為了證明本文方法的優(yōu)勢(shì),分別選取PSO_RF、RF、K最近鄰、支持向量機(jī)和決策樹5種故障狀態(tài)識(shí)別方法對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練、預(yù)測(cè)。在此之前,先將振動(dòng)信號(hào)經(jīng)經(jīng)驗(yàn)?zāi)B(tài)分解和局部線性判別分析降維,得到全部的特征信息,暫不進(jìn)行特征選取。如表1所示,其中:PSO_RF方法在同工況和變工況條件下識(shí)別準(zhǔn)確率分別為95.625%和66.25%,要普遍優(yōu)于其他方法。
表1 5種方法識(shí)別準(zhǔn)確率對(duì)比
表1表示的是全部特征信息的識(shí)別準(zhǔn)確率,但是并非是特征越多越好,應(yīng)該是篩選統(tǒng)計(jì)特征狀態(tài)敏感度好的特征信息特征進(jìn)行訓(xùn)練、預(yù)測(cè),摒棄統(tǒng)計(jì)特征敏感度差的特征信息,以免造成信息冗余。采用本文的ARP特征選擇方法進(jìn)行敏感特征篩選,模式識(shí)別方法采用PSO_RF,測(cè)試得到的精度如表2所示。由表2可以看出,當(dāng)采用ARP做特征選取時(shí),同工況精度達(dá)到了99.4%,而變工況精度達(dá)到了70.3%,在精度方面有了明顯的提升。
表2 特征選擇前后識(shí)別準(zhǔn)確率對(duì)比
為了更好地對(duì)電機(jī)的8種運(yùn)行狀態(tài)進(jìn)行敏感特征提取,本文提出ARI和RF特征重要性方法相結(jié)合的特征選擇方法(ARP)來篩選敏感特征。同時(shí)為了能夠提高識(shí)別精度并減少模型訓(xùn)練時(shí)間,本文采用PSO優(yōu)化算法優(yōu)化RF算法(PSO_RF)。實(shí)驗(yàn)表明,PSO_RF和ARP結(jié)合的電機(jī)故障診斷方法對(duì)8種工作狀態(tài)同工況的識(shí)別準(zhǔn)確率達(dá)到99.37%,而變工況的識(shí)別準(zhǔn)確率達(dá)到70.31%。本文的方法能夠精確有效地識(shí)別出電機(jī)的故障狀態(tài),對(duì)實(shí)際的工程具有現(xiàn)實(shí)意義。