禹杭,高海波,付博,林治國,尚前明,盛晨興
1.武漢理工大學 能源與動力工程學院,湖北 武漢 430063 2.中船黃埔文沖船舶有限公司,廣東 廣州 510000
永磁同步推進電機作為一種新型的電機,相對傳統(tǒng)的同步電機長度和體積降低了40%,且因其具有高效率、高功率密度等優(yōu)點,使得永磁同步電機的應用愈加廣泛。電機在運行過程中一旦發(fā)生故障,會對設備的生產(chǎn)、安全等造成不同程度的影響,并產(chǎn)生難以估計的損失,因此開展其故障診斷研究工作具有重大意義[1]。永磁電機振動信號中蘊含大量特征信息,利用振動信號對電機進行故障診斷是目前的研究熱點。
由于永磁電機運行環(huán)境包含諸多復雜多變的因素,采集到的振動信號往往是復雜的非周期、非線性信號,其信號隨機性大,幅值波動性強,特征提取困難。對此近年來關于電機的特征提取與故障診斷已有較多研究,常用的方法可分為時域法[2]、頻域法[3]及時頻域法[4]。其中基于時域特征的故障診斷方法多利用智能化的方式來實現(xiàn)。Xu Tongle 等[5]提出了一種基于局部均值分解(local mean decomposition,LMD)形態(tài)學濾波和最小二乘支持向量機(least square support vector machine,LS-SVM)的旋轉機械故障診斷方法,對振動信號混合降噪,再用LMD 分解得到的能量比特征作為故障特征,實現(xiàn)了軸承的故障診斷;陳勇等[6]用定子電流信號和振動信號的頻譜特征融合作為匝間短路故障判斷依據(jù),結合改進小波包變換算法與快速傅里葉變換,實現(xiàn)了永磁電機匝間短路的故障檢測;黃文靜[7]提取原始信號的時域特征參數(shù)均值、標準差、峭度、偏度、樣本熵,經(jīng)LMD 分解得到的能量特征來表征其軸承真實運行狀態(tài),用粒子群優(yōu)化的BP 神經(jīng)網(wǎng)絡得到了較好的診斷效果。盡管以上方法都取得了不錯的診斷結果,但是并沒有分析不同特征信息之間相互影響的作用,難免會喪失特征的部分信息,對故障分類會造成一定影響。較少的特征參數(shù)涵蓋信息較少,較多的特征參數(shù)會增加診斷難度,選取合適的特征參數(shù)及從不同角度利用時域數(shù)據(jù)對特征進行提取是研究難點。實際工程中,故障信號的時域特征隨著電機運行狀態(tài)而變化。不同的故障類型、不同故障深度下的時域特征會有所重疊,會對分類精度產(chǎn)生影響[8]。
針對以上電機振動信號非周期、非線性、特征提取復雜且困難的問題,本文提出了一種主成分分析與隨機森林的永磁電機故障診斷方法。首先采集了永磁電機原始時域振動位移信號,再將原始時域信號以15 個轉速周期分成若干段,分別提取每段共13 個時域特征和數(shù)學統(tǒng)計特征,然后引入主成分分析法對特征信號進行降維去噪,最后將提取后的二維特征信號使用隨機森林進行故障分類。
在用統(tǒng)計方法研究多變量問題時,變量個數(shù)太多會增加算法運算的復雜性。在很多情形,變量之間有一定的相關關系,當2 個變量之間有一定相關關系時,可以解釋為這2 個變量之間具有重疊信息。為了解決該問題,設法將原來變量重新組合成一組新的互相無關的幾個綜合變量。引入主成分分析法(PCA)對信息進行處理,核心思想是將高維相關聯(lián)系的特征減為少數(shù)不關聯(lián)特征,同時盡可能多地反映原來的信息[9]。本文引入PCA 方法對提取的13 組特征數(shù)據(jù)進行降維去噪,具體方法如下。
假設輸入的數(shù)組有m個特征,共有n組數(shù)據(jù),輸出得到二維的拓撲結構,輸出的神經(jīng)元個數(shù)為j,具體的向量過程如下。
1) 輸入(n,m)特征矩陣。
2) 相關性分析。
3) 標準化數(shù)據(jù)。
4) 歸一化處理。
式中n和m是式(1)中標準化后的數(shù)據(jù)樣本對應的維度。X(1)是歸一化之后的特征矩陣,目的是為讓數(shù)據(jù)結果映射在(0,1)。
5)求協(xié)方差矩陣。
6) 主成分計算。
式中:Zk為第k個主成分(k≤m),vk是其方差貢獻率。
用方差Dvar來表示該成分所含信息的多少。在所有的線性組合中選取的F1方差最大,故稱F1為第一主成分。如果第一主成分不足以代表原來特征的信息,再考慮選取F2即選第二個線性組合。為了有效地反映原來信息,F(xiàn)1已有的信息就不需要再出現(xiàn)在F2中,用數(shù)學語言表達就是要求Cov(F1,F2)=0,則稱F2為第二主成分。依此類推可以構造出第三、第四,……,第Q個主成分[10]。通常用方差貢獻率來表示各主成分的方差值占總方差值的比例,一般方差貢獻率超過90%就代表該成分足以涵蓋特征的大量信息。
隨機森林算法是由Leo Breiman 和 Adele Cutle等提出[11-12]的,它結合了Breimans 的 Bootstrap aggregating 和 Tin Kam Ho 的 random decision forests 方法,是一種由多棵決策樹組成的集成分類器。由于隨機森林算法的強抗噪能力,且能評估各個特征在分類問題上的重要性,常用于密碼學[13]、生物信息學[14]、生態(tài)學[15]等領域。本文用隨機森林算法來處理電機運行過程中振動信號的隨機性強、噪音大等問題。
隨機森林由多個決策樹組成,每個決策樹是一個樹結構。其中每個非葉節(jié)點表示一個特征屬性上的測試,每個分支代表這個特征屬性在某個閾值上的輸出,而每個節(jié)點存放一個類別。決策樹一般模型如圖1 所示。
圖1 決策圖一般模型
隨機森林是決策樹基礎上的衍生,首先輸入數(shù)據(jù)集D={Xi,Yi},其中Xi∈Rk,Yi∈{1,2,···,C};再隨機建立由多個決策樹{g(D,θu),u=1,2,···,U}組成的森林,每個決策樹之間相互獨立。每當有數(shù)據(jù)輸入時,每個決策樹根據(jù)相應的分類屬性對其判斷,將投票多的類別作為該輸入的分類[16]。具體流程如圖2 所示。
圖2 隨機森林流程
1)從訓練集樣本中有放回地隨機選取N個樣本作為訓練子集,且此訓練子集約為原始訓練集的三分之二[17],以此來訓練一個決策樹,作為決策樹根節(jié)點處的樣本。
2)若每個樣本中含有U個屬性,決策樹的每個節(jié)點需要進行分裂時,隨機的從這U個屬性中選取出u個屬性,且定義滿足條件遠小于U,防止局部最優(yōu)。然后從這u個屬性中采用某種策略來選擇一個屬性作為該節(jié)點的分裂屬性。
3)決策樹的形成過程中每個節(jié)點都按照步驟2)來分裂,直到不能分裂為止,且決策樹形成過程沒有剪枝。
每棵決策樹都會產(chǎn)生一個決策,多棵決策樹則會產(chǎn)生多個決策,被投票數(shù)最多的決策作為最終診斷結果。
本文所用船舶電力推進系統(tǒng)永磁電機振動信號相關數(shù)據(jù)樣本均出于推進電機性能綜合實驗室,實驗臺架如圖3 所示。
圖3 實驗臺架
該永磁電機采用的是眾聯(lián)能創(chuàng)T 系列電機,TZ205XS70K01 型船用電動機和傳感器相關參數(shù)如下:額定電壓,DC350 V;輸入電壓,DC240~420 V;額定轉速,3 000 r/min;額定功率,55 kW;效率(額定功率時),大于等于95%;過載能力1,110%額定電流(T≤60 s);過載能力2,150%額定電流(T≤10 s);防護等級,IP44;冷卻方式,水冷;旋向,逆時針;控制方向,矢量控制;體積,365×305×232 m3;流量,8~12 L/min;凈質(zhì)量,70 kg;傳感器類型,壓電式傳感器;采樣頻率,20 kHz。現(xiàn)以20 kHz 采集電機的一維振動信號,設置4 種工況如下:G1 為正常工況;G2 為轉子偏心;G3 為定子短路;G4 為軸承內(nèi)圈故障。采用Matlab 軟件繪制時間與振動位移的關系如圖4~7 所示。通過實驗臺提取正常工況1 000 000 個數(shù)據(jù),轉子偏心800 000 個數(shù)據(jù),定子短路800 000 個數(shù)據(jù),軸承內(nèi)圈故障700 000個數(shù)據(jù)??梢姇r域信號并無明顯規(guī)律,無法直觀地辨識正常工況和故障工況,需要通過智能算法進行辨識。
圖4 正常工況
圖5 轉子偏心
圖6 定子短路
圖7 軸承內(nèi)圈故障
由于電機運行環(huán)境復雜,且提取的振動信號的數(shù)據(jù)量大,且沒有明顯的周期性,難以進行常規(guī)診斷。對此運用PCA-RF 方法對電機以時間序列運用數(shù)學處理方法進行特征提取、降維,進而進行故障診斷,基本流程如圖8 所示。
圖8 PCA-RF 流程
1)數(shù)據(jù)分段。電機額定轉速為3 000 r/min,采樣頻率為20 kHz,視每轉為一個周期,每周期包含400 個數(shù)據(jù)樣本。為選擇合適的時間長度來表征每段時域信息的特征,避免小周期信號波動的隨機性,故選取15 個周期作為1 個數(shù)據(jù)樣本。時域中的時間順序將每6 000 個數(shù)據(jù)作為一個時間窗口,故正常工況數(shù)據(jù)中150 段數(shù)據(jù)樣本,共6 000×150 個數(shù)據(jù);轉子偏心含120 段,共6 000×120 個數(shù)據(jù);定子短路含120 段,共6 000×120 個數(shù)據(jù);軸承內(nèi)圈含100 段,共6 000×100 個數(shù)據(jù)。
2)特征提取。提取每6 000 個數(shù)據(jù)中的典型時域特征參數(shù)包括最大值(Pmax)、最小值(Pmin)、方差(Pvar)、標準差(Pstd)、均值(Pmean)、峰度(Pkurtosis)、偏度(Pskew);數(shù)學統(tǒng)計特征包括每6 000 個數(shù)據(jù)中前5%分位的數(shù)值(P5%)、前95%分位的數(shù)值(P95%)、前99%分位的數(shù)值(P99%)、中位數(shù)(Pmedian)、總數(shù)之和(Psum)、絕對值之和(Pabs_sum)、典型時域特征參數(shù)和數(shù)學統(tǒng)計特征共累計13 個特征參數(shù)。
3)特征降維。將每段時域特征數(shù)據(jù)利用PCA 降維去噪,將13 個特征數(shù)據(jù)降為含有高度組合信息的2 個主成分。
4)隨機森林診斷。將PCA 處理的2 個主成分作為二維輸入特征,實現(xiàn)了對數(shù)據(jù)的降維去噪,大大減少了算法診斷的復雜性。將二維數(shù)據(jù)引入隨機森林模型,隨機產(chǎn)生20%的測試集得出診斷結果。
電機運行包括正常工況、轉子偏心、定子短路、軸承內(nèi)圈故障共4 個工況,以每6 000 個采樣數(shù)據(jù)為時間窗口(490,6 000)的數(shù)據(jù)矩陣,這490 行數(shù)據(jù)的前150 行為正常工況數(shù)據(jù),命名為標簽0,后續(xù)的120 行、120 行和100 行分別為標簽1、標簽2 和標簽3,分別對應轉子偏心、定子短路和軸承內(nèi)圈故障等3 種故障。取每種工況的首行數(shù)據(jù)如表1所示。
表1 原始數(shù)據(jù)矩陣
將原始一維數(shù)據(jù)以時間分段之后,形成490 行、6 000 列時間矩陣,并以每行數(shù)據(jù)進行特征提取,與文獻[18-19]有所不同,前人所做的研究更多的是將典型時域特征進行特征提取,本文將典型時域特征參數(shù)和數(shù)學統(tǒng)計特征參數(shù)作為PCA 的降維去噪特征參數(shù),把一維振動信號當作大量數(shù)字,從數(shù)學統(tǒng)計層面對數(shù)據(jù)進行信息挖掘,從而對數(shù)據(jù)進行更有效地特征提取。一維振動信號的數(shù)據(jù)共13 個統(tǒng)計特征,組成(490,13) 的特征矩陣,列舉正常工況下的前5 行的特征數(shù)據(jù),如表2 所示。
表2 特征矩陣部分數(shù)據(jù)
由表2 可見,正常工況下,即使是不同時間窗口下同種特征參數(shù)的數(shù)據(jù)差異也很小??梢娺x取涵蓋了15 個轉速周期的數(shù)據(jù)樣本,避免了只提取小周期信號波動對特征提取造成的影響,為故障模型的診斷降低了難度。
PCA 方法經(jīng)常用于基礎數(shù)學的統(tǒng)計分析,對于以上13 個時域特征和數(shù)學統(tǒng)計特征有很好的降維去噪作用。將13 個數(shù)學統(tǒng)計特征進行主成分分析,得到第一成分方差貢獻率(指各主成分的方差值占總方差值的比例)約為99.6%,第二成分方差貢獻率約0.4%。一般認為第一主成分的方差貢獻率超過90%,則經(jīng)過降維去噪處理后的第一成分就可以涵蓋大量信息。
將4 種工況特征可視化,其特征為無量綱量,二維分類散點圖如圖9 所示??梢娊?jīng)過PCA 處理的特征具有明顯區(qū)分度,為后面的診斷模型提供了可靠數(shù)據(jù)。
圖9 4 種特征可視化
將主成分分析后降維去噪的2 個主成分作為含有大量信息的特征引入隨機森林模型。其中構建的決策樹個數(shù)為50 個,4 種工況下共490 個故障類型,隨機選取其中20%(98 個類別)作為測試集。表3 為輸出分類器的混合矩陣。
表3 分類器輸出的混合矩陣
由輸出的混合矩陣可見故障得到了較準確分類,本案例中診斷精度高達98.97%??梢钥闯觯疚倪\用PCA-RF 方法對永磁電機的故障診斷有很高的診斷精度。
13 個統(tǒng)計特征同時引用時可達到98.97%的準確率。為探尋特征提取個數(shù)以及數(shù)學統(tǒng)計特征對診斷精度的影響,只取7 個典型時域特征進行降維帶入隨機森林模型,診斷精度為86.7%。將剩下的6 個數(shù)學統(tǒng)計特征依次加入,診斷精度分別為88.7%、89.7%、93.8%、96.9%、97.9%和98.97%。
經(jīng)分析可知,在常規(guī)時域特征不能很好地涵蓋信息特征時,加入幾個數(shù)學統(tǒng)計特征可以有效提高PCA-RF 的診斷精度。因為主成分分析法本質(zhì)上是一種數(shù)學統(tǒng)計方法,對數(shù)學統(tǒng)計特征參數(shù)有很好的識別作用,加入數(shù)學統(tǒng)計特征可從最大程度上保留原始信號的有效信息,以此全面反應電機的運行狀態(tài)。
傳統(tǒng)機器學習診斷方法大多將典型時域特征作為輸入特征進行分類。傳統(tǒng)機器學習算法雖然模型簡單,但在面對大量多類特征或變量,且樣本屬性有關聯(lián)時,對于非線性問題難以找到合適的參數(shù)。由于本文典型時域特征與數(shù)學統(tǒng)計特征涵蓋的信息類型有所重疊或沖突,且13 個特征數(shù)目較多,傳統(tǒng)機器學習算法診斷準確率反而很低,降低特征數(shù)將典型時域特征作為輸入特征能取得更好的診斷效果。現(xiàn)將PCA-RF 算法與傳統(tǒng)分類算法作對比,提取均值、最大值、最小值、標準差、方差、偏度和峰度7 個典型時域特征作為特征輸入,轉子偏心為標簽0,定子短路為標簽1,軸承內(nèi)圈故障為標簽2,正常工況為標簽3。與極限學習機(extreme learning machine,ELM)、概率神經(jīng)網(wǎng)絡(probabilistic neural network,PNN)、廣義回歸神經(jīng)網(wǎng)絡(generalized regression neural network,GRNN)診斷精度作對比,取420 個樣本為訓練集,70 個樣本為測試集。診斷結果如圖10~12 所示。
圖10 極限學習機準確度
圖11 概率神經(jīng)網(wǎng)絡準確度
圖12 廣義回歸神經(jīng)網(wǎng)絡準確度
傳統(tǒng)算法ELM、PNN、GRNN 的診斷精度分別為87.14%、95.71%、72.85%。由于不同算法適用的特點不同,導致不同的分類算法有不同的診斷精度,診斷效果并不能達到本文提出的PAC-RF算法98.97%的診斷精度。
本案例采用不同算法所用時間的對比如表4所示,可見在采用多特征時,PCA-RF 診斷方法比傳統(tǒng)機器學習方法診斷速度有了極大改善。
表4 不同算法在電機診斷中的時間對比
針對永磁電機振動信號特征提取困難且復雜、故障難以辨識的問題,本文利用電機實驗平臺,提取電機的正常和故障工況數(shù)據(jù),提出了主成分分析法,并結合隨機森林算法建立了PCA-RF的診斷模型。分析實驗結果可得出:
1)引入PCA 方法,克服了典型時域特征和數(shù)學統(tǒng)計特征對信息涵蓋的重疊性以及單一特征的不充分性,實現(xiàn)了數(shù)據(jù)的最大化利用。
2)相較于傳統(tǒng)分類算法ELM、PNN、GRNN等,PCA-RF 的雙去噪方法對電機故障有更高的診斷精度,更快的診斷速度。
3)本研究從數(shù)學統(tǒng)計層面對數(shù)據(jù)進行了進一步挖掘,拓寬了電機故障特征提取的研究思路,具有一定的工程應用前景。