陳亞楠,胡凱凱,陳 剛,舒 暉,李籽圓
(中車株洲電力機車研究所有限公司,湖南 株洲 412001)
齒輪箱作為風(fēng)力發(fā)電機組的高價值零部件,目前其狀態(tài)監(jiān)測方法一般是:在齒輪箱關(guān)鍵點上安裝振動傳感器來采集關(guān)鍵點振動信息;通過對采集的數(shù)據(jù)進行數(shù)字信號處理,在風(fēng)場端設(shè)置簡單閾值對齒輪箱振動信號進行故障報警;而在集中端通過有經(jīng)驗的振動分析工程師對齒輪箱故障進行診斷。當(dāng)前的這種診斷方式在風(fēng)場端不能對齒輪箱起到有效的保護;而在集中端,又過于依賴人工處理,耗費大量的人力?;诖耍疚奶岢鼋Y(jié)合數(shù)字信號處理與機器學(xué)習(xí)的算法,實現(xiàn)齒輪箱故障自動診斷。
機器學(xué)習(xí)是近些年興起的新學(xué)科,是人工智能和模式識別領(lǐng)域的共同研究熱點,其理論和方法已被廣泛應(yīng)用于解決工程應(yīng)用和科學(xué)領(lǐng)域的復(fù)雜問題。機器學(xué)習(xí)常見的算法有決策樹算法、樸素貝葉斯算法、支持向量機算法、隨機森林算法、人工神經(jīng)網(wǎng)絡(luò)算法、回歸算法和深度學(xué)習(xí)算法等。振動信號雖然可直接作為機器學(xué)習(xí)的輸入,但是增加了模型的復(fù)雜度,降低了模型的可解釋性,而且工業(yè)領(lǐng)域內(nèi)的案例較少,而高維度的特征也會導(dǎo)致模型泛化性能差。很多研究者針對齒輪箱故障診斷,提出了多種算法:文獻[1-3]提出了針對風(fēng)電機組傳動系統(tǒng)的監(jiān)測系統(tǒng);文獻[4-6]提出了故障特征提取的方法;文獻[7-10]提出了改進的機器學(xué)習(xí)算法。這些系統(tǒng)、算法的設(shè)計優(yōu)點是獲得了較高的故障診斷準(zhǔn)確率,缺點是只針對特定的某一種問題,無法只通過一種算法實現(xiàn)齒輪箱全部故障的診斷。齒輪箱的不同故障對應(yīng)不同的特征提取方法及機器學(xué)習(xí)算法,而單一的特征提取方法及機器學(xué)習(xí)算法的泛化性能弱。綜合以上算法的優(yōu)缺點,針對齒輪箱的故障診斷,本文提出了一種綜合信號處理與機器學(xué)習(xí)的算法。該算法從原始信號中提取特征,包括時域特征和頻域特征,然后將提取的特征作為機器學(xué)習(xí)的特征輸入訓(xùn)練模型,從而得到能用于診斷特定問題的模型。
與齒輪箱有關(guān)的數(shù)據(jù)包括數(shù)據(jù)采集與監(jiān)視控制系統(tǒng)采集的數(shù)據(jù)和狀態(tài)監(jiān)視系統(tǒng)采集的數(shù)據(jù)。一般情況下,數(shù)據(jù)采集與監(jiān)控控制系統(tǒng)采集的數(shù)據(jù)頻率為1 Hz,齒輪箱的特征頻率從幾十至幾千赫茲不等,數(shù)據(jù)采集與監(jiān)視控制系統(tǒng)數(shù)據(jù)不足以診斷齒輪箱的問題。因此,本文采用狀態(tài)監(jiān)視系統(tǒng)數(shù)據(jù)對齒輪箱進行故障診斷與預(yù)測。
原始數(shù)據(jù)以文件形式存儲,每個文件名稱中包含機組編號、測點位置、采樣頻率、采樣類型、日期及發(fā)電機轉(zhuǎn)速等信息。如某風(fēng)場狀態(tài)監(jiān)測系統(tǒng)(condition monitoring system, CMS)數(shù)據(jù)片段文件名稱為:040#_齒輪箱_輸入軸垂直_12 800 Hz_加速度_20200701223123_700.03RPM,即040#機組的齒輪箱輸入軸垂直位置,采集的頻率為12 800 Hz,采集加速度信號,采集時間為2020年7月1日22時31分23秒,發(fā)電機轉(zhuǎn)速為700.03 r/min,數(shù)據(jù)時序如圖1所示。
圖1 原始信號時序圖Fig.1 Time series of the original signal
根據(jù)不同齒輪箱故障類型,選取特定采集位置的CMS數(shù)據(jù)。本文選取齒輪箱斷齒故障,篩選齒輪箱高速級水平及垂直位置測點數(shù)據(jù)作為本次分析的數(shù)據(jù)集。
常用的數(shù)字信號處理方法包括時域分析、頻域分析、時頻域分析、功率譜密度分析、自相關(guān)分析及階次分析等。針對不同的問題及不同的數(shù)據(jù)采集方式,采用不同的分析方法。本文主要基于時域、頻域分析方法進行特征抽取。
常用的時域特征參數(shù)包括峰值、均值、方差、歪度、峭度、方均根值、波形指標(biāo)、脈沖指標(biāo)、峭度指標(biāo)、歪度指標(biāo)和裕度指標(biāo)等。對于一組信號xi=1, …,N,
其時域特征如表1所示。
表1 時域特征Tab. 1 Time domain features
有量綱的時域特征會隨著故障的嚴(yán)重程度而不同程度地變化,其中峭度對探測信號中含有脈沖的故障最敏感、有效。有量綱的時域特征也會因工作條件(如負(fù)荷、轉(zhuǎn)速、記錄儀器的靈敏度等)的改變而改變,實際上很難加以區(qū)分。通常希望特征對故障信號足夠敏感,而對正常信號的幅值和頻率的變化不敏感,且與設(shè)備的工況無關(guān),為此引入了不受工況影響的無量綱時域特征。無量綱時域特征對故障的敏感性與穩(wěn)定性如表2所示。
表2 無量綱時域指標(biāo)敏感性與穩(wěn)定性Tab. 2 Sensitivity and stability of dimensionless time domain index
由于風(fēng)機工況不斷變化,每一個被采集到的數(shù)據(jù)片段所對應(yīng)的轉(zhuǎn)速有所差異,而與故障相關(guān)的特征頻率一般與轉(zhuǎn)頻有關(guān)。故在頻域特征提取前,對基于快速傅里葉變換的幅值頻譜圖中的橫軸,由頻率統(tǒng)一變換為倍頻,具體步驟如下:
(1)倍頻對齊。將轉(zhuǎn)速轉(zhuǎn)換為轉(zhuǎn)頻,頻譜圖中頻率轉(zhuǎn)換至倍頻;通過線性插值,將頻譜圖轉(zhuǎn)換為倍頻-幅值的形式。
(2)區(qū)間劃分。對倍頻區(qū)間進行劃分,并保持一定的交疊,使得特征頻率能被充分檢測。部分倍頻區(qū)間的劃分如表3所示。
表3 部分倍頻區(qū)間劃分Tab. 3 Division of partial frequency doubling intervals
(3)區(qū)間提取。針對特定倍頻區(qū)間進行特征提取,提取方法包括頻域描述和頻域峰值。頻域描述是按照時域特征的統(tǒng)計方法,對每個倍頻區(qū)間進行特征提?。活l域峰值是在倍頻區(qū)間內(nèi),相對于臨近數(shù)值較高的點,提取若干峰值以及對應(yīng)的倍頻。
所提取的特征可分為時域描述(time_desc)、頻域描述(freq_desc)和頻域峰值(freq_peak)3類。在特征構(gòu)建中,不加辨別地使用各種統(tǒng)計方法和全部倍頻區(qū)域進行統(tǒng)計和提取,其特征必然存在一定冗余,或與故障目標(biāo)無關(guān)的情況。因此,需要對生成的特征進行重要性排名,如圖2~圖4所示。
圖2 時域特征重要性排序圖Fig.2 Sort map of time domain feature importance
圖3 頻域描述特征重要性排序圖Fig.3 Sort map of frequency domain feature importance
圖4 頻域峰值特征重要性排序圖Fig.4 Sort map of peak characteristics importance of frequency domain
根據(jù)特征的重要性排名,將重要性指標(biāo)值極小(不超過0.01)的特征刪除,在提高效率的同時,能夠使得模型更快捷地捕捉到對應(yīng)特征。
通過對樣本數(shù)據(jù)的統(tǒng)計發(fā)現(xiàn),正常樣本數(shù)量往往遠(yuǎn)大于故障樣本數(shù)量,這對于機器學(xué)習(xí)算法來說是不利的。只有在正負(fù)樣本數(shù)量大致相當(dāng)且數(shù)據(jù)充足的情況下,機器學(xué)習(xí)模型才能發(fā)揮較大的價值。
通常采用樣本擴增方法(包括差值、加噪)以及對抗神經(jīng)網(wǎng)絡(luò)生成故障樣本數(shù)據(jù)。但由于工業(yè)數(shù)據(jù)的特殊性,這些方法并不能豐富故障樣本數(shù)據(jù)的特性,反而使得模型因過擬合而泛化性能變差。為此,本文采用數(shù)據(jù)分割的方式實現(xiàn)樣本均衡,即在保證頻率分辨率的前提下,對單次采集的數(shù)據(jù)片段進行切分,并使切分后的數(shù)據(jù)片段在時間軸上保持連續(xù)性,切分后的數(shù)據(jù)片段均保持與切分前數(shù)據(jù)片段標(biāo)簽一致。
利用已有的數(shù)據(jù)來確定函數(shù)的參數(shù),參數(shù)確定后的函數(shù)就是訓(xùn)練的結(jié)果。使用新的數(shù)據(jù)代入函數(shù)求值,即可實現(xiàn)模型結(jié)果輸出。確定函數(shù)參數(shù)的過程即是模型訓(xùn)練的過程。
為避免模型過擬合,通常需要對訓(xùn)練數(shù)據(jù)進行劃分,以檢驗?zāi)P陀?xùn)練的效果。
為了盡量符合實際部署場景,可以按照風(fēng)機、時間等維度作為劃分依據(jù),避免算法在訓(xùn)練中捕捉到的是風(fēng)機或時間(季節(jié))本身的特有規(guī)律。以風(fēng)機A和B為維度,將風(fēng)機A和風(fēng)機B的數(shù)據(jù)分別作為訓(xùn)練集和測試集數(shù)據(jù),并進行交叉驗證。交叉驗證的數(shù)據(jù)劃分如表4所示。
表4 交叉驗證的數(shù)據(jù)劃分Tab. 4 Data partition of cross validation
在對模型進行訓(xùn)練前,需對數(shù)據(jù)進行標(biāo)注,建立模型從輸入到輸出的準(zhǔn)確映射。
為捕獲故障前兆,將各個風(fēng)機失效時間前1個月的數(shù)據(jù)標(biāo)記為故障數(shù)據(jù),失效(維修)之后1個月內(nèi)的數(shù)據(jù)標(biāo)記為正常數(shù)據(jù),以期在故障有輕微征兆時模型能夠及時做出預(yù)測。
由第 2節(jié)可知,在進行算法選擇之前,需確定特征值的處理方式和參數(shù)。本文采用的特征工程參數(shù)設(shè)置如表5所示。
表5 特征工程參數(shù)設(shè)置Tab. 5 Feature engineering parameter setting
模型采用的主要算法包括梯度提升決策樹(LGBM classifier, LGBM)、隨機森林(random forest classifier, RF)和邏輯回歸(logistic regression,LR)。各算法參數(shù)設(shè)置如表6所示。
表6 算法參數(shù)設(shè)定Tab. 6 Algorithm parameter setting
根據(jù)4.1節(jié)所述方式對訓(xùn)練集進行數(shù)據(jù)劃分以及交叉驗證,以檢驗?zāi)P偷男Ч?。采集的?xùn)練集總共有90個數(shù)據(jù)文件。數(shù)據(jù)集詳情如表7所示。其中,風(fēng)機A有51個數(shù)據(jù)文件,風(fēng)機B有39個數(shù)據(jù)文件。將風(fēng)機設(shè)備故障日期前的數(shù)據(jù)片段作為故障數(shù)據(jù),故障日期后的數(shù)據(jù)片段作為正常數(shù)據(jù)處理。
表7 數(shù)據(jù)集詳情表Tab. 7 Table of data sets
樣本數(shù)據(jù)擴增采用時長分割的方式,每個數(shù)據(jù)文件做2等分,頻帶寬度為10,頻帶步長為5,每個頻帶峰值最大數(shù)量為30,特征選擇“時域描述”“頻域描述”和“頻域峰值”。
各模型分別采用LGBM, RF, LR算法,其準(zhǔn)確率比較如圖5所示。
圖5 各模型準(zhǔn)確率均值Fig.5 Average accuracy of each model
根據(jù)模型效果,最終選擇隨機森林RF作為最佳模型,模型的準(zhǔn)確率為95.8%。
本文針對風(fēng)電機組齒輪箱故障診斷,采用數(shù)字信號處理與機器學(xué)習(xí)相結(jié)合的方法,實現(xiàn)了故障自動診斷,減少了人工參與診斷的工作量,提高了故障診斷分析效率。相比傳統(tǒng)的數(shù)字信號處理方法,本文創(chuàng)新點主要在于:
(1)為緩解數(shù)據(jù)樣本中轉(zhuǎn)速的差異性,對頻譜圖中的頻率軸進行倍頻轉(zhuǎn)換和對齊,同時也為后續(xù)的樣本擴增打下基礎(chǔ)。
(2)在無機理先驗情況下,對全頻段區(qū)間進行特征提取、評估和選擇,并給出關(guān)鍵頻段提示,兼顧了數(shù)據(jù)驅(qū)動和機理解釋性的要求,一定程度上減小了故障診斷對齒輪箱參數(shù)的依賴。
(3)為滿足機器學(xué)習(xí)對大量訓(xùn)練樣本的需求,制定了時長分割和組合均值兩種樣本擴增的方案,并針對時域、頻域分別進行了區(qū)別化的設(shè)計。經(jīng)過測試,模型的準(zhǔn)確率可達95.8%,有效實現(xiàn)了齒輪箱的故障預(yù)測。
本文對頻域進行了等間隔劃分,并計算各個區(qū)段內(nèi)的特征重要性,雖然避免了前期對齒輪箱參數(shù)的搜集工作,但是增加了建模的復(fù)雜度。后續(xù)可通過齒輪箱的特征頻率提取特定頻域段內(nèi)的特征,降低模型的復(fù)雜度,增強模型的可解釋性。