常 淼,沈艷霞
(江南大學(xué) 物聯(lián)網(wǎng)技術(shù)應(yīng)用教育部工程研究中心,江蘇 無錫 214122)
作為最清潔的可再生能源之一,風(fēng)能受到世界各國的重視。齒輪箱是風(fēng)電機(jī)組的核心設(shè)備,其運(yùn)轉(zhuǎn)狀態(tài)關(guān)系著整個系統(tǒng)的運(yùn)行狀況,一旦產(chǎn)生故障將產(chǎn)生高額的維修費(fèi)用和導(dǎo)致長時間的停機(jī),影響風(fēng)電場的經(jīng)濟(jì)效益。及時、準(zhǔn)確判斷風(fēng)電齒輪箱故障是保證機(jī)組穩(wěn)定運(yùn)行、提高風(fēng)場效益的關(guān)鍵。其中滾動軸承的故障特征微弱,提取困難,對齒輪箱的運(yùn)作影響巨大,所以研究風(fēng)電機(jī)組滾動軸承的故障診斷方法具有重要的實(shí)際意義。
近些年來,風(fēng)電機(jī)組監(jiān)測設(shè)備規(guī)模大,信號采集頻率高,其故障診斷進(jìn)入“大數(shù)據(jù)”領(lǐng)域?;跀?shù)據(jù)驅(qū)動的智能診斷主要是通過支持向量機(jī)(Support vector machine,SVM)、人工神經(jīng)網(wǎng)絡(luò)(Artificial neural network,ANN)等機(jī)器學(xué)習(xí)方法對經(jīng)信號處理得到的故障特征進(jìn)行識別,這些基于模式識別的淺層網(wǎng)絡(luò)模型表達(dá)能力有限,泛化能力較差,對用于特征提取的信號處理技術(shù)和專家經(jīng)驗較為依賴。在此背景下,由于深度學(xué)習(xí)具有表達(dá)能力強(qiáng)大、特征提取和模式識別并列進(jìn)行的特點(diǎn),其在故障診斷方面的研究和應(yīng)用受到廣泛關(guān)注。作為深度學(xué)習(xí)的典型模型之一,CNN 將卷積操作與反向傳播算法相結(jié)合,完成卷積核參數(shù)自學(xué)習(xí)訓(xùn)練,可通過局部感知域、稀疏連接和權(quán)值共享的方式減少參數(shù)矩陣規(guī)模[1],它具有優(yōu)越的特征提取能力[2-5],診斷效率高,泛化能力強(qiáng),在大數(shù)據(jù)背景下的故障診斷領(lǐng)域尤為適用。文獻(xiàn)[6]將CNN 應(yīng)用于滾動軸承的故障診斷并驗證了該方法在噪聲環(huán)境中的魯棒性。文獻(xiàn)[7]通過正則化權(quán)值、加權(quán)損失函數(shù)等對CNN 模型進(jìn)行改進(jìn),然后對非平衡樣本下的滾動軸承故障進(jìn)行識別;文獻(xiàn)[8]將齒輪箱各種故障狀態(tài)信號的時頻域特征作為CNN的輸入,構(gòu)建了一個二維CNN網(wǎng)絡(luò)并將其用于齒輪箱的故障診斷。文獻(xiàn)[9]對振動信號進(jìn)行連續(xù)小波變換,由此得到以灰度圖顯示的時頻圖,將其作為故障特征,通過CNN實(shí)現(xiàn)滾動軸承的故障診斷。
目前,基于CNN的滾動軸承故障診斷研究已初見成效,但仍存在過擬合、計算量大、超參數(shù)難以確定等問題需要深入探索?;诖?,本文提出一種基于經(jīng)貝葉斯優(yōu)化的改進(jìn)CNN 模型的風(fēng)電軸承故障診斷策略。在改進(jìn)的CNN模型中,利用SGDM算法和BN 處理來加速訓(xùn)練;增加一個新的卷積層用于提取數(shù)據(jù)深層特征;對目標(biāo)函數(shù)進(jìn)行改進(jìn),新增L2正則項以提高模型泛化能力。此外,考慮CNN模型的超參數(shù)對故障診斷的影響,使用貝葉斯優(yōu)化對CNN 的網(wǎng)絡(luò)深度、學(xué)習(xí)率、SGDM 的動量以及正則化強(qiáng)度進(jìn)行優(yōu)化。最后,以凱斯西儲大學(xué)的滾動軸承振動數(shù)據(jù)作為CNN的網(wǎng)絡(luò)輸入,使用貝葉斯優(yōu)化器對此CNN模型中的超參數(shù)進(jìn)行優(yōu)化,并驗證得到的CNN模型在故障診斷的有效性。
改進(jìn)的CNN模型如圖1所示。結(jié)構(gòu)1中是成對出現(xiàn)的卷積層和池化層,對信號進(jìn)行信息過濾、特征提取和尺寸壓縮,其數(shù)量由實(shí)際需要決定。結(jié)構(gòu)2是新增的卷積層,位于全連接層之前,用于深層特征提取。
圖1 改進(jìn)的CNN模型
(1)卷積層
卷積層用于故障特征提取,假設(shè)其位于CNN網(wǎng)絡(luò)的第l層,則其輸出為:
其中:Zjl為第l層中第j個特征映射,j∈[1,n],為從l-1層獲取的第i個輸入特征。Mj表示上一層的第l-1層中的第j個卷積區(qū)域,“*”為卷積算子,表示第l層在生成第j個生成特征映射時應(yīng)用在第l-1層第i個特征輸入特征上的卷積核,blj是第l層輸出第j個特征映射時的偏置。
為加速網(wǎng)絡(luò)訓(xùn)練速度并提高網(wǎng)絡(luò)泛化能力,在卷積計算之后進(jìn)行BN處理:
式中:μβ是上一層輸出數(shù)據(jù)的均值,σβ是上一層輸出數(shù)據(jù)的標(biāo)準(zhǔn)差,ε是一個極小值,γ、βγ、β為學(xué)習(xí)參數(shù),為第l層的重構(gòu)結(jié)果。
將進(jìn)行BN處理后的結(jié)果輸入ReLU激活函數(shù):
(2)池化層
池化層對卷積層的輸出進(jìn)行壓縮:
式中:S是池化層的尺寸為第l+3 層中輸出的第j0個特征映射,j0=為第l層的第j個特征映射中第r個神經(jīng)元的值,r∈[(j0-1)S+1,j0S]。
(3)全連接層
全連接層將先前層在圖像中學(xué)習(xí)的所有特征鋪展成一維的特征向量,然后將它們組合在一起,使之前得到的不同類別之間具有區(qū)分性的局部特征在全局維度上進(jìn)行信息整合,實(shí)現(xiàn)從特征到樣本標(biāo)記空間的映射,然后使用Softmax 針對每個輸入返回的概率,將輸入分配到其中一個互斥類并計算損失,本文使用交叉損失熵函數(shù)作為目標(biāo)函數(shù):
式中:A為樣本數(shù)量,B為類別數(shù),tab表示第a個樣本是否屬于第b個類別,yab是Softmax 的輸出,它表示網(wǎng)絡(luò)將樣本a歸為類別b的概率。
考慮CNN 的過擬合問題,引入L2 正則化以優(yōu)化目標(biāo)函數(shù)。它在保證訓(xùn)練誤差盡量小的同時自動調(diào)節(jié)參數(shù),優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),同時盡量減小有效權(quán)值,提高網(wǎng)絡(luò)的泛化能力[10]。優(yōu)化后的目標(biāo)函數(shù)如下:
式中:λ是正則化系數(shù),較大的取值將較大程度約束模型復(fù)雜度。ωj是網(wǎng)絡(luò)層待學(xué)習(xí)的參數(shù),即卷積核和偏置矩陣的取值。
(4)訓(xùn)練算法
采用SGDM 訓(xùn)練網(wǎng)絡(luò),每次從訓(xùn)練集中隨機(jī)選擇一個樣本進(jìn)行學(xué)習(xí),計算梯度的指數(shù)加權(quán)平均數(shù),并利用該梯度更新所取樣本的Kij、bj:
式中:η為CNN 的學(xué)習(xí)率,vK(t)、vb(t)為第t次學(xué)習(xí)時兩個參數(shù)的動量:
式中:momentum 為動量,它的取值范圍為momentum ∈[0,1 ]。如果t時刻更新的v(t)與上一時刻更新的v(t-1)的方向相同,就會加速,反之則會減速。動量因子的引入可以加快收斂速度,提高訓(xùn)練精度,同時減少收斂過程中的振蕩。
使用該CNN模型進(jìn)行故障診斷之前,需要先確定CNN 網(wǎng)絡(luò)深度、CNN 的學(xué)習(xí)率η、SGDM 的動量momentum 以及正則化系數(shù)λ。其中CNN 網(wǎng)絡(luò)深度指的是結(jié)構(gòu)1 中卷積-池化層的數(shù)量,合適的深度選擇能夠保證模型的泛化能力;CNN 的學(xué)習(xí)率η和SGDM 的動量Momentum 的選取影響網(wǎng)絡(luò)訓(xùn)練速度;合適的正則化系數(shù)λ可以很好解決過擬合問題。若采用手動調(diào)參,過程復(fù)雜,會造成不必要的資源浪費(fèi),而且往往不能得到最優(yōu)模型。在本文的研究中,使用貝葉斯優(yōu)化算法對超參數(shù)進(jìn)行確定。
貝葉斯優(yōu)化是在函數(shù)方程未知的情況下根據(jù)已有的采樣點(diǎn)預(yù)估函數(shù)最大值的一種算法[11],它有效地解決了序貫決策理論中經(jīng)典的機(jī)器智能問題:根據(jù)對未知目標(biāo)函數(shù)f獲取的信息,找到下一個評估位置,從而最快地達(dá)到最優(yōu)解[12]。在評估代價高昂的復(fù)雜優(yōu)化問題中,貝葉斯優(yōu)化非常適用[13-14],被廣泛應(yīng)用于機(jī)器學(xué)習(xí)超參數(shù)優(yōu)化[15-21]、深度學(xué)習(xí)模型超參數(shù)優(yōu)化[22-23]等方面。
貝葉斯優(yōu)化的概率代理模型采用高斯過程(Gaussian processes,GPs)。假設(shè)待優(yōu)化的超參數(shù)的組合是X={x1,x2…,xn}。貝葉斯優(yōu)化器的目標(biāo)函數(shù)是訓(xùn)練完成的CNN對驗證集的分類誤差,將其表示為f(x)。在此過程中,將測試集中每個圖像的分類視為具有一定成功概率的獨(dú)立事件,這意味著分類錯誤的圖像數(shù)量遵循二項分布:
式中:GP表示高斯分布;μ為均值;k(x,x')為協(xié)方差函數(shù)。
在貝葉斯優(yōu)化的第t-1次迭代后獲得一組數(shù)據(jù)(xt-1,f(xt-1)) ,此時有數(shù)據(jù)集Dt-1={(x1,f(x1)),(x2,f(x2)),…,(xt-1,f(xt-1))},接下來需要預(yù)測點(diǎn)xt處的觀測值f(xt),一般認(rèn)為這t個觀測點(diǎn)是某個t維高斯分布的一個樣本,即:
式中:K=k=[(xt,x1),(xt,x2),…,(xt,xt-1) ]。
由此可得ft的分布:
式中:u(xt)=kK-1f1:t-1,它表示預(yù)測均值;δ2(xt)=k(xt,xt)-kK-1kT,它表示預(yù)測協(xié)方差。
由此可得第t個觀測點(diǎn)的數(shù)據(jù)(xt,f(xt))。
采集函數(shù)的作用是確定下一個需要評價的點(diǎn)xt。在本文的研究中,使用EI(Expected Improvement)來確定下一次迭代的超參數(shù)xt。在第t次迭代中,EI 的定義域是未遍歷的區(qū)域的集合以及目前已觀測到的所有目標(biāo)函數(shù)中最優(yōu)結(jié)果對應(yīng)的xt的集合。能夠改進(jìn)目標(biāo)函數(shù)幾率最大的x,即最大化采集函數(shù)EI(x)的x就是被選取的下一個超參數(shù)取值:
式中:函數(shù)α是由決策空間χ、觀測空間R和超參數(shù)空間Θ映射到實(shí)數(shù)空間得到的。
在選定了概率代理模型和采集函數(shù)后,在CNN訓(xùn)練的每一個迭代過程中選擇其中一個超參數(shù),使用采集函數(shù)對其進(jìn)行評估尋優(yōu),將得到的最有潛力評估點(diǎn)添加到歷史數(shù)據(jù)中,直至滿足終止條件。本文提出的貝葉斯優(yōu)化算法的輸入為待優(yōu)化參數(shù)集X、貝葉斯優(yōu)化器的目標(biāo)函數(shù)f、采集函數(shù)S、高斯過程模型M,輸出為最優(yōu)CNN模型。此優(yōu)化算法的偽代碼如下:
將優(yōu)化后的CNN 模型用于風(fēng)電滾動軸承的故障診斷。此故障診斷模型如圖2所示。
圖2 基于貝葉斯優(yōu)化CNN的軸承故障診斷模型
首先使用貝葉斯優(yōu)化器對超參數(shù)進(jìn)行初始化,獲得CNN模型;然后將滾動軸承數(shù)據(jù)劃分為訓(xùn)練集和測試集,將訓(xùn)練集輸入初始的CNN 模型中,進(jìn)行卷積、池化等計算,使用全連接層連和Softmax 層得到概率序列,接著計算目標(biāo)函數(shù)。若不滿足終止條件,就使用SDGM 更新所選樣本的卷積核和偏置矩陣,繼續(xù)上述計算,直至目標(biāo)函數(shù)收斂或者訓(xùn)練次數(shù)達(dá)到預(yù)設(shè)值。訓(xùn)練完成后,將測試集輸入該CNN模型并統(tǒng)計它的分類準(zhǔn)確率。將此CNN 的超參數(shù)及其分類準(zhǔn)確性并入貝葉斯優(yōu)化器的歷史數(shù)據(jù)中,接著使用采集函數(shù)選擇下一組超參數(shù),通過高斯過程計算其改進(jìn)目標(biāo)函數(shù)的可能性,將超參數(shù)選擇完成后的CNN 模型重新進(jìn)行訓(xùn)練并統(tǒng)計其對測試集的診斷準(zhǔn)確性。重復(fù)上述過程直至貝葉斯優(yōu)化器達(dá)到終止條件。
本文使用的原始數(shù)據(jù)來自凱斯西儲大學(xué)滾動軸承數(shù)據(jù)庫,在該實(shí)驗平臺,通過電火花加工技術(shù)在軸承上布置內(nèi)圈故障、滾動體故障、外圈故障3種類型的單點(diǎn)故障并以12 kHz的采樣頻率采集振動信號。
對滾動軸承信號進(jìn)行歸一化處理并將其隨機(jī)分段,分段信號的長度為2 000,保存為時序圖,數(shù)據(jù)集對應(yīng)4 種標(biāo)簽:正常信號(Normal)、內(nèi)圈故障信號(Inner)、滾動體故障信號(Roller)、外圈信號(Outer)。每個標(biāo)簽的樣本數(shù)量為200。
將數(shù)據(jù)集輸入CNN模型,并使用貝葉斯優(yōu)化器對超參數(shù)進(jìn)行選擇,設(shè)置最大迭代次數(shù)為30,CNN網(wǎng)絡(luò)深度取值區(qū)間為[1,3],初始學(xué)習(xí)率取值區(qū)間為[1×10-2,1],隨機(jī)梯度下降動量取值區(qū)間為[0.8,0.99],正則化系數(shù)取值區(qū)間為[1×10-10,1×10-2]。貝葉斯優(yōu)化器的超參數(shù)優(yōu)化結(jié)果如表1所示。
由表1 可知,最優(yōu)結(jié)果是第29 次得到的超參數(shù)組合:CNN網(wǎng)絡(luò)深度為1,初始學(xué)習(xí)率為0.442,隨機(jī)梯度下降的動量為0.801,L2 正則化系數(shù)為0.001 488。在此過程中,隨著迭代的推進(jìn),觀測到的最小目標(biāo)函數(shù)與預(yù)估的最小目標(biāo)函數(shù)的對比如圖2所示。兩者曲線趨向重合表示接下來的計算已經(jīng)無法改善目標(biāo)函數(shù),即EI 接近于0,則全局最優(yōu)已經(jīng)找到。
由表1 可知,最優(yōu)結(jié)果是第29 次得到的超參數(shù)組合:CNN網(wǎng)絡(luò)深度為1,初始學(xué)習(xí)率為0.442,隨機(jī)梯度下降的動量為0.801,L2 正則化系數(shù)為0.001 488。在此過程中,隨著迭代的推進(jìn),觀測到的最小目標(biāo)函數(shù)與預(yù)估的最小目標(biāo)函數(shù)的對比如圖3所示。兩者曲線趨向重合表示接下來的計算已經(jīng)無法改善目標(biāo)函數(shù),即EI 接近于0,則全局最優(yōu)已經(jīng)找到。
表1 超參數(shù)優(yōu)化結(jié)果
圖3 最小目標(biāo)函數(shù)的觀測值與估計值
得到的最優(yōu)CNN 模型的結(jié)構(gòu)與參數(shù)如表2 所示,對該模型以及經(jīng)典CNN 模型分別進(jìn)行訓(xùn)練,其訓(xùn)練時間分別為10 s和6 s,可以看到改進(jìn)的CNN模型訓(xùn)練速度較快,體現(xiàn)了批歸一化處理以及SGDM算法在加速網(wǎng)絡(luò)訓(xùn)練方面的有效性。
表2 最優(yōu)CNN模型的結(jié)構(gòu)與參數(shù)
接著統(tǒng)計它們對測試集的分類結(jié)果,如表3 所示,改進(jìn)的CNN模型的平均診斷準(zhǔn)確性為99.75%,而經(jīng)典模型診斷準(zhǔn)確性較低,僅有86.9%。
表3 優(yōu)化模型與經(jīng)典模型的對比/(%)
采用該優(yōu)化后的CNN 模型對原測試集進(jìn)行診斷的精確性很高,為進(jìn)一步驗證模型的泛化能力,構(gòu)建新的測試集,將其輸入該CNN模型并統(tǒng)計其分類結(jié)果,得到測試數(shù)據(jù)的混淆矩陣,使用列匯總和行匯總顯示每個類的準(zhǔn)確率和召回率,結(jié)果如圖4所示??芍揅NN模型泛化能力較強(qiáng),通過較少樣本的學(xué)習(xí)即可得到整個原始信號的深層特征。
圖4 最優(yōu)CNN模型對新測試集的分類結(jié)果
考慮實(shí)際工況下風(fēng)電軸承信號往往包含較強(qiáng)的噪聲,通過在正常傳感器數(shù)據(jù)中加入高斯噪聲來模擬風(fēng)機(jī)軸承在實(shí)際工況下的振動信號,驗證CNN模型的魯棒性。測試集所有樣本都添加高斯白噪聲。
高斯噪聲的信噪比(Signal Noise Ratio,SNR)按1 dB 的步長分別設(shè)置為-3 dB、-2 dB、-1 dB、0、1dB、2 dB、3 dB。不同信噪比(SNR=-3)下,本文所提出的經(jīng)貝葉斯優(yōu)化的CNN模型、經(jīng)遺傳算法優(yōu)化的CNN模型、未優(yōu)化的CNN模型對測試集的診斷準(zhǔn)確性如圖5所示,可以看到未優(yōu)化的CNN魯棒性極差,故障診斷效率低,因此對其進(jìn)行優(yōu)化具有必要性。經(jīng)貝葉斯優(yōu)化和遺傳算法優(yōu)化的CNN 模型在具有少量噪聲樣本的前提下便可學(xué)習(xí)到噪聲干擾下軸承信號的分布特征,診斷準(zhǔn)確率相對較高,明顯優(yōu)于未優(yōu)化的CNN模型。而與經(jīng)遺傳算法優(yōu)化的CNN模型相比,經(jīng)貝葉斯優(yōu)化的CNN 模型更加優(yōu)越,對輸入擾動有較強(qiáng)的魯棒性,診斷效率高。
圖5 對不同噪聲程度測試集的診斷結(jié)果
針對CNN常見的過擬合、計算量大以及模型超參數(shù)難以確定的問題,結(jié)合貝葉斯優(yōu)化在智能計算的超參數(shù)優(yōu)化方面的發(fā)展,本文提出一種改進(jìn)的CNN模型,并使用貝葉斯優(yōu)化器對其超參數(shù)進(jìn)行優(yōu)化。在改進(jìn)的CNN模型中,利用SGDM和批歸一化來加速CNN的訓(xùn)練速度,增加一個新的卷積層用于提取數(shù)據(jù)深層特征,并對其目標(biāo)函數(shù)進(jìn)行改進(jìn),增加L2正則項,可在保證訓(xùn)練誤差盡量小的同時自動調(diào)節(jié)參數(shù),優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),也可使有效權(quán)值數(shù)量盡量少,提高該模型的泛化能力。使用貝葉斯優(yōu)化對該改進(jìn)的CNN模型的超參數(shù)進(jìn)行優(yōu)化,包括優(yōu)化CNN網(wǎng)絡(luò)深度、學(xué)習(xí)率、SGDM 的動量以及正則化強(qiáng)度。通過本文研究可知,由貝葉斯優(yōu)化器確定的最優(yōu)CNN模型診斷效率高,同時有較強(qiáng)的泛化能力和魯棒能力。