李俊卿,張承志,胡曉東,何玉靈
(1.華北電力大學(xué) 電氣與電子工程學(xué)院,河北 保定 071003;2.華北電力大學(xué) 能源動力與機械工程學(xué)院,河北 保定 071003)
旋轉(zhuǎn)機械廣泛應(yīng)用于多類領(lǐng)域。軸承作為旋轉(zhuǎn)機械的重要部件之一,其可靠性對旋轉(zhuǎn)機械的性能及穩(wěn)定運行起到至關(guān)重要的作用,因此滾動軸承故障的及時診斷具有重要意義。
軸承的智能診斷方法主要包括特征提取和故障分類2個步驟。文獻[1]運用小波包分解與傅里葉分解進行軸承故障信號處理。文獻[2]利用傳感器獲取監(jiān)測樣本數(shù)據(jù),以機器學(xué)習(xí)積累訓(xùn)練經(jīng)驗作為主要技術(shù)手段,實現(xiàn)了滾動軸承的故障診斷。文獻[3]使用簇間距離優(yōu)化的 SVM 進行滾動軸承故障診斷。
近年來,深度學(xué)習(xí)[4]被應(yīng)用于軸承故障診斷領(lǐng)域。文獻[5]利用經(jīng)驗?zāi)B(tài)分解將1維信號轉(zhuǎn)化為二維的特征圖,然后運用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks,CNN)進行故障診斷。文獻[6]對AlexNet結(jié)構(gòu)進行改進,使用了1維CNN網(wǎng)絡(luò)對一維時域信號進行故障診斷。由于軸承通常運行在大型旋轉(zhuǎn)機械中,受環(huán)境噪聲和載荷變化的影響,所采集到的振動信號在多個時間尺度上的特征頻率變化較大,具有高度復(fù)雜性、耦合性和不確定性的特點。上述相關(guān)文獻的研究中并未考慮該問題。
為此,有學(xué)者將長短期記憶網(wǎng)絡(luò)(Long-short term memory,LSTM)運用于滾動軸承故障診斷中。文獻[7]將LSTM網(wǎng)絡(luò)與Softmax分類器相結(jié)合,將采集的振動信號進行歸一化后,利用長短期記憶網(wǎng)絡(luò)處理數(shù)據(jù)、提取特征。文獻[8]將LSTM與CNN相結(jié)合:用CNN進行特征提取,然后使用雙向LSTM網(wǎng)絡(luò)進行故障分類處理。
LSTM 能夠?qū)r間序列進行處理,得益于其長短時記憶結(jié)構(gòu)和循環(huán)處理結(jié)構(gòu);但是,這也導(dǎo)致其無法并行計算,在對大型數(shù)據(jù)進行運算時效果不能盡如人意。為了解決并行計算的問題,Transformer結(jié)構(gòu)應(yīng)運而生。與傳統(tǒng)CNN與LSTM結(jié)構(gòu)相比,Transformer使用了大量的自注意力機制,使得其能夠解決時間序列的特征獲取與時間序列順序性的問題;同時,自注意力機制的使用使得 Transformer能夠?qū)崿F(xiàn)并行計算,相較于LSTM極大地提升了運算速度。
目前,Transformer在自然語言處理、計算機視覺等領(lǐng)域的應(yīng)用取得了重要突破,但是利用Transformer進行滾動軸承故障診斷的研究并不多。文獻[9]利用Transformer神經(jīng)網(wǎng)絡(luò)對滾動軸承剩余壽命進行了預(yù)測。
在Transformer結(jié)構(gòu)不斷發(fā)展的過程中,視覺Transformer(Vision transformer,ViT)模型被提出并用于圖像分類領(lǐng)域。與傳統(tǒng)CNN模型相比,ViT模型在淺層與深層獲得的表征具有更多相似性,并且可以獲得更多的空間位置信息[10]。目前,ViT模型在醫(yī)學(xué)圖像識別領(lǐng)域有較多應(yīng)用[11,12],但尚未應(yīng)用于滾動軸承的故障診斷。雖然ViT模型在視覺分類領(lǐng)域應(yīng)用取得了成功,但是其本身也存在一定的問題,例如訓(xùn)練時穩(wěn)定性不高等。
基于此,本文選擇CNN-ViT神經(jīng)網(wǎng)絡(luò)進行滾動軸承故障識別,核心思想是:針對用軸承故障的一維時域信號難以挖取數(shù)據(jù)特征,以及一維時域信號與ViT結(jié)構(gòu)位置編碼不匹配的問題,將軸承的1維時域信號轉(zhuǎn)化為二維灰度圖,并在ViT模型前加入CNN神經(jīng)網(wǎng)絡(luò)進行上采樣以獲得2維灰度圖中更多的數(shù)據(jù)特征,并且加入CNN以提升ViT模型訓(xùn)練時的穩(wěn)定性。將卷積神經(jīng)網(wǎng)絡(luò)提取特征信息后的二維灰度圖作為輸入量,進行故障診斷。
CNN卷積層是卷積神經(jīng)網(wǎng)絡(luò)的核心層。卷積層主要由一些卷積核組成,其中卷積核的公式為:
在連續(xù)的卷積層之間周期性地插入1個池化層,其作用是逐漸降低數(shù)據(jù)體的空間尺寸,以減少網(wǎng)絡(luò)中參數(shù)的數(shù)量、節(jié)省計算資源、有效控制過擬合。
在對輸入數(shù)據(jù)進行一系列的卷積、池化運算后,將所抽取的特征壓縮成1維的特征量,并將其送入全連接層進行分類。
ViT結(jié)構(gòu)如圖1所示[13]。圖1中的“*”,表示類別向量class token。
圖1 ViT總體結(jié)構(gòu)Fig. 1 ViT overall structure
首先,將2維圖片切割成同等大小的圖片塊(patch);然后進入Embedding層,將patch轉(zhuǎn)換成2維矩陣;最后,通過線性映射將其轉(zhuǎn)換成1維量。在實際操作中,該步驟可以用卷積層以及全連接層來實現(xiàn)。此外,還需要添加1個類別向量class token。這個類別向量與上述的1維量長度相等。
將輸入圖片記為X,X?H×W×C,其中H和W分別為圖片的高和寬,C為通道數(shù)。用N×N大小的圖片塊去分割整個圖片,可以得到M個圖片塊。
將每個圖片塊轉(zhuǎn)化為向量,得到N2C維向量。將M個圖片塊進行連接,便得到了 1個M×N2C的2維矩陣。最后,將該矩陣用線性映射轉(zhuǎn)化為1維量。因此,1個H×W×C維的圖片轉(zhuǎn)化為了M個1維的量。然后,再添加1個可學(xué)習(xí)的分類向量xcls,用于表示圖片經(jīng)過編碼后的全局特征。最后,加入包含空間信息的位置編碼P,作為編碼器層的輸入。
式中:z0為編碼器的輸入。
Transformer編碼器層的結(jié)構(gòu)如圖2所示。
圖2 Transformer編碼器層結(jié)構(gòu)Fig. 2 Transformer encoder layer structure
從圖2中可以看到,該結(jié)構(gòu)中主要的部分就是以殘差形式連接的相加&層歸一化、多頭自注意力機制以及多層感知機(Multilayer perceptron,MLP)。該結(jié)構(gòu)使用殘差連接是為了防止神經(jīng)網(wǎng)絡(luò)退化。對數(shù)據(jù)進行層歸一化有2個目的:加快神經(jīng)網(wǎng)絡(luò)訓(xùn)練的速度;提高訓(xùn)練過程的穩(wěn)定性。
多頭自注意力機制是把1個查詢和1套鍵–值對映射到1個輸出;輸出是1個數(shù)值的加權(quán)和集合。在該集合中,通過利用1個鍵值的查詢來計算指定的權(quán)重。多個注意力機制可以使模型在不同的位置上,對來自不同子域的信息進行集中。多頭自注意力機制的公式如下:
式中:Q為查詢矩陣;K為鍵矩陣;V為數(shù)值矩陣;分別為矩陣Q、K、V在第i注意力頭的權(quán)重矩陣;n為多頭自注意力中頭的數(shù)量;dk為查詢值或者鍵值的尺寸。
在計算過程中,將同時對同一組進行注意力函數(shù)的計算,然后送入矩陣Q中;鍵和值也分別送入矩陣K和V。A函數(shù)的作用是進行注意力計算的輸出,s函數(shù)作用是將輸入進行權(quán)重比較,hi函數(shù)的作用是進行第i個注意力頭的計算,M函數(shù)的作用是進行多頭自注意力的計算。C函數(shù)是折疊函數(shù)。
MLP的結(jié)構(gòu)較為簡單,主要由全連接層及激活函數(shù)組成。MLP接受到多頭自注意力機制的輸出權(quán)重并且進行比較,將故障類型識別出來。
如圖3所示,基于CNN-ViT模型的軸承故障診斷方法分為數(shù)據(jù)預(yù)處理、特征提取和故障分類3部分。具體診斷過程如下。
圖3 故障識別流程Fig. 3 Fault identification process
(1)獲取軸承的振動信號。
(2)利用信號轉(zhuǎn)為圖像的方法,將1維振動信號轉(zhuǎn)化為2維灰度圖,并劃分訓(xùn)練集和測試集。
(3)將2維灰度圖片輸入到CNN中進行特征提取。
(4)將CNN提取的特征圖片送入ViT模型中進行歸一化位置編碼,然后送入編碼器層進行計算,并輸出訓(xùn)練結(jié)果。
(5)訓(xùn)練完畢后,用訓(xùn)練好的模型進行故障分類。
軸承工作數(shù)據(jù)集采用CWRU數(shù)據(jù)集[14]。實驗平臺如圖4所示。對46205-2RS JEM SKF深溝球軸承的振動信號進行了采樣,采樣頻率為12 kHz。實驗選用軸承單點直徑損傷分別為 0.007 mm、0.014 mm、0.021 mm。此外,根據(jù)損傷部位的不同,軸承故障分為滾動體、內(nèi)圈、外圈故障,具體如表1所示。實驗分析的軟硬件平臺數(shù)據(jù)如表2所示。
圖4 軸承加速壽命試驗平臺Fig. 4 Bearing accelerated life test platform
表1 滾動軸承故障類型Tab. 1 Fault types of rolling bearing
表2 軟硬件實驗平臺Tab. 2 Hardware and software experimental platform
圖5為抽取的部分正常及不同故障狀態(tài)的樣本振動信號。
圖5 抽取的不同故障類型振動信號Fig. 5 Extracted vibration signals for different fault types
CWRU數(shù)據(jù)集含有驅(qū)動端加速度數(shù)據(jù)、風(fēng)扇端加速度數(shù)據(jù)。本文使用驅(qū)動端加速度數(shù)據(jù)信號進行實驗。
4.1.1 數(shù)據(jù)增強
在已有的數(shù)據(jù)樣本數(shù)目有限的條件下,使用數(shù)據(jù)增強技術(shù)來增加樣本數(shù)目,以提高樣本多樣性、避免過擬合。本文采用重疊采樣的方式將振動數(shù)據(jù)的波形圖進行分割并進行數(shù)據(jù)增強,如圖6所示。圖6中,每4 096個數(shù)據(jù)點組成1個樣本,其中實線框內(nèi)整個信號表示原始信號,每個虛線框內(nèi)的信號即為樣本信號。
圖6 重疊采樣數(shù)據(jù)增強示意圖Fig. 6 Schematic diagram of overlay sampling data enhancement
4.1.2 CNN上采樣
將1維信號轉(zhuǎn)化為2維灰度圖;用每次獲取的樣本產(chǎn)生1個64×64的灰度圖表。該方法能最大限度地保持1維振動數(shù)據(jù)的2維特性,無需預(yù)處理參數(shù),降低了對技術(shù)人員的依賴性[15]。然后,使用CNN卷積神經(jīng)網(wǎng)絡(luò)進行上采樣。CNN卷積網(wǎng)絡(luò)的參數(shù)配置如表3所示。按照7:3的比例劃分訓(xùn)練集與測試集。通過CNN卷積神經(jīng)網(wǎng)絡(luò)進行上采樣,能夠有效排除原始1維時域振動數(shù)據(jù)的干擾因素,獲得2維灰度圖中更多的特征信息。經(jīng)過CNN上采樣處理之后的2維灰度圖如圖7所示。
表3 卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)Tab. 3 Convolutional neural network architecture
圖7 軸承故障2維灰度圖Fig. 7 Two-dimensional grayscale diagram of bearing faults
將處理之后的灰度圖送入ViT網(wǎng)絡(luò)進行故障識別。ViT網(wǎng)絡(luò)的參數(shù)配置如表4所示。
表4 ViT參數(shù)配置Tab. 4 ViT parameters configuration
訓(xùn)練過程:進行訓(xùn)練200輪;運用隨機梯度下降法進行梯度更新;學(xué)習(xí)率設(shè)置為0.001;使用分類交叉熵作為損失函數(shù),其表達式如式(7)所示;經(jīng)過訓(xùn)練后的效果如圖8所示。
圖8 ViT網(wǎng)絡(luò)訓(xùn)練過程損失值和準(zhǔn)確率的變化曲線Fig. 8 Variation curves of loss value and accuracy during ViT network training process
式中:M為類別數(shù)量;yic為符號函數(shù)(0或1),在樣本i的真實類別等于c時取1,否則取 0;pic為樣本i屬于類別c的預(yù)測概率。
為了展示模型對不同類型故障的識別效果,采用混淆矩陣來表示分類結(jié)果,如圖9所示。
圖9 診斷結(jié)果混淆矩陣Fig. 9 Diagnostic result confusion matrix
從圖9可以看出,經(jīng)過多輪訓(xùn)練后,該模型的準(zhǔn)確率達到了 99.4%。這說明,該模型不僅能分辨出故障類型,同時對滾動軸承的不同故障程度的分辨準(zhǔn)確率也相當(dāng)高。
為了驗證本文所提方法的先進性,選取CNN模型、LSTM模型以及ViT模型進行對比分析,對比結(jié)果如表5所示。模型輸入均為經(jīng)過上采樣后的灰度圖。CNN模型中的參數(shù)配置與特征提取采用了表2的架構(gòu),并添加了2個池化層以及4個全連接層。池化層采用最大值池化。ViT模型的參數(shù)與表3相同。LSTM模型由2個LSTM層組成,每層的LSTM神經(jīng)元有128個。
表5 不同方法的識別效果對比Tab. 5 Comparison of identification effect of different methods
從表5可以看到,本文方法與表中所列的其他深度學(xué)習(xí)模型相比,準(zhǔn)確度最高。LSTM 模型的準(zhǔn)確率為91.9%;CNN模型的準(zhǔn)確率為94.6%;ViT模型的準(zhǔn)確率為93.6%。本文方法準(zhǔn)確率達到了 99.4%,比上述模型正確率分別高了 7.5%、4.8%、5.8%。
結(jié)果分析:與LSTM模型相比,CNN模型中的卷積操作對于圖像的識別更有優(yōu)勢。ViT模型與CNN模型相比正確率僅降低了1%。ViT模型里面沒有卷積操作,是完全基于注意力機制建立起來的,由此驗證了基于純注意力機制完成故障識別的也是可行的。本文所提模型比ViT模型準(zhǔn)確率高,分析其原因為:由于一維時域振動信號包含有較多的信號干擾,因此通過上采樣進行特征信息提取能減少干擾,提高識別性能以及訓(xùn)練的穩(wěn)定性。
本文所提模型的準(zhǔn)確率雖然比上述模型要高,但是也存在著計算量大的問題。不過在實際應(yīng)用中,該問題所帶來的影響很小,可以忽略不計。
總之,盡管以上方法都能取得很好的識別效果,但是CNN-ViT方法具有更高的識別能力。與其他模型比較,所提模型更好地實現(xiàn)了對滾動軸承的故障分類。
本文提出了一種基于 CNN-ViT的滾動軸承故障類型識別模型。該方法的特點在于:將收集到的1維時域振動信號轉(zhuǎn)為2維灰度圖,然后通過CNN神經(jīng)網(wǎng)絡(luò)進行上采樣提取故障特征;將獲得的數(shù)據(jù)輸入ViT模型中進行故障識別。
實驗結(jié)果表明,本文所提模型在軸承故障識別中的準(zhǔn)確率為99.4%。該結(jié)果驗證了模型的有效性。相較于其他智能在線診斷方法,本文所提模型準(zhǔn)確率最高,這進一步驗證了本文模型的優(yōu)越性。
展望:目前本文研究主要針對的是滾動軸承的單一故障,未來將結(jié)合滾動軸承的不同運行工況進行研究。