劉輝,李陽
(1.中核檢修有限公司,上海 201103;2.東北電力大學(xué) 機(jī)械工程學(xué)院,吉林 吉林 132012)
約40%的工業(yè)設(shè)備是由軸承等部件構(gòu)成的旋轉(zhuǎn)機(jī)械設(shè)備[1],因此, 對軸承進(jìn)行及時(shí)、精準(zhǔn)的故障診斷是相關(guān)設(shè)備長效、 安全、 穩(wěn)定運(yùn)行的重要保障。為滿足實(shí)際工業(yè)生產(chǎn)過程中的安全檢測需求,眾多學(xué)者嘗試將深度學(xué)習(xí)算法與軸承運(yùn)行過程中的傳感器信號(hào)相結(jié)合并提出了許多高時(shí)效性的軸承故障診斷方法,以期降低旋轉(zhuǎn)機(jī)械在工業(yè)實(shí)踐中的維護(hù)成本和事故風(fēng)險(xiǎn)。例如,文獻(xiàn)[2]對卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)模型[3]進(jìn)行結(jié)構(gòu)優(yōu)化,在不預(yù)先提取故障特征的條件下實(shí)現(xiàn)了對軸承故障的高精度診斷;文獻(xiàn)[4]在自編碼模型的基礎(chǔ)上,將軸承振動(dòng)、噪聲和溫度信號(hào)的時(shí)頻域特征進(jìn)行多源信號(hào)融合,完成了對風(fēng)電機(jī)組軸承的故障診斷并提高了診斷結(jié)果的可靠性;文獻(xiàn)[5]以輕量化網(wǎng)絡(luò)ShuffleNet為主要框架設(shè)計(jì)了新的診斷模塊并用于高鐵輪對軸承的故障診斷。
以CNN為代表的深度學(xué)習(xí)算法已經(jīng)在軸承故障診斷領(lǐng)域取得了大量成果,但其大多在實(shí)驗(yàn)室數(shù)據(jù)集上完成性能驗(yàn)證,而工業(yè)生產(chǎn)的環(huán)境中充斥著各種各樣的噪聲源,難以獲取具有高信噪比的軸承振動(dòng)信號(hào),上述算法在工業(yè)現(xiàn)場應(yīng)用中會(huì)出現(xiàn)精度嚴(yán)重下滑甚至失效的問題。因此,為了在噪聲環(huán)境下完成故障診斷任務(wù),許多研究人員將研究方向聚焦于提升診斷模型對噪聲的魯棒性上:文獻(xiàn)[6]利用經(jīng)驗(yàn)小波變換對軸承振動(dòng)信號(hào)進(jìn)行重構(gòu),再使用最小熵解卷積CNN對重構(gòu)后的信號(hào)進(jìn)行降噪處理,從而實(shí)現(xiàn)了噪聲干擾條件下鐵路貨車輪對軸承的故障診斷;文獻(xiàn)[7]通過對一維CNN的結(jié)構(gòu)優(yōu)化從背景噪聲中自動(dòng)提取特征,進(jìn)而在-8 dB噪聲強(qiáng)度下取得了較高精度的軸承故障診斷結(jié)果;文獻(xiàn)[8]設(shè)計(jì)了一類分級(jí)分支CNN結(jié)構(gòu)并通過堆疊一維小卷積核的方式構(gòu)建了一種具有強(qiáng)魯棒性的基本卷積塊,提升了噪聲環(huán)境下軸承故障診斷的精度。
自注意力神經(jīng)網(wǎng)絡(luò)以原始的多層感知機(jī)(MultiLayer Perceptron,MLP)為基礎(chǔ)對輸入數(shù)據(jù)進(jìn)行特征提取并使用自注意力機(jī)制調(diào)節(jié)不同特征權(quán)重以獲取輸出結(jié)果,具備強(qiáng)大的全局建模能力,能夠有效提升診斷模型的魯棒性[9-11]。文獻(xiàn)[12]將自注意力神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,提出首個(gè)用于軸承故障診斷的自注意力神經(jīng)網(wǎng)絡(luò)框架(CLFormer),但其過于關(guān)注在自測數(shù)據(jù)集上的有效性和優(yōu)越性,忽略了模型的泛化性。文獻(xiàn)[13]在訓(xùn)練階段使用大量振動(dòng)數(shù)據(jù)對CNN和自注意力神經(jīng)網(wǎng)絡(luò)進(jìn)行參數(shù)優(yōu)化,然后使用高斯混合模型對信號(hào)進(jìn)行分類診斷,該方法基于最大后驗(yàn)概率進(jìn)行分類,容易受到噪聲干擾而難以體現(xiàn)自注意力神經(jīng)網(wǎng)絡(luò)的抗噪性。文獻(xiàn)[14]出于在不受時(shí)間限制的條件下利用傳感器信號(hào)時(shí)間屬性的目的,在雙向單門控網(wǎng)絡(luò)中引入自注意力神經(jīng)網(wǎng)絡(luò)用于特征提取,盡管有效地使用了傳感器信號(hào)的時(shí)間信息并提升了模型診斷性能,但雙向單門控網(wǎng)絡(luò)的遞歸特征處理特性使其失去了并行能力,導(dǎo)致模型批量診斷的效率較低。
本文將自注意力神經(jīng)網(wǎng)絡(luò)[15-21]作為主要技術(shù)途徑,通過超參數(shù)分析以及優(yōu)化位置編碼的方式,在強(qiáng)噪聲干擾條件下針對基于振動(dòng)信號(hào)的軸承故障診斷開展框架設(shè)計(jì),并分別采用東南大學(xué)軸承數(shù)據(jù)庫和實(shí)驗(yàn)室自采數(shù)據(jù)進(jìn)行試驗(yàn)驗(yàn)證。
本文的主要研究對象是噪聲干擾下的軸承故障診斷任務(wù),并不涉及序列數(shù)據(jù)向數(shù)列數(shù)據(jù)的轉(zhuǎn)換問題,所使用模型不必由編碼器和解碼器兩部分構(gòu)成,而是在一個(gè)N層編碼器后添加一個(gè)分類器用于輸出輸入信號(hào)所屬軸承運(yùn)行狀態(tài)的診斷結(jié)果,每個(gè)編碼層都是一層獨(dú)立的自注意力神經(jīng)網(wǎng)絡(luò)。
如圖1所示,分類器是一個(gè)由2個(gè)全連接層所構(gòu)成的MLP,第1個(gè)全連接層的神經(jīng)元數(shù)量被設(shè)置為自注意力神經(jīng)網(wǎng)絡(luò)維度的2倍,用以整合特征信息;第2個(gè)全連接層的神經(jīng)元數(shù)量則被設(shè)置為診斷類別數(shù),其輸出結(jié)果表示被診斷信號(hào)屬于各個(gè)類別的概率。此外,由于本文所使用軸承故障診斷模型的編碼層都具有完全一致的結(jié)構(gòu),因此文中僅討論模型的深度(編碼層堆疊的層數(shù))和維度(用多少維的數(shù)據(jù)表征特征信息,也可解釋為每層編碼層所處理數(shù)據(jù)的通道數(shù))。
圖1 自注意力神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖
不同于CNN和遞歸神經(jīng)網(wǎng)絡(luò)在特征提取時(shí)不斷地進(jìn)行滑窗以獲取局部特征,自注意力神經(jīng)網(wǎng)絡(luò)只對輸入數(shù)據(jù)進(jìn)行全局特征信息提取,即自注意力神經(jīng)網(wǎng)絡(luò)需要在特征提取之前額外的為輸入數(shù)據(jù)賦予位置編碼信息,從而令數(shù)據(jù)具備空間屬性。
傳統(tǒng)的自注意力神經(jīng)網(wǎng)絡(luò)采用正弦位置編碼的策略賦予輸入數(shù)據(jù)位置信息。令P∈RC×L表示模型的位置編碼信息,P具有與自注意力神經(jīng)網(wǎng)絡(luò)同樣的維度以及與輸入數(shù)據(jù)相同的長度信息,其中每個(gè)元素值都代表著輸入數(shù)據(jù)對應(yīng)元素的位置信息。使用正弦位置編碼,每個(gè)元素的具體值可表示為
(1)
式中:p為元素在輸入數(shù)據(jù)中的位置;d為正弦位置編碼的維度。
雖然正弦位置編碼具有變長輸入以及同時(shí)表示絕對位置和表征相對位置關(guān)系的優(yōu)點(diǎn),但其只是一種固定的編碼策略,并不能保證所給出編碼信息能夠契合所有的數(shù)據(jù)類型,也不能隨著輸入數(shù)據(jù)的變化做出對應(yīng)修改。因此,本文在自注意力神經(jīng)網(wǎng)絡(luò)中引入一個(gè)由一維CNN構(gòu)成的編碼模塊,可根據(jù)輸入數(shù)據(jù)針對性地生成位置編碼信息,如圖2所示。
圖2 基于CNN的位置編碼模塊示意圖
(2)
(3)
式中:Concat為在通道維度上對數(shù)據(jù)進(jìn)行堆疊拼接;GeLU為高斯誤差線性單元激活函數(shù)[24];BN為批量歸一化操作[25]。
顯然,本文所構(gòu)建的位置編碼信息生成模塊是一個(gè)小型的卷積神經(jīng)網(wǎng)絡(luò),相比于自注意力神經(jīng)網(wǎng)絡(luò)原始的位置編碼信息,其所生成的位置編碼信息具備了隨輸入數(shù)據(jù)變化的靈活性以及通過樣本訓(xùn)練進(jìn)行學(xué)習(xí)優(yōu)化的能力。此外,由于通過卷積操作構(gòu)建的位置信息生成模塊,其所生成的每個(gè)位置信息均由對應(yīng)點(diǎn)數(shù)據(jù)與附近數(shù)據(jù)共同生成,從而使模型所獲得的位置信息在表征相對位置信息的同時(shí)具有一定的信息交互特性。
為驗(yàn)證所提軸承故障診斷方法的效果,采用東南大學(xué)軸承故障數(shù)據(jù)集[26]測試不同案例下模型的具體性能。該數(shù)據(jù)集包含不同速度-負(fù)載工況下(20 Hz-0 V和30 Hz-2 V)采集的鋼球、內(nèi)圈、外圈裂紋以及復(fù)合故障(即內(nèi)、外圈均出現(xiàn)裂紋)信號(hào)。本文將每1 024個(gè)連續(xù)的采樣點(diǎn)作為一個(gè)樣本(確保每個(gè)樣本都包含至少一個(gè)完整的旋轉(zhuǎn)周期信息,即輸入模型的數(shù)據(jù)長度固定為1 024)。將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測試集,每類樣本數(shù)量分別為300×2,100×2和300×2。
本文中所有模型都采用了標(biāo)準(zhǔn)的有監(jiān)督模型訓(xùn)練策略,使用訓(xùn)練集和驗(yàn)證集完成30個(gè)批次(Epoch)的訓(xùn)練(即模型使用訓(xùn)練集數(shù)據(jù)進(jìn)行參數(shù)優(yōu)化,每完成一個(gè)批次的訓(xùn)練后在驗(yàn)證集上計(jì)算模型性能,最后只保留在驗(yàn)證集上取得最優(yōu)性能的模型權(quán)重作為最終的結(jié)果),使用AdamW[27]作為模型的優(yōu)化器,初始學(xué)習(xí)率設(shè)置為0.000 1并使用余弦退火[28]的方式在訓(xùn)練過程中逐步降低到0.000 005。為避免隨機(jī)初始化對模型性能的干擾,本文所有試驗(yàn)結(jié)果均是對模型進(jìn)行100次重復(fù)試驗(yàn)后統(tǒng)計(jì)所得。
此外,為驗(yàn)證模型對噪聲的魯棒性,在試驗(yàn)過程中根據(jù)未添加噪聲時(shí)信號(hào)的標(biāo)準(zhǔn)差(Std)添加了不同強(qiáng)度的高斯噪聲和拉普拉斯噪聲。根據(jù)信噪比[29]的定義,本文添加的0.1,1,10,100,1 000 Std強(qiáng)度的噪聲信號(hào)后,輸入給模型信號(hào)的信噪比分別為10,0,-10,-20,-30 dB。
為確保所設(shè)計(jì)的模型具有對噪聲的強(qiáng)魯棒性,對不同維度、層數(shù)的自注意力神經(jīng)網(wǎng)絡(luò)在高噪聲環(huán)境下進(jìn)行了性能測試,試驗(yàn)結(jié)果如圖3所示:增大模型的維度(寬度)能夠帶來比增大模型層數(shù)(深度)更高的精度收益;不論在高斯噪聲環(huán)境還是在拉普拉斯噪聲環(huán)境下,自注意力神經(jīng)網(wǎng)絡(luò)都在寬度為16維,深度為8層時(shí)取得了最優(yōu)的平均診斷精度(59.97%,56.61%)。模型在深度大于8層之后,同等維度下均出現(xiàn)了精度下滑現(xiàn)象,這是由于此時(shí)模型深度較大,而本文訓(xùn)練集的樣本數(shù)量較少,出現(xiàn)了過擬合現(xiàn)象。
(a) 1 000 Std高斯噪聲干擾
為驗(yàn)證上述猜測,以1 000 Std高斯噪聲干擾下寬度為64維,深度為10層的情況(即本節(jié)中最大的模型)為例統(tǒng)計(jì)并繪制了訓(xùn)練過程中模型的性能變化曲線,結(jié)果如圖4所示:在經(jīng)過大約3個(gè)批次后,模型在驗(yàn)證集上的性能始終在一個(gè)小范圍內(nèi)波動(dòng),而且在驗(yàn)證集上的性能顯著低于在訓(xùn)練集上的性能,說明模型此時(shí)存在嚴(yán)重過擬合。因此,為確保后續(xù)試驗(yàn)結(jié)果能夠展示自注意力神經(jīng)網(wǎng)絡(luò)的魯棒性,本文在后續(xù)所有試驗(yàn)中統(tǒng)一將模型的寬度設(shè)為16維,深度設(shè)為8層。
圖4 高斯噪聲(1 000 Std)干擾下自注意力神經(jīng)網(wǎng)絡(luò)模型的性能變化曲線
為驗(yàn)證本文所設(shè)計(jì)位置編碼模塊的必要性,在不同噪聲環(huán)境下統(tǒng)計(jì)了不使用位置信息,使用正弦位置編碼,使用可訓(xùn)練位置編碼以及使用本文所設(shè)計(jì)位置編碼模塊4種條件下自注意力神經(jīng)網(wǎng)絡(luò)的診斷精度,結(jié)果如圖5所示:不使用位置信息時(shí)自注意力神經(jīng)網(wǎng)絡(luò)在所有噪聲環(huán)境下的診斷精度均最低,這是由于自注意力神經(jīng)網(wǎng)絡(luò)通過全局特征提取的方式對輸入數(shù)據(jù)進(jìn)行長距離建模的過程中不能從原始數(shù)據(jù)中提取位置信息(相對和絕對位置信息),因此在實(shí)際應(yīng)用中若不額外為輸入數(shù)據(jù)賦予位置信息,其所建立的映射關(guān)系將難以獲取全部的有效特征信息,從而導(dǎo)致嚴(yán)重的精度下滑;使用傳統(tǒng)自注意力神經(jīng)網(wǎng)絡(luò)常用的正弦位置編碼模塊時(shí),模型診斷精度也較低,這是由于固定的編碼模式不具備跟隨樣本實(shí)際數(shù)據(jù)分布變化而變化的能力,從而在具體的診斷任務(wù)中產(chǎn)生一定的精度喪失;使用本文所構(gòu)建位置編碼模塊為輸入數(shù)據(jù)賦予位置信息,自注意力神經(jīng)網(wǎng)絡(luò)在所有的噪聲環(huán)境下都取得最優(yōu)的診斷精度,充分驗(yàn)證了本文所設(shè)計(jì)位置編碼模塊的合理性和有效性。
圖5 不同位置編碼方式在噪聲環(huán)境下對自注意力神經(jīng)網(wǎng)絡(luò)性能的影響
為進(jìn)一步驗(yàn)證本文提出方法的效果,從當(dāng)前主流的深度學(xué)習(xí)模型中選取了一維CNN模型、長短記憶神經(jīng)網(wǎng)絡(luò)(LSTM)[30]、多層感知機(jī)(MLP)和SIM[31]作為對比模型,統(tǒng)計(jì)其在相同深度和寬度條件下的診斷精度,試驗(yàn)結(jié)果如圖6所示:
圖6 不同類型模型在噪聲干擾條件下所取得的診斷精度
1)在低噪聲環(huán)境下(噪聲強(qiáng)度小于10 Std),一維CNN和本文所提模型均取得了接近100%的診斷精度,說明這2類方法本身就有較強(qiáng)的識(shí)別能力。隨著噪聲強(qiáng)度的增大(噪聲強(qiáng)度大于10 Std),本文所提模型的診斷精度顯著高于其他模型,表明基于自注意力神經(jīng)網(wǎng)絡(luò)的診斷模型能夠憑借其強(qiáng)大的全局特征提取能力和長距離建模能力獲得對噪聲更強(qiáng)的魯棒性。
2)一維CNN模型和SIM都是以卷積操作為主要特征提取方式的模型,卷積操作主要是對輸入數(shù)據(jù)的局部信息進(jìn)行建模分析。在向信號(hào)中添加噪聲擾動(dòng)后, 由于所有的局部信息都發(fā)生了變化, 導(dǎo)致不具備全局建模能力的一維CNN和SIM的診斷精度較低;LSTM通過對數(shù)據(jù)在時(shí)間維度的滑動(dòng)提取其特征信息,與卷積操作類似,而且LSTM通過在模型中添加遺忘門以降低模型的運(yùn)算量,也使得模型放棄了一部分的全局建模能力而更專注于局部變量,在噪聲干擾下也出現(xiàn)了較為明顯的精度下降,魯棒性也不強(qiáng);MLP可視為剔除了注意力機(jī)制的簡化版自注意力神經(jīng)網(wǎng)絡(luò),具有全局建模能力,但缺少了自注意力神經(jīng)網(wǎng)絡(luò)最重要的位置編碼信息和注意力機(jī)制,因此其診斷精度也不如自注意力神經(jīng)網(wǎng)絡(luò)。
為進(jìn)一步論證所提出方法的泛化性和可遷移性,使用如圖7所示的軸承故障測試臺(tái),在0,0.1,0.2,0.3 N·m負(fù)載條件下對轉(zhuǎn)速區(qū)間[1 443,1 478]r/min的軸承進(jìn)行數(shù)據(jù)采集,一共包括了健康狀態(tài)和6種不同故障的數(shù)據(jù)[32]。
圖7 本文所采用的軸承故障測試臺(tái)
試驗(yàn)軸承型號(hào)為SSUC204,軸承內(nèi)、外圈上的故障為寬度1.0 mm、深度0.3 mm的裂紋,鋼球上的故障為直徑1.0 mm、深度0.3 mm的凹坑。每種運(yùn)行工況下,每類樣本均采集了66×104個(gè)連續(xù)的采樣點(diǎn)數(shù)據(jù)(12 kHz采樣頻率下采集60 s)。在完成數(shù)據(jù)采集后,采用與3.3節(jié)中完全一致的試驗(yàn)條件驗(yàn)證模型的有效性,即其數(shù)據(jù)集也被劃分為了訓(xùn)練集、驗(yàn)證集、測試集,對應(yīng)的樣本量分別為300×4,100×4,300×4,每個(gè)樣本均由1 024個(gè)連續(xù)采樣點(diǎn)構(gòu)成。
如圖8所示:在試驗(yàn)條件不變的情況下,更換軸承數(shù)據(jù)集后,本文所提方法依然能夠在所有的噪聲環(huán)境下取得最優(yōu)的平均診斷精度;SIM雖然在個(gè)別噪聲環(huán)境下取得了優(yōu)于本文方法的最高診斷精度,但其存在更大的精度波動(dòng),導(dǎo)致了平均診斷精度的降低,影響了結(jié)果的可信度。
圖8 在自制數(shù)據(jù)集下不同模型所取得的診斷精度
根據(jù)圖6和圖8的試驗(yàn)結(jié)果,說明本文所提基于自注意力神經(jīng)網(wǎng)絡(luò)的軸承故障診斷方法不僅具有較強(qiáng)的魯棒性和診斷精度,同時(shí)在更換數(shù)據(jù)集后也具有相似的有效性,即具有一定的可移植性和泛化能力。
針對工業(yè)實(shí)踐中所采集軸承信號(hào)容易受到噪聲干擾而導(dǎo)致故障診斷模型精度下滑甚至失效的問題,本文通過對模型深度、寬度的分析討論以及位置編碼方法的優(yōu)化,提出了基于自注意力神經(jīng)網(wǎng)絡(luò)的診斷模型,并通過與其他主流模型的性能對比證明了本文所提方法能夠在低噪聲環(huán)境中取得接近100%的高診斷精度,在高噪環(huán)境下也能取得優(yōu)于其他模型的診斷精度,對噪聲具有較強(qiáng)的魯棒性。
盡管本文為面向?qū)嶋H工業(yè)應(yīng)用的故障診斷任務(wù)提供了一種新的診斷模型和模型構(gòu)建思路,但僅考慮了高斯和拉普拉斯噪聲對模型性能的影響,而沒有采集工業(yè)現(xiàn)場的實(shí)際噪聲信號(hào)進(jìn)行分析,如何在實(shí)踐中保障模型的有效性是下一步的重點(diǎn)研究方向。