高玉才, 付忠廣, 謝玉存, 王詩(shī)云
(1.華北電力大學(xué)電站能量傳遞轉(zhuǎn)化與系統(tǒng)教育部重點(diǎn)實(shí)驗(yàn)室,北京102206;2.中國(guó)移動(dòng)杭州研發(fā)中心 北京業(yè)務(wù)支持中心,北京102206)
旋轉(zhuǎn)機(jī)械如汽輪機(jī)、風(fēng)力發(fā)電機(jī)、渦輪機(jī)、壓縮機(jī)等在現(xiàn)代工業(yè)中扮演著十分重要的角色,廣泛應(yīng)用于航空航天、電力、石油化工等行業(yè)。然而,隨著旋轉(zhuǎn)機(jī)械工作負(fù)載的變化和運(yùn)行時(shí)間的增長(zhǎng),機(jī)械故障日益頻發(fā)。因此,快速、準(zhǔn)確地進(jìn)行旋轉(zhuǎn)機(jī)械的故障診斷對(duì)于保障機(jī)械設(shè)備的安全和穩(wěn)定運(yùn)行意義重大。
深度學(xué)習(xí)是一種基于神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)方法,具有優(yōu)秀的特征提取和分類能力,能夠自動(dòng)從大量數(shù)據(jù)中學(xué)習(xí)并提取有用的特征,實(shí)現(xiàn)端到端的學(xué)習(xí),同時(shí)具有高準(zhǔn)確率和適應(yīng)性強(qiáng)的優(yōu)點(diǎn)。例如,深度學(xué)習(xí)模型可以應(yīng)用于傳感器數(shù)據(jù)的分析和處理,使用加速度計(jì)、振動(dòng)傳感器和溫度傳感器等多種傳感器來(lái)收集旋轉(zhuǎn)機(jī)械或者軸承的振動(dòng)信號(hào)、溫度信號(hào)和電流信號(hào)等數(shù)據(jù),進(jìn)行故障診斷,基于純監(jiān)督學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)技術(shù)在旋轉(zhuǎn)機(jī)械故障診斷領(lǐng)域已經(jīng)得到廣泛的應(yīng)用[1-2]。文獻(xiàn)[3]運(yùn)用動(dòng)態(tài)加權(quán)的多尺度殘差網(wǎng)絡(luò)用于旋轉(zhuǎn)機(jī)械故障診斷,通過(guò)使用動(dòng)態(tài)加權(quán)層給全局信息建模,以便捕獲特征通道之間的動(dòng)態(tài)非線性關(guān)系,同時(shí)對(duì)每個(gè)尺度的特征通道進(jìn)行重新標(biāo)定,提高網(wǎng)絡(luò)對(duì)故障信息的敏感性。Mo等[4]提出一種基于一維變分卷積核的卷積神經(jīng)網(wǎng)絡(luò) (convolutional neural network,CNN)網(wǎng)絡(luò)模型用于機(jī)械故障診斷中的時(shí)間信號(hào)處理,試驗(yàn)結(jié)果表明模型在有限的訓(xùn)練數(shù)據(jù)集下具有更好的診斷效果。Yoo等[5]利用CNN進(jìn)行旋轉(zhuǎn)機(jī)械的剩余使用壽命預(yù)測(cè),通過(guò)連續(xù)小波變換提取小波時(shí)頻圖像,然后將時(shí)頻圖像作為卷積神經(jīng)網(wǎng)絡(luò)的輸入特征用來(lái)預(yù)測(cè)設(shè)備的剩余使用壽命。
深度學(xué)習(xí)模型需要大量標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,而標(biāo)記數(shù)據(jù)的獲取成本高昂、耗時(shí)且需要專業(yè)的知識(shí)。此外,當(dāng)遇到新的故障類型時(shí),需要重新標(biāo)記數(shù)據(jù)并重新訓(xùn)練模型,極大限制了其實(shí)際的應(yīng)用。在實(shí)際應(yīng)用中,往往會(huì)面臨有標(biāo)簽數(shù)據(jù)不足的問(wèn)題,導(dǎo)致深度模型難以訓(xùn)練和優(yōu)化。為解決這一問(wèn)題研究者們提出了遷移學(xué)習(xí)[6]、半監(jiān)督學(xué)習(xí)[7]等方法,以充分利用未標(biāo)注的數(shù)據(jù)信息,提高神經(jīng)網(wǎng)絡(luò)的訓(xùn)練效率和抗干擾能力。Wen等[8]提出了一種深度遷移學(xué)習(xí)方法,通過(guò)最小化最大均值差異來(lái)縮小不同數(shù)據(jù)集之間的特征表示,提高了電機(jī)軸承故障診斷精度。Shao等[9]提出一種基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)和遷移學(xué)習(xí)方法的旋轉(zhuǎn)機(jī)械故障診斷新框架,通過(guò)參數(shù)遷移的方法使模型適應(yīng)目標(biāo)域數(shù)據(jù),試驗(yàn)結(jié)果表明所提方法在軸承系統(tǒng)故障診斷方面優(yōu)于其他方法。刑曉松等[10]提出一種基于生成對(duì)抗網(wǎng)絡(luò)的半監(jiān)督學(xué)習(xí)方法用于軸承的故障診斷,通過(guò)引入特征匹配算法,結(jié)合半監(jiān)督學(xué)習(xí)充分利用有標(biāo)簽數(shù)據(jù)和無(wú)標(biāo)簽數(shù)據(jù)進(jìn)行模型訓(xùn)練,使得模型具有更高的分類準(zhǔn)確率和更快的收斂速度。
在基于深度學(xué)習(xí)的故障診斷模型中,LeNet5網(wǎng)絡(luò)屬于卷積神經(jīng)網(wǎng)絡(luò)的典型代表,由于共享局部權(quán)值,相比于全連接神經(jīng)網(wǎng)絡(luò),參數(shù)量大為減少,可以快速地運(yùn)行在GPU上,降低了訓(xùn)練難度,提高了模型的計(jì)算速度和效率,可以快速驗(yàn)證算法的有效性。隨著研究人員對(duì)神經(jīng)網(wǎng)絡(luò)研究的深入,在LeNet5網(wǎng)絡(luò)模型的基礎(chǔ)上提出了一系列改進(jìn)方法,如加入批量歸一化層(batch normalization,BN)和使用ReLU激活函數(shù),使得模型的性能得到進(jìn)一步大幅度的提高。神經(jīng)網(wǎng)絡(luò)模型一般通過(guò)反向傳播算法優(yōu)化模型參數(shù),容易產(chǎn)生震蕩現(xiàn)象,指數(shù)加移動(dòng)平均(exponential weighted moving average,EWMA)算法是通過(guò)對(duì)歷史參數(shù)的加權(quán)平均來(lái)平滑更新參數(shù)的過(guò)程,能夠減少參數(shù)更新時(shí)的方差和偏差,從而有效地防止過(guò)擬合和訓(xùn)練過(guò)程不穩(wěn)定現(xiàn)象的發(fā)生。
基于以上分析,本文提出一種基于連續(xù)小波變換和教師-學(xué)生網(wǎng)絡(luò)的半監(jiān)督旋轉(zhuǎn)機(jī)械故障診斷模型,模型包含教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò),教師網(wǎng)絡(luò)需要指導(dǎo)學(xué)生網(wǎng)絡(luò)模型參數(shù)的學(xué)習(xí),同時(shí),教師網(wǎng)絡(luò)模型的參數(shù)在學(xué)生網(wǎng)絡(luò)模型訓(xùn)練的過(guò)程中通過(guò)指數(shù)加權(quán)移動(dòng)平均算法得到更新;指數(shù)加權(quán)移動(dòng)平均算法能夠使得教師網(wǎng)絡(luò)模型參數(shù)更加平緩地變化,在指導(dǎo)學(xué)生網(wǎng)絡(luò)模型參數(shù)訓(xùn)練的過(guò)程中能夠避免學(xué)生網(wǎng)絡(luò)模型參數(shù)出現(xiàn)大幅度震蕩,從而加快模型參數(shù)收斂。本文首先將旋轉(zhuǎn)機(jī)械的一維振動(dòng)信號(hào)通過(guò)連續(xù)小波變換轉(zhuǎn)換為三維時(shí)頻圖像;然后以改進(jìn)LeNet5卷積神經(jīng)網(wǎng)絡(luò)模型為基礎(chǔ)建立學(xué)生網(wǎng)絡(luò)模型和教師網(wǎng)絡(luò)模型,通過(guò)教師網(wǎng)絡(luò)模型的輸出和有標(biāo)簽數(shù)據(jù)樣本指導(dǎo)學(xué)生網(wǎng)絡(luò)的訓(xùn)練,同時(shí)使用指數(shù)加權(quán)移動(dòng)平均算法更新教師網(wǎng)絡(luò)的參數(shù),最后在轉(zhuǎn)子試驗(yàn)臺(tái)上對(duì)所提方法進(jìn)行驗(yàn)證和分析。
1.1.1 連續(xù)小波變換原理
連續(xù)小波變換(continuous wavelet transform,CWT),是一種基于小波分析的信號(hào)處理技術(shù),被廣泛應(yīng)用于信號(hào)壓縮[11]、邊緣檢測(cè)[12]、圖像處理和模式識(shí)別[13]等領(lǐng)域。相對(duì)于傅里葉變換和短時(shí)傅里葉變換等傳統(tǒng)方法,小波變換具有更好的時(shí)域局部化性質(zhì)和多分辨率分析能力。小波變換的原理是通過(guò)將信號(hào)分解成多個(gè)不同尺度的小波基函數(shù)實(shí)現(xiàn)信號(hào)的時(shí)頻分析。小波基函數(shù)是一種緊湊且局部化的基函數(shù),具有高度自相似性,通過(guò)與原始信號(hào)進(jìn)行卷積運(yùn)算可以提取小波系數(shù)。對(duì)于能量有限信號(hào)f(t)∈L2(R),小波變換的表達(dá)式為
(1)
式中:ψa,b(t)為小波基函數(shù);a為尺度因子;b為平移因子;CWT為對(duì)原始信號(hào)進(jìn)行小波變換后得到的小波系數(shù),它能更好地表示信號(hào)的局部特征。
Morlet小波基是小波分析中常用的小波基函數(shù),它是在頻域和時(shí)域上為有限值的復(fù)值函數(shù),其數(shù)學(xué)表達(dá)式和傅里葉變換后的表達(dá)式分別為
(2)
(3)
式中,ω0為小波基函數(shù)的中心頻率。Morlet小波基具有高度的自相似性和良好的頻譜局部化性質(zhì),能夠較好地適應(yīng)非平穩(wěn)信號(hào),在非穩(wěn)態(tài)信號(hào)處理和特征提取方面具有優(yōu)異的表現(xiàn),因此在故障診斷方面具有廣泛的應(yīng)用。
1.1.2 LeNet5卷積神經(jīng)網(wǎng)絡(luò)原理
LeNet5神經(jīng)網(wǎng)絡(luò)是由Lecun等[14]在1998年提出,是卷積神經(jīng)網(wǎng)絡(luò)的開(kāi)山之作,可以處理圖像數(shù)據(jù),適用于許多計(jì)算機(jī)視覺(jué)任務(wù),通過(guò)引入卷積層和池化層,大大減少了神經(jīng)網(wǎng)絡(luò)的參數(shù)數(shù)量,降低了過(guò)擬合風(fēng)險(xiǎn)。LeNet5網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示:前五層由卷積操作和池化操作交替進(jìn)行,然后輸出到全連接層,最后通過(guò)Softmax分類器輸出分類結(jié)果。雖然原始的LeNet5神經(jīng)網(wǎng)絡(luò)在當(dāng)時(shí)表現(xiàn)出很好的性能,但隨著圖像識(shí)別任務(wù)越來(lái)越復(fù)雜,已經(jīng)很難滿足需要,在此基礎(chǔ)上,研究人員提出許多改進(jìn)方法,其中最主要的成就是批量歸一化層的使用和激活函數(shù)的改進(jìn),本文所使用的LeNet5卷積神經(jīng)網(wǎng)絡(luò)加入了批量歸一化層并使用ReLU激活函數(shù)。
圖1 LeNet5卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
1.1.3 批量歸一化
批量歸一化[15]是深度神經(jīng)網(wǎng)絡(luò)中常用的一種技術(shù),用于加速網(wǎng)絡(luò)訓(xùn)練,提高模型的泛化性能。BN層的數(shù)學(xué)表達(dá)式為
(4)
(5)
1.1.4 ReLU 激活函數(shù)
激活函數(shù)是神經(jīng)網(wǎng)絡(luò)模型的關(guān)鍵組成部分之一,它通過(guò)對(duì)輸入數(shù)據(jù)進(jìn)行非線性化轉(zhuǎn)換提高模型的表達(dá)能力,因此激活函數(shù)的選擇可以對(duì)神經(jīng)網(wǎng)絡(luò)的性能產(chǎn)生重大的影響。線性激活單元(rectified linear unit,ReLU)是一種非常簡(jiǎn)單的激活函數(shù),其數(shù)學(xué)表達(dá)式為其中x為神經(jīng)元的輸入,f(x)為神經(jīng)元的輸出,激活函數(shù)的作用就是將神經(jīng)元的輸入映射到輸出,以便在網(wǎng)絡(luò)中傳遞信息。ReLU的計(jì)算只設(shè)計(jì)簡(jiǎn)單的比較運(yùn)算和取最大值操作,不需要復(fù)雜的數(shù)學(xué)運(yùn)算,非常適合用于大規(guī)模的神經(jīng)網(wǎng)絡(luò),當(dāng)輸入為正數(shù)時(shí),ReLU的導(dǎo)數(shù)恒為1,同時(shí)具有計(jì)算速度快和避免梯度消失的優(yōu)點(diǎn),可以提高神經(jīng)網(wǎng)絡(luò)的性能和效率,因此得到廣泛的應(yīng)用。
1.1.5 指數(shù)加權(quán)移動(dòng)平均算法
指數(shù)加權(quán)移動(dòng)平均算法是一種常用的時(shí)間序列平滑方法,可以用于對(duì)數(shù)據(jù)進(jìn)行平滑處理,其原理是對(duì)歷史數(shù)據(jù)進(jìn)行加權(quán)平均,權(quán)重隨著時(shí)間的推移而指數(shù)級(jí)別的減小,在保持?jǐn)?shù)據(jù)趨勢(shì)的同時(shí)減少異常值的影響。指數(shù)加權(quán)移動(dòng)平均法的表達(dá)式為
EMA(t)=αP(t)+(1-α)EMA(t-1)
(6)
式中:EMA(t)為在t時(shí)刻的指數(shù)加權(quán)移動(dòng)平均值;P(t)為在t時(shí)刻的實(shí)際觀測(cè)值;EMA(t-1)為在t-1時(shí)刻的指數(shù)加權(quán)移動(dòng)平均值;α為平滑系數(shù),取值在0~1。
指數(shù)加權(quán)移動(dòng)平均算法可用于優(yōu)化神經(jīng)網(wǎng)絡(luò)的參數(shù)更新過(guò)程,在每次參數(shù)迭代更新過(guò)程中,將當(dāng)前參數(shù)值與歷史參數(shù)值進(jìn)行加權(quán)平均,使參數(shù)的變化更加平穩(wěn),有助于減輕網(wǎng)絡(luò)在訓(xùn)練集上過(guò)擬合,消除異常數(shù)據(jù)對(duì)網(wǎng)絡(luò)的影響,可以提高模型的泛化能力和魯棒性。
1.2.1 試驗(yàn)數(shù)據(jù)集
本文采用INV-1612柔性轉(zhuǎn)子試驗(yàn)系統(tǒng)采集的數(shù)據(jù)驗(yàn)證算法的有效性,如圖2所示。該設(shè)備是由北京東方振動(dòng)和噪聲技術(shù)研究所制造的一款高端試驗(yàn)設(shè)備,采用先進(jìn)的電子控制技術(shù)和傳感器技術(shù),主要用于研究柔性轉(zhuǎn)子系統(tǒng)的振動(dòng)與穩(wěn)定性,能夠模擬真實(shí)的柔性轉(zhuǎn)子系統(tǒng)工作狀態(tài),通過(guò)控制振動(dòng)源的方式模擬不同的工作場(chǎng)景,同時(shí)對(duì)試驗(yàn)數(shù)據(jù)進(jìn)行實(shí)時(shí)監(jiān)測(cè)和分析,從而更加準(zhǔn)確地分析柔性轉(zhuǎn)子系統(tǒng)的動(dòng)力學(xué)特性和振動(dòng)響應(yīng)。
圖2 INV1612型多功能柔性轉(zhuǎn)子試驗(yàn)臺(tái)上的轉(zhuǎn)子模型
小波時(shí)頻圖像反映了原始信號(hào)在不同時(shí)刻、不同頻率下的能量分布,能夠有效地反映了轉(zhuǎn)子的運(yùn)行狀態(tài)信息。通過(guò)將原始信號(hào)的三維時(shí)頻圖像作為L(zhǎng)eNet5卷積神經(jīng)網(wǎng)絡(luò)的輸入可以對(duì)轉(zhuǎn)子的運(yùn)行狀態(tài)進(jìn)行模式識(shí)別。為轉(zhuǎn)子系統(tǒng)的五種運(yùn)行狀態(tài)所對(duì)應(yīng)的小波時(shí)頻圖像,如圖3所示。
圖3 小波時(shí)頻圖像
1.2.2 模型設(shè)計(jì)與算法流程
本文提出的半監(jiān)督故障診斷模型包含學(xué)生網(wǎng)絡(luò)和教師網(wǎng)絡(luò),兩者具有相同的網(wǎng)絡(luò)結(jié)構(gòu),均在LeNet5網(wǎng)絡(luò)模型基礎(chǔ)上改進(jìn)而來(lái),輸出節(jié)點(diǎn)數(shù)為5,在卷積層后增加了批量歸一化(BN)層,將sigmoid激活函數(shù)改為ReLU激活函數(shù),同時(shí)在全連接層后加入Dropout層以減少網(wǎng)絡(luò)過(guò)擬合的情況。學(xué)生網(wǎng)絡(luò)可以同時(shí)通過(guò)兩種方式進(jìn)行參數(shù)更新:①利用有標(biāo)簽數(shù)據(jù)通過(guò)監(jiān)督學(xué)習(xí)的方式更新網(wǎng)絡(luò)參數(shù);②利用教師網(wǎng)絡(luò)輸出軟標(biāo)簽作為訓(xùn)練學(xué)生網(wǎng)絡(luò)的監(jiān)督信號(hào)。教師網(wǎng)絡(luò)的性能由學(xué)生網(wǎng)絡(luò)性能保障,其參數(shù)由學(xué)生網(wǎng)絡(luò)參數(shù)通過(guò)指數(shù)加權(quán)移動(dòng)平均算法獲得,因此具有更高的參數(shù)穩(wěn)定性和故障診斷準(zhǔn)確率,可以生成準(zhǔn)確可靠的偽標(biāo)簽指導(dǎo)學(xué)生網(wǎng)絡(luò)的訓(xùn)練。學(xué)生網(wǎng)絡(luò)利用真實(shí)標(biāo)簽和偽標(biāo)簽學(xué)習(xí)數(shù)據(jù)的特征表示和分布規(guī)律,通過(guò)增加的無(wú)標(biāo)簽數(shù)據(jù)獲得更多的信息,有效緩解了有標(biāo)簽數(shù)據(jù)樣本不足帶來(lái)的過(guò)擬合問(wèn)題。學(xué)生教師網(wǎng)絡(luò)充分發(fā)揮了學(xué)生網(wǎng)絡(luò)參數(shù)更新的高效率和教師網(wǎng)絡(luò)的高準(zhǔn)確率和穩(wěn)定性,通過(guò)半監(jiān)督學(xué)習(xí)的方式使兩者結(jié)合在一起,兩者相輔相成,性能共同得到提高。整體網(wǎng)絡(luò)架構(gòu)如圖4所示。
圖4 網(wǎng)絡(luò)架構(gòu)
損失函數(shù)由有監(jiān)督損失和無(wú)監(jiān)督損失兩部分組成
(7)
步驟1準(zhǔn)備數(shù)據(jù)集:數(shù)據(jù)集由訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集組成,訓(xùn)練數(shù)據(jù)集包括有標(biāo)簽數(shù)據(jù)和無(wú)標(biāo)簽數(shù)據(jù),測(cè)試數(shù)據(jù)集用來(lái)評(píng)估模型的性能。
步驟2初始化模型:選擇改進(jìn)的LeNet5網(wǎng)絡(luò)作為基礎(chǔ)模型,分別建立具有相同結(jié)構(gòu)的教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò),并對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行隨機(jī)初始化。
步驟3計(jì)算學(xué)生模型的損失:在訓(xùn)練集中隨機(jī)選取一批數(shù)據(jù),計(jì)算學(xué)生網(wǎng)絡(luò)預(yù)測(cè)結(jié)果與教師網(wǎng)絡(luò)預(yù)測(cè)結(jié)果之間的均方差損失,構(gòu)成無(wú)監(jiān)督損失項(xiàng);針對(duì)有標(biāo)簽數(shù)據(jù),計(jì)算學(xué)生網(wǎng)絡(luò)預(yù)測(cè)結(jié)果與真實(shí)標(biāo)簽之間的交叉熵?fù)p失,構(gòu)成有監(jiān)督損失項(xiàng);總損失為有監(jiān)督損失和無(wú)監(jiān)督損失的加權(quán)和。
步驟4優(yōu)化模型參數(shù):采用自適應(yīng)矩估計(jì)Adam算法(adaptive moment estimation)優(yōu)化學(xué)生模型參數(shù)以降低損失函數(shù)值。
步驟6停止模型訓(xùn)練:重復(fù)步驟3~步驟5,直到模型的性能收斂或者達(dá)到預(yù)定的訓(xùn)練輪數(shù)。
步驟7模型測(cè)試:網(wǎng)絡(luò)模型訓(xùn)練完成后選用準(zhǔn)確率作為指標(biāo)評(píng)估教師模型在測(cè)試集數(shù)據(jù)上的性能。
本文利用INV-1612柔性轉(zhuǎn)子試驗(yàn)系統(tǒng)采集轉(zhuǎn)子在不同運(yùn)行狀態(tài)下的振動(dòng)數(shù)據(jù),包括正常運(yùn)行、質(zhì)量不平衡故障、碰摩故障、支撐松動(dòng)故障和油膜失穩(wěn)故障等五種運(yùn)行狀態(tài)的數(shù)據(jù)。通過(guò)這些數(shù)據(jù)驗(yàn)證本文提出的算法的有效性,并將其與傳統(tǒng)的基于純監(jiān)督學(xué)習(xí)的機(jī)器學(xué)習(xí)算法和半監(jiān)督學(xué)習(xí)算法進(jìn)行對(duì)比,比較各種算法模型在測(cè)試數(shù)據(jù)集上的分類準(zhǔn)確率和收斂性,以進(jìn)一步驗(yàn)證本文所提算法的有效性。
本文所涉及的所有神經(jīng)網(wǎng)絡(luò)模型均采用相同的優(yōu)化算法和超參數(shù),優(yōu)化算法為Adam[16]算法,該算法能夠自適應(yīng)地調(diào)整每個(gè)參數(shù)的學(xué)習(xí)率,從而更加高效地優(yōu)化模型,同時(shí)在梯度更新時(shí)加入了動(dòng)量項(xiàng),能夠更好地處理梯度的稀疏性和方向,加速訓(xùn)練過(guò)程,對(duì)參數(shù)的一階矩和二階矩進(jìn)行自適應(yīng)調(diào)整,對(duì)梯度的大小和方向估計(jì)得更為準(zhǔn)確。Batch_Size=100,epoch=200,激活函數(shù)為ReLU激活函數(shù),為緩解網(wǎng)絡(luò)模型過(guò)擬合,在全連接層后加入dropout層,dropout的值為0.25,同時(shí)對(duì)權(quán)重L2正則化,正則化系數(shù)為1×10-4,平滑因子為α=0.99.改進(jìn)的LeNet5神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如表1所示。
表1 改進(jìn)LeNet5網(wǎng)絡(luò)模型的結(jié)構(gòu)參數(shù)
在模型訓(xùn)練初期,保持學(xué)習(xí)率緩慢上升,可以避免訓(xùn)練初期發(fā)生梯度消失或者梯度爆炸,提高模型的穩(wěn)定性;網(wǎng)絡(luò)模型訓(xùn)練的后期,學(xué)習(xí)率過(guò)大可能導(dǎo)致模型在最優(yōu)點(diǎn)附近震蕩,使得模型無(wú)法繼續(xù)收斂,通過(guò)逐漸降低學(xué)習(xí)率,使得模型更快收斂,從而獲得更好的訓(xùn)練效果。為了讓模型更好更快地收斂到最優(yōu)解,本文在模型訓(xùn)練過(guò)程中需要不斷調(diào)整學(xué)習(xí)率,在前40個(gè)epoch的訓(xùn)練過(guò)程中,學(xué)習(xí)率以0.003×e-5(1-τ1)2的方式上升,然后保持不變,在最后的40個(gè)epoch中以0.003×e-5(τ2-1)2的方式下降,τ1,τ2∈[0,1],分別表示初期已訓(xùn)練epoch數(shù)和后期未訓(xùn)練epoch數(shù)與40的比值。
為了驗(yàn)證本文所提方法的有效性,分別于與基于純監(jiān)督學(xué)習(xí)的LeNet-5網(wǎng)絡(luò)、基于半監(jiān)督學(xué)習(xí)算法π的模型[17]和不采用指數(shù)加權(quán)移動(dòng)平均算法的教師學(xué)生網(wǎng)絡(luò)進(jìn)行對(duì)比。選取2 000個(gè)數(shù)據(jù)樣本作為總數(shù)據(jù)集,其中每種運(yùn)行狀態(tài)的樣本各400個(gè),然后將數(shù)據(jù)集隨機(jī)平均分成兩份分別作為訓(xùn)練集和測(cè)試集,在1 000個(gè)訓(xùn)練集樣本中,再隨機(jī)分別選取10%,25%,50%,75%和100%的樣本保留標(biāo)簽,其余訓(xùn)練集樣本去掉標(biāo)簽,然后基于半監(jiān)督方法訓(xùn)練網(wǎng)絡(luò)模型,最后在測(cè)試數(shù)據(jù)集上驗(yàn)證模型效果。表2為各模型最終的識(shí)別準(zhǔn)確率,其中LeNet5網(wǎng)絡(luò)模型的訓(xùn)練過(guò)程只用到了帶標(biāo)簽數(shù)據(jù)樣本。表2中數(shù)值為十次試驗(yàn)結(jié)果的平均值。
表2 各模型故障識(shí)別準(zhǔn)確率
當(dāng)有50%的訓(xùn)練集樣本保留標(biāo)簽時(shí),各模型訓(xùn)練過(guò)程中在測(cè)試集上的準(zhǔn)確率變化曲線圖,如圖5所示。
圖5 四種模型在訓(xùn)練過(guò)程中的性能對(duì)比
其中LeNet5網(wǎng)絡(luò)為純監(jiān)督學(xué)習(xí)模型,πmodel為半監(jiān)督學(xué)習(xí)模型,教師學(xué)生網(wǎng)絡(luò)模型中教師網(wǎng)絡(luò)的參數(shù)與前一epoch訓(xùn)練后學(xué)生網(wǎng)絡(luò)的參數(shù)相同;本文提出的方法在教師學(xué)生網(wǎng)絡(luò)模型的基礎(chǔ)上使用指數(shù)加權(quán)移動(dòng)平均算法更新教師網(wǎng)絡(luò)參數(shù)。從圖5中可以看出,相比于其他三種方法,本文提出的基于教師-學(xué)生網(wǎng)絡(luò)的半監(jiān)督故障診斷模型具有較高的故障識(shí)別準(zhǔn)確率,而且訓(xùn)練過(guò)程中收斂速度快、穩(wěn)定性高,能夠滿足旋轉(zhuǎn)機(jī)械故障診斷所需的高可靠性和高精度的需要。
本節(jié)采用t-SNE(t-distributed stochastic neighbor embedding)算法[18]對(duì)模型在訓(xùn)練集上的輸出結(jié)果進(jìn)行降維展示,該算法通過(guò)觀察數(shù)據(jù)點(diǎn)在高維空間中的分布情況,通過(guò)最小化高維空間中的數(shù)據(jù)點(diǎn)之間的相對(duì)距離與低維空間中的相對(duì)距離之間的差異,將其映射到低維空間中,在可視化高維數(shù)據(jù)方面有很好的效果。圖6為本文方法在訓(xùn)練集數(shù)據(jù)保留25%、50%、75%和100%標(biāo)簽的情況下的分類效果。
從圖6中可以看出,當(dāng)訓(xùn)練集樣本含有不同比例的帶標(biāo)簽樣本時(shí),不同故障類型的數(shù)據(jù)點(diǎn)分布一直十分緊密,說(shuō)明本文提出的半監(jiān)督算法在數(shù)據(jù)的表示和特征提取上有著良好的表現(xiàn),能夠有效地識(shí)別和區(qū)分不同的故障類型,在旋轉(zhuǎn)機(jī)械的故障診斷方面有著巨大的應(yīng)用潛力。
本文提出了一種基于教師-學(xué)生網(wǎng)絡(luò)的半監(jiān)督故障診斷模型用于旋轉(zhuǎn)機(jī)械故障診斷,分別建立具有相同結(jié)構(gòu)的學(xué)生網(wǎng)絡(luò)模型和教師網(wǎng)絡(luò)模型,在學(xué)生網(wǎng)絡(luò)模型的訓(xùn)練過(guò)程中通過(guò)指數(shù)移動(dòng)平均(exponential moving average, EMA)算法對(duì)教師網(wǎng)絡(luò)模型的參數(shù)進(jìn)行加權(quán)平均,教師網(wǎng)絡(luò)的輸出結(jié)果指導(dǎo)學(xué)生模型的訓(xùn)練,本文方法能夠利用少量的有標(biāo)簽數(shù)據(jù)和大量無(wú)標(biāo)簽數(shù)據(jù)進(jìn)行半監(jiān)督學(xué)習(xí),取得很好的故障診斷效果。
(1)相比于基于純監(jiān)督學(xué)習(xí)的leNet5神經(jīng)網(wǎng)絡(luò)模型,本文方法能夠充分利用大量無(wú)標(biāo)簽數(shù)據(jù)提高旋轉(zhuǎn)機(jī)械的故障診斷精度和模型訓(xùn)練過(guò)程中的穩(wěn)定性,相對(duì)于較早提出的半監(jiān)督學(xué)習(xí)算法π模型,本文提出的方法能夠提高模型的故障診斷精度,同時(shí)模型在訓(xùn)練過(guò)程中的穩(wěn)定性得到增強(qiáng)。
(2)通過(guò)t- SNE算法對(duì)轉(zhuǎn)子在不同運(yùn)行狀態(tài)下的分類結(jié)果進(jìn)行了可視化展示,進(jìn)一步驗(yàn)證了本文方法的故障分類能力,相同故障類型的數(shù)據(jù)點(diǎn)緊密聚集在一起,形成了較為明顯的高密度區(qū)和低密度區(qū) ,說(shuō)明本文方法能夠高效識(shí)別旋轉(zhuǎn)機(jī)械的故障類型。
(3)旋轉(zhuǎn)機(jī)械工作環(huán)境較為復(fù)雜且惡劣,存在不同強(qiáng)度的噪聲干擾,在訓(xùn)練集數(shù)據(jù)中,可能有一定比例的數(shù)據(jù)帶有錯(cuò)誤的標(biāo)簽。下一步研究的重點(diǎn)是驗(yàn)證模型的魯棒性,提高模型在不同環(huán)境條件下的抗干擾能力。