胡繼敏,羅梅杰
基于自監(jiān)督學(xué)習(xí)框架的發(fā)電柴油機(jī)故障診斷
胡繼敏1,羅梅杰2
(1. 海裝駐上海地區(qū)第一軍事代表室,上海,201913;2. 海軍研究院,上海,200030)
針對(duì)采集的船舶發(fā)電柴油機(jī)有標(biāo)簽狀態(tài)數(shù)據(jù)集為小樣本而造成的分類精度較低的問題,本文提出了一種新型的自監(jiān)督學(xué)習(xí)框架用于機(jī)電設(shè)備的故障診斷,挖掘無標(biāo)簽數(shù)據(jù)集中的特征信息,以提高模型的分類能力。首先,通過KNN算法,將采集到的無標(biāo)簽數(shù)據(jù)集劃分為正類樣本和負(fù)類樣本,并通過添加噪聲的方法對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng),以此構(gòu)造自監(jiān)督任務(wù)。然后,設(shè)計(jì)基于卷積神經(jīng)網(wǎng)絡(luò)的編碼器,根據(jù)正類、負(fù)類的偽標(biāo)簽,來提取無標(biāo)簽數(shù)據(jù)中的監(jiān)督信息。最后,基于小樣本的標(biāo)簽數(shù)據(jù),通過編碼器得到新的特征表征,對(duì)分類模型進(jìn)行參數(shù)微調(diào),提高模型精度。船舶柴油發(fā)電機(jī)故障實(shí)驗(yàn)證明,該自監(jiān)督學(xué)習(xí)框架下的分類模型的準(zhǔn)確率、精確率和召回率均高于直接用小樣本標(biāo)簽數(shù)據(jù)訓(xùn)練的分類模型。
船舶機(jī)電設(shè)備 小樣本數(shù)據(jù)集 自監(jiān)督學(xué)習(xí) 故障診斷
船舶機(jī)電設(shè)備長時(shí)間在惡劣的環(huán)境下工作,運(yùn)行工況復(fù)雜與設(shè)備頻繁操作,極易發(fā)生故障。為保障其安全運(yùn)行,需對(duì)機(jī)艙機(jī)電設(shè)備進(jìn)行故障監(jiān)測與診斷,以保證船舶運(yùn)行安全運(yùn)行。目前,根據(jù)數(shù)據(jù)采集系統(tǒng)提供的機(jī)電設(shè)備狀態(tài)數(shù)據(jù)進(jìn)行故障診斷主要依靠操作人員的專業(yè)知識(shí)進(jìn)行判斷,主觀性較大,且要求豐富的工作經(jīng)驗(yàn)。但機(jī)艙機(jī)電設(shè)備結(jié)構(gòu)復(fù)雜、種類繁多,僅靠專家經(jīng)驗(yàn)難以對(duì)復(fù)雜的狀態(tài)進(jìn)行判斷。隨著互聯(lián)網(wǎng)和信息技術(shù)的快速發(fā)展,基于數(shù)據(jù)驅(qū)動(dòng)的故障診斷技術(shù)得到了廣泛研究。基于系統(tǒng)采集的大量設(shè)備狀態(tài)數(shù)據(jù),挖掘數(shù)據(jù)中存在的設(shè)備狀態(tài)信息與特征,建立基于數(shù)據(jù)驅(qū)動(dòng)的故障診斷模型,可實(shí)時(shí)進(jìn)行機(jī)電設(shè)備的故障診斷。
近年來,基于采集的大規(guī)模工業(yè)數(shù)據(jù),機(jī)器學(xué)習(xí)和深度學(xué)習(xí)理論在機(jī)電設(shè)備的故障診斷研究中取得了廣泛的應(yīng)用。王瑞涵等人[1]引入孤立森林模型實(shí)現(xiàn)對(duì)船舶柴油機(jī)異常狀態(tài)的監(jiān)測。吉哲等人[2]通過采集的艦船機(jī)電設(shè)備的振動(dòng)信號(hào)實(shí)現(xiàn)對(duì)常見的故障進(jìn)行智能診斷。Yu等[3]利用開集故障診斷方法,提升卷積神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練集和測試集分布不一致情況下的狀態(tài)分類。然而上述的基于數(shù)據(jù)驅(qū)動(dòng)的故障診斷模型是一種監(jiān)督學(xué)習(xí),該模型的良好性能需要足夠多的有標(biāo)簽數(shù)據(jù)集,在小樣本數(shù)據(jù)情況下,該模型的性能會(huì)大大地降低。針對(duì)船舶數(shù)據(jù)采集系統(tǒng)采集的數(shù)據(jù),對(duì)各狀態(tài)數(shù)據(jù)進(jìn)行手動(dòng)標(biāo)簽需要人工參與和專業(yè)知識(shí),耗時(shí)耗力,代價(jià)昂貴,難以擴(kuò)大有標(biāo)簽數(shù)據(jù)規(guī)模。因此,采集的狀態(tài)信息數(shù)據(jù)中未標(biāo)記的數(shù)據(jù)量遠(yuǎn)遠(yuǎn)超過人工標(biāo)記的數(shù)據(jù)集。目前針對(duì)采集的小樣本有標(biāo)簽數(shù)據(jù)的模型訓(xùn)練主要基于數(shù)據(jù)增強(qiáng),基于元學(xué)習(xí)、基于遷移學(xué)習(xí)及混合方法[4]。劉云鵬等人[5]為解決非均衡數(shù)據(jù)集對(duì)自適應(yīng)算法的影響,提出一種結(jié)合AdaBoost和代價(jià)敏感的Adacost算法,提高了非均衡數(shù)據(jù)集下診斷模型的故障識(shí)別能力。Chen等人[6]利用混合采樣方法對(duì)隨機(jī)森林中的子模型提供均衡數(shù)據(jù)集,提高了隨機(jī)森林處理不平衡數(shù)據(jù)集的故障診斷的穩(wěn)定性和高效性。許自強(qiáng)等人[7]利用Wasserstein生成對(duì)抗網(wǎng)絡(luò)產(chǎn)生更多的故障樣本,實(shí)現(xiàn)樣本庫的類別均衡化目標(biāo),實(shí)現(xiàn)對(duì)電力變壓器的故障樣本增強(qiáng)。
但是,現(xiàn)有的數(shù)據(jù)增強(qiáng)方法只能緩解而不能根本解決小樣本有標(biāo)簽數(shù)據(jù)集。通過生成樣本數(shù)量來擴(kuò)大訓(xùn)練集,由于先驗(yàn)知識(shí)的不完美,生成的數(shù)據(jù)與真實(shí)數(shù)據(jù)之間的差異會(huì)導(dǎo)致概念偏移[8]。同時(shí),如果生成模型訓(xùn)練過好,生成數(shù)據(jù)嚴(yán)格遵循了原小樣本數(shù)據(jù)集的分布,缺失了樣本的多樣性。如果能夠利用大量無標(biāo)簽數(shù)據(jù)中的信息,對(duì)模型進(jìn)行預(yù)訓(xùn)練,進(jìn)而通過少量有標(biāo)簽數(shù)據(jù)對(duì)模型參數(shù)進(jìn)行微調(diào),最終實(shí)現(xiàn)對(duì)數(shù)據(jù)的分類,是一種新思路[9]。因此,本文設(shè)計(jì)一種新型的自監(jiān)督學(xué)習(xí)框架用于船舶機(jī)電設(shè)備的故障診斷,解決由標(biāo)簽數(shù)據(jù)量過少導(dǎo)致分類模型中大量參數(shù)難以擬合的問題。利用數(shù)據(jù)系統(tǒng)采集的大量無標(biāo)簽數(shù)據(jù),設(shè)置合適的輔助任務(wù),從無標(biāo)簽數(shù)據(jù)集中構(gòu)建標(biāo)簽信息,從而訓(xùn)練一個(gè)能夠提取數(shù)據(jù)中狀態(tài)信息的編碼器,通過該編碼器為最終的分類任務(wù)提供信息,最終通過標(biāo)簽數(shù)據(jù)對(duì)分類器參數(shù)進(jìn)行微調(diào),解決標(biāo)簽數(shù)據(jù)規(guī)模較少的問題,實(shí)現(xiàn)基于小樣本的船舶機(jī)電設(shè)備故障診斷。本文提出的自監(jiān)督學(xué)習(xí)框架主要貢獻(xiàn)如下:
1)引入KNN算法,通過無監(jiān)督學(xué)習(xí),挖掘無標(biāo)簽數(shù)據(jù)中的數(shù)據(jù)信息,構(gòu)建標(biāo)簽信息,將無標(biāo)簽數(shù)據(jù)集劃分為正類樣本與負(fù)類樣本,為接下來的自監(jiān)督學(xué)習(xí)提供標(biāo)簽信息。
2)通過增加添加噪聲的方式對(duì)原數(shù)據(jù)樣本進(jìn)行數(shù)據(jù)增強(qiáng),設(shè)計(jì)一個(gè)多層卷積神經(jīng)網(wǎng)絡(luò)的編碼器,充分挖掘無標(biāo)簽數(shù)據(jù)的內(nèi)在信息,實(shí)現(xiàn)在正、負(fù)類標(biāo)簽下的無標(biāo)簽數(shù)據(jù)信息的對(duì)齊。
3)將標(biāo)簽數(shù)據(jù)集輸入至卷積神經(jīng)網(wǎng)絡(luò)的編碼中,得到信息重表征,用新的特征向量訓(xùn)練隨機(jī)森林分類器,進(jìn)行參數(shù)微調(diào),最終實(shí)現(xiàn)數(shù)據(jù)分類。
圖1 信號(hào)重表征
1)正類、負(fù)類樣本構(gòu)造
2)信息重表征
3)損失函數(shù)設(shè)計(jì)
編碼器通過構(gòu)造的正、負(fù)類樣本進(jìn)行訓(xùn)練。本文通過余弦相似度來表示同類數(shù)據(jù)增強(qiáng)后樣本的相似度,公式為:
同理,根據(jù)余弦相似度可以得到異類樣本的相似性,公式為:
編碼器是通過最大化同類樣本的相似性,最小化異類樣本的相似性進(jìn)行訓(xùn)練的。
步驟1,通過無監(jiān)督學(xué)習(xí),將無標(biāo)簽樣本分為正類、負(fù)類樣本。采用的無監(jiān)督學(xué)習(xí)為K最臨近算法(K-Nearest Neighbor,KNN),通過計(jì)算不同樣本間的距離,來尋找每個(gè)樣本的鄰近樣本。本文中,的取值為2,計(jì)算公式為:
圖2 基于自監(jiān)督學(xué)習(xí)框架的故障診斷
實(shí)驗(yàn)對(duì)象為船用R6105AZLD型柴油發(fā)電機(jī)組[10]。采樣頻率為4 kHz,柴油機(jī)轉(zhuǎn)速為1 500 r/min,以1 600個(gè)點(diǎn)為一個(gè)采樣周期。實(shí)驗(yàn)共采集了五種狀態(tài)數(shù)據(jù),包括四種故障工況數(shù)據(jù)和一種正常工況數(shù)據(jù)。實(shí)驗(yàn)數(shù)據(jù)描述如表1所示。實(shí)驗(yàn)采集的振動(dòng)信號(hào)時(shí)域波形如圖3所示。
表1 五種振動(dòng)信號(hào)實(shí)驗(yàn)數(shù)據(jù)集
本文編碼器選擇卷積神經(jīng)網(wǎng)絡(luò)模型。卷積神經(jīng)網(wǎng)絡(luò)為兩層卷積層,兩層池化層,一層全連接層。池化層的操作為最大池化,卷積層中的激活函數(shù)為ReLu,優(yōu)化器為Adam。經(jīng)反復(fù)實(shí)驗(yàn),確定該編碼器的迭代次數(shù)與學(xué)習(xí)率,最終迭代次數(shù)為200次,學(xué)習(xí)率為0.01。具體參數(shù)如表2所示:
表2 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)相關(guān)參數(shù)設(shè)置
本文所提出的基于自監(jiān)督學(xué)習(xí)框架的柴油發(fā)電機(jī)故障診斷框架中分類器選擇的是隨機(jī)森林模型。隨機(jī)森林模型通過組合多個(gè)決策樹模型,來提高模型的分類精度和泛化能力。在隨機(jī)森林模型中,通過Bagging法,在原始數(shù)據(jù)集中有放回的對(duì)新樣本進(jìn)行分類,再用多數(shù)投票或者對(duì)輸出求均值的方法統(tǒng)計(jì)所有分類器的分類結(jié)果,結(jié)果最高的類別即為最終標(biāo)簽。這種隨機(jī)性導(dǎo)致隨機(jī)森林的偏差會(huì)有稍微的增加(相比于單一決策樹),但是由于隨機(jī)森林的“平均”特性,會(huì)使得它的方差減小,而且方差的減小補(bǔ)償了偏差的增大,因此總體而言是對(duì)故障模型更好的處理。
將設(shè)計(jì)的自監(jiān)督學(xué)習(xí)框架與其他分類算法進(jìn)行對(duì)比,對(duì)比算法為支持向量機(jī)(Support vector machine, SVM),決策樹(Decision Tree),BP神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network,BPNN),隨機(jī)森林(Random Forest,RF),卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)以及循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)。除本文提出的自監(jiān)督學(xué)習(xí)框架外,其他的模型均采有有標(biāo)簽數(shù)據(jù)集進(jìn)行模型訓(xùn)練,數(shù)據(jù)如3.1節(jié)所描述。使用四個(gè)常見的評(píng)價(jià)指標(biāo):準(zhǔn)確率(Accuracy)、精準(zhǔn)率(Precision)、以及召回率(Recall)對(duì)各個(gè)算法的性能進(jìn)行分析,公式如下:
式中,True Positive(真正,)表示將正類預(yù)測為正類的數(shù)目、True Negative(真負(fù),)表示將負(fù)類預(yù)測為負(fù)類的數(shù)目、False Positive(假正,)表示將負(fù)類預(yù)測為正類的數(shù)目、False Negative(假負(fù),)表示將正類預(yù)測為負(fù)類的數(shù)目。
本文中,訓(xùn)練?測試重復(fù)實(shí)驗(yàn) 30 次,最終以平均準(zhǔn)確率、平均精確率和平均召回率作為模型的性能指標(biāo),以降低隨機(jī)性對(duì)分類模型的干擾。表10表示各個(gè)分類模型的性能。SVM模型然在解決小樣本、非線性的數(shù)據(jù)分類問題中具有優(yōu)勢,但是在本文研究的船舶柴油發(fā)電機(jī)故障診斷中,效果較差,分類準(zhǔn)確率僅僅為48.27%,這是由于本文采集的柴油機(jī)振動(dòng)信號(hào)緯度較高,超高緯度數(shù)據(jù)在對(duì)SVM模型訓(xùn)練時(shí),參數(shù)不能得到最優(yōu)解,因此分類效果最差。DT模型作為弱分類器,在這次的故障診斷任務(wù)中效果同樣較差,各性能指標(biāo)均達(dá)不到50%。RF模型的分類效果要好于SVM模型、DT模型和BPNN模型,這是由于RF模型是集成學(xué)習(xí)模型,通過集成多個(gè)決策樹模型來訓(xùn)練得到一個(gè)性能更高的強(qiáng)分類模型,其準(zhǔn)確率、精準(zhǔn)率和召回率可以分別到達(dá)81.78%、82.72%和81.62%。針對(duì)振動(dòng)信號(hào)這種高緯數(shù)據(jù),深度學(xué)習(xí)發(fā)揮了比傳統(tǒng)機(jī)器學(xué)習(xí)模型更加的性能。CNN模型和RNN模型可以達(dá)到85%以上的準(zhǔn)確率,性能遠(yuǎn)遠(yuǎn)高于傳統(tǒng)的機(jī)器學(xué)習(xí)模型,其中,CNN模型性能要優(yōu)于RNN模型,其準(zhǔn)確率、精準(zhǔn)率和召回率可到達(dá)87.12%、88.79%和89.01%。但是,由于本文柴油機(jī)發(fā)電機(jī)的標(biāo)簽數(shù)據(jù)集樣本過少,通過小樣本數(shù)據(jù)對(duì)深度學(xué)習(xí)模型進(jìn)行訓(xùn)練,而深度學(xué)習(xí)模型需要大量的數(shù)據(jù)進(jìn)行參數(shù)調(diào)優(yōu),因此模型訓(xùn)練效果較差,不能對(duì)柴油發(fā)電機(jī)的運(yùn)行狀態(tài)進(jìn)行精確識(shí)別。本文提出的自監(jiān)督學(xué)習(xí)框架,通過設(shè)計(jì)的卷機(jī)神將網(wǎng)絡(luò)編碼器,對(duì)標(biāo)簽數(shù)據(jù)進(jìn)行特征提取,再對(duì)隨機(jī)森林分類器進(jìn)行訓(xùn)練。該模型的比單一的隨機(jī)森林分類器的性能提高眾多,各性能指標(biāo)均提高了超過了10%。同時(shí),該自監(jiān)督學(xué)習(xí)模型對(duì)比深度學(xué)習(xí)模型也有了一定的性能提升,通過采集的無監(jiān)督數(shù)據(jù)進(jìn)行訓(xùn)練編碼器,進(jìn)而對(duì)數(shù)據(jù)進(jìn)行信息重表征,大大減少了有標(biāo)簽數(shù)據(jù)集數(shù)量的需要,彌補(bǔ)了深度學(xué)習(xí)模型需要大量數(shù)據(jù)集數(shù)量的弊端,最終的準(zhǔn)確率,精準(zhǔn)率和召回率可達(dá)到93.15%,93.29%和92.68%,各個(gè)模型性能指標(biāo)如表3所示。
表3 不同分類模型的性能指標(biāo)
為了進(jìn)一步驗(yàn)證本文提出的自監(jiān)督學(xué)習(xí)框架性能,通過改變不同訓(xùn)練集樣本數(shù)量,來分析各個(gè)模型的分類準(zhǔn)確率。不同訓(xùn)練樣本數(shù)量下的各模型準(zhǔn)確率如圖4所示。SVM模型和DT模型隨著訓(xùn)練樣本數(shù)量的增多,其性能并沒有明顯的提升。但是隨著訓(xùn)練樣本的增多,BPNN、RF、CNN、RNN等模型的性能均有一定程度的提高。其中,BPNN模型性能提升最為明顯,由60.39%提升至78.32%。本文使用的CNN模型和RNN模型在訓(xùn)練樣本數(shù)量達(dá)到250后,其性能也有了明顯的提升,分別可達(dá)到93.96%和94.91%。該實(shí)驗(yàn)證明,有標(biāo)簽數(shù)據(jù)樣本數(shù)量的增多,可以極大程度上提升分類模型的性能。本文提出的自監(jiān)督學(xué)習(xí)框架,在有標(biāo)簽訓(xùn)練樣本數(shù)量增多后,其性能也有了一定程度的提高。當(dāng)訓(xùn)練樣本達(dá)到300時(shí),其分類準(zhǔn)確率可達(dá)到96.83%。
圖4 不同訓(xùn)練樣本數(shù)量下的分類模型準(zhǔn)確率
針對(duì)船舶柴油發(fā)電機(jī)采集的狀態(tài)數(shù)據(jù)大多數(shù)為無標(biāo)簽數(shù)據(jù),有標(biāo)簽數(shù)據(jù)僅僅是小樣本數(shù)據(jù)的問題,提出了基于自監(jiān)督學(xué)習(xí)框架的船舶柴油發(fā)電機(jī)故障診斷,將采集到的有標(biāo)簽數(shù)據(jù)集和無監(jiān)督數(shù)據(jù)集對(duì)分類模型進(jìn)行聯(lián)合訓(xùn)練。通過設(shè)計(jì)輔助任務(wù)標(biāo)簽,挖掘無標(biāo)簽數(shù)據(jù)樣本中的特征表征作為監(jiān)督信息,從而提高模型的特征提取能力。實(shí)驗(yàn)證明,在采集的柴油機(jī)發(fā)電機(jī)狀態(tài)數(shù)據(jù)大量是無標(biāo)簽數(shù)據(jù)集的情況下,本文提出的自監(jiān)督學(xué)習(xí)框架可提升分類模型的性能,模型具有更高的準(zhǔn)確率,精確率和召回率,減少了對(duì)標(biāo)簽數(shù)據(jù)依賴。研究具有較強(qiáng)工程應(yīng)用價(jià)值。
[1] 王瑞涵, 陳輝, 管聰, 基于機(jī)器學(xué)習(xí)的船舶機(jī)艙設(shè)備狀態(tài)監(jiān)測方法[J]. 中國艦船研究, 2021, 16(01): 158-167.
[2] 吉哲, 張松濤, 代春明. 基于機(jī)器學(xué)習(xí)的艦船機(jī)電裝備故障診斷[J]. 船電技術(shù), 2022, 42(2): 4.
[3] Yu X, Zhao Z, Zhang X, 等. Deep-learning-based open set fault diagnosis by extreme value theory[J]. IEEE Transactions on Industrial Informatics, 2022, 18(1): 185-196.
[4] 史家輝, 郝小慧, 李雁妮. 一種高效的自監(jiān)督元遷移小樣本學(xué)習(xí)算法[J]. 西安電子科技大學(xué)學(xué)報(bào), 2021, 48(6): 9.
[5] 劉云鵬, 和家慧, 許自強(qiáng), 劉一瑾, 王權(quán), 楊寧, 韓帥, 結(jié)合AdaBoost和代價(jià)敏感的變壓器故障診斷方法[J]. 華北電力大學(xué)學(xué)報(bào)(自然科學(xué)版): 1-9.
[6] Chen H, Jiang B, Lu N. A newly robust fault detection and diagnosis method for high-speed trains[J]. IEEE Transactions on Intelligent Transportation Systems, 2019, 20(6): 2198-2208.
[7] 劉云鵬, 許自強(qiáng), 和家慧, 王權(quán), 高樹國, 趙軍. 基于條件式Wasserstein生成對(duì)抗網(wǎng)絡(luò)的電力變壓器故障樣本增強(qiáng)技術(shù)[J]. 電網(wǎng)技術(shù), 2020(04 vo 44): 1505-1513.
[8] 吳蘭, 王涵, 李斌全, 等. 基于自監(jiān)督任務(wù)的多源無監(jiān)督域適應(yīng)法[J]. 浙江大學(xué)學(xué)報(bào): 工學(xué)版, 2022, 56(4): 10.
[9] Chen T, Kornblith S, norouzi M, 等. A simple framework for contrastive learning of visual representations[M]. ArXiv, 2020[2022-06-01].
[10] 王瑞涵, 陳輝, 管聰. 隨機(jī)卷積神經(jīng)網(wǎng)絡(luò)的內(nèi)燃機(jī)健康監(jiān)測方法研究[J]. 振動(dòng)工程學(xué)報(bào), 2021, 34(04): 849-860.
Research on the fault diagnosis of the marine diesel generator based on self-supervised learning framework
Hu Jimin1, Luo Meijie2
(1. No. 1 Military Representative Office of the Navy in Shanghai District, Shanghai, 201913,China; 2. Naval research Institute, Shanghai, 200030, China)
U672
A
1003-4862(2022)09-0019-06
2022-06-03
胡繼敏(1985-),男,博士研究生,工程師。研究方向:艦船動(dòng)力系統(tǒng)保障技術(shù)。E-mail: hujimin85111@163.com