徐傳超,劉 月,付經(jīng)倫
(1. 中國科學(xué)院工程熱物理研究所,北京 100190;2. 中國科學(xué)院大學(xué), 北京 100049)
近年來,故障預(yù)測與健康管理(Prognostic and Health Management,PHM)逐漸成為高端裝備研發(fā)的管的重點研發(fā)方向,部件及整機的可維護(hù)性、使用壽命和智能化也逐漸成為產(chǎn)品設(shè)計的重要考量因素。
軸承作為高端裝備中的常用部件,一定場景下針對其建立完善的狀態(tài)監(jiān)測、故障診斷和保護(hù)隔離系統(tǒng)是必要的,其中故障診斷技術(shù)是維持裝備安全穩(wěn)定運行的重要手段[1],受到越來越多的重視。常規(guī)的故障診斷方法有:基于模型分析的方法、基于定性經(jīng)驗知識的方法和基于數(shù)據(jù)驅(qū)動的方法。
傳統(tǒng)的故障診斷方法由于所建立的物理模型的限制,已經(jīng)無法滿足人們的要求,而設(shè)備大量的運行數(shù)據(jù)由于能夠很好地反映設(shè)備運行的狀態(tài)和機理,逐漸被用于故障診斷,基于數(shù)據(jù)驅(qū)動的方法也逐漸成為故障診斷的發(fā)展方向。目前基于數(shù)據(jù)驅(qū)動方法主要包括:統(tǒng)計方法、信號處理和基于人工智能的方法[2],其中,統(tǒng)計方法受限于統(tǒng)計分析理論,其適用范圍較小有限。信號處理技術(shù)是軸承故障分析的重要方法,以傅立葉變換[3]、小波包分析[4]、Hilbert-Huang變換[5]等方法為代表。信號處理方法基于信號分析技術(shù)提取時頻域特征參數(shù)并對系統(tǒng)狀態(tài)進(jìn)行表征,這個過程仍然會有數(shù)據(jù)的信息損失[6]。基于人工智能技術(shù)的故障診斷方法不需要特定數(shù)學(xué)模型,基于足夠的歷史數(shù)據(jù)通過計算機進(jìn)行學(xué)習(xí)、推理和決策等就可以實現(xiàn)故障診斷[7],在眾多基于人工智能技術(shù)的故障診斷方法中,典型的代表有基于人工神經(jīng)網(wǎng)絡(luò)的方法[8]、基于支持向量機的方法[9]和基于模糊邏輯的方法[10]。同時機器學(xué)習(xí)的經(jīng)典分類方法還包括決策樹、隨機森林、極限決策樹等。其中基于人工神經(jīng)和支持向量機的故障診斷方法在利用數(shù)據(jù)的時候,都是將各個故障數(shù)據(jù)當(dāng)作單一時刻多變量對系統(tǒng)狀態(tài)的表征,沒有考慮單一變量在時間尺度上的連續(xù)性,從而丟失時間序列這一表征設(shè)備故障情況的重要特征。利用單一變量的時間序列來判定故障類型可以用統(tǒng)計方法和信號處理方法來解決,但兩種方法都有其自身缺點,所以探索一種基于時間序列且能克服上述兩種方法缺陷的故障診斷方法就很有必要。
Jia Minping[11]等人提出了一種基于時間序列自回歸模型的VPMCD(基于變量預(yù)測模型的模式識別)故障診斷方法,將自回歸參數(shù)作為故障特征量進(jìn)行診斷。何強[12]等人開發(fā)了一種混合時間序列卷積神經(jīng)網(wǎng)絡(luò)模型。對原始信號直接進(jìn)行特征提取。有效地對滾動軸承故障進(jìn)行了分類。劉布宇[13]提出了一種自適應(yīng)深度卷積診斷模型,該模型同時利用了卷積神經(jīng)網(wǎng)絡(luò)和長短時間記憶網(wǎng)路,其中后者被用于時間序列分析功能的實現(xiàn),該方法在實際工況的驗證實驗中表現(xiàn)突出?;诖?,本研究通過對時間序列信號進(jìn)行相關(guān)性計算以保留信號在時間維度的特征,并構(gòu)建表征故障的相關(guān)性矩陣,將其變換為故障特征圖片后再用卷積神經(jīng)網(wǎng)絡(luò)分類實現(xiàn)故障診斷。
本文的研究方法主要用到了格萊姆角場理論(Gramian Angular Field,GAF)和卷積神經(jīng)網(wǎng)絡(luò),通過GAF理論可以將軸承故障信號的時間序列變換為表征其故障情況的圖片,再由卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)強大的圖片識別能力,對所生成的圖片進(jìn)行分類,即間接對軸承故障信號進(jìn)行分類,并結(jié)合機器學(xué)習(xí)常規(guī)分類方法對比分析分類效果。
針對以上問題,本文參考文獻(xiàn)[14],得到將時間序列轉(zhuǎn)化為圖像的方法——格萊姆角場方法,這一方法能夠?qū)⒁粋€變量的時間序列變換為正方形的圖像,圖像中每個像素的橫縱位置信息都代表了對應(yīng)時間序列元素值,像素顏色代表了時間序列對應(yīng)元素之間相關(guān)性,變換過程如圖1。
圖1 GAF變換過程
給定一個n維時間序列X={x1,x2,…,xn},并將值縮放到區(qū)間[-1,1]內(nèi)
(1)
(2)
式中,ti表示元素的時間次序,N表示時間次序的上限,是調(diào)節(jié)極坐標(biāo)系統(tǒng)張成空間的常數(shù)因子。隨著時間的增加,元素值會在極坐標(biāo)系下呈現(xiàn)特殊的形狀。方程(2)的編碼映射具有兩個重要的性質(zhì)。首先,當(dāng)φ∈[0,π]時,這種編碼映射被雙射為cos(φ)是單調(diào)的。給定一個時間序列,該映射在極坐標(biāo)系統(tǒng)中產(chǎn)生有且只有一個結(jié)果,且具有唯一的反函數(shù)。
其次,相比笛卡爾坐標(biāo),極坐標(biāo)能夠保持元素間絕對的時間關(guān)系。
將縮放后的時間序列轉(zhuǎn)換到極坐標(biāo)系后,角度時間序列仍然保留了原有時間序列元素在時間尺度上的關(guān)系,而角度值之間的計算可以量化對應(yīng)元素之間的相關(guān)性。本文用角度和的余弦值來計算元素之間的相關(guān)程度,即使用GASF變換,其定義如下
(3)
(4)
GASF變換保留了時間序列元素的時間相關(guān)性。因為G(i,j||i-j|=k)表示指定時間間隔k后通過間隔延伸方向疊加得到的相關(guān)關(guān)系,在主對角線上,利用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的高層特征可以近似地重構(gòu)時間序列。但是,當(dāng)行時間序列的長度為n時,Gramian矩陣的尺寸為n×n,GASF會變得尺寸很大,不利于計算。分段聚合近似方法(Piecewise Aggregation Approximation,PAA)可以在保持趨勢和平滑時間序列的條件下減小GASF的尺寸,有效地降低后續(xù)工作的計算量,是應(yīng)用“GAF+CNN”方法重要的數(shù)據(jù)預(yù)處理方法。
Le Cun等人受人類大腦生物學(xué)的啟發(fā),于1994年提出了卷積結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò)模型[15,16]。卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)應(yīng)用成熟的網(wǎng)絡(luò)架構(gòu),在計算機視覺領(lǐng)域?qū)崿F(xiàn)了諸多令人意想不到的效果,從原理上,一個標(biāo)準(zhǔn)的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)主要由卷積層、池化層和全連接層等核心層次構(gòu)成。
每一個卷積層由多個卷積核構(gòu)成,每個卷積層的參數(shù)均通過反向傳播的參數(shù)優(yōu)化訓(xùn)練得到,輸入信號的局部區(qū)域經(jīng)過卷積后,通過激活函數(shù)進(jìn)行非線性映射,得到輸入信號的特征,其數(shù)學(xué)表達(dá)如下
(5)
池化層的主要功能是對卷積后的數(shù)據(jù)進(jìn)行降采樣,降低特征空間維度和模型參數(shù)規(guī)模,常用的有最大池化和平均池化。實現(xiàn)分類功能則是將卷積層和池化層提取的圖像特征,與全連接層中定義的權(quán)重參數(shù)相乘,壓縮類別數(shù)個輸出參數(shù),這些輸出參數(shù)代表神經(jīng)網(wǎng)絡(luò)對輸入數(shù)據(jù)所屬類別的概率估計,將概率最大的類別確定為分類結(jié)果。
“GAF+CNN”方法的主要思路是從時間維度用類Gram矩陣計算和評估變量在不同時刻的相關(guān)性進(jìn)而實現(xiàn)故障特征提取,不涉及傅里葉分解和小波分解等非時間維度的分析方法,出于嚴(yán)謹(jǐn)考慮,對照方法也應(yīng) 從時間維度入手。因此對照方法所用的數(shù)據(jù)集由原始軸承故障數(shù)據(jù)進(jìn)行時域特征值計算得到。
結(jié)合前言綜述部分,對照方法選定為支持向量機(Support Vector Machine, SVM)、隨機森林(Random Forest, RF)和決策樹(Decision tree)三個經(jīng)典的故障診斷方法。
支持向量機最開始用于線性可分問題,經(jīng)過改進(jìn),基于核函數(shù)和凸優(yōu)化方法的非線性支持向量機能已經(jīng)能夠很好地解決多分類問題。
隨機森林由于簡單的原理和較低的計算成本,已經(jīng)成為綜合學(xué)習(xí)的一種代表性技術(shù),已經(jīng)應(yīng)用于各種回歸和分類問題。該算法的關(guān)鍵在于,通過引入“隨機特征選擇”, 大大提高了算法的泛化性能。
決策樹算法是常見的機器學(xué)習(xí)方法,基于樣本的屬性進(jìn)行分類,對分類結(jié)果進(jìn)行信息熵計算進(jìn)而評估分類效果。
2.4.1 GAF變換方法設(shè)計
GAF變換方法具有詳細(xì)的數(shù)學(xué)推演過程,這對編程十分有利,結(jié)合python語言對該方法進(jìn)行程序編寫。從軸承故障時間序列數(shù)據(jù)集中提取時間序列并統(tǒng)一時間序列長度,然后調(diào)用Pyts功能包中Image.GramianAngularField方法,在GAF的兩種子方法GASF和GADF中選擇GASF作為二維圖像生成方法,實現(xiàn)時間序列到二維圖像的變換,將得到的圖片保存并做好標(biāo)記從而得到用于故障診斷的圖像數(shù)據(jù)。程序框圖如圖2。
圖2 GAF變換的實現(xiàn)方法
2.4.2 用于圖像分類的卷積神經(jīng)網(wǎng)絡(luò)設(shè)計
基于CNN的故障診斷方法可以看作特征提取與分類兩個步驟, 相比與傳統(tǒng)的基于人工特征的經(jīng)典機器學(xué)習(xí)分類方法,利用卷積核提取特征具有自適應(yīng)性,可以構(gòu)建人工無法構(gòu)建的特征,為分類提供新通道。卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)如圖3所示,使用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)為三個卷積池化單元和一個輸出單元。
圖3 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖
本文所用數(shù)據(jù)來自開源數(shù)據(jù)集,由辛辛那提大學(xué)智能維護(hù)系統(tǒng)中心(IMS)提供。數(shù)據(jù)由軸承試驗臺產(chǎn)生。4個軸承安裝在同一軸上,該軸通過直流電機和皮帶的連接驅(qū)動,測試時軸轉(zhuǎn)速保持2000rpm。通過彈簧機構(gòu)向軸和軸承施加60001b的徑向負(fù)荷。油循環(huán)系統(tǒng)用于調(diào)節(jié)潤滑油的流量和溫度,排除干擾變量。在油反饋管中安裝了磁堵,以收集潤滑油碎片,碎片可以有效評估軸承退化情況。當(dāng)吸附在磁性插頭上的碎片超過一定水平時,采集停止。兩個PCB 353B353高靈敏度石英加速度計安裝在每個軸承上(水平方向和垂直方向各一個)。振動數(shù)據(jù)每20分鐘通過NI DAQ6062E數(shù)據(jù)采集卡采集一次。采樣頻率為20 kHz,數(shù)據(jù)長度為20480個點,數(shù)據(jù)由LabView程序采集,傳感器布局見圖4。
圖4 傳感器布局示意圖
原始數(shù)據(jù)包(IMS-Rexnord Bearing data .zip)中包含三組數(shù)據(jù)。每個數(shù)據(jù)集描述一個從測試到失效的實驗。每個數(shù)據(jù)集由單獨的文件組成,這些文件是按指定間隔記錄的1秒振動信號日志。每個文件包含20480個樣本點,采樣頻率設(shè)置為20 kHz。數(shù)據(jù)文件中的每行記錄都是一個樣本點。
用于驗證的數(shù)據(jù)集是基于原始數(shù)據(jù)包整理得到的有故障標(biāo)記的數(shù)據(jù)集,涉及的軸承狀態(tài)類別包括:初次磨合提前、軸承正常、疑似正在惡化、嚴(yán)重磨損、內(nèi)圈故障、滾動體故障等,分別用數(shù)字0~9標(biāo)記。單個樣本的如圖5。
圖5 時間序列曲線
考慮到當(dāng)時間序列尺寸較長時,計算量巨大,對原始數(shù)據(jù)進(jìn)行降維很重要,本文采用PAA方法,其原理如圖6:
圖6 PAA算法原理示意
作為一種常用的數(shù)據(jù)降維方法,可以在有效降低數(shù)據(jù)規(guī)模的前提下盡可能保留原始數(shù)據(jù)特征,為后續(xù)的計算提供了極大便利。通過對長度為n的序列S=(s1,s2,…,sn)轉(zhuǎn)化為另一條長度為m的序列Q=(q1,q2,…,qm)實現(xiàn)時間序列的數(shù)據(jù)降維和特征表示,其中,n>m, 且令k=n/m。新序列中任意元素qi滿足
(6)
參考方法中決策樹、RF和SVM需要人為設(shè)計特征,時域特征是區(qū)分序列差異的重要指標(biāo),上述參考分類方法的實現(xiàn)就基于以下時域特征值:tf1~tf16,具體含義見表1。
表1 時間序列在時域的特征值
圖7 分類效果比較
本文的卷積神經(jīng)網(wǎng)絡(luò)模型的建立基于Python的Torch深度學(xué)習(xí)庫[17], 電腦硬件配置信息為Intel(R) Xeon(R) W-2133 處理器 8GB內(nèi)存Windows 10系統(tǒng)。按照7:3的經(jīng)驗比例隨機劃分?jǐn)?shù)據(jù)集,得到554個樣本的訓(xùn)練集和238個樣本的測試集。卷積核大小設(shè)置為3×3,保證模型有足夠的特征提取能力,又能夠?qū)崿F(xiàn)快速訓(xùn)練。
在相同的數(shù)據(jù)集下,“GAF+CNN”方法的準(zhǔn)確率在給定經(jīng)驗參數(shù)的條件下為52.5%,隨著時域特征數(shù)量的增加,隨機森林的準(zhǔn)確率出現(xiàn)一定波動,支持向量機的準(zhǔn)確率處于較低水平,決策樹的準(zhǔn)確率先上升后穩(wěn)定。設(shè)置時域特征的個數(shù)為16能夠充分挖掘?qū)φ辗椒ㄔ跁r間維度上的分類能力。在時域特征數(shù)為16的條件下,隨機森林、支持向量機和決策樹的準(zhǔn)確率分別為61.5%、8.4%和90.2%。4種方法的實驗結(jié)果如圖7所示。
實驗結(jié)果表明:在時間維度上,“GAF+CNN”方法分類效果一般,其診斷準(zhǔn)確率低于決策樹,略低于隨機森林,但優(yōu)于支持向量機。
本文實現(xiàn)了一種間接的軸承故障信號分類方法,從時間序列的角度對軸承故障進(jìn)行了分類,驗證了該方法的可行性。該方法具有以下優(yōu)缺點:
優(yōu)點:
1)以時間序列為切入點構(gòu)造特征圖像,,將變量在不同時刻數(shù)值之間的相關(guān)性作為時間尺度的特征,理論上有利于提高軸承故障的診斷精度。
2)變時間為空間,將時序信號轉(zhuǎn)化為圖像,有利于引入深度學(xué)習(xí)先進(jìn)的特征提取方法和分類方法,進(jìn)而提高故障診斷的準(zhǔn)確度。
3)本文考察的方法是單變量時間序列分類方法,可以作為多變量時間序列分類方法的基礎(chǔ)方法,工程應(yīng)用場景需要解決的主要問題是多變量時間序列分類問題,所以本文考察的方法具有明晰的應(yīng)用價值。
缺點:
1)從結(jié)果上看,該方法的分類效果不是很理想,還需要進(jìn)一步挖掘方法的性能。
2)GAF+CNN方法的特征提取環(huán)節(jié),利用了神經(jīng)網(wǎng)絡(luò)自適應(yīng)的特點,會受限于神經(jīng)網(wǎng)絡(luò)本身的特征提取原理,在本文的數(shù)據(jù)集上遜色于人為設(shè)計的時域特征。
3)GAF圖像變換過程和PAA序列近似過程不可避免地會有信息損失,不利于后續(xù)的特征提取和分類工作。