李志遠,黃亦翔,劉成良,李彥明,貢 亮
(上海交通大學機械系統(tǒng)與振動國家重點實驗室,上海 200240)
液壓泵是液壓系統(tǒng)的主要動力元件,被廣泛應用于各種機械設備中。液壓泵的健康狀態(tài)對于液壓系統(tǒng)的正常工作具有重要的影響,而設備運行的穩(wěn)定性、可靠性和液壓系統(tǒng)密切相關[1]。掌握液壓泵健康狀態(tài)也有助于視情況進行檢測維修,提高經濟效益。因此對液壓泵進行健康狀態(tài)的準確評估,對工程設備具有重要的現(xiàn)實意義。
目前,液壓泵的健康評估主要是基于設備的振動信號進行分析的,而其他信號,比如壓力、流量等信號僅僅是作為系統(tǒng)狀態(tài)的一個參考指標,沒有直接用于健康評估。Ding等[2]基于邏輯回歸和Softmax回歸,采集液壓泵實時振動信號,進行液壓泵的實時健康監(jiān)測和故障診斷。Hancock等[3]基于小波包對葉片泵振動信號進行特征提取,使用自適應神經模糊推理系統(tǒng)進行泵的健康狀態(tài)分類。Gao等[4]運用小波分析技術進行柱塞泵的實時健康診斷。鄭直等[5]運用小波包技術對軸向柱塞泵振動信號進行分解重構,使用Hilbert包絡解調技術提取故障信號,最終利用信息熵方法進行健康狀態(tài)評估。路廣勛等[6]使用云重心法進行液壓泵健康狀態(tài)評估。王浩任等[7]使用小波包提取柱塞泵振動信號特征,通過拉普拉斯特征映射方法實現(xiàn)柱塞泵健康評估。
綜上所述,對于液壓泵的健康評估主要采用振動信號,或者振動信號結合其他信號進行分析,而液壓泵的動態(tài)壓力信號,和振動信號一樣,包含了豐富的狀態(tài)信息,可以直接用于液壓泵的健康評估中。
經驗模態(tài)分解(EMD)用于處理非線性、非平穩(wěn)信號,是一種自適應信號時頻處理方法[8]。經過EMD分解,將原始信號分解成一組有限個本征模態(tài)函數(shù)(IMF)和一個殘余分量,各IMF分量包含了原始信號不同時間尺度的局部特征,實現(xiàn)了非平穩(wěn)信號的平穩(wěn)化。相對于傳統(tǒng)的傅里葉變換和小波變換,EMD方法具有自適應性時頻分析的特性,可以很好地避免噪聲信號干擾。
深度森林算法[9](Deep Forest)是周志華教授和馮霽博士提出的一種基于樹的深度模型,其中提出的多粒度級聯(lián)森林(gcForest)方法是一種新的決策樹集成方法,是傳統(tǒng)森林模型在廣度和深度上的集成,其效果可以與深度神經網絡相媲美,同時具有訓練速度快、參數(shù)量少、效率高等優(yōu)點。
本文提出一種基于EMD和深度森林的液壓泵健康評估方法。首先,通過不同工作時間下液壓泵的性能試驗,采集液壓泵出口壓力信號。然后,使用經驗模態(tài)分解將壓力信號分解為一組本征模態(tài)函數(shù)(IMF),計算各IMF的能量,結合典型時域特征構成信號的特征向量。采用深度森林的方法進行健康狀態(tài)監(jiān)測的分類。
隨著液壓泵工作時間的推移,其健康狀態(tài)逐漸惡化。隨著液壓泵的泄露量越來越大,以及壓力損失的增大,其出口壓力會有顯著的變換,壓力變得更加不穩(wěn)定。這說明不同工作時間下的液壓泵出口壓力包含了豐富的健康狀態(tài)特征指標。因此,在試驗環(huán)境下采集液壓泵出口壓力信號,經數(shù)據清洗和時域分割之后進行特征提取,得到對應的特征空間,最后通過深度森林評估器進行健康狀態(tài)的分類評估。液壓泵健康評估流程如圖1所示。
圖1 液壓泵健康評估流程
經驗模態(tài)分解可以將復雜信號分解成若干個不同頻率的本征模態(tài)函數(shù)分量之和,是一種自適應的信號分析方法。其中本征模態(tài)函數(shù)必須滿足:在整個時間范圍內,極值點(極大值和極小值)的數(shù)目和過零點的數(shù)目必須相等或者相差不超過1個;在任意時刻,由極大值形成的上包絡線和極小值形成的下包絡線的均值為零。
EMD方法是通過一種稱為"篩分"的過程實現(xiàn)對信號的分解,將原始信號分解為若干個IMF和一個殘余分量rk(t),對給定信號x(t),其過程如下[10]:
a.找到x(t)的所有局部極大值并用三次樣條插值擬合形成上包絡線s+(t) ,找到x(t)的所有局部極小值并用三次樣條插值擬合形成下包絡線s-(t)。
b.計算第i次迭代的上下包絡線的均值mk,i(t)為
(1)
c.用x(t)減去上下包絡線的均值,得到剩余信號ck(t)為
ck(t)=x(t)-mk,i(t)
(2)
判斷此時的ck(t)是否滿足IMF的2個條件,若不滿足,則跳過步驟d和步驟e,把ck(t)作為待處理信號,從步驟a繼續(xù)進行迭代。
d.若ck(t)滿足IMF的2個條件,此時的ck(t)為第k個IMF分量,得到新的剩余信號rk(t)為
rk(t)=rk-1(t)-ck(t)
(3)
其中,r0(t)=x(t)。
e.當rk(t)為單調函數(shù)或者ck(t)小于某一閾值時,循環(huán)終止。否則把rk(t)作為待處理信號,從步驟a繼續(xù)進行迭代。
此時,原始信號x(t)可以表示為n個IMF分量與殘余分量之和,即
(4)
c1(t),c2(t),…,cn(t)分別為各階IMF分量,代表了信號從高到低不同頻段的成分,包含了原信號不同時間尺度的局部特征。rn(t)為信號的殘余分量,代表信號的平均趨勢。
近年來深度學習在各個領域取得了突飛猛進的發(fā)展,而幾乎所有的深度學習的應用都是建立在深度神經網絡(DNNs)的基礎上。然而,深度神經網絡仍然存在很多問題。比如超參數(shù)過多、結構復雜、訓練困難、需要大量數(shù)據進行訓練以及模型難以解釋等問題。周志華等提出的多粒度級聯(lián)森林(gcForest)算法,是一種非神經網絡的深度模型。其超參數(shù)少,易于訓練,可用于不同大小的數(shù)據集。
隨機森林是由Breiman等[11]提出的機器學習算法,隨機森林算法以決策樹為基學習器構建Bagging集成,是Bagging算法的擴展變體,在決策樹的生成過程中引入了隨機屬性選擇。隨機森林的結構如圖2所示。
圖2 隨機森林結構
隨機森林主要有以下幾個步驟。
a.設要構建的森林規(guī)模大小為T。利用Bagging算法對訓練樣本集D進行重采樣生成T個訓練樣本集D1,D2,…,DT。
b.對每個訓練樣本集Di(i=1,2,…,T)生成1個決策樹,一共生成T個決策樹。單個決策樹的生長過程如下:對決策樹的每個結點,先從該結點的屬性集合(假定該結點有d個特征屬性)中隨機選擇1個包含k個屬性(k?d)的集合作為備選特征,然后按照結點不純度最小的原則從這個子集中選擇1個最優(yōu)特征分裂生長。重復上述操作,不進行剪枝操作,使決策樹充分生長,最終使每個結點的不純度達到最小。一般情況推薦k值取值為[9]
k=log2d
(5)
c.步驟b生成的T個決策樹構成隨機森林,各個決策樹分別對預測集進行分類預測,分類結果進行簡單投票法得到最終的結果,即得票數(shù)最多的類為預測集的最終分類結果。隨機森林的投票公式為
(6)
H(x)為組合分類模型;hi為單個決策樹分類器;I(·)為示性函數(shù);Y為輸出變量。
gcForest算法主要包括多粒度掃描(Multi-Grained Scanning)和級聯(lián)森林結構(Cascade Forest Structure)2個部分。
3.2.1 多粒度掃描
借鑒DNNs在處理特征關系的啟發(fā),以及類似在語音等時序信號的滑動窗口的技巧,gcForest使用多粒度掃描結構。該結構使用多種不同大小的窗口進行采樣,從而獲取更多差異性的子樣本,然后分別使用隨機森林和完全隨機森林進行訓練,使用輸出的類別向量進行拼接得到最終的轉換特征。多粒度掃描的結構如圖3所示。
圖3 多粒度掃描結構
使用一個滑動窗口為例,介紹具體過程。原始輸入特征為d維特征向量,設使用的滑動窗口大小為k維(一般可取k為d/4,d/8,d/16等),滑動步長為s(一般取1)。則通過滑動窗口可以得到的特征子樣本實例個數(shù)為
(7)
然后對每個子樣本實例進行訓練,分別使用普通隨機森林和完全隨機森林2種模型進行訓練。每個森林模型訓練后可以得到一個c維(c為類別數(shù))類別概率向量,一共得到2m個類別概率向量。最后將這些類別向量拼接起來,即可以得到最終的對應于原始d維特征向量的2×m×c維轉換特征向量。
3.2.2 級聯(lián)森林
DNNs的表示學習依賴于特征的逐層處理,由此啟發(fā),gcForest采用和深度神經網絡類似的層級結構,使用級聯(lián)森林,接收森林的前一層作為輸入,輸出作為森林的下一層輸入。級聯(lián)森林的結構如圖4所示。
圖4 級聯(lián)森林結構
將上述多粒度掃描過程得到的最終轉換特征向量作為級聯(lián)森林的輸入,并和每層隨機森林的輸出的類別向量結果進行拼接作為下一層的輸入,依次進行有監(jiān)督學習。由圖4可以看出,該結構的每一層由多個普通隨機森林和完全隨機森林組成,同時每個隨機森林又是多個決策樹組成,因此這種結構是一種“集成的集成”。每層2種不同的隨機森林增加了模型集成的多樣性,多個森林的結合可以充分利用特征的差異和互補,更好地表征特征信息。
由上述級聯(lián)森林結構可知,模型的集合能力較強,有發(fā)生過擬合的風險,因此在級聯(lián)森林的每一層的每個森林的訓練過程中均采用了k折交叉驗證。具體來說,每個樣本實例將作為k-1次訓練數(shù)據、k-1次測試數(shù)據,最終會產生k-1個結果類別向量,將這些類別向量的平均值作為森林的輸出結果,輸出給下一級的級聯(lián)結構。此外,該級聯(lián)結構還可以自動確定訓練層數(shù),具體方法如下:取一定比例的樣本作為訓練集,其余的作為驗證集。使用訓練集在每層級聯(lián)結構上進行訓練,同時在新的級聯(lián)層訓練完成之后,使用驗證集評估整個級聯(lián)的性能,如果該層相較于前層性能有所提升,則繼續(xù)進行訓練,如果沒有明顯的性能提升,則訓練過程終止,并確定前一層為最優(yōu)訓練層數(shù)。因此和深度神經網絡層數(shù)固定不同,深度森林可以自適應地選取網絡層數(shù),適用于不同規(guī)模的數(shù)據集。
液壓泵測試試驗系統(tǒng)如圖5所示,試驗系統(tǒng)參考GB/T 23253—2009 《液壓傳動 電控液壓泵 性能試驗方法》國家標準進行搭建,試驗裝置主要包括電機、待測液壓泵、溢流閥、油箱、壓力傳感器等,試驗使用的液壓泵為川崎K3V系列斜盤式軸向柱塞泵。壓力傳感器用于記錄泵1出口壓力值,采樣頻率為12.5 kHz,試驗液壓泵轉速為2 200 r/min。
如表1所示,為液壓泵的實際運行時間與健康狀態(tài)簡記代號。一共有3種不同健康狀態(tài)的液壓泵,分別是:全新的1#泵;使用2 000 h的2#泵;使用3 500 h即將報廢的3#泵。
試驗選取工作時間3 000 h以上的3#柱塞泵進行拆解,各個部件的磨損情況如圖6所示。測量可知柱塞磨損量為0.06 mm,斜盤支撐座的最大磨損量為1.24 mm,最小磨損量為0.22 mm。同時可以看到,斜盤支撐座位于高壓區(qū)的鍍鋅層磨損嚴重,而位于低壓區(qū)的鍍鋅層則磨損較少。 所以由于不同工況的作用,同一部件在不同位置的磨損量也不同。
圖5 液壓泵測試試驗系統(tǒng)
表1 液壓泵簡記代號
圖6 柱塞泵部件磨損情況
每種健康狀態(tài)的液壓泵試驗時間約為800 s,采集壓力信號樣本點超過1 000萬。各個液壓泵的壓力信號圖像如圖7所示。取1#泵、2#泵、3#泵數(shù)據均較平穩(wěn)的一段:160~480 s,共320 s即400萬數(shù)據點。每隔10 000個點作為數(shù)據樣本,每種健康狀態(tài)400個樣本,3種健康狀態(tài)一共1 200個樣本。每種健康狀態(tài)獲取280個訓練集樣本,120個測試集樣本,共獲取840個訓練樣本,360個測試樣本。
圖7 各液壓泵壓力信號圖像
分別對3種健康狀態(tài)的液壓泵的動態(tài)壓力信號數(shù)據樣本進行EMD分解,得到各個樣本IMF分量IMFp={c1,c2,…,cNp},設其IMF分量個數(shù)分別為N1,N2,…,Np,取Nmin=min(N1,N2,…,Np)=8,對各組IMF分量進行截取使得IMFp={c1,c2,…,cNmin},計算截取部分占所有IMF分量能量的比例,計算各個IMF分量的能量:
(8)
計算的結果顯示,絕大部分(97%以上)樣本的能量占比達到98%以上,因此截取的前Nmin階分量包含了信號的絕大部分能量,滿足特征提取要求。
對計算出來的各個IMF分量分別提取特征,包括均值、峰值、峰峰值、整流平均值、均方根值、標準差、波形因子、峰值因子、脈沖因子、裕度因子、峭度、偏度共12維。結合直接計算得到的原始信號的12維時域特征一共108維特征,特征向量采用Z-Score標準化方法進行標準化處理為
(9)
將所有特征向量按列構成最終的特征空間。
采用深度森林算法進行最后的健康狀態(tài)分類,深度森林作為一種深度模型,相比深度學習來說,具有超參數(shù)少,易于調優(yōu)等優(yōu)點。
5.2.1 參數(shù)設置
深度森林的多粒度掃描階段的超參數(shù)主要有森林數(shù)量、森林類型、決策樹數(shù)量、滑動窗口大小以及節(jié)點分裂最小樣本數(shù)等;級聯(lián)森林階段的超參數(shù)主要有森林數(shù)量、森林類型、決策樹數(shù)量和節(jié)點分裂最小樣本數(shù)。首先多粒度掃描和級聯(lián)森林的森林類型均選為完全隨機森林和隨機森林的組合,然后選取多粒度掃描森林數(shù)量為4,級聯(lián)森林決策樹數(shù)量為500,再調整多粒度掃描的決策樹數(shù)量,最后選擇為100。按照經驗選取滑動窗口大小為2,4和8。最后不斷調整2部分的節(jié)點分裂最小樣本數(shù),選擇多粒度掃描階段為8,級聯(lián)森林階段為7。具體參數(shù)設置如表2所示。
表2 深度森林超參數(shù)設置
5.2.2 深度森林分類器的健康狀態(tài)分類
基于深度森林分類器進行健康狀態(tài)分類,使用上述確定的參數(shù),同時使用MLP,SVM和KNN等傳統(tǒng)機器學習算法進行對比。表3、表4和表5分別為1#泵、2#泵、3#泵的分類結果,分別使用召回率、精確率和F1分數(shù)等評價指標進行評價。表6為整體分類結果,分別使用準確率、精確率、召回率和F1分數(shù)等評價指標進行評價。
表3 1#泵分類結果
表4 2#泵分類結果
表5 3#泵分類結果
表6 整體分類結果
從分類結果可以看出,使用gcForest算法各個泵的F1分數(shù)均高于其余3種傳統(tǒng)機器學習算法。如圖8所示,將測試樣本預測標簽和真實標簽進行對比,結果表明健康狀態(tài)分類準確率為97%,明顯高于傳統(tǒng)機器學習算法。
圖8 真實類別與預測類別對比
針對液壓泵健康診斷技術進行了研究,提出了一種基于經驗模態(tài)分解和深度森林的健康評估方法,將深度森林算法引入液壓泵健康評估領域。通過分析泵出口壓力信號,通過經驗模態(tài)分解進行自適應提取壓力信號特征,將得到的特征向量使用深度森林算法進行分類評估,并和傳統(tǒng)機器學習算法進行對比。試驗結果表明,所提方法準確率較高,可有效提高液壓泵健康狀態(tài)評估的準確率,可以用來作為液壓泵健康評估的方法。