王瑞涵,陳輝*,管聰
1 武漢理工大學(xué) 能源與動(dòng)力工程學(xué)院,湖北 武漢 430063
2 武漢理工大學(xué) 高性能艦船技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430063
機(jī)艙是船舶的心臟,其中機(jī)艙設(shè)備的工作狀態(tài)對(duì)船舶安全高效運(yùn)行至關(guān)重要。在船舶設(shè)計(jì)制造領(lǐng)域,船舶自動(dòng)化的推進(jìn)和發(fā)展在很大程度上體現(xiàn)在機(jī)艙自動(dòng)化程度的提高上。隨著計(jì)算機(jī)技術(shù)和通信技術(shù)的發(fā)展,船舶機(jī)艙設(shè)備與系統(tǒng)逐漸實(shí)現(xiàn)了自動(dòng)化,并向智能化方向發(fā)展[1-3]。機(jī)艙設(shè)備傳統(tǒng)的故障方法是基于物理模型的方法(建立物理或數(shù)學(xué)模型)、基于經(jīng)驗(yàn)?zāi)P偷姆椒ǎ▽<蚁到y(tǒng)和故障樹(shù)分析)、基于可靠性模型的方法(貝葉斯方法和可靠性評(píng)估),對(duì)故障的診斷主要依靠操作人員的經(jīng)驗(yàn),需要依賴專家知識(shí)對(duì)復(fù)雜的對(duì)象設(shè)備進(jìn)行建模。由于現(xiàn)代船舶在不同工況下的狀態(tài)監(jiān)測(cè)信息量巨大且變化迅速,無(wú)法對(duì)船舶機(jī)艙設(shè)備建立精準(zhǔn)的物理或數(shù)學(xué)模型,傳統(tǒng)的故障監(jiān)測(cè)方法很難對(duì)船舶機(jī)艙設(shè)備狀態(tài)做出準(zhǔn)確診斷。因此,傳統(tǒng)的故障監(jiān)測(cè)方法已不能適應(yīng)智能機(jī)艙的需要。智能機(jī)艙是利用傳感器等設(shè)備感知技術(shù),來(lái)對(duì)機(jī)艙設(shè)備進(jìn)行狀態(tài)監(jiān)測(cè)?;跈C(jī)器學(xué)習(xí)的智能故障監(jiān)測(cè)方法是以狀態(tài)監(jiān)測(cè)數(shù)據(jù)為對(duì)象,利用各種人工智能算法提取監(jiān)測(cè)數(shù)據(jù)中的有效信息,來(lái)及時(shí)發(fā)現(xiàn)機(jī)械設(shè)備的潛在故障,不需要對(duì)象系統(tǒng)的先驗(yàn)知識(shí)。與傳統(tǒng)的故障監(jiān)測(cè)方法相比,基于機(jī)器學(xué)習(xí)的智能故障監(jiān)測(cè)方法能夠有效、準(zhǔn)確、迅速地處理大量船舶機(jī)艙中采集的狀態(tài)監(jiān)測(cè)信息,并能得到更加可靠的狀態(tài)診斷結(jié)果,該過(guò)程大大減少了人為因素對(duì)故障監(jiān)測(cè)過(guò)程的參與。
伴隨著機(jī)器學(xué)習(xí)算法的發(fā)展,基于機(jī)器學(xué)習(xí)的故障監(jiān)測(cè)方法已成為研究熱點(diǎn)。機(jī)器學(xué)習(xí)算法已被廣泛應(yīng)用于船舶機(jī)艙設(shè)備的故障診斷領(lǐng)域。宮文峰等[4-5]利用數(shù)據(jù)增強(qiáng)和Dropout 技術(shù)對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行改善,提高了船舶中軸承系統(tǒng)的故障診斷精度,其使用支持向量機(jī)替代softmax 分類器,使得改進(jìn)的CNN-SVM 算法的故障診斷準(zhǔn)確率達(dá)99.86%。尚前明等[6]將主成分分析(PCA)技術(shù)、K-均值聚類技術(shù)和BP 神經(jīng)網(wǎng)絡(luò)進(jìn)行融合,大大降低了原始數(shù)據(jù)的復(fù)雜度,提高了BP 神經(jīng)網(wǎng)絡(luò)的性能,該多信息融合技術(shù)被應(yīng)用于船舶柴油機(jī)的故障診斷,大大提高了故障識(shí)別率。Gong 等[7]設(shè)計(jì)了一種新型卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(CNN-GAP),用于實(shí)現(xiàn)對(duì)船舶DC-DC 變換器的故障診斷。仲國(guó)強(qiáng)等[8]提出了一種基于限制性玻爾茲曼機(jī)的深度信念網(wǎng)絡(luò),用于實(shí)現(xiàn)對(duì)船用柴油機(jī)的智能診斷,測(cè)試集故障識(shí)別率可達(dá)98.61%。劉國(guó)強(qiáng)等[9]結(jié)合粗糙集理論、優(yōu)化有向無(wú)環(huán)圖和支持向量機(jī)對(duì)船舶主機(jī)進(jìn)行故障診斷,提高了分類準(zhǔn)確度,減少了測(cè)試時(shí)間。同時(shí),支持向量機(jī)(support vector machine, SVM)、神經(jīng)網(wǎng)絡(luò)(neural network, NN)和隨機(jī)森林(random forest)等機(jī)器學(xué)習(xí)算法也在其他工業(yè)領(lǐng)域中得到廣泛應(yīng)用。Konar等[10]結(jié)合連續(xù)小波變化技術(shù)與支持向量機(jī)技術(shù)對(duì)電動(dòng)機(jī)軸承故障進(jìn)行檢測(cè),提高了監(jiān)測(cè)精度和速度。基于機(jī)器學(xué)習(xí)算法的故障監(jiān)測(cè)方案減少了對(duì)目標(biāo)設(shè)備先驗(yàn)知識(shí)的依賴,以狀態(tài)監(jiān)測(cè)數(shù)據(jù)為對(duì)象,估計(jì)對(duì)象系統(tǒng)的實(shí)時(shí)狀態(tài),實(shí)現(xiàn)了工業(yè)大數(shù)據(jù)下故障特征的自適應(yīng)提取和智能診斷。
上述故障診斷方法需要大量的正常與故障狀態(tài)數(shù)據(jù)對(duì)診斷模型進(jìn)行訓(xùn)練。然而,由于故障狀態(tài)對(duì)船舶機(jī)艙設(shè)備的工作性能造成巨大傷害,設(shè)備不可能長(zhǎng)時(shí)間處于故障工況進(jìn)行數(shù)據(jù)采集,導(dǎo)致缺乏足夠的樣本故障數(shù)據(jù)來(lái)訓(xùn)練故障診斷模型。因此,對(duì)于船舶機(jī)艙設(shè)備的故障診斷,需借助異常點(diǎn)監(jiān)測(cè)技術(shù)。根據(jù)異常點(diǎn)監(jiān)測(cè)技術(shù)的原理,只需將正常狀態(tài)下的樣本數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,然后通過(guò)將故障狀態(tài)樣本數(shù)據(jù)定義為與正常工況樣本偏差的異常點(diǎn),即可進(jìn)行故障監(jiān)測(cè)。異常點(diǎn)監(jiān)測(cè)技術(shù)主要包括單分類支持向量機(jī)(oneclass SVM)、局部異常因子(LOF)、最鄰近算法(nearest neighbor)和魯棒性協(xié)方差估計(jì)(robust covariance,RC)等。Bicego 等[11]通過(guò)聚類算法設(shè)計(jì)新型單分類加權(quán)支持向量機(jī),提高了監(jiān)測(cè)的魯棒性。Diez-Olivan 等[12]采用局部異常因子結(jié)合K-均值算法和模糊建模方法,對(duì)船用柴油機(jī)進(jìn)行故障監(jiān)測(cè),大大提高了監(jiān)測(cè)性能。Zhang 等[13]提出了一種基于角度的空間來(lái)選擇有用的特征子空間的方法,以提高對(duì)高維數(shù)據(jù)異常監(jiān)測(cè)的精度。本文擬采用孤立森林 (isolation forest, iforest)算法對(duì)船舶機(jī)艙設(shè)備進(jìn)行故障監(jiān)測(cè)。孤立森林是一種典型的采用集成學(xué)習(xí)策略的異常監(jiān)測(cè)技術(shù),其通過(guò)集成學(xué)習(xí)將多個(gè)異常監(jiān)測(cè)決策樹(shù)組合在一起,并融合多個(gè)子學(xué)習(xí)器的監(jiān)測(cè)結(jié)果,共同完成對(duì)異常點(diǎn)的監(jiān)測(cè)任務(wù),以有效提高故障監(jiān)測(cè)的穩(wěn)定性和準(zhǔn)確度[14]。
船舶機(jī)艙設(shè)備的狀態(tài)監(jiān)測(cè)數(shù)據(jù)是包括多種熱力參數(shù)的高維數(shù)據(jù)。這種高維特征數(shù)據(jù)容易導(dǎo)致異常監(jiān)測(cè)算法陷入維數(shù)災(zāi)難,還會(huì)使故障監(jiān)測(cè)模型失效,從而達(dá)不到最優(yōu)的監(jiān)測(cè)結(jié)果。在故障監(jiān)測(cè)之前,特征選擇是一種非常有效的信息提取技術(shù)。其中,流形學(xué)習(xí)(manifold learning)是目前數(shù)據(jù)特征選擇的常用方法之一[15]。流形學(xué)習(xí)是通過(guò)在高維空間中建立降維映射關(guān)系,然后將低維流形嵌入原始數(shù)據(jù)的高維空間中來(lái)對(duì)其進(jìn)行維度轉(zhuǎn)換[15]。本文將探討多維尺度分析(multi-dimensional scaling, MDS)、局部線性嵌入(locally linear embedding,LLE)和t 分布隨機(jī)鄰域嵌入(TSNE)等流形學(xué)習(xí)方法,以融合特征的方式從原始數(shù)據(jù)中提取有效信息,將高維數(shù)據(jù)降至兩維。將融合后的兩維特征輸入至孤立森林模型中,以為數(shù)據(jù)的高效處理提供可能。本文將以船用二沖程柴油機(jī)為例,在Matlab/Simulink 環(huán)境下建立船舶柴油機(jī)仿真模型,以產(chǎn)生柴油機(jī)狀態(tài)信息數(shù)據(jù)。然后通過(guò)流形學(xué)習(xí)對(duì)高維度的狀態(tài)信息數(shù)據(jù)進(jìn)行預(yù)處理,降低數(shù)據(jù)維度和數(shù)據(jù)復(fù)雜度,并將處理好的數(shù)據(jù)輸入至孤立森林模型,實(shí)現(xiàn)對(duì)船舶柴油機(jī)的故障監(jiān)測(cè)。
本節(jié)將詳細(xì)描述流形學(xué)習(xí)和孤立森林的算法原理,通過(guò)Python 語(yǔ)言建立基于機(jī)器學(xué)習(xí)的故障監(jiān)測(cè)模型。通過(guò)使用numpy,pandas 和scikit-learn等的數(shù)據(jù)包和數(shù)據(jù)庫(kù),為基于流形學(xué)習(xí)和孤立森林的故障監(jiān)測(cè)模型提供方便。
流形是拓?fù)鋵W(xué)中的一個(gè)概念,表示的是一個(gè)局部的拓?fù)淇臻g,并且該空間具有歐幾里德特性,即它是一個(gè)由空間中的點(diǎn)構(gòu)成的集合。流形可以簡(jiǎn)單地理解為是將二維空間的曲線、三維空間的曲面向更高維度空間的推廣。流形學(xué)習(xí)的主要思想是將高維數(shù)據(jù)映射到低維,使該低維數(shù)據(jù)能夠反映原高維數(shù)據(jù)的某些本質(zhì)結(jié)構(gòu)特征。流形學(xué)習(xí)的前提是假設(shè)高維數(shù)據(jù)實(shí)際是由一種低維的流形結(jié)構(gòu)嵌入高維空間中得到的。流形學(xué)習(xí)的目的是將其映射回低維空間中,從而實(shí)現(xiàn)對(duì)原始數(shù)據(jù)維數(shù)的簡(jiǎn)約化和可視化。在故障監(jiān)測(cè)中,流形學(xué)習(xí)作為數(shù)據(jù)預(yù)處理的關(guān)鍵步驟,可起到降低原始數(shù)據(jù)維數(shù)和提取數(shù)據(jù)特征的作用。
1.1.1 多維尺度分析
多維尺度分析是一種無(wú)監(jiān)督的線性降維方法,其利用成對(duì)樣本間的相似性來(lái)構(gòu)建合適的低維空間,以使樣本在此空間的距離和在高維空間中距離的相似性盡可能保持一致。約簡(jiǎn)后,低維空間中任意兩點(diǎn)間的距離應(yīng)該與它們?cè)谠呔S空間中的距離相同。假設(shè)p維空間中有n個(gè)點(diǎn),組成矩陣X={x1,x2,···,xi,···,xj,···,xn},xn∈Rp,表示x在R空間中的維數(shù)為p。2 個(gè)點(diǎn)之間的歐氏距離滿足以下公式:
1.1.2 局部線性嵌入
局部線性嵌入(locally linear embedding, LLE)不同于MDS。LLE 的核心思想是每個(gè)樣本點(diǎn)都可以由與它相鄰的多個(gè)點(diǎn)的線性組合來(lái)近似重構(gòu),這相當(dāng)于用分段的線性面片近似代替復(fù)雜的幾何形狀,樣本投影到低維空間之后要保持這種線性重構(gòu)關(guān)系,即有相同的重構(gòu)系數(shù)。LLE 算法可以歸結(jié)為3 步:首先,尋找每個(gè)樣本點(diǎn)的k個(gè)近鄰點(diǎn);然后,由每個(gè)樣本點(diǎn)的近鄰點(diǎn)計(jì)算出該樣本點(diǎn)的局部重建權(quán)值矩陣;最后,由該樣本點(diǎn)的局部重建權(quán)值矩陣和其近鄰點(diǎn)計(jì)算出該樣本點(diǎn)的輸出值。假設(shè)xi能用xj,xk,xl表示:
式中,wij,wik,wil為權(quán)重系數(shù)。
初始點(diǎn)由其權(quán)重系數(shù)wij給出的線性組合來(lái)重新構(gòu)造。用代價(jià)函數(shù)E(w)表示重構(gòu)誤差,因此E(w)滿足以下方程:
矩陣Z為一個(gè)降維矩陣,它的數(shù)據(jù)處在一個(gè)d維 空 間,而 原 始 點(diǎn)在D維 空 間,其 中D>d。LLE 算法會(huì)使得數(shù)據(jù)在較低的d維空間中保持相同的權(quán)重系數(shù)wij。xj對(duì)應(yīng)于低維空間的坐標(biāo)zj,滿足
這個(gè)優(yōu)化問(wèn)題等價(jià)于求解稀疏矩陣的特征值問(wèn)題。記稀疏矩陣為M,Z=(z1,z2,···,zm)∈Rd×m,則稀疏矩陣M滿足以下方程:
式中:由特征向量組成的矩陣ZT可以由矩陣Z的最小特征值d得到;I為單位矩陣;W為權(quán)重系數(shù)wij組成的矩陣。
1.1.3 t 分布隨機(jī)鄰域嵌入
t 分布隨機(jī)鄰域嵌入(TSNE)算法是一種通過(guò)仿射變換將數(shù)據(jù)點(diǎn)映射到概率分布上,用于非線性數(shù)據(jù)降維的算法。原始空間的數(shù)據(jù)用高斯聯(lián)合概率表示,嵌入空間的數(shù)據(jù)用t 分布表示。首先,采用TSNE 算法構(gòu)建一個(gè)高維對(duì)象之間的概率分布,以使相似的對(duì)象被選擇的概率更高,而不相似的對(duì)象被選擇的概率較低。其次,TSNE 算法可在低維圖中的點(diǎn)上構(gòu)造一個(gè)相似的概率分布,可使高維圖和低維圖中的兩個(gè)概率分布盡可能地相似。
對(duì)于給定的N個(gè)高維對(duì)象,TSNE 首先將歐氏距離轉(zhuǎn)化為概率pij來(lái) 表示xi與xj之間的相似性:
式中: σi為數(shù) 據(jù)點(diǎn)xi的 高 斯方 差;pj|i和pi|j均 為成本函數(shù)參數(shù);pij為 數(shù)據(jù)點(diǎn)xi和xj之間的高維分布概率。
TSNE 的目標(biāo)是得到一個(gè)盡可能反映pij值的d維映射y1,y2,···,yn,yn∈Rd。通過(guò)類似的方法,相似度qi j用低維數(shù)據(jù)中2 個(gè)與高維數(shù)據(jù)點(diǎn)xi和xj相對(duì)應(yīng)的 點(diǎn)yi和yj來(lái) 衡量。其中,qij定義為
若降維效果好,數(shù)據(jù)特征基本一致,則有pij=qi j,并且目標(biāo)函數(shù)C由分布Q與分布P的KL距離表示,即
可以將高斯分布初始化為較小的值 σ。為了加快優(yōu)化過(guò)程,避免局部最優(yōu)解,需要在梯度中使用較大的動(dòng)量,即
式中:Y(t)為 迭代t次的值;η 為學(xué)習(xí)效率; α(t)為迭代t次的動(dòng)量。
孤立森林算法是由大量的二叉樹(shù)組成,基于劃分孤立和集成學(xué)習(xí)的異常檢測(cè)算法,無(wú)需對(duì)故障數(shù)據(jù)建模。孤立森林的核心思想是,由于異常數(shù)據(jù)與正常數(shù)據(jù)較為疏離,故通過(guò)構(gòu)建二叉樹(shù)來(lái)找出異常數(shù)據(jù)。通常情況下,只需要較少的幾次切分就可以將異常數(shù)據(jù)單獨(dú)劃分出來(lái)并把它們判定為異常值。孤立森林模型采用二叉樹(shù)對(duì)數(shù)據(jù)進(jìn)行切分,數(shù)據(jù)點(diǎn)在二叉樹(shù)中所處的深度反映了該條數(shù)據(jù)的“疏離”程度,此算法引入了隔離樹(shù)和平均路徑長(zhǎng)度的定義。整體算法大致分為2 個(gè)階段:
1) 訓(xùn)練階段,抽取訓(xùn)練的多個(gè)子樣本構(gòu)建二叉樹(shù)。
2) 測(cè)試階段,由隔離樹(shù)來(lái)傳遞測(cè)試的樣本,可以得到每個(gè)測(cè)試樣本的異常得分。
在訓(xùn)練階段中,iforest 算法與子空間孤立點(diǎn)檢測(cè)密切相關(guān)。給出1 個(gè)數(shù)據(jù)樣本(來(lái)自d變量分布的n個(gè)實(shí)例),以構(gòu)建1 棵二叉樹(shù)。從全量數(shù)據(jù)中抽取一批樣本,然后隨機(jī)選擇一個(gè)特征作為起始節(jié)點(diǎn),并在該特征的最大值和最小值之間隨機(jī)選擇一個(gè)值,將樣本中小于該取值的數(shù)據(jù)劃到左分支,其他數(shù)據(jù)劃到右分支。之后,在左、右2 個(gè)分支數(shù)據(jù)中,重復(fù)上述步驟,直到滿足如下條件終止:
1) 數(shù)據(jù)不可再分,即只包含1 條數(shù)據(jù),或者全部數(shù)據(jù)相同;
2) 二叉樹(shù)達(dá)到限定的最大深度。
在測(cè)試階段,平均路徑長(zhǎng)度和異常分值用于檢測(cè)異常。計(jì)算數(shù)據(jù)x的異常分值時(shí),先要估算它在每棵二叉樹(shù)中的路徑長(zhǎng)度,也可以叫做深度。沿著1 棵二叉樹(shù),從根節(jié)點(diǎn)開(kāi)始按不同特征的取值從上往下,直到到達(dá)某葉子節(jié)點(diǎn)。數(shù)據(jù)x的路徑長(zhǎng)度h(x)由邊的數(shù)量測(cè)量,異常分值可以用s表示,即
式中:ε=0.577 215 664 9,為歐拉常數(shù);c(n)為用來(lái)標(biāo)準(zhǔn)化樣本數(shù)據(jù)x的路徑長(zhǎng)度h(x)的參數(shù);E(h(x))為數(shù)據(jù)x在二叉樹(shù)集合中路徑長(zhǎng)度的均值;s(x,n)為二叉樹(shù)從n個(gè)樣本的訓(xùn)練數(shù)據(jù)中獲得的x的異常分值,s(x,n)的 范圍為 [0,1]:
1) 若E(H(x))接近于0,s非常接近于1,表明數(shù)據(jù)x異常的可能性很高。
2) 若E(H(x))接近于n?1,s非常接近于0,表明數(shù)據(jù)x基本為正常數(shù)據(jù)。
3) 若E(H(x)) 接近于c(n),所有的s在0.5 附近時(shí),整個(gè)樣本數(shù)據(jù)沒(méi)有明顯的異常值。
船舶機(jī)艙需要進(jìn)行狀態(tài)監(jiān)測(cè)的設(shè)備包括:主推進(jìn)柴油機(jī)、發(fā)電柴油機(jī)、軸系系統(tǒng)、推進(jìn)操縱系統(tǒng)、重要輔助機(jī)械、重要的泵及電動(dòng)機(jī),以及錨機(jī)等設(shè)備。船舶主推進(jìn)柴油機(jī)作為船舶的心臟,其安全可靠的運(yùn)行直接決定了船舶的航行安全。船舶主推進(jìn)柴油機(jī)不僅是船舶最重要的機(jī)械設(shè)備,而且還是船舶所有機(jī)械系統(tǒng)中故障發(fā)生率最高的設(shè)備。瑞典船舶俱樂(lè)部對(duì)船舶故障風(fēng)險(xiǎn)的研究表明,船舶主柴油機(jī)故障占到了船舶機(jī)械故障總數(shù)的37.7%,每年造成的經(jīng)濟(jì)損失總額約2.02 億美元[16]。因此,降低船舶主柴油機(jī)系統(tǒng)的故障率對(duì)保證船舶安全航行具有重要意義。本文將以船舶主柴油機(jī)作為船舶機(jī)艙典型設(shè)備,對(duì)基于流形學(xué)習(xí)和孤立森林的智能故障監(jiān)測(cè)方法進(jìn)行研究。
在孤立森林模型中直接輸入原始數(shù)據(jù)是不可行的,因?yàn)樵紨?shù)據(jù)是多維數(shù)據(jù),若直接訓(xùn)練故障監(jiān)測(cè)模型,會(huì)造成維數(shù)災(zāi)難,從而降低故障監(jiān)測(cè)的性能。在數(shù)據(jù)預(yù)處理階段,可通過(guò)人為經(jīng)驗(yàn)選擇合適的數(shù)據(jù)特征。我們利用流形學(xué)習(xí)對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)降維,不需要相關(guān)的專家知識(shí)。通過(guò)流形學(xué)習(xí)對(duì)原始數(shù)據(jù)的特征進(jìn)行選擇和融合,可以降低原始數(shù)據(jù)結(jié)構(gòu)的復(fù)雜度,在盡可能多地保留有用信息的情況下重構(gòu)新的特征向量,因此可以用較少的計(jì)算量訓(xùn)練孤立森林模型。只需要正常工況數(shù)據(jù)集就能對(duì)孤立森林進(jìn)行訓(xùn)練。孤立森林模型致力于計(jì)算每個(gè)正常工況數(shù)據(jù)的平均路徑長(zhǎng)度,通過(guò)假設(shè)正常工況數(shù)據(jù)中存在少量的異常點(diǎn)來(lái)對(duì)閾值進(jìn)行設(shè)定,從而對(duì)測(cè)試集的正常工況數(shù)據(jù)與故障工況數(shù)據(jù)進(jìn)行分類。由于不需要故障工況數(shù)據(jù)對(duì)故障監(jiān)測(cè)模型進(jìn)行訓(xùn)練,因此孤立森林模型更適用于實(shí)際工業(yè)設(shè)計(jì)中的故障監(jiān)測(cè)?;诹餍螌W(xué)習(xí)與孤立森林的故障監(jiān)測(cè)方案如圖1所示。首先,在數(shù)據(jù)預(yù)處理中引入流形學(xué)習(xí)進(jìn)行特征選擇和融合;其次,利用低維數(shù)據(jù)訓(xùn)練孤立森林模型,實(shí)現(xiàn)故障監(jiān)測(cè);最后,用故障檢測(cè)率(FDR)和虛警率(FAR)對(duì)模型性能進(jìn)行評(píng)估。
圖1 基于流形學(xué)習(xí)和孤立森林的故障監(jiān)測(cè)流程圖Fig. 1 Procedures of the manifold learning-iforest monitoring scheme
基于流形學(xué)習(xí)與孤立森林的船舶柴油機(jī)故障監(jiān)測(cè)方法,需要柴油機(jī)狀態(tài)信息數(shù)據(jù),以用于模型的訓(xùn)練與測(cè)試。由于船舶柴油機(jī)歷史監(jiān)測(cè)數(shù)據(jù)匱乏,同時(shí)破壞性試驗(yàn)對(duì)柴油機(jī)的損害過(guò)大,因此造成船舶柴油機(jī)的故障樣本數(shù)據(jù)量嚴(yán)重不足,無(wú)法提供對(duì)模型的測(cè)試與評(píng)估。本文將在Matlab/Simulink 環(huán)境下對(duì)船用二沖程柴油機(jī)(7K98MC)進(jìn)行仿真建模,并采用零維模型對(duì)其氣缸進(jìn)行建模[17]。將柴油機(jī)模型仿真結(jié)果與試驗(yàn)臺(tái)架的數(shù)據(jù)進(jìn)行對(duì)比,以確定該仿真模型的準(zhǔn)確性。7K98MC船用二沖程柴油機(jī)的技術(shù)指標(biāo)如表1 所示,仿真模型如圖2 所示。
表1 7K98MC 船用柴油機(jī)技術(shù)指標(biāo)Table 1 Technical parameters of 7K98MC marine diesel engine
圖2 7K98MC 船用柴油機(jī)仿真模型Fig. 2 The simulation model of 7l98MC marine diesel engine
為了驗(yàn)證該7K98MC 船用主柴油機(jī)仿真模型的準(zhǔn)確性,將在不同負(fù)荷下的柴油機(jī)模型仿真結(jié)果與臺(tái)架實(shí)驗(yàn)數(shù)據(jù)進(jìn)行了對(duì)比,對(duì)比結(jié)果如表2所示。
表2 不同負(fù)荷下柴油機(jī)模型仿真值與臺(tái)架實(shí)驗(yàn)值的比較Table 2 Comparison between simulation results and shop test data
由表2 可知,模型仿真結(jié)果與試驗(yàn)臺(tái)架結(jié)果的數(shù)據(jù)相吻合,最大誤差出現(xiàn)在25%負(fù)荷下柴油機(jī)的渦輪轉(zhuǎn)速,其實(shí)驗(yàn)值與仿真值的誤差為4.53%。其他參數(shù)的仿真值與實(shí)驗(yàn)值誤差在1%左右,可以驗(yàn)證該船舶柴油機(jī)仿真模型的合理性和正確性。
本文對(duì)7K98MC 柴油機(jī)在94 r/min 轉(zhuǎn)速和100%負(fù)荷條件下的仿真模型進(jìn)行了研究。通過(guò)改變壓縮機(jī)效率、冷卻器效率和噴油時(shí)間來(lái)模擬柴油機(jī)的故障工況。其中每種工況由15 個(gè)特征進(jìn)行描述,其特征為有效功率、有效油耗率、空燃比、氣缸最高爆發(fā)壓力、氣缸最高燃燒溫度、壓氣機(jī)進(jìn)口壓力、壓氣機(jī)出口溫度、中冷器出口溫度、掃氣箱壓力、掃氣箱溫度、排氣管壓力、排氣管溫度、渦輪出口壓力、渦輪出口溫度、透平轉(zhuǎn)速。該柴油機(jī)仿真模型大約運(yùn)行30 min 可使模型運(yùn)行平穩(wěn),總共運(yùn)行了近200 h,共采集了700個(gè)正常與故障工況樣本。數(shù)據(jù)描述如表3 所示。
表3 仿真數(shù)據(jù)集Table 3 Simulation datasets
在本文研究中,訓(xùn)練數(shù)據(jù)集由200 個(gè)正常工況樣本組成,該數(shù)據(jù)集用于建立基于流形學(xué)習(xí)和孤立森林的故障監(jiān)測(cè)模型。測(cè)試數(shù)據(jù)集由500 個(gè)樣本組成,其中正常工況樣本數(shù)為200 個(gè),故障工況(包括柴油機(jī)壓縮機(jī)故障、冷卻器故障及噴油定時(shí)錯(cuò)誤3 種)樣本數(shù)為300 個(gè)。測(cè)試數(shù)據(jù)集用于評(píng)估和比較不同故障監(jiān)測(cè)方案的性能。
由于柴油機(jī)的不同工況對(duì)數(shù)據(jù)特征會(huì)產(chǎn)生不同的影響,選擇能夠精準(zhǔn)描述柴油機(jī)正常與故障工況的特征,提取和融合具有代表性的特征,是進(jìn)行柴油機(jī)故障監(jiān)測(cè)的關(guān)鍵。
基于流形學(xué)習(xí)的數(shù)據(jù)降維通過(guò)選擇與融合,能夠精準(zhǔn)描述設(shè)備正常工況與異常工況的特征,從而達(dá)到減少原數(shù)據(jù)特征數(shù)的目的。減少原數(shù)據(jù)集的復(fù)雜度,為后期數(shù)據(jù)的高效處理和分類提供了可能。本文中,由15 個(gè)特征組成的數(shù)據(jù)集被構(gòu)造為一個(gè)矩陣,通過(guò)流形學(xué)習(xí),將原數(shù)據(jù)15 維的數(shù)據(jù)特征降維至2 維,用降維后的2 個(gè)融合特征作為新的數(shù)據(jù)特征進(jìn)行了故障監(jiān)測(cè)。采用數(shù)據(jù)可視化的方法驗(yàn)證了不同流形學(xué)習(xí)算法對(duì)數(shù)據(jù)特征降維的效果。采用的流形學(xué)習(xí)算法包括PCA,MDS,LLE 和TSNE。圖3 所示為不同流形學(xué)習(xí)算法對(duì)相同數(shù)據(jù)降維的處理效果。通過(guò)數(shù)據(jù)可視化,可以發(fā)現(xiàn)不同算法在相同數(shù)據(jù)分布下的降維效果。圖中,G1 為正常工況數(shù)據(jù),G2 為故障工況數(shù)據(jù)。
從圖3(a)可以看出,經(jīng)PCA 算法降維的數(shù)據(jù)中,G1 與G2 的數(shù)據(jù)部分重疊,這意味著PCA 算法對(duì)于該數(shù)據(jù)的降維效果不佳。從圖3(b)和圖3(c)中可以看出,MDS 和LLE 算法比PCA 具有更好的降維效果,因?yàn)椴煌r下的數(shù)據(jù)區(qū)分度更大。同時(shí),LLE 和MDS 算法相比特征提取效果更好,因?yàn)榻?jīng)過(guò)LLE 提取的特征,其所代表的不同工況之間數(shù)據(jù)集的間隔更寬,更容易區(qū)分。從圖3(d)可以看出,TSNE 算法具有最好的降維效果,因?yàn)閬?lái)自同一個(gè)類別的數(shù)據(jù)開(kāi)始集聚在一起,不同類別的數(shù)據(jù)集則相隔較遠(yuǎn),容易劃分。流形學(xué)習(xí)作為一種數(shù)據(jù)可視化工具,在數(shù)據(jù)降維與特征提取領(lǐng)域中表現(xiàn)出了良好的性能,其中TSNE 算法的特征選擇效果最佳。
采用PCA,MDS,LLE 和TSNE 等特征選擇方法,將15 維表示投影到2 維空間。將選定的特征和融合后的特征送入孤立森林模型,以監(jiān)測(cè)柴油機(jī)狀態(tài)。為驗(yàn)證本文中所用孤立森林算法的性能,研究了其他異常點(diǎn)監(jiān)測(cè)的方法,包括魯棒性協(xié)方差估計(jì)(RC)和單分類支持向量機(jī)(OS)。
利用仿真數(shù)據(jù),對(duì)基于流形學(xué)習(xí)與孤立森林的故障監(jiān)測(cè)方法進(jìn)行研究。故障監(jiān)測(cè)模型的訓(xùn)練僅使用正常工況下的數(shù)據(jù)(200 個(gè)樣本)。采用訓(xùn)練好的故障監(jiān)測(cè)模型對(duì)新的正常樣本與故障樣本進(jìn)行識(shí)別。通過(guò)計(jì)算故障虛警率( FAR)和故障檢測(cè)率(FDR),驗(yàn)證基于流形學(xué)習(xí)和異常點(diǎn)監(jiān)測(cè)模型的性能。FAR 是被錯(cuò)誤分類為故障樣本的正常樣本數(shù)量與實(shí)際正常樣本總數(shù)之間的比率,F(xiàn)DR 是被正確分類為故障樣本的故障樣本數(shù)量與實(shí)際故障樣本總數(shù)之間的比率。因此,F(xiàn)DR 越大,F(xiàn)AR 越小,故障監(jiān)測(cè)方案性能越好。
不同流形學(xué)習(xí)算法與異常點(diǎn)監(jiān)測(cè)算法的組合會(huì)導(dǎo)致故障監(jiān)測(cè)方案性能發(fā)生變化。本文采用箱線圖對(duì)不同故障監(jiān)測(cè)方案的性能進(jìn)行了比較,如圖4 所示。箱線圖由最小值、下四分位數(shù)、中位數(shù)、上四分?jǐn)?shù)、最大值和異常值組成,可以從多個(gè)角度評(píng)價(jià)故障監(jiān)測(cè)方案的性能。表4 所示為不同故障監(jiān)測(cè)方案的平均FDR 和FAR。
圖3 不同流形學(xué)習(xí)方法的降維效果Fig. 3 The dimensionality reduction effect of different manifold learning methods
由圖4 可知,基于TSNE 與iforest 算法方案的FDR 最高,F(xiàn)AR 最低,且在箱線圖中對(duì)應(yīng)的箱子寬度較窄,說(shuō)明基于TSNE 與iforest 算法的故障監(jiān)測(cè)方案穩(wěn)定性較好。同時(shí),通過(guò)表4 可以得到,在相同異常點(diǎn)監(jiān)測(cè)算法下,基于TSNE 的故障監(jiān)測(cè)方案效果最好,進(jìn)一步說(shuō)明了TSNE 對(duì)船舶柴油機(jī)狀態(tài)監(jiān)測(cè)數(shù)據(jù)的降維質(zhì)量更高,損失率更低。
圖4 不同故障監(jiān)測(cè)方案的FDR 與FAR 值Fig. 4 Comparison of FDR and FAR under different hybrid fault monitoring schemes
表4 不同故障監(jiān)測(cè)方案的平均FDR 與FAR 值Table 4 The accuracy FDR and FAR under different hybrid fault monitoring schemes
在iforest 模型訓(xùn)練階段,訓(xùn)練該模型只需要正常工況的樣本數(shù)據(jù)集。孤立森林模型致力于計(jì)算每個(gè)正常工況樣本的平均路徑長(zhǎng)度,從而定義閾值,以對(duì)正常數(shù)據(jù)和故障數(shù)據(jù)進(jìn)行分類。圖5顯示了不同流形學(xué)習(xí)算法與孤立森林結(jié)合的故障監(jiān)測(cè)方案下,通過(guò)計(jì)算正常樣本平均路徑長(zhǎng)度而得到的閾值T1。如圖5 所示,由TSNE-iforest 的故障監(jiān)測(cè)方案得到的閾值T1 效果最好,只有少部分正常工況樣本被識(shí)別為故障工況,并且全部的故障工況樣本都被正確分類。
圖5 不同故障監(jiān)測(cè)方案的閾值Fig. 5 Thresholds of different hybrid fault monitoring schemes
針對(duì)船舶機(jī)艙設(shè)備的實(shí)際需求,本文提出了一種基于流形學(xué)習(xí)與異常點(diǎn)監(jiān)測(cè)結(jié)合的柴油機(jī)故障監(jiān)測(cè)方案。通過(guò)船用柴油機(jī)仿真模型生成的柴油機(jī)狀態(tài)數(shù)據(jù),對(duì)該故障監(jiān)測(cè)方案性能進(jìn)行了驗(yàn)證。分析結(jié)果表明:
1) 和PCA 算法相比, MDS,LLE,TSNE 等流形學(xué)習(xí)能夠有效地將原始15 維數(shù)據(jù)降維至2 維。流形學(xué)習(xí)用于數(shù)據(jù)預(yù)處理階段,可以極大地減少原始數(shù)據(jù)的復(fù)雜度,提高后續(xù)故障監(jiān)測(cè)模型的性能。其中,TSNE 算法的數(shù)據(jù)降維效果最好。
2) 孤立森林相比其他異常點(diǎn)監(jiān)測(cè)算法(魯棒性協(xié)方差估計(jì)、單分類支持向量機(jī)),具有更高的故障檢測(cè)率和更低的故障虛警率(FAR),只需要正常工況下的數(shù)據(jù),便可對(duì)孤立森林進(jìn)行訓(xùn)練,從而進(jìn)行船用柴油機(jī)的故障監(jiān)測(cè)。
3) 基于TSNE 和iforest 的故障監(jiān)測(cè)方案可得到一個(gè)合適的閾值,該閾值能夠準(zhǔn)確地對(duì)正常工況數(shù)據(jù)與故障工況數(shù)據(jù)進(jìn)行分類。
基于TSNE 和iforest 的船舶柴油故障監(jiān)測(cè)方案能夠有效提高監(jiān)測(cè)準(zhǔn)確率和可靠性。此故障監(jiān)測(cè)方案僅用正常狀態(tài)樣本便可進(jìn)行故障監(jiān)測(cè),更適用于船舶機(jī)艙設(shè)備的實(shí)際運(yùn)行情況,并且診斷穩(wěn)定性高,具有一定的理論參考和應(yīng)用價(jià)值。