陳志剛 肖 紅
(廣東工業(yè)大學計算機學院 廣州 510000)
故障預測的最重要的目標之一是預測系統(tǒng)的剩 余 可 用 壽 命(Remaining Useful Life,RUL)[1]。RUL 信息可用于工作人員避免意外停機時間和優(yōu)化維護活動。它依賴于操作機械狀態(tài)監(jiān)測數(shù)據(jù)的使用,從而獲得有用的特征,以評估退化的程度,并預測退化現(xiàn)象的演變[1]。由于工業(yè)機械中監(jiān)測數(shù)據(jù)高維、非線程的特點,同時對于機械失效表現(xiàn)先驗知識的缺乏。有效預測故障是一項極具挑戰(zhàn)的任務[2]。作為預測模型的輸入,提取的特征的質量直接影響學習模型的性能。顯然,正確反映退化進展的特征可以確保高精度的預測結果。絕大多數(shù)系統(tǒng),往往不是突然失效,而是經歷逐漸退化的過程直至故障[3]。理想的退化特征集合應該表現(xiàn)出連續(xù)增加或減少的趨勢,并且機械設備的惡化趨勢應該與設備運行時間存在相關性。由于監(jiān)測噪聲、退化過程的隨機性和操作環(huán)境的變化,優(yōu)良的特征應該對這些干擾具有魯棒性[4]。因此,如何選擇能夠表征機械退化表現(xiàn)的特征是確保預測模型精確性的重要前提。相比于故障預測模型的研究,對于最佳退化特征進行評價和選擇的研究相對較少。同時,目前預測的特征選擇通常是基于人工檢查來考察特征的趨勢是否能夠根據(jù)工程評價捕獲機械退化進程[2]。因此,為了提高預測模型的精確性和實現(xiàn)自動化選擇有效的退化特性,本文利用遺傳算法啟發(fā)式搜索的特點提出了遺傳算法和退化特征評價標準(單調性、趨勢性、魯棒性)結合的自動特征選擇方法。以特征單調性、趨勢性、健壯性的線性組合作為遺傳算法的適應性函數(shù),引導遺傳算法的變異和搜索。該值能直接反映特征子集對機械退化過程的相關性。并利用該方法結合Javed[5]提出的基于改進的極限學習機故障預測模型在2008年預測和健康管理(Prognostics and Health Management,PHM)挑戰(zhàn)賽的數(shù)據(jù)集來驗證該方法的合理性。結果表明該方法可以實現(xiàn)自動選擇滿足退化過程的特征子集,并有效提高預測模型的精度。
特征選擇的目的是識別一組預測特征,它可以最準確地表征故障進展過程的預測。與PHM 的預測模型相比,很少學者對最優(yōu)退化特征子集進行評價和選擇??紤]設備的退化與時間呈現(xiàn)相關性,Javed[6]基于滾動軸承的振動數(shù)據(jù)的特征提取上利用單調性與趨勢性兩個判斷準則進行最優(yōu)特征的選擇,進而計算軸承的剩余壽命;同樣地,文獻[7]利用單調性與趨勢性構造描述機械退化的特征進行機械設備退化狀態(tài)識別;Liao[3]基于特征單調性作為適應性函數(shù)利用遺傳規(guī)劃算法選取退化特征并進行線性組合解決自動發(fā)現(xiàn)高級特征的困難;文獻[8]基于同一機械設備的不同退化特征可能存在某種管理的考慮,設計了特征冗余性與有效性的特征選擇評價標準,進行退化特征選擇。由于機械一般呈現(xiàn)非線性退化趨勢,為了評估退化特征具有非線性退化趨勢,文獻[9]提出了一種利用Spurman系數(shù)計算退化特征非線性趨勢的方法。然而當退化趨勢被隨機波動掩蓋時,文獻[3,6~7,9]的性能將降低。為了提高特征對機械設備不同操作環(huán)境的魯棒性,Li[10]提出了基于魯棒性進行特征選擇的方法??紤]同一退化特征在機械退化不同階段可能呈現(xiàn)不同的有效性,Camci[11]退化特征劃分為片段,定義了所有片段的平均可分性來進行特征選擇,并獲得最優(yōu)退化特征。對于利用遺傳算法進行特征選擇的研究,更多集中于故障的診斷和狀態(tài)分類領域。L[12]提出了一種結合Bootstrap和遺傳規(guī)劃的高級特征發(fā)現(xiàn)方法診斷柴油機故障的有效性。Ondel[13]基于遺傳算法提出了一種順序向后選擇方法來選擇最相關的診斷特征。盡管診斷的特征評估已經被研究,但是對于預測特征評估和選擇定義的度量是微不足道的。與診斷特征評估中的靜態(tài)點聚類不同,由于退化是一個連續(xù)的隨機過程,在退化特征評估中考慮連續(xù)序列。
綜上所述,雖然現(xiàn)有的特征選擇方法已有基于單調性、趨勢性和魯棒性的研究,但并未綜合性的考慮。同時基于遺傳算法的退化特征選擇更多集中于故障診斷領域,并且只考慮單指標,導致適應函數(shù)單一和適應環(huán)境能力不強壯的問題。因此,本文將能直接反映特征子集對機械退化過程的相關性的單調性、趨勢性、魯棒性進行結合構造遺傳算法的多指標的適應函數(shù),引導遺傳算法的變異和搜索。提高退化特征選擇的準確度,同時實現(xiàn)自動特性選擇。
本文提出的特征選擇算法基礎框架如圖1 所示。監(jiān)測退化特征集作為算法輸入,然后初始化種群規(guī)模M ,種群規(guī)模代表了算法搜索范圍,若種群大小設置不合理,則算法難以達到全局最優(yōu)。擬提出的算法中關鍵步驟為適應函數(shù)的設計,利用了單調性、趨勢性和魯棒性3 個評價指標構建適應度函數(shù),引導遺傳算法進行最優(yōu)子集的搜索。
圖1 基于遺傳算法的最優(yōu)退化特征子集方法流程
選擇算子描述了生物進化的淘汰過程,確保優(yōu)秀的基因在種群中遺傳,其保證了能更好描述機械設備退化狀態(tài)的特征組合被保留。交叉算子是生物進化中父母本繁殖新一代的過程,是每一次迭代進化獲得優(yōu)良個體的關鍵步驟。變異算子作為遺傳算法的輔助函數(shù),為個體進化提供多樣性,從而實現(xiàn)搜索的隨機性。最后當滿足迭代次數(shù)時則可輸出最優(yōu)的特征子集。
特征選擇的目的是發(fā)現(xiàn)一組最能代表機械退化進程的特征集合。優(yōu)良的預測特征應與機械設備性能下降、單調遞增或遞減、對異常值的魯棒性等相關。在此基礎上,提出了結合單調性、趨勢性和魯棒性指標作為遺傳算法適應度函數(shù),用于得到更為相關的退化特征選擇方法。
3.1.1 特征選擇評價指標
在實際工程應用上,機械的性能退化本質上是一個隨機過程,因此將退化特征分成其趨勢部分和殘差時,可以更好地度量3 種指標。首先利用平滑方法將特征分解為均值趨勢和隨機部分如式(1)所示:
其中X( tk)為在tk時間點的退化特征值,XT( tk)為趨勢值,XR( tk)為殘差部分。
根據(jù)式(1)與文獻[2]單調性(Monotonicity,Mon)、趨勢性(Trendability,Tre)與魯棒性(Robustness,Rob)的特征選擇指標可以定義如下:
其中單調性指標Mon 為式(2),Mon 評估特征的持續(xù)增加或減少趨勢。
趨勢性指標Tre 為式(3),測量特征和時間T之間的線性關系。
魯棒性指標Rob 為式(4),反映了特征對異常值的容忍度。
式(2)~(4),K 為一段時間序列中的特征記錄次數(shù)總數(shù),為簡單的單位階躍函數(shù)。
經過簡單的數(shù)據(jù)推導可以看出,基于上述三個評價指標被限制在范圍[0,1]中,并且與候選特征的性能正相關,這使得它們非常適合作為合適退化特征的測度。
3.1.2 適應性函數(shù)構建
在實際工程應用上,選擇合適的退化特征進行剩余壽命預測時,只選擇單個特征評價指標可能會導致選擇的特征的適應性不全面,因此需要將上文所述評價標準進行融合,適應性函數(shù)作為遺傳算法中的最關鍵部分,決定了種群進化過程的環(huán)境復雜程度,直接引導算法向全局最優(yōu)收斂。單指標的適應性函數(shù)導致種群對環(huán)境的適應能力不強壯。因此,本文提出的方法將單調性(Mon)、趨勢性(Tred)、魯棒性(Rob)進行融合構造適應度函數(shù)。適應度越高的個體對應的特征子集越有效。首先融合指標定義為MTR(X),如式(5):
從式(5)可以看出融合的評價指標與每個單獨的特征評價指標線性相關且正相關。因此融合指標所得出的特征與機械設備退化表現(xiàn)呈正相關。并且通過式(5)計算得出高分的特征更能有效描述設備退化過程。
遺傳算法中種群個體代表了可能的特征子集,個體的基因進行二進制編碼用于表示特征是否被選中。維度為N 的特征集進行編碼后可得到相應維度長度的基因鏈。因此,利用MTR(X)構造個體適應性函數(shù)時,應對個體基因串中所有編碼為1 的特征進行計算融合指標并進行線性累加。
綜上所述,個體的適應性函數(shù)Fit(Pi)可表示為式(6):
式(6)中P 代表種群個體;M 代表種群個體數(shù)目;N 代表個體基因鏈長度;j 表示N 維特征集中第j 個特征。當個體基因鏈中第j 個特征被選擇,則pj=1,此時需要計算特征Xj的融合特征。
3.1.3 選擇算子設計
遺傳算法中的選擇算子根據(jù)個體適應值的高低描述生物進化過程。為保證適應度高的個體進入下一代,利用輪盤賭算法設計選擇算子,該算法保證了個體被選擇的概率與其適應度成正比,選擇算子C(Pi)如式(7)所示:
3.1.4 交叉算子與變異算子設計
遺傳算法利用交叉算子描述生物進化中通過交叉基因產生下一代的過程。特征子集的組合通過交叉算子來更新特征集的組合方式,從而使得在每一次迭代中考察多種交叉特征對融合指標MTR的影響能力。為了父母本在交叉過程中大規(guī)模丟失已有的良好特征。結合定長基因段交叉的算法[15]設計交叉算法。要求進行保留該基因點,必須滿足MTR ≥2。
為了給遺傳算法的搜索提高多樣性和可能性,需要設計合適的變異算子。本文直接利用文獻[14]提出的變異算法,用于描述基因點的突變情況。這里不詳細描述。
本節(jié)介紹所提出的特征選擇方法結合文獻[5]的剩余壽命預測方法應用于2008PHM 挑戰(zhàn)賽中的數(shù)據(jù)集的可行性,并分析其實驗結果。
PHM 挑戰(zhàn)賽數(shù)據(jù)集包含218 個案例的多變量退化數(shù)據(jù),這些數(shù)據(jù)對系統(tǒng)進行了全生命周期的追蹤。并且不存在對系統(tǒng)的任何先驗知識。數(shù)據(jù)有三個操作變量和21 個傳感器測量。初始數(shù)據(jù)分析可以知道系統(tǒng)存在六個不同的操作設置,可能意味著不同的工作狀態(tài)和故障狀態(tài)。同時10 個測量變量似乎隨著時間而變化(2,3,4,5,6,7,8,9,11,12)。本文將該10 個變量與提出的方法得出的退化特征子集作為模型輸入,比較兩者對于剩余壽命預測的精度。
為判斷選取的特征子集是否更好地描述機械設備的退化過程,提高預測模型的精度,本文利用文獻[5]提出的基于求和小波極限學習機建立多退化特征的剩余壽命預測模型進行實驗對比。該模型能夠同時預測剩余壽命時間和評估機械設備的退化狀態(tài)。因為預測模型不是本文的討論重點,因此,這部分不進行過多的討論。
定義實驗中算法模型的參數(shù)如下:
種群的規(guī)模初始為20,種群的最大遺傳次數(shù)設置為30 次。個體基因長度利用最大方差閾值[14]進行確定,閾值設置為0.2。
如表1 中所示,經過本文提出的特則選擇算法處理后得到的特征評價指標值。其中加粗的為選擇后的特征。最優(yōu)特征子集包含[2,3,4,5,7,8]6個特征。其融合評價標準MTR 值最高。初始數(shù)據(jù)分析中只考慮其單調性Mon 的10 個特征((2,3,4,5,6,7,8,9,11,12)中的6,9,11,12 在其他指標的度量上都沒有達到滿意的結果。這表明該特征隨時間的變化并沒有明顯的趨勢,同時。Rob 過低表示在面對測量干擾、噪聲影響上并沒有很好的魯棒性。因此,這類特征并不能充分地追蹤機械設備的退化情況。
表1 最優(yōu)特征子集的融合指標度量
將經選擇的特征子集與原始分析數(shù)據(jù)集作為預測模型的輸入,分析選擇的最優(yōu)特征子集是否提高預測模型的準確度。利用PHM2008 提供的259個系統(tǒng)案例,原始特征進行剩余壽命的預測結果如圖2所示。
圖2 原始特征剩余壽命預測結果圖
從圖2 可以看出大多數(shù)估計接近于實際值,但是存在大量的離群值,這極大降低了模型的性能。當考慮所有259 個測試用例時,這些預測異常的情況使得均絕對百分誤差接近100%;因此,大多數(shù)預測的正確性不高。圖3 表示經特征選擇算法處理后提取的最優(yōu)特征子集作為模型輸入之后的剩余壽命預測結果??梢钥闯鲈跍y試案例中,利用本文提出的方法選取的特征子集比原始特性在預測剩余壽命的精度上要更高。這意味著最優(yōu)特征子集能更好地捕獲機械設備的退化進程。優(yōu)化后的特征子集能夠提高預測模型的預測精度。
圖3 最優(yōu)特征子集剩余壽命預測結果圖
本文利用遺傳算法與特征評價指標融合提出了基于單調性、趨勢性、魯棒性結合的退化特征子集選擇方法。選擇的最優(yōu)特征子集能夠應用于預測模型,以表征機械設備退化表現(xiàn)的特征。2008PHM 數(shù)據(jù)集的實驗結果表明,提出的特征選擇方法可以有效地選擇最優(yōu)的預測特征子集。但仍需要更多的其他機械設備案例以驗證所提出的退化特征選擇方法的有效性。同時在未來的工作中,除了應用已提出的特征評估指標,其他的評估標準,如特征之間的相互影響,特征與退化模型的影響評價等都應該納入考慮,以獲得更好的退化特征子集。