李海林, 郭崇慧, 楊麗彬
(1.華僑大學(xué)工商管理學(xué)院,泉州,362021; 2大連理工大學(xué)系統(tǒng)工程研究所,大連,116024)
?
基于時(shí)間序列數(shù)據(jù)挖掘的故障檢測(cè)方法*
李海林1, 郭崇慧2, 楊麗彬1
(1.華僑大學(xué)工商管理學(xué)院,泉州,362021; 2大連理工大學(xué)系統(tǒng)工程研究所,大連,116024)
為了有效地檢測(cè)發(fā)動(dòng)機(jī)試車(chē)實(shí)驗(yàn)中性能參數(shù)發(fā)生的異常,提出一種基于時(shí)間序列數(shù)據(jù)挖掘的發(fā)動(dòng)機(jī)故障檢測(cè)方法。通過(guò)基于形態(tài)特征的時(shí)間序列特征表示方法,將發(fā)動(dòng)機(jī)參數(shù)時(shí)間序列轉(zhuǎn)化為符號(hào)序列,再根據(jù)符號(hào)語(yǔ)義對(duì)發(fā)動(dòng)機(jī)參數(shù)序列實(shí)現(xiàn)穩(wěn)態(tài)特征和過(guò)渡態(tài)特征識(shí)別。同時(shí),根據(jù)穩(wěn)態(tài)序列的數(shù)據(jù)特征,利用基于統(tǒng)計(jì)特征的時(shí)間序列相似性度量結(jié)合最不相似模式發(fā)現(xiàn)方法實(shí)現(xiàn)發(fā)動(dòng)機(jī)的故障檢測(cè)。數(shù)值實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)方法相比,本文方法能夠有效地對(duì)發(fā)動(dòng)機(jī)性能參數(shù)進(jìn)行故障檢測(cè),并且具有較強(qiáng)的魯棒性。
發(fā)動(dòng)機(jī)參數(shù);故障檢測(cè);異常模式;時(shí)間序列數(shù)據(jù)挖掘
故障檢測(cè)是用來(lái)預(yù)防機(jī)械故障發(fā)生的一種有效手段[1,2],也常用于預(yù)防發(fā)動(dòng)機(jī)運(yùn)行故障的發(fā)生。近年來(lái),出現(xiàn)多種方法用于發(fā)動(dòng)機(jī)故障的檢測(cè),例如基于神經(jīng)網(wǎng)絡(luò)的方法[3]、基于信號(hào)處理的方法[4]和基于規(guī)則發(fā)現(xiàn)的故障診斷系統(tǒng)[5]等。另外,基于紅線系統(tǒng)的檢測(cè)方法早在20世紀(jì)90年代中期就已用于故障檢測(cè),但其性能較低且具有較高的檢測(cè)錯(cuò)誤。后來(lái)提出的故障檢測(cè)異常系統(tǒng)(System for anomaly and failure detection, SAFD)彌補(bǔ)了傳統(tǒng)方法的部分不足之處,但其檢測(cè)質(zhì)量還依賴(lài)于具體參數(shù)的設(shè)定。對(duì)此,王珉等[7]對(duì)參數(shù)采樣值進(jìn)行離散化,并結(jié)合模式知識(shí)發(fā)現(xiàn)故障規(guī)則,進(jìn)而提出了一種自適應(yīng)閾值的故障檢測(cè)方法(Adaptive threshold algorithm, ATA)。 在某種程度上講,ATA彌補(bǔ)了SAFD的部分不足,但仍有其不夠完善之處。例如,系統(tǒng)參數(shù)中具有明顯特征的數(shù)據(jù)值可能引起較大的均值和標(biāo)準(zhǔn)差,進(jìn)而影響閾值的確定;與此同時(shí), ATA因設(shè)定參數(shù)門(mén)限將會(huì)導(dǎo)致它無(wú)法檢測(cè)出測(cè)量值較小但數(shù)據(jù)波動(dòng)形態(tài)異常情況。
由于發(fā)動(dòng)機(jī)性能參數(shù)是與時(shí)間相關(guān)的數(shù)據(jù),它可以被理解為時(shí)間序列數(shù)據(jù),故可以利用時(shí)間序列數(shù)據(jù)挖掘算法和技術(shù)來(lái)實(shí)現(xiàn)發(fā)動(dòng)機(jī)相關(guān)信息的分析,其主要包括數(shù)據(jù)處理[8]、聚類(lèi)[9]、模式發(fā)現(xiàn)[10]和異常檢測(cè)[11]等時(shí)間序列挖掘算法。為了提高發(fā)動(dòng)機(jī)故障檢測(cè)的效果,本文提出利用時(shí)間序列數(shù)據(jù)挖掘方法來(lái)實(shí)現(xiàn)故障檢測(cè)。首先,根據(jù)前期研究的基于形態(tài)特征的時(shí)間序列特征表示方法對(duì)參數(shù)序列實(shí)現(xiàn)符號(hào)化特征表示,并且提出相應(yīng)的算法來(lái)識(shí)別參數(shù)的兩種狀態(tài),即穩(wěn)態(tài)和過(guò)渡態(tài)。另外,結(jié)合基于統(tǒng)計(jì)特征的時(shí)間序列相似性度量方法,提出適用于故障檢測(cè)的異常模式發(fā)現(xiàn)算法。數(shù)據(jù)仿真實(shí)驗(yàn)表明,本文提出的方法能有效地識(shí)別發(fā)動(dòng)機(jī)參數(shù)穩(wěn)態(tài)數(shù)據(jù)波動(dòng)位于門(mén)限內(nèi)但其觀測(cè)數(shù)據(jù)值異常的情況,提高了對(duì)發(fā)動(dòng)機(jī)性能參數(shù)的故障識(shí)別效果。
1.1 時(shí)間序列符號(hào)化
符號(hào)化聚合近似(Symbolic aggregate approximation, SAX)[8,12]是典型的時(shí)間序列符號(hào)轉(zhuǎn)化方法,它利用分段聚合近似(Piecewise aggregate approximation, PAA)對(duì)時(shí)間序列進(jìn)行特征表示。同時(shí),將時(shí)間序列數(shù)值域按等概率劃分成若干個(gè)子區(qū)域,每個(gè)區(qū)域由不同的符號(hào)來(lái)表示,聚合近似方法所得到的均值序列根據(jù)所在區(qū)域的符號(hào)被轉(zhuǎn)化成字符串序列。
(1)
(2)
根據(jù)傳統(tǒng)分段聚合符號(hào)化的原理,需要事先將數(shù)據(jù)進(jìn)行z-score標(biāo)準(zhǔn)化,使其轉(zhuǎn)化為服從標(biāo)準(zhǔn)正態(tài)分布的序列。為此可以將標(biāo)準(zhǔn)化數(shù)據(jù)空間等概率地劃分成α個(gè)子空間或子區(qū)域,每個(gè)區(qū)域可用對(duì)應(yīng)的字符進(jìn)行表示,即可以完成S_PAA數(shù)值序列向S_SAX符號(hào)序列的轉(zhuǎn)化。
如圖1所示,可以將標(biāo)準(zhǔn)化后的時(shí)間序列數(shù)據(jù)分布空間按等概率的形式化分為3個(gè)區(qū)域,每個(gè)區(qū)域用相應(yīng)的字符來(lái)表示,即“A, B, C”,獲得相應(yīng)的字符串 “AAABBCCCCC”。 與傳統(tǒng)SAX方法比較,S_SAX序列中的符號(hào)符合人的思維活動(dòng),具有一定的字符含義,例如,A為下降狀態(tài),B為平穩(wěn)狀態(tài),C為上升狀態(tài)。因此,S_SAX字符序列能夠很好地反映時(shí)間序列的形態(tài)變化趨勢(shì),圖1中符號(hào)的描述說(shuō)明了時(shí)間序列經(jīng)過(guò)了連續(xù)下降、短暫平緩過(guò)度和慢慢上升3個(gè)階段。
圖1 基于形態(tài)特征的時(shí)間序列符號(hào)化轉(zhuǎn)化Fig.1 Time series symbolization based on shape feature
1.2 相似性度量
通過(guò)符號(hào)化特征表示后,可以識(shí)別發(fā)動(dòng)機(jī)參數(shù)的形態(tài)特征,即穩(wěn)態(tài)數(shù)據(jù)和非穩(wěn)態(tài)數(shù)據(jù)。其中,穩(wěn)態(tài)數(shù)據(jù)是發(fā)動(dòng)機(jī)試車(chē)實(shí)驗(yàn)的最重要來(lái)源,也是特征識(shí)別的主要對(duì)象。穩(wěn)態(tài)數(shù)據(jù)中的異常模式發(fā)現(xiàn)是試車(chē)實(shí)驗(yàn)中最主要的目標(biāo)之一。在時(shí)間序列數(shù)據(jù)挖掘中,特征表示相似性度量是數(shù)據(jù)分析過(guò)程中重要的方法[14,15]。在異常模式發(fā)現(xiàn)任務(wù),通過(guò)選取合適的特征表示方法和相應(yīng)的距離度量函數(shù),可以有效地發(fā)現(xiàn)數(shù)據(jù)異常。鑒于發(fā)動(dòng)機(jī)參數(shù)具有時(shí)間序列的時(shí)間特性,結(jié)合穩(wěn)態(tài)數(shù)據(jù)序列的基本特征,利用基于非線性統(tǒng)計(jì)特征的距離度量方法(Non linear statistical feature based PAA, NLSF_PAA)[16]來(lái)描述特征序列之間的相似性。該方法不僅能有效地對(duì)特征序列進(jìn)行相似性度量,還具有良好的下界緊湊性和剪枝能力,避免在相似性檢索中發(fā)生漏報(bào)情況。
(3)
(4)
傳統(tǒng)PAA算法中,給了基于均值特征序列的距離度量方法。對(duì)標(biāo)準(zhǔn)差特征序列的度量函數(shù)可以定義為
(5)
結(jié)合這兩種距離度量方法,使用非線性統(tǒng)計(jì)特征的時(shí)間序列相似性度量方法[16],即
(6)
鑒于發(fā)動(dòng)機(jī)穩(wěn)態(tài)數(shù)據(jù)和過(guò)渡態(tài)數(shù)據(jù)的重要性,結(jié)合基于形態(tài)特征的時(shí)間序列符號(hào)化表示方法提出特征識(shí)別算法對(duì)發(fā)動(dòng)機(jī)參數(shù)進(jìn)行這兩種狀態(tài)數(shù)據(jù)序列的識(shí)別。然而,對(duì)于穩(wěn)態(tài)數(shù)據(jù)序列特征,使用基于非線性統(tǒng)計(jì)特征的發(fā)動(dòng)機(jī)檢測(cè)方法,充分利用均值和方差兩個(gè)統(tǒng)計(jì)量來(lái)描述穩(wěn)態(tài)數(shù)據(jù)波動(dòng)情況,并且結(jié)合相應(yīng)的度量函數(shù)來(lái)實(shí)現(xiàn)故障異常模式。
2.1 特征識(shí)別
發(fā)動(dòng)機(jī)參數(shù)通常包括穩(wěn)態(tài)數(shù)據(jù)和過(guò)渡態(tài)數(shù)據(jù),其中過(guò)渡態(tài)數(shù)據(jù)可分成上升和下降兩種狀態(tài)。通過(guò)時(shí)間序列數(shù)據(jù)挖掘中的符號(hào)特征表示方法,可以有效地識(shí)別這3種狀態(tài)。如圖2所示,序列b和序列c分別為發(fā)動(dòng)機(jī)參數(shù)的穩(wěn)態(tài)和過(guò)渡態(tài)兩種數(shù)據(jù)。同時(shí),子圖(b)與(c)分別詳細(xì)顯示了序列b和序列c的數(shù)據(jù)形態(tài)狀況。從數(shù)據(jù)波動(dòng)情況來(lái)看,穩(wěn)態(tài)序列和過(guò)渡態(tài)序列中相鄰數(shù)據(jù)之間沒(méi)有一定的規(guī)律性,使得對(duì)它們的識(shí)別存在一定的困難。
圖2 發(fā)動(dòng)機(jī)參數(shù)數(shù)據(jù)特征描述Fig.2 Description of data feature for engine parameter
另外,由于發(fā)動(dòng)機(jī)參數(shù)之間具有一定的相關(guān)性,這將引起參數(shù)序列中過(guò)渡態(tài)和穩(wěn)態(tài)序列之間不存在明顯的分界點(diǎn),一般即有一事實(shí)上的緩沖過(guò)程,故在特征識(shí)別過(guò)程中,需要考慮此種情況,以便更有效地識(shí)別出這兩大類(lèi)特征。為了解決此問(wèn)題,提出“去頭尾”操作,即經(jīng)符號(hào)特征表示后,刪除字符串序列中相鄰且相異的兩個(gè)字符。如在圖1中,先后刪除相鄰且相異子字符串AB再BC,最終獲得的兩種子字符串AA和CCCC分別表示參數(shù)序列的下降過(guò)渡態(tài)序列和上升過(guò)渡態(tài)序列。基于形態(tài)符號(hào)化表示的特征識(shí)別算法如下。
算法1 [G,U,D]=SSAX_FR(T,k)
輸入:發(fā)動(dòng)機(jī)參數(shù)T,子序列長(zhǎng)度k。
輸出:穩(wěn)態(tài)數(shù)據(jù)序列集合G,上升過(guò)渡態(tài)數(shù)據(jù)序列集合U,下降過(guò)渡態(tài)數(shù)據(jù)序列集合D。
(3) 針對(duì)每個(gè)子序列Si,利用式(1,2)計(jì)算它們形態(tài)特征,再結(jié)合SSAX方法,將參數(shù)序列轉(zhuǎn)為字符串序列R。
(4) 對(duì)R進(jìn)行“去頭尾”操作,即從第2個(gè)字符開(kāi)始至到最后一個(gè)字符,依次判斷ri-1與ri是否相同,其中ri∈R。如兩者字符不相同,則刪除字符ri-1和ri。
(5) 根據(jù)符號(hào)意義以及相應(yīng)子序列在參數(shù)中的時(shí)間位置,可將連續(xù)相同的字符合并,可以分別得到3種特征狀態(tài)G,U和D。
2.2 異常檢測(cè)算法
在時(shí)間序列數(shù)據(jù)挖掘中,異常模式是指與其他序列片段最不相似的子序列。目前一種較為流行的時(shí)間序列最不相似模式發(fā)現(xiàn)算法,即基于SAX的方法,通常也被稱(chēng)作異常模式發(fā)現(xiàn)算法。另外,為了提高最不相似模式算法的效率,文獻(xiàn)[12]給合SAX的符號(hào)化過(guò)程和相應(yīng)的啟發(fā)式規(guī)則來(lái)實(shí)現(xiàn)最不相似模式序列的識(shí)別,其算法過(guò)程描述如下。
算法 [d,loc]=HeuristicSearch(Q,n,Outer,Inner)
輸入:時(shí)間序列Q,模式長(zhǎng)度n,啟發(fā)式規(guī)則Outer和Inner。
輸出:最不相似模式與其他模式的最小距離d和該模式在時(shí)間序列Q中的位置loc。
(1) 初始化相關(guān)數(shù)據(jù),初始化d=0和loc=-1。分別利用啟發(fā)式規(guī)則outer和inner控制本算法的內(nèi)外兩層循環(huán),用p和q來(lái)記錄兩個(gè)模式在Q中的位置信息。
(2) 對(duì)于外層循環(huán),每個(gè)p將設(shè)定初始最近距離為d0=+∞,并根據(jù)q值執(zhí)行內(nèi)層循環(huán),即:
(3) 判斷d0是否大于d。若為真,則d=d0且記錄相應(yīng)的位置信息loc=p,同時(shí)返回步驟(2),直到遍歷完外循環(huán)中的所有p值為止。
(4) 返回最小距離d和相應(yīng)的位置信息loc。
由于基于統(tǒng)計(jì)特征的時(shí)間序列距離度量方法能較好地對(duì)序列片段進(jìn)行相似性度量,為了提高實(shí)際發(fā)動(dòng)機(jī)參數(shù)穩(wěn)態(tài)數(shù)據(jù)中的異常情況,結(jié)合HeuristicSearch算法來(lái)進(jìn)行發(fā)動(dòng)機(jī)故障檢測(cè),故在上述模式算法HeuristicSearch中,利用式(6)來(lái)計(jì)算模式之間的距離,即Dist=DNLSF-PAA。
算法3 [P,loc]=NLSF_AbnormSearch(gi′,n)
輸出:故障模式P和在穩(wěn)態(tài)數(shù)據(jù)序列中出現(xiàn)的位置loc。
為了驗(yàn)證發(fā)動(dòng)機(jī)故障檢測(cè)算法的可行性和有效性,采用某型號(hào)發(fā)動(dòng)機(jī)試車(chē)實(shí)驗(yàn)中參數(shù)的仿真數(shù)據(jù)進(jìn)行故障檢測(cè)實(shí)驗(yàn)。本次實(shí)驗(yàn)分為兩個(gè)步驟:特征識(shí)別實(shí)驗(yàn)和故障檢測(cè)實(shí)驗(yàn)。前者通過(guò)基于形態(tài)特征的時(shí)間序列符號(hào)化表示方法對(duì)仿真數(shù)據(jù)進(jìn)行特征識(shí)別,進(jìn)而說(shuō)明基于形態(tài)特征表示方法用來(lái)進(jìn)行發(fā)動(dòng)機(jī)參數(shù)特征識(shí)別的可行性和有效性;后者利用本文提出的基于最不相似模式發(fā)現(xiàn)的發(fā)動(dòng)機(jī)故障檢測(cè)算法來(lái)對(duì)穩(wěn)態(tài)數(shù)據(jù)進(jìn)行異常檢測(cè),同時(shí)與傳統(tǒng)方法相比,驗(yàn)證新方法對(duì)發(fā)動(dòng)機(jī)穩(wěn)態(tài)數(shù)據(jù)故障分析的有效性和檢測(cè)效果。
3.1 特征識(shí)別實(shí)驗(yàn)
根據(jù)前面分析易知,發(fā)動(dòng)機(jī)試車(chē)實(shí)驗(yàn)參數(shù)表現(xiàn)出時(shí)間序列數(shù)據(jù)的特征,故可以利用基于形態(tài)特征的符號(hào)化表示方法對(duì)其進(jìn)行特征識(shí)別,即穩(wěn)態(tài)特征和過(guò)渡態(tài)特征的識(shí)別。由于這兩類(lèi)特征可以細(xì)分成3種狀態(tài),即平穩(wěn)狀態(tài)、上升狀態(tài)和下降狀態(tài),在識(shí)別過(guò)程中設(shè)置3種字符來(lái)分別表示3種狀態(tài)的情況。根據(jù)算法要求,將長(zhǎng)度為m的發(fā)動(dòng)機(jī)參數(shù)數(shù)據(jù)平均分成w個(gè)序列片段,每個(gè)子列片段的數(shù)據(jù)量(即長(zhǎng)度)為k。同時(shí),根據(jù)具體需要將服從正態(tài)分布的數(shù)據(jù)區(qū)域劃分成3份,即α=3,對(duì)應(yīng)的符號(hào)分別為A,B和C。通過(guò)特征識(shí)別算法即可將發(fā)動(dòng)機(jī)參數(shù)序列轉(zhuǎn)化成相應(yīng)的字符序列特征。另外,根據(jù)字符的具體語(yǔ)義,提取對(duì)應(yīng)的特征序列。
在本次算法實(shí)驗(yàn)中,設(shè)定k=100,其表示每個(gè)序列片段的長(zhǎng)度為100,則通過(guò)特征識(shí)別算法即可獲得發(fā)動(dòng)機(jī)參數(shù)序列的特征識(shí)別。為了便于顯示和描述,圖3(a)中實(shí)線和其他3個(gè)子圖中虛線表示同一發(fā)動(dòng)機(jī)參數(shù)序列的數(shù)據(jù)信息。然而,在圖3(b~d)中紅色序列片段表示特征識(shí)別算法的運(yùn)行結(jié)果。從圖中顯示效果容易判斷,參數(shù)特征識(shí)別算法SSAX_FR能有效地對(duì)發(fā)動(dòng)機(jī)參數(shù)序列進(jìn)行3種主要狀態(tài)特征的識(shí)別,即圖3(b)顯示穩(wěn)態(tài)特征、圖3(c,d)分別顯示上升和下降等兩種過(guò)渡態(tài)數(shù)據(jù)。
圖3 發(fā)動(dòng)機(jī)參數(shù)的特征識(shí)別Fig.3 Feature recognition of engine parameter
圖4 SSAX_FR隨k值變化的識(shí)別效果Fig.4 Recognition results of SSAX_FR with k
另外,通過(guò)對(duì)已標(biāo)記穩(wěn)態(tài)特征的參數(shù)序列進(jìn)行參數(shù)特征識(shí)別算法SSAX_FR的執(zhí)行,并考查不同k對(duì)穩(wěn)態(tài)特征識(shí)別的質(zhì)量,即穩(wěn)態(tài)特征的識(shí)別率。通過(guò)對(duì)長(zhǎng)度為8 000的參數(shù)時(shí)間序列進(jìn)行穩(wěn)態(tài)特征識(shí)別,在k分別取值為[20,40,80,160,320]情況下,穩(wěn)態(tài)特征識(shí)別的質(zhì)量如圖4所示。由圖4性能分析結(jié)果易知,在同一采集頻率下的發(fā)動(dòng)機(jī)參數(shù)序列中,k值在某一范圍內(nèi)能取得較好的識(shí)別效果。然而,若k值太大,則其穩(wěn)態(tài)識(shí)別效果出現(xiàn)不好的現(xiàn)象,其原因在于較大的k值使得用某一字符來(lái)表示長(zhǎng)度為k的序列段過(guò)于粗糙,進(jìn)而降低了穩(wěn)態(tài)特征的識(shí)別質(zhì)量。在發(fā)動(dòng)機(jī)參數(shù)特征識(shí)別過(guò)程中,序列片段長(zhǎng)度k還通常根據(jù)具體發(fā)動(dòng)機(jī)參數(shù)試車(chē)實(shí)驗(yàn)中信息采集頻率來(lái)決定。若試車(chē)信息采集頻率越大,則取大值較為適宜;否則,k取較小值。另外,由于特征識(shí)別算法中存在“去頭尾”操作,故k值的選定也需考慮“去頭尾”的長(zhǎng)度。
3.2 異常檢測(cè)實(shí)驗(yàn)
通過(guò)基于時(shí)間序列形態(tài)符號(hào)化表示的參數(shù)特征識(shí)
別算法,可以從發(fā)動(dòng)機(jī)參數(shù)模擬數(shù)據(jù)中獲得穩(wěn)態(tài)數(shù)據(jù)序列集合G。針對(duì)穩(wěn)態(tài)特征序列集合中的特征序列,提取同一水平狀態(tài)下的穩(wěn)態(tài)特征序列進(jìn)行異常檢測(cè)分析。為了更好地說(shuō)明本文提出的基于統(tǒng)計(jì)特征的相似性度量[15]進(jìn)行發(fā)動(dòng)機(jī)參數(shù)穩(wěn)態(tài)特征數(shù)據(jù)異常檢測(cè)方法的有效行和優(yōu)越性,利用歐氏距離Euclidean,基于分段聚合近似PAA的距離度量[8]的異常檢測(cè)方法來(lái)進(jìn)行實(shí)驗(yàn),即利用歐氏距離和基于PAA的距離度量函數(shù)來(lái)代替基于啟發(fā)式的最不相似模式發(fā)現(xiàn)算法中的Dist。
通過(guò)故障檢測(cè)算法分析,其實(shí)驗(yàn)結(jié)果如圖5所示。在圖5(a)中,給出了檢測(cè)發(fā)動(dòng)機(jī)參數(shù)中某個(gè)水平狀態(tài)下的穩(wěn)態(tài)數(shù)據(jù)序列片段逃逸出大部分子序列的數(shù)據(jù)波動(dòng)范圍,且序列片段是異常模式;圖5(b)則給出了發(fā)動(dòng)機(jī)參數(shù)中另外某個(gè)水平狀態(tài)下的穩(wěn)態(tài)數(shù)據(jù)中,某段子序列的波動(dòng)振幅突然小于大部分子序列的數(shù)據(jù)振幅,故該序列片段應(yīng)該被看作是發(fā)動(dòng)機(jī)的故障異常模式。
圖5 兩種穩(wěn)態(tài)特征數(shù)據(jù)的異常檢測(cè)結(jié)果Fig.5 Abnormal detection for two kinds of stable feature data
實(shí)驗(yàn)結(jié)果顯示,3種方法對(duì)于發(fā)動(dòng)機(jī)參數(shù)中穩(wěn)態(tài)數(shù)據(jù)片段波動(dòng)性較大的異常模式都可以有效地識(shí)別,如圖5(a)所示。 然而,對(duì)于波動(dòng)性小于大部分子序列的情況,基于歐氏距離Euclidean和基于分段聚合近似PAA的異常檢測(cè)方法無(wú)法進(jìn)行有效識(shí)別,而本文提出的方法NLSF_AbnormSearch能夠有效地發(fā)現(xiàn)該種情況的故障模式,如圖5(b)所示。因此,與傳統(tǒng)特征表示和相似性度量相比,基于非線性統(tǒng)計(jì)特征表示的故障檢測(cè)方法能較好地對(duì)發(fā)動(dòng)機(jī)的異常模式進(jìn)行識(shí)別。
圖6 ATA算法對(duì)兩種數(shù)據(jù)情況的異常檢測(cè)結(jié)果Fig.6 Abnormal detection of ATA for the two kinds of data
針對(duì)上面兩種情況,利用文獻(xiàn)[7]提出的發(fā)動(dòng)機(jī)故障檢測(cè)方法ATA進(jìn)行數(shù)據(jù)實(shí)驗(yàn),該方法的發(fā)動(dòng)機(jī)故障檢測(cè)結(jié)果如圖6所示。該實(shí)驗(yàn)結(jié)果表示,ATA把超出門(mén)限范圍的數(shù)據(jù)點(diǎn)視為了數(shù)據(jù)異常點(diǎn),沒(méi)能有效地對(duì)故障模式片段進(jìn)行識(shí)別。與實(shí)驗(yàn)結(jié)果圖5(b)相比,本文提出的基于時(shí)間序列數(shù)據(jù)挖掘的發(fā)動(dòng)機(jī)故障檢測(cè)方法NLSF_AbnormSearch能夠很好地檢測(cè)出發(fā)動(dòng)機(jī)參數(shù)穩(wěn)態(tài)特征序列中出的異常模式,為預(yù)防發(fā)動(dòng)機(jī)故障提供了可行的技術(shù)和方法。
通過(guò)對(duì)傳統(tǒng)發(fā)動(dòng)機(jī)故障檢測(cè)方法的分析,本文提出一種基于時(shí)間序列數(shù)據(jù)挖掘的故障檢測(cè)方法。根據(jù)發(fā)動(dòng)機(jī)試車(chē)參數(shù)的時(shí)間序列特性以及參數(shù)中穩(wěn)態(tài)數(shù)據(jù)和過(guò)渡態(tài)數(shù)據(jù)的重要性,利用基于時(shí)間序列數(shù)據(jù)挖掘中形態(tài)特征符號(hào)化表示方法對(duì)參數(shù)時(shí)間序列進(jìn)行字符串轉(zhuǎn)化,使其轉(zhuǎn)化為具有實(shí)際語(yǔ)義的字符,并以此對(duì)發(fā)動(dòng)機(jī)參數(shù)序列的兩種狀態(tài)特征進(jìn)行有效的識(shí)別。另外,本文針對(duì)發(fā)動(dòng)機(jī)試車(chē)實(shí)驗(yàn)中出現(xiàn)頻率較高的穩(wěn)態(tài)特征序列數(shù)據(jù)進(jìn)一步分析,利用最不相似模式發(fā)現(xiàn)算法并結(jié)合基于非線性統(tǒng)計(jì)特征表示的時(shí)間序列距離度量方法實(shí)現(xiàn)該特征數(shù)據(jù)的異常模式檢測(cè)。在數(shù)值仿真實(shí)驗(yàn)中,通過(guò)特征識(shí)別和異常檢測(cè)結(jié)果的比較,驗(yàn)證了新方法對(duì)發(fā)動(dòng)機(jī)參數(shù)故障檢測(cè)的有效性。同時(shí),與傳統(tǒng)方法相比,新方法能夠較好地發(fā)現(xiàn)和檢測(cè)異常模式,具有較強(qiáng)的魯棒性。然而,本文的重點(diǎn)主要在于發(fā)動(dòng)機(jī)參數(shù)序列數(shù)據(jù)中狀態(tài)特征的識(shí)別和穩(wěn)態(tài)數(shù)據(jù)中和異常故障檢測(cè),對(duì)于過(guò)渡態(tài)數(shù)據(jù)序列中的模式發(fā)現(xiàn)尚未涉及到。因此,研究一種檢測(cè)發(fā)動(dòng)機(jī)參數(shù)時(shí)間序列過(guò)渡態(tài)特征數(shù)據(jù)的異常模式方法將是下一步工作的重要內(nèi)容。
[1] 許潔, 趙瑾, 劉如成, 等. 基于KICA-KFDA的集成故障識(shí)別算法[J]. 數(shù)據(jù)采集與處理, 2013, 28(6): 812-817.
Xu Jie, Zhao Jin, Liu Rucheng, et al. An integrated fault identification algorithm based on KICA and KFDA[J]. Journal of Data Acquisition and Processing, 2013, 28(6): 812-817.
[2] 竇唯, 劉占生. 液體火箭發(fā)動(dòng)機(jī)渦輪泵故障診斷的新方法[J]. 推進(jìn)技術(shù), 2011, 32(2): 266-270.
Dou Wei, Liu Zhansheng. A new fault diagnosis method for turbopump of liquid rocket engine[J]. Journal of Propulsion Technology, 2011, 32(2): 266-270.
[3] 朱明悅, 李小申. 基于概率神經(jīng)網(wǎng)絡(luò)的發(fā)動(dòng)機(jī)故障診斷方法研究[J]. 制造業(yè)自動(dòng)化, 2012, 34(5): 90-92.
Zhu Mingyue, Li Xiaoshen. Research on fault diagnosis of engines based on probabilistic neural networks [J]. Manufacturing Automation, 2012, 34(5): 90-92.
[4] 何皚, 覃道亮, 孔祥興, 等. 基于UIO的航空發(fā)動(dòng)機(jī)執(zhí)行機(jī)構(gòu)故障診斷[J]. 推進(jìn)技術(shù), 2012, 33(1): 98-104.
He Ai, Qin Daoliang, Kong Xiangxing, et al. UIO-based diagnosis of aeroengine actuator faults[J]. Journal of Propulsion Technology, 2012, 33(1): 98-104.
[5] 陳果, 左洪福. 基于知識(shí)規(guī)則的發(fā)動(dòng)機(jī)磨損故障診斷專(zhuān)家系統(tǒng)[J]. 航空動(dòng)力學(xué)報(bào), 2004, 19(1): 23-29.
Cheng Guo, Zuo Hongfu. Expert systems of engine wear fault diagnosis based on knowledge rule[J]. Journal of Aerospace Power, 2004, 19(1):23-29.
[6] Panossian H V, Kemp V R. Technology test bed engine real time failure control[R].NASA-CR-192414, Canoga Park, CA:Rockwell International Corp, 1992.
[7] 王珉, 胡鳶慶, 秦國(guó)軍. 基于模式矩陣的液體火箭發(fā)動(dòng)機(jī)試車(chē)臺(tái)故障關(guān)聯(lián)規(guī)則挖掘[J]. 宇航學(xué)報(bào), 2011, 32(4): 947-951.
Wang Min, Hu Niaoqing, Qin Guojun. Association rules of liquid- propellant rocket engine test-bed based on pattern matrix[J]. Journal of Astronautics, 2011, 32(4): 947-951.
[8] 霍鋮宇, 倪黃晶, 寧新寶. 心率變異時(shí)間序列的預(yù)處理算法[J].數(shù)據(jù)采集與處理, 2013, 28(5):591-596.
Huo Chengyu, Ni Huangjing, Ning Xinbao. Preprocessing methods for heart rate variability time series[J]. Journal of Data Acquisition and Processing, 2013, 28(5):591-596.
[9] 夏利, 王建東, 張霞, 等. 聚類(lèi)再回歸方法在機(jī)場(chǎng)噪聲時(shí)間序列預(yù)測(cè)中的應(yīng)用[J]. 數(shù)據(jù)采集與處理, 2014, 29(1):152-156.
Xia Li, Wang Jiandong, Zhang Xia, et al. Application of cluster regression in time series prediction of airport noise[J]. Journal of Data Acquisition and Processing, 2014, 29(1):152-156.
[10]萬(wàn)里, 廖建新, 朱曉民. 一種時(shí)間序列頻繁模式挖掘算法及其在WSAN行為預(yù)測(cè)中的應(yīng)用[J]. 電子與信息學(xué)報(bào), 2010, 32 (3): 682-686.
Wan Li, Liao Jianxin, Zhu Xiaomin. Time series frequent pattern mining algorithm and its application to WSAN behavior prediction[J]. Journal of Electronics & Information Technology, 2010, 32 (3): 682-686.
[11]Fujimaki R, Nakata T, Tsukahara H, et al. Mining abnormal patterns for heterogeneous time series with irrelevant features for fault event detection[J]. Statistical Analysis and Data Mining, 2009, 2(1): 1-17.
[12]Keogh E, Lin J, Fu A. Hot Sax: Finding the most unusual time series subsequence:Algorithms and applications[J]. Knowledge and Information Systems, 2006: 11(1):1-27.
[13]李海林, 郭崇慧. 基于形態(tài)特征的時(shí)間序列符號(hào)聚合近似方法[J]. 模式識(shí)別與人工智能, 2011, 24(5): 665-672.
Li Hailin, Guo Chonghui. Symbolic aggregate approximation based on shape features[J]. Pattern Recognition and Artificial Intelligence, 2011, 24(5): 665-672.
[14]丁永偉, 楊小虎, 陳根才,等. 基于弧度距離的時(shí)間序列相似度量[J]. 電子與信息學(xué)報(bào), 2011, 33 (1): 122-128.
Ding Yongwei, Yang Xiaohu, Chen Gencai, et al. Radian-distance based time series similarity measurement[J]. Journal of Electronics & Information Technology, 2011, 33 (1): 122-128.
[15]Li Hailin, Guo Chonghui. Piecewise cloud approximation for time series mining[J]. Knowledge-Based Systems, 2011, 24(4): 492-500 .
[16]Guo Chonghui, Li Hailin, Pan Donghua. An improved piecewise aggregate approximation based on statistical features for time series mining[C]∥Proceedings of the 4th International Conference on Knowledge Science, Engineering and Management. Berlin, Heidelberg:Springer-Verlag, 2010: 234-244.
李海林(1982-),男,博士,副教授,研究方向:數(shù)據(jù)挖掘與智能決策,E-mail:hailin@mail.dlut.edu.cn。
郭崇慧(1973-),男,博士,教授,研究方向:數(shù)據(jù)挖掘與決策支持。
楊麗彬(1982-),女,講師,研究方向:數(shù)據(jù)挖掘與信息系統(tǒng)。
Fault Detection Algorithm Based on Time Series Data Mining
Li Hailin1, Guo Chonghui2, Yang Libin1
(1.College of Business Administration, Huaqiao University, Quanzhou, 362021, China; 2.Institute of Systems Engineering, Dalian University of Technology, Dalian, 116024, China)
To validly detect the anomalies of parameters in the engine test, a fault detection algorithm of engine based on time series data mining is proposed. The parameter time series are transformed into symbolic strings by a representation method based on shape features. The stable states and transition states are extracted from the parameter time series according to symbolic semantics. Meanwhile, the detection algorithm of abnormal pattern from the stable states is realized by similarity measurement between time series based on statistic features, combined with the most unusual pattern discovery method. The results of numerical experiments show that the new method validly detects the fault of engine and has the better robustness than the traditional method.
engine parameter; fault detection; abnormal pattern; time series data mining
國(guó)家自然科學(xué)基金(61300139)資助項(xiàng)目;華僑大學(xué)中青年教師科研提升資助計(jì)劃(ZQN-PY220)資助項(xiàng)目。
2014-09-12;
2014-09-30
TP18
A