管河山,王 謙,唐德文
(南華大學(xué)a.經(jīng)濟管理學(xué)院;b.機械工程學(xué)院,湖南衡陽421001)
基于分位數(shù)特征提取的時間序列模式分類
管河山a,王 謙a,唐德文b
(南華大學(xué)a.經(jīng)濟管理學(xué)院;b.機械工程學(xué)院,湖南衡陽421001)
高速運行的離心機設(shè)備,其振動狀態(tài)檢測數(shù)據(jù)通常呈現(xiàn)出明顯的非線性、正態(tài)分布和大樣本的特征,數(shù)據(jù)波動的隨機性使得其趨勢特征難以捕捉。為此,提出一種新的時間序列模式分類方法。采集離心機設(shè)備運行狀態(tài)的振動信號時間序列進行分析,根據(jù)對稱原理提取序列數(shù)據(jù)的分位數(shù),構(gòu)建特征向量,采用歐氏距離函數(shù)構(gòu)建相似性度量,建立模式分類的判定依據(jù),使用k-means分類算法實現(xiàn)狀態(tài)模式的自動分類。仿真結(jié)果表明,該方法能有效區(qū)分離心機設(shè)備運行中空載和負(fù)載的模式狀態(tài),且比傳統(tǒng)的小波分析模式分類方法更加準(zhǔn)確。
分位數(shù);時間序列;模式分類;離心機;振動信號;小波
序列模式分類的理論研究和實際應(yīng)用比較廣泛[1-2]。特別地,時間序列模式分類技術(shù)在設(shè)備運行狀態(tài)檢測及故障診斷中得到了廣泛的應(yīng)用。比如,文獻[3]從時間序列AR模型入手,建立了旋轉(zhuǎn)機械的信息距離判別函數(shù),并將其應(yīng)用在旋轉(zhuǎn)機械故障診斷專家系統(tǒng)的模式識別規(guī)則庫中,可進行故障監(jiān)測和診斷;文獻[4]采用模糊理論和PrefixSpan算法,得到了按次序排列且有時間間隔的異常參數(shù)點對設(shè)備故障影響的規(guī)則,為企業(yè)設(shè)備運行的故障監(jiān)控提供了理論依據(jù);文獻[5]按照時間序列方式提取系統(tǒng)故障信息,提出了一種異常檢測算法,并對微機監(jiān)測系統(tǒng)2組道岔動作電流進行仿真和實證;文獻[6]根據(jù)微機電系統(tǒng)(Microelectro Mechanical System,MEMS)陀螺儀測量數(shù)據(jù)的自相關(guān)函數(shù)和偏相關(guān)函數(shù)特征初步確定自回歸移動平均模型(Autoregressive Integrated Moving Average Model, ARIMA),再引入赤池信息量準(zhǔn)則(Akaike Information Criterion,AIC)確定最優(yōu)模型,并采用最小二乘估計法對模型參數(shù)進行估計,以此自回歸移動平均模型作為檢測、識別出車載MEMS陀螺儀的
異常測量數(shù)據(jù)的標(biāo)準(zhǔn)。上述研究極大地豐富了時間序列模式分類的理論研究和實踐應(yīng)用。
考慮到不同設(shè)備運行狀態(tài)的實際情況,其狀態(tài)特征的識別方法是有所差異的,這也是設(shè)備運行狀態(tài)監(jiān)測及故障診斷技術(shù)多樣化的原因之一。小波分析能有效地從信號中提取信息,通過伸縮和平移等運算功能對函數(shù)或信號進行多尺度細(xì)化分析,解決了Fourier變換不能解決的許多困難問題,基于小波分析的模式識別方法得到了極為廣泛的研究和應(yīng)用[7-9]。
通常情況下,高速運行離心機設(shè)備的振動信號數(shù)據(jù)呈現(xiàn)出明顯的非線性、正態(tài)分布和大樣本的特征,實現(xiàn)該類設(shè)備的在線監(jiān)控需要借助快速的時間序列模式識別技術(shù)。為此,本文提出一種基于分位數(shù)特征提取的時間序列模式分類方法。對高速運行的離心機設(shè)備狀態(tài)監(jiān)測展開分析,通過仿真實驗采集相關(guān)振動信號時間序列數(shù)據(jù),提取序列數(shù)據(jù)的分位數(shù),構(gòu)建特征向量,采用聚類方法實現(xiàn)模式的自動分類,并從分類準(zhǔn)確率角度與小波分析方法進行實驗效果的對比。
2.1 時間序列數(shù)據(jù)分段
高速運行的離心機設(shè)備故障監(jiān)測和診斷是需要一定采樣時間的。對這類高速運行的設(shè)備采集振動信號時間序列數(shù)據(jù)進行分析,通常單位采樣時間(如1 s)的數(shù)據(jù)樣本點個數(shù)較多(本文每秒鐘采集的振動信號數(shù)據(jù)樣本超過40 000)。然而設(shè)備狀態(tài)監(jiān)測要求有一定的時效性,為了更快速地識別設(shè)備運行狀態(tài),采樣時間長度通常較短。所以,在此將所采集到的振動信號時間序列數(shù)據(jù)進行分段分析,分段的依據(jù)是根據(jù)模式識別的時效性來決定。如實時監(jiān)測要求采樣時間長度為0.01 s,0.1 s或1 s等,則可以將1 s內(nèi)采集到的時間序列數(shù)據(jù)分別分成100段、10段和1段。給定離心機設(shè)備運行狀態(tài)的振動信號時間序列數(shù)據(jù){Xt,t=1,2,…,T},T為單位時間內(nèi)采樣的樣本總量。簡單起見,假定模式識別的時效性要求最小采樣時間長度為T0,將時間序列Xt等分為k(k為正整數(shù))個子序列,則T=k×T0。
當(dāng)然,也可以根據(jù)模式識別的時效性要求直接確定采樣時間長度,并采集相應(yīng)的樣本數(shù)據(jù)進行模式識別分析。本文之所以進行分段,是為了驗證模式識別方法在單個模式和多個模式組合2種情形下的識別性能。如實驗每秒鐘采集的振動信號數(shù)據(jù)為40 000個樣本點,模式識別時效性要求為0.1 s,則可以直接采集4 000個樣本構(gòu)建單個模式,然后進行模式識別分析;然而,設(shè)備運行狀態(tài)是連續(xù)的,人為參與設(shè)備運行狀態(tài)監(jiān)測是需要一個時間的,為此,進行必要的模式組合分析也可以為人為決策提供參考價值;如繼續(xù)采集下一個0.1 s內(nèi)的4 000樣本點,結(jié)合前0.1 s的4 000樣本點,構(gòu)建一個模式組合,然后進行識別分析。
綜上所述,假定所采集到的時間序列數(shù)據(jù){Xt,t=1,2,…,T},根據(jù)時效性要求將其分成k個子序列,對每個子序列提取相應(yīng)的特征構(gòu)建特征向量,則整個時間序列{Xt}的特征提取將得到一個特征模式矩陣。
2.2時間序列的分位數(shù)特征提取
分位數(shù),亦稱分位點,是指將一個隨機變量的概率分布范圍分為等份的數(shù)值點。在不考慮信號時間序列數(shù)據(jù)的時間維度(橫向)的特征時,分位數(shù)能有效地刻畫信號時間序列數(shù)據(jù)波動(縱向)的特征。隨著離心機的高速運行工作,其重心偏移通常是隨機的,所以,其振動信號數(shù)據(jù)沒有明顯的周期性。此時,分位數(shù)特征提取比較適合此類信號數(shù)據(jù)的處理。
對分段后的每個子序列,采用分位數(shù)來刻畫其數(shù)據(jù)分布特征。提取的分位數(shù)個數(shù)越多,則對子序列統(tǒng)計分布特點的刻畫越精細(xì),然而這將增加模式識別的計算量;而且,設(shè)備運行狀態(tài)所采集到的高頻數(shù)據(jù)呈現(xiàn)明顯的非線性和隨機性,采取少量分位數(shù)更有利于刻畫運行狀態(tài)的主要特征。
本文采取對稱原理開展分位數(shù)特征提取,即要求所提取的分位數(shù)關(guān)于中位數(shù)對稱,具體做法如下:首先采用了常用的3個四分位數(shù),其次引進常用的置信概率值95%和5%、90%和10%來確定4個分位數(shù),最后結(jié)合極大點和極小點來確定2個分位數(shù),共計9個分位數(shù)[10],按從大到小的順序排列,即極大值、95%分位數(shù)、90%分位數(shù)、75%分位數(shù)、50%分位數(shù)、25%分位數(shù)、10%分位數(shù)、5%分位數(shù)和極小值。此時,每個子序列將對應(yīng)一個9維的特征模式向量。則對整個時間序列{Xt,t=1,2,…,T}而言,共計有k個9維特征模式向量,將其排列成矩陣的形式,將得到一個特征模式矩陣F,如下:
其中,分段參數(shù)k=1時,將得到一個特征模式向量。
特征提取流程所得到的結(jié)果如圖1所示。其中,圖1(a)采樣時間長度為4 s;圖1(b)分段參數(shù)k=10;圖1(c)分段參數(shù)k=10。將該特征模式矩陣在三維空間直觀展示,如圖1(b)所示;并將其進行平滑,如圖1(c)所示;圖形是按照分位數(shù)取值大小呈現(xiàn)遞增的趨勢(自右向左)。
圖1 時間序列分段分位數(shù)特征的提取示意圖
經(jīng)過時間序列的分位數(shù)特征提取,可以實現(xiàn)設(shè)備運行狀態(tài)檢測所采集到的信號數(shù)據(jù)壓縮,提取設(shè)備運行狀態(tài)檢測的主要特征,以便進行下一步的模式分類研究。
2.3 時間序列模式的無監(jiān)督分類
采集離心機運行狀態(tài)的振動信號時間序列數(shù)據(jù),包括正常運行數(shù)據(jù)(空載)和異常運行數(shù)據(jù)(偏載)。采用Matlab軟件提取時間序列數(shù)據(jù)分段分位數(shù)特征,每個音頻數(shù)據(jù)都對應(yīng)1個特征模式矩陣。然后采用時間序列無監(jiān)督分類的方法進行設(shè)備監(jiān)測數(shù)據(jù)的模式分類。
聚類(Cluster)分析是研究分類問題的一種統(tǒng)計分析方法;它是由若干模式(Pattern)組成的,通常,模式是一個度量(Measurement)的向量(或矩陣);聚類分析以相似性為基礎(chǔ),在一個聚類中的模式之間比不在同一聚類中的模式之間具有更多的相似性。本文采用歐氏距離函數(shù)來度量2個特征模式矩陣X和Y之間的相似程度,如下:
繼而采用k-means算法進行時間序列聚類,考慮到設(shè)備狀態(tài)的正常(空載)和異常(偏載)2種模式,本文研究將所采集到的數(shù)據(jù)樣本分為2個類,即輸入?yún)?shù)k=2。將數(shù)據(jù)樣本劃分為2個類,確保同一類中的樣本對象相似度較高,不同類中的樣本相似度較小,達到各類本身盡可能的緊湊、各類之間盡可能的分開的目的。
k-means聚類算法如下:
輸入時間序列
輸出分類結(jié)果
Step1選取參數(shù)k的值。
Step2初始化k個聚類中心點(可采用隨機方式)。
Step3將N個樣本按照最近原則,進行歸類。
Step4重新估計k個聚類中心點。
Step5如果N的樣本的歸類結(jié)果不再改變,則完整,否則返回Step3。
2.4 模式分類結(jié)果評價
假定事先知道狀態(tài)模式分類的標(biāo)準(zhǔn),則分類結(jié)果可以采用客觀方法進行評價,如采用指標(biāo)Sim(G,A)來分析結(jié)果[11]。假定狀態(tài)模式分類的標(biāo)準(zhǔn)為向量G={G1,G2,…,Gm},而采用某種方法得到的模式分類結(jié)果為向量A={A1,A2,…,Am},可根據(jù)下式計算客觀評價的準(zhǔn)確率指標(biāo):
其中,指標(biāo)Sim(G,A)取值范圍為(0,1),取值越大,表明模式分類結(jié)果越接近真實情況,分類效果越好。
假定事先不知道狀態(tài)模式分類的標(biāo)準(zhǔn),則分類結(jié)果可以采用主觀方法進行判定;如將分類后的2組時間序列數(shù)據(jù)的折線圖分別繪出,并進行直觀判定分析[12]。
3.1 沉降式離心機的運行狀態(tài)模式
沉降式離心機系統(tǒng)是乏燃料后處理中的關(guān)鍵設(shè)備,可以處理核動力堆中含有一定數(shù)量的不溶物。沉降式離心機包括機架、上軸組件、轉(zhuǎn)鼓等部件。電動機轉(zhuǎn)動帶動上軸組件,帶動與其相連的轉(zhuǎn)鼓,加入轉(zhuǎn)鼓中的懸浮液在離心力作用下形成環(huán)狀液層,其中的固體顆粒沉降到轉(zhuǎn)鼓壁上,形成沉渣;澄清的液體經(jīng)轉(zhuǎn)鼓清液口或吸液管排出。沉降式離心機設(shè)備故障模式主要包括以下情況:(1)轉(zhuǎn)鼓的脆性破壞、裂紋,故障原因為轉(zhuǎn)鼓所用材料晶粒粗大,組織不均勻;(2)沉降式離心機在空載和加水實驗中出現(xiàn)振
動、雜音、振幅偏大現(xiàn)象,故障原因為系統(tǒng)動力不平衡;(3)離心機機架松動,造成離心機系統(tǒng)運行震動加劇,故障原因為高速旋轉(zhuǎn)造成整個機架筋板疲勞破壞。
考慮到目前能在乏燃料輻射環(huán)境下長期工作的傳感器沒有成熟產(chǎn)品,本文對沉降式離心機機采取模擬仿真的方式進行實驗;針對沉降式離心機系統(tǒng)動力不平衡造成的振動和振幅偏大現(xiàn)象進行監(jiān)測和分析,模擬其在空載運行和偏載運行2種狀態(tài),采集相應(yīng)的振動信號時間序列數(shù)據(jù)進行分析。
3.2 數(shù)據(jù)特征分析
采集沉降式離心機設(shè)備運行過程中的振動數(shù)據(jù)。實驗方案如下:第1步,對沉降式離心機采用空載實驗;第2步,對對沉降式離心機內(nèi)壁附加鐵塊進行實驗,模擬系統(tǒng)動力不平衡時(偏載)的運行狀態(tài)。實驗過程中通過調(diào)頻調(diào)速器施加轉(zhuǎn)速(調(diào)頻調(diào)速器頻率越高,則離心機轉(zhuǎn)速越快),利用YD9200振動速度傳感器采集相應(yīng)的振動信號數(shù)據(jù)。傳感器采樣頻率約44 100次/s,考慮到運行狀態(tài)檢測的時效性需求,實驗采樣時間長度定為3 s,實驗數(shù)據(jù)呈現(xiàn)出明顯的大樣本性質(zhì)。
對所采集到的設(shè)備振動信號時間序列數(shù)據(jù)進行正態(tài)分布檢驗,設(shè)定顯著性水平值為0.05,采用SAS(Statistics Analysis System)系統(tǒng)軟件中的KOLMOGOROV統(tǒng)計量進行分析,檢驗結(jié)果如表1所示,大部分樣本都服從正態(tài)分布;只有調(diào)頻調(diào)速器調(diào)頻調(diào)速器頻率為50 Hz時,負(fù)載實驗中部分樣本數(shù)據(jù)呈現(xiàn)非正態(tài)分布情形;實樣總體樣本數(shù)為325個,服從正態(tài)分布的樣本數(shù)為313個,占樣本總量的96.3%。繪制出振動信號時間序列數(shù)據(jù)圖形,如圖1(a)所示,設(shè)備運行狀態(tài)檢測數(shù)據(jù)呈現(xiàn)比較明顯的隨機噪聲特征。
表1 正態(tài)分布實驗結(jié)果
3.3 模式分類
小波分析由于其優(yōu)越的性能使得其在模式分類得到了廣泛應(yīng)用,在此采取小波分析來進行實驗對比分析??紤]到模式識別的時效性要求,對所采集到的振動信號時間序列數(shù)據(jù)截取其第一秒數(shù)據(jù),此時時間序列樣本的數(shù)據(jù)個數(shù)為T=44 100。
首先,采用Matlab/Wavread函數(shù)進行讀取所采集到的振動信號時間序列數(shù)據(jù),并采用Daubechies正交小波提取時間序列數(shù)據(jù)的特征,得到相應(yīng)的特征向量;然后按照圖1的流程,采用分位數(shù)特征提取方式進行處理,得到特征矩陣向量;最后采用基于kmeans算法的聚類方法進行無監(jiān)督分類,計算分類的準(zhǔn)確率,如表2~表4所示。
表2 模式分類的實驗結(jié)果(k=1,T0=44 100)
表3 模式分類的實驗結(jié)果(k=1,T0=4 410)
表4 模式分類的實驗結(jié)果(k=10,T0=4 410)
3個表包含了3種情況的實驗結(jié)果:(1)振動信號時間序列數(shù)據(jù)長度為4 410時,分段參數(shù)k=1,即采用單個模式進行分析,如表2所示;(2)振動信號時間序列數(shù)據(jù)長度為44 100時,分段參數(shù)k=1,即采用單個模式進行分析,如表3所示;(3)振動信號時間序列數(shù)據(jù)長度為44 100時,分段參數(shù)k=10,即采用多個模式進行組合分析,如表4所示。實驗結(jié)
果都表明:(1)3種實驗結(jié)果都表明,基于分位數(shù)特征提取的模式分類技術(shù)的準(zhǔn)確率都明顯高于小波分析;(2)當(dāng)調(diào)頻調(diào)速器取值為1.73 Hz時,基于分位數(shù)特征提取的模式分類技術(shù)的準(zhǔn)確率偏低,但其他6種情形下的分類準(zhǔn)確率都超過90%,部分轉(zhuǎn)速時分類準(zhǔn)確率達到100%。這表明基于時間序列分位數(shù)特征提取的模式分類方法能對沉降式離心機故障模式進行較好地分類。
本文提出一種基于分位數(shù)特征提取的時間序列模式分類方法。針對高速運行離心機設(shè)備的狀態(tài)監(jiān)測進行研究,采用分位數(shù)特征提取方法建立時間序列的模式特征矩陣,借助k-means算法實現(xiàn)模式的自動分類。仿真結(jié)果表明,該方法能有效區(qū)分設(shè)備運行狀態(tài)模式。今后將繼續(xù)采集不同負(fù)載情況下(負(fù)載重量不同)的振動數(shù)據(jù),對本文的模式分類技術(shù)做進一步分析。同時,在此基礎(chǔ)上建立設(shè)備運行狀態(tài)的故障診斷技術(shù),形成一套完備的設(shè)備運行狀態(tài)監(jiān)控方法。
致謝:感謝南華大學(xué)核設(shè)施退役與處置研究所為本文研究提供了離心機設(shè)備運行狀態(tài)的模擬實驗環(huán)境。
[1]李正欣,張鳳鳴,李克武.基于DTW的多元時間序列模式匹配方法[J].模式識別與人工智能,2011,24(3): 425-430.
[2]張 勇.時間序列模式匹配技術(shù)研究[D].武漢:華中科技大學(xué),2012.
[3]韓秋實,許寶杰,王紅軍,等.旋轉(zhuǎn)機械故障診斷監(jiān)測專家系統(tǒng)中的時間序列模式識別技術(shù)研究[J].機械工程學(xué)報,2002,38(3):104-107.
[4]閆 偉,張 浩,陸劍峰.基于設(shè)備故障監(jiān)控的時間序列模式研究應(yīng)用[J].計算機應(yīng)用,2005,25(7): 1587-1590.
[5]亢子云.一種基于時間序列的故障診斷算法[J].數(shù)字技術(shù)與應(yīng)用,2011,(2):89-90.
[6]陳 偉,李 旭,張為公.基于時間序列分析的車載MEMS陀螺儀異常測量數(shù)據(jù)的辨識與修正[J].東南大學(xué)學(xué)報,2013,29(2):170-174.
[7]吳文兵,黃宜堅,陳文薌.復(fù)雙譜耦合性質(zhì)在故障診斷中的應(yīng)用[J].北京工業(yè)大學(xué)學(xué)報,2012,38(9): 1287-1292.
[8]胥永剛,孟志鵬,趙國亮.基于雙樹復(fù)小波包變換能量泄漏特性分析的齒輪故障診斷[J].農(nóng)業(yè)工程學(xué)報, 2014,30(2):72-77.
[9]傅勤毅,熊施園.基于小波分析的齒輪箱故障診斷[J].鐵道科學(xué)與工程學(xué)報,2013,10(1):112-116.
[10]管河山,姜青山.基于點分布特征的多元時間序列模式匹配方法[J].軟件學(xué)報,2009,20(1):67-79.
[11]Gavrilov M,Anguelov D,Indyk P,et al.Mining the Stock Market:Which Measure is Best[C]//Proceedings of KDD’00.Boston,USA:[s.n.],2000:487-496.
[12]Keogh E,Kasetty S.On the Need for Time Series Data MiningBenchmarks:ASurveyandEmpirical Demonstration[J].DataMiningandKnowledge Discovery,2002,7(4):349-371.
編輯 劉 冰
Time Sequence Pattern Classification Based on Quantile Feature Extraction
GUAN Heshana,WANG Qiana,TANG Dewenb
(a.School of Economics Management;b.School of Mechanical Engineering, University of South China,Hengyang 421001,China)
The vibration state detection data from the centrifuge equipment in high-speed operation usually presents obvious nonlinearity,normal distribution and the characteristics of large sample,and random fluctuations in the data make it difficult to capture the trend characteristics.In this paper,time sequence theory is used to analyze the vibration signal data gathered from the running centrifuge equipment.It uses the quantile of the sequence data to build the feature vector according to the symmetrical principle,and introduces the Euclidean distance function to construct similarity measure,and then sets up the decision basis for pattern classification,realizes the pattern classification employing the k-means classification algorithm.Simulation results show that this method can effectively distinguish the partial load state and noload state of the centrifuge equipment,which is more accurate than that of wavelet analysis method.
quantile;time sequence;pattern classification;centrifugal machine;vibration signal;wavelet
管河山,王 謙,唐德文.基于分位數(shù)特征提取的時間序列模式分類[J].計算機工程,2015,41(3):167-171.
英文引用格式:Guan Heshan,Wang Qian,Tang Dewen.Time Sequence Pattern Classification Based on Quantile Feature Extraction[J].Computer Engineering,2015,41(3):167-171.
1000-3428(2015)03-0167-05
:A
:TP391.4
10.3969/j.issn.1000-3428.2015.03.032
湖南省博士后基金資助項目(2012RS4026);南華大學(xué)校博士啟動基金資助項目(2009XQD03)。
管河山(1981-),男,副教授、博士,主研方向:數(shù)據(jù)挖掘,模式識別;王 謙,碩士研究生;唐德文,副教授、博士。
2014-03-26
:2014-05-27E-mail:guanheshan@aliyun.com