黃雄波
(佛山職業(yè)技術(shù)學(xué)院 電子信息系,佛山 528137)
非平穩(wěn)時序數(shù)據(jù)的分段辨識及其遞推算法①
黃雄波
(佛山職業(yè)技術(shù)學(xué)院 電子信息系,佛山 528137)
在實際生活中,廣泛地存在著一類在整體上屬于非平穩(wěn)但又可轉(zhuǎn)化為數(shù)段局部平穩(wěn)的時序數(shù)據(jù),對該類非平穩(wěn)時序數(shù)據(jù)的辨識問題進行了研究,并提出了一種具有遞推機制的分段辨識算法.該算法從平穩(wěn)時序數(shù)據(jù)的定義出發(fā),以均值、方差及自相關(guān)函數(shù)等數(shù)字統(tǒng)計特征為校驗統(tǒng)計量,構(gòu)造了具有遞推機制的均值突變點、方差突變點及自相關(guān)函數(shù)突變點的析出算法,在此基礎(chǔ)上,從被辨識的非平穩(wěn)序列中劃分出數(shù)段局部平穩(wěn)的子序列,進一步,應(yīng)用Burg算法對各局部平穩(wěn)子序列進行了自回歸的遞推辨識.實驗表明,新設(shè)計的算法能以較小的位置偏差析出各局部平穩(wěn)子序列的分界點,同時,在保證較高精度的辨識條件下,計算效能獲得了顯著的提升.
非平穩(wěn)時序數(shù)據(jù);局部平穩(wěn);分段辨識;遞推;分界點;自回歸模型
時序數(shù)據(jù)根據(jù)其統(tǒng)計結(jié)構(gòu)是否具有時變的特點,可分為平穩(wěn)序列和非平穩(wěn)序列兩大類,通常,人們所獲取到的時序數(shù)據(jù)大多為非平穩(wěn)序列,也就是說,其有關(guān)的統(tǒng)計特性是隨著時間t的變化而變化的.對于平穩(wěn)時序數(shù)據(jù)而言,其線性辨識模型主要有三種, AR(自回歸)模型、MA(滑動平均)模型和自回歸滑動平均(ARMA)模型,這些模型可以相互轉(zhuǎn)換,而辨識的主要任務(wù)有兩個方面,辨識模型階次的確定和辨識模型參數(shù)的估計.近年來,眾多專家學(xué)者圍繞這三種辨識模型展開了系統(tǒng)而深入的研究[1-9],例如,張賢達針對帶有高斯ARMA噪聲的平穩(wěn)時序數(shù)據(jù),提出了一種高階累量的MA模型辨識算法;熊淵博研究了一種線性算法,將ARMA模型辨識問題中的非線性求解問題化簡為求解兩組線性方程組;周毅等通過用AR模型等價ARMA模型的思想,提出了一種確定ARMA模型參數(shù)估計方法,并給出了計算等價 AR模型參數(shù)估計的依階次遞增遞推算法.
相對地,非平穩(wěn)時序數(shù)據(jù)還沒有形成統(tǒng)一而完整的分析方法[10,11].據(jù)此,在實際應(yīng)用中,通常是運用適當(dāng)?shù)臄?shù)學(xué)變換把非平穩(wěn)時序數(shù)據(jù)轉(zhuǎn)化為平穩(wěn)時序數(shù)據(jù),并以此作為實際物理過程的近似.例如,經(jīng)典的博克斯-詹金斯辨識方法就是通過對非平穩(wěn)時序數(shù)據(jù)進行有限次的差分處理,把非平穩(wěn)序列化為平穩(wěn)序列;朱學(xué)鋒等基于Mallat快速小波算法對非平穩(wěn)時序數(shù)據(jù)進行了分解和重構(gòu),進而獲得了趨勢項序列和剔除趨勢項后的零均值平穩(wěn)時序數(shù)據(jù)[12];林樹寬等針對時序數(shù)據(jù)的非平穩(wěn)性,通過經(jīng)驗?zāi)J椒纸獾玫搅巳舾蓚€平穩(wěn)序列和趨勢項,在此基礎(chǔ)上,對每個平穩(wěn)序列建立相應(yīng)的辨識模型[13].
在實際生活中,廣泛地存在著一類在整體上屬于非平穩(wěn)但又可轉(zhuǎn)化為數(shù)段局部平穩(wěn)的時序數(shù)據(jù), P.M.Djuric等最早應(yīng)用貝葉斯法對該類辨識問題進行了研究,并導(dǎo)出了一個關(guān)于分段數(shù)、各段自回歸模型階數(shù)和各段之間分界點的優(yōu)化方程[14];在此基礎(chǔ)上,王文華等推導(dǎo)出一些具有遞歸關(guān)系的求解表達式,從而有效地簡化了優(yōu)化方程的求解[15];為進一步提升計算效能,陳穎等結(jié)合自回歸AR(Auto regressive)模型本身固有的特性,提出了直接遞推多維聯(lián)合分布概率的優(yōu)化方程求解方法[16].總體而言,基于貝葉斯法框架的辨識算法仍然存在著計算復(fù)雜的效率問題,究其原因是由于在估計最優(yōu)劃分參數(shù)值時需要計算多維條件的分布概率.據(jù)此,本文擬從平穩(wěn)時序數(shù)據(jù)的定義出發(fā),設(shè)計實現(xiàn)一種新的具有遞推機制的分段辨識算法,該算法的主要思想是:以均值、方差及自相關(guān)函數(shù)等數(shù)字統(tǒng)計特征為校驗統(tǒng)計量,構(gòu)造具有遞推機制的均值突變點、方差突變點及自相關(guān)函數(shù)突變點的析出算法,進而能快速有效地析出了各局部平穩(wěn)子序列的分界點,最后基于自回歸AR模型對這些局部平穩(wěn)子序列進行遞推辨識.實驗結(jié)果表明,該辨識算法在保證辨識精度的基礎(chǔ)上獲得了顯著的計算效能的提升.
2.1 非平穩(wěn)時序數(shù)據(jù)的數(shù)字統(tǒng)計特征描述
從定義1易知,若某一時序數(shù)據(jù)為非平穩(wěn)時序數(shù)據(jù),則它的均值、方差及自相關(guān)函數(shù)等數(shù)字統(tǒng)計特征將部分或全部地隨時間t的變化而變化.據(jù)此,可用如下的時變函數(shù)對上述非平穩(wěn)時序數(shù)據(jù)的統(tǒng)計特征進行描述:
均值為:
方差為:
自相關(guān)函數(shù)為:
2.2 分段局部平穩(wěn)時序數(shù)據(jù)的辨識問題
1)在0£t£n范圍內(nèi)具有非平穩(wěn)的特征;
從定義2可知,分段局部平穩(wěn)時序數(shù)據(jù)Yt的部分或全部統(tǒng)計特性在一些時刻(如定義中的e,f,…,g)里發(fā)生突變,但對各獨立的子序列而言,它們又為平穩(wěn)子序列.通常,也把這些突變時刻稱為分界點.
在現(xiàn)實生活中,嚴(yán)格意義上的平穩(wěn)序列是很難找到的,但很多真實序列在某一局部的時間范圍內(nèi)仍可用平穩(wěn)序列來獲得較為精確的描述,據(jù)此,研究分段局部平穩(wěn)時序數(shù)據(jù)的辨識算法有著較為重要的現(xiàn)實意義.對分段局部平穩(wěn)時序數(shù)據(jù)進行辨識,其首要的問題是找出各局部平穩(wěn)子序列之間的分界點,其次是確定這些子序列的模型階次和辨識參數(shù).
3.1 算法的設(shè)計原理
1)分界點的析出方法
對于某一平穩(wěn)時序數(shù)據(jù)而言,將它拆分為m段樣本長度為k的子序列(各段子序列的樣本長度也可以不相等),則這些子序列的均值、方差和自相關(guān)函數(shù)的樣本參數(shù)估計值可分別用如下的算式進行計算:
如前所述,這些從平穩(wěn)序列拆分出來的子序列都應(yīng)具有一致的數(shù)字統(tǒng)計特征,即任兩個子序列之間的均值、方差和自相關(guān)函數(shù)等數(shù)字特征不應(yīng)有顯著性的差異.據(jù)此,以上述數(shù)字特征的理論方差為校驗統(tǒng)計量,取顯著水平α=0.05,若式(7)~(9)同時成立,則可判定u,v兩個子序列是屬于同一平穩(wěn)序列[18-19].
根據(jù)上述的分析,我們可以得到一種如下的局部平穩(wěn)時序數(shù)據(jù)分界點的析出算法:按照自左到右的次序往原序列添加Step(Step≥1)個樣本數(shù)據(jù),并利用式(4)~(6)分別計算原序列的及添加數(shù)據(jù)后的新序列的同時,利用式(10)~(12)分別計算出然后根據(jù)式(7)~(9)對兩個子序列的均值、方差和自相關(guān)函數(shù)等數(shù)字特征的顯著性進行判別,從而決定當(dāng)前所添加的第Step點是否為突變點.重復(fù)遍歷處理整個序列,直至從原序列中析出所有的突變點為止.
從式(10)~(12)易知,對添加樣本后的序列進行相關(guān)的顯著性校驗時,均需要顯式調(diào)用均值、方差和自相關(guān)函數(shù)的樣本參數(shù)估計值,為了更好地提高算法的計算效能,有必要對式(4)~(5)進行遞推計算的改進.
由于:
聯(lián)合式(14),則從式(15)可得到如下的方差遞推計算表達式
又由于:
類似地,聯(lián)合式(17),則可從式(18)得到如下的自 相關(guān)函數(shù)遞推計算表達式:
2)基于AR模型的各分段局部平穩(wěn)時序數(shù)據(jù)的辨識
而模型階次 p則可用式(22)所示的 FPE(Final Prediction Error)最小最終預(yù)報誤差準(zhǔn)則來確定[21].
3.2 算法的設(shè)計實現(xiàn)
綜上所述,可設(shè)計如下的分段局部平穩(wěn)時序數(shù)據(jù)的遞推辨識算法.
步驟1.在Yt中析出各局部平穩(wěn)子時序數(shù)據(jù)的分界點.
1)從Yt的最左端選取L個右鄰樣本數(shù)據(jù)構(gòu)成Y1t子序列;
2)利 用 式 (4)~(6)計 算 Y1t對 應(yīng) 的
3)往Y1t中添加Step個右鄰樣本數(shù)據(jù)并合并成子序列,利用式(13)、(16)、(19)遞推計算Y2t對應(yīng)的y
5)用式(7)~(9)對第Step點進行突變分界點判別,若第Step點為分界點,則保存分界點同時設(shè)置第Step點為Y1t子序列的左起點并跳轉(zhuǎn)(1.2);否則,并跳轉(zhuǎn)(1.3);若Yt遍歷處理完畢后,跳轉(zhuǎn)步驟2.
步驟2.依據(jù)步驟1中所得的各分界點,將Yt劃分為數(shù)段局部平穩(wěn)的子序列在此基礎(chǔ)上,基于AR模型對各段局部平穩(wěn)子序列進行辨識,辨識參數(shù)和模型階次可由式(21)和式(22)得到.
步驟3.輸出有關(guān)計算結(jié)果并結(jié)束算法.
為了驗證上述算法的合理性及有效性,這里將對具有分段局部平穩(wěn)的時序數(shù)據(jù)進行相關(guān)的辨識實驗,實驗的主要目的是對比本文算法與現(xiàn)有算法在辨識精度及計算效能上的差異.實驗的硬件環(huán)境為惠普ProDesk 490 G2 MT商 用 臺 式 機 (CPU:i5-45704*3.2GHz;內(nèi)存:4GB DDR3 1600),軟件環(huán)境及開發(fā)工具為Windows 8.1+Microsoft Visual C++2010.
4.1 實驗設(shè)計
實驗所用的模型如式(23)所示,如圖1所示,該模型由3段樣本長度均為100的局部平穩(wěn)子序列組成.
圖1 由3段局部平穩(wěn)子序列組成的實驗?zāi)P?/p>
分別用文獻[15]、文獻[16]及本文的算法對式(23)進行相關(guān)辨識,辨識的任務(wù)為析出各局部平穩(wěn)子序列的分界點,并確定這些子序列的模型階次和辨識參數(shù).
4.2 實驗結(jié)果與討論
如表1所示,文獻[15]、文獻[16]及本文的算法均能正確地從實驗?zāi)P椭形龀?段局部平穩(wěn)子序列;在分界點的劃分精度問題上,文獻[15]的算法在第1、2個分界點上分別偏離了實驗?zāi)P?個和2個樣本點,文獻[16]的算法則分別偏離了4個和2個樣本點,而本文的算法則分別偏離了8個和7個樣本點,上述算法所析出分界點的誤差范圍均在10%以內(nèi).據(jù)此,應(yīng)用均值、方差及自相關(guān)函數(shù)等數(shù)字統(tǒng)計特征對時序數(shù)據(jù)進行平穩(wěn)性校驗是有效的.對于各局部平穩(wěn)子序列的模型階次而言,上述算法均能正確地識別出與實驗?zāi)P拖嘁恢碌碾A次.
表1 三種算法的辨識結(jié)果
分界點的析出偏差所引起的辨識精度問題,可用式(24)的平均絕對百分誤差(MAPE,mean absolute percentage)來進行評價.如表2所示,文獻[15]的算法的辨識精度最高,其次是文獻[16]的算法,而本文的算法在辨識精度上略差于上述2種辨識算法,究其原因是因為在遞推計算過程中本文算法存在著固有的積累誤差,從而使得分界點的析出范圍過大,并最終導(dǎo)致了Burg算法在模型參數(shù)估計時出現(xiàn)了一定的偏差.本文的算法的MAPE數(shù)值雖然比文獻[15]和[16]的算法有所增加,但由于各辨識曲線的MAPE數(shù)值均沒有超出10%,故本文的算法仍屬于高精度辨識.
表2 三種算法的辨識精度評價
如表3所示,本文算法在辨識耗時上有了顯著的提升,其計算效能較文獻[15]和文獻[16]的算法分別提升了約80%和70%.事實上,由于在分界點的析出過程中引入了遞推機制,故本文算法的計算耗時主要是花費在各局部平穩(wěn)子序列的模型定階及模型參數(shù)估計的過程中;相對地,文獻[15]和文獻[16]的算法由于需要計算多維條件的分布概率來估計最優(yōu)分界點,故它們的計算耗時主要是花費在分界點的析出過程中.
表3 三種算法的辨識耗時
從上述實驗結(jié)果及分析中易知,本文提出的分段局部平穩(wěn)時序數(shù)據(jù)的遞推辨識算法是有效可行的,在保證高精度的辨識條件下,本文算法在計算效能取得了顯著的提升.
本文設(shè)計實現(xiàn)了一種具有遞推機制的分段局部平穩(wěn)時序數(shù)據(jù)的辨識算法,并就算法的辨識精度和計算效能進行了深入的分析.下一步的主要工作有,設(shè)法減少遞推過程中的積累誤差,以便更精確地析出各局部平穩(wěn)時序數(shù)據(jù)的分界點;同時,研究各分段局部平穩(wěn)時序數(shù)據(jù)的并行辨識問題,從而更好地提升算法的計算效能.
1張賢達.用高階累量辨識MA系統(tǒng)的新方法.電子學(xué)報, 1994,22(10):27–33.
2王正明,易東云.含ARMA噪聲系統(tǒng)模型的參數(shù)辨識方法,控制理論與應(yīng)用,1996,13(8):471–475.
3熊淵博.ARMA模型參數(shù)的分步估計方法.湖南大學(xué)學(xué)報(自然科學(xué)版),2003,30(2):12–15.
4周毅,丁鋒.依等價AR模型階次遞增的自回歸滑動平均模型辨識.華東理工大學(xué)學(xué)報(自然科學(xué)版),2008,34(3): 425–431.
5張新廣,李志農(nóng),王心怡,等.一種基于階比域的AR模型盲辨識算法.振動與沖擊,2009,28(5):41–43.
6博克斯,詹金斯,萊因澤爾.時間序列分析:預(yù)測與控制.北京:機械工業(yè)出版社,2011.
7 Matilainen M,Nordhausen K,Oja H.New independent component analysis tools for time series.Statistics& Probability Letters,2015:80–87.
8 Yin Y,Shang PJ,Xia JN.Compositional segmentation of time series in the financial markets.Applied Mathematics and Computation,2015:399–412.
9 Bernas M,P?aczek B.Period-aware local modelling and data selection for time series prediction.Mechanical Systems and Signal Processing,2016:60–77.
10王宏禹,邱天爽,陳喆.非平穩(wěn)隨機信號分析與處理.北京:國防工業(yè)出版社,2008.
11 Spiridonakos MD,Fassois SD.Adaptable functional series TARMA models for non-stationary signal representation and their application to mechanical random vibration modeling.Signal Processing,2014:63–79.
12朱學(xué)鋒,韓寧.基于小波變換的非平穩(wěn)信號趨勢項剔除方法.飛行器測控學(xué)報,2006,25(5):81–85.
13林樹寬,楊玫,喬建忠,等.一種非線性非平穩(wěn)時間序列預(yù)測建模方法.東北大學(xué)學(xué)報(自然科學(xué)版),2007,28(3): 325–328.
14 DjuricPM,Kay SM.FayeBoundreaux-BartelsG. Segmentation of nonstationary signals.Proc.of the IEEE ICASSP.1992.161–164.
15王文華,王宏禹.分段平穩(wěn)隨機過程的參數(shù)估計方法.電子科學(xué)學(xué)刊,1997,19(5):311–317.
16陳穎,李在銘.一種改進的分段平穩(wěn)隨機過程的參數(shù)估計方法.電子與信息學(xué)報,2003,25(6):735–740.
17金連文,韋崗.現(xiàn)代數(shù)字信號處理簡明教程.北京:清華大學(xué)出版社,2003.
18楊叔子,吳雅,軒建平,等.時間序列分析的工程應(yīng)用(上冊).武漢:華中科技大學(xué)出版社,2007.
19項靜恬.動態(tài)數(shù)據(jù)處理-時間序列分析.北京:氣象出版社,1986.
20黃雄波.時序數(shù)據(jù)的周期模式發(fā)現(xiàn)算法的遞推改進.計算機技術(shù)與發(fā)展,2016,26(2):47–51.
21克西蓋斯納,沃特斯,哈斯勒.現(xiàn)代時間序列分析導(dǎo)論.北京:中國人民大學(xué)出版社,2015.
SegmentedIdentification and RecursiveAlgorithm forNon-StationaryTime Series Data
HUANG Xiong-Bo
(Department of Electronic and Information Engineering,Foshan Professional Technical College,Foshan 528137,China)
In fact,there widely exists a kind of time series data that is non-stationary but can be transformed into several local stationary time series data,the identification problem of the non-stationary time series data is studied,and then this paper proposes a piecewise recursive identification algorithm with mechanism.Based on the definition of stationary time series data,the precipitation algorithm which has the mean variance point,the mutation point and the mutation point of the autocorrelation function,is constructed based on the statistical characteristics such as the mean and variance and autocorrelation function.On this basis,a series of locally stationary sub sequences are identified from the identified non-stationary sequences,and then,the Burg algorithm is applied to the recursive identification of local stationary subsequences.The experimental results show that the new algorithm can divide the boundary points of the local stationary sub sequences with smaller position deviation.At the same time,the calculation efficiency is improved significantly under the condition of high accuracy.
non-stationary time series data;local stationary;segmented identification;recursion;demarcation point; auto-regressive model
廣東省科技計劃工業(yè)攻關(guān)項目(2011B010200031);佛山職業(yè)技術(shù)學(xué)院校級重點科研項目(2015KY006)
2016-08-14;收到修改稿時間:2016-10-19
10.15888/j.cnki.csa.005772