屠立峰 包騰飛 李月嬌 趙 斌
(1.河海大學(xué) 水利水電學(xué)院,南京 210098;2.河海大學(xué) 水資源高效利用與工程安全國(guó)家工程研究中心,南京 210098;3.南京南瑞集團(tuán)公司 國(guó)際公司,南京 210093)
大壩的變形、應(yīng)力和作用荷載等觀測(cè)資料均為典型的時(shí)間序列,故可通過(guò)過(guò)去的觀測(cè)值來(lái)預(yù)估未來(lái)的觀測(cè)值.對(duì)于非平穩(wěn)的時(shí)間序列,差分自回歸移動(dòng)平均模型(ARIMA模型)具有良好的適應(yīng)性,常作為經(jīng)典的時(shí)間序列模型[1].時(shí)間序列覆蓋的歷史越長(zhǎng),可靠性也就越高,但也越有可能包含缺失值,所以對(duì)該組數(shù)據(jù)進(jìn)行分析時(shí),預(yù)測(cè)和擬合數(shù)據(jù)與實(shí)際監(jiān)測(cè)值會(huì)有較大的誤差.對(duì)于缺失率較低的情況可用現(xiàn)有的數(shù)據(jù)進(jìn)行分析,然而大量信息的丟棄會(huì)使數(shù)據(jù)分布產(chǎn)生偏斜而扭曲數(shù)據(jù)挖掘和數(shù)據(jù)分析,從而誤導(dǎo)決策,為此需通過(guò)數(shù)據(jù)填補(bǔ)來(lái)解決.通過(guò)函數(shù)插值可以彌補(bǔ)時(shí)間序列存在缺失值而導(dǎo)致預(yù)測(cè)誤差較大的弊端,然而傳統(tǒng)的插值函數(shù)由于兩端的插值區(qū)間易出現(xiàn)“龍格現(xiàn)象”而限制了在擬合和數(shù)據(jù)處理中的應(yīng)用,基于此學(xué)者們提出了分形插值的方法.分形插值是基于分形幾何學(xué)提出的迭代函數(shù)系統(tǒng),分形幾何學(xué)指出任何一個(gè)局部都與整體自相似或統(tǒng)計(jì)自相似,因此可將已知數(shù)據(jù)插值成具有自相似結(jié)構(gòu)的曲線(xiàn)和曲面.研究表明,分形插值與傳統(tǒng)的插值方法相比具有更高的精度和適應(yīng)性[2].考慮到大壩監(jiān)測(cè)數(shù)據(jù)間復(fù)雜的動(dòng)態(tài)性和非線(xiàn)性的特點(diǎn),本文為彌補(bǔ)ARIMA模型對(duì)含有時(shí)間缺失值的序列預(yù)測(cè)失準(zhǔn)的弊端,對(duì)缺失的時(shí)間序列進(jìn)行分形插值,以提高模型的預(yù)測(cè)精度.
一個(gè)數(shù)據(jù)集合是形如{(xi,yi)∈R2|i=0,1,2,…,N}的點(diǎn)集,其中
插值函數(shù)對(duì)應(yīng)的這組數(shù)據(jù)是一個(gè)連續(xù)函數(shù)f:[x0,xN]→R,如
點(diǎn)(xi,yi)∈R2稱(chēng)為插值點(diǎn),f(x)被稱(chēng)為插值函數(shù).
傳統(tǒng)的插值函數(shù)一般由初等函數(shù)的一組基函數(shù)線(xiàn)性表觀的,相鄰的插值點(diǎn)只可用直線(xiàn)或光滑的弧線(xiàn)銜接,卻得不到兩點(diǎn)之間的部分情況.分形插值函數(shù)是由一類(lèi)特殊的仿射變換生成的,它可以得到兩個(gè)相鄰的信息點(diǎn)之間的局部變化,它為描述了一個(gè)不規(guī)則、隨機(jī)曲線(xiàn)擬合的實(shí)驗(yàn)數(shù)據(jù)提供了強(qiáng)大的工具[3].
給定數(shù)據(jù)集{(xi,yi)|i=0,1,2,…,N},構(gòu)造迭代函數(shù)系統(tǒng)(IFS){R2;Wn,n=1,2,…,N},其中Wn是具有如下型式的仿射變換:
并且
為了確保各小區(qū)間的不交迭,令式(3)中的bn=0.式(4)具體可寫(xiě)為
式(5)中有4個(gè)方程5個(gè)參數(shù),所以其中一個(gè)是自由參數(shù).在一般情況下,選擇dn為自由參量,稱(chēng)為變換Wn的垂直比例因子.為保證IFS收斂,令|dn|<1,解方程組(5),并令L=xN-x0,則
ARIMA模型是指經(jīng)過(guò)差分將非平穩(wěn)的時(shí)間序列轉(zhuǎn)化為平穩(wěn)的時(shí)間序列,而后根據(jù)轉(zhuǎn)化后得到的平穩(wěn)時(shí)間序列創(chuàng)建ARIMA模型.該模型認(rèn)為:系列數(shù)據(jù)隨著時(shí)間的推移,預(yù)測(cè)形成隨機(jī)序列,利用近似數(shù)學(xué)模型來(lái)描述這個(gè)隨機(jī)序列,識(shí)別后的模型就能利用時(shí)間序列的過(guò)去值對(duì)未來(lái)進(jìn)行預(yù)測(cè)[4].
ARIMA(p,d,q)模型數(shù)學(xué)表達(dá)式如公式(7)所示:
式中,φm(m=1,2,…,p)是自回歸模型的系數(shù),θj(j=1,2,…,q)均滑動(dòng)模型的系數(shù),p為自回歸階數(shù),q為滑動(dòng)平均部分的階數(shù),at白噪聲序列.
大壩安全監(jiān)測(cè)數(shù)據(jù)一般為非平穩(wěn)時(shí)間序列,模型建立步驟如下:
1)判斷給定的時(shí)間序列是否含有缺失值,若為有缺損值的時(shí)間序列需對(duì)該組數(shù)據(jù)進(jìn)行分形插值,得到數(shù)據(jù)填補(bǔ)后的序列樣本.反之則跳轉(zhuǎn)至2).
2)進(jìn)行平穩(wěn)性檢驗(yàn)得到參數(shù)d,即差分階數(shù).平穩(wěn)性檢驗(yàn)常用的方法有兩種:一種是圖檢驗(yàn)法,另一種是構(gòu)造檢驗(yàn)統(tǒng)計(jì)量進(jìn)行假設(shè)檢驗(yàn)的方法[5].圖檢驗(yàn)法是依據(jù)自相關(guān)圖的平穩(wěn)性檢驗(yàn)方法,因其簡(jiǎn)便和運(yùn)用廣泛的特點(diǎn),采用該方法將大壩安全監(jiān)測(cè)量轉(zhuǎn)化為平穩(wěn)的時(shí)間序列.
3)確定模型類(lèi)型后,使用赤池信息量準(zhǔn)則(AIC)或貝葉斯信息準(zhǔn)則(BIC)判斷模型的p、q值.由于BIC準(zhǔn)則比AIC準(zhǔn)則具有更好的收斂性[6],故本文采用BIC準(zhǔn)則計(jì)算模型的p、q值.其數(shù)學(xué)表達(dá)式為
式中,k為參數(shù)的數(shù)量,n為觀察數(shù).
式(8)表明BIC準(zhǔn)則主要有兩部分組成,一是參數(shù)的數(shù)量,隨著階數(shù)的增大而增大;二是模型的擬合情況[7].增加自由參數(shù)的數(shù)目可提高了擬合的優(yōu)良性,BIC鼓勵(lì)數(shù)據(jù)擬合的優(yōu)良性,但是盡量避免出現(xiàn)過(guò)度擬合的情況[8].所以選擇BIC值最小組對(duì)應(yīng)的p、q值.
第4步:在上述模型識(shí)別的基礎(chǔ)上,采用極大似然估計(jì)或最小二乘估計(jì)法進(jìn)行參數(shù)估計(jì).
第5步:進(jìn)行假設(shè)檢驗(yàn),診斷at是否為白噪聲序列.
第6步:根據(jù)建立好的ARIMA模型對(duì)大壩變形參數(shù)進(jìn)行擬合和預(yù)測(cè).
小灣水電站為混凝土雙曲拱壩,壩頂高程1 245 m,最大壩高293.5m,總裝機(jī)容量420萬(wàn)kW.以小灣壩頂20120701~20120919觀測(cè)得到的數(shù)據(jù)為例,其中 20120706~20120710,20120726~20120730,20120816~20120825觀測(cè)數(shù)據(jù)缺失.首先利用Matlab數(shù)學(xué)軟件對(duì)缺失的數(shù)據(jù)進(jìn)行分形插值,再利用SPSS軟件對(duì)得到的連續(xù)時(shí)間序列建立ARIMA模型進(jìn)行擬合預(yù)測(cè),最后與原始的ARIMA模型進(jìn)行對(duì)比.本文采用小灣拱壩壩頂位移的原始觀測(cè)值前70組進(jìn)行擬合,后10組數(shù)據(jù)進(jìn)行預(yù)測(cè).
通過(guò)Matlab數(shù)學(xué)軟件對(duì)觀測(cè)值中的缺失值進(jìn)行分形插值,啟動(dòng)Matlab軟件,在命令窗口中做如下操作:
通過(guò)計(jì)算可以得到20120706~20120710,20120726~20120730,20120816~20120825值插值后的位移值.表1為經(jīng)過(guò)分形插值后的數(shù)據(jù).
表1分形插值數(shù)據(jù)表
通過(guò)差分將壩頂觀測(cè)位移平穩(wěn)化,下面利用圖檢驗(yàn)法分析序列的平穩(wěn)性以確定模型的階數(shù).一階差分后的自相關(guān)系數(shù)(ACF)和偏自相關(guān)系數(shù)(PACF)如圖1所示.
圖1 ACF(左)和PACF(右)系數(shù)圖
由圖1可看出,當(dāng)滯后步數(shù)大于等于2時(shí),自相關(guān)系數(shù)和偏自相關(guān)系數(shù)均落在置信區(qū)間內(nèi),因此可以認(rèn)為經(jīng)一階差分后時(shí)間序列是平穩(wěn)的.表2為從低階到高階不同的BIC值.
表2 ARIMA模型BIC準(zhǔn)則值
由表2可知,ARIMA(1,1,3)模型對(duì)應(yīng)的BIC值最小,故其相應(yīng)的精度就越高.運(yùn)用相同的方法對(duì)未經(jīng)分形插值的時(shí)間序列建立ARIMA(0,1,1)模型,分別對(duì)原始監(jiān)測(cè)數(shù)據(jù)進(jìn)行擬合,并計(jì)算相應(yīng)的誤差,擬合結(jié)果見(jiàn)表3.
表3 兩種模型的擬合值與相對(duì)誤差
續(xù)表3 兩種模型的擬合值與相對(duì)誤差
由表3可看出,除個(gè)別觀測(cè)日期外,基于分形插值的ARIMA模型的擬合值更接近于實(shí)測(cè)值,利用基于分形插值的ARIMA模型的相對(duì)誤差小于原始的ARIMA模型.分別利用ARIMA模型和基于分形插值A(chǔ)RIMA模型對(duì)實(shí)測(cè)值展開(kāi)預(yù)測(cè),預(yù)測(cè)結(jié)果見(jiàn)表4.
表4 兩種模型的預(yù)測(cè)值與相對(duì)誤差
由表4可看出,基于分形插值的ARIMA模型的預(yù)測(cè)值更接近于實(shí)測(cè)值,利用分形插值的ARIMA模型的相對(duì)誤差都小于原始ARIMA模型的相對(duì)誤差.
將表3~4計(jì)算所得兩種模型的擬合數(shù)據(jù)和預(yù)測(cè)值與實(shí)測(cè)值進(jìn)行比較,比較結(jié)果如圖2所示.
圖2 兩種模型的擬合值與實(shí)測(cè)值的比較
通過(guò)表3~4以及圖2可以得到,對(duì)于含有缺失值的時(shí)間序列,基于分形插值的ARIMA模型的預(yù)測(cè)值的平均相對(duì)誤差由原先的3.56%降低至1.34%,表明該模型的預(yù)測(cè)精度顯著提高.
1)在實(shí)際監(jiān)測(cè)過(guò)程中,數(shù)據(jù)缺失是常見(jiàn)的現(xiàn)象,本文以小灣水電站壩頂位移預(yù)測(cè)為例,建立了基于分形插值的ARIMA模型,利用分形插值法對(duì)含有數(shù)據(jù)缺失的時(shí)間序列進(jìn)行插值,從而建立ARIMA時(shí)間序列模型,得到壩頂位移預(yù)的擬合預(yù)測(cè).計(jì)算結(jié)果表明,改進(jìn)后的ARIMA模型的預(yù)測(cè)精度明顯提高.
2)通過(guò)預(yù)測(cè)值和實(shí)際值比較發(fā)現(xiàn),由于ARIMA模型對(duì)于單調(diào)數(shù)據(jù)處理的不足,易出現(xiàn)預(yù)測(cè)值單調(diào)迅速增長(zhǎng)的現(xiàn)象,導(dǎo)致預(yù)測(cè)值均大于實(shí)測(cè)值.針對(duì)ARIMA模型的不足,近年來(lái)學(xué)者們已經(jīng)陸續(xù)提出了基于ANN-ARIMA、GM-ARIMA等應(yīng)用模型.基于此,對(duì)于含有一定數(shù)據(jù)缺失的時(shí)間序列可將分形插值與優(yōu)化后的ARIMA模型相結(jié)合,進(jìn)一步的提高預(yù)測(cè)精度,不失為一種新的研究方向.
[1] 岳莉莉.基于時(shí)間序列分析的風(fēng)速短期預(yù)測(cè)方法研究[D].北京:華北電力大學(xué),2012.
[2] 李信富,李小凡.分形插值與拉格朗日插值的比較研究[J].黑龍江大學(xué)自然科學(xué)學(xué)報(bào),2008(3):323-326,331.
[3] 孫洪泉.分形幾何與分形插[M].北京:科學(xué)出版社,2011.
[4] 王正宇,王紅玲.基于ARIMA模型的我國(guó)GDP分析預(yù)測(cè)[J].對(duì)外經(jīng)貿(mào),2011,12:107-108.
[5] 王 燕.應(yīng)用時(shí)間序列分析[M].北京:中國(guó)人民大學(xué)出版社,2005.
[6] Olivier C,Courtellemont P,Colot O.Comparison of Histograms:a Tool for Detection[J].European Journal of Diagnosis and Safety in Automation,1994,4(3):335-355.
[7] 胡效雷,何祖威.基于GM-ARMA組合模型的年電力需求預(yù)測(cè)[J].廣東電力,2007(2):10-13.
[8] 馮龍龍,李 星,李曉晨,等.GM-ARIMA模型在大壩安全監(jiān)測(cè)中的應(yīng)用[J].三峽大學(xué)學(xué)報(bào):自然科學(xué)版,2013,35(5):7-10.