魏光輝
(新疆農(nóng)業(yè)大學 水利與土木工程學院,烏魯木齊 830052)
基于FPSTWD算法與時間序列支持向量機的河流徑流量預報
魏光輝
(新疆農(nóng)業(yè)大學 水利與土木工程學院,烏魯木齊 830052)
為及時掌握河道徑流量變化趨勢,為下游水庫防洪調(diào)度提供依據(jù),提出了基于時間序列的最小二乘支持向量機河道徑流量實時預測模型。采用特征點分段時間彎曲距離算法對實時采集的時間序列數(shù)據(jù)進行分段與相似度計算,以縮減規(guī)模的子序列數(shù)據(jù)集對LSSVR模型進行訓練優(yōu)化,實現(xiàn)多個LSSVR子模型建模,將預測數(shù)據(jù)序列與LSSVR子模型的相似度匹配,自適應地選取最佳的子模型作為預測模型。應用該模型對某河徑流量進行實時預測,模型評價指標中最大相對誤差、平均相對誤差絕對值和均方根誤差分別為9.08%、3.25%與303 m3。研究結(jié)果表明,該模型具有較好的預測性能,能夠滿足河道徑流量預測的實際需求,并為下游水庫防洪調(diào)度與水資源管理提供了重要參考。
河川徑流量;支持向量機;時間序列;預測
河川徑流量預測是水資源研究領域中的重點和難點,具有高維、非線性等特征,尋求能夠表征徑流特性、預測精度高的河川徑流量實時預測模型對區(qū)域水資源管理、下游水庫優(yōu)化調(diào)度具有極其重要的指導意義[1]。
近年來,國內(nèi)外研究者提出了各種實時預測模型和方法,如滑動時間窗方法[2]、動態(tài)神經(jīng)網(wǎng)絡方法[3-4]和基于增量訓練的實時支持向量機算法[5-7]等?;瑒訒r間窗方法采用時間窗滾動或滑動的方式進行實時預測,但模型自身不具備隨時間序列實時更新和動態(tài)學習的能力,致使預測精度不理想;動態(tài)神經(jīng)網(wǎng)絡方法通過改進網(wǎng)絡結(jié)構(gòu)和調(diào)整網(wǎng)絡參數(shù),實現(xiàn)模型的動態(tài)更新與實時預測,但存在計算復雜等缺陷;最小二乘支持向量回歸機(least squares support vector regression,LSSVR)具有計算效率高、泛化性能強等優(yōu)點,但若直接用于實時數(shù)據(jù)建模,則隨著時間序列獲取樣本數(shù)據(jù)的逐漸增加,易產(chǎn)生數(shù)據(jù)過飽和、泛化能力差,甚至模型失效等問題[8-9]。為此,一些國內(nèi)外學者采用剪枝算法、增減式學習、滑動窗和加權(quán)等改進策略提出了性能各異的LSSVR實時學習算法,并取得了較好預測效果[8-12]。
本文結(jié)合河流徑流量時間序列的相似性和連續(xù)變換的規(guī)律,在前人研究的基礎上,根據(jù)“特征相似輸入產(chǎn)生相似輸出”原則,提出了基于時間序列的LSSVR河流徑流量預測模型,給出了模型推導過程,并以新疆某融雪型河流徑流量時間序列數(shù)據(jù)為例進行建模和實時預測驗證。與其他模型相比,該預測模型綜合性能較好,具有一定的應用前景。
1.1 最小二乘支持向量機
對于非線性時間序列樣本數(shù)據(jù)(x1,y1),(x2,y2),…,(xi,yi),…,(xn,yn),xi∈Rn和yi∈R,采用最小二乘支持向量回歸機進行函數(shù)估計,則優(yōu)化問題變成:
(1)
約束條件:
(2)
式中J為損失函數(shù);ω為權(quán)重向量;T為向量轉(zhuǎn)置符號;ξi∈R為經(jīng)驗誤差;b為偏置量;C∈R+是正則化參數(shù);φ(·)為輸入空間到特征空間的非線性映射。
為求解上述約束優(yōu)化問題,其對偶問題的Lagrange函數(shù)為:
(3)
式中αi為拉格朗日乘子。由Karush-Kuhn-Tucher(KKT)條件,分別對ω、b、ξi和αi參數(shù)求偏導數(shù)并令其分別等于0,則有:
(4)
根據(jù)式(4),進而求得最小二乘支持向量回歸機函數(shù)為:
(5)
由式(5)可知,LSSVR的訓練問題歸結(jié)為求解線性方程組的問題,具有計算簡單,快速的特點;但LSSVR的解缺乏遺忘機制,隨著時間序列樣本的不斷增加,需要保持很多樣本參與訓練,這將導致矩陣維數(shù)劇增,嚴重制約學習效率,甚至導致訓練失敗。因此處理新增樣本點,簡化學習算法,提高模型精度,是LSSVR算法預測的關鍵。
1.2 時間序列相似度計算
鑒于特征點分段時間彎曲距離(feature points segmented time warping distance,F(xiàn)PSTWD)具有能提供一種全局趨勢信息,縮減經(jīng)典時間彎曲距離計算數(shù)據(jù)維數(shù),時間序列相似度高、計算復雜度低等特點。本文采用FPSTWD方法對時間序列數(shù)據(jù)進行相似度計算,即運用FPSTWD對歷史數(shù)據(jù)的數(shù)據(jù)序列進行特征點分段,構(gòu)建多個分段子序列簇(cluster)或分段子序列集合,以特征點分段時間彎曲距離作為相似測度,使同一個簇內(nèi)的對象之間具有較高的相似度,而不同的簇中的對象差別比較大。因此,準確定義并獲取特征點是時間序列數(shù)據(jù)相似度計算中的重要環(huán)節(jié)。
定義1:時間序列x的特征點:給定閾值Ψ和時間序列{x1=(a1,…,aN)},如果xi是一個特征點(1≤i≤N),它必須滿足2個條件:①xi必須是時間序列的極值點或拐點,其中序列的起點與終點均默認為特征點;②若xi>xi-1,則xi/xi-1>Ψ必須成立,否則,xi
閾值Ψ是極值點的影響因子取值的最小范圍,取值與具體應用領域知識、序列長度及用戶關注角度有關,一般情況下Ψ∈[0.01,0.1]。在得到時間序列的特征點后,對相鄰的特征點間的點集進行直線擬合,即可得到時間序列的分段線性表示。
定義2:假定時間序列x與y經(jīng)線段化后分別為xS與yS,其中xS=
(6)
利用式(6)以行或列的順序填充矩陣d,最后矩陣d中(m,n)元素中的值即為兩序列的FPSTWD值。
1.3 基于FPSTWD的LSSVR預測模型
1.3.1 模型思路
本文將特征點分段時間彎曲距離(FPSTWD)與最小二乘支持向量回歸相結(jié)合構(gòu)建實時預測模型。建模過程中采用FPSTWD算法對樣本序列數(shù)據(jù)進行分段與相似度計算,組成特征相似的子序列集合,然后應用特征子序列樣本集對LSSVR進行訓練優(yōu)化,構(gòu)建相應的分段LSSVR子模型,并獲得相應的支持向量,實現(xiàn)了多個LSSVR子模型實時建模;對新增樣本序列,運用FPSTWD方法對新增樣本序列進行分段和相似度計算,獲得與新增樣本最相似的子序列樣本所對應的分段預測模型,將新增樣本子序列輸入到該模型進行實時預測,提高了預測模型隨時間序列數(shù)據(jù)變化的自適應能力。
1.3.2 模型構(gòu)建
1)模型參數(shù)初始化。需設置的參數(shù)有懲罰參數(shù)C、核函數(shù)參數(shù)σ2、精度閾值?、閾值Ψ和相似度閾值μ;LSSVR核函數(shù)類型,子分段模型LSSVR(S),S=1,2,…,訓練集初始長度TL。
2)歷史數(shù)據(jù)訓練樣本集與當前第q批次時間窗訓練樣本點的表示。因預測模型的需要,在構(gòu)造訓練樣本集時應將輸入輸出樣本錯位結(jié)合,那么第p個歷史批次的訓練樣本集可用Up={(X1,Y1),…,(Xp,Yp)}表示,其中訓練樣本集中任一個樣本點表示為(xi,yi+1),l
3)利用FPSTWD的時間序列數(shù)據(jù)相似度計算方法對歷史樣本集US中的時間序列數(shù)據(jù)進行分段處理,組成特征相似的子序列樣本集R(S)(S=1,2,…)。應用R(S)對LSSVR進行訓練優(yōu)化,對每個子序列樣本集R(S)構(gòu)建相應的子分段預測模型LSSVR(S),獲得子分段的支持向量LSSVRSV(S),以分段方式將LSSVR(S)模型和LSSVRSV(S)分別保存分段預測模型庫及相應的支持向量樣本表TbSV(S)。
4)新增時間序列數(shù)據(jù)U′分段與相似度計算。搜索時間序列數(shù)據(jù)U′的特征點,由特征點對U′進行分段處理;采用式(6)計算U′子序列與所有子序列樣本集R(S)的特征點分段時間彎曲距離,F(xiàn)PSTWD距離越小相似度越大,找出與U′子序列相似度最大的R(j),j∈[1,S];在R(S)中若找不到與U′子序列相匹配的子序列,或者FPSTWD距離大于指定相似度閾值μ,將U′作為新的子序列樣本集或做刪除處理,并記下該時間序列U′對應的時刻以及相應的狀態(tài)信息。
5)模型預測。把R(j)所對應的子分段預測模型LSSVR(j),j∈[1,S],作為最佳的LSSVR預測模型,將U′子序列輸入到LSSVR(j)模型中進行預測,輸出預測結(jié)果;若新增數(shù)據(jù)序列U′的子序列因奇異值或噪聲找不到相匹配的子序列R(j),此時采用與U′的子序列相似日期相似時刻的歷史數(shù)據(jù)替代并進行預測,同時輸出預測結(jié)果;若預測精度小于指定的精度閾值θ,則將新增樣本序列U′與LSSVRSV(S)一起訓練LSSVR,并將符合精度要求的預測模型和支持向量保存下來,這樣不斷完善分段預測模型庫和各分段的支持向量。
6)時間序列數(shù)據(jù)更新,重復執(zhí)行步驟4)~6)。
某河流地處新疆南疆地區(qū),水文站以上控制河長為38 km,集水面積為257 km2。河流地處塔里木盆地南緣,屬溫帶大陸性干旱氣候,夏季酷熱,冬季寒冷,降水稀少,蒸發(fā)強烈。多年平均氣溫為10.8 ℃,多年平均降水量<50 mm,多年平均蒸發(fā)量為2 760 mm,多年平均徑流量為0.683×108m3,主要以冰川融水補給為主,兼有部分雨雪水
和地下水補給。
該河流水文站處設有河道水尺及氣象數(shù)據(jù)自動采集系統(tǒng),可實時監(jiān)測河道徑流量、氣溫、太陽輻射、大氣壓、風速、風向、相對濕度等7要素。本文數(shù)據(jù)采集時間為2012年7月2日零點至7月16日零點,數(shù)據(jù)自動記錄1次/30 min,共計14 d 673個樣本,取前11 d的529個樣本為訓練集,剩余3 d的144個樣本作為測試集,對河道徑流量進行實時預測。河流徑流量及各氣象因子變化過程見圖1。
3.1 算法實現(xiàn)與測試
本文以徑向基函數(shù)(radial basis function,RBF)為LSSVR模型的核函數(shù),采用Visual C語言對FPSTWD-LSSVR算法進行編程。最終懲罰參數(shù)C取0.5、核函數(shù)參數(shù)σ2取0.2、精度閾值?取0.1、閾值Ψ取0.05、相似度閾值μ取0.1,訓練集初始長度TL取80,運用FPSTWD方法對訓練樣本序列進行分段與相似度計算,形成6個子序列集合S1,S2,S3,S4,S5,S6,每個子集的樣本個數(shù)分別為107、125、133、95、112、101,以這6個子序列集合樣本分別對LSSVR進行模型訓練,得到對應6個LSSVR(S)預測子模型和支持
(a)河流徑流量變化過程
(b)平均氣溫變化過程
(c)相對濕度變化過程
(d)大氣壓變化過程
(e)平均風速變化過程
(f)太陽輻射變化過程
向量LSSVRSV(S),S∈[1,…,6]。采用FPSTWD-LSSVR算法對2012年7月13日至7月15日72 h的144個時間序列數(shù)據(jù)進行單步預測,結(jié)果見圖2。模型預測相對誤差曲線見圖3。
圖2 模型預測值和實測值過程曲線Fig.2 Curves of forecasting value and actual value
圖3 模型預測誤差曲線Fig.3 Forecasting error curves of model
由圖2可見,本文構(gòu)建的模型預測值能夠與河流徑流量實測值擬合較好。由圖3可見,該算法輸出結(jié)果最小相對誤差為0.02%,最大相對誤差為-9.08%,平均相對誤差為3.25%,能夠滿足河流徑流量實時預測的需要。
3.2 結(jié)果對比分析
為了驗證FPSTWD-LSSVR預測模型性能,利用Matlab軟件,選擇LSSVR算法進行對比分析;分別采用最大相對誤差、平均絕對相對誤差、均方根誤差和運行時間t作為算法性能評價指標,綜合比較2種算法的預測精度,其預測結(jié)果對比見圖4,模型評價結(jié)果見表1。
表1 2種模型預測結(jié)果對比
由圖4和表1可見,采用FPSTWD-LSSVR算法可較好的實時擬合河流氣象因子與徑流量之間的復雜非線性關系,且預測曲線與實測值擬合效果明顯好于LSSVR預測模型。FPSTWD-LSSVR算法評價指標均明顯優(yōu)于LSSVR算法。
由圖4和表1對比分析可見:本文所提算法采用基于特征點的分段策略很好地保留了時間序列的歷史知識特征信息,有效縮減實時建模和預測數(shù)據(jù)的規(guī)模,并且能夠根據(jù)新增樣本的序列特征,采用FPSTWD距離相似度計算實現(xiàn)預測子模型的自適應篩選,能在保證算法預測精度的同時降低時間復雜度;此外,由于本文提出的FPSTWD-LSSVR算法采用實時訓練數(shù)據(jù)建模長度較小,與LSSVR算法相比,各項評價指標均較優(yōu),能夠滿足河道徑流量實時預測要求。
(a)FPSTWD-LSSVR模型預測值與實測值對比
(b)LSSVR模型預測值與實測值對比圖4 2種模型預測值和實測值對比Fig.4 Comparison of prediction value and observed value with two models
本文以特征相似輸入產(chǎn)生相似數(shù)據(jù)輸出為指導思想,構(gòu)建了基于時間序列相似性度量和LSSVR模型的河道徑流量預測模型,并對新疆某融雪型河流進行預測驗證,取得了較好的效果,得到如下結(jié)論:
1)在相同條件下與LSSVR預測模型對比分析,結(jié)果表明,本文提出的FPSTWD-LSSVR預測模型各項性能評價指標均優(yōu)于LSSVR模型。從實時預測的角度出發(fā),該文提出的預測算法不僅降低了計算復雜度,還具有較高的預測精度,這為河流徑流預報、水庫運行調(diào)度提供了重要參考,具有一定的理論指導意義及工程應用價值。
2)在FPSTWD-LSSVR建模過程中,采用特征點分段相似性度量策略,使得特征相似、規(guī)模適中、鄰域信息寬泛的歷史時間序列樣本參與LSSVR模型的快速訓練優(yōu)化,實現(xiàn)了多個LSSVR子模型實時建模;通過FPSTWD距離算法對待預測
的時間序列與LSSVR子模型相似性匹配,自適應選擇特征相似和性能較佳的LSSVR子模型進行實時預測。本文所提出的實時預測算法在一定程度上解決了以往預測算法存在的動態(tài)學習能力差、計算復雜、預測精度不理想等問題。
[1]李彥彬.河川日徑流預報的混沌神經(jīng)網(wǎng)絡模型[J].華北水利水電學院學報,2012,33(4):19-21.
[2]黃 強,趙雪花.河川徑流時間序列分析預測理論與方法[M].鄭州:黃河水利出版社,2008.
[3]Vairappan C, Tamura H. Batch type local search-based adaptive neuro-fuzzy inference system(ANFIS) with self-feedbacks for time-series prediction[J].Neurocomputing, 2009,72(7):1 870-1 877.
[4]Chen Y M, Lin C T. Dynamic parameter optimization of evolutionary computation for on-line prediction of time series with changing dynamics[J].Applied Soft Computing,2007,7(4): 1 170-1 176.
[5]Wang W J, Men C Q, Lu W Z. Online prediction model based on support vector machine[J]. Neurocomputing,2008,71(4): 550-558.
[6]Wen Y, Li X O. On-line fuzzy modeling via clustering and support vector machines[J]. Information Sciences,2008,178(22):4 264-4 279.
[7]Gu B, Wang J D, Yu Y C, et al. Accurate on-line v-support vector learning[J]. Neural Networks,2012,27: 51-59.
[8]張浩然,汪曉東.回歸最小二乘支持向量機的增量和在線式學習算法[J].計算機學報,2006,29(3):399-406.
[9]Zhao Y P, Sun J G, Du Z H, et al. Online independent reduced least squares support vector regression[J].Information Sciences,2012,201: 37-52.
[10]Zhang W P, Niu P F, Li G Q, et al. Forecasting of turbine heat rate with online least squares support vector machine based on gravitational search algorithm[J].Knowledge-Based Systems,2013,39: 34-44.
[11]張淑寧.在線魯棒最小二乘支持向量機回歸建模[J].控制理論與應用,2011,28(11):1 601-1 606.
[12]陳 磊.遺傳最小二乘支持向量機法預測時用水量[J].浙江大學學報:工學版,2011,45(6):1 100-1 103.
Prediction of river runoff based on FPSTWD algorithm and time series support vector machine
WEI Guang-Hui
(School of Water Resources and Civil Engineering, Xinjiang Agricultural University, Urumqi 830052,China)
In order to grasp the change trend of river runoff, provide the basic information for the flood control of reservoir. A least squares support vector machine time series of river runoff forecasting model is proposed. Using feature point segmented time warping distance algorithm on the real-time data of time sequence and similarity calculation, the sequence data reduction scale set for training and the optimization of the LSSVR model, the LSSVR sub model, the forecasting data sequence similarity with the LSSVR model to adaptively select the best matching, sub model as the predictive model. Application of the model of a river runoff forecasting, the absolute value of the maximum relative error, average relative error of the model evaluation index and the root mean square error of 9.08%, 3.25% and 303 m3respectively. The results show that, this model has better prediction performance, which can satisfy the actual demand of river runoff prediction, and provide an important reference for flood control reservoir and water resources management.
runoff; support vector machine; time series; prediction
10.13524/j.2095-008x.2015.01.007
2014-02-08;
2014-03-04
http://www.cnki.net/kcms/detail/23.1566.T.20150119.1616.001.html
新疆水文學及水資源重點學科資助項目(XJSWSZYZDXK2010-12-02)
魏光輝(1981-),男,新疆石河子人,高級工程師,博士研究生,研究方向:干旱區(qū)水資源利用,E-mail:xndwgh@sina.com。
P338
A
2095-008X(2015)01-0032-06