徐冬梅,莊文濤,王文川
(華北水利水電大學水資源學院,鄭州450046)
徑流量是河川的重要水文變量之一,其準確預測可以為水資源系統(tǒng)特性分析和高效利用提供可靠依據[1]。由于水文系統(tǒng)復雜,河川徑流受氣候變化、下墊面和人類活動等眾多外界因素的影響,其序列常常表現出多時間尺度變化特征和非平穩(wěn)特征,這給月徑流的精確預測帶來很大困難[2]。
根據國內外研究現狀,傳統(tǒng)的中長期徑流預測方法主要是應用數理統(tǒng)計理論和方法。近年來,隨著人工智能和計算機技術的不斷發(fā)展,基于數據驅動的現代智能算法正在逐步代替?zhèn)鹘y(tǒng)的數理統(tǒng)計方法[3],為徑流預報提供新的研究途徑,如回歸分析模型[4]、人工神經網絡模型[5]、灰色系統(tǒng)分析模型[6]、支持向量機模型[7]等被用來進行水文時間序列預測。其中支持向量機實現了結構風險最小化原理,理論上可以得到回歸或者分類問題的全局最優(yōu)解,是水文預報領域研究的重點。如李文莉等[8]將粒子群算法優(yōu)化的LSSVM 模型成功應用于月徑流預測,在一定程度上改善了徑流預測效果。
當前徑流預測的研究大多注重引入新的預測模型方法。然而,在實際預測過程中,由于徑流時間序列具有復雜性,單一預測模型很難反映徑流的形成過程和變化規(guī)律,難以對整個徑流過程進行有效的擬合[9]。近年來,預測模型耦合越來越受到水文研究者的關注,混合模型在實際中是采用各種分解方法與不同預測模型進行組合,以分解算法為基礎,對數據進行預處理降低序列非平穩(wěn)性來達到提高模型預測精度的目的。張敬平等[10]提出了經驗模態(tài)分解與徑向基函數神經網絡混合徑流預測模型,利用經驗模態(tài)分解處理原始徑流序列,充分發(fā)揮了徑向基函數神經網絡的優(yōu)勢,在減小徑流預測誤差方面有明顯改善。周婷等[11]將WD 方法和支持向量機組合應用于徑流預測,WD 分解算法的引入可以顯著提高預測可靠性和預測精度。張金萍等[12]建立CEEMDAN-ARMA 組合模型預測年徑流量,改善了EMD分解存在的模態(tài)混疊問題,能更好地提取徑流序列中的信息,同時也驗證了分解-預測較單一ARMA 模型能有效減少預測誤差,得到更準確的預測結果。這表明采用分解技術對數據進行預處理,對徑流預測精度的提高是有效的。但是,一次分解技術不能很好地處理強非平穩(wěn)性和非線性序列,如CEEMDAN 分解產生的高頻分量仍具有很強的波動性,會增加建模難度,從而對預測精度產生影響。
針對上述存在的問題,為進一步提高月徑流預測精度,本文提出利用WD 技術進一步處理CEEMDAN 分解的高頻序列,使得分解后的序列更加平穩(wěn),減少混合建模的預測誤差,提高PSO-LSSVM模型對中長期月徑流的預測能力。
CEEMDAN 是Torres M E 等[13]2011年提出的一種新型噪聲輔助數據分析方法。它彌補了EMD[14]和EEMD[15]兩種方法存在的模態(tài)混淆以及重構序列中噪聲殘留缺點,還提高了計算效率。其具體算法如下:
(1)對原始序列x(t)中添加有限數量的自適應白噪聲φ0ωi(t)(i=1,2…I),I為試驗次數。得到:
(2)使用EMD 對每一個xi(t)=x(t)+φ0ωi(t),i=1,2…I進行分解,得到第一個模態(tài)分量IMF1和余量r1(t):
(3)在余量r1(t)中添加白噪聲φ1E1[ωi(t)],其中E為EMD分解運算符,再進行EMD 分解得到第二個模態(tài)分量IMF2及余量r2(t):
式中:Ek(?)為EMD分解產生的第k階模態(tài)分量。
(4)計算第k個余量:
(5)對每一個添加白噪聲余量分解,得到CEEMDAN 的第k+1階模態(tài)分量:
重復(4)、(5),直到找出所有IMF分量。
WD 分解是近年來被應用廣泛的分解方法,通過小波基的伸縮和平移分解非平穩(wěn)信號,根據局部變換時間和頻率,有效地從研究序列中提取信息,得到低頻分量和高頻分量。小波分解將每層低頻分量通過低通濾波器和高通濾波器得到下一層的低頻部分和高頻部分,實現了低頻趨勢序列和高頻細節(jié)序列的有效分離。原時間序列與各子序列關系可以表示成:
式中:ak為低頻分量;di為高頻分量;k為分解層數。
小波分解過程最重要的是小波基函數和小波的層數選擇[16],本文采用db4小波基函數和3層小波分解。如圖1所示。
圖1 小波3層分解Fig.1 Wavelet three level decomposition
由Suykens 等[17]提出的LSSVM 是SVM 的一種改進模型,采用最小二乘線性系統(tǒng),將不等式約束轉化為等式約束。把求解二次規(guī)劃問題轉變?yōu)榍蠼饩€性方程組,簡化計算復雜度,收斂速度更快,預測精度更高。其具體步驟如下:
(1)設N個數據點的訓練集,其中xi∈Rn為輸入向量,yi∈Rn為輸出值。則樣本線性回歸函數為:
式中:ω為權向量;ψ(x)為非線性映射函數;b為偏置量。
(2)依據結構風險最小化原則,構造LSSVM優(yōu)化問題:
約束條件為:
式中:β為懲罰因子;ξ為誤差。
(3)采用拉格朗日法求解目標函數得到:
式中:α為拉格朗日乘子。
(4)根據KKT 優(yōu)化條件,分別對ω、b、ξ、α求偏導,得到LSSVM模型函數為:
式中:K(x,xi)為核函數。
本文核函數采用徑向基RBF函數:
式中:σ2為核函數參數。
粒子群算法是基于模擬鳥群的覓食行為全局優(yōu)化算法,通過個體間信息傳遞與合作來尋找最優(yōu)解[18]。粒子迭代搜索,收斂速度快,設置參數少,具有很強的全局尋優(yōu)能力。
核函數參數σ和懲罰因子β會直接影響LSSVM 模型預測精度,本文通過PSO 算法迭代尋找LSSVM 模型一組最優(yōu)參數σ和β。算法原理如下:
首先隨機初始化生成一群粒子,迭代時,每個粒子根據適應度值跟蹤自己的個體歷史最優(yōu)解和群體歷史最優(yōu)解。根據式(14)和(15)來更新自己的速度和位置。
式中:xi、vi分別為粒子的速度和位置;c1、c2為學習因子;ω為慣性因子;rand()為(0,1)之間隨機數。
CEEMDAN 可以將非平穩(wěn)復雜序列分解為若干個復雜度低的子序列,對各個分量建立預測模型可有效提高預測精度。但是,以往對CEEMDAN分解建模時,沒有考慮高頻子序列復雜性較高,會降低預測精度。由于小波分解可以對CEEMDAN 得到高頻子序列進一步分解,降低高頻子序列復雜性。因此,本文提出二次分解技術,即采用CEEMDAN分解原始徑流序列,小波分解算法對其復雜度高的子序列進行二次分解,結合PSO 優(yōu)化的LSSVM 預測模型,提高月徑流預測精度。組合模型建模流程如圖2所示。
圖2 CEEMDAN-WD-PSO-LSSVM 組合模型流程圖Fig.2 Hybrid CEEMDAN-WD-PSO-LSSVM model flow chart
洛河是洛寧縣境內最大最主要的河流,同時也是黃河右岸的重要支流,黃河的主要洪水來源之一。河道全長447 km,河南境內長366 km。流域面積達18 881 km2。長水水文站建于1951年,位于河南洛寧縣長水鎮(zhèn),有著搜集洛河流域水文基本信息和及時向防汛應急部門提供實時水情信息的重要任務。受季風氣候影響,降水量隨季節(jié)變化有很大差異,徑流變化劇烈。該站1956-2016年實測月徑流序列如圖3所示。其序列足夠長,資料精度高,該資料的代表性能夠得到保證。
圖3 長水站月徑流序列Fig.3 Monthly runoff series in Changshui station
通過CEEMDAN 方法對長水站1956-2016年月徑流樣本數據進行分解,降低原始徑流時間序列的波動性。設定CEEM?DAN 算法參數Nstd為0.2,NR為100,Maxlter為5 000,原始徑流序列最終分解為9 個IMF分量和1 個余量r,共10 個分量。r分量反映出長水站徑流總體呈下降趨勢,分解結果如圖4所示。其子序列表現出該徑流序列的頻率變化和振幅變化。頻率由高到低、振幅從大到小進行排列,從圖4中可以看出IMF1、IMF2和IMF3 波動最大,復雜度較高,依然具有很強的非線性和非平穩(wěn)性特征,不利于預測的準確性。
圖4 CEEMDAN分解月徑流序列結果Fig.4 Decomposition results of monthly runoff series using CEEMDAN
針對利用高頻分量建模預測效果不理想的問題,在建模時利用WD 對其進行二次分解,以進一步降低高頻子序列的復雜性。本文采用db4 小波基函數通過Matlab2018b 軟件的小波工具箱對IMF1、IMF2 以及IMF3 進行3 層小波分解獲取其趨勢序列和細節(jié)序列。WD 分解IMF1 的結果如圖5所示。對IMF2、IMF3等高頻序列分別進行WD 分解,原始徑流序列經過CEEM?DAN-WD二次分解之后共有19個子序列。
圖5 小波分解IMF1結果Fig.5 Results of wavelet decomposition of IMF1
利用PSO 優(yōu)化算法,對LSSVM 的兩個參數β和σ進行尋優(yōu),建立PSO-LSSVM 模型。初始化粒子群的種群大小、學習因子、位置、速度、搜索范圍和迭代次數。PSO算法基本參數為:學習因子c1和c2都設為2,最大迭代次數K設為100,種群數量m設為20,ω∈[0.4,0.99]。將經CEEMDAN 分解的復雜性較低分量和IMF1、IMF2 和IMF3 經WD 方法二次分解的各分量作為PSO-LSSVM 模型的輸入,分別預測各分量的結果,最后將每個子序列預測結果疊加得到最終月徑流量預測值。本文基于Matlab2018b軟件和LSSVM 工具箱預測研究,利用長水站1956-2016年共61年月徑流觀測數據,共計732 個月徑流數據,利用前672 個徑流數據為訓練樣本,訓練模型,后60 個數據為測試樣本用于驗證模型。
選取單一PSO-LSSVM 預測模型、組合模型CEEMDANPSO-LSSVM 模型、WD-PSO-LSSVM 模型以及CEEMDAN-WDPSO-LSSVM 四種方法分別進行預測,用來比較模型預測效果。各模型預測結果如圖6所示。
圖6 不同模型預測結果Fig.6 Prediction results of different models
為評價CEEMDAN-WD-PSO-LSSVM 混合模型的預測精度,選取均方根誤差RMSE、納什效率系數NSEC、平均絕對百分比誤差MAPE、相關系數R四種評價指標來評價模型的預測結果的優(yōu)劣,4種評價準則計算公式為:
式中:yi為第i個樣本的真實值;為第i個樣本的預測值;yavg為所有實測值的平均值;為所有預測值的平均值。
利用組合模型擬合訓練期的數據,并對訓練期和驗證期的數據進行模擬及預測,不同模型的預測結果評價統(tǒng)計如表1所列。表1的結果分別比較了4 類模型訓練期月徑流量和驗證期月徑流量的R、NSEC、RMSE、MAPE。
表1 各種模型預測誤差對比Tab.1 Comparison of prediction errors of various models
從圖6中可以看出單一PSO-LSSVM 模型預測值與實測值誤差較大,擬合效果最差,采用CEEMDAN-PSO-LSSVM 單一分解方法得到的預測結果與實測徑流之間也存在較大偏差,對實測徑流序列峰值,偏差更為明顯。利用CEEMDAN-WD 二次分解和PSO-LSSVM 組合模型擬合效果最好,預測結果更接近實際徑流,驗證了本文所提模型的準確性和優(yōu)越性。
從表1中評價準則統(tǒng)計結果可以看出,組合模型CEEM?DAN-PSO-LSSVM、WD-PSO-LSSVM 和CEEMDAN-WD-PSOLSSVM 的預測效果遠優(yōu)于單一的PSO-LSSVM 預測模型,在驗證期R、NSEC、RMSE、MAPE四項準確性評價指標上都有較大的提高。
(1)CEEMDAN-WD-PSO-LSSVM 組合模型與PSO-LSSVM模型相比,相關系數R和納什效率系數NSEC分別提高了200.00%、479.17%;均方根誤差RMSE和平均絕對百分比誤差MAPE分別減少73.68%、84.86%。
(2)CEEMDAN-WD-PSO-LSSVM 組合模型與CEEMDANPSO-LSSVM 模型相比,相關系數R和納什效率系數NSEC分別提高了15.66%、37.88%;均方根誤差RMSE和平均絕對百分比誤差MAPE分別減少了50.02%、48.86%。
(3)CEEMDAN-WD-PSO-LSSVM 組合模型與WD-PSOLSSVM 模型相比,相關系數R和納什效率系數NSEC分別提高了2.13%、4.60%;均方根誤差RMSE、平均絕對百分比誤差MAPE分別減少了17.96%、28.72%。
為提高中長期徑流預報的精度,本文研究了CEEMDANWD 二次分解在徑流時間序列中的實用性和可行性,構建了PSO-LSSVM、CEEMDAN-PSO-LSSVM、WD-PSO-LSSVM 和CEEMDAN-WD-PSO-LSSVM 4 種預測模型,并以洛河長水水文站月徑流資料來驗證對比了不同模型的預測效果。主要結論如下:
(1)相比于單一的PSO-LSSVM 預測模型,CEEMDAN 分解能有效地降低原始數據的復雜性,使得徑流序列平穩(wěn),能夠與預測模型進行更好的耦合,得到更準確的預測結果。
(2)WD 分解技術可以將序列分解成高頻部分和低頻部分,得到較為穩(wěn)定的序列,對CEEMDAN無法解決 高頻序列的非平穩(wěn)性特征有顯著的處理能力。
(3)CEEMDAN-WD 二次分解能最大限度對數據進行再處理,其組合模型優(yōu)勢明顯,預測能力優(yōu)于單一分解預測,能較大提高模型預測精度和可靠性。為中長期月徑流預報研究提供一種新途徑,其他流域的月徑流預測及相關預測研究提供參考。□