王樹威, 李建林,2, 崔延華, 高培強(qiáng), 趙帥鵬
(1.河南理工大學(xué) 資源環(huán)境學(xué)院,河南 焦作 454000; 2.煤炭安全生產(chǎn)與清潔高效利用省部共建協(xié)同創(chuàng)新中心,河南 焦作 454000; 3.廣西大藤峽水利樞紐開發(fā)有限責(zé)任公司, 廣西 南寧 530000)
水資源短缺是長(zhǎng)期限制干旱、半干旱區(qū)生產(chǎn)生活和區(qū)域經(jīng)濟(jì)發(fā)展的首要因素[1]??茖W(xué)、有效的中長(zhǎng)期徑流預(yù)測(cè),有助于該地區(qū)水資源的合理規(guī)劃及各種社會(huì)效益的可循環(huán)發(fā)展,并為解決旱澇災(zāi)害[2]、水利建設(shè)[3]、水能源調(diào)度[4]等問題提供有效幫助。中長(zhǎng)期徑流預(yù)報(bào)始終是水文學(xué)研究中存在的重點(diǎn)、難點(diǎn)問題[5]。目前,徑流中長(zhǎng)期預(yù)測(cè)主要分為過程驅(qū)動(dòng)和數(shù)據(jù)驅(qū)動(dòng)兩大類[6]。過程驅(qū)動(dòng)模型主要以分布式水文模型預(yù)測(cè)為主,如王杰[7]、趙奕等[8]利用SWAT和DHSVM模型對(duì)黑河上游流域的水文過程進(jìn)行模擬。數(shù)據(jù)驅(qū)動(dòng)主要是利用數(shù)學(xué)統(tǒng)計(jì)和人工智能方法進(jìn)行徑流的模擬和預(yù)測(cè),如運(yùn)用灰色模型(GM)[9]、支持向量機(jī)(SVM)[10]、R/S分析[11]和人工神經(jīng)網(wǎng)絡(luò)(ANN)[12]等。與過程驅(qū)動(dòng)模型相比,數(shù)據(jù)驅(qū)動(dòng)模型所需要的觀測(cè)數(shù)據(jù)較少,可以快速建模并易于實(shí)現(xiàn);而且,數(shù)據(jù)驅(qū)動(dòng)模型可以通過從長(zhǎng)期徑流量時(shí)間序列中提取的非線性水流特征,產(chǎn)生比物理過程驅(qū)動(dòng)模型更令人滿意的預(yù)測(cè)效果[13]。因此,目前數(shù)據(jù)驅(qū)動(dòng)的方法在徑流量預(yù)測(cè)的應(yīng)用中更為廣泛。
江河徑流是受多種因素影響的復(fù)雜系統(tǒng),僅依賴單一的方法進(jìn)行徑流預(yù)測(cè)往往難以達(dá)到所期望的效果[14]。因而,選擇合理的方法使其優(yōu)點(diǎn)結(jié)合增補(bǔ),是建立有效預(yù)測(cè)模型的關(guān)鍵?;煦缋碚?chaos theory)中的相空間重構(gòu)技術(shù)可以讓時(shí)間序列中隱藏的豐富的動(dòng)力學(xué)分量信息得以恢復(fù)[15],是研究復(fù)雜系統(tǒng)的有效工具。但目前,基于混沌理論預(yù)測(cè)的全域法、局域法等[16]研究?jī)H能實(shí)現(xiàn)對(duì)徑流量的短期預(yù)測(cè),對(duì)水文預(yù)報(bào)的利用意義不大。人工神經(jīng)網(wǎng)絡(luò)(ANN)可以模擬人腦神經(jīng)元處理復(fù)雜未知信息的方式,具有極強(qiáng)的非線性映射能力,并在水文時(shí)間序列的中長(zhǎng)期模擬與預(yù)測(cè)上具有獨(dú)特的優(yōu)勢(shì)[17];BP神經(jīng)網(wǎng)絡(luò)(BPNN)是一種應(yīng)用較為廣泛的神經(jīng)網(wǎng)絡(luò),它具有訓(xùn)練誤差反向傳播和預(yù)測(cè)結(jié)果準(zhǔn)確性高的優(yōu)點(diǎn)[18-19]。但利用BPNN進(jìn)行徑流量預(yù)測(cè)時(shí),輸入層神經(jīng)元的個(gè)數(shù)及其取值(即徑流影響因素的選擇及其取值)是決定模型精度的關(guān)鍵。而影響徑流的因素往往交織在一起,所以有些影響因素難以收集、量化;或在眾多影響因素中難以確定起關(guān)鍵作用的因素,這導(dǎo)致BPNN在預(yù)測(cè)時(shí)具有較大的主觀性和局限性。通過混沌相空間重構(gòu),可以量化蘊(yùn)藏在徑流時(shí)間序列中的影響徑流各因素的個(gè)數(shù)及其取值,所以將混沌理論與BPNN結(jié)合,可使其優(yōu)勢(shì)互補(bǔ),實(shí)現(xiàn)結(jié)果更優(yōu)的中長(zhǎng)期預(yù)測(cè)模型。
黑河是位于中國(guó)西北干旱地區(qū)的內(nèi)陸河,其上游的徑流量將直接影響整個(gè)流域地區(qū)的社會(huì)經(jīng)濟(jì)可持續(xù)性發(fā)展與水生態(tài)環(huán)境保護(hù)[20]。所以,鶯落峽徑流中長(zhǎng)期的科學(xué)預(yù)報(bào)對(duì)提高黑河出山干流水量調(diào)度的精確度、增強(qiáng)水量調(diào)用工作的實(shí)時(shí)動(dòng)態(tài)性管理具有重要的現(xiàn)實(shí)意義[21]。鑒于此,建立黑河出山徑流中長(zhǎng)期預(yù)測(cè)的混沌-BPNN等維遞補(bǔ)模型;同時(shí)也為徑流中長(zhǎng)期預(yù)測(cè)提供新的思路和方法。
鶯落峽水文站是黑河上游干流出山徑流的控制站,設(shè)站觀測(cè)始于1944年,其總徑流量達(dá)15.523 9×108m3/a,多年平均徑流量為49.225 9 m3/s,主要補(bǔ)給源為大氣降水、冰川融水[22]。
選取1944年1月-2017年12月鶯落峽站888個(gè)月的實(shí)測(cè)月徑流量數(shù)據(jù)資料(圖1)進(jìn)行建模和模型驗(yàn)證。徑流數(shù)據(jù)來源于《甘肅河西地區(qū)內(nèi)陸河水文年鑒》(第10卷第5冊(cè))[23]。
圖1 1944-1917年黑河上游鶯落峽水文站月徑流量
2.3.1 相空間重構(gòu)
(1)延遲時(shí)間τ。用于計(jì)算參數(shù)τ的方法有很多,如自相關(guān)函數(shù)法、C-C法等。而在處理非線性時(shí)間序列方面,互信息法[24]具有更明顯的優(yōu)勢(shì)。對(duì)于徑流時(shí)間序列x(t)={x1,x2,…,xn},假設(shè)x(t)在序列中出現(xiàn)的概率為P(x(t)),x(t+τ)在該序列中出現(xiàn)的概率為P(x(t+τ))。兩者共同出現(xiàn)的概率為P(x(t),x(t+τ)),則互信息函數(shù)為:
(1)
通過計(jì)算,當(dāng)互信息函數(shù)曲線首次達(dá)到局部極小值時(shí)所對(duì)應(yīng)的τ,即為最佳延遲時(shí)間τ。
(2)嵌入維數(shù)m。G-P關(guān)聯(lián)維法、FNN法和Cao方法是確定嵌入維數(shù)的常用方法。而Cao方法[25]具有主觀參數(shù)少(僅有1個(gè)主觀參數(shù)τ)、信號(hào)區(qū)分能力強(qiáng)、計(jì)算效率高的優(yōu)點(diǎn)。Cao方法由公式(2)計(jì)算相空間中的點(diǎn)在不同嵌入維數(shù)下的最鄰近點(diǎn)的距離變化α(i,m);再經(jīng)公式(3)計(jì)算α(i,m)的均值E(m),并通過公式(4)計(jì)算E1(m)的變化情況。最后,繪制出E1(m)-m曲線。當(dāng)E1(m)的變化逐漸達(dá)到穩(wěn)定時(shí),則穩(wěn)定處的m即為所求。
(2)
式中:α(i,m)為不同嵌入維數(shù)下的最鄰近點(diǎn)的距離; ‖ ‖∞(m+1)為m+1維空間∞-范數(shù);Yn為距離Yη最近的向量。
(3)
(4)
式中:E(m)為α(i,m)的均值;E1(m)為E(m)的變化情況;τ為延遲時(shí)間,根據(jù)時(shí)間序列的時(shí)間間隔而定,本文中τ的單位為月。
(3)相空間重構(gòu)。在參數(shù)τ和m確定后,進(jìn)行徑流量時(shí)間序列x(t)={x1,x2,…,xn}的相空間重構(gòu)[26],得到m維的向量序列:
Yi={xi,xi+τ,…,xi+(m-1)τ}
(5)
式中:i=1,2,…,M,M=n-(m-1)τ。
2.3.2 最大Lyapunov指數(shù) 最大Lyapunov指數(shù)λmax是系統(tǒng)是否具有混沌特征的辨識(shí)參數(shù)(若λmax>0,則系統(tǒng)具有混沌特征),同時(shí)也可以確定重構(gòu)序列的遞補(bǔ)預(yù)測(cè)周期T(T=1/λmax)[27]。計(jì)算λmax的方法主要有小數(shù)據(jù)量法、Wolf法、Jacobian法、p-范數(shù)法等,其中Wolf法[28]運(yùn)算簡(jiǎn)單、應(yīng)用更為廣泛。本文采用Wolf法計(jì)算λmax。
2.3.3 BP神經(jīng)網(wǎng)絡(luò)(back propagation neural network, BPNN) BPNN是由單個(gè)輸入層、單個(gè)或多個(gè)隱含層和一個(gè)輸出層組成的誤差反向傳播的前饋型神經(jīng)網(wǎng)絡(luò)[18-19],網(wǎng)絡(luò)模型中的每一層神經(jīng)元都具有單向連接、雙向傳輸交換信息的特征。通過BPNN的輸出層可將輸出值沿誤差減小的方向,按梯度下降法逐層反向修正權(quán)值與閾值;并經(jīng)多次訓(xùn)練迭代的向前傳遞與反向更新后形成達(dá)到期望的網(wǎng)絡(luò),最后代入測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè)驗(yàn)證。
2.3.4 混沌-BPNN模型 將混沌理論和BPNN結(jié)合,建立徑流量的混沌-BPNN預(yù)測(cè)模型,具體步驟如下:
(1)相空間重構(gòu)。計(jì)算徑流量時(shí)間序列x(t)={x1,x2,…,xn}的延遲時(shí)間τ、嵌入維數(shù)m和最大Lyapunov指數(shù)λmax,并在此基礎(chǔ)上進(jìn)行相空間重構(gòu)。
(2)確定BPNN輸入層、隱含層。嵌入維數(shù)m可以被認(rèn)為是徑流量影響因素的個(gè)數(shù),將其作為混沌-BPNN模型的輸入層神經(jīng)元的個(gè)數(shù);而輸入神經(jīng)元的取值由公式(5)確定。隱含層的節(jié)點(diǎn)數(shù)n可由經(jīng)驗(yàn)公式和試湊法求得[29-30]。
(3)構(gòu)建混沌-BPNN模型。將重構(gòu)好的向量序列分成訓(xùn)練數(shù)據(jù)和驗(yàn)證數(shù)據(jù)。基于MATLAB神經(jīng)網(wǎng)絡(luò)工具箱,將訓(xùn)練好的各層網(wǎng)絡(luò)神經(jīng)元相結(jié)合,構(gòu)建混沌-BPNN模型,輸出預(yù)測(cè)結(jié)果?;煦?BPNN預(yù)測(cè)模型結(jié)構(gòu)見圖2。
圖2 混沌-BPNN預(yù)測(cè)模型結(jié)構(gòu)
2.3.5 模型性能評(píng)價(jià) 為更好地評(píng)價(jià)預(yù)測(cè)模型的可靠性和準(zhǔn)確性,本文選取水文預(yù)報(bào)中較為常用的4種評(píng)價(jià)指標(biāo)——平均絕對(duì)百分比誤差MAPE、預(yù)測(cè)精度PP、相對(duì)誤差RE、合格率QR進(jìn)行模型性能的評(píng)價(jià)[31]。評(píng)價(jià)指標(biāo)的具體計(jì)算公式如下:
(6)
PP=(1-MAPE)×100%
(7)
(8)
(9)
根據(jù)《水文情報(bào)預(yù)報(bào)規(guī)范(GB/T 22482—2008)》中的規(guī)定,中長(zhǎng)期徑流預(yù)報(bào)的相對(duì)誤差數(shù)值百分比小于20%時(shí)為合格[32]。
以鶯落峽1944-2017年徑流量數(shù)據(jù)進(jìn)行時(shí)間序列的相空間重構(gòu),由此確定徑流量影響因素的個(gè)數(shù)及其取值。利用互信息法求得黑河出山徑流量時(shí)間序列的延遲時(shí)間τ=5月;利用Cao方法求得其嵌入維數(shù)m=7,時(shí)間延遲τ與嵌入維數(shù)m的確定如圖3所示。
圖3 時(shí)間延遲τ與嵌入維數(shù)m的確定
對(duì)黑河出山徑流量時(shí)間序列進(jìn)行相空間重構(gòu),得到一個(gè)延遲時(shí)間為5個(gè)月的7維向量空間Y:
(10)
圖4 黑河出山徑流混沌-BPNN預(yù)測(cè)模型結(jié)構(gòu)
為評(píng)價(jià)所建立混沌理論與BPNN耦合模型的有效性,建立黑河出山徑流的BPNN模型。單一的BPNN模型是將黑河上游1944年1月至2012年12月(828個(gè)月)的徑流量數(shù)據(jù)作為輸入層變量進(jìn)行建模訓(xùn)練。該模型只考慮單一時(shí)間序列,不進(jìn)行相空間重構(gòu),因此BPNN的輸入層神經(jīng)元個(gè)數(shù)為1(即影響因素為1)。由經(jīng)驗(yàn)公式法和試湊法求得隱含層節(jié)點(diǎn)數(shù)為5。經(jīng)過BPNN訓(xùn)練后的模型可對(duì)2013年1月至2017年12月的徑流量進(jìn)行預(yù)測(cè)驗(yàn)證。
繪制徑流量實(shí)測(cè)值與兩種模型驗(yàn)證值的散點(diǎn)圖進(jìn)行對(duì)比(圖5);利用公式(7)式計(jì)算得到徑流量的預(yù)測(cè)精度分別為83.57%、88.29%。結(jié)果表明,混沌-BPNN模型對(duì)黑河出山徑流的中長(zhǎng)期預(yù)測(cè)精度優(yōu)于單一的BPNN模型。
圖5 2013-01-2017-12兩種模型的預(yù)測(cè)結(jié)果與實(shí)測(cè)值的對(duì)比
雖然混沌-BPNN模型具有較高的預(yù)測(cè)精度,但還存在2個(gè)主要問題:(1)由于徑流存在周期性,對(duì)未來徑流量影響較大的應(yīng)該是一個(gè)周期內(nèi)的數(shù)據(jù)。而混沌-BPNN模型在進(jìn)行BPNN訓(xùn)練時(shí),將(Y1,Y2,…,Y798)T全部作為的輸入層(圖4),模型可能會(huì)因序列跨度太長(zhǎng)(1944-2012年),受個(gè)別極端值影響導(dǎo)致預(yù)測(cè)精度降低;(2)對(duì)2013年1月-2017年12月的黑河出山徑流量進(jìn)行模型驗(yàn)證,即公式(10)中x829~x888設(shè)定為未知(圖6中灰色部分);而混沌-BPNN模型將(Y799,Y800,…,Y858)T全部設(shè)為未知(圖4),則已知信息(圖6中的白色部分)沒有被充分利用。
圖6 混沌-BPNN模型驗(yàn)證環(huán)節(jié)的已知信息和未知信息
基于以上兩點(diǎn),對(duì)混沌-BPNN模型進(jìn)行改進(jìn)。
(1)由最大Lyapunov指數(shù)可求得T=1/λmax=6.49≈6,即混沌-BPNN模型的預(yù)測(cè)周期時(shí)長(zhǎng)為6個(gè)月。因此,可選取2012年8月-2012年12月(共5個(gè)月)徑流量數(shù)據(jù)建模,即在公式中選擇向量Y794~Y798,5個(gè)向量進(jìn)行BPNN建模與訓(xùn)練。
(2)預(yù)測(cè)x829。輸入Y794~Y798進(jìn)行樣本訓(xùn)練,輸出層輸出 :
(11)
(12)
(13)
(4)重復(fù)以上步驟,每次預(yù)測(cè)去掉第一個(gè)向量,補(bǔ)充新的向量,保持輸入層為5個(gè)向量進(jìn)行BPNN訓(xùn)練,可得x831,x832,…,x888的預(yù)測(cè)值。由改進(jìn)模型的特點(diǎn),可稱之為徑流中長(zhǎng)期預(yù)測(cè)的混沌-BPNN等維遞補(bǔ)模型。
依照水文預(yù)報(bào)的規(guī)范,本文選取相對(duì)誤差在20%以內(nèi)的預(yù)測(cè)為合格。通過公式(8)對(duì)黑河上游60個(gè)月逐月預(yù)測(cè)的相對(duì)誤差對(duì)比分析(圖7),混沌-BPNN等維遞補(bǔ)模型明顯優(yōu)于另外兩種模型,其各月徑流量的預(yù)報(bào)誤差率基本小于20%。
圖7 3種模型的逐月相對(duì)誤差對(duì)比(2013-01-2017-12)
根據(jù)公式(6)、(7)、(9)的計(jì)算結(jié)果(表1),混沌-BPNN等維遞補(bǔ)模型的平均絕對(duì)百分比誤差為8.16%,低于另外兩種預(yù)測(cè)模型;預(yù)測(cè)精度為91.84%,高于BPNN和混沌-BPNN,達(dá)到了90%以上,實(shí)現(xiàn)了較高精度的中長(zhǎng)期徑流預(yù)測(cè)。此外,通過逐月比較各模型預(yù)測(cè)值與實(shí)測(cè)值的相對(duì)誤差,可以看出混沌-BPNN等維遞補(bǔ)模型的合格率更高,為88.33%。
表1 3種預(yù)測(cè)模型的綜合性能評(píng)價(jià)
(1)混沌理論與BPNN結(jié)合,彌補(bǔ)了兩種方法各自的缺點(diǎn),所以混沌-BPNN和混沌-BPNN等維遞補(bǔ)模型的預(yù)測(cè)精度明顯高于單一BPNN模型的預(yù)測(cè)精度?;煦缋碚摵虰PNN耦合為解決復(fù)雜非線性系統(tǒng)的問題,提供了強(qiáng)有力的工具。
(2)在利用BPNN對(duì)相空間重構(gòu)后的徑流量時(shí)間序列進(jìn)行訓(xùn)練建模時(shí),若選用全部的歷史重構(gòu)序列建立預(yù)測(cè)模型,則可能會(huì)因徑流時(shí)間序列跨度較長(zhǎng)而受到某些隨機(jī)跳躍性數(shù)據(jù)的擾動(dòng),導(dǎo)致模型精度降低;若所選列太短,則可能缺少相應(yīng)的建模信息,也是對(duì)歷史觀測(cè)數(shù)據(jù)的浪費(fèi)。利用最大Lyapunov指數(shù)確定預(yù)測(cè)周期時(shí)長(zhǎng)后,在一個(gè)周期內(nèi)進(jìn)行徑流量預(yù)測(cè),不僅降低了時(shí)間序列跨度的波動(dòng)性、減少了對(duì)歷史水文觀測(cè)資料的浪費(fèi),還可避免人為隨意截選樣本序列進(jìn)行建模的主觀性。所以,混沌-BPNN等維遞補(bǔ)模型的預(yù)測(cè)精度又明顯高于混沌-BPNN的預(yù)測(cè)精度。
(1)根據(jù)混沌理論和人工神經(jīng)網(wǎng)絡(luò)各自特有的優(yōu)勢(shì),建立了徑流量的混沌理論與BPNN耦合的徑流預(yù)測(cè)的兩種模型。耦合模型克服了單一BPNN模型對(duì)徑流量影響因素考慮不夠和難以量化的缺點(diǎn),提高了河川徑流量的中長(zhǎng)期預(yù)測(cè)精度。
(2)混沌-BPNN等維遞補(bǔ)模型在混沌-BPNN模型的基礎(chǔ)上弱化了長(zhǎng)序列數(shù)據(jù)的起伏振蕩性,利用預(yù)測(cè)值動(dòng)態(tài)遞補(bǔ)對(duì)系統(tǒng)演變記憶逐漸消退的舊信息,使模型預(yù)測(cè)精度有所提高。對(duì)黑河出山徑流建立了混沌-BPNN等維遞補(bǔ)預(yù)測(cè)模型,精度達(dá)到了91.84%;該模型比混沌-BPNN模型具有更好的預(yù)測(cè)精度。