DOI:10.14042/j.cnki.32.1309.2024.03.005
摘要:提高中長期徑流預(yù)測精度對于水資源調(diào)度等具有重要意義和應(yīng)用價(jià)值?;趪覛夂蛑行牡?30項(xiàng)氣候因子,采用皮爾遜相關(guān)系數(shù)、最大信息系數(shù)、方差增量指標(biāo)篩選主要預(yù)測因子,建立基于DS(Dempster-Shafer)證據(jù)理論的多因子綜合方法;采用隨機(jī)森林、BP神經(jīng)網(wǎng)絡(luò)和貝葉斯網(wǎng)絡(luò)等建立基于水文-氣象因子遙相關(guān)的中長期徑流預(yù)測模型,構(gòu)建基于DS證據(jù)理論的預(yù)測結(jié)果集成模型。以三峽水庫為對象開展實(shí)例研究,結(jié)果表明:引入遙相關(guān)因子能有效提高預(yù)測精度;基于DS證據(jù)理論的多因子綜合方法能篩選出綜合性更強(qiáng)、穩(wěn)定性更優(yōu)的因子,彌補(bǔ)單一篩選方法的不足;基于DS證據(jù)理論的多因子多模式集成方法在徑流預(yù)測精度上優(yōu)于單一方法單一模型,確定性系數(shù)提高到0.823,平均相對誤差降低到23.2%。
關(guān)鍵詞:中長期徑流預(yù)測;DS證據(jù)理論;隨機(jī)森林;貝葉斯網(wǎng)絡(luò);BP神經(jīng)網(wǎng)絡(luò);遙相關(guān)
中圖分類號:TV124
文獻(xiàn)標(biāo)志碼:A
文章編號:1001-6791(2024)03-0408-12
收稿日期:2023-09-25;網(wǎng)絡(luò)出版日期:2024-02-27
網(wǎng)絡(luò)出版地址:https:∥link.cnki.net/urlid/32.1309.P.20240226.1352.004
基金項(xiàng)目:國家重點(diǎn)研發(fā)計(jì)劃資助項(xiàng)目(2022YFC3202801);國家自然科學(xué)基金資助項(xiàng)目(51909062)
作者簡介:陳娟(1989—),女,江蘇鹽城人,教授,博士,主要從事水資源規(guī)劃與管理方面研究。
E-mail:chenjuanhhu@hhu.edu.cn。
通信作者:鐘平安,E-mail:pazhong@hhu.edu.cn。
中長期徑流預(yù)測可為水資源優(yōu)化配置、水庫群調(diào)度、防洪抗旱等提供支撐[1]。提高中長期徑流預(yù)測精度一直是徑流預(yù)測領(lǐng)域的研究熱點(diǎn),大多研究從預(yù)測因子篩選和模型構(gòu)建兩方面開展。在預(yù)測因子篩選方面,傳統(tǒng)的預(yù)測因子大多考慮徑流自相關(guān)性以及季節(jié)性等。近年來,遙相關(guān)已在徑流預(yù)測、氣溫變化、寒潮路徑判定等領(lǐng)域[2-4]展開應(yīng)用。經(jīng)證實(shí)引入遙相關(guān)因子能有效提高中長期徑流預(yù)測精度,但是由于全球氣候因子眾多、且因子間數(shù)據(jù)特征差異較大,對徑流具有廣泛且復(fù)雜的影響性,選取有效的方法篩選出與徑流相關(guān)性較強(qiáng)的因子,對提高預(yù)測精度至關(guān)重要。目前,常用的因子篩選方法包括皮爾遜相關(guān)系數(shù)法、斯皮爾曼相關(guān)系數(shù)法、最大信息系數(shù)法、方差增量指標(biāo)法、逐步回歸法等[5]。其中,皮爾遜相關(guān)系數(shù)法能消除量綱影響,反映2個(gè)變量之間的線性相關(guān)關(guān)系;斯皮爾曼相關(guān)系數(shù)法為變量的等級統(tǒng)計(jì)指標(biāo),反映2個(gè)變量間的等級相關(guān)關(guān)系;最大信息系數(shù)法利用互信息值反映2個(gè)變量間線性或非線性關(guān)聯(lián)程度;方差增量指標(biāo)法則從預(yù)測因子對目標(biāo)因子方差的貢獻(xiàn)程度出發(fā)篩選重要性因子??梢姡F(xiàn)有研究大多集中于采用單一篩選方法進(jìn)行特征因子篩選,然而不同因子篩選方法的側(cè)重點(diǎn)和關(guān)注點(diǎn)不同,單一因子篩選方法忽略了不同方法的優(yōu)缺點(diǎn),因此本文采用多因子綜合方法,從多維度綜合考慮各因子對徑流的影響,減小采用單一的因子篩選方法對徑流預(yù)測結(jié)果帶來的不確定性。
在模型構(gòu)建方面,近年來機(jī)器學(xué)習(xí)以及人工智能算法廣泛應(yīng)用于徑流預(yù)測領(lǐng)域,如隨機(jī)森林模型(Random Forest,RF)、人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN)、極限學(xué)習(xí)機(jī)(Extreme Learning Machines,ELM)和支持向量機(jī)模型(Support Vector Machines,SVM)等[6-8],都具有較好的模型預(yù)測能力。董前進(jìn)等[9]根據(jù)三峽汛期流量和74項(xiàng)環(huán)流指數(shù),利用相關(guān)系數(shù)法和隨機(jī)森林法篩選因子,得出基于隨機(jī)森林算法的預(yù)測模型精度和穩(wěn)定性均較好;酈于杰等[10]采用基于遺傳算法的支持向量機(jī)模型對漢江流域進(jìn)行逐月徑流量預(yù)測,得出其預(yù)測精度優(yōu)于隨機(jī)森林和多元線性回歸模型。但采用單一的徑流預(yù)測模型具有一定的局限性,對多個(gè)單一模型采取模型集成的辦法能發(fā)揮各模型的優(yōu)勢,提高模型整體泛化能力,避免局部偏差對整體預(yù)測效果的影響。張力等[11]基于時(shí)序分解將Prophet、LSTM和GARCH模型進(jìn)行集成,驗(yàn)證了集成模型在多個(gè)指標(biāo)上優(yōu)于各單一模型;鮑振鑫等[12]集成水文模型與機(jī)器學(xué)習(xí)模型,為水沙過程模擬方法提供了新思路。傳統(tǒng)的模型集成方法多采用集合平均或線性加權(quán),未充分考慮單一預(yù)測模型的不確定性信息。DS(Dempster-Shafer)證據(jù)理論是基于不確定性推理的多證據(jù)決策融合算法,通過引入基本信任函數(shù)綜合多個(gè)證據(jù),提高識別準(zhǔn)確度,目前已被廣泛應(yīng)用到信息融合、專家系統(tǒng)、決策評估等領(lǐng)域[13]。因此,本文將DS證據(jù)理論引入中長期徑流預(yù)測,采用DS證據(jù)理論從多維度綜合不同篩選方法的預(yù)測因子和不同預(yù)測模型的徑流預(yù)測結(jié)果,比較不同因子篩選方法在不同預(yù)測模型中的預(yù)測精度,最后以三峽水庫為對象開展實(shí)例研究,驗(yàn)證多因子多模式綜合方法對提高徑流預(yù)測精度的有效性。
1" 研究方法
國家氣候中心共提供了88項(xiàng)大氣環(huán)流因子、26項(xiàng)海溫因子和16項(xiàng)其他因子共130項(xiàng)氣候監(jiān)測因子,由于氣候因子眾多、且因子間數(shù)據(jù)特征差異大,對徑流影響復(fù)雜。因此,在徑流影響因子篩選方面,本文從變量之間的線性相關(guān)關(guān)系、非線性關(guān)聯(lián)程度以及對目標(biāo)因子方差的貢獻(xiàn)程度等多維度出發(fā),綜合考慮各因子對徑流的影響,分別采用皮爾遜相關(guān)系數(shù)法、最大信息系數(shù)法、方差增量指標(biāo)法篩選主要預(yù)測因子,并提出基于DS證據(jù)理論的多因子綜合方法。在模型構(gòu)建方面,由于采用單一的徑流預(yù)測模型具有一定的局限性,本文選取近年來廣泛應(yīng)用的隨機(jī)森林模型、貝葉斯網(wǎng)絡(luò)模型、BP神經(jīng)網(wǎng)絡(luò)模型等進(jìn)行徑流預(yù)測對比研究,并將DS證據(jù)理論引入中長期徑流預(yù)測,采用DS證據(jù)理論從多維度綜合不同徑流預(yù)測結(jié)果,發(fā)揮各模型的優(yōu)勢,提高模型整體泛化能力,驗(yàn)證多因子多模式綜合方法對提高徑流預(yù)測精度的有效性。
1.1" 因子篩選
(1) 皮爾遜相關(guān)系數(shù)法是表示兩變量間線性相關(guān)程度的統(tǒng)計(jì)指標(biāo),取值范圍為-1~1,值大于0為正相關(guān),值小于0為負(fù)相關(guān),其絕對值越大則表示相關(guān)程度越緊密,計(jì)算公式如下:
r=∑ni=1(Xij(t-k)-Xj(t-k))(Yi(t)-Y(t))∑ni=1(Xij(t-k)-Xj(t-k))2∑ni=1(Yi(t)-Y(t))2(1)
式中:r為皮爾遜相關(guān)系數(shù);Yi(t)為第i年第t月徑流(i∈[1,n],t∈[1,12]);Xij(t-k)為第i年第t-k個(gè)月的第j個(gè)前期徑流值或氣候因子(j∈[1,m],k∈[1,12]);Xj(t-k)為第1到n年第t-k個(gè)月的第j個(gè)前期徑流值或氣候因子的平均值;Y(t)為第1到n年第t月徑流的平均值;m為前期徑流值和氣候因子的個(gè)數(shù);n為模型訓(xùn)練期徑流序列長度。
根據(jù)式(1)計(jì)算備選預(yù)測因子(前期徑流和氣候因子)與當(dāng)月徑流間的相關(guān)系數(shù),取相關(guān)系數(shù)絕對值最大的前p個(gè)因子作為最終徑流預(yù)測因子。
(2) 最大信息系數(shù)(Maximal Information Coefficient,MIC)法由Reshef等[14]、Lu等[15]提出,用于衡量變量之間的線性或非線性關(guān)聯(lián)程度,常用于機(jī)器學(xué)習(xí)的特征選擇,通過疊加函數(shù)表示變量之間的復(fù)雜關(guān)系,且隨著噪音的增加,不同類型的關(guān)聯(lián)函數(shù)變化相近,具有普適性和公平性。最大信息系數(shù)法的主要原理是互信息和網(wǎng)格化,對變量構(gòu)成的散點(diǎn)圖進(jìn)行網(wǎng)格化,并求出最大互信息值,選擇不同尺度下互信息最大值為MIC值(CMI)。計(jì)算公式如下:
CMI=h(Xij(t-k),Yi(t))=maxablt;Bmax(I)log2(min(a,b))(2)
式中:h為計(jì)算MIC值的函數(shù);I為變量Xij(t-k)和Yi(t)的互信息值,計(jì)算公式為
I=∑ni=1g(Xij(t-k),Yi(t))log2g(Xij(t-k),Yi(t))g(Xij(t-k))g(Yi(t))(3)
式中:g(Xij(t-k),Yi(t))為Xij(t-k)和Yi(t)的聯(lián)合概率密度;g(Xij(t-k))和g(Yi(t))分別為Xij(t-k)和Yi(t)的邊緣概率密度;a表示將Xij(t-k)的值域分成a段;b表示將Yi(t)的值域分成b段;B為變量網(wǎng)格劃分的上限值,一般取數(shù)據(jù)量的0.6次方。選取MIC值前p個(gè)因子作為最終的徑流預(yù)測因子。
(3) 方差增量指標(biāo)法。方差增量是基于預(yù)測因子對目標(biāo)因子方差影響程度進(jìn)行預(yù)測因子重要性評價(jià)的指標(biāo),通過對每一個(gè)預(yù)測因子進(jìn)行隨機(jī)賦值,若值改變后模型預(yù)測方差增大,則因子重要性程度高。方差增量為相對性指標(biāo),值越大則重要性程度越高,因此本文選取方差增量最大的前p個(gè)因子作為最終徑流預(yù)測因子,其計(jì)算公式如下:
EMS=Var(Y′i(t))-E(Var(Y′i(t)))(4)
式中:EMS為預(yù)測因子的方差增量指標(biāo)值;Var(Y′i(t))為第i年第t月基于預(yù)測因子的預(yù)測徑流方差;E(Var(Y′i(t)))為方差的均值。
1.2" 基于DS證據(jù)理論的多因子綜合方法
DS證據(jù)理論能通過引入基本信任函數(shù),有效綜合以上3個(gè)單一因子篩選方法,解決方法不同帶來的不確定性問題,提高預(yù)測準(zhǔn)確度?;贒S證據(jù)理論的多因子綜合具體步驟[16]如下:
(1) 定義識別框架Φ,即將所有可能發(fā)生的事件元素構(gòu)成一個(gè)證據(jù)集合P,且各元素間沒有交集。識別框架Φ可以定義為
Φ={A1,A2,A3}(5)
式中:A1、A2、A3分別為皮爾遜相關(guān)系數(shù)法、最大信息系數(shù)法、方差增量指標(biāo)法篩選出的前p個(gè)因子和徑流相關(guān)性指標(biāo)值的集合。
(2) 引入基本信任函數(shù)f,每個(gè)子集都會分配一個(gè)基本信任函數(shù),表示證據(jù)對事件的信任程度,值越大則信任程度越高?;贒S證據(jù)理論的多因子綜合基本信任函數(shù)為3個(gè)方法各自篩選出的前p個(gè)因子對應(yīng)的皮爾遜相關(guān)系數(shù)值、最大信息系數(shù)值和方差增量指標(biāo)值。
(3) 進(jìn)行證據(jù)融合,即對多個(gè)證據(jù)的基本信任函數(shù)進(jìn)行正交求和計(jì)算:
f(A1A2A3)=∑A1∩A2∩A3=Pf1(A1)f2(A2)f3(A3)1-∑A1∩A2∩A3=f1(A1)f2(A2)f3(A3),P≠
0,P=(6)
式中:f1、f2、f3分別為A1、A2、A3的基本信任函數(shù);f(A1A2A3)為A1、A2、A3綜合后新的基本信任函數(shù),最終取f(A1A2A3)值最大的前p個(gè)因子作為多因子綜合篩選方法的徑流預(yù)測因子。
1.3" 中長期徑流預(yù)測模型
(1) 隨機(jī)森林模型
隨機(jī)森林模型,是從樣本數(shù)據(jù)集中通過Bagging方法組成多個(gè)樣本子集,并對每個(gè)樣本形成多棵決策樹,即形成由多棵決策樹構(gòu)成的隨機(jī)森林,最后通過投票得出最優(yōu)的分類結(jié)果或預(yù)測結(jié)果。隨機(jī)森林用于徑流預(yù)測的具體步驟可參考文獻(xiàn)[9]。
(2) 貝葉斯網(wǎng)絡(luò)模型
貝葉斯網(wǎng)絡(luò)(Bayesian Network,BN)是一種有向無環(huán)圖的概率圖模型,其節(jié)點(diǎn)表示變量,節(jié)點(diǎn)之間的有向邊表示變量之間的影響關(guān)系[17]。本文通過專家知識構(gòu)建貝葉斯網(wǎng)絡(luò)結(jié)構(gòu),選擇要預(yù)測的當(dāng)月徑流為目標(biāo)節(jié)點(diǎn),選擇對當(dāng)月徑流產(chǎn)生較大影響的前期徑流因子和氣候因子作為其父節(jié)點(diǎn),構(gòu)建貝葉斯網(wǎng)絡(luò)模型,并采用極大似然估計(jì)法估計(jì)網(wǎng)絡(luò)參數(shù),得出各節(jié)點(diǎn)的條件概率表。通過貝葉斯網(wǎng)絡(luò)推理,計(jì)算得到目標(biāo)節(jié)點(diǎn)的后驗(yàn)概率分布,即當(dāng)月徑流的后驗(yàn)概率分布,從而選擇概率最大值作為最終徑流預(yù)測值。
(3) BP神經(jīng)網(wǎng)絡(luò)模型
BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)是一種按照誤差反向傳播的多層前饋神經(jīng)網(wǎng)絡(luò),常用于回歸預(yù)測、模式識別等方面。主要原理是通過梯度下降法,信號從輸入層經(jīng)隱含層到達(dá)輸出層進(jìn)行正向傳播,若未達(dá)到期望輸出,誤差同時(shí)開始從輸出層逐層向前進(jìn)行反向傳播到輸入層,層層更新權(quán)重閾值,減小誤差,當(dāng)?shù)狡谕Y(jié)果時(shí)進(jìn)行輸出。BP神經(jīng)網(wǎng)絡(luò)的具體步驟可參考文獻(xiàn)[18]。
1.4" 模型集成
由于智能算法模型自身機(jī)制的不穩(wěn)定性,模型參數(shù)的不確定性和徑流序列的復(fù)雜性,單一模型在不同條件下會呈現(xiàn)不同預(yù)測效果,采用模型集成方法能發(fā)揮各單一預(yù)測模型的優(yōu)勢,降低單個(gè)模型預(yù)測結(jié)果的偏差對整體的影響,提高模型泛化能力,增強(qiáng)魯棒性。本文提出基于DS證據(jù)理論的模型集成方法,利用各模型不同月份的相對誤差進(jìn)行各模型權(quán)重的DS綜合,具體步驟如下:
(1) 計(jì)算各月各個(gè)模型的相對誤差權(quán)重,計(jì)算公式如下:
λik(t)=1/(ξik(t)+0.01)∑Kk=11/(ξik(t)+0.01)(7)
式中:λik(t)為第k個(gè)模型在第i年第t個(gè)月的相對誤差權(quán)重;ξik(t)為第k個(gè)模型在第i年第t個(gè)月的相對誤差的絕對值;K為預(yù)測模型的個(gè)數(shù);
(2) 確定識別框架為第i年第t個(gè)月各模型的相對誤差,基本信任函數(shù)為第i年第t個(gè)月各模型的相對誤差權(quán)重值,根據(jù)式(6)進(jìn)行DS多重優(yōu)化綜合,得到綜合后的基本信任函數(shù)F,即為各模型的預(yù)測權(quán)重;
(3) 通過分配各模型不同的權(quán)重,進(jìn)行模型集成,得到徑流的綜合預(yù)測值,計(jì)算公式為
Y∧i(t)=∑Kk=1Fk(t)Yik(t)(8)
式中:Y∧i(t)為第i年第t個(gè)月集成模型預(yù)測結(jié)果;Fk(t)為第k個(gè)模型第t個(gè)月的權(quán)重;Yik(t)為第k個(gè)模型第i年第t個(gè)月的預(yù)測結(jié)果。
2" 實(shí)例分析
2.1" 研究區(qū)及數(shù)據(jù)
本文以三峽水庫為研究對象,三峽工程是目前世界上最大的水利樞紐工程,有航運(yùn)、發(fā)電、防洪等綜合利用效益,水庫位置如圖1所示。采用三峽水庫1951—2011年逐月入庫徑流序列,結(jié)合國家氣候中心氣候監(jiān)測專區(qū)提供的同期88項(xiàng)大氣環(huán)流因子、26項(xiàng)海溫因子和16項(xiàng)其他因子共130項(xiàng)監(jiān)測氣候因子(http:∥cmdp.ncc-cma.net/cn/monitoring.htm)進(jìn)行三峽水庫中長期徑流預(yù)測應(yīng)用研究。其中,部分氣候因子存在數(shù)據(jù)缺失情況,當(dāng)因子數(shù)據(jù)缺失率超過20%時(shí),將該因子剔除;當(dāng)因子數(shù)據(jù)缺失率不超過20%時(shí),采取基于MissForest的迭代填補(bǔ)算法[19]對缺失值進(jìn)行填補(bǔ)。
2.2" 因子篩選結(jié)果
為驗(yàn)證引入遙相關(guān)因子對提高徑流預(yù)測精度的有效性,先以當(dāng)月徑流為目標(biāo)變量,將前12個(gè)月的徑流量納入備選預(yù)測因子,通過皮爾遜相關(guān)系數(shù)法篩選出前3個(gè)相關(guān)系數(shù)高的徑流因子;其次,基于水文—?dú)庀笠蜃娱g的遙相關(guān)關(guān)系,以當(dāng)月徑流為目標(biāo)變量,將徑流發(fā)生前12個(gè)月的氣候因子共1 560個(gè)變量納入備選預(yù)測因子,分別采用皮爾遜相關(guān)系數(shù)法、最大信息系數(shù)法、方差增量指標(biāo)法對上述氣候因子進(jìn)行篩選;最后采用基于DS證據(jù)理論的多因子綜合法對不同篩選方法進(jìn)行因子綜合,得到前10個(gè)對徑流預(yù)測影響較顯著的氣候因子。具體方案設(shè)計(jì)見表1。
方案一到方案五的篩選結(jié)果見圖2和圖3(以8月份為例),基于DS證據(jù)理論多因子綜合法的各月篩選結(jié)果見表2。由圖2可知,圖中彩色圓點(diǎn)表示當(dāng)月徑流與前期各月徑流的皮爾遜相關(guān)系數(shù),因此影響8月份的前期徑流因子主要為前一年11月徑流,當(dāng)年6月徑流、當(dāng)年7月徑流。
由圖3可知,不同因子篩選方法篩選出的預(yù)測因子不同:以8月份為例,相關(guān)系數(shù)法篩選出的主要?dú)夂蛞蜃訛楸泵绤^(qū)極渦強(qiáng)度指數(shù)(t-1)、東太平洋副高強(qiáng)度指數(shù)(t-3)、南海副高面積指數(shù)(t-2)等;最大信息系數(shù)法篩選出的主要?dú)夂蛞蜃訛楸睒O濤動指數(shù)(t-5)、北美區(qū)極渦強(qiáng)度指數(shù)(t-5)、南海副高北界位置指數(shù)(t-12)等;方差增量指標(biāo)法篩選出的主要?dú)夂蛞蜃訛榇笪餮蠖嗄甏H振蕩指數(shù)(t-6)、西太平洋副高脊線位置指數(shù)(t-1)、東亞槽強(qiáng)度指數(shù)(t-8)等;最后,基于DS理論的多因子綜合方法綜合后的預(yù)測因子為大西洋多年代際振蕩指數(shù)(t-6)、西太平洋副高脊線位置指數(shù)(t-1)、大西洋多年代際振蕩指數(shù)(t-7)等。由表2可知,不同月份的多因子綜合篩選結(jié)果差異性較大,由此可見,由于3種方法分別從變量之間的線性相關(guān)關(guān)系、非線性關(guān)聯(lián)程度以及對目標(biāo)因子方差的貢獻(xiàn)程度等多維度出發(fā)篩選因子,其關(guān)注點(diǎn)和側(cè)重點(diǎn)不同,因此,因子篩選方法的選擇對預(yù)測因子篩選結(jié)果會產(chǎn)生很大的影響,基于DS理論的多因子綜合方法能綜合考慮各維度各單一篩選方法的結(jié)果。
2.3" 徑流預(yù)報(bào)結(jié)果
將各方案篩選的預(yù)測因子作為輸入,以1951—1999年為訓(xùn)練期、2000—2011年為測試期,分別構(gòu)建各月徑流預(yù)測模型,對比不同預(yù)測因子對模型精度的影響,并采用確定性系數(shù)(R2)、合格率(Qualified Rate,RQ)和平均相對誤差(Mean Relative Error,EMR)3個(gè)指標(biāo)來衡量。
其中,隨機(jī)森林模型構(gòu)建,將不同方案的篩選因子作為輸入進(jìn)行徑流預(yù)測,得到徑流預(yù)測值;BP神經(jīng)網(wǎng)絡(luò)模型構(gòu)建,每個(gè)月分別將3個(gè)前期徑流因子和10個(gè)氣候因子作為輸入信號,輸入BP神經(jīng)網(wǎng)絡(luò),經(jīng)過誤差反向傳播不斷更新權(quán)重和閾值后得到預(yù)測結(jié)果;貝葉斯網(wǎng)絡(luò)模型構(gòu)建,以8月份為例,目標(biāo)節(jié)點(diǎn)為當(dāng)月徑流,父節(jié)點(diǎn)為篩選的預(yù)測因子,包括徑流(t-1)、徑流(t-2)、徑流(t-9)、西太平洋副高北界位置指數(shù)(t-1)、北美-北大西洋副高北界位置指數(shù)(t-3)、北美區(qū)極渦強(qiáng)度指數(shù)(t-1)、北美區(qū)極渦強(qiáng)度指數(shù)(t-5)、北半球極渦強(qiáng)度指數(shù)(t-5)、東亞槽強(qiáng)度指數(shù)(t-8)、北極濤動指數(shù)(t-5)、50 hPa緯向風(fēng)指數(shù)(t-7)、大西洋多年代際振蕩指數(shù)(t-6)、大西洋多年代際振蕩指數(shù)(t-7)。根據(jù)歷史徑流序列采用最大似然法進(jìn)行網(wǎng)絡(luò)參數(shù)學(xué)習(xí),基于貝葉斯公式進(jìn)行徑流預(yù)測。
2.3.1" 不同因子篩選方案結(jié)果對比
各模型不同方案徑流預(yù)測結(jié)果見圖4,預(yù)測精度見表3。由圖4可知,各模型不同方案的徑流預(yù)測結(jié)果絕大部分能在±20%相對誤差線內(nèi),且徑流值較小時(shí)的預(yù)報(bào)誤差小于徑流值較大時(shí)的,可見非汛期徑流預(yù)測效果優(yōu)于汛期。
由表3可知:① 對比方案一與方案二、三、四,加入遙相關(guān)因子后,3種預(yù)測模型的預(yù)測精度均比方案一得到了提升,因此遙相關(guān)因子的引入能有效提高徑流預(yù)測精度;② 對比方案二、三、四,隨機(jī)森林模型中方案三預(yù)測結(jié)果最優(yōu),BP神經(jīng)網(wǎng)絡(luò)中方案四預(yù)測結(jié)果最優(yōu),貝葉斯網(wǎng)絡(luò)模型中方案三預(yù)測結(jié)果最優(yōu),因此,側(cè)重點(diǎn)不同的單一因子篩選方法會在不同的預(yù)測模型中呈現(xiàn)不同的預(yù)測效果;③ 對比方案五與方案二、三、四,采取基于DS證據(jù)理論的多因子綜合方法后,3種預(yù)測模型中方案五的預(yù)測精度均優(yōu)于方案二、三、四,因此,基于DS證據(jù)理論的多因子綜合方法能有效綜合各篩選方法的不同因子,提高模型預(yù)測精度。
2.3.2" 不同預(yù)測模型結(jié)果對比
由表3和圖4可知,3種預(yù)測模型中方案五預(yù)測精度最優(yōu),因此將基于DS證據(jù)理論的多因子綜合方法的3種預(yù)測模型進(jìn)行對比:隨機(jī)森林的R2最高,為0.794,模型的綜合預(yù)測效果更好,能更準(zhǔn)確地預(yù)測出徑流的總體變化趨勢;BP神經(jīng)網(wǎng)絡(luò)的平均相對誤差值最低,為17.5%,對徑流序列極值的預(yù)測效果更好;貝葉斯網(wǎng)絡(luò)對非汛期徑流預(yù)測效果更優(yōu)。
由此可見,不同預(yù)測模型具有各自的優(yōu)勢,因此本文采用基于DS證據(jù)理論的模型集成方法,將基于方案五篩選方法的3種模型進(jìn)行集成,利用每個(gè)月各個(gè)模型的相對誤差權(quán)重,采取DS多重優(yōu)化組合方法,得出每個(gè)月各個(gè)模型的綜合預(yù)測權(quán)重值,從而得出集成模型綜合預(yù)測結(jié)果。
以8月份為例,得到集成方程為
Y∧i(8)=0.983Yi1(8)+0.009Yi2(8)+0.008Yi3(8)(9)
式中:Y∧i(8)、Yi1(8)、Yi2(8)和Yi3(8)分別為集成模型、隨機(jī)森林模型、BP神經(jīng)網(wǎng)絡(luò)和貝葉斯網(wǎng)絡(luò)模型預(yù)測第i年8月份徑流的結(jié)果。其他各月的具體權(quán)重值見表4。
由表4可知,各月不同模型的權(quán)重占比差異較大,可見基于DS證據(jù)理論的賦權(quán)方法能有效發(fā)揮各模型在不同月份的優(yōu)勢,從而提升集成模型預(yù)測效果。各模型及基于DS證據(jù)理論的集成結(jié)果如圖5所示,各模型預(yù)測精度見表5。
由圖5和表5可知:基于DS證據(jù)理論的多因子多模式集成后,確定性系數(shù)提高到0.823,合格率達(dá)到76.4%,平均相對誤差也降到15.0%,相較于以上3種單一模型其精度均有了明顯提升。其中,集成模型汛期EMR從26.1%下降到23.2%,比隨機(jī)森林模型預(yù)測精度提升了11%;非汛期EMR從12.7%下降到11.0%,比貝葉斯網(wǎng)絡(luò)模型預(yù)測精度提升了14%。可見基于DS證據(jù)理論的多因子多模式集成模型能發(fā)揮不同單一模型的優(yōu)勢,彌補(bǔ)單一模型的不足,提升徑流預(yù)測效果。
2.4" 結(jié)果不確定性分析
由于輸入因子的不確定性和模型自身的不確定性,對徑流預(yù)測結(jié)果進(jìn)行不確定性分析很有必要。本文基于覆蓋率指標(biāo)即置信區(qū)間內(nèi)所覆蓋的實(shí)測徑流量的比例來對基于DS證據(jù)理論的集成模型95%的置信區(qū)間進(jìn)行不確定性分析,結(jié)果見圖6。
由圖6可知,95%置信區(qū)間預(yù)測效果較好,能覆蓋絕大部分的實(shí)測徑流量,不確定性較低,但汛期預(yù)測精度較枯季偏低,這是由于汛期來水的隨機(jī)性較大,導(dǎo)致輸入因子和模型自身的不確定性都較大,未來可進(jìn)一步研究如何降低汛期徑流預(yù)測的不確定性。
3" 結(jié)" 論
為探究多因子多模式集成方法對提高徑流預(yù)測精度的有效性,本文開展了基于DS證據(jù)理論的多因子綜合和多模型集成的中長期徑流預(yù)測模型與及應(yīng)用研究,得出主要結(jié)論如下:
(1) 加入氣候遙相關(guān)因子作為預(yù)測因子,徑流預(yù)測精度得到了提高,驗(yàn)證了引入遙相關(guān)因子對提高預(yù)測精度的有效性。
(2) 基于DS證據(jù)理論的多因子綜合方法能融合側(cè)重點(diǎn)不同的單一因子篩選方法,篩選出綜合性更強(qiáng)、穩(wěn)定性更優(yōu)的因子,有效提高徑流預(yù)測精度。
(3) 基于DS證據(jù)理論的集成模型能有效提高徑流預(yù)測精度,發(fā)揮各單一模型的優(yōu)勢,且對集成模型95%的置信區(qū)間進(jìn)行不確定性分析,95%置信區(qū)間能覆蓋絕大部分的實(shí)測徑流量。
參考文獻(xiàn):
[1]徐宗學(xué),周祖昊,姜瑤,等.西南河流源區(qū)徑流量變化規(guī)律及其未來演變趨勢[J].水科學(xué)進(jìn)展,2022,33(3):360-374.(XU Z X,ZHOU Z H,JIANG Y,et al.Variation laws and future evolution trends of runoff in the headwaters region of Southwestern rivers[J].Advances in Water Science,2022,33(3):360-374.(in Chinese))
[2]熊怡,周建中,賈本軍,等.基于隨機(jī)森林遙相關(guān)因子選擇的月徑流預(yù)報(bào)[J].水力發(fā)電學(xué)報(bào),2022,41(3):32-45.(XIONG Y,ZHOU J Z,JIA B J,et al.Monthly runoff prediction based on teleconnection factors selection using random forest model[J].Journal of Hydroelectric Engineering,2022,41(3):32-45.(in Chinese))
[3]JIAO W Z,WANG L X,NOVICK K A,et al.A new station-enabled multi-sensor integrated index for drought monitoring[J].Journal of Hydrology,2019,574:169-180.
[4]黃丹,耿煥同,謝佩妍.歐亞遙相關(guān)型位相變化對我國寒潮路徑的影響[J].大氣科學(xué)學(xué)報(bào),2021,44(6):888-897.(HUANG D,GENG H T,XIE P Y.The effects of phase changes in Eurasian teleconnections on the tracks of the cold wave in China[J].Transactions of Atmospheric Sciences,2021,44(6):888-897.(in Chinese))
[5]崔樹銀,汪昕杰.基于最大信息系數(shù)和多目標(biāo)Stacking集成學(xué)習(xí)的綜合能源系統(tǒng)多元負(fù)荷預(yù)測[J].電力自動化設(shè)備,2022,42(5):32-39,81.(CUI S Y,WANG X J.Multivariate load forecasting in integrated energy system based on maximal information coefficient and multi-objective Stacking ensemble learning[J].Electric Power Automation Equipment,2022,42(5):32-39,81.(in Chinese))
[6]AVANZI F,JOHNSON R C,OROZA C A,et al.Insights into preferential flow snowpack runoff using random forest[J].Water Resources Research,2019,55(12):10727-10746.
[7]WU J H,WANG Z C,HU Y,et al.Runoff forecasting using convolutional neural networks and optimized bi-directional long short-term memory[J].Water Resources Management,2023,37(2):937-953.
[8]劉成帥,孫悅,胡彩虹,等.考慮產(chǎn)流模式空間分布的流域-城市復(fù)合系統(tǒng)洪水預(yù)報(bào)模型[J].水科學(xué)進(jìn)展,2023,34(4):530-540.(LIU C S,SUN Y,HU C H,et al.Study on flood forecasting model of watershed-urban complex system considering the spatial distribution of runoff generation pattern[J].Advances in Water Science,2023,34(4):530-540.(in Chinese))
[9]董前進(jìn),張旭.基于遙相關(guān)的三峽水庫中長期徑流預(yù)測[J].華北水利水電大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,37(6):38-42.(DONG Q J,ZHANG X.Medium and long-term runoff prediction of Three Gorges Reservoir based on teleconnection[J].Journal of North China University of Water Resources and Electric Power (Natural Science Edition),2016,37(6):38-42.(in Chinese))
[10]酈于杰,梁忠民,唐甜甜.基于支持向量回歸機(jī)的長期徑流預(yù)報(bào)及不確定性分析[J].南水北調(diào)與水利科技(中英文),2018,16(3):45-50.(LI Y J,LIANG Z M,TANG T T.Long-term runoff forecasting based on SVR model and its uncertainty analysis[J].South-to-North Water Transfers and Water Science amp; Technology,2018,16(3):45-50.(in Chinese))
[11]張力,王紅瑞,郭琲楠,等.基于時(shí)序分解與機(jī)器學(xué)習(xí)的非平穩(wěn)徑流序列集成模型與應(yīng)用[J].水科學(xué)進(jìn)展,2023,34(1):42-52.(ZHANG L,WANG H R,GUO B N,et al.Integrated model and application of non-stationary runoff based on time series decomposition and machine learning[J].Advances in Water Science,2023,34(1):42-52.(in Chinese))
[12]鮑振鑫,張建云,王國慶,等.基于水文模型與機(jī)器學(xué)習(xí)集合模擬的水沙變異歸因定量識別:以黃河中游窟野河流域?yàn)槔跩].水科學(xué)進(jìn)展,2021,32(4):485-496.(BAO Z X,ZHANG J Y,WANG G Q,et al.Quantitative assessment of the attribution of runoff and sediment changes based on hydrologic model and machine learning:a case study of the Kuye River in the Middle Yellow River basin[J].Advances in Water Science,2021,32(4):485-496.(in Chinese))
[13]馬偉,喬穎,魯宗相,等.基于敏感氣象特征因子篩選與優(yōu)化組合的短期風(fēng)電功率預(yù)測[J].電網(wǎng)技術(shù),2023,47(7):2897-2908.(MA W,QIAO Y,LU Z X,et al.Short-term wind power prediction based on combination of screening and optimizing sensitive meteorological characteristics[J].Power System Technology,2023,47(7):2897-2908.(in Chinese))
[14]RESHEF D N,RESHEF Y A,F(xiàn)INUCANE H K,et al.Detecting novel associations in large data sets[J].Science,2011,334(6062):1518-1524.
[15]LU P Y,LIN K R,XU C Y,et al.An integrated framework of input determination for ensemble forecasts of monthly estuarine saltwater intrusion[J].Journal of Hydrology,2021,598:126225.
[16]ZHANG S R,LIU T,WANG C.Multi-source data fusion method for structural safety assessment of water diversion structures[J].Journal of Hydroinformatics,2021,23(2):249-266.
[17]趙菲菲,張青青,張宇,等.基于貝葉斯網(wǎng)絡(luò)的黃河徑流預(yù)測[J].南水北調(diào)與水利科技(中英文),2021,19(3):511-519.(ZHAO F F,ZHANG Q Q,ZHANG Y,et al.The Yellow River runoff forecast based on Bayesian network[J].South-to-North Water Transfers and Water Science amp; Technology,2021,19(3):511-519.(in Chinese))
[18]HE S,SANG X F,YIN J X,et al.Short-term runoff prediction optimization method based on BGRU-BP and BLSTM-BP neural networks[J].Water Resources Management,2023,37(2):747-768.
[19]TANG F,ISHWARAN H.Random forest missing data algorithms[J].Statistical Analysis and Data Mining,2017,10(6):363-377.
Medium and long-term runoff prediction model based on
multi-factor and multi-model integration
The study is financially supported by the National Key Ramp;D Program of China (No.2022YFC3202801) and the National Natural Science Foundation of China (No.51909062).
CHEN Juan,XU Qi,CAO Duanxiang,LI Guozhi,ZHONG Ping′an
(College of Hydrology and Water Resources,Hohai University,Nanjing 210098,China)
Abstract:Improving medium and long-term runoff prediction accuracy is vital for optimal water resource operation.Based on the 130 climate factors obtained from the National Climate Center of China,the Pearson′s correlation coefficient,maximum information coefficient,and variance increment index are used to screen the main factors for runoff prediction.Then,a multifactor synthesis method based on the Dempster-Shafer (DS) evidence theory is proposed.The random forest,BP neural network,and Bayesian network are used to establish medium and long-term runoff prediction models using the screened hydrometeorological teleconnection factors.Finally,an integration model for the runoff prediction results is proposed based on the DS evidence theory.Considering the Three Gorges Reservoir as the case study,the results show that the use of hydrometeorological teleconnection factors can effectively improve prediction accuracy.Moreover,the multifactor synthesis method based on the DS evidence theory can screen the factors with better synthesis and stability,thereby mitigating the shortcomings of single-screening methods.The multifactor and multimode integration model based on the DS evidence theory has higher runoff prediction accuracy than the single-screening models,with the certainty coefficient increased to 0.823 and the average relative error reduced to 23.2%.
Key words:medium and long-term runoff prediction;Dempster-Shafer evidence theory;random forest;Bayesian network;BP neural network;teleconnection