黃朝君 賈建偉 秦赫 王棟
摘要:預(yù)測(cè)因子作為中長(zhǎng)期預(yù)報(bào)模型的輸入項(xiàng),是影響預(yù)報(bào)結(jié)果精度的關(guān)鍵要素。為進(jìn)一步提高預(yù)報(bào)精度,提出了一種Copula熵與隨機(jī)森林模型相結(jié)合的中長(zhǎng)期徑流預(yù)報(bào)方法。該方法首先采用Copula熵指標(biāo)對(duì)預(yù)測(cè)因子進(jìn)行篩選,然后將選取的預(yù)測(cè)因子作為輸入項(xiàng),導(dǎo)入隨機(jī)森林模型中對(duì)月徑流進(jìn)行相應(yīng)預(yù)測(cè)。將該方法應(yīng)用于漢江流域丹江口水庫(kù)的逐月入庫(kù)徑流預(yù)報(bào)中,并與相關(guān)系數(shù)篩選法進(jìn)行對(duì)比。結(jié)果表明:基于Copula熵指標(biāo)篩選出的預(yù)測(cè)因子對(duì)應(yīng)的模擬結(jié)果具有更高的精度,尤其對(duì)于汛期而言,其模擬值與實(shí)測(cè)值的擬合優(yōu)度顯著優(yōu)于比選方法,說(shuō)明其篩選出的預(yù)測(cè)因子具有更好的合理性。
關(guān)鍵詞:中長(zhǎng)期徑流預(yù)報(bào); 預(yù)測(cè)因子; 大氣環(huán)流因子; Copula熵; 隨機(jī)森林模型; 丹江口水庫(kù)
中圖法分類號(hào): TV211.1+2
文獻(xiàn)標(biāo)志碼: A
DOI:10.16232/j.cnki.1001-4179.2021.11.013
0引 言
中長(zhǎng)期徑流預(yù)報(bào)作為水文預(yù)報(bào)的重要組成部分,是指依據(jù)已知信息對(duì)預(yù)見期為月、季、年尺度的徑流要素進(jìn)行定性或定量的預(yù)測(cè)[1-5]。與短期徑流預(yù)報(bào)相比,其預(yù)報(bào)結(jié)果可為水利管理部門提供更為充足的決策時(shí)間,在水庫(kù)調(diào)度、防洪減災(zāi)及水資源綜合管理等工作中發(fā)揮重要作用[6-8]。
目前,針對(duì)中長(zhǎng)期徑流預(yù)報(bào)已有大量研究,尤其隨著人工智能與數(shù)據(jù)挖掘技術(shù)的快速發(fā)展,大量機(jī)器學(xué)習(xí)算法被應(yīng)用于該領(lǐng)域。如酈于杰等[9]采用支持向量機(jī)對(duì)漢江流域皇莊站的長(zhǎng)期徑流過(guò)程進(jìn)行了預(yù)報(bào),并對(duì)預(yù)報(bào)結(jié)果的不確定性進(jìn)行了相應(yīng)分析;許斌等[10]以丹江口水庫(kù)為例,比較了隨機(jī)森林與梯度提升樹兩種機(jī)器學(xué)習(xí)模型的預(yù)報(bào)精度;謝帥等[11]將LASSO回歸與支持向量機(jī)相耦合,并應(yīng)用于龍羊峽水庫(kù)入庫(kù)徑流預(yù)報(bào)研究中;Huang等[12]將多種機(jī)器學(xué)習(xí)算法與BMA方法相結(jié)合,開展了基于多模型耦合的漢江流域中長(zhǎng)期徑流預(yù)報(bào)研究;鄭炎輝等[13]采用隨機(jī)森林與RBF人工神經(jīng)網(wǎng)絡(luò)模型開展了新豐江水庫(kù)枯季入庫(kù)徑流中長(zhǎng)期預(yù)報(bào)研究;王棟等[14]將經(jīng)驗(yàn)?zāi)B(tài)分解方法與BP神經(jīng)網(wǎng)絡(luò)相結(jié)合,對(duì)青海省湟水河流域月徑流過(guò)程進(jìn)行了預(yù)測(cè);仕玉治等[15]將相關(guān)向量機(jī)、支持向量機(jī)及自動(dòng)回歸滑動(dòng)平均模型應(yīng)用于南方兩水庫(kù)入庫(kù)月徑流中長(zhǎng)期預(yù)報(bào)研究中,并比較了三者的精度差異。然而,上述研究大都側(cè)重于預(yù)報(bào)模型的選取,對(duì)預(yù)報(bào)因子篩選普遍采用相關(guān)系數(shù)法,只考慮了預(yù)測(cè)因子與預(yù)測(cè)變量間的線性關(guān)系,缺乏對(duì)兩者間非線性相關(guān)性的探索。
本文提出了一種基于Copula熵與隨機(jī)森林模型相結(jié)合的中長(zhǎng)期徑流預(yù)報(bào)方法,并將其應(yīng)用于漢江流域丹江口水庫(kù)的入庫(kù)徑流預(yù)報(bào)研究中。該方法首先采用Copula熵指標(biāo)對(duì)預(yù)報(bào)因子進(jìn)行篩選,在此基礎(chǔ)上采用隨機(jī)森林模型對(duì)長(zhǎng)預(yù)見期月徑流過(guò)程進(jìn)行相應(yīng)預(yù)報(bào)。該預(yù)報(bào)方法結(jié)果精度更高,可為水利管理部門提供更為可靠的決策依據(jù)。
1計(jì)算方法
1.1Copula熵理論
1.1.1互信息(MI)
作為描述不同變量間相互聯(lián)系的互信息指標(biāo)源于信息理論學(xué),其反映了不同變量間共有信息的大小,即互信息越大,兩者相關(guān)性越強(qiáng),反之則越弱[16]。假定隨機(jī)變量X與Y間存在一定聯(lián)系,則兩者間互信息可通過(guò)公式(1)計(jì)算。
式中:xi及yi分別為隨機(jī)變量X與Y的樣本,N為樣本容量。
由式(1)不難發(fā)現(xiàn),當(dāng)X與Y互不相關(guān)時(shí),MI值接近于0,而當(dāng)X與Y呈現(xiàn)函數(shù)關(guān)系時(shí),MI值將接近于正無(wú)窮。與其他相似性指標(biāo)相比,互信息指標(biāo)不僅可以反映變量間的非線性相關(guān)性,且隨機(jī)變量的任意可逆變換不改變互信息的大小。
1.1.2Copula熵
互信息指標(biāo)具有較強(qiáng)的信息挖掘能力,但實(shí)際研究中不同隨機(jī)變量間的聯(lián)合分布往往是偏態(tài)且非均質(zhì)性的,因此難以找到合適的分布類型對(duì)其進(jìn)行擬合。為解決該問題,MA等[17]引入Copula理論,結(jié)合互信息原理提出了Copula熵指標(biāo)。記u=F(x),v=F(y)分別為隨機(jī)變量X與Y的邊緣分布條件,則相應(yīng)Copula熵值可通過(guò)公式(2)計(jì)算。
1.1.3預(yù)報(bào)因子篩選
基于Copula熵理論,在相關(guān)系數(shù)顯著性檢驗(yàn)的基礎(chǔ)上,充分考慮不同變量與預(yù)測(cè)值間的非線性關(guān)系,來(lái)篩選合理的預(yù)測(cè)因子,具體步驟如下:
(1) 通過(guò)理論分析,搜集會(huì)對(duì)預(yù)測(cè)變量產(chǎn)生影響的所有可能變量。
(2) 計(jì)算所有初選因子與預(yù)測(cè)變量間的相關(guān)系數(shù),并對(duì)兩者的相關(guān)性進(jìn)行顯著性檢驗(yàn),挑選出顯著性變量作為備選因子。
(3) 利用公式(2)逐一計(jì)算備選因子與月徑流間的Copula熵值,并計(jì)算各因子對(duì)應(yīng)的Hampel值。
(4) 依據(jù)Hampel準(zhǔn)則,篩選合格的預(yù)測(cè)因子;若合格因子超過(guò)10個(gè),則僅選取熵值排序前10的預(yù)測(cè)因子;若不足10個(gè),則所有變量即為最終預(yù)測(cè)因子。
1.2隨機(jī)森林模型
隨機(jī)森林是Breiman于2001年提出的一種袋裝法與分類回歸樹(CART)相結(jié)合的并行增強(qiáng)機(jī)器學(xué)習(xí)算法[20]。作為一種白箱模型,隨機(jī)森林通過(guò)采用自舉法(Bootstrapping)對(duì)原始數(shù)據(jù)進(jìn)行大量采樣,并對(duì)各生成樣本分別建立決策樹,通過(guò)改變變量取值來(lái)判斷決策樹的變化,在此基礎(chǔ)上綜合考慮整個(gè)決策森林的變化結(jié)果。最終,該算法通過(guò)對(duì)所有決策樹的預(yù)測(cè)進(jìn)行組合來(lái)獲取模型模擬結(jié)果。具體步驟如下:
(1) 采用自助采樣法對(duì)含m個(gè)樣本的數(shù)據(jù)集進(jìn)行T輪采樣。
(2) 對(duì)每一輪采樣結(jié)果進(jìn)行訓(xùn)練時(shí)引入隨機(jī)屬性選擇,即先從回歸樹的每個(gè)節(jié)點(diǎn)的屬性集合(假設(shè)共有d個(gè)屬性)中隨機(jī)選擇一個(gè)包含k個(gè)屬性的子集,再?gòu)脑撟蛹懈鶕?jù)最優(yōu)屬性劃分,從而擬合各個(gè)分類回歸樹。
2實(shí)例驗(yàn)證
2.1研究區(qū)域概況
漢江是長(zhǎng)江中游最大的支流,干流流經(jīng)陜西、湖北兩省,于武漢市注入長(zhǎng)江,干流全長(zhǎng)1 577 km,流域面積約15.9萬(wàn)km2。流域地勢(shì)西高東低,由西部的中低山區(qū)向東逐漸降至丘陵平原區(qū)。
丹江口水庫(kù)位于漢江干流上游,是南水北調(diào)中線工程的水源地,具有防洪、供水、發(fā)電、灌溉、航運(yùn)、養(yǎng)殖等綜合功能。水庫(kù)以上流域面積約9.52萬(wàn)km2,占漢江流域的60%,多為高山丘陵區(qū),屬北亞熱帶季風(fēng)氣候區(qū),年降水量700~1 800 mm,年徑流深300~900 mm。降水是徑流的主要來(lái)源,兩者年內(nèi)分配不均勻、年際變化較大。
研究選取丹江口水庫(kù)1956~2016年天然徑流全年12個(gè)月數(shù)據(jù),對(duì)各月流量過(guò)程進(jìn)行模擬。丹江口水庫(kù)天然入庫(kù)徑流由長(zhǎng)江水利委員會(huì)水文局提供:丹江口建庫(kù)前1956~1966年采用黃家港實(shí)測(cè)資料;建庫(kù)后的1967~2016年,基于黃家港實(shí)測(cè)資料,考慮上游水庫(kù)調(diào)蓄、引水量、庫(kù)面蒸發(fā)、上游工農(nóng)業(yè)及生活耗水等因素,根據(jù)水量平衡原理進(jìn)行還原。
2.2預(yù)測(cè)因子篩選
考慮到各月流量過(guò)程影響成因存在一定差異,研究對(duì)丹江口水庫(kù)入庫(kù)天然徑流全年12個(gè)月分別篩選預(yù)測(cè)因子,以選取的預(yù)測(cè)因子作為模型輸入項(xiàng),對(duì)各月流量過(guò)程進(jìn)行模擬。
已有研究表明,大氣環(huán)流與長(zhǎng)期水文過(guò)程間存在密切關(guān)系,其異?,F(xiàn)象將導(dǎo)致水文過(guò)程發(fā)生不同程度的變化。因此,本次研究將國(guó)家氣象局氣候中心提供的130項(xiàng)環(huán)流指數(shù)納入預(yù)測(cè)因子的初選范疇。考慮大氣環(huán)流因子與徑流過(guò)程間的遙相關(guān)性,以徑流過(guò)程發(fā)生前一年各月變量作為初選因子。其中,為驗(yàn)證基于Copula熵理論的預(yù)測(cè)因子篩選方法,研究設(shè)置了相應(yīng)比選方案,該方案采用相關(guān)系數(shù)指標(biāo)進(jìn)行篩選,挑選出相關(guān)系數(shù)最大的10個(gè)變量作為預(yù)報(bào)因子。
以汛期7月平均流量為例,兩種方案選定的預(yù)報(bào)因子如表1所列,其中方案1為比選方案,方案2為基于Copula熵理論的預(yù)報(bào)因子篩選方案。由表1可以看出,對(duì)于7月而言,2種方案所選因子主要差異在于第9項(xiàng)與第10項(xiàng)?;贑opula熵理論的方案2挑選了南海副高脊線位置指數(shù)和印度洋偶極子指數(shù)。這兩項(xiàng)變量雖然與7月徑流過(guò)程的線性相關(guān)系數(shù)并不突出,但大量學(xué)者從物理成因角度對(duì)兩者與長(zhǎng)江流域夏季洪澇災(zāi)害間的關(guān)系進(jìn)行了深入剖析。如印度洋偶極子,已有文獻(xiàn)認(rèn)為印度洋偶極子事件與弱厄爾尼諾現(xiàn)象共同促使了海洋羅斯貝波與溫躍層的下沉現(xiàn)象,引發(fā)了西北太平洋地區(qū)反氣旋異常,并加劇了東亞上空的西風(fēng)急流,從而導(dǎo)致長(zhǎng)江中下游夏季暴雨頻發(fā)現(xiàn)象的產(chǎn)生[21];而南海副高活動(dòng)則是通過(guò)增大西太平洋副熱帶高壓“北抬西升”效應(yīng),在冷暖空氣相互作用下,導(dǎo)致漢江上游易產(chǎn)生持續(xù)的強(qiáng)降雨,從而形成大洪水[22]。考慮文章篇幅問題,其他月份對(duì)應(yīng)預(yù)報(bào)因子篩選結(jié)果及對(duì)比并未展示在本文中。
2.3模型結(jié)果分析
本次研究將1956~2006年作為模型率定期,2007~2016年作為驗(yàn)證期,將2.2節(jié)中不同方案對(duì)應(yīng)預(yù)測(cè)因子導(dǎo)入隨機(jī)森林模型中,對(duì)丹江口水庫(kù)逐月徑流過(guò)程進(jìn)行模擬預(yù)測(cè)。為充分利用有限的資料并防止出現(xiàn)參數(shù)過(guò)擬合現(xiàn)象,研究采用留一交叉驗(yàn)證方法,將逐次模擬值與實(shí)測(cè)值間MAPE值最小作為優(yōu)化目標(biāo),確定了最優(yōu)參數(shù),最終不同方案對(duì)應(yīng)模的擬結(jié)果及相應(yīng)精度指標(biāo)如圖1~2所示及表2所列。
由表2結(jié)果可知,基于兩種方案篩選出的預(yù)測(cè)因子,采用隨機(jī)森林模型對(duì)丹江口水庫(kù)月徑流過(guò)程進(jìn)行模擬,均取得較好的模擬效果。具體來(lái)看,率定期內(nèi)兩種方案Symbol值均大于80%,MAPE值小于30%,DC值大于0.8,而驗(yàn)證期的結(jié)果精度則略差于率定期,其中Symbol值較之率定期下降10%~14%,MAPE值變幅最大,整體提升20%~25%,DC值較之率定期下降0.20~0.21。對(duì)比2種方案,3種指標(biāo)均表明方案2對(duì)應(yīng)模擬精度顯著優(yōu)于方案1,這一現(xiàn)象說(shuō)明方案2篩選的預(yù)報(bào)因子組合更加合理。
圖1給出了丹江口水庫(kù)實(shí)測(cè)與模擬月流量過(guò)程對(duì)比圖,其結(jié)果表明在率定期及驗(yàn)證期內(nèi),豐水年份的模擬值略微偏小,而平水年及枯水年的模擬值略微偏大,對(duì)比圖1(a)與圖1(b),不難看出方案2對(duì)應(yīng)的模擬結(jié)果對(duì)汛期徑流的模擬性能要顯著優(yōu)于方案1。此外,通過(guò)對(duì)比率定期與驗(yàn)證期實(shí)測(cè)值與模擬值的散點(diǎn)圖(見圖2)可以看出,率定期及驗(yàn)證期的下半部分散點(diǎn)會(huì)略高于45°線,上半部分布散點(diǎn)則會(huì)略低于45°線,但所有散點(diǎn)都較為均勻分布在45°線附近,說(shuō)明對(duì)應(yīng)精度尚可。對(duì)比2種方案模擬結(jié)果可知,方案2對(duì)應(yīng)結(jié)果整體更優(yōu),尤其對(duì)于汛期而言,其模擬結(jié)果與實(shí)測(cè)值更為接近。
為進(jìn)一步比較不同方案模擬精度在年內(nèi)的變化特征,本次研究還計(jì)算了驗(yàn)證期內(nèi)各月份對(duì)應(yīng)模擬值與實(shí)測(cè)值間的相對(duì)誤差,如圖3所示。結(jié)果表明:除少數(shù)極端值外,方案1對(duì)應(yīng)模擬結(jié)果的相對(duì)誤差值絕大多數(shù)處于-65%~226%,而方案2對(duì)應(yīng)模擬結(jié)果的相對(duì)誤差則整體處于-57%~161%之間。同時(shí),兩種方案對(duì)應(yīng)模擬結(jié)果精度的差異主要處于汛期內(nèi)(6~10月),這與上述結(jié)果得到的結(jié)論相互印證,說(shuō)明方案2篩選出的預(yù)測(cè)因子組合對(duì)于預(yù)測(cè)來(lái)水量較大的汛期月份精度更高。
3結(jié) 論
本文提出了一種Copula熵與隨機(jī)森林模型相結(jié)合的中長(zhǎng)期徑流預(yù)報(bào)方法,為了評(píng)估該方法的預(yù)測(cè)精度,研究將其應(yīng)用于漢江流域丹江口水庫(kù)逐月徑流預(yù)報(bào)中,并將相關(guān)系數(shù)篩選法作為比選方案進(jìn)行對(duì)比,結(jié)果表明:
(1) 以不同方案篩選的預(yù)測(cè)因子作為輸入項(xiàng),隨機(jī)森林模型對(duì)于丹江口水庫(kù)逐月徑流的預(yù)測(cè)結(jié)果均取得了較高的精度,說(shuō)明該模型能較好地應(yīng)用于丹江口水庫(kù)的中長(zhǎng)期預(yù)報(bào)研究中。
(2) 對(duì)比2種方案的模擬結(jié)果,不難看出基于Copula熵篩選的預(yù)報(bào)因子對(duì)應(yīng)預(yù)測(cè)精度顯著高于比選方案,尤其對(duì)于汛期而言,前者的預(yù)測(cè)值與實(shí)測(cè)值擬合優(yōu)度更好,說(shuō)明采用Copula熵指標(biāo)篩選的預(yù)測(cè)因子組合具有更好的合理性。
參考文獻(xiàn):
[1]林劍藝,程春田.支持向量機(jī)在中長(zhǎng)期徑流預(yù)報(bào)中的應(yīng)用[J].水利學(xué)報(bào),2006,37(6):681-686.
[2]楊旭,欒繼虹,馮國(guó)章.中長(zhǎng)期水文預(yù)報(bào)研究評(píng)述與展望[J].西北農(nóng)業(yè)大學(xué)學(xué)報(bào),2000,(6):203-207.
[3]王文,馬駿.若干水文預(yù)報(bào)方法綜述[J].水利水電科技進(jìn)展,2005,25(1):56-60.
[4]王富強(qiáng),霍風(fēng)霖.中長(zhǎng)期水文預(yù)報(bào)方法研究綜述[J].人民黃河,2010,32(3):25-28.
[5]張利平,王德智,夏軍,等.基于氣象因子的中長(zhǎng)期水文預(yù)報(bào)方法研究[J].水電能源科學(xué),2003,21(3):4-6.
[6]冉篤奎,李敏,武晟,等.丹江口水庫(kù)中長(zhǎng)期徑流量的多模型預(yù)報(bào)結(jié)果分析及綜合研究[J].水利學(xué)報(bào),2010,41(9):1069-1073.
[7]李紅波,夏潮軍,王淑英.中長(zhǎng)期徑流預(yù)報(bào)研究進(jìn)展及發(fā)展趨勢(shì)[J].人民黃河,2012,34(8):36-38,40.
[8]陳柯兵,郭生練,王俊,等.長(zhǎng)江上游ECMWF降水和徑流預(yù)報(bào)產(chǎn)品評(píng)估[J].人民長(zhǎng)江,2020,51(3):73-80.
[9]酈于杰,梁忠民,唐甜甜.基于支持向量回歸機(jī)的長(zhǎng)期徑流預(yù)報(bào)及不確定性分析[J].南水北調(diào)與水利科技,2018,16(3):45-50.
[10]許斌,楊鳳根,酈于杰.兩類集成學(xué)習(xí)算法在中長(zhǎng)期徑流預(yù)報(bào)中的應(yīng)用[J].水力發(fā)電,2020,46(4):21-24,34.
[11]謝帥,黃躍飛,李鐵鍵,等.LASSO回歸和支持向量回歸耦合的中長(zhǎng)期徑流預(yù)報(bào)[J].應(yīng)用基礎(chǔ)與工程科學(xué)學(xué)報(bào),2018,26(4):709-722.
[12]HUANG H,LIANG Z,LI B,et al.Combination of Multiple Data-Driven Models for long-term monthly runoff predictions based on Bayesian Model Averaging[J].Water Resources Management,2019,33(9):3321-3338.
[13]鄭炎輝,張力瀾,田兆偉,等.基于隨機(jī)森林和RBF人工神經(jīng)網(wǎng)絡(luò)模型的新豐江水庫(kù)枯季入庫(kù)徑流中長(zhǎng)期預(yù)報(bào)[J].人民珠江,2020,41(5):33-37.
[14]王棟,魏加華,章四龍,等.基于CEEMD-BP模型的水文時(shí)間序列月徑流預(yù)測(cè)[J].北京師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,56(3):376-386.
[15]仕玉治,彭勇,周惠成.基于相關(guān)向量機(jī)的中長(zhǎng)期徑流預(yù)報(bào)模型研究[J].大連理工大學(xué)學(xué)報(bào),2012,52(1):79-84.
[16]趙銅鐵鋼,楊大文.神經(jīng)網(wǎng)絡(luò)徑流預(yù)報(bào)模型中基于互信息的預(yù)報(bào)因子選擇方法[J].水力發(fā)電學(xué)報(bào),2011,30(1):24-30.
[17]MA J,SUN Z Q.Mutual information is Copula Entropy[J].Tsinghua Science and Technology,2011,16(1):51-54.
[18]溫云亮,李艷玲,黃春艷,等.基于Copula熵理論的干旱驅(qū)動(dòng)因子選擇[J].華北水利水電大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,40(4):51-56.
[19]陳璐,葉磊,盧韋偉,等.基于Copula熵的神經(jīng)網(wǎng)絡(luò)徑流預(yù)報(bào)模型預(yù)報(bào)因子選擇[J].水力發(fā)電學(xué)報(bào),2014,33(6):25-29,90.
[20]BREIMAN L.Random forests[J].Machine Learning,2001,45(1):5-32.
[21]ZHOU Z Q,XIE S P,ZHANG R.Historic Yangtze flooding of 2020 tied to extreme Indian Ocean conditions[J].Proceedings of the National Academy of Sciences,2021,118(12):e2022255118.
[22]陶玫,蔣薇,項(xiàng)瑛,等.1998和2010年長(zhǎng)江流域汛期洪澇成因?qū)Ρ确治鯷J].氣象科學(xué),2012,32(3):282-287.
(編輯:謝玲嫻)
Abstract:As the key input of hydrological model for medium and long-term runoff forecast,forecast factors play an important role in improving the forecast accuracy.In order to further improve the accuracy of forecast results,we proposed a medium and long-term runoff forecast method combined with the Copula entropy and random forest model.For this method,the forecast factors were first selected based on the Copula entropy index,and the selected factors were used as input items and imported into the random forest model to simulate and forecast monthly runoff series.Finally,this method was applied to predict the monthly runoff series of the Danjiangkou Reservoir in Hanjiang River Basin,and compared with the correlation coefficient screening selection method.The results showed that the forecast results corresponding to the Copula entropy theory had a higher accuracy in forecasting monthly runoff series.Especially for flood season,the fitting effect of the simulated value and the measured value of this method was significantly better than that of the correlation coefficient method,indicating that the screened forecast factors are more reasonable.
Key words:medium and long-term runoff forecast;forecast factors;global circulation factor;Copula entropy;random forest model;Danjiangkou Reservoir