黨池恒,張洪波,陳克宇,支童,衛(wèi)星辰
(1.長安大學 水利與環(huán)境學院,陜西 西安 710054; 2.西安工業(yè)大學,陜西 西安 710021)
在資料短缺地區(qū),降水-徑流模擬對水文設計與水資源規(guī)劃管理至關(guān)重要,諸如水災害防治、農(nóng)業(yè)灌溉、發(fā)電、城鎮(zhèn)供水等相關(guān)工程設計或方案規(guī)劃都要依賴于可靠的徑流模擬[1]。目前,降水-徑流模型較多,大致分為兩類,即過程驅(qū)動模型和數(shù)據(jù)驅(qū)動模型[2]。過程驅(qū)動模型由一系列基于水量平衡和(或)能量守恒定律的經(jīng)驗公式組成,又被稱為概念性或物理性水文模型。過程驅(qū)動模型可有效描述流域的產(chǎn)匯流過程,例如積雪、融雪、蒸散發(fā)、入滲、地面徑流、地下徑流等。然而,由于大多數(shù)過程驅(qū)動模型在應用時,需要準確確定眾多流域參數(shù)(前期土壤含水量、土壤類型、地面坡度、氣溫、空氣濕度、風力等)[3]。因此,在觀測資料缺乏的地區(qū),過程驅(qū)動模型的應用就受到了一定的限制。此外,過程驅(qū)動模型其復雜的計算結(jié)構(gòu)也帶來了較高的計算成本,同樣也限制了該類模型的應用與推廣[4]。數(shù)據(jù)驅(qū)動模型常被稱為黑箱模型,其特點是不要求使用者完全掌握流域的水文機制,只需建立輸入(如降水、蒸散發(fā)、氣溫等)與輸出(即徑流)之間的映射關(guān)系[5]。因此,在監(jiān)測數(shù)據(jù)較少的流域,數(shù)據(jù)驅(qū)動模型常替代過程驅(qū)動模型實施徑流模擬,且??扇〉门c過程驅(qū)動模型相似甚至更優(yōu)的模擬效果[6]。
在過去的幾十年里,數(shù)據(jù)驅(qū)動模型如多元線性回歸模型(Multivariable Linear Regression Model,MLR)、自回歸滑動平均模型(Auto-Regressive Moving Average Model,ARMA)、支持向量回歸模型(Support Vactor Regression,SVR)和人工神經(jīng)網(wǎng)絡(Artificial Neural Networks,ANNs)等已經(jīng)被廣泛研究,并應用于水文水資源領(lǐng)域。其中,MLR和ARMA等統(tǒng)計類模型,一般適用于處理線性問題;而SVR和ANNs等人工智能方法(Artificial Intelligence,AI),則在處理非線性問題時具有較好的適用性[7]。研究表明,在氣候變化和下墊面條件的共同作用下,日徑流過程常表現(xiàn)出強烈的非線性特征[8]。因此,相比MLR和ARMA,ANNs在變化環(huán)境下的流域日徑流過程模擬中則更有優(yōu)勢。
人工神經(jīng)網(wǎng)絡類型眾多,如:前饋神經(jīng)網(wǎng)絡(Feed-Forward Neural Network,FFNN)一般由一系列簡單的神經(jīng)元組成,其特點是各層神經(jīng)元全連接,同層神經(jīng)元之間不相互連接,數(shù)據(jù)從輸入層逐層通過網(wǎng)絡直至輸出層,且輸出與網(wǎng)絡結(jié)構(gòu)不存在反饋連接;而BP神經(jīng)網(wǎng)絡(Back-Propagation neural network, BP)是一種基于誤差反向傳播算法的多層前饋神經(jīng)網(wǎng)絡,作為傳統(tǒng)人工神經(jīng)網(wǎng)絡的代表,自被提出之后就以其良好的非線性映射能力和擬合逼近能力,及自學習、自適應和容錯性獲得了廣泛的應用[9-11]。由于BP神經(jīng)網(wǎng)絡屬于靜態(tài)神經(jīng)網(wǎng)絡[12],其不具有反饋和延遲功能,不能記憶之前輸入的信息。因此,在處理時間序列數(shù)據(jù)時,效果并不令人滿意。
循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Networks, RNNs)是一種特殊類型的人工神經(jīng)網(wǎng)絡,即動態(tài)神經(jīng)網(wǎng)絡。關(guān)于RNNs的研究可追溯到Hopfield于1983年提出的Hopfield網(wǎng)絡[13]。該網(wǎng)絡具有很強的計算能力和一定的記憶功能,但因其實現(xiàn)困難,后來逐漸被其他神經(jīng)網(wǎng)絡算法所取代。1990年,Elman提出的Elman循環(huán)神經(jīng)網(wǎng)絡(Elman Recurrent Neural Network,ERNN)被認為是目前較為流行的RNNs中的一個基礎(chǔ)版本。不同于BP神經(jīng)網(wǎng)絡,RNNs主要通過內(nèi)部自循環(huán)神經(jīng)元存儲和提取時間序列中的動態(tài)信息,既實現(xiàn)了序列信息的記憶,又可將之前記憶的信息用于之后時刻的計算中,非常適合于處理時間序列數(shù)據(jù)。CHEN P N等[14]通過一個強化的RNN模型,提高了臺風天氣下水庫入庫流量的預測精度;WAN X Y等[15]則基于Elman循環(huán)神經(jīng)網(wǎng)絡,構(gòu)建了響洪甸水庫入庫洪水實時預報系統(tǒng)。然而,BENGIO Y等[16]指出標準RNNs在處理具有長期記憶(長期相關(guān)關(guān)系)的問題時,容易出現(xiàn)梯度衰減或梯度爆炸的問題。為解決該問題,HOCHREITER S和SCHMIDHUBER J[17]提出了長短期記憶神經(jīng)網(wǎng)絡(Long Short-Term Memory,LSTM)。這是一種特殊的循環(huán)神經(jīng)網(wǎng)絡,其與標準RNNs的結(jié)構(gòu)基本相同,而區(qū)別則在于LSTM擁有一個更加細化的內(nèi)部處理單元,可實現(xiàn)歷史信息的長期存儲和更新。目前,LSTM這種特殊的非線性動態(tài)神經(jīng)網(wǎng)絡結(jié)構(gòu)已被成功應用在計算機視覺、氣象學、給排水工程等許多領(lǐng)域[18-20]。
近幾年,LSTM在水文水資源領(lǐng)域中的應用也備受關(guān)注。KRATZERT F等[21]成功地將LSTM應用于受降雪影響的流域,證明其能很好地模擬降水和徑流之間的長期相關(guān)關(guān)系(即流域積雪融雪過程對產(chǎn)匯流的影響);HU C H等[22]比較了FFNN和LSTM在小流域洪水預報中的效果,結(jié)果表明,LSTM特殊的門結(jié)構(gòu)可使網(wǎng)絡更加智能,進而具有更高的模擬精度;HRNJICA B等[23]利用LSTM預測了克羅地亞Vrana湖的水位,發(fā)現(xiàn)LSTM的預測能力明顯優(yōu)于FFNN的;ZHANG J F等[24]應用LSTM模擬了河套灌區(qū)的地下水位,證實了LSTM可有效地存儲和利用灌區(qū)前期狀態(tài)信息。上述是LSTM的幾個直接應用案例,還有些學者將LSTM和其他模型相耦合,進一步提高了LSTM的模擬精度。如:TIAN Y等[25]比較了4種循環(huán)神經(jīng)網(wǎng)絡在湘江流域和衢江流域日徑流模擬中的精度,并選取了模擬效果最佳的兩種循環(huán)神經(jīng)網(wǎng)絡LSTM、NARX(動態(tài)時間序列神經(jīng)網(wǎng)絡)分別與集總式水文模型GR4J耦合,結(jié)果表明,神經(jīng)網(wǎng)絡通過利用GR4J的模擬徑流與實測徑流的誤差信息大大提高了徑流的預報精度;YUAN X H等[26]利用蟻獅算法(Ant Lion Optimization,ALO)對LSTM的幾個重要結(jié)構(gòu)參數(shù)進行了優(yōu)化,結(jié)果表明LSTM-ALO耦合模型更適用于月徑流模擬。
本文擬基于TensorFlow架構(gòu)搭建LSTM神經(jīng)網(wǎng)絡模型,以岷江鎮(zhèn)江關(guān)水文站控制流域為研究區(qū),通過與Elman循環(huán)神經(jīng)網(wǎng)絡、BP神經(jīng)網(wǎng)絡模擬結(jié)果的對比,分析LSTM模型對季節(jié)性融雪流域日降水-徑流模擬的適用性機制,并聚焦模型關(guān)鍵性參數(shù)——時間步長對日徑流模擬精度的影響,以期為季節(jié)性融雪流域降水-徑流模型的構(gòu)建提供科學參考。
BP神經(jīng)網(wǎng)絡基本結(jié)構(gòu)包括輸入層、隱含層和輸出層[27],各層之間實現(xiàn)全連接,同層神經(jīng)元之間無連接,三層BP神經(jīng)網(wǎng)絡結(jié)構(gòu)如圖1所示。其基本思想是:將輸入節(jié)點數(shù)為n、輸出節(jié)點數(shù)為m的神經(jīng)網(wǎng)絡,看成是從n維歐式空間到m維歐式空間的映射。信號輸入到輸入層后,經(jīng)隱含層逐層處理,傳到輸出層,此過程為信號正向傳播。在信號正向傳播過程中,除輸入層神經(jīng)元外,隱含層和輸出層的各神經(jīng)元接收的凈輸入都是前一層神經(jīng)元輸出的加權(quán)值,而每一個神經(jīng)元的激活程度由它接收的輸入信號、激活函數(shù)和偏置(閾值)共同決定。若輸出層不能得到期望輸出,則采用誤差逆向傳播算法調(diào)節(jié)網(wǎng)絡連接權(quán)重和閾值[28]。誤差逆向傳播算法的原理在于:將誤差沿原來的連接通路反向由輸出層向輸入層傳播,并將誤差分攤給各層所有的神經(jīng)元,從而獲得各層各個神經(jīng)元的誤差信號,通過此誤差信號對各網(wǎng)絡連接權(quán)重矩陣進行修正,此過程反復進行,直至收斂。
圖1 三層BP神經(jīng)網(wǎng)絡結(jié)構(gòu)示意圖
BP神經(jīng)網(wǎng)絡的輸出只由當前的輸入信號決定,與之前的輸入信息無關(guān),是一種靜態(tài)神經(jīng)網(wǎng)絡。與BP神經(jīng)網(wǎng)絡不同,Elman循環(huán)神經(jīng)網(wǎng)絡(ERNN)不僅可以存儲當前輸入信息,還可以反饋之前輸出的某些信息,這種特殊的結(jié)構(gòu)使網(wǎng)絡具備適應時變特性的能力,更適合于處理時間序列數(shù)據(jù)[29]。
ERNN一般由輸入層、隱含層、承接層和輸出層組成,其結(jié)構(gòu)如圖2所示。圖2中,輸入層、隱含層和輸出層的連接方式類似于前饋神經(jīng)網(wǎng)絡,輸入層僅傳輸信號,隱含層有線性和非線性兩類傳遞函數(shù),輸出層神經(jīng)元起線性加權(quán)作用;承接層也稱為上下文單元[30]或狀態(tài)層,用來記憶隱含層神經(jīng)元前一時刻的輸出值,可被認為是一個有一步延遲的延時算子。ERNN的特點是:隱含層的輸出通過承接層的存儲與延遲,再輸入到隱含層,這種自聯(lián)方式使網(wǎng)絡對歷史狀態(tài)數(shù)據(jù)具有敏感性,增強了網(wǎng)絡處理動態(tài)信息的能力。
圖2所示為三層結(jié)構(gòu)的ERNN,其中輸入層和輸出層的神經(jīng)元個數(shù)分別為n和m,承接層與隱含層的神經(jīng)元個數(shù)均為p,該模型可描述為:
Ot=g(Who·Ht+bo) ,
(1)
Ht=f(Wch·Ct+Wih·It+bh),
(2)
Ct=Ht-1。
(3)
式中:It、Ot、Ht、Ct分別為t時刻輸入向量、輸出向量、隱含層輸出向量、承接層輸出向量;Who、Wch、Wih分別為輸出層、承接層、輸入層與隱含層的連接權(quán)重矩陣;bo和bh分別為輸出層和隱含層的偏置向量;f(·)為隱含層激活函數(shù),一般取tanh函數(shù);g(·)為輸出層轉(zhuǎn)換函數(shù),常用線性函數(shù)。網(wǎng)絡參數(shù)更新一般通過基于時間的反向傳播算法(Back-Propagation Through Time,BPTT)實現(xiàn)。
圖2 Elman循環(huán)神經(jīng)網(wǎng)絡結(jié)構(gòu)示意圖
類似于BP神經(jīng)網(wǎng)絡,循環(huán)神經(jīng)網(wǎng)絡(RNNs)也是由輸入層、隱含層和輸出層疊加構(gòu)成的(如圖3所示),但RNNs各隱含層均存在時間反饋循環(huán),各隱含層都可展開成預設長度(時間步長)的多層結(jié)構(gòu),此結(jié)構(gòu)使得時間步長為p時的輸出包含了前面時間步長的信息。理論上,增加時間步長,網(wǎng)絡便可獲得長期記憶,但在實際的多階段反向傳播計算中,標準RNNs會出現(xiàn)梯度消失或梯度爆炸的問題,導致其在處理延遲時間過長的時間序列時失效。
圖3 RNNs結(jié)構(gòu)示意圖
為解決上述問題,Hochreiter和Schmidhuber對標準RNNs的隱含層結(jié)構(gòu)(如圖4(a)所示)進行改進,設置了兩個特殊的“門”結(jié)構(gòu)(輸入門和輸出門)和一個CEC(Constant Error Carousel,CEC)單元。2000年GERS F A等[31]將遺忘門添加到LSTM結(jié)構(gòu)中,形成了目前的三門結(jié)構(gòu),如圖4(b)所示?!伴T”作為邏輯控制單元,包含一個Sigmoid網(wǎng)絡層和一個乘法單元,用來控制CEC單元狀態(tài)。
圖4 隱含層結(jié)構(gòu)
如圖4所示,對比標準RNNs,LSTM擁有更加精細的隱含層。圖4(b)中,頂端綠色水平線即為CEC單元,貫穿整個時間步的運行過程,使得LSTM有保存、讀取和更新長期歷史信息的能力;黃色陰影部分為遺忘門,藍色為輸入門,紅色為輸出門,其遺忘、輸入和輸出信息由上一時刻隱含層輸出信息和當前時刻輸入信息共同決定,從而實現(xiàn)對CEC單元狀態(tài)的更新。其公式表達如下:
ft=σ(Wf·[ht-1,it]+bf);
(4)
xt=σ(Wi·[ht-1,it]+bi);
(5)
(6)
(7)
ot=σ(Wo·[ht-1,it]+bo);
(8)
ht=ot×tanh(Ct)。
(9)
本文基于TensorFlow架構(gòu)搭建LSTM神經(jīng)網(wǎng)絡模型。TensorFlow是一個采用數(shù)據(jù)流圖(data flow graphs)進行數(shù)值計算的開源軟件庫,最初由Google開發(fā)出來,用于機器學習和深度神經(jīng)網(wǎng)絡方面的研究。
已有文獻[32]表明,LSTM模型隱含層層數(shù)和隱含層神經(jīng)元數(shù)對模擬效果有重要影響。隱含層層數(shù)和隱含層神經(jīng)元個數(shù)過多都有可能造成模型過擬合;而隱含層神經(jīng)元個數(shù)太少,則神經(jīng)網(wǎng)絡映射能力不足,造成模型欠擬合。通過試驗,本文LSTM模型僅設置1個隱含層,隱含層神經(jīng)元個數(shù)設置為5,這種參數(shù)配置使得網(wǎng)絡結(jié)構(gòu)簡單且易于訓練,并且滿足模擬精度要求。具體試驗過程見第3節(jié)。
損失函數(shù)Loss采用均方誤差指標(Mean Square Error,MSE),該指標反映了訓練期LSTM模型的擬合精度,其值越小,說明擬合效果越好。本文在設定批尺寸batch size和最大迭代次數(shù)epochs的條件下,利用Adam優(yōu)化算法更新LSTM網(wǎng)絡的權(quán)重矩陣,降低損失函數(shù)值。損失函數(shù)計算公式為:
(10)
采用Nash效率系數(shù)(Nash Sutcliffe Efficiency coefficient,NSE)和Pearson相關(guān)系數(shù)(Pearson Correlation Coefficient,R)這兩個指標來評價模型的模擬效果,具體計算公式如下:
(11)
(12)
岷江鎮(zhèn)江關(guān)水文站控制流域為岷江源頭區(qū),地處青藏高原東緣,位于東經(jīng)103°11′~103°54′,北緯32°9′~33°9′,流域面積4 500 km2[33]。流域內(nèi)岷江干流自北向南延伸,主河道全長103.7 km,主要支流有大姓溝、漳臘河等;地勢起伏明顯,海拔為2 325~5 537 m,地貌類型以山地為主,氣候、植被、土壤等自然要素垂直分帶比較明顯;多年平均氣溫5.7 ℃,多年平均日照時數(shù)1 822 h,全年無霜期50 d左右;多年平均降水量570 mm。由于地處川西高原季風氣候和川東盆地亞熱帶兩個氣候區(qū),流域干濕季分明,冬干夏濕。5—10月受季風控制,降水充沛,其降水量占全年降水量的80%以上;11月—次年4月受高空西風環(huán)流控制,為旱季,干旱少雨。該流域徑流補給以降水為主,地下水次之,季節(jié)性融雪的補給主要集中在春末夏初。鎮(zhèn)江關(guān)水文站為岷江源頭區(qū)的流域出口控制站,多年平均流量55 m3/s,最大流量410 m3/s,最小流量9.2 m3/s。
選取2000—2006年共7 a實測氣象、水文資料用于模型訓練和驗證,其中前5 a(2000—2004年)實測資料用于模型訓練,其余2 a(2005—2006年)資料用于模型驗證。氣象要素包括降水和潛在蒸散發(fā),主要采用流域內(nèi)的松潘氣象站數(shù)據(jù);而實測徑流資料來自鎮(zhèn)江關(guān)水文站,獲取來源為中國氣象數(shù)據(jù)共享網(wǎng)和長江水利委員會。實測數(shù)據(jù)統(tǒng)計參數(shù)見表1。
表1 訓練期和驗證期日實測資料統(tǒng)計參數(shù)
為保證訓練過程中模型更快地收斂和獲得更合理的網(wǎng)絡參數(shù),采用歸一化方法對輸入數(shù)據(jù)進行預處理,歸一化公式如下:
(13)
式中:Xnorm為歸一化后的序列,X為原始序列;Xmax和Xmin分別為原始序列中的最大值和最小值。
為驗證LSTM模型處理長期相關(guān)關(guān)系問題所具有的優(yōu)異特點,以受季節(jié)性降雪影響的鎮(zhèn)江關(guān)水文站徑流數(shù)據(jù)為研究對象,搭建BP神經(jīng)網(wǎng)絡、ERNN和LSTM模型,開展流域日降水-徑流模擬并進行對比。
由于不同的網(wǎng)絡結(jié)構(gòu)參數(shù)的選取會導致不同的模擬效果,本文采用試錯法確定3個ANNs模型的最優(yōu)結(jié)構(gòu)參數(shù),共試驗了5種隱含層數(shù)(即1、2、3、4、5)和5種隱含層神經(jīng)元數(shù)(即5、10、20、30、50)對驗證期模擬精度的影響,模型精度用NSE表示,結(jié)果如圖5所示。
圖5 不同模型隱含層數(shù)和隱含層神經(jīng)元數(shù)對模擬精度的影響
圖5(a)和圖5(d)反映了BP神經(jīng)網(wǎng)絡驗證期模擬結(jié)果的NSE分布情況。從圖5(a)和圖5(d)中可以看出:隱含層設置為4層、每層神經(jīng)元個數(shù)設置為10時,驗證期模擬精度最高,且存在隨著BP神經(jīng)網(wǎng)絡隱含層數(shù)和隱含層神經(jīng)元數(shù)的增加,BP神經(jīng)網(wǎng)絡的模擬精度表現(xiàn)出更為精準的趨勢,相應的NSE值也更大;但當隱含層數(shù)超過4層或隱含層神經(jīng)元數(shù)超過10時,驗證期模擬精度逐漸降低,說明模型產(chǎn)生了過擬合現(xiàn)象。
圖5(b)和圖5(e)表示驗證期ERNN模擬效果隨隱含層數(shù)和隱含層神經(jīng)元數(shù)的變化情況。從圖5(b)和圖5(e)中可以清楚地看到,隨著隱含層數(shù)和隱含層神經(jīng)元數(shù)的增加,模型在驗證期模擬效果的不確定性增強,且NSE總體呈下降趨勢。由此可見,隱含層設置為1層、隱含層神經(jīng)元個數(shù)設置為5是ERNN最優(yōu)的結(jié)構(gòu)參數(shù)組合。
圖5(c)和圖5(f)描述了具有不同隱含層數(shù)和隱含層神經(jīng)元數(shù)LSTM的NSE分布情況。由其可發(fā)現(xiàn),隨著隱含層數(shù)和隱含層神經(jīng)元數(shù)的增加,驗證期NSE總體呈下降趨勢,且隱含層數(shù)為2時,LSTM模擬效果的不確定性最大。故可認為LSTM設置1層隱含層、每個隱含層5個神經(jīng)元為最優(yōu)。
遂在本文中,可確定BP神經(jīng)網(wǎng)絡、ERNN和LSTM模型的網(wǎng)絡結(jié)構(gòu),即BP神經(jīng)網(wǎng)絡包含4個隱含層,且每個隱含層包含10個神經(jīng)元;ERNN和LSTM模型的結(jié)構(gòu)均為1層隱含層,每個隱含層5個神經(jīng)元。
BP神經(jīng)網(wǎng)絡、ERNN和LSTM 3種ANN模型在訓練期和驗證期的指標評價結(jié)果見表2,3種模型的模擬徑流過程線如圖6所示。
表2 3種ANN模型評價結(jié)果
由表2可知,在模型訓練期和驗證期內(nèi),BP神經(jīng)網(wǎng)絡的NSE和R最小,LSTM的NSE和R最大。結(jié)合圖6(a)—圖6(c)可知,LSTM的徑流過程線擬合效果最佳,ERNN的次之,BP神經(jīng)網(wǎng)絡的最差。圖6(d)—圖6(f)顯示了驗證期LSTM模擬的徑流過程線的局部放大情況。從圖6(d)可以看出:2005年3—5月,LSTM模擬的徑流過程線與實測徑流過程線擬合較好,說明LSTM可以很好地模擬流域春季的融雪徑流過程;圖6(e)展示了2005年6—7月的一次流域退洪過程,LSTM模擬值總體接近實測值,但比實測值略低;圖6(f)為2006年8—12月的一次洪水過程,LSTM擬合效果良好,能準確確定洪峰流量和峰現(xiàn)時間。
圖6 不同模型訓練期和驗證期的徑流模擬過程及驗證期LSTM徑流模擬過程線的局部放大圖
如1.3節(jié)所述,LSTM通過CEC單元和3個特殊的“門”結(jié)構(gòu)可實現(xiàn)歷史信息的長期存儲和更新。當LSTM用作流域降水-徑流模型時,CEC單元狀態(tài)即可理解為流域當前狀態(tài)(即積雪厚度、土壤含水量、地下水位等)。通常情況下,流域當前狀態(tài)由前N天的流域氣象狀況決定。本文選取的岷江鎮(zhèn)江關(guān)水文站控制流域地處青藏高原東緣,其日徑流過程受積雪和融雪過程的影響較大。因此,為取得較為精確的模擬結(jié)果,需將流域積雪、融雪對產(chǎn)匯流的影響反映在模型內(nèi),即需確定較為準確的前期影響天數(shù)N。依據(jù)模型原理,LSTM的時間步長參數(shù)可指代前期影響天數(shù)N,為此本研究試驗了6個時間步長(10、20、30、45、60、90 d)。其驗證期模擬結(jié)果如圖7所示。
圖7 不同時間步長下LSTM的模擬效果
由圖7可知,隨著時間步長N的增加,LSTM在驗證期的模擬精度先提高后降低,且當時間步長設置為60 d時,模擬精度最高(R=0.94,NSE=0.87)。為進一步驗證時間步長(前期影響天數(shù))60 d的合理性,繪制了驗證期2005年11月—2006年11月流域降水、徑流和溫度過程線,如圖8所示。
圖8 驗證期實測日徑流過程及相應時段日平均氣溫變化
從圖8(a)中可以清楚地看出:①2006年2—4月流域內(nèi)有降水事件發(fā)生,但并未形成明顯的徑流過程。這主要是因為該時段內(nèi)降水多以雪的形式降落到流域內(nèi),且由于日平均氣溫較低(5 ℃以下,如圖8(b)所示),落到地面的降雪并不會立即融化產(chǎn)流,而是以積雪的形式儲存下來,4月份之后日平均氣溫升高,積雪便開始大量融化,參與到流域產(chǎn)匯流過程,日徑流過程線也相應地呈現(xiàn)出上升趨勢。②雖然2005年12月—2006年2月的日平均氣溫在零攝氏度以下,但由于該時段內(nèi)降水稀少,故該時段內(nèi)產(chǎn)生的積雪對春末夏初融雪徑流的形成作用較小;而2—4月的積雪融化后,直接促成第一次洪水過程的形成。因此,認為將該流域前期影響天數(shù)N設置為60 d符合實際情況,可作為區(qū)域降水-徑流模型構(gòu)建參考的依據(jù)。
本文以岷江鎮(zhèn)江關(guān)水文站控制流域為研究區(qū),通過與BP神經(jīng)網(wǎng)絡及Elman循環(huán)神經(jīng)網(wǎng)絡(ERNN)模型的對比,驗證了長短期記憶神經(jīng)網(wǎng)絡(LSTM)模型在受季節(jié)性積雪和融雪影響的高山流域降水-徑流模擬中的適用性。分析表明:BP神經(jīng)網(wǎng)絡不能記憶歷史信息,導致其無法反映流域積、融雪過程對徑流形成的作用;ERNN相比BP神經(jīng)網(wǎng)絡,有一定的記憶能力,但在積雪時段較長的鎮(zhèn)江關(guān)水文站控制流域上的模擬效果一般;LSTM模型借助其特殊的CEC單元和“門”結(jié)構(gòu),實現(xiàn)了長期記憶功能,非常適用于受季節(jié)性積、融雪影響的高山流域降水-徑流模擬,對研究區(qū)的模擬效果最佳。
研究還發(fā)現(xiàn)LSTM模型中3個參數(shù)對模擬效果影響顯著。①隱含層數(shù)和隱含層神經(jīng)元數(shù),不合理的選取極易導致過擬合現(xiàn)象和造成不確定問題,因此,在構(gòu)建模型的過程中隱含層數(shù)和隱含層神經(jīng)元數(shù)的率定尤為關(guān)鍵。②時間步長,對應到降水-徑流模擬即前期影響天數(shù)。本文通過對時間步長的試驗,發(fā)現(xiàn)當時間步長設置為60 d時,徑流模擬效果最好。通過流域?qū)崪y降水、徑流、溫度過程線對時間步長60 d進行合理性分析,發(fā)現(xiàn)2—4月內(nèi)的降水并未立即產(chǎn)流,一直到4月末、5月初溫度升高,徑流過程線才出現(xiàn)明顯波動,且呈現(xiàn)上升趨勢,這說明2—4月的積雪在春末夏初才開始融化,這與前期影響天數(shù)60 d的結(jié)論相一致,遂可驗證時間步長設置的合理性。
綜上,相比BP神經(jīng)網(wǎng)絡和ERNN,LSTM模型在受積、融雪過程影響顯著流域的徑流過程模擬中具有優(yōu)勢,且對類似的其他存在長期相關(guān)關(guān)系的時間序列預測問題具有推廣意義。