中圖分類號:TP391.4;TP183 文獻標識碼:A 文章編號:2096-4706(2025)08-0071-07
Abstract: Deep Learning becomes apowerful tool for runoff prediction,but in ungauged basins,the lack of flow observation data makes model trainingand prediction usuallyrequiretheapproachof Transfer Learning.However,thetarget basinoftendoesnothaveenoughdataforfie-tuning,whichmakes itdiffculttocalibratethemodelparameters.Therefore, this paper proposes anungauged basins runof prediction methodbasedonconditional diffusion model.The method includesa forwardnoisingprocessandareversedenoisingprocessThedenoisingmodelis trainedinthesourebasinandthenthedatais recoveredfromthenoiseintetargetbasinasthepredictionresultInadition,thedenoisingprocesisguidedbytheconditional datancludingmeteorologicaldriversandhistoricalrunoffndtheTrasformerlayerisintroducedintothedenoisingmodelto capture the dependenceof ime andfeatures.Throughthecross-validation experimentontheCAMELS-US dataset,theresults show that the method has superiority.
Keywords: runoff prediction; ungauged basins; Transfer Learning; conditional diffusion model; CAMELS-US
0 引言
徑流量能夠反映特定流域內(nèi)水文、王壤和地質(zhì)特征,是綜合反映流域內(nèi)自然條件和人類活動的重要指標。徑流量預測是一門重要的學科,在水文學領(lǐng)域具有廣泛的應用[]。然而,由于地理位置偏遠、經(jīng)濟資源有限或數(shù)據(jù)采集技術(shù)不足等原因,目前全球仍然存在許多沒有或幾乎沒有徑流觀測數(shù)據(jù)的流域,這些流域被稱為未測量流域。流量觀測值的缺乏可能導致其徑流預測模型參數(shù)難以校準,因此未測量流域的徑流預測仍是一項具有挑戰(zhàn)性的任務[2]。
遷移學習允許在監(jiān)控良好的系統(tǒng)中校準模型,然后將校準后的參數(shù)應用于監(jiān)控稀缺或不存在監(jiān)控的系統(tǒng)中[3],適合用于處理未測量流域徑流預測任務。但常用于徑流觀測的基于遞歸結(jié)構(gòu)的長短期記憶網(wǎng)絡
(LSTM)無法在時間序列中的任意兩個點之間建立直接聯(lián)系[4],并且其在進行自回歸預測的多步預測任務時可能會導致誤差累積?;谧宰⒁饬C制的Transformer的提出則有效解決了遞歸結(jié)構(gòu)中記憶局限性的問題[5]。Transformer模型可以更全面地考慮位置之間的關(guān)系,并為每個位置生成來自所有位置的特征,目前已被應用于多項未測量流域徑流預測任務[6-7]。
近年來,擴散模型被嘗試用于解決時間序列預測任務,因為該任務可以被看作一個條件生成任務[8]。擴散模型最初由Sohl-Dickstein 等[]提出。2020 年,Ho 等[]將其引入時間序列領(lǐng)域,提出了去噪擴散概率模型(DDPM)。其基本原理是用正向擴散過程對觀測數(shù)據(jù)進行逐步擾動,然后使用可學習的轉(zhuǎn)換核通過反向過程來恢復數(shù)據(jù)。通常,逆向過程是由一個神經(jīng)網(wǎng)絡參數(shù)化的可學習的過程。一旦學習了反向過程,它就可以從幾乎任意的初始數(shù)據(jù)中生成新的樣本,即通過逐漸去除噪聲來生成高質(zhì)量的、具有詳細相干性的復雜序列。這使得該類模型在不同的數(shù)據(jù)類型和模式中具有很好的靈活性和適應性,并且逐步的降噪機制在糾錯方面也具有較好的魯棒性[1]。
在本研究中,我們提出了一種基于條件擴散模型的未測量流域徑流預測方法,使用兩個馬爾科夫鏈實現(xiàn)其正向擴散和反向去噪過程,在去噪模型部分引入了二維注意力機制,并利用包含氣象驅(qū)動和歷史徑流的條件數(shù)據(jù)來指導去噪過程。為清楚起見,我們將有資料流域定義為源流域,將僅有少部分近期觀測的未測量流域定義為目標流域,使用源流域的觀測徑流訓練模型,訓練好的模型直接作用于目標流域上進行多步徑流預測。
1 研究方法
本文提出的基于條件擴散模型的未測量流域徑流預測方法總體框架如圖1所示。下文將分別介紹條件擴散模型的原理、去噪模型的結(jié)構(gòu)和模型性能評估策略。
1.1條件擴散模型原理
條件擴散模型主要使用兩個馬爾科夫鏈實現(xiàn)正向擴散和后向去噪過程。本節(jié)將分別進行介紹。
1. 1.1 正向擴散過程
設原始觀測徑流序列為 ,通過 N 個擴散步將高斯噪聲添加到
,將
轉(zhuǎn)換為一系列具有擴散移動核的擾動數(shù)據(jù)
,
,…,
具體來說,
是通過用零均值高斯噪聲破壞前一個迭代
(按
縮放)而生成的:
其中, (0,1)為每一步噪聲水平變化的超參數(shù),注意其必須為隨 n 遞增的,從而使第一個擾動數(shù)據(jù)
最接近原始數(shù)據(jù)
,而最終的擾動數(shù)據(jù)
接近獨立分布的高斯噪聲。由于轉(zhuǎn)移核是高斯分布的,所以任何擴散步 n 處的序列
都可以通過式(2)直接從
中采樣得到:
其中, 則 n 個擴散步后的擾動數(shù)據(jù)為:
其中 ? ~ N( 0 , I ) , ??偟膩碚f,正向過程是一個逐
漸向數(shù)據(jù)中注入噪聲,直到所有結(jié)構(gòu)都被高斯白噪聲淹沒的過程。
1. 1.2 后向去噪過程
向去噪過程主要是通過條件擴散模型的反演過程 將噪聲逐步轉(zhuǎn)換為可信的時間序列,在每個擴散步n 中,反向過程從上一個擴散步 n+1 的輸出中去除噪聲。與無條件擴散模型不同,條件擴散模型引入了條件數(shù)據(jù) C ,此時反向轉(zhuǎn)換核被細化為一個如下的概率分布:
其中,
為一個可訓練的條件去噪函數(shù),也對應于一個去噪模型,用于估計添加到噪聲輸入
中的噪聲向量 ? 。Ho等人證明可以通過解決以下優(yōu)化問題來訓練去噪模型:
模型訓練完成后通過采樣過程來進行預測,采樣過程的起點是一個隨機高斯噪聲 。對于n=N ,N-1,…,1,每個去噪步驟都從
到
$X _ { n - 1 } \mu _ { \theta } ( X _ { n } , n \middle | C ) + \sigma _ { \theta } ( X _ { n } , n \middle | C ) \big /$ 當 n=1 時, ? = 0 , 0
1.2 去噪模型介紹
去噪模型(圖1中去噪模型部分)參考了DiffWave[12]架構(gòu)。該網(wǎng)絡是非自回歸的,由多個殘差層和殘差通道 C 組成,并嵌入擴散步長,以保證模型對不同的擴散步輸出不同的 。對于擴散步長 n 我們使用以下的128維嵌入:
使用三個全連接層并對其進行擴展后添加到每個殘差層的輸入中。此外,模型采用圖2中的門控激活單元,相比于更標準的ReLU激活,其允許更平滑的信息在多殘差層架構(gòu)上流動從而具有更強的經(jīng)驗性能。
與DiffWave不同的是,除了 外,我們還將條件數(shù)據(jù)(包括氣象驅(qū)動和歷史觀測徑流)加入以構(gòu)建模型輸入,并通過卷積得到形狀為
的張量輸入殘差層。此外,為了獲取多元序列的時間和特征依賴性,我們在每個殘差層中使用了在PyTorch中實現(xiàn)的一層Transformer編碼器,它由多頭注意層、全連接層和層歸一化組成。由于Transformer本身沒有時間和特征標簽,因此我們采用可學習的時間嵌入和特征嵌入來提供位置信息。該二維注意力的架構(gòu)如圖3所示,輸入為一個具有 K 個特征、長度為 L 和C 通道的張量。時間注意力層以形狀為(1,L,C)的張量和時間嵌入作為輸入,學習時間依賴性;特征注意力層以形狀為(K,1,C)的張量和特征嵌入作為輸入,學習特征依賴性。
1.3 模型訓練和預測
假設時間序列窗口長度為 L ,預測未來 天徑流,則引入歷史序列長度為 L -m 。在模型訓練階段,我們從源流域中隨機抽取
天的氣象驅(qū)動和徑流觀測,設其中
天的觀測徑流為
,先通過式(3)對其進行正向加噪。然后將
天的觀測徑流和
天的氣象驅(qū)動合并作為條件矩陣c ,與加噪后的擾動數(shù)據(jù)通過零填充合并(如圖1中模型輸入部分)輸入去噪模型,最后通過噪聲預測學習來訓練模型。
對目標流域未來日徑流的預測主要是通過擴散模型采樣過程來實現(xiàn)的,將 m 長隨機高斯噪聲序列作為初始 和目標流域的條件數(shù)據(jù)合并輸入訓練完成的去噪預測模型
,然后通過式(7)中的公式進行去噪得到
,并將其作為下一次迭代的輸入,重復 N 次迭代過程得到未來 m 天預測徑流
。
1.4評估指標和基準模型
本文使用以下三種評估指標:Nash-Sutcliffe效率系數(shù)(NSE)、均方根誤差(RMSE)和前 2 % 絕對預測誤差(TPE- 2 % )。NSE和RMSE定義為:
其中, 為未來 i 天的徑流觀測值,
為對應的徑流預測值,
為未來 m 天徑流觀測值的平均值。
TPE- 2 % 衡量峰值流量預測的準確性,其定義為:
其中, , y ( j ) 為 j 階徑流觀測值,
為 y ( j ) 的預測值, H 表示前 2 % 峰值的數(shù)量。
基準模型包括Yin等人提出的RR-Former模型和 Xiang等人提出的LSTM-S2S模型[13],前者基于Transformer實現(xiàn),后者基于LSTM實現(xiàn)。
2 實驗及結(jié)果分析
2.1 數(shù)據(jù)集
為驗證本文方法的有效性,采用與基準模型相同的CAMELS-US數(shù)據(jù)集,該數(shù)據(jù)集包含美國671個流域的每日時間尺度的氣象驅(qū)動、靜態(tài)屬性和徑流觀測值。每日徑流觀測和氣象驅(qū)動的時間范圍為1980年10月1日至2014年12月31日。為節(jié)省開銷,我們僅使用5個氣象驅(qū)動(日降雨量Prcp、地表入射太陽輻射 Srad、日最高氣溫 、日最低氣溫
和近地表日平均蒸汽壓
)作為條件數(shù)據(jù)。
CAMELS-US數(shù)據(jù)集共包含18個水文單元。在本文中,我們選擇了編號分別為01、03、11和17的4個水文單元(表1),這4個水文單元共包含241個流域。一方面,這四個水文單元覆蓋了廣泛的水文條件,因而能夠全面測試模型的性能;另一方面,相較于使用所有671個流域,選擇241個流域可以降低計算成本。
2.2 實驗設置
通常,未測量流域的性能是通過 k 折交叉驗證實驗來測試的。因此,我們在4個水文單元上進行了兩組不同的 k 折交叉驗證實驗,即多區(qū)域交叉驗證和單區(qū)域交叉驗證實驗。在多區(qū)域交叉驗證實驗中,我們將4個水文單元的241個流域隨機分為5組,即k=5 。每當其中一組作為目標流域進行7天徑流預測時,其余四組將作為源流域?qū)δP瓦M行預訓練。而單區(qū)域交叉驗證則是分別對各水文單元中的流域隨機分成5組進行上述交叉驗證實驗。
本文基準模型使用相同的輸入和輸出,即時間序列窗口長度 L 為21,其中待預測的徑流序列長度 為7。訓練時間為1980年10月1日至1995年9月
30日,驗證集為1995年10月1日至2000年9月30日,測試集為2000年10月1日至2014年9月30日。并通過網(wǎng)格搜索方式選定了合適的超參數(shù),即擴散步長 N 為50,殘差層數(shù)為4,殘差通道 C 為64,噪聲水平變化超參數(shù) 均勻增長,其中
,
。
2.3 實驗結(jié)果及分析
依照2.2節(jié)中的實驗設置,同時使用多區(qū)域交叉驗證和單區(qū)域交叉驗證實驗來測試模型的性能。表2給出了本文方法與基準模型(基準1為RR-Former,基準2為LSTM-S2S)在未來7天多區(qū)域交叉驗證實驗中的結(jié)果,并在圖4中更直觀地展示了它們。
總體預測(由NSE和RMSE顯示)和峰值流量預測(由 1 P E-2 % 顯示)結(jié)果表明,隨著預測間隔的延長,預測效果逐漸變差,其中LSTM-S2S的性能下降速度最快。然而,我們的方法在每一步預測中的性能都明顯優(yōu)于基準模型,這體現(xiàn)了其在未測量流域提前多步預測任務中的優(yōu)越性。
此外,在01、03、11和17四個區(qū)域上,分別采用本方法與RR-Former進行了單區(qū)域交叉驗證實驗,并與多區(qū)域交叉驗證實驗中本方法的結(jié)果進行了對比,統(tǒng)計圖展示為圖5。需要注意的是,此處僅展示了我們重點關(guān)注的NSE指標。
顯而易見,由于模型訓練數(shù)據(jù)量更大,多區(qū)域交叉驗證結(jié)果普遍優(yōu)于單區(qū)域交叉驗證結(jié)果。但在
01號區(qū)域中,第6、第7天本方法單區(qū)域訓練的模型性能超過了多區(qū)域,這是由于01號區(qū)域雖然流域數(shù)量最少,但各氣象驅(qū)動統(tǒng)計數(shù)據(jù)的標準差也最小,即流域較為同質(zhì),因此僅用本區(qū)域流域訓練出的模型性能更穩(wěn)定。雖然03號區(qū)域流域也較為同質(zhì),但較高的日溫度和蒸汽壓導致部分降水未轉(zhuǎn)化為徑流,因此模型性能普遍較低。而17號區(qū)域年降水量非常高,濕潤流域為模型提供了豐富的數(shù)據(jù)支持,因此模型可以更好地學習和適應,從而預測的準確度最高。
最后,由于11號區(qū)域的流域?qū)傩宰兓^大,從東到西具有高差異和強梯度的特點,復雜的水文條件使得模型的適應性受限,因此模型性能最差。此外,本方法受極端流域的影響更大,單區(qū)域訓練模型的NSE平均值隨預測天數(shù)的增加下降很快,甚至在第6、第7天低于RR-Former。但除此之外,本方法單區(qū)域交叉驗證結(jié)果均比RR-Former更佳。
3結(jié)論
在本文中,我們提出了一種基于條件擴散模型的未測量流域徑流預測方法,引入了氣象驅(qū)動與歷史徑流作為條件數(shù)據(jù),并在去噪模型部分引入了二維注意力機制,結(jié)合了Transformer強大的特征提取能力。在CAMELS-US數(shù)據(jù)集上進行了單區(qū)域和多區(qū)域交叉驗證實驗,與基準模型相比表現(xiàn)更佳,說明本文方法可以為流域之間先驗水文知識的轉(zhuǎn)移提供更精確、更有效的支持。在未來的工作中,我們將致力于通過數(shù)據(jù)預處理和優(yōu)化模型結(jié)構(gòu)等方式,進一步提高其效率和性能。
參考文獻:
[1]NGKW,HUANGYF,KOOCH,etal.AReviewof Hybrid Deep Learning Applications for Streamflow Forecasting[J/OL].Journal of Hydrology,2023,625:130141[2024-10-05].https://doi.org/10.1016/j.jhydrol.2023.130141.
[2]BLOSCHLG,BIERKENS MFP,CHAMBELA,et al.Twenty-three Unsolved Problemsin Hydrology (UPH) -aCommunity Perspective [J].Hydrological Sciences Journal,2019,64(10):1141-1158.
[3]IMANM,ARABNIAHR,RASHEEDK.AReviewofDeep TransferLearningandRecentAdvancements[J/OL].arXiv:2201.09679 [cs.LG].[2024-09-26].https://doi.org/10.48550/arXiv.2201.09679.
[4]LIUCF,LIUDR,MUL.Improved TransformerModel for Enhanced Monthly Streamflow Predictionsof theYangtzeRiver[J].IEEEAccess,2022,10:58240-58253.
[5]VASWANIA,SHAZEERN,PARMARN,etal.AtentionisAllYouNeed[J/OL].arXiv:1706.03762[cs.CL].[2024-09-23].https://doi.org/10.48550/arXiv.1706.03762.
[6] YIN HL,ZHU W,ZHANG X W,et al.Runoffpredictions in New-Gauged BasinsUsing Two Transformer-BasedModels[J/OL].JournalofHydrology,2023,622:129684[2024-10-06].https://doi.org/10.1016/j.jhydrol.2023.129684.
[7]YINHL,GUO ZL,ZHANGXW,etal.RR-Former:Rainfall-runoffModelingBasedon Transformer[J/OL].JournalofHydrology,2022,609:127781[2024-10-11].https://doi.org/10.1016/j.jhydrol.2022.127781.
[8]SHENL,KWOK J. Non-autoregressive ConditionalDiffusion Models for Time Series Prediction [J/OL].arXiv:2306.05043 [cs.LG].[2024-10-13].https://doi.org/10.48550/arXiv.2306.05043.
[9]SOHL-DICKSTEINJ,WEISSE,MAHESWARANATHAN N,et al.Deep Unsupervised LearmingusingNonequilibrium Thermodynamics [C]//Internationalconference on machine learning.Lille:PMLR,2015:2256-2265.
[10]HOJ,JAINA,ABBEELP.DenoisingDiffusionProbabilistic Models[J].Advancesin Neural InformationProcessingSystems,2020,33:6840-6851.
[11] YANGY,JINM,WENH,etal.A SurveyonDiffusion Models for Time Series and Spatio-Temporal Data[J/OL].arXiv:2006.11239 [cs.LG].[2024-09-15].https://doi.org/10.48550/arXiv.2006.11239.
[12]KONG ZF,PINGW,HUANGJJ,etal. DiffWave:AVersatileDiffusionModel forAudio Synthesis[J/ OL]. arXiv:2009.09761 [eess.AS].[2024-09-19].https://doi. org/10.48550/arXiv.2009.09761.
[13]XIANGZR,YANJ,DEMIRI.ARainfallRunoff Model With LSTM-Based Sequence-to-SequenceLearning[J/OL].WaterResources Research,2020, 56(1):e2019WR025326[2024-10-17].https://doi. org/10.1029/2019WR025326.
作者簡介:張文昭(2000—),女,漢族,甘肅定西人,碩士研究生在讀,研究方向:基于深度遷移學習的數(shù)據(jù)稀疏流域日徑流預測研究;通信作者:嚴華(1971—),男,漢族,四川達州人,教授,博士,研究方向:智能信息系統(tǒng)。