摘 要:黃河徑流具有非穩(wěn)態(tài)、非線性的特點(diǎn),為了給河南省保障水安全等提供參考,對黃河三門峽水文站非汛期流量進(jìn)行了研究。構(gòu)建變分模態(tài)分解(VMD)與長短期記憶網(wǎng)絡(luò)(LSTM)、支持向量回歸機(jī)( SVR) 相結(jié)合的非汛期徑流預(yù)測模型,利用麻雀優(yōu)化算法(SSA)調(diào)節(jié)模型參數(shù)以提高預(yù)測精度。采用VMD 算法將非汛期流量數(shù)據(jù)分解為多個本征模函數(shù)(IMF),基于K-Means 聚類法計(jì)算分量間的歐氏距離,將歐氏距離的倒數(shù)作為各分量的權(quán)重,最后將各分量結(jié)果輸入LSTM/ SVR 進(jìn)行模型預(yù)測,加權(quán)重構(gòu)分量預(yù)測值得到流量預(yù)測結(jié)果,并與加權(quán)前后VMD-SSA-LSTM、VMD-SSA-SVR 模型進(jìn)行對比。結(jié)果顯示,提出的K-Means 加權(quán)VMD-SSALSTM模型預(yù)測三門峽水文站2003 年1 月—2023 年5 月(非汛期月份)每日平均流量,平均絕對誤差為82.54 m3 / s、均方根誤差為106.64 m3 / s、擬合優(yōu)度達(dá)0.92,能有效預(yù)測非汛期流量。
關(guān)鍵詞:徑流預(yù)測;變分模態(tài)分解;LSTM;SVR;K-Means 聚類;黃河流域
中圖分類號:TV734.1;TV882.1 文獻(xiàn)標(biāo)志碼:A doi:10.3969/ j.issn.1000-1379.2025.04.007
引用格式:程桂芳,周蕓.黃河三門峽水文站非汛期流量預(yù)測研究[J].人民黃河,2025,47(4):38-43,57.
0 引言
早期的水文預(yù)報(bào)主要通過構(gòu)建回歸模型進(jìn)行數(shù)據(jù)分析,但是多次試驗(yàn)表明單一的驅(qū)動模型無法克服徑流非穩(wěn)態(tài)的問題,導(dǎo)致預(yù)測值與實(shí)測值之間出現(xiàn)較大偏差。隨著科學(xué)算法的升級,機(jī)器學(xué)習(xí)的誕生成功攻克非穩(wěn)態(tài)問題,許多學(xué)者將各種機(jī)器學(xué)習(xí)模型廣泛運(yùn)用于水文預(yù)報(bào)研究中。如:唐怡[1] 分析盤龍河流域枯季月徑流時(shí),分別構(gòu)建常規(guī)模型和BP(Back Propaga?tion)神經(jīng)網(wǎng)絡(luò)模型對徑流量進(jìn)行預(yù)測,對比兩模型的預(yù)測結(jié)果得出BP 神經(jīng)網(wǎng)絡(luò)模型的預(yù)測值與實(shí)測值更加接近;巴歡歡等[2] 通過構(gòu)建組合模型,在人工神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上引進(jìn)小波基函數(shù),預(yù)測徑流量結(jié)果顯示小波變換預(yù)處理后的模型精度得到了提高;董云程[3]應(yīng)用自回歸平均( Autoregressive Moving Average,ARMA) 模型和長短期神經(jīng)網(wǎng)絡(luò)( Long Short TermMemory,LSTM)對不同水廠供水量進(jìn)行預(yù)測,結(jié)果顯示相比傳統(tǒng)ARMA、LSTM 模型,LSTM-ARMA 組合模型的預(yù)測精度更高;方?。郏矗?把魏家堡水文站月徑流量作為研究對象,分別用粒子群算法和灰狼優(yōu)化算法優(yōu)化最小二乘支持向量機(jī)(Least Squares Support VectorMachine, LSSVM)模型,對比顯示灰狼優(yōu)化算法收斂效果較好,構(gòu)建變分模態(tài)分解的灰狼優(yōu)化LSSVM 模型對數(shù)據(jù)進(jìn)行預(yù)報(bào),結(jié)果顯示優(yōu)化模型的預(yù)測效果優(yōu)于未優(yōu)化模型的。
近年來信號分解技術(shù)有效解決了非穩(wěn)態(tài)序列的問題,該技術(shù)通過在復(fù)雜的信號中盡可能提取隱藏于信號中的特征使得序列平穩(wěn)化。如:馬超等[5] 在對三峽水庫徑流進(jìn)行分析時(shí)發(fā)現(xiàn),與神經(jīng)網(wǎng)絡(luò)相比,結(jié)合經(jīng)驗(yàn)?zāi)J椒纸馑惴ǖ纳窠?jīng)網(wǎng)絡(luò)不僅能夠呈現(xiàn)突變特征,而且具有更好的精確性;呂晗芳等[6] 基于變分模態(tài)分解VMD(Variational Mode Decomposition)、經(jīng)驗(yàn)?zāi)B(tài)分解以及總體經(jīng)驗(yàn)?zāi)B(tài)分解,得到序列分量IMF(IntrinsicMode Function) 和殘差,并對得到的IMF 分量利用LSSVM 模型進(jìn)行處理預(yù)測,通過疊加分量預(yù)測結(jié)果重組得到3 個不同組合模型的徑流預(yù)測結(jié)果,結(jié)果顯示VMD-LSSVM 模型適用于復(fù)雜的多頻月徑流預(yù)測;桑雨婷等[7] 綜合使用集合經(jīng)驗(yàn)?zāi)B(tài)分解方法和BP 神經(jīng)網(wǎng)絡(luò)方法進(jìn)行數(shù)據(jù)分析,將集合經(jīng)驗(yàn)?zāi)B(tài)分解CEEMD(Complete Ensemble Empirical Mode Decomposition)和BP 神經(jīng)網(wǎng)絡(luò)結(jié)合構(gòu)建組合模型,通過預(yù)測分量再重構(gòu)的方式獲得月徑流量預(yù)測結(jié)果,對比發(fā)現(xiàn)組合模型預(yù)測精度與其他方法相比具有更好的精確性;邢貞相等[8] 對LSSVM 模型進(jìn)行優(yōu)化改進(jìn),運(yùn)用CEEMD 去掉序列中的高頻項(xiàng),運(yùn)用CEEMD-LSSVM 模型對數(shù)據(jù)進(jìn)行分析與處理,該模型精度和準(zhǔn)確性與LSSVM 模型相比均有較高的提升。
黃河流經(jīng)青海、四川、甘肅、寧夏、內(nèi)蒙古、山西、陜西、河南和山東九省(區(qū)),流域面積79.5 萬km2,是中華文明的主要發(fā)祥地,是我國重要的生態(tài)屏障、重要的經(jīng)濟(jì)地帶和鞏固全面建成小康社會的重要區(qū)域。黃河素有“鐵頭銅尾豆腐腰”之稱,黃河河南段就處于“豆腐腰”位置,黃河流經(jīng)桃花峪后驟然變寬,水沙關(guān)系十分復(fù)雜。本文對黃河三門峽水文站非汛期流量進(jìn)行深入分析,以期為河南省保障水安全等提供參考。
1 研究方法
1.1 變分模態(tài)分解算法
變分模態(tài)分解算法(VMD)是一種新的、效果更好的信號分析方法,可以控制帶寬從而抑制模態(tài)混疊現(xiàn)象[9] ,通過構(gòu)建變分問題,不斷更新各分量的帶寬和中心頻率直至獲得最優(yōu)解。VMD 分解可將非平穩(wěn)、波動大、規(guī)律弱的信號分解為不同模態(tài)的本征模函數(shù),所得的IMF 都是平穩(wěn)的,頻率按照由低至高排列,具有一定的規(guī)律性。
1.2 長短期神經(jīng)網(wǎng)絡(luò)
長短期神經(jīng)網(wǎng)絡(luò)(LSTM)采用當(dāng)前的科學(xué)算法搭建類似于人腦系統(tǒng)中的神經(jīng)元細(xì)胞,并運(yùn)用多節(jié)點(diǎn)連接許多神經(jīng)元[10] ,如同生物體內(nèi)細(xì)胞傳遞信息的方式。模型內(nèi)部結(jié)構(gòu)由輸入層、輸出層和隱藏層組成,輸入層負(fù)責(zé)數(shù)據(jù)讀取,輸出層負(fù)責(zé)數(shù)據(jù)寫入,隱藏層負(fù)責(zé)數(shù)據(jù)重置。3 個層之間相互獨(dú)立又相互連接,如同細(xì)胞在人體血液傳遞一樣各層之間也進(jìn)行著信息傳遞,具體結(jié)構(gòu)見圖1。
1.3 麻雀優(yōu)化算法
麻雀優(yōu)化算法(Sparrow Search Algorithm, SSA)在2020 年被首次提出,該算法的提出起因于麻雀覓食與反捕食行為,在麻雀集群中,群體將會劃分出不同的角色,如發(fā)現(xiàn)者、警戒者、加入者,更新迭代個體位置信息計(jì)算最優(yōu)值[11] 。與其他優(yōu)化算法相比,其獨(dú)特之處在于尋優(yōu)過程中能有效降低粒子過早陷入局部最優(yōu)解的風(fēng)險(xiǎn),提高平衡全局搜尋和局部搜尋的能力、粒子的收斂精度。
1.4 加權(quán)VMD-SSA-LSTM / SVR 模型
本文采用加權(quán)VMD-SSA-LSTM/ SVR 模型對三門峽水文站2003 年1 月至2023 年5 月(非汛期月份)每日平均流量進(jìn)行預(yù)測分析,具體操作步驟如下。
步驟一:首先對徑流數(shù)據(jù)進(jìn)行預(yù)處理,刪除缺失值;再利用變分模態(tài)分解(VMD)得到不同頻率的IMF分量。
步驟二:對特征分量IMF 進(jìn)行均一化處理,把各分量的均值和方差作為K-Means 聚類法的分類依據(jù),劃分為不同類之后選取均值較大、方差較小的分量為聚類中心,計(jì)算類中各分量到聚類中心的歐氏距離的倒數(shù),所得值即為各分量的權(quán)重。
步驟三:將分量數(shù)據(jù)集的80%劃為訓(xùn)練集、20%劃為測試集,依次將各分量輸入LSTM/ SVR 進(jìn)行模型訓(xùn)練和測試,再采用麻雀優(yōu)化算法尋找模型最佳參數(shù)。
步驟四:將各分量預(yù)測結(jié)果按照各自的權(quán)重重構(gòu)得到最終預(yù)測結(jié)果。采用平均絕對誤差、均方根誤差、擬合優(yōu)度和平均百分比絕對誤差4 個統(tǒng)計(jì)指標(biāo)對比不同模型的預(yù)測結(jié)果。
模型技術(shù)路線見圖2。
2 實(shí)例驗(yàn)證與結(jié)果分析
2.1 數(shù)據(jù)分析
數(shù)據(jù)分析在Windows 64 操作系統(tǒng)、內(nèi)存16 G 的實(shí)驗(yàn)環(huán)境以及Python 3.9.6 編程器Pycharm 下進(jìn)行。
徑流數(shù)據(jù)來源于黃河水利委員會官網(wǎng),所有數(shù)據(jù)均按照國家標(biāo)準(zhǔn)進(jìn)行測量和檢驗(yàn),具有可靠性和真實(shí)性。
數(shù)據(jù)集中存在少量缺失值,如果采用插值法處理缺失值,無法保證數(shù)據(jù)以及預(yù)測結(jié)果的真實(shí)性,故采用刪除的方式處理缺失值以保證數(shù)據(jù)的真實(shí)性和有效性。三門峽水文站汛期(7—10 月)徑流數(shù)據(jù)約占全年徑流數(shù)據(jù)的62%,非汛期(11 月—次年6 月) 徑流數(shù)據(jù)占38%,即影響非汛期數(shù)據(jù)的主要因素是前期徑流,故本文剔除數(shù)據(jù)集汛期月份的徑流數(shù)據(jù),僅對數(shù)據(jù)集中非汛期月份每日平均流量進(jìn)行探究分析。
三門峽水文站的日均流量過程比較平穩(wěn),大部分日均流量在(0,2 000]區(qū)間。數(shù)據(jù)存在周期性特征,主要原因是夏秋季節(jié)降水集中且量大,雨水補(bǔ)給多,徑流量大,冬季因降水減少而徑流量變小,冬夏兩季徑流量差異較大。
通過計(jì)算統(tǒng)計(jì)指標(biāo)如最值、標(biāo)準(zhǔn)差、峰度、偏度等展現(xiàn)徑流的特點(diǎn)。其中,偏度是衡量數(shù)據(jù)分布形態(tài)對稱程度的指標(biāo),越靠近0 說明序列整體分布越均勻。峰度是衡量數(shù)據(jù)概率密度分布曲線頂端尖峭程度的指標(biāo),通常以超值峰度指標(biāo)判斷數(shù)據(jù)的整體分布[12] 。
三門峽非汛期最大流量為4 370 m3 / s,最小流量為6 m3 / s,標(biāo)準(zhǔn)差為593.89 m3 / s,超值峰度為3.25,偏度為1.34。超值峰度大于正態(tài)分布超值峰度,說明其概率密度分布曲線較為陡峭;數(shù)據(jù)偏度小于2,說明流量數(shù)據(jù)主要分布在均值的右側(cè),大部分流量數(shù)據(jù)大于均值,少部分流量數(shù)據(jù)偏小,分布形態(tài)不對稱。
2.2 數(shù)據(jù)處理及分解
在變分模態(tài)分解中懲罰因子和模態(tài)個數(shù)的選擇直接影響分解速度和分解效率,若參數(shù)過大,則會造成模態(tài)混疊;參數(shù)過小,則分解序列時(shí)極易過濾掉原信號中的重要信息。此外,由于不同模態(tài)具有不同的中心頻率,因此需要根據(jù)不同模態(tài)數(shù)下中心頻率分布確定合適模態(tài)個數(shù)和懲罰因子。本文直接引入白鯨優(yōu)化算法[13] 優(yōu)化VMD,經(jīng)過白鯨優(yōu)化算法使得變頻分解局部包絡(luò)熵最小化,分解更充分。分解后獲得各分量頻譜見圖3。
三門峽流量數(shù)據(jù)分解為3 個本征模函數(shù)IMF1、IMF2、IMF3 和一個趨勢項(xiàng)Res,頻譜圖由低頻分量到高頻分量逐漸平穩(wěn),低頻分量與高頻分量的區(qū)別在于上下包絡(luò)線是否對稱,上下包絡(luò)線是通過連接許多信號峰值點(diǎn)形成的,當(dāng)包絡(luò)線對稱時(shí),說明分量數(shù)據(jù)均值趨于0。各分量頻率越高,規(guī)律性則越強(qiáng),圖像波動近似正弦波[14] 。三門峽非汛期流量數(shù)據(jù)分解模態(tài)見圖4,各分量成分可以展示日均流量時(shí)間序列的突變特性。在懲罰因子為58、模態(tài)個數(shù)為3 時(shí),每個成分呈錯峰排列,且較為集中,其中模態(tài)三中出現(xiàn)模態(tài)重疊的趨勢,說明此時(shí)不能再繼續(xù)分解,否則會造成多余白噪聲干擾預(yù)測過程。
2.3 分量賦權(quán)
K-Means 算法中,歐氏距離經(jīng)常被用作表達(dá)數(shù)據(jù)集之間相似程度的特征值[15] 。因此,選擇歐氏距離來表示原序列與其經(jīng)過分解的分量之間的相似度。通過對三門峽流量序列分解分量進(jìn)行聚類分析,利用各分量的均值和方差作為分類依據(jù)對分量進(jìn)行歸類,選取類中方差較小、平均值較大的分量作為聚類中心,對各分量數(shù)據(jù)進(jìn)行均一化處理,計(jì)算類中各分量的歐氏距離,規(guī)定權(quán)重如下:
w =1/ x+1 (1)
式中:x 為兩分量間的歐氏距離。
采用K-Means 法對分量進(jìn)行賦權(quán),采用簇內(nèi)誤差(SSE)與類間分離度和類內(nèi)緊密度的比值(CH)作為衡量聚類結(jié)果的參數(shù)。理論上SSE 越小、CH 越大,說明聚類效果越好。
分類數(shù)k =3 時(shí),SSE 趨于極小值并且出現(xiàn)較大拐點(diǎn),CH 值達(dá)到極大值,結(jié)合這兩個指標(biāo),取三門峽站分類數(shù)k =3。三門峽站非汛期流量數(shù)據(jù)的分量序列分類情況:將IMF1 歸為一類,IMF2 歸為一類,IMF3 和Res 歸為一類,且將Res 定為該類的聚類中心。之后對各分量進(jìn)行均一化處理,并根據(jù)均一化的均值和方差求得各分量的權(quán)重,IMF1、IMF2、Res 權(quán)重為1,IMF3權(quán)重為0.94。2.4 分量預(yù)測
2.4.1 LSTM 預(yù)測分量
在預(yù)測模型建模過程中,最為關(guān)鍵的是尋找到模型的最優(yōu)參數(shù)[16] ,它直接影響模型最終的預(yù)測精度,當(dāng)參數(shù)選擇不佳時(shí),容易引起過擬合或者擬合不當(dāng)?shù)膯栴}。引入麻雀優(yōu)化算法(SSA)尋得一組最優(yōu)參數(shù)使得誤差達(dá)到最小。本文優(yōu)化器optimizer( )采用最小化LSTM 網(wǎng)絡(luò)的誤差為適應(yīng)度函數(shù),同時(shí)定義update_finder( )函數(shù)發(fā)出預(yù)警,觀察捕食者出現(xiàn),且定義self.update_follower( )函數(shù)更新跟隨,并剔除超邊界的變量。本文在Keras 框架內(nèi)搭建LSTM,優(yōu)化超參數(shù)為學(xué)習(xí)率和隱藏層節(jié)點(diǎn)數(shù),其中麻雀優(yōu)化算法的參數(shù)配置為:層級數(shù)為4,種群數(shù)量為22,最大運(yùn)行次數(shù)為128,批次數(shù)量為32。得到優(yōu)化后的模型后,對分量采用長短期神經(jīng)網(wǎng)絡(luò)和麻雀優(yōu)化算法的長短期記憶網(wǎng)絡(luò)進(jìn)行預(yù)測,預(yù)測方式為滾動預(yù)測,即用前5 個數(shù)據(jù)預(yù)測第6 個值,三門峽非汛期流量數(shù)據(jù)各分量預(yù)測結(jié)果對比如圖5所示。
基于平均絕對誤差、均方根誤差、擬合優(yōu)度和平均百分比絕對誤差比較各模型的優(yōu)勢。表1 為麻雀優(yōu)化前后長短期神經(jīng)網(wǎng)絡(luò)預(yù)測各分量指標(biāo)對比,由圖5、表1 可知:與LSTM 相比,對分量IMF1 進(jìn)行預(yù)測時(shí),優(yōu)化過后長短期神經(jīng)網(wǎng)絡(luò)預(yù)測曲線與實(shí)測值曲線貼合度更高,尤其極大值和極小值擬合度表現(xiàn)更好,預(yù)測值與實(shí)測值的誤差較小,平均絕對誤差為31. 06 m3 / s,比LSTM 的平均絕對誤差降低了32%,擬合優(yōu)度提高了47.3%,說明SSA-LSTM 對IMF1 預(yù)測準(zhǔn)確率較高。麻雀優(yōu)化算法改進(jìn)的長短期神經(jīng)網(wǎng)絡(luò)對IMF2 的預(yù)測效果沒有IMF1 理想,雖然實(shí)測值曲線與預(yù)測值曲線重合度較高,但是在極值部分存在偏離的情況,整體預(yù)測表現(xiàn)一般,SSA-LSTM 均方根誤差比LSTM 降低了28%。對于高頻分量IMF3,優(yōu)化過的神經(jīng)網(wǎng)絡(luò)的優(yōu)勢仍然凸顯,SSA-LSTM 預(yù)測結(jié)果平均絕對誤差降低了39%,均方根誤差降低了40%,擬合優(yōu)度提升了88%。但是麻雀優(yōu)化算法長短期神經(jīng)網(wǎng)絡(luò)對IMF3 極值擬合效果較差,出現(xiàn)明顯偏大情況,此時(shí)擬合優(yōu)度不超過0.8,誤差較大,實(shí)測值與預(yù)測值差異較大。對于趨勢項(xiàng)Res 的預(yù)測,SSA-LSTM 預(yù)測曲線重合度極低,只有少部分?jǐn)?shù)據(jù)區(qū)間預(yù)測值接近實(shí)測值,擬合優(yōu)度只有0.1,即使對模型參數(shù)進(jìn)行了尋優(yōu),也沒有極大提高長短期神經(jīng)網(wǎng)絡(luò)對趨勢項(xiàng)分量的預(yù)測精度。
2.4.2 SVR 預(yù)測分量
支持向量回歸機(jī)( Support Vector Regression,SVR)擺脫生物仿生學(xué)習(xí)機(jī)器限制,拓寬在模型識別和非線性分類等領(lǐng)域的應(yīng)用。與神經(jīng)網(wǎng)絡(luò)相比,可以有效地解決約束條件下的高維數(shù)據(jù)運(yùn)算難的模型建立問題,避免維度爆炸,泛化能力強(qiáng)。
采用麻雀優(yōu)化算法優(yōu)化支持向量機(jī)模型的兩個參數(shù)分別是支核函數(shù)的系數(shù)(gamma)和錯誤項(xiàng)懲罰因子(W),隨著gamma 的增大,測試集回歸效果變差,訓(xùn)練集回歸效果變好,并且使模型的復(fù)雜度提高,泛化能力(對未知數(shù)的預(yù)測能力) 降低從而出現(xiàn)過擬合的情況[17] 。錯誤項(xiàng)懲罰因子可以根據(jù)需要選擇所有大于0 的數(shù)。懲罰因子越大意味著對優(yōu)化過程的總誤差越關(guān)注,對于減小誤差的要求越高,甚至不惜使間隔減小。得到優(yōu)化模型后,對分量采用支持向量回歸機(jī)模型和麻雀優(yōu)化算法的支持向量回歸機(jī)模型進(jìn)行預(yù)測,預(yù)測方式同樣采用5 步滾動預(yù)測,三門峽非汛期流量分量的預(yù)測結(jié)果如圖6 所示。
表2 是麻雀優(yōu)法算法優(yōu)化前后支持向量回歸機(jī)預(yù)測各分量的結(jié)果對比,結(jié)果顯示:與未優(yōu)化的支持向量回歸機(jī)模型相比,優(yōu)化過的模型有效提升各分量的預(yù)測精度。IMF1 中SSA-SVR 與SVR 相比較,其平均絕對誤差降低了35.3%,均方根誤差降低了35.4%,擬合優(yōu)度提升了4.3%,SSA-SVR 預(yù)測曲線相對于實(shí)測值曲線上升,極大值偏差較小,而極小值的實(shí)測值與擬合值的差異大,重合度較低。對于SSA-SVR 擬合IMF2的預(yù)測結(jié)果而言,經(jīng)過麻雀優(yōu)化算法優(yōu)化的支持向量回歸機(jī)模型平均絕對誤差降低了24.7%,預(yù)測曲線在極值區(qū)域與實(shí)測值存在偏差,重合度比IMF1 略高。對于SSA-SVR 擬合IMF3 的預(yù)測結(jié)果而言,經(jīng)過優(yōu)化后的模型擬合優(yōu)度提升了23.1%,平均百分比絕對誤差降低了6.4%。對于趨勢項(xiàng)而言,SSA-SVR 模型預(yù)測結(jié)果仍然很差,與SVR 相比各誤差只是略有小幅度降低,預(yù)測精度還有待提高。
2.5 分量重構(gòu)
將分量預(yù)測結(jié)果重構(gòu)得到最終預(yù)測結(jié)果,加權(quán)即分量在重構(gòu)時(shí)按照K-Means 所賦予的權(quán)重相加,VMDLSTM/SVR 模型和VMD-SSA-LSTM/ SVR 模型直接疊加各分量預(yù)測結(jié)果組成流量預(yù)測結(jié)果,而加權(quán)VMD-SSALSTM/SVR 是按照分量各自的權(quán)重加權(quán)疊加組成非汛期流量結(jié)果,各模型對比見表3。
由表3 可以得出:加權(quán)VMD-SSA-LSTM 模型預(yù)測精度最高,平均絕對誤差為82.54 m3 / s、均方根誤差為106.64 m3 / s,擬合優(yōu)度為0.92。支持向量回歸機(jī)模型預(yù)測精度明顯低于長短期神經(jīng)網(wǎng)絡(luò)模型,其中KMeans加權(quán)VMD-SSA-LSTM 模型誤差最小,擬合優(yōu)度最大,與VMD-LSTM 模型相比,VMD-SSA-LSTM 模型指標(biāo)值中平均絕對誤差降低了48.6%,均方根誤差降低了47.8%,擬合優(yōu)度提升了27.7%,平均百分比絕對誤差降低了42.4%;K-Means 加權(quán)VMD-SSA-LSTM模型平均絕對誤差降低了47.1%,均方根誤差降低了46.1%,平均百分比絕對誤差降低了41%。實(shí)例結(jié)果K-Means 加權(quán)VMD-SSA-LSTM 模型能有效提高流量預(yù)測精度。
為了驗(yàn)證該模型的可行性,采用相同的方式預(yù)測花園口站2003 年11 月至2023 年5 月非汛期流量。通過變頻分解算法將花園口流量數(shù)據(jù)分解為9 個本征模函數(shù)和一個趨勢項(xiàng),再基于K-Means 劃分各分量。
花園口站簇內(nèi)誤差SSE 在k = 5 時(shí)出現(xiàn)極小值,CH 指標(biāo)在k = 5 時(shí)出現(xiàn)極大值拐點(diǎn),故合適的中心數(shù)為5,觀察結(jié)果顯示變頻分解后的分量分類結(jié)果為:IMF1 歸為一類,IMF2、IMF3 和IMF9 歸為一類(IMF2為此類聚類中心), IMF4、IMF6 和IMF8 歸為一類(IMF4 為此類聚類中心),IMF5 和IMF7 歸為一類(IMF5 為此類聚類中心),Res 歸為一類。之后基于各分量均一化的均值和分量計(jì)算分量權(quán)重,IMF1、IMF2、IMF4 和Res 權(quán)重為1,IMF5 權(quán)重為0.97,IMF9 權(quán)重為0.96,IMF3 和IMF7 權(quán)重為0.95,IMF6 權(quán)重為0.94,IMF8權(quán)重為0.92。
將花園口流量各分量依次輸入LSTM、SVR 模型進(jìn)行預(yù)測,并利用麻雀優(yōu)化算法優(yōu)化模型參數(shù)。最后按照權(quán)重將分量結(jié)構(gòu)重構(gòu)得到預(yù)測結(jié)果?;▓@口流量預(yù)測結(jié)果見表4。
花園口流量數(shù)據(jù)預(yù)測結(jié)果顯示:加權(quán)VMD-SSALSTM模型仍然是預(yù)測精度最高、誤差最小的模型,該模型擬合優(yōu)度達(dá)0.98。通過對花園口流量數(shù)據(jù)進(jìn)行模型分析再次證實(shí)了加權(quán)VMD-SSA-LSTM 模型在流量預(yù)測中具有一定的實(shí)用價(jià)值。
3 結(jié)論
引入白鯨優(yōu)化算法尋找變頻分解中合適的懲罰因子和模態(tài)個數(shù),有效避免過度分解導(dǎo)致模態(tài)重疊,運(yùn)用變分模態(tài)分解對非汛期徑流數(shù)據(jù)進(jìn)行分解,基于各站分量數(shù)據(jù)擬合LSTM、SVR 模型,實(shí)證表明長短期神經(jīng)網(wǎng)絡(luò)模型能較好地?cái)M合本征模函數(shù)中的周期趨勢和線性趨勢,而支持向量回歸機(jī)模型在各分量的預(yù)測中表現(xiàn)較差。運(yùn)用K-Means 法平衡不同分量對預(yù)測結(jié)果的影響程度,消除多余白噪聲的干擾,加權(quán)重構(gòu)得到流量預(yù)測結(jié)果盡可能地在不損失信息的前提下降低模型誤差。同時(shí),將加權(quán)模型應(yīng)用于花園口徑流研究中,證實(shí)了模型的可行性,結(jié)果顯示K-Means 加權(quán)VMDSSA-LSTM 模型與其他模型相比,可以有效降低預(yù)測誤差,提高擬合優(yōu)度。
參考文獻(xiàn):
[1] 唐怡.逐步回歸和BP 神經(jīng)網(wǎng)絡(luò)模型的枯季月徑流預(yù)測[J].云南水力發(fā)電,2021,37(3):24-26.
[2] 巴歡歡,胡挺,袁玉,等.基于小波變換和人工神經(jīng)網(wǎng)絡(luò)模型的三峽入庫月徑流預(yù)報(bào)[J].水電能源科學(xué),2022,40(5):10-13,49.
[3] 董云程.基于ARIMA-LSTM 的城市供水量組合預(yù)測模型研究[D].昆明:昆明理工大學(xué),2021:36-38.
[4] 方巍.基于變分模態(tài)分解的灰狼優(yōu)化最小二乘支持向量機(jī)研究及其在徑流預(yù)報(bào)中的應(yīng)用[D].南昌:南昌工程學(xué)院,2020:10-11.
[5] 馬超,姜璇.基于EEMD-ANN 的水庫年徑流預(yù)測[J].水電能源科學(xué),2016,34(8):32-35.
[6] 呂晗芳,趙雪花,桑宇婷,等.基于VMD-LSSVM 的月徑流預(yù)測方法研究[J].中國農(nóng)村水利水電,2020(8):166-170,176.
[7] 桑雨婷,趙雪花,祝雪萍,等.基于CEEMD-BP 模型的汾河上游月徑流預(yù)測[J].人民黃河,2019,41(8):1-5.
[8] 邢貞相,董洪濤,紀(jì)毅,等.基于CEEMD-LSSVM-NNBR模型中長期入庫徑流模擬[J].東北農(nóng)業(yè)大學(xué)學(xué)報(bào),2019,50(12):76-85.
[9] 黃友燦.基于變頻模態(tài)分解和循環(huán)神經(jīng)網(wǎng)絡(luò)的中長期徑流預(yù)測模型研究[D].武漢:華中科技大學(xué),2021:22-24.
[10] 孫國梁,李保健,徐冬梅,等.基于VMD-SSA-LSTM 的月徑流預(yù)測模型及應(yīng)用[J].水電能源科學(xué),2022,40(5):18-21.
[11] 蔡海良,胡凱,李軍,等.基于BWO-ELM 算法與VR-GIS技術(shù)的電力光纜故障診斷及定位研究[J].計(jì)算機(jī)測量與控制,2022,30(12):98-104,111.
[12] 李航.統(tǒng)計(jì)學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2012:23.
[13] 趙小惠,楊文彬,胡勝,等. 基于VMD 能量權(quán)重法與BWO-SVM 的銑刀磨損狀態(tài)監(jiān)測[J].機(jī)電工程,2022,39(12):1762-1768,1783.
[14] 李文武,石強(qiáng),王凱,等.基于變分模態(tài)分解和深度門控網(wǎng)絡(luò)的徑流預(yù)測[J].水力發(fā)電學(xué)報(bào),2020,39(3):34-44.
[15] 孫海兵,張寧靜.基于灰色預(yù)測的水電開發(fā)利益共享模型研究[J].水電能源科學(xué),2023,41(3):168-171.
[16] 金保明,盧光毅,王偉,等.基于彈性梯度下降算法的BP神經(jīng)網(wǎng)絡(luò)降雨徑流預(yù)報(bào)模型[J].山東大學(xué)學(xué)報(bào)(工學(xué)版),2020,50(3):117-124.
[17] 王佳,王旭,王浩,等.基于EEMD 與ANN 混合方法的水庫月徑流預(yù)測[J].人民黃河,2019,41(5):43-46.
【責(zé)任編輯 張 帥】
基金項(xiàng)目:河南省高等教育教學(xué)改革研究與實(shí)踐項(xiàng)目(2021SJGLX060); 河南省科技攻關(guān)項(xiàng)目(252102211117)