摘 要:黃河水沙通量的變化規(guī)律對沿黃流域的環(huán)境治理、氣候變化和人民生活具有深遠的影響。文章以黃河某水文站2016—2021年的水位、水流量與含沙量的實際監(jiān)測數(shù)據(jù)為研究對象,對該水文站水沙通量的變化規(guī)律進行挖掘和分析;以此應(yīng)用機器學(xué)習(xí)中的時間序列分析算法構(gòu)建了一種可對黃河水沙通量趨勢預(yù)測的時間序列模型SARIMAX,通過對模型的參數(shù)優(yōu)化和顯著性檢驗分析,確定了黃河水沙通量預(yù)測的最優(yōu)時間序列模型SARIMAX(0,1,1,12),對該水文站未來兩年的黃河水沙通量進行了分析預(yù)測,為黃河水文環(huán)境的保護和黃河水域“調(diào)水調(diào)沙”等工作提供準(zhǔn)確的參考依據(jù)。
關(guān)鍵詞:時間序列模型;ARIMA;水沙通量;機器學(xué)習(xí)
中圖分類號:TP391.1 文獻標(biāo)識碼:A 文章編號:2096-4706(2024)20-0159-06
Research on the Analysis of Yellow River Water and Sediment Monitoring Data Based on Time Series Model
LI Changsheng, LIU Sujun, LIU Zongcheng, LIU Xiaolong
(Lanzhou Petrochemical University of Vocational Technology, Lanzhou 730060, China)
Abstract: The variation law of water and sediment flux in the Yellow River has a profound impact on environmental governance, climate change, and people's lives along the Yellow River basin. This paper takes the actual monitoring data of water level, water flow rate, and sediment concentration at a hydrological station on the Yellow River from 2016 to 2021 as the research object, and explores and analyzes the variation law in water and sediment flux at the hydrological station. A Time Series Analysis algorithm in Machine Learning is applied to construct a Time Series Model SARIMAX that can predict the trend of Yellow River water and sediment flux. Through parameter optimization and significance testing analysis of the model, the optimal Time Series Model SARIMAX (0, 1, 1, 12) for predicting Yellow River water and sediment flux is determined. The Yellow River water and sediment flux of the hydrological station in the next two years is analyzed and predicted, providing accurate reference for the protection of the Yellow River hydrological environment and the work of “water and sediment transfer” in the Yellow River water area.
Keywords: Time Series Model; ARIMA; water and sediment flux; Machine Learning
0 引 言
黃河是中華民族的母親河。研究黃河水沙通量的變化規(guī)律對沿黃流域的環(huán)境治理、氣候變化和人民生活具有深遠的影響,同時也對優(yōu)化黃河流域水資源分配、協(xié)調(diào)人地關(guān)系、調(diào)水調(diào)沙、防洪減災(zāi)等方面都具有重要的理論指導(dǎo)意義。
近年來在黃河水、沙、環(huán)境問題的研究方面,褚言皓等人利用最優(yōu)遙感反演算法,基于小時分辨率特征開展了GOCI遙感影像研究,研究了黃河水域懸浮泥沙時空動態(tài)特征和驅(qū)動機制[1];王俊杰等人對水沙時間序列的變異性進行了分析,通過滑動T檢驗、曼尼-肯德爾檢驗法、5a滑動平均法等,研究了水沙通量的趨勢[2];劉明等挖掘了水文站“調(diào)水調(diào)沙”期間黃河入海泥沙中Pb元素含量及其同位素組成的變化特征,并通過對利津水文站懸浮泥沙分析、小浪底水庫表層沉積物分析、物質(zhì)來源及對“調(diào)水調(diào)沙”過程的影響[3]等。
這些關(guān)于黃河水、沙、環(huán)境的統(tǒng)計分析方法雖然在技術(shù)方法上取得了一定的進步,但大多數(shù)研究缺少對黃河水域水沙通量的突變性、季節(jié)性和周期性的分析,或采用單變量時序預(yù)測模型未能充分考慮水沙通量的周期性變化和“調(diào)水調(diào)沙”措施等環(huán)境因素影響。因此本文旨在基于黃河流域水沙通量的實際歷史監(jiān)測數(shù)據(jù)的多因素相關(guān)性和時序相關(guān)性分析,首先,利用機器學(xué)習(xí)算法從水文站的水沙通量的突變性、季節(jié)性和周期性三個方面,分別應(yīng)用水沙通量時序關(guān)系圖、季節(jié)性分解的局部回歸方法(STL)、水沙通量自相關(guān)系數(shù)(ACF)對水沙通量的變化進行了分析,挖掘了該水文站水沙通量的變化規(guī)律;其次,基于時間序列分析算法構(gòu)建了該水文站水沙通量的時間序列模型SARIMAX,并通過網(wǎng)格搜索算法對SARIMAX模型的參數(shù)進行了優(yōu)化,確定了最優(yōu)模型SARIMAX(0,1,1,12);最后,根據(jù)該模型對未來兩年的黃河水沙通量進行了分析預(yù)測,使水文站既能及時掌握水沙通量的動態(tài)變化情況,又能最大限度地減少監(jiān)測成本資源。
1 水沙通量的探索性數(shù)據(jù)分析
1.1 數(shù)據(jù)概述
本文數(shù)據(jù)集來源于“2023年全國大學(xué)生數(shù)學(xué)建模競賽E題[4]”中黃河小浪底水庫下游某水文站近6年(2016—2021年)的實際監(jiān)測數(shù)據(jù),為確保數(shù)據(jù)的準(zhǔn)確性和完整性,首先對該水文站近6年的實際監(jiān)測數(shù)據(jù)進行清洗、預(yù)處理,通過后向插值方法填充缺失數(shù)據(jù),構(gòu)建了黃河水沙流浪的時間序列數(shù)據(jù)集,數(shù)據(jù)信息表如表1所示。
1.2 含沙量與時間、水位、水流量的定性分析
對于水文站實際監(jiān)測數(shù)據(jù)中的含沙量與時間、水位、水流量的定性分析,本文應(yīng)用斯皮爾曼(Spearman)相關(guān)系數(shù)[5]對含沙量、時間、水位、水流量的關(guān)系進行定性分析,結(jié)果如圖1所示。
由于斯皮爾曼相關(guān)系數(shù)評估的是兩個連續(xù)變量之間的單調(diào)關(guān)系,通過斯皮爾曼相關(guān)系數(shù)可以對含沙量、時間、水位、水流量進行相關(guān)性分析,發(fā)現(xiàn)含沙量的變化與水流量,水位,時間都成正相關(guān),且與水流量的相關(guān)度最強,與水位的相關(guān)度次之,含沙量與時間也有微弱的正相關(guān)性。
1.3 含沙量與時間、水位和水流量的定量分析
針對含沙量與時間、水位、水流量的具體大小變化趨勢的關(guān)系,本文先以“newT(T)”“水位(Sw)”“水流量(Sl)”作為自變量,以“含沙量(Hsl)”作為因變量,通過多元線性回歸分析方法[6]對含沙量與時間、水位、水流量進行了定量分析,并構(gòu)建了其關(guān)系式為:
(1)
其中,C為擬合關(guān)系是常數(shù)項。根據(jù)數(shù)據(jù)集的擬合計算,分別得到其擬合系數(shù)和常數(shù)項的取值為:a=0.682 72,b=-0.004 58,c=0.000 6,C=-25.710 63。然后通過回歸模型的性能指標(biāo),均方誤差MSE,根均方誤差RMSE,平均絕對誤差MAE和擬合優(yōu)度R2的評估分析,驗證了本文所構(gòu)建的含沙量與時間、水位、水流量的多元線性回歸模型是可行的。評估如表2所示。
1.4 年總水流量和年總排沙量的估算
要估算該水文站近6年的年總水流量和年總排沙量,首先要計算出每一個檢測時間點的排沙量(即:排沙量=水流量·含沙量),公式為:
(2)
然后,因為原始檢測數(shù)據(jù)集中缺失值,填充后的數(shù)據(jù)集上各時刻點的監(jiān)測數(shù)據(jù)仍然是離散型數(shù)值,要計算年總量,需以時間作為自變量,分別對水流量和排沙量做積分求和計算。最終得到每一年的年總水流量和年總排沙量。結(jié)果如表3所示。
1.5 水沙通量的變化規(guī)律分析
對近6年該水文站水沙通量的變化規(guī)律分析方面,本文從該水文站水沙通量在時間維度上的突變性,季節(jié)性和周期性變化規(guī)律進行了分析。
1.5.1 突變性分析
首先通過Python語言繪制水沙通量的時序圖[7]對水沙通量近6年(72個月)內(nèi)各時間點上的突變性進行了整體時序趨勢分析,水沙通量時序突變性如圖2所示。
通過對水沙通量時序圖的觀察發(fā)現(xiàn),該水文站的水沙通量在2016年3月,2016年7月,2019年6556N0iQnlgBo+bsyU6y15w==月,2019年9月,2020年3月,2020年11月,2021年3月,2021年7月,2021年8月,2021年9月這些時間點上發(fā)生了明顯的變化,特別是在2021年8月的水沙通量的突變性最為顯著。
1.5.2 季節(jié)性分析
對于該水文站水沙通量的季節(jié)性變化規(guī)律,本文通過應(yīng)用季節(jié)性分解的局部回歸方法[8](STL)來分解水沙通量的時間序列數(shù)據(jù),來觀察并分析了該水文站的水沙通量的季節(jié)性變化趨勢,如圖3所示。
1.5.3 周期性分析
對于該水文站的水沙通量周期性變化的分析,本文應(yīng)用變量自相關(guān)函數(shù)(ACF)分析方法[9]進行了分析,如圖4所示。通過自相關(guān)函數(shù)(ACF)分析發(fā)現(xiàn),該水文站的水沙通量與時間呈現(xiàn)極大的相關(guān)性,波峰與波谷的變化,極大值都很好的體現(xiàn)這種周期性,因此該水文站的水沙通量存在周期性變化趨勢。
2 基于模型的黃河水沙監(jiān)測數(shù)據(jù)分析
為了能及時掌握該水文站水沙通量的動態(tài)變化情況,又能最大限度地減少監(jiān)測成本資源,本文基于時間序列算法SARIMA構(gòu)建了一種對黃河水域未來兩年的水沙通量進行預(yù)測的時間序列模型(SARIMAX),并通過平均絕對誤差MAE、平均絕對誤差百分比MAPE、均方誤差MSE、根均方誤差RMSE等指標(biāo)對所構(gòu)建的SARIMAX模型進行了性能評估分析。
2.1 構(gòu)建SARIMAX模型
SARIMAX模型[10]是在差分移動自回歸模型(ARIMA)的基礎(chǔ)上加上季節(jié)(S)和外部因素(X)對時間序列數(shù)據(jù)進行分析的模型。其計算公式為:
(3)
其中,為非季節(jié)性自回歸滯后多項式,捕獲非季節(jié)性自回歸元素。為非季節(jié)性自回歸滯后多項式,捕獲非季節(jié)性自回歸元素。為時序數(shù)據(jù)d階差分;季節(jié)性D階差分:提供了時序平穩(wěn)化功能。為季節(jié)性移動平均滯后多項式。
SARIMAX(p,d,q,s)模型意味著時序被差分了d次,且序列中的每個觀測值都是用過去的p個觀測值和q個殘差的線性組合表示的。
SARIMAX模型構(gòu)建步驟:
1)數(shù)據(jù)預(yù)處理。對原始數(shù)據(jù)集清洗,去噪,并對缺失值作插值處理。
2)序列平穩(wěn)化。為了滿足模型假設(shè),檢查序列的平穩(wěn)性并執(zhí)行相關(guān)轉(zhuǎn)換。
3)確定差分d值。為了使序列平穩(wěn),將執(zhí)行差分操作的次數(shù)確定為d值。
4)相關(guān)性分析(ACF,PACF)參數(shù)優(yōu)化。網(wǎng)格搜索算法優(yōu)化SARIMAX模型的參數(shù)。
5)確定p值和q值。從上一步的ACF和PACF圖中讀取p和q的值。
6)SARIMAX模型擬合。根據(jù)前面的參數(shù)值和計算結(jié)果,擬合SARIMAX模型。
7)模型驗證與評估。在驗證集上計算MAPE,通過分析MAPE值來檢驗?zāi)P偷男阅堋?/p>
8)預(yù)測。以12個月為一個周期,預(yù)測未來兩年(24個月)的值。
對于SARIMAX(p,d,q,s)模型的實現(xiàn),本文通過設(shè)計Python程序,利用機器學(xué)習(xí)算法中的statsmodels庫中的SARIMAX函數(shù),對近6年該水文站的水沙通量的時間序列進行了訓(xùn)練,構(gòu)建了水沙通量的時間序列模型SARIMAX模型。
2.2 模型參數(shù)優(yōu)化與性能評估
為提高SARIMAX模型的預(yù)測性能,本文對時序模型SARIMAX中的參數(shù)p,d,q,s進行了優(yōu)化[11-12],通過網(wǎng)格搜索算法,對時序數(shù)據(jù)本身的滯后數(shù)p值和預(yù)測誤差的滯后值q進行了搜索優(yōu)化,最小的AIC值為780.24,對SARIMAX模型中的seasonal order參數(shù)網(wǎng)格搜索了最佳的季節(jié)性SARIMA的(p,d,q,s)值為(0,1,1,12),確定了分析該水沙通量的最佳的時間序列模型:SARIMAX(0,1,1,12)。所構(gòu)建的SARIMAX模型相關(guān)參數(shù)及模型的顯著性檢驗結(jié)果如表4、表5所示。
其中,權(quán)重列為每個變量的權(quán)重值;P>|z|列為對每個變量系數(shù)的檢驗。每個變量的P值均小于0.05,所以在0.05的顯著性水平下,模型中每個變量的系數(shù)通過顯著性檢驗。將模型SARIMAX(0,1,1,12)在驗證集上進一步驗證分析,發(fā)現(xiàn)模型的平均絕對百分比誤差(MAPE)降到17.4%,即準(zhǔn)確率達到了82.6%。所以此模型對水沙通量值的預(yù)測是可行并有效的。
為了進一步評估SARIMAX(0,1,1,12)模型的性能,本文在原始數(shù)據(jù)集中2016—2021年間的水沙通量對模型進行驗證性分析:首先以2016—2020年的水沙通量監(jiān)測數(shù)據(jù)訓(xùn)練模型,預(yù)測2021年12個月的水沙通量情況,然后,通過對2021年實際的水沙通量監(jiān)測數(shù)據(jù)和模型預(yù)測值進行比較分析如圖5所示;發(fā)現(xiàn)SARIMAX(0,1,1,12)模型的擬合優(yōu)度R2為0.89,此時的平均絕對百分比誤差(MAPE)降到18.12%得出,該模型對黃河水文站的水沙通量的預(yù)測具有較高的準(zhǔn)確性。
3 SARIMAX模型預(yù)測未來兩年的水沙通量
通過前面確定的最優(yōu)模型SARIMAX(0,1,1,12),本文以該水文站2016—2021年間水沙監(jiān)測數(shù)據(jù)作為訓(xùn)練集,對SARIMAX(0,1,1,12)模型進行訓(xùn)練,然后以該水文站2022—2024年未知的水沙通量作為預(yù)oGhNX/5Pa4DC8oq4wluNL0sG0hTnBOBPiFyOwKJRbGQ=測值,設(shè)置SARIMAX模型的預(yù)測位移量(steps)值為24,即對2022—2024年24個月內(nèi)的水沙通量數(shù)據(jù)進行預(yù)測,預(yù)測結(jié)果如圖6所示。
從圖5中2022—2024年兩年內(nèi)的水沙通量預(yù)測結(jié)果可以發(fā)現(xiàn),本文所構(gòu)建的SARIMAX(0,1,1,12)模型預(yù)測的水沙通量值均落在了置信區(qū)間[0.025,0.975]內(nèi),說明該預(yù)測結(jié)果是具有較高的可信度。綜上分析研究得出,該模型的預(yù)測值對優(yōu)化黃河流域水資源分配、協(xié)調(diào)人地關(guān)系、調(diào)水調(diào)沙、防洪減災(zāi)等方面都具有實質(zhì)的理論指導(dǎo)意義。
4 結(jié) 論
本文通過分析黃河某水文站2016—2021年間的水位、水流量與含沙量的實際監(jiān)測數(shù)據(jù),研究了該水文站水沙通量的變化規(guī)律及其周期特性;由此應(yīng)用了機器學(xué)習(xí)算法中的時間序列分析算法構(gòu)建了一種對黃河水文站的水沙通量變化的預(yù)測模型SARIMAX(0,1,1,12)。通過對該模型的參數(shù)優(yōu)化和顯著性檢驗分析,得出該模型對黃河水沙通量的變化趨勢的預(yù)測具有較高的準(zhǔn)確性,其預(yù)測結(jié)果可為黃河水文環(huán)境的保護和黃河水域“調(diào)沙調(diào)水”等工作提供準(zhǔn)確的參考依據(jù)。
參考文獻:
[1] 褚言皓,吳文娟,李鵬,等.黃河口懸浮泥沙時空動態(tài)及其驅(qū)動機制 [J].海洋學(xué)報,2022,44(6):150-163.
[2] 王俊杰,拾兵,巴彥斌.近70年黃河入海水沙通量演變特征 [J].水土保持研究,2020,27(3):57-62+69.
[3] 劉明,楊雅迪,畢乃雙,等.2015年調(diào)水調(diào)沙期間黃河懸浮顆粒Pb及其穩(wěn)定同位素組成變化 [J].中國環(huán)境科學(xué),2019,39(7):3009-3017.
[4] 全國大學(xué)生數(shù)學(xué)建模競賽組委會.2023全國大學(xué)生數(shù)學(xué)建模E題[EB/OL].[2023-09-26].https://www.mcm.edu.cn.
[5] 魏光瓊.級相關(guān)在綜合評估法評標(biāo)中的應(yīng)用 [J].工程建設(shè)與設(shè)計,2014(9):156-160.
[6] 肖曉華,胡依,李貝.基于多元線性回歸的高校大學(xué)生專業(yè)認(rèn)同現(xiàn)狀及影響因素研究[J].中國高等醫(yī)學(xué)教育,2020(3):26-27.
[7] 彭維湘.時間序列中DF單位根檢驗存在的問題及方法改進 [J].統(tǒng)計與決策,2022,38(21):53-56.
[8] 宋長鳴,徐娟,項朝陽.基于時間序列分解視角的蔬菜價格波動原因探析 [J].統(tǒng)計與決策,2014(3):106-108.
[9] 蔣水華,李典慶,周創(chuàng)兵,等.考慮自相關(guān)函數(shù)影響的邊坡可靠度分析 [J].巖土工程學(xué)報,2014,36(3):508-518.
[10] 周鑫,李燕,曾永輝,等.基于SARIMAX-SVR的光伏發(fā)電功率預(yù)測 [J].電力系統(tǒng)及其自動化學(xué)報,2024,36(5):1-8.
[11] 李國棟,周揚,李凱.基于SARIMAX-XGBoost模型的區(qū)域能耗預(yù)測 [J].電力信息與通信技術(shù),2022,20(3):26-33.
[12] 鄒銀先,褚學(xué)偉,段先前,等.不同時間序列模型在巖溶山區(qū)礦井涌水量預(yù)測中的應(yīng)用 [J].中國巖溶,2023,42(6):1237-1246.
作者簡介:李長生(1990.08—),男,漢族,甘肅武威人,講師,碩士,研究方向:數(shù)據(jù)挖掘、數(shù)據(jù)可視化。