王志良 黃珊 陳海濤
摘 要:水文數(shù)據(jù)的完整性是水文水資源與水環(huán)境計(jì)算的重要基礎(chǔ),水文觀測(cè)缺失數(shù)據(jù)的插補(bǔ)是水文數(shù)據(jù)整編的一個(gè)重要環(huán)節(jié)。為更好地解決水文觀測(cè)數(shù)據(jù)中斷、缺失問題,以黃河流域黑石關(guān)水文站流量觀測(cè)數(shù)據(jù)為例,對(duì)4種不同的時(shí)間序列插補(bǔ)方法(樣條插值法、Stineman內(nèi)插法、加權(quán)滑動(dòng)平均值法、卡爾曼濾波和狀態(tài)空間模型法)進(jìn)行比較分析,并通過3項(xiàng)評(píng)估指標(biāo)(平均絕對(duì)誤差、均方根誤差和平均百分比誤差)比較插值效果的優(yōu)劣。結(jié)果表明:加權(quán)滑動(dòng)平均值法可較好地實(shí)現(xiàn)黑石關(guān)水文站流量缺失數(shù)據(jù)的插補(bǔ),為后續(xù)黃河流域生態(tài)保護(hù)提供可靠的基礎(chǔ)數(shù)據(jù)。
關(guān)鍵詞:水文觀測(cè)數(shù)據(jù);缺失數(shù)據(jù);插補(bǔ)方法;時(shí)間序列;黃河
中圖分類號(hào):P333.6;TV882.1 ? 文獻(xiàn)標(biāo)志碼:A
doi:10.3969/j.issn.1000-1379.2020.07.004
Abstract:Ensuring the integrity of hydrological data is an important basis for the calculation of hydrological water resources and water environment. The interpolation of missing data in hydrological observations is an important part of the compilation of hydrological data. In order to better solve the problem of hydrological observation data interruption and missing, this paper used four different time series interpolation methods, which were spline interpolation, Stineman interpolation, weighted moving average method, Kalman filter and state model method for analysis and comparison and put forward the comparison of the performance of the interpolation effect through three evaluation indicators of average absolute error (MAE), root mean square error (RMSE) and average percentage error (MAPE) by taking the discharge data of Heishiguan Hydrological Station in the Yellow River basin as an example. The results show that the weighted moving average method can well implement the interpolation of missing data at the Heishiguan Hydrological Station, which provides reliable basic data support for subsequent ecological protection in the Yellow River basin.
Key words: hydrological observations; missing data; imputation method; time series; Yellow River
1 引 言
黨的十八大以來,習(xí)近平總書記多次實(shí)地考察黃河流域生態(tài)保護(hù)和發(fā)展情況,就重點(diǎn)區(qū)域生態(tài)保護(hù)建設(shè)提出要求,將黃河流域生態(tài)保護(hù)和高質(zhì)量發(fā)展上升為重大國(guó)家戰(zhàn)略,意義深遠(yuǎn)。由于黃河復(fù)雜難治,黃河流域生態(tài)保護(hù)和高質(zhì)量發(fā)展重大國(guó)家戰(zhàn)略的實(shí)施涉及多學(xué)科的理論基礎(chǔ)和重大科技問題,有些理論和技術(shù)難題需要進(jìn)一步攻克,有些需要綜合集成研究,有些需要多學(xué)科交叉融合[1],因此黃河數(shù)據(jù)的公開與完整性對(duì)進(jìn)一步研究黃河流域生態(tài)保護(hù)和高質(zhì)量發(fā)展的理論基礎(chǔ)和重大科技問題具有重要意義。水利部黃河水利委員會(huì)積極響應(yīng)習(xí)近平總書記的號(hào)召,在黃河網(wǎng)上公開了近18 a的水情信息,為全社會(huì)多學(xué)科研究黃河提供了數(shù)據(jù)基礎(chǔ)。但研究中發(fā)現(xiàn)數(shù)據(jù)有缺失的情況,這些缺失的數(shù)據(jù)理應(yīng)是水文觀測(cè)數(shù)據(jù)的重要組成部分,導(dǎo)致數(shù)據(jù)缺失的原因各種各樣,比如監(jiān)測(cè)器的波動(dòng)和錯(cuò)誤、斷電、計(jì)算機(jī)系統(tǒng)崩潰以及人為因素等。
從統(tǒng)計(jì)分析的角度看,數(shù)據(jù)缺失是測(cè)量誤差的一種形式,這種誤差使樣本量變少,可能導(dǎo)致樣本偏差或嚴(yán)重失真,從而使基于這些數(shù)據(jù)的分析結(jié)果產(chǎn)生偏差。目前,針對(duì)這個(gè)問題已有一些研究成果,合適的處理方法取決于缺失數(shù)據(jù)的模式與機(jī)制。概括地說,用于構(gòu)建完整數(shù)據(jù)的方法可分為兩大類:?jiǎn)我徊逖a(bǔ)方法和多重插補(bǔ)方法[2]。單一插補(bǔ)方法的主要優(yōu)點(diǎn)是可以直接應(yīng)用完整數(shù)據(jù)方法的標(biāo)準(zhǔn),創(chuàng)建插補(bǔ)所需的大量工作僅需執(zhí)行一次[3],比如張志萍等[4]采用“系列化處理”方法對(duì)大理河流域降水資料進(jìn)行了插補(bǔ)展延;劉平等[5]在解決沿海潮位實(shí)測(cè)資料中低潮位缺失的問題時(shí),采用了具有完整潮位過程的臨近站點(diǎn)資料對(duì)潮位缺失測(cè)站點(diǎn)進(jìn)行潮位插補(bǔ);Arroyo等[6]運(yùn)用多元回歸技術(shù)和人工神經(jīng)網(wǎng)絡(luò)模型,通過空氣質(zhì)量信息包含的其他5個(gè)污染物變量估算出缺少的臭氧值;姜光輝等[7]用非線性模型插補(bǔ)水文資料;Nur等[8]根據(jù)評(píng)估指標(biāo),選擇“自上而下平均”的方法作為填補(bǔ)空氣污染物數(shù)據(jù)中缺失值的估算方法;杜蓓蓓等[9]基于《水文資料整編規(guī)范》(SL 247—2012)[10]選用改進(jìn)的相關(guān)插補(bǔ)法構(gòu)建了潮位插補(bǔ)數(shù)學(xué)模型,提高了水文數(shù)據(jù)整編的時(shí)效性。以上研究多采用單一方法進(jìn)行缺失數(shù)據(jù)插補(bǔ),缺少多種方法的對(duì)比。針對(duì)這一問題,從統(tǒng)計(jì)學(xué)角度出發(fā),以黑石關(guān)水文站流量觀測(cè)數(shù)據(jù)為例,選取4種水文數(shù)據(jù)時(shí)間序列插補(bǔ)方法,通過3項(xiàng)評(píng)估指標(biāo)進(jìn)行對(duì)比分析。
3 應(yīng)用實(shí)例
3.1 數(shù)據(jù)來源
伊洛河是黃河三門峽以下最大支流,干流總長(zhǎng)712 km,流域面積1.89萬km2。伊洛河黑石關(guān)水文站建于1934年7月,位于河南省鞏義市,集水面積1.86萬km2[15]。數(shù)據(jù)采用水利部黃河水利委員會(huì)官網(wǎng)中提供的2002—2018年黑石關(guān)水文站每天的流量數(shù)據(jù)。
3.2 數(shù)據(jù)分析與處理
流量數(shù)據(jù)共有6 209個(gè)值,其中398個(gè)缺失值,數(shù)據(jù)缺失率為6.41%。黑石關(guān)流量概況如圖1所示。由圖1可知,數(shù)據(jù)在2005年中旬至2006年年初有較長(zhǎng)時(shí)間的連續(xù)中斷,最長(zhǎng)連續(xù)缺失長(zhǎng)度為362個(gè)值;流量在5月至10月較大,11月至4月相對(duì)較小;在2002—2018年的17 a中,2003年、2010年與2011年的日流量相對(duì)較大。
由表1數(shù)據(jù)概況中流量數(shù)據(jù)的四分位距、標(biāo)準(zhǔn)偏差、變異系數(shù)、偏度、峰度和圖1(c)、(f)可知,數(shù)據(jù)較為分散且不對(duì)稱,最大值和最小值兩極分化嚴(yán)重,數(shù)據(jù)分布嚴(yán)重偏斜。
3.3 插補(bǔ)效果比較
為了對(duì)比4種缺失數(shù)據(jù)插補(bǔ)方法的效果,對(duì)插補(bǔ)后的完整數(shù)據(jù)集使用軟件隨機(jī)生成缺失值,使其生成帶有部分缺失數(shù)據(jù)的非完整數(shù)據(jù)。插補(bǔ)后數(shù)據(jù)與原始數(shù)據(jù)對(duì)比,通過計(jì)算MAE、RMSE、MAPE判斷插補(bǔ)效果,結(jié)果見表3。4種插補(bǔ)方法均有良好的插補(bǔ)效果,其中樣條插值法與其他3種插補(bǔ)方法相比誤差值相對(duì)較大,MAE超過了1,而Stineman內(nèi)插法、加權(quán)滑動(dòng)平均值法和卡爾曼濾波與狀態(tài)空間模型法的MAE均小于1;Stineman內(nèi)插法、加權(quán)滑動(dòng)平均值法和卡爾曼濾波和狀態(tài)空間模型法的插補(bǔ)效果差別很小,加權(quán)滑動(dòng)平均值法在3項(xiàng)性能指標(biāo)的表現(xiàn)都稍好于Stineman內(nèi)插法和卡爾曼濾波和狀態(tài)空間模型法。
圖3顯示了4種不同插值方法的時(shí)序圖,可以看出插補(bǔ)后的數(shù)據(jù)不再含有缺失值,4種插值方法中,樣條插值法和Stineman內(nèi)插法的波動(dòng)性較大,在Stineman內(nèi)插法的插值中甚至出現(xiàn)了負(fù)值。加權(quán)滑動(dòng)平均值法和卡爾曼濾波和狀態(tài)空間模型法的插補(bǔ)均良好地表現(xiàn)了數(shù)據(jù)的平緩趨勢(shì),兩者插補(bǔ)效果相近,從表3中可以看到,加權(quán)滑動(dòng)平均值法插補(bǔ)效果略優(yōu)于卡爾曼濾波和狀態(tài)空間模型法。
4 結(jié) 語
以黃河流域伊洛河水系黑石關(guān)水文站的流量數(shù)據(jù)為例,對(duì)比了4種時(shí)間序列缺失數(shù)據(jù)插補(bǔ)方法的效果,得出加權(quán)滑動(dòng)平均值法對(duì)流量數(shù)據(jù)插補(bǔ)效果最優(yōu),平均百分比誤差小于0.3,均方誤差為1.1左右。數(shù)據(jù)插補(bǔ)為后期水文水資源信息化建設(shè)、提高水資源管理調(diào)配效率以及建模預(yù)測(cè)提供了良好的數(shù)據(jù)基礎(chǔ)。
缺失數(shù)據(jù)插補(bǔ)在水文學(xué)和環(huán)境學(xué)中都是一個(gè)非常有價(jià)值的研究課題,本文對(duì)很多問題還沒有進(jìn)行更加深入的研究,例如非隨機(jī)確實(shí)機(jī)制下的缺失數(shù)據(jù)處理問題和多變量多因素缺失數(shù)據(jù)插補(bǔ)問題等。
參考文獻(xiàn):
[1] 左其亭.黃河流域生態(tài)保護(hù)和高質(zhì)量發(fā)展研究框架[J].人民黃河,2019,41(11):1-6,16.
[2] BONDI A, PLAIA A. Single Imputation Method of Missing Values in Environmental Pollution Data Sets [J]. AtmEn, 2006, 40(38): 7316-7330.
[3] LITTLE R, RUBIN D. Statistical Analysis with Missing Data, second ed.[M]Hoboken, NJ.: Wiley Interscience, 1987:10-17.
[4] 張志萍,冉大川,慕志龍.大理河流域降水資料插補(bǔ)方法探討[J].人民黃河,2006,28(12):26-27,78.
[5] 劉平,劉美華,吳海軍.南通沿海潮位資料插值方法研究[J].水資源開發(fā)與管理,2016,5(1):68-72.
[6] ARROYO A, HERRERO A, TRICIO V, et al. Neural Models for Imputation of Missing Ozone Data in Air-Quality Datasets[J]. Complexity, 2018(3):1-14.
[7] 姜光輝, 胡興林. 用非線性模型插補(bǔ)延長(zhǎng)水文資料的方法探討:以東大河沙溝寺水文站為例[C]//中國(guó)水利學(xué)會(huì)2006學(xué)術(shù)年會(huì)暨2006年水文學(xué)術(shù)研討會(huì)論文集.北京:中國(guó)水利學(xué)會(huì),2006:333-337.
[8] NUR A Z, NORAZIAN M N. Imputation Methods for Filling Missing Data in Urban Air Pollution Data for Malaysia[J]. Urbanism, Arhitectur. Construc
瘙 塅 ii,2018,9(2):159-166.
[9] 杜蓓蓓,王穎,許潔.水文資料自動(dòng)整編中潮位插補(bǔ)方式研究[J].中國(guó)防汛抗旱,2019,29(2):40-44.
[10] 中華人民共和國(guó)水利部.水文資料整編規(guī)范:SL 247—2012[S].北京:中國(guó)水利水電出版社,2012:24-39.
[11] VILLIERS J. Mathematics of Approximation[M]. Paris: Atlantis Press, 2012:33-57.
[12] STINEMANMAN R W. A Consistently Well Behaved Method of Interpolation[J]. Creative Computing, 1980,6(7):54-57.
[13] DEMIRHAN H, RENWICK Z. Missing Value Imputation for Short to Mid-Term Horizontal Solar Irradiance Data[J]. Applied Energy, 2018, 225(9):998-1012.
[14] FUNG D S. Methods for the Estimation of Missing Values in Time Series[J].Theses Doctorates & Masters,2016(5):27-30.
[15] 陳少冰,孫雪嵐,董照,等.伊洛河入?yún)R對(duì)黃河下游水沙關(guān)系的影響分析[J].中國(guó)農(nóng)村水利水電,2017(6):58-64.
【責(zé)任編輯 張 帥】