孫杰 岳寧 冉涂平
DOI:10.19850/j.cnki.2096-4706.2024.01.034
收稿日期:2023-06-20
摘? 要:為準(zhǔn)確呈現(xiàn)水消耗的變化趨勢(shì)以及預(yù)測(cè)未來(lái)的用水需求,提出一種基于DWT-Informer模型的用水量預(yù)測(cè)方法。與傳統(tǒng)方法相比,該預(yù)測(cè)方法具有以下優(yōu)勢(shì):1)對(duì)歷史用水量數(shù)據(jù)進(jìn)行DWT分解,可以更好地捕捉用水量信號(hào)的不同頻率成分和變化趨勢(shì);2)Informer模型具有更強(qiáng)的時(shí)間序列建模能力和預(yù)測(cè)能力,可以更準(zhǔn)確地預(yù)測(cè)未來(lái)日用水量;3)采用多頭注意力機(jī)制構(gòu)建輸入與輸出的全局關(guān)系,有利于提升參數(shù)水平。通過(guò)實(shí)際日用水量數(shù)據(jù)進(jìn)行算例分析,分析結(jié)果表明,相較于其他常用預(yù)測(cè)方法,該文提出的方法在MAE、RMSE、MAPE等指標(biāo)上均表現(xiàn)優(yōu)異。
關(guān)鍵詞:用水量;DWT分解;多頭注意力;DWT-Informer模型
中圖分類(lèi)號(hào):TP391;TV312? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ? 文章編號(hào):2096-4706(2024)01-0160-05
Research on Water Consumption Prediction Based on DWT-Informer Model
SUN Jie, YUE Ning, RAN Tuping
(School of Intelligent Technology and Engineering, Chongqing University of Science & Technology, Chongqing? 401331, China)
Abstract: To accurately present the trend of water consumption changes and predict future water demand, a water consumption prediction method based on the DWT-Informer model is proposed. Compared with traditional methods, this prediction method has the following advantages: 1) DWT decomposition of historical water consumption data can better capture the different frequency components and changing trends of water consumption signals; 2) The Informer model has stronger time series modeling and prediction capabilities, which can more accurately predict future daily water consumption; 3) Using a multi-headed attention mechanism to construct a global relationship between input and output is beneficial for improving parameter levels. Example analysis is conducted based on actual daily water consumption data, the results show that compared to other commonly used prediction methods, the method proposed in this paper performs excellently in MAE, RMSE, MAPE and other indicators.
Keywords: water consumption; DWT decomposition; multi-headed attention; DWT-Informer model
0? 引? 言
近年來(lái),隨著我國(guó)經(jīng)濟(jì)的快速發(fā)展和人口數(shù)量的持續(xù)上升,如何更有效地節(jié)約資源、保護(hù)環(huán)境、降低能耗成為社會(huì)關(guān)注的重要話題。水作為生命必需物質(zhì)之一,水資源的缺乏直接影響人們的日常生活,也將對(duì)社會(huì)的可持續(xù)發(fā)展產(chǎn)生威脅。因此,找到提高供水預(yù)測(cè)精度的方法對(duì)于解決未來(lái)城市水資源供需矛盾至關(guān)重要。
現(xiàn)有傳統(tǒng)預(yù)測(cè)方法有時(shí)間序列法和人工神經(jīng)網(wǎng)絡(luò)分析法。時(shí)間序列法要求歷史數(shù)據(jù)具有較強(qiáng)的周期性與規(guī)律性。人工神經(jīng)網(wǎng)絡(luò)分析法能夠更好地處理具有復(fù)雜非線性關(guān)系的數(shù)據(jù),具有較好的靈活性和魯棒性。
然而,關(guān)于用水量預(yù)測(cè)的研究還存在一些問(wèn)題。首先,在遞歸神經(jīng)網(wǎng)絡(luò)(RNNs)中,后續(xù)時(shí)間步的預(yù)測(cè)需要等待前面時(shí)間步的計(jì)算完成,無(wú)法實(shí)現(xiàn)并行計(jì)算。這種限制在進(jìn)行反向傳播時(shí)也會(huì)導(dǎo)致梯度計(jì)算異常,可能會(huì)出現(xiàn)梯度消失或爆炸的情況。其次,在用水量預(yù)測(cè)中,數(shù)據(jù)往往會(huì)呈現(xiàn)季節(jié)性和周期性的變化,而傳統(tǒng)的RNNs無(wú)法很好地處理這種情況。為了克服這些問(wèn)題,研究人員提出許多改進(jìn)的模型。Seo采用VMD對(duì)歷史用水?dāng)?shù)據(jù)進(jìn)行分解,得到多個(gè)局部頻率模態(tài)后通過(guò)ELM進(jìn)行訓(xùn)練預(yù)測(cè),進(jìn)而得到最終預(yù)測(cè)結(jié)果。梁現(xiàn)斌提出一種基于SSA-Conv LSTM-LSTM混合模型,該模型融合了空間、時(shí)間和特征注意力機(jī)制,用于校園短期需水預(yù)測(cè),具有較好的泛化性,可提高預(yù)測(cè)的準(zhǔn)確性。運(yùn)用注意力機(jī)制,模型可以更好地捕捉到序列中的重要信息,減少不相關(guān)信息的影響。另外,當(dāng)前用水量預(yù)測(cè)研究還存在一些挑戰(zhàn)。通常,實(shí)際應(yīng)用中的用水量數(shù)據(jù)具有高維度、非線性和動(dòng)態(tài)性等特征,這對(duì)模型的設(shè)計(jì)和優(yōu)化提出了更高的要求。
在此背景下,本文提出一種基于DWT-Informer的預(yù)測(cè)方法,旨在提高長(zhǎng)序列預(yù)測(cè)的精度。建模之前首先基于Person相關(guān)系數(shù)和Copula非線性分析等手段分析數(shù)據(jù)特征,然后采用DWT技術(shù)提取用水趨勢(shì)和細(xì)節(jié)信號(hào),最后通過(guò)Infomer模型充分捕獲空間和時(shí)間依賴(lài)性,挖掘與特征序列之間的時(shí)序關(guān)系,從而實(shí)現(xiàn)用水量的預(yù)測(cè)。這種方法能夠提高長(zhǎng)序列預(yù)測(cè)的準(zhǔn)確性,具有廣泛的應(yīng)用前景。
1? 實(shí)驗(yàn)數(shù)據(jù)
1.1? 數(shù)據(jù)選取
根據(jù)文獻(xiàn)研究可知,水質(zhì)和氣候是兩個(gè)可能對(duì)用水量變化產(chǎn)生重要影響的因素。李賢雅等研究發(fā)現(xiàn)城市水生態(tài)系統(tǒng)與水質(zhì)存在一定的關(guān)聯(lián)性,而針對(duì)氣候變化對(duì)農(nóng)業(yè)用水的影響分析,謝詩(shī)猛等采用AquaCrop模型分析結(jié)果表明,氣候變化對(duì)用水量具具有較為顯著的影響。此外,丁浩探究了氣象因素對(duì)灌區(qū)農(nóng)業(yè)需水的影響發(fā)現(xiàn),風(fēng)速、相對(duì)濕度、日照等因素均會(huì)對(duì)市民的用水量產(chǎn)生影響。綜上所述,我們將擬采用的特征因子分為兩類(lèi):水質(zhì)數(shù)據(jù)(pH 酸堿度、水硬度、濁度)和氣象數(shù)據(jù)(露點(diǎn)溫度、濕度、風(fēng)速、氣壓、日照)。
根據(jù)以上分析,收集Kaggle公開(kāi)數(shù)據(jù)集WaterQuality、DailyClimateTimeSeries上的數(shù)據(jù),結(jié)合重慶市沙坪壩區(qū)某小區(qū)10棟居民樓2013年1月1日至2017年1月1日的逐日用水?dāng)?shù)據(jù),共1 462組,數(shù)據(jù)采集頻率為1天1次,部分缺失數(shù)據(jù)采用雙線性插值進(jìn)行填補(bǔ)。本次研究針對(duì)該小區(qū)10棟居民樓所有單元日用水進(jìn)行分析建模。
1.2? 數(shù)據(jù)分析
如圖1所示,通過(guò)對(duì)日用水趨勢(shì)進(jìn)行分析可知,日用水量變化具有周期性,大致表現(xiàn)為“春冬低、夏秋高”的規(guī)律,這種現(xiàn)象表明,在不同的季節(jié)和環(huán)境下,人們對(duì)水資源的需求量存在差異。本文將從線性相關(guān)和非線性相關(guān)兩個(gè)角度分析各因素對(duì)用水量的影響機(jī)理,采用Pearson相關(guān)系數(shù)分析法和基于Copula理論的相關(guān)分析法來(lái)研究各因素與用水量之間的關(guān)系。
對(duì)日用水量與特征因子之間的相關(guān)性進(jìn)行驗(yàn)證分析,計(jì)算皮爾遜系數(shù),由此可見(jiàn)日用水量與濕度、風(fēng)速、pH酸堿度、水硬度呈負(fù)相關(guān),與平均壓力、日照、濁度、露點(diǎn)溫度呈正相關(guān),此外,用水量數(shù)據(jù)與濕度、平均壓力、日照的相關(guān)系數(shù)絕對(duì)值均大于0.2,說(shuō)明用水量數(shù)據(jù)與氣象數(shù)據(jù)存在線性關(guān)系,如表1所示。
另外,Pearson相關(guān)系數(shù)分析方法關(guān)注的是變量之間的線性相關(guān)性,不能描述變量之間的非線性相關(guān)性。Copula理論作為一種新興的相關(guān)性分析方法,能夠準(zhǔn)確捕捉變量之間的非線性特征。為此,采用新興的相關(guān)性分析方法Copula理論結(jié)合秩相關(guān)系數(shù)對(duì)用水量與特征因子進(jìn)行相關(guān)性分析。
根據(jù)Copula理論采用Kendall tau、Spearman rho導(dǎo)出相關(guān)性分析結(jié)果,發(fā)現(xiàn)用水量數(shù)據(jù)與氣象因子(濕度、風(fēng)速、平均壓力、露點(diǎn)溫度)的絕對(duì)值均大于0.2,表明用水量數(shù)據(jù)與其存在非線性關(guān)系,結(jié)合Person相關(guān)系數(shù)的分析表明,用水量數(shù)據(jù)與氣候數(shù)據(jù)同時(shí)存在線性與非線性關(guān)系。由于氣象數(shù)據(jù)和水質(zhì)數(shù)據(jù)與用水量的相關(guān)性?xún)H在0.2左右,在此研究中僅作為模型輸入?yún)?shù)的輔助,如表2所示。
1.3? 數(shù)據(jù)預(yù)處理
在模型訓(xùn)練之前,需要先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,包括缺失值處理、異常值處理以及數(shù)據(jù)集劃分。首先針對(duì)樣本數(shù)據(jù)的缺失值采用雙線性插值進(jìn)行填補(bǔ)后,使用箱線圖4分位分析各個(gè)特征因子的異常值,將異常值置空后,采用線性插值填補(bǔ),得到最終的樣本數(shù)據(jù)。再將樣本數(shù)據(jù)按照8:1:1的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。
2? 實(shí)驗(yàn)原理與方法
2.1? 離散小波DWT理論
離散小波變換(DWT)是廣泛應(yīng)用的小波變換(WT)的離散版本。它通過(guò)串行數(shù)字濾波器計(jì)算信號(hào)系數(shù),降低了連續(xù)小波變換的計(jì)算成本。濾波器組由高通濾波器(HP)和低通濾波器(LP)組成,通過(guò)對(duì)信號(hào)進(jìn)行平移與伸縮實(shí)現(xiàn)多尺度細(xì)化,捕捉各頻率段的信息,適用于非穩(wěn)定信號(hào)分析,計(jì)算式如下:
(1)
(2)
其中,S表示輸入信號(hào),αg和αh分別表示低通濾波器和高通濾波器,H和L表示濾波器輸出結(jié)果。高通濾波器的輸出結(jié)果包含輸入信號(hào)的細(xì)節(jié)系數(shù)(D),低通濾波器的輸出為近似系數(shù)(A),通過(guò)濾波器的信號(hào)下采樣2提高頻率分辨率。
2.2? Informer算法設(shè)計(jì)
2021年,美國(guó)人工智能協(xié)會(huì)提出的Informer模型為長(zhǎng)時(shí)間序列預(yù)測(cè)提供了解決方案,是一種基于Transformer的改進(jìn)算法。該算法提出一種概率稀疏自注意力機(jī)制、自注意蒸餾,以及帶掩碼的解碼器,在計(jì)算復(fù)雜度和時(shí)間復(fù)雜度方面得到了有效的提升。
2.2.1? Informer模型的輸入輸出
t時(shí)刻的Informer模型輸入為xt = {x1t,x2t,…,x9t},包括氣候數(shù)據(jù)、水質(zhì)數(shù)據(jù)、獨(dú)熱編碼后的周末數(shù)據(jù)以及日用水量數(shù)據(jù)。模型輸出為DWT分解后的序列信號(hào)X t = {K1t,K2t,…,K6t}。
2.2.2? Encoder-Decoder結(jié)構(gòu)
編碼器Encoder的目的是解決計(jì)算復(fù)雜度高的問(wèn)題,Informer編碼器針對(duì)輸入序列使用概率稀疏自注意力機(jī)制,其計(jì)算流程可以由式(3)表示:
(3)
其中,Q、K和V分別表示輸入特征變量經(jīng)過(guò)線性變換得到的三個(gè)大小相同的矩陣,T表示矩陣轉(zhuǎn)置,d表示輸入的維度。在這個(gè)模型中使用Softmax作為激活函數(shù),它可以將一個(gè)數(shù)值向量轉(zhuǎn)化為一個(gè)概率分布向量,使得每個(gè)元素都在0和1之間,并且所有元素之和等于1。采用自注意力蒸餾操作,使用一維卷積和最大池化減少冗余特征,修剪輸入序列維度。蒸餾操作從第j層至第j+1層如式(4)所示:
(4)
其中,[AB]表示注意力塊及其他必要操作;Conv1d使用ELU激活函數(shù)執(zhí)行一維卷積濾波;該機(jī)制下每層編碼器輸入時(shí)間序列長(zhǎng)度減半,減少內(nèi)存占用,提升計(jì)算速度。
解碼器Decoder的目的是預(yù)測(cè)長(zhǎng)序列的輸出,為避免預(yù)測(cè)過(guò)程中的過(guò)擬合現(xiàn)象,采用默認(rèn)為0多頭注意力機(jī)制,使用生成式預(yù)測(cè)直接預(yù)測(cè)多步預(yù)測(cè)結(jié)果,其解碼器輸入格式如式(5)所示:
(5)
其中,Xtoken表示開(kāi)始字符,X0表示占位符,Concat表示將Xtoken與X0合并連接。
最后,通過(guò)1個(gè)全連接層獲取最終的信號(hào)分解后各頻段的預(yù)測(cè)值,進(jìn)行求和重構(gòu)得到最終的日用水量預(yù)測(cè)結(jié)果。
3? 基于DWT-Informer算法的水量預(yù)測(cè)模型
針對(duì)日用水量數(shù)據(jù),使用DWT降低原始特征序列的復(fù)雜度,多尺度分解出不同頻段的特征,發(fā)揮不同算法的優(yōu)勢(shì),以更加完整地凸顯波動(dòng)趨勢(shì),加入水質(zhì)數(shù)據(jù)、氣候數(shù)據(jù)作為特征因子后使用Informer捕捉長(zhǎng)序列的變化規(guī)律,預(yù)測(cè)窗口長(zhǎng)度選擇24,即每次輸入24天的用水序列矩陣,預(yù)測(cè)未來(lái)日用水量。本文設(shè)計(jì)了基于WD-Informer算法的用水量組合預(yù)測(cè)模型,具體步驟如下:
1)收集歷史用水量數(shù)據(jù)及外部影響因子(采集頻率為1天1次),并對(duì)它們進(jìn)行預(yù)處理,針對(duì)缺失的數(shù)據(jù),取前后兩個(gè)數(shù)據(jù)的平均值進(jìn)行填補(bǔ),周末情況數(shù)據(jù)使用獨(dú)熱編碼(1表示工作日,0表示周末),最終得到數(shù)據(jù)樣本。
2)對(duì)日用水量數(shù)據(jù)進(jìn)行DWT分解,采用DB6小波基函數(shù)對(duì)數(shù)據(jù)進(jìn)行5層離散小波分解得到數(shù)個(gè)趨勢(shì)分量和細(xì)節(jié)分量,原始信號(hào)x可以通過(guò)各分量的信號(hào)累加得到,計(jì)算式為:
(6)
其中,a5表示最低尺度的近似系數(shù),di表示第i層的高頻系數(shù),二者相加得到原始信號(hào)x。
3)將與氣候數(shù)據(jù)、水質(zhì)數(shù)據(jù)、日用水量數(shù)據(jù)整合后得到的特征因子作為模型輸入,將2)中分解后得到的日用水量數(shù)據(jù)作為模型標(biāo)簽。每次訓(xùn)練的預(yù)測(cè)結(jié)果為K1,K2,…,Ki。
4)調(diào)整Informer中的超參數(shù),進(jìn)行訓(xùn)練,建立模型。
5)對(duì)3)中的預(yù)測(cè)結(jié)果求和重構(gòu),得到日用水量的最終預(yù)測(cè)結(jié)果X:
(7)
4? 算例分析
4.1? 評(píng)價(jià)指標(biāo)
本文主要采用三個(gè)指標(biāo)(分別為MAE、RMSE、MAPE)來(lái)評(píng)價(jià)模型的性能,三個(gè)指標(biāo)的計(jì)算式為:
(8)
其中,WMAE表示日用水量數(shù)據(jù)的平均絕對(duì)誤差,WRMSE表示均方根誤差,WMAPE表示平均絕對(duì)百分比誤差,N表示測(cè)試樣本的數(shù)量,ytrue表示日用水量數(shù)據(jù)的真實(shí)值,ypred表示求和重構(gòu)后的日用水量預(yù)測(cè)值。
4.2? 對(duì)比實(shí)驗(yàn)
從超參數(shù)敏感性分析、預(yù)測(cè)性能結(jié)果分析兩個(gè)方面進(jìn)行對(duì)比實(shí)驗(yàn)。
4.2.1? 超參數(shù)敏感性分析
Informer模型的encoder輸入長(zhǎng)度和decoder先驗(yàn)序列長(zhǎng)度對(duì)模型性能有影響。較長(zhǎng)的序列可以更好地捕捉時(shí)間序列的依賴(lài)關(guān)系和周期性趨勢(shì),但可能會(huì)增加計(jì)算成本并導(dǎo)致過(guò)擬合現(xiàn)象。在設(shè)計(jì)模型時(shí),需要根據(jù)任務(wù)和數(shù)據(jù)特征選擇適當(dāng)?shù)拈L(zhǎng)度。由表3可以看出,encoder輸入序列長(zhǎng)度為24、decoder先驗(yàn)長(zhǎng)度為12時(shí),各評(píng)價(jià)指標(biāo)均最小。Informer的其他超參數(shù)設(shè)定如表4所示。
4.2.2? 預(yù)測(cè)性能結(jié)果分析
加入GRU、BIGRU深度學(xué)習(xí)網(wǎng)絡(luò),對(duì)未來(lái)1天該棟日用水量預(yù)測(cè)結(jié)果如圖2所示。可以看出:Informer相比于其他模型,預(yù)測(cè)值可以很好地貼合真實(shí)值,有效捕捉日用水量的突變。從表5中各模型數(shù)值可以看出,Informer模型相較于其他模型,MAE、RMSE、MAPE的值均有所減小,表明本文模型運(yùn)算效率較高,預(yù)測(cè)值與真實(shí)值之間的誤差較小,離散程度較小,預(yù)測(cè)效果更好。同時(shí)表明合理選擇輸入序列長(zhǎng)度和decoder先驗(yàn)長(zhǎng)度可以顯著提高日用水量預(yù)測(cè)效果。
三種模型對(duì)未來(lái)14天(2016年12月17日—30日)日用水量預(yù)測(cè)結(jié)果如圖3(a)所示,相較預(yù)測(cè)一天的預(yù)測(cè)較差點(diǎn),均出現(xiàn)不同程度的偏差,但I(xiàn)nformer仍?xún)?yōu)于GRU和BIGRU,說(shuō)明Informer在長(zhǎng)序列預(yù)測(cè)上的效果更佳。
5? 結(jié)? 論
本文通過(guò)DWT分解和Informer模型對(duì)小區(qū)10棟居民樓日用水量進(jìn)行分析,經(jīng)多次驗(yàn)證,得出以下結(jié)論:
1)將歷史一維日用水量數(shù)據(jù)進(jìn)行DB6,5層小波分解轉(zhuǎn)換為高維數(shù)據(jù),可以更好地表征用水特點(diǎn)及趨勢(shì),降低高頻信號(hào)的波動(dòng)率及隨機(jī)性,提升模型的預(yù)測(cè)效果。
2)本文提出使用DWT分解用水量數(shù)據(jù)結(jié)合采用多頭注意力機(jī)制的Informer模型,構(gòu)建輸入與輸出的全局關(guān)系,提升參數(shù)特征水平,最大限度提升預(yù)測(cè)性能和擬合效果。
3)本文針對(duì)未來(lái)不同天數(shù)進(jìn)行預(yù)測(cè),結(jié)果表明Informer在長(zhǎng)跨度預(yù)測(cè)上的預(yù)測(cè)性能更優(yōu),可行性較高。
本文提出的DWT-Informer日用水量預(yù)測(cè)能夠預(yù)測(cè)未來(lái)的用水情況,可用于水資源調(diào)度以節(jié)省成本,此外還可以考慮將該模型應(yīng)用于其他水資源管理任務(wù)(如水質(zhì)預(yù)測(cè)或水位預(yù)測(cè)等),據(jù)以提高水資源管理的精準(zhǔn)度和可靠性。
參考文獻(xiàn):
[1] SEO Y,KWON S,CHOI Y. Short-term water demand forecasting model combining variational mode decomposition and extreme learning machine [J].Hydrology,2018,5(4):54.
[2] LI Y G,YANG W X,SHEN X J,et al. Water environment management and performance evaluation in central China: A research based on comprehensive evaluation system [J].Water,2019,11(12):2472.
[3] 李賢雅,陶佳音,李非凡,等.基于PSR模型的城市水生態(tài)韌性評(píng)價(jià)——以武漢市為例 [C]//2022/2023中國(guó)城市規(guī)劃年會(huì).武漢:[出版者不詳],2023:1-15.
[4] 謝詩(shī)猛,劉登峰,劉慧,等.氣候變化影響下瀾湄流域下游水稻生產(chǎn)用水量模擬與分析 [J/OL].人民珠江:1-35[2023-
05-20].http://kns.cnki.net/kcms/detail/44.1037.TV.20231211.1537.
002.html.
[5] 丁浩.氣候變化條件下寶雞峽灌區(qū)主要作物需水量時(shí)空演變及節(jié)水潛力分析 [D].咸陽(yáng):西北農(nóng)林科技大學(xué),2017.
[6] 梁現(xiàn)斌.基于SSA-ConvLSTM-LSTM短期需水預(yù)測(cè)的智慧校園節(jié)水系統(tǒng)研究與應(yīng)用 [D]. 邯鄲:河北工程大學(xué),2022.
[7] 王冠智,粟曉玲,張?zhí)?,?基于DWT-WFGM(1,1)-ARMA組合模型的農(nóng)業(yè)用水量預(yù)測(cè) [J].灌溉排水學(xué)報(bào),2021,40(11):106-114.
[8] ZHOU H Y,ZHANG S H Y,PENG J Q,et al. Informer: Beyond efficient transformer for long sequence time-series forecasting [C]//Proceedings of the AAAI conference on artificial intelligence.[S.l]:AAAI Press,2021:11106-11115.
[9] 曾婧婧,黃桂花.科技項(xiàng)目揭榜掛帥制度:運(yùn)行機(jī)制與關(guān)鍵癥結(jié) [J].科學(xué)學(xué)研究,2021,39(12):2191-2200+2252.
[10] 吳正新.如何構(gòu)建政府采購(gòu)信用體系 [J].中國(guó)招標(biāo),2021,1460(4):33-36.
作者簡(jiǎn)介:孫杰(1998—),男,漢族,江蘇鹽城人,碩士研究生在讀,主要研究方向:智慧安全。