胡詩(shī)苑,高金良,鐘 丹,郭文娟, 何軍軍, 王學(xué)森
(1.哈爾濱工業(yè)大學(xué) 環(huán)境學(xué)院,哈爾濱 150090;2.北京首創(chuàng)股份有限公司,北京 100044;3.哈爾濱凱納科技股份有限公司,哈爾濱 150028)
需水量預(yù)測(cè)[1-3]主要包括長(zhǎng)期預(yù)測(cè)、中期預(yù)測(cè)和短期預(yù)測(cè),分別用于供水規(guī)劃、決策支持、運(yùn)營(yíng)管理[4-5]。其中,短期需水量波動(dòng)性大,具有很強(qiáng)的隨機(jī)性,且易受多種因素影響(天氣、人口、地理位置、商業(yè)活動(dòng)、工業(yè)生產(chǎn)、水價(jià)等),預(yù)測(cè)難度最大。對(duì)短期需水量預(yù)測(cè)問(wèn)題進(jìn)行研究,不僅有利于供水管網(wǎng)科學(xué)化管理,保障龍頭水水質(zhì),實(shí)現(xiàn)降低漏損、節(jié)能降耗、減少水資源及能源浪費(fèi)的目標(biāo),還能為復(fù)雜不穩(wěn)定系統(tǒng)的預(yù)測(cè)問(wèn)題提供新的范式[6]。
早期的需水量預(yù)測(cè)主要采用線性回歸和時(shí)間序列分析的方法,但由于短期需水量的非線性和非平穩(wěn)性,線性回歸和本質(zhì)上捕捉線性關(guān)系的時(shí)間序列分析等方法受到限制,不能準(zhǔn)確地模擬出需水量的隨機(jī)性波動(dòng)[7-8]。近年來(lái),隨著建模技術(shù)的發(fā)展,更為復(fù)雜的機(jī)器學(xué)習(xí)模型在需水量預(yù)測(cè)領(lǐng)域得到了廣泛的應(yīng)用,為需水量預(yù)測(cè)帶來(lái)新的機(jī)遇[9]。其中,以人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)、支持向量機(jī)(support vector machine, SVM)和以它們?yōu)榛A(chǔ)的變種模型研究最多[10-13],也取得較好的成果。ANN和SVM常用作基準(zhǔn)模型,來(lái)評(píng)價(jià)各類需水量預(yù)測(cè)模型的性能[7]。此外,基于決策樹(shù)的機(jī)器學(xué)習(xí)模型由于易于理解和實(shí)現(xiàn),且效果良好,也逐漸應(yīng)用于需水量預(yù)測(cè)領(lǐng)域[14-15]。LightGBM(light gradient boosting machine)是微軟公司提出的基于梯度提升決策樹(shù)的算法[16],在繼承了梯度提升決策樹(shù)類算法高精度的同時(shí)還具有較高的計(jì)算效率,已在很多領(lǐng)域得到應(yīng)用[17-18],但在短期需水量預(yù)測(cè)領(lǐng)域的性能尚未得到驗(yàn)證。
除了對(duì)預(yù)測(cè)模型進(jìn)行改進(jìn),數(shù)據(jù)的預(yù)處理環(huán)節(jié)也對(duì)提高需水量預(yù)測(cè)的準(zhǔn)確性至關(guān)重要。短期需水量數(shù)據(jù)不僅波動(dòng)性大,呈現(xiàn)非線性、非平穩(wěn)性的特點(diǎn),還容易受到短期異常事件的影響,包括通訊傳輸異常和用水設(shè)備或行為異常等[19]?;谶@些異常數(shù)據(jù)進(jìn)行建模會(huì)影響需水量預(yù)測(cè)的準(zhǔn)確性,在使用小時(shí)計(jì)量小區(qū)(district metered area,DMA)數(shù)據(jù)進(jìn)行建模時(shí),現(xiàn)象尤為明顯。因此,對(duì)短期需水量數(shù)據(jù)進(jìn)行異常值預(yù)處理具有重要意義。本文采用局部離群因子(local outlier factor,LOF)異常值識(shí)別方法,并將其與LightGBM結(jié)合,提出LOF+LightGBM組合模型,改善需水量預(yù)測(cè)模型性能。
異常值通常具備遠(yuǎn)離正常數(shù)據(jù)的趨勢(shì),因此,通過(guò)基于距離或密度的方式能有效地檢測(cè)異常值。LOF是基于密度的無(wú)監(jiān)督異常值檢測(cè)算法,通過(guò)觀測(cè)數(shù)據(jù)分布的密度給出數(shù)據(jù)點(diǎn)得分,作為判斷該點(diǎn)是否為異常值的依據(jù)[20]。假設(shè)Nk(O)為點(diǎn)O的第k距離鄰域,即Nk(O)為點(diǎn)O的第k距離以內(nèi)的所有點(diǎn),包括第k距離點(diǎn)。對(duì)于點(diǎn)O,其局部可達(dá)密度ρk(O)可以表示為
(1)
式中:|Nk(O)|為點(diǎn)O第k距離鄰域點(diǎn)的個(gè)數(shù);dk(O,P)為點(diǎn)P到點(diǎn)O的可達(dá)距離,取P點(diǎn)的第k距離dk(P)和P點(diǎn)到O點(diǎn)的實(shí)際距離中的最大值,如圖1所示。通過(guò)局部可達(dá)密度計(jì)算點(diǎn)P的局部離群因子,表示為
圖1 第k距離dk(P)、局部可達(dá)距離dk(O,P)示意
(2)
該式表示點(diǎn)O第k距離鄰域所有點(diǎn)的局部可達(dá)密度與點(diǎn)O局部可達(dá)密度的比的平均數(shù)。Fk(O)大于1時(shí),越大則說(shuō)明點(diǎn)O的密度相對(duì)其鄰域點(diǎn)越小,越有可能是異常點(diǎn);當(dāng)Fk(O)越接近于1,則說(shuō)明點(diǎn)O與其鄰域點(diǎn)的密度相當(dāng),可能屬于同一簇。
(3)
含正則項(xiàng)的模型目標(biāo)函數(shù)為
(4)
(5)
式中:Ω為模型的正則項(xiàng),N為樹(shù)中葉子節(jié)點(diǎn)數(shù),w為葉子節(jié)點(diǎn)權(quán)重,γ、λ為正則化系數(shù)。在每次迭代過(guò)程中向損失函數(shù)負(fù)梯度方向移動(dòng),使損失函數(shù)盡可能小,得到一棵較優(yōu)樹(shù)。
除了采用直方圖算法,LightGBM還具有兩個(gè)重要的特點(diǎn):一是結(jié)合了基于梯度的單側(cè)采樣算法,在數(shù)據(jù)和精度之間取得了良好的平衡,注意力更多地放在梯度較大的樣本上,只采用一部分小梯度樣本;二是LightGBM樹(shù)的生長(zhǎng)采用leaf-wise策略,而非大多數(shù)梯度提升決策樹(shù)的level-wise按層生長(zhǎng)的策略。leaf-wise策略選擇信息增益最大的葉進(jìn)行生長(zhǎng),這意味著每層葉子的數(shù)量不總是相同的,如圖2所示,leaf-wise的樹(shù)生長(zhǎng)策略有助于減少訓(xùn)練量??偟膩?lái)說(shuō),LightGBM有高效率、高精度、具備處理許多非線性關(guān)系問(wèn)題的強(qiáng)大能力。因此,LightGBM在回歸預(yù)測(cè)領(lǐng)域中具有廣闊的應(yīng)用前景。
圖2 決策樹(shù)生長(zhǎng)策略示意
使用江浙滬地區(qū)某市的真實(shí)DMA小時(shí)需水量數(shù)據(jù)分析提出的LOF+LightGBM模型的預(yù)測(cè)性能,包括不同規(guī)模的3個(gè)DMA居民住宅小區(qū)小時(shí)需水量數(shù)據(jù),小區(qū)內(nèi)包含少量商鋪用水戶。3個(gè)小區(qū)具有相差較大的需水量變化曲線(如圖3、4),DMA1需水量曲線波動(dòng)大,高峰需水量與夜間需水量差別明顯;而DMA3需水量曲線波動(dòng)小,每小時(shí)需水量分布密集;DMA2則在兩者之間。3個(gè)小區(qū)能夠代表不同的居民住宅小區(qū)的用水特點(diǎn),驗(yàn)證提出組合模型的普適性。DMA1數(shù)據(jù)集包含2016年4月23日—2016年7月1日的小時(shí)需水量數(shù)據(jù),DMA2數(shù)據(jù)集包含2016年1月5日—2016年3月14日的小時(shí)需水量數(shù)據(jù),DMA3數(shù)據(jù)集包含2016年5月14日—2016年7月22日的小時(shí)需水量數(shù)據(jù)。對(duì)于每個(gè)DMA,80%的數(shù)據(jù)用于訓(xùn)練模型,剩余20%的數(shù)據(jù)作為測(cè)試集來(lái)評(píng)價(jià)提出模型性能及探究異常值處理對(duì)于需水量預(yù)測(cè)的影響。各DMA小區(qū)需水量數(shù)據(jù)基本特征如表1所示。DMA1與DMA3最小需水量均為0,但通常情況下,居民小區(qū)用水戶基數(shù)較大,且存在背景暗漏,出現(xiàn)小時(shí)需水量為0的可能性較低,更有可能是通訊信號(hào)干擾導(dǎo)致的數(shù)據(jù)丟失,或者是爆管、檢修等異常行為造成停水。3/4分位數(shù)與平均值比較接近,而需水量最大值與3/4分位數(shù)的差距懸殊,尤其是DMA1與DMA3,如DMA1的需水量3/4分位數(shù)為20.879 m3/h,而最大需水量高達(dá)123.844 m3/h。這很有可能是由通訊信號(hào)干擾、機(jī)械振動(dòng)等導(dǎo)致的數(shù)據(jù)異常。由此可見(jiàn),實(shí)際工程中異常值問(wèn)題十分普遍,且異常值與正常值相差較大,對(duì)實(shí)際工程中需水量進(jìn)行預(yù)測(cè)前進(jìn)行異常值處理是十分必要的。
表1 DMA小區(qū)需水量數(shù)據(jù)基本特征
通過(guò)對(duì)模型的輸入特征進(jìn)行選擇,保留強(qiáng)相關(guān)特征,篩出相關(guān)性弱的特征,有利于提高預(yù)測(cè)準(zhǔn)確性,減少建模時(shí)間。可作為需水量預(yù)測(cè)模型的輸入特征包括歷史需水量數(shù)據(jù)、溫度、降雨量、經(jīng)濟(jì)等[6]。對(duì)于水務(wù)企業(yè),降雨量等氣候信息較難獲得,且以往研究表明,使用歷史需水量作為輸入足以建立準(zhǔn)確的需水量預(yù)測(cè)模型[22],故采用歷史需水量數(shù)據(jù)作為組合模型的輸入。
參考Guo等[23]的特征輸入方案,考慮短期需水量的周期性,將需水量輸入特征分為3段,包括周周期相關(guān)特征、日周期相關(guān)特征和近期特征。周周期特征考慮預(yù)測(cè)時(shí)間一周前x(t-24×7)及其附近的需水量特征{x(t-24×7-i),…,x(t-24×7),…,x(t-24×7+i)},日周期特征考慮預(yù)測(cè)時(shí)間1 d前x(t-24)及其附近的需水量特征{x(t-24-j),…,x(t-24),…,x(t-24+j)},近期特征考慮預(yù)測(cè)時(shí)間x(t)前一段時(shí)間的需水量特征{x(t-k),…,x(t-1)},取i=j=k=10,具體見(jiàn)表2。將周周期特征、日周期特征和近期特征數(shù)據(jù)作為輸入,使用LightGBM對(duì)特征重要性進(jìn)行排序,對(duì)于每個(gè)DMA選擇重要性前10特征進(jìn)行后續(xù)需水量預(yù)測(cè)模型的建模,用來(lái)預(yù)測(cè)t時(shí)刻的需水量,特征選擇結(jié)果如表2所示。特征重要性前10的特征中周周期特征最少,說(shuō)明較遠(yuǎn)的數(shù)據(jù)對(duì)當(dāng)前需水量的影響較小。而x(t-24×7),x(t-24)始終在重要性前10中,進(jìn)一步驗(yàn)證了需水量的強(qiáng)周期性。
表2 模型特征選擇范圍和結(jié)果
2.3.1 LOF+LightGBM模型構(gòu)建步驟
通過(guò)構(gòu)建LOF+LightGBM組合模型進(jìn)行需水量預(yù)測(cè),包括異常值識(shí)別及校正步驟和需水量預(yù)測(cè)步驟。具體如下:
1)在異常值識(shí)別及校正步驟中,首先將需水量數(shù)據(jù)按小時(shí)分為24個(gè)子集,分別對(duì)每個(gè)子集構(gòu)建LOF模型并識(shí)別每個(gè)子集中的異常值。使用每小時(shí)需水量的平均值校正當(dāng)前小時(shí)子集中的異常值,之后將子集重新合并為一個(gè)數(shù)據(jù)集以供后續(xù)需水量預(yù)測(cè)。
2)在需水量預(yù)測(cè)步驟中,使用異常值校正后的需水量數(shù)據(jù)訓(xùn)練LightGBM模型,先將需水量數(shù)據(jù)歸一化到0和1之間,輸入為經(jīng)特征選擇后的特征,輸出為預(yù)測(cè)的需水量。最后,對(duì)測(cè)試集的需水量進(jìn)行預(yù)測(cè)并評(píng)價(jià)模型性能。為了客觀評(píng)價(jià)所提出的模型,在需水量預(yù)測(cè)步驟中引入常用作基準(zhǔn)模型的ANN和SVM中用于回歸的支持向量回歸模型(support vector regression,SVR)參與組合模型的構(gòu)建與性能評(píng)價(jià),其輸入與LightGBM模型相同。有關(guān)ANN和SVR的算法原理見(jiàn)Herrera[4]、Adamowski[24]、Bougadis等[25]的描述。
2.3.2 模型超參數(shù)調(diào)優(yōu)
超參數(shù)的選擇決定了模型的性能,對(duì)于LOF,有兩個(gè)超參數(shù)需要進(jìn)行優(yōu)化,即數(shù)據(jù)中異常點(diǎn)的比例和樣本點(diǎn)的鄰域點(diǎn)數(shù)。由于LOF為非監(jiān)督學(xué)習(xí)算法,數(shù)據(jù)集中異常點(diǎn)的比例未知,需要先通過(guò)試錯(cuò)法確定各個(gè)DMA小區(qū)需水量數(shù)據(jù)中的異常點(diǎn)比例,再對(duì)樣本點(diǎn)的鄰域點(diǎn)數(shù)進(jìn)行超參數(shù)調(diào)優(yōu),其中異常點(diǎn)的比例分別嘗試0.01、0.02、…、0.10,樣本點(diǎn)的鄰域點(diǎn)數(shù)分別嘗試10、20、30、40、50、60。
需水量預(yù)測(cè)模型通過(guò)5折交叉驗(yàn)證及網(wǎng)格搜索進(jìn)行超參數(shù)調(diào)優(yōu)。對(duì)于ANN,采用3層前饋神經(jīng)網(wǎng)絡(luò)進(jìn)行需水量預(yù)測(cè),其具有1個(gè)隱藏層,通過(guò)誤差反向傳播的方式確定神經(jīng)網(wǎng)絡(luò)中的權(quán)重和偏置等。該神經(jīng)網(wǎng)絡(luò)模型需要對(duì)隱藏層節(jié)點(diǎn)數(shù)和初始學(xué)習(xí)率進(jìn)行超參數(shù)調(diào)節(jié)。分別設(shè)置隱藏層節(jié)點(diǎn)數(shù)為2、5、7、10、20、30、40、50、60、70、80和初始學(xué)習(xí)率為0.000 1、0.001、0.005、0.01、0.05、0.1進(jìn)行網(wǎng)格搜索調(diào)參,即在66個(gè)超參數(shù)組合中尋優(yōu)。
SVR模型選擇徑向基函數(shù)作為核函數(shù),有兩個(gè)重要的超參數(shù)C和gamma需要優(yōu)化。C是正則化超參數(shù),可以調(diào)整預(yù)測(cè)誤差和模型復(fù)雜度的權(quán)重,gamma是徑向基函數(shù)的核系數(shù)。本研究嘗試了超參數(shù)C的e-2、e-1、e0、e1、e2、e3、e4、e5取值,超參數(shù)gamma的e-4、e-3、e-2、e-1、e0、e1取值,即SVR模型嘗試了超參數(shù)的48種不同組合。
控制LightGBM模型的超參數(shù)較多,分步通過(guò)網(wǎng)格搜索進(jìn)行超參數(shù)的優(yōu)化。
1)首先對(duì)Max_depth樹(shù)模型最大學(xué)習(xí)深度和Num_leaves構(gòu)成每棵樹(shù)葉子的數(shù)量進(jìn)行超參數(shù)優(yōu)化,Max_depth分別取3、4、5、6,Num_leaves不宜設(shè)置過(guò)大,過(guò)大可能造成過(guò)擬合,故分別取5、15、25、35、45,總共20個(gè)組合。
2)隨后對(duì)Min_data_in_leaf一片葉子中最小數(shù)據(jù)量和Max_bin箱的最大數(shù)量進(jìn)行優(yōu)化,Min_data_in_leaf用于控制過(guò)擬合,分別取1、11、21、…、101,Max_bin分別取5、15、25、…、255,進(jìn)行網(wǎng)格搜索調(diào)參。
3)再對(duì)Feature_fraction每次迭代過(guò)程隨機(jī)選擇特征占特征總數(shù)比、Bagging_fraction選擇的數(shù)據(jù)占總數(shù)據(jù)量的比和Bagging_freq子采樣頻率進(jìn)行網(wǎng)格搜索超參數(shù)優(yōu)化,F(xiàn)eature_fraction分別取0.6、0.7、0.8、0.9、1.0,Bagging_fraction分別取0.6、0.7、0.8、0.9、1.0,Bagging_freq 分別取0、10、20、…、80。
4)最后,對(duì)Lambda_l1和Lambda_l2正則化相關(guān)超參數(shù)進(jìn)行優(yōu)化,Lambda_l1分別取0.000 01、0.001、0.1、0、0.3、0.5、0.7、0.9、1.0,Lambda_l2分別取0.000 01、0.001、0.1、0、0.3、0.5、0.7、0.9、1.0。其他超參數(shù)如Boosting_type估計(jì)器的類型選擇默認(rèn)的gbdt,為保證精度學(xué)習(xí)率選擇較低的0.01,n_estimators估計(jì)器數(shù)量選擇1 000棵樹(shù)。
為了評(píng)估預(yù)測(cè)模型的性能,使用兩個(gè)絕對(duì)誤差評(píng)價(jià)指標(biāo)和一個(gè)無(wú)量綱評(píng)價(jià)指標(biāo)衡量預(yù)測(cè)值和實(shí)際值之間的誤差。絕對(duì)誤差評(píng)價(jià)指標(biāo)為均方根誤差(root-mean-square error,ERMS)和平均絕對(duì)誤差(mean absolute error,EMA)。無(wú)量綱評(píng)價(jià)指標(biāo)為納什效率系數(shù)(nash-sutcliffe model efficiency coefficient,ENS),常用于驗(yàn)證水文和環(huán)境相關(guān)模型的準(zhǔn)確性,具體表達(dá)如下:
(6)
(7)
(8)
通過(guò)對(duì)3個(gè)DMA需水量數(shù)據(jù)進(jìn)行異常值識(shí)別,探索LOF模型的有效性,異常值識(shí)別結(jié)果如圖3所示。不同DMA需水量數(shù)據(jù)及其異常值的分布呈現(xiàn)明顯的差異性,LOF均能較好地識(shí)別出需水量異常值。對(duì)于DMA1、DMA2(圖3(a)、(b)),每小時(shí)需水量數(shù)據(jù)分布較為分散,增加了異常值識(shí)別的難度,尤其是DMA2,為避免將正常需水量誤識(shí)別為異常值,僅將部分遠(yuǎn)離集中數(shù)據(jù)的點(diǎn)識(shí)別為異常點(diǎn),保留了部分接近集中數(shù)據(jù)的離散需水量點(diǎn),為需水量預(yù)測(cè)模型提供盡可能多的數(shù)據(jù)信息。對(duì)于DMA3(圖3(c)),每小時(shí)數(shù)據(jù)分布集中,異常數(shù)據(jù)和正常數(shù)據(jù)能較好地區(qū)分開(kāi),LOF能夠很好地識(shí)別出離群異常值和丟失數(shù)據(jù),為需水量預(yù)測(cè)模型提供較高質(zhì)量的數(shù)據(jù)集。
為探究LOF模型、LightGBM模型及其組合模型LOF+LightGBM的性能,分別設(shè)置3個(gè)對(duì)比組進(jìn)行實(shí)驗(yàn),第1組為ANN與LOF+ANN、SVR與LOF+SVR、LightGBM與LOF+LightGBM;第2組為ANN、SVR與LightGBM;第3組為L(zhǎng)OF+LightGBM與ANN、SVR、LightGBM、LOF+ANN、LOF+SVR。各模型預(yù)測(cè)性能評(píng)價(jià)結(jié)果如表3所示。為直觀觀察各模型的預(yù)測(cè)結(jié)果,繪制各模型預(yù)測(cè)值和觀測(cè)值曲線,如圖4所示。
表3 各預(yù)測(cè)模型性能評(píng)價(jià)
在不同DMA的需水量數(shù)據(jù)分布下,基于LOF+預(yù)測(cè)模型的組合模型性能均得到了提升(表3),預(yù)測(cè)模型ERMS平均降低了10%,DMA3的ANN模型ERMS為1.321 m3/h,LOF+ANN模型的ERMS為1.055 m3/h,降低了近20%。通過(guò)對(duì)比DMA1(圖4(a))、DMA2(圖4(b))、DMA3(圖4(c))的預(yù)測(cè)模型和LOF+預(yù)測(cè)模型預(yù)測(cè)曲線可知,LOF+預(yù)測(cè)模型的需水量曲線明顯更貼合觀測(cè)曲線,尤其DMA1和DMA3中需水量較低時(shí)的預(yù)測(cè)性能改善更為明顯。結(jié)果表明,經(jīng)過(guò)LOF進(jìn)行異常值識(shí)別和校正后的數(shù)據(jù)集利于提升后續(xù)預(yù)測(cè)模型的準(zhǔn)確性,這可能是因?yàn)樵谀P瓦M(jìn)行訓(xùn)練的過(guò)程中會(huì)盡可能減少模型計(jì)算值和訓(xùn)練數(shù)據(jù)之間的誤差,異常值的存在,尤其是需水量數(shù)據(jù)波動(dòng)大、存在極端異常值的情況下,訓(xùn)練模型偏離正常值,模型的準(zhǔn)確性降低,而異常值校正后的數(shù)據(jù)集排除了異常數(shù)據(jù)的干擾,達(dá)到提升模型性能的目的。
由第2對(duì)比組ANN、SVR與LightGBM的模型性能結(jié)果(表3)可知,LightGBM具有強(qiáng)大的預(yù)測(cè)性能,對(duì)于所有DMA的需水量預(yù)測(cè)結(jié)果,LightGBM始終呈現(xiàn)最佳性能,不同數(shù)據(jù)集上的EMA比ANN和SVR平均降低了24.7%,DMA1中LightGBM的EMA相較SVR降低了41.8%,驗(yàn)證了LightGBM在需水量預(yù)測(cè)領(lǐng)域的高精度和可行性。
而提出的組合模型LOF+LightGBM相較其他3個(gè)預(yù)測(cè)模型(ANN、SVR、LightGBM)和兩個(gè)組合模型(LOF+ANN、LOF+SVR),具有明顯的預(yù)測(cè)優(yōu)勢(shì),在絕大多數(shù)情況下均優(yōu)于其他模型的預(yù)測(cè)性能。如表3可知,DMA2、DMA3中 LOF+LightGBM的ENS分別為0.951、0.942,預(yù)測(cè)精度高。DMA1由于需水量的波動(dòng)性大(圖4(a)),預(yù)測(cè)難度最大,ANN、SVR、LOF+ANN、LOF+SVR均不能很好地捕捉到峰值的需水量,在需水量較低時(shí),預(yù)測(cè)曲線也偏離觀測(cè)值較大,LOF+LightGBM不僅在峰值時(shí)最貼近觀測(cè)曲線,且在需水量較低時(shí),也能捕捉到相對(duì)較小的需水量波動(dòng),預(yù)測(cè)精度較高。
圖4 觀測(cè)值與各預(yù)測(cè)模型預(yù)測(cè)值曲線
通過(guò)計(jì)算時(shí)間對(duì)模型訓(xùn)練和預(yù)測(cè)的速度進(jìn)行量化,結(jié)果見(jiàn)圖5。所有模型使用Python 3.6.9,計(jì)算機(jī)CPU為AMD Ryzen5 3600。由圖5可知,基于LightGBM的模型所使用的計(jì)算時(shí)間相比ANN和SVR模型長(zhǎng)。這可能是研究中為了保障預(yù)測(cè)的精度,選取較低的學(xué)習(xí)率和較大的樹(shù)的數(shù)目,使得預(yù)測(cè)時(shí)間變長(zhǎng)。整體上LOF+預(yù)測(cè)模型的計(jì)算時(shí)間更短??偟膩?lái)說(shuō),所有模型的計(jì)算時(shí)間均小于0.7 s,計(jì)算效率高。
為了改善短期需水量預(yù)測(cè)模型的性能,提出了LOF異常值識(shí)別模型和高精度、高效率的LightGBM預(yù)測(cè)模型相結(jié)合的組合模型LOF+LightGBM。模型采用經(jīng)過(guò)特征選擇的周周期、日周期和近期相關(guān)需水量特征作為輸入,使用江浙滬某市3個(gè)不同需水量分布的DMA數(shù)據(jù)實(shí)例,進(jìn)行需水量預(yù)測(cè)模型性能測(cè)試,主要結(jié)論如下:
1)日周期和近期相關(guān)需水量數(shù)據(jù)對(duì)預(yù)測(cè)模型的影響較大,周周期相關(guān)數(shù)據(jù)的影響相對(duì)較小,x(t-24×7),x(t-24)對(duì)預(yù)測(cè)模型的重要性始終排在前10,驗(yàn)證了需水量的強(qiáng)周期性。
2)異常值處理有利于提高預(yù)測(cè)模型的準(zhǔn)確性,基于LOF的預(yù)測(cè)模型ERMS平均降低了10%。LightGBM預(yù)測(cè)模型在不同數(shù)據(jù)集上均表現(xiàn)出高精度,其EMA比ANN和SVR平均降低了24.7%。
3)LOF+LightGBM相比其他模型具有明顯的優(yōu)勢(shì),能較好地預(yù)測(cè)出需水量波動(dòng)。無(wú)論是LOF模型、LightGBM模型還是LOF+LightGBM模型,均有利于提升需水量預(yù)測(cè)模型的預(yù)測(cè)準(zhǔn)確性。
在今后的研究中,可以在識(shí)別異常值的基礎(chǔ)上,對(duì)異常值的產(chǎn)生進(jìn)行歸因,有利于進(jìn)行管網(wǎng)漏損檢測(cè)和事故預(yù)警。