屠一艷,徐久益,楊曉雷,李自明,姚劍峰
(1.國網(wǎng)浙江省電力有限公司嘉興供電公司,浙江 嘉興 314000;2.國網(wǎng)浙江桐鄉(xiāng)市供電有限公司,浙江 桐鄉(xiāng) 314500)
用電量是經(jīng)濟(jì)發(fā)展的“晴雨表”。經(jīng)濟(jì)增長對(duì)電力具有很強(qiáng)的依賴性,而經(jīng)濟(jì)的快速增長也會(huì)刺激用電量的迅速增長。用電量預(yù)測(cè)是實(shí)現(xiàn)區(qū)域電力電量平衡、電網(wǎng)精準(zhǔn)投資、規(guī)范電力現(xiàn)貨市場(chǎng)交易的主要依據(jù)。因此,用電量的準(zhǔn)確預(yù)測(cè)既是電網(wǎng)發(fā)展規(guī)劃、生產(chǎn)經(jīng)營的基礎(chǔ),又是地區(qū)經(jīng)濟(jì)社會(huì)發(fā)展變化趨勢(shì)的“風(fēng)向標(biāo)”[1-2]。
目前,各行各業(yè)對(duì)電力能源的依賴性日益顯著,加之國內(nèi)各地區(qū)居民電氣化水平差異大,導(dǎo)致對(duì)電能消費(fèi)需求變化趨勢(shì)不同,用電量呈現(xiàn)多因素化、變化復(fù)雜的特點(diǎn),這對(duì)準(zhǔn)確預(yù)測(cè)月用電量提出了挑戰(zhàn)[3]。傳統(tǒng)的月度電量預(yù)測(cè)方法如趨勢(shì)外推法、時(shí)間序列預(yù)測(cè)法、半?yún)?shù)統(tǒng)計(jì)法和BP神經(jīng)網(wǎng)絡(luò)等預(yù)測(cè)方法[4-7]雖然成熟,但多以歷史純電量數(shù)據(jù)為預(yù)測(cè)依據(jù),預(yù)測(cè)模型難以適應(yīng)當(dāng)前電力需求增長的諸多因素。一些學(xué)者對(duì)月度用電量的預(yù)測(cè)方法不斷進(jìn)行改進(jìn),并取得了一定成果。文獻(xiàn)[8]在傳統(tǒng)多元回歸預(yù)測(cè)模型的基礎(chǔ)上,構(gòu)建溫度和經(jīng)濟(jì)增長因素為輸入的月用電量預(yù)測(cè)模型,對(duì)歷史數(shù)據(jù)擬合得較好,但預(yù)測(cè)方法中的經(jīng)濟(jì)因素只考慮到規(guī)模以上工業(yè)增加值,不足以表現(xiàn)經(jīng)濟(jì)因素的影響。文獻(xiàn)[9]綜合了灰色關(guān)聯(lián)分析法、多變量時(shí)間序列法優(yōu)勢(shì),將區(qū)域用電量相關(guān)影響因素進(jìn)行關(guān)聯(lián)分析,雖然預(yù)測(cè)精度較高,但輸入的社會(huì)經(jīng)濟(jì)變量較少,預(yù)測(cè)結(jié)果呈現(xiàn)出季節(jié)性波動(dòng)。文獻(xiàn)[10]利用多元線性回歸與神經(jīng)網(wǎng)絡(luò)算法各自的優(yōu)勢(shì),提出組合優(yōu)化預(yù)測(cè)方法,既把握了用電量的整體趨勢(shì),又抓住了細(xì)節(jié)波動(dòng)變化,預(yù)測(cè)精度得到有效提高,但預(yù)測(cè)模型只驗(yàn)證了短期預(yù)測(cè)的精準(zhǔn)性,中長期電量預(yù)測(cè)精度還有待驗(yàn)證。因此,在充分考慮各經(jīng)濟(jì)因素發(fā)展趨勢(shì)及“新常態(tài)”下的中長期用電特點(diǎn),研究區(qū)域用電量精確預(yù)測(cè)方法具有重要現(xiàn)實(shí)意義[11]。
本文以區(qū)域歷史用電量數(shù)據(jù)和多種經(jīng)濟(jì)因素為基礎(chǔ),挖掘兩者的關(guān)聯(lián)規(guī)律和特點(diǎn),采用隨機(jī)森林算法構(gòu)建電量預(yù)測(cè)模型,并檢驗(yàn)預(yù)測(cè)模型的優(yōu)越性,為地區(qū)月度用電量預(yù)測(cè)和電網(wǎng)建設(shè)提供參考依據(jù)。
電量預(yù)測(cè)的核心是依據(jù)歷史用電量數(shù)據(jù),以及對(duì)用電量產(chǎn)生決定性作用的區(qū)域經(jīng)濟(jì)、氣候等因素的歷史數(shù)據(jù),利用科學(xué)的算法進(jìn)行分析,并建立預(yù)測(cè)模型來描述未來一段時(shí)間的用電量發(fā)展規(guī)律。因此,在選擇合適的算法以及建立預(yù)測(cè)模型之前,對(duì)各類原始數(shù)據(jù)進(jìn)行分析和處理(通過研究和處理歷史數(shù)據(jù),挖掘原始數(shù)據(jù)內(nèi)在關(guān)聯(lián)性和規(guī)律性)至關(guān)重要[12-13]。
本文數(shù)據(jù)來源于南方某區(qū)域電網(wǎng)公司近4 年的月用電量數(shù)據(jù)(見表1)及該區(qū)域統(tǒng)計(jì)局公布的四類主要月度經(jīng)濟(jì)指標(biāo)(見表2),原始數(shù)據(jù)中用電量為一維,相關(guān)經(jīng)濟(jì)數(shù)據(jù)為四維。由表1 可知,該地區(qū)的月用電量整體呈上升趨勢(shì),每年的月用電量變化特性基本一致,具有周期性和慣性特點(diǎn)。鑒于篇幅,本文只列出上半年和全年的四類經(jīng)濟(jì)數(shù)據(jù),利用已知的數(shù)據(jù)來預(yù)測(cè)該區(qū)域2019年1—12 月的用電量。
作為一個(gè)多輸入系統(tǒng),考慮的輸入量越多對(duì)系統(tǒng)的輸出預(yù)測(cè)越準(zhǔn)確,但為了簡化電量預(yù)測(cè)模型,需要找到影響程度較大的因素,這就需要進(jìn)行相關(guān)性分析[14]。相關(guān)系數(shù)是表示2 個(gè)變量(x,y)之間線性關(guān)系密切程度的指標(biāo),用r 表示,其定義為:
表1 南方某區(qū)域電網(wǎng)公司近些年各月電量情況(已脫敏處理)
表2 南方某區(qū)域相關(guān)經(jīng)濟(jì)數(shù)據(jù)(已脫敏處理)
式中:xt為月用電量數(shù)量;yt為四類經(jīng)濟(jì)數(shù)據(jù);分別為xt和yt的平均值。
其中r 的絕對(duì)值越接近于1,說明相關(guān)關(guān)系越顯著。通過分析用電量與經(jīng)濟(jì)因素的關(guān)系可以發(fā)現(xiàn)(見表3),用電量與相關(guān)四類經(jīng)濟(jì)數(shù)據(jù)具有較強(qiáng)的相關(guān)性,相關(guān)系數(shù)r 均大于0.9,說明它們之間相關(guān)關(guān)系較顯著。因此,本文將這四類經(jīng)濟(jì)因素作為電量預(yù)測(cè)建模研究的關(guān)鍵因素。
表3 相關(guān)性分析
高質(zhì)量的輸入數(shù)據(jù)是整個(gè)預(yù)測(cè)工作的前提,歷史數(shù)據(jù)的平滑性直接關(guān)系到模型擬合與預(yù)測(cè)結(jié)果的精度。因此,本文將對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,主要是清洗原始數(shù)據(jù),即選擇合適的方法對(duì)原始數(shù)據(jù)中的明顯錯(cuò)誤值、異常值和可疑值進(jìn)行“處理”。
本研究數(shù)據(jù)預(yù)處理的整體流程如圖1 所示。首先對(duì)原始電量數(shù)據(jù)進(jìn)行觀察分析,發(fā)現(xiàn)沒有缺失點(diǎn)和重復(fù)數(shù)據(jù);其次使用統(tǒng)計(jì)量χ2檢測(cè)原始數(shù)據(jù)中的異常值。統(tǒng)計(jì)量χ2可以用來檢測(cè)一組數(shù)據(jù)中的離群點(diǎn),對(duì)于某個(gè)對(duì)象,χ2統(tǒng)計(jì)量是:χ2=(xi-μ)2/μ,其中,μ 是所有對(duì)象的均值。如果對(duì)象的χ2統(tǒng)計(jì)量大于選取的閾值,那么該對(duì)象就被認(rèn)為是離群點(diǎn)。通過該方法可以檢測(cè)出2016 年2 月和2017 年2 月的用電量值為異常數(shù)據(jù)。
圖1 數(shù)據(jù)預(yù)處理流程
檢測(cè)出異常值后還需對(duì)其進(jìn)行處理,異常值的處理方法主要采用數(shù)據(jù)平滑技術(shù),按數(shù)據(jù)分布特征修勻源數(shù)據(jù)。具體方法有分箱、聚類和回歸等[15-16]。本文采用分箱方法,通過考察相鄰點(diǎn)來平滑異常數(shù)據(jù)值,即取異常值的縱向和橫向相鄰數(shù)據(jù)的均值來替換異常值,從而進(jìn)行局部平滑。
目前,基于經(jīng)濟(jì)因素的中長期電量預(yù)測(cè)方法應(yīng)用廣泛的主要有多元回歸預(yù)測(cè)算法和時(shí)間序列自回歸預(yù)測(cè)算法,其中多元回歸預(yù)測(cè)算法中用電量的影響因素很難量化,即使能夠量化,量化指標(biāo)的獲取一般也相對(duì)滯后,因此在實(shí)際預(yù)測(cè)中具有一定的局限性;而基于時(shí)間序列的自回歸等預(yù)測(cè)算法應(yīng)對(duì)某個(gè)因素波動(dòng)較大時(shí),不能及時(shí)將其變化作用在預(yù)測(cè)結(jié)果上,導(dǎo)致短期預(yù)測(cè)結(jié)果偏差可能較大。鑒于原始用電量數(shù)據(jù)慣性和周期性等波動(dòng)特點(diǎn),以及1.1 節(jié)分析的相關(guān)性較高的四類經(jīng)濟(jì)數(shù)據(jù)特點(diǎn),需要尋找適合多維原始數(shù)據(jù)輸入且符合數(shù)據(jù)特性的預(yù)測(cè)方法,以得到比較準(zhǔn)確的預(yù)測(cè)結(jié)果。
因此,充分考慮了用電量與經(jīng)濟(jì)指標(biāo)之間的相互影響,本文選用隨機(jī)森林算法[17]作為數(shù)學(xué)模型的主要預(yù)測(cè)方法,并與指數(shù)平滑法相結(jié)合。在整個(gè)預(yù)測(cè)過程中的每一步都會(huì)根據(jù)實(shí)際需求而選用不同的算法模型,既符合原始數(shù)據(jù)規(guī)律特點(diǎn),又充分發(fā)揮了各模型算法的優(yōu)勢(shì),使預(yù)測(cè)效果最優(yōu)化。首先,通過指數(shù)平滑法,利用其算法適合于歷史電量數(shù)據(jù)在短期內(nèi)波動(dòng)保持慣性的特征優(yōu)勢(shì),對(duì)用電量進(jìn)行初步預(yù)測(cè);其次,通過隨機(jī)森林算法相比傳統(tǒng)回歸算法具有不容易過度擬合、不限制于數(shù)據(jù)維度大小和可處理高維度數(shù)據(jù)的優(yōu)點(diǎn),把與用電量相關(guān)性很高的四類經(jīng)濟(jì)因素作為隨機(jī)森林算法的輸入進(jìn)行訓(xùn)練,對(duì)初步純電量預(yù)測(cè)的用電量數(shù)據(jù)進(jìn)行修正,從而得到最終貼近實(shí)際的預(yù)測(cè)值。
隨機(jī)森林算法是基于投票法構(gòu)建多棵決策樹對(duì)樣本進(jìn)行分類的集成學(xué)習(xí)算法[18],原理如圖2所示。其核心思想是將每棵決策樹的分類結(jié)果進(jìn)行統(tǒng)計(jì),最終將樣本劃分為得票最多的類別。隨機(jī)森林隨機(jī)選擇樣本、特征,降低了決策樹之間的相關(guān)性。
圖2 隨機(jī)森林原理
區(qū)域用電量曲線特征大致具有一定的周期性、時(shí)序性,一般以月為單位,每年電量曲線變化趨勢(shì)相同。選取多項(xiàng)式分別擬合歷史年的用電量曲線,再通過指數(shù)平滑法,即采用線性指數(shù)平滑模型Ft+m=at+btm(Ft+m為t+m 月的用電量預(yù)測(cè)值;at為平滑值序列差;bt為一次平滑步長參數(shù)),利用預(yù)測(cè)數(shù)據(jù)的變化在短期內(nèi)保持慣性的特征,得到2019 年用電量初步預(yù)測(cè)值,如表4 所示。
表4 電量初步預(yù)測(cè)結(jié)果
由表4 可知,雖然指數(shù)平滑法能將經(jīng)濟(jì)因素的影響作用反映在預(yù)測(cè)的變化趨勢(shì)中,但用電量的影響因素在電量預(yù)測(cè)過程中不能得以充分反映,當(dāng)某個(gè)因素發(fā)生突變時(shí),就會(huì)導(dǎo)致短期預(yù)測(cè)結(jié)果偏差較大,所以需要對(duì)初始電量預(yù)測(cè)值進(jìn)行修正。引入經(jīng)濟(jì)數(shù)據(jù)的影響后,把四類經(jīng)濟(jì)數(shù)據(jù)輸入隨機(jī)森林算法進(jìn)行訓(xùn)練,利用初步預(yù)測(cè)的用電量與各經(jīng)濟(jì)因素之間的關(guān)聯(lián)性預(yù)測(cè)2019 年1—12 月的四類經(jīng)濟(jì)數(shù)據(jù)。圖3 所示為2015—2018 年數(shù)據(jù)的部分運(yùn)行結(jié)果。
圖3 規(guī)模以上工業(yè)增加值實(shí)際值與預(yù)測(cè)值對(duì)比
由圖3 可知,通過初始電量預(yù)測(cè)值可以較為準(zhǔn)確地預(yù)測(cè)出規(guī)模以上工業(yè)增加值。鑒于預(yù)測(cè)最終用電量模型是多輸入單輸出,輸入2019 年1—12 月初步預(yù)測(cè)的經(jīng)濟(jì)指標(biāo)數(shù)據(jù)和月用電量數(shù)據(jù),完成對(duì)初步純電量預(yù)測(cè)值的修正,從而輸出2019年1—12 月的最終用電量預(yù)測(cè)數(shù)據(jù)。這種預(yù)測(cè)方法能直接反映用電量與各類經(jīng)濟(jì)因素的影響關(guān)系,在數(shù)據(jù)完善的情況下,預(yù)測(cè)結(jié)果比較貼近實(shí)際值。月用電量變化曲線如圖4 所示。
圖4 月用電量變化曲線
為驗(yàn)證該預(yù)測(cè)方法的實(shí)際效果,將目前使用最廣泛的時(shí)間序列預(yù)測(cè)、灰色預(yù)測(cè)[19-20]方法與本文方法進(jìn)行預(yù)測(cè)對(duì)比,3 種算法對(duì)比結(jié)果見表5。
表5 不同預(yù)測(cè)方法結(jié)果對(duì)比
由表5 可知,本文研究電量預(yù)測(cè)MAPE(平均絕對(duì)百分比誤差)為2.34%,而采用時(shí)間序列預(yù)測(cè)法和灰色預(yù)測(cè)法的預(yù)測(cè)誤差均高于本文方法。由此可見,本文研究方法預(yù)測(cè)精度得到了有效提高,且采用經(jīng)濟(jì)數(shù)據(jù)對(duì)預(yù)測(cè)結(jié)果進(jìn)行修正后,預(yù)測(cè)誤差由3.74%降低到2.34%,具有更高的穩(wěn)定性和精確性,預(yù)測(cè)結(jié)果更加合理,也更加貼近實(shí)際值,如圖5 所示。
圖5 經(jīng)濟(jì)數(shù)據(jù)修正前、后電量預(yù)測(cè)曲線
與此同時(shí),本研究收集了西部兩省份相同的月用電量數(shù)據(jù)與四類經(jīng)濟(jì)數(shù)據(jù),將該模型運(yùn)用于與南方區(qū)域電量波動(dòng)、氣候條件以及經(jīng)濟(jì)結(jié)構(gòu)差異較大的西部兩省份進(jìn)行預(yù)測(cè),以便對(duì)模型的預(yù)測(cè)精度及通用性進(jìn)行驗(yàn)證。驗(yàn)證結(jié)果見表6。
表6 不同省份預(yù)測(cè)結(jié)果對(duì)比
由表6 可知,該模型在西部兩省份預(yù)測(cè)的MAPE 分別為3.44%和2.75%,證明了該預(yù)測(cè)方法通用性強(qiáng)、具有較高的預(yù)測(cè)精度,可適用于不同地區(qū)的電量預(yù)測(cè)。
本文首先引入了經(jīng)濟(jì)因素對(duì)電量預(yù)測(cè)的影響,在建立用電量預(yù)測(cè)模型前對(duì)原始數(shù)據(jù)進(jìn)行分析和處理;其次采用指數(shù)平滑法對(duì)月用電量進(jìn)行初步預(yù)測(cè);再通過隨機(jī)森林算法用四類經(jīng)濟(jì)數(shù)據(jù)對(duì)月用電量預(yù)測(cè)值進(jìn)行修正;最終得到更加接近于實(shí)際值的月用電量。通過實(shí)際算例仿真驗(yàn)證,得出以下結(jié)論:
(1)充分考慮經(jīng)濟(jì)因素與用電量之間的關(guān)聯(lián)性。加入與用電量相關(guān)性很高的經(jīng)濟(jì)因素變量的輸入,有利于模型預(yù)測(cè)精度的提高。
(2)采用隨機(jī)森林算法進(jìn)行預(yù)測(cè)。隨機(jī)森林算法具有不容易過度擬合,不限制于數(shù)據(jù)維度大小,可處理高維度數(shù)據(jù),并檢測(cè)維度間的相互關(guān)聯(lián),通過高維映射、記憶等手段大量挖掘數(shù)據(jù)的內(nèi)在規(guī)律,得到用電量變化的波動(dòng)趨勢(shì)等優(yōu)點(diǎn),符合預(yù)測(cè)模型要求,使預(yù)測(cè)精度有進(jìn)一步的提高。
在預(yù)測(cè)過程中,本研究根據(jù)實(shí)際需求選擇不同的算法模型,發(fā)揮模型算法的優(yōu)勢(shì),使預(yù)測(cè)效果最優(yōu)化。算例證明了該預(yù)測(cè)方法通用性強(qiáng),為地區(qū)中長期電量預(yù)測(cè)提供了一種新思路。