陳廣宇 袁紹軍 夏革非 王宏亮 張華東 陳東洋
作者簡介:陳廣宇(1982—),男,本科,高級工程師,研究方向為電力系統(tǒng)規(guī)劃與電網(wǎng)調(diào)度運行。
摘? 要:為簡便實現(xiàn)電采暖電量預(yù)測,提出基于數(shù)據(jù)挖掘的電量預(yù)測方法。該方法對電采暖電量和眾多影響因素進行灰色關(guān)聯(lián)分析,篩選出與電量有強關(guān)聯(lián)的因素;利用線性回歸算法構(gòu)建了采暖用戶預(yù)測模型,根據(jù)平均采暖戶和權(quán)重系數(shù)實現(xiàn)對電采暖電量的準(zhǔn)確快速預(yù)測,并創(chuàng)建了預(yù)測分析小工具,實現(xiàn)了電量的可視化預(yù)測分析。根據(jù)河北某地的電量實測數(shù)據(jù)進行驗證,與雙向LSTM網(wǎng)絡(luò)預(yù)測結(jié)果對比,該方法預(yù)測效果較好,同時模型的參數(shù)少且計算時間短,可以簡化電采暖電量預(yù)測方法。
關(guān)鍵詞:電采暖? 灰色關(guān)聯(lián)分析? 電量預(yù)測? 數(shù)據(jù)挖掘
中圖分類號:TM715
Abstract:In order to realize the forecasting of electric heating electricity easily, an electricity consumption forecasting method based on data mining is proposed. This method carries out the gray correlation analysis of electric heating electricity and many influence factors, and screens out factors that are strongly correlated with electricity consumption, and it uses the linear regression algorithm to build a heating user prediction model, realizes the accurate and rapid prediction of electric heating electricity according to the average heating rate and weight coefficient, and creates small predictive analysis tools to realize the visual forecasting analysis of electricity. This method is verified according to the measurement data of electricity in a certain place in Hebei Province, and compared with the prediction results of the the two-way LSTM network, it has better prediction effect with few model parameters and short calculation time, so it can simplify the prediction method of electric heating electricity.
Key Words:Electric heating; Gray correlation analysis; Electricity consumption forecasting; Data mining
1 研究背景
準(zhǔn)確快速實現(xiàn)電采暖電量預(yù)測不僅能保證配電網(wǎng)的經(jīng)濟穩(wěn)定運行,而且對電網(wǎng)企業(yè)進行決策部署、合理安排工作具有重要意義[1]。
電量預(yù)測是根據(jù)歷史電量、天氣信息等數(shù)據(jù),分析相關(guān)歷史數(shù)據(jù)變化趨勢對未來電量變化的影響規(guī)律,確定未來某一時間段的電量數(shù)值。電量預(yù)測的方法主要分為傳統(tǒng)預(yù)測方法和新型預(yù)測方法。傳統(tǒng)預(yù)測方法主要包括時間序列法和回歸分析法;新型預(yù)測方法主要包括支持向量機、神經(jīng)網(wǎng)絡(luò)等機器學(xué)習(xí)算法[2]。目前針對電采暖電量的預(yù)測研究成果相對較少,且大多數(shù)方法主要以人工智能預(yù)測算法為主,構(gòu)建的預(yù)測模型相對復(fù)雜,而且電采暖電量影響因素的選取過于隨意?;谏鲜鲈颍闹性诜治鰵v史采暖季某市“電采暖”基本情況和采暖電量的基礎(chǔ)上,通過灰色關(guān)聯(lián)分析電量及其影響因素的關(guān)聯(lián)程度,研究電采暖用戶的變化趨勢,采用線性回歸算法對電采暖用戶進行線性擬合,預(yù)測未來的平均采暖戶,結(jié)合權(quán)重系數(shù)實現(xiàn)電采暖電量的預(yù)測。接著利用雙向LSTM網(wǎng)絡(luò)構(gòu)建電采暖電量預(yù)測模型,通過算例分析驗證文章所提方法的有效性,結(jié)果表明文章方法在實際中具有一定的應(yīng)用價值。
2 基于灰色關(guān)聯(lián)分析的電采暖電量影響因素分析
與一般的電力負荷不同,電采暖負荷類似于夏季的空調(diào)制冷負荷,不僅具有明顯的季節(jié)氣候特性,受氣溫變化影響顯著,而且具有較強的時序特征。結(jié)合實際情況構(gòu)建電采暖電量預(yù)測模型的研究需要及資料信息的可獲取性,電采暖電量受多種因素共同影響,主要包括天氣因素、經(jīng)濟因素、用戶特征和日期類型等[3]。天氣因素主要指平均溫度、最低溫度、最高溫度和相對濕度等,相對濕度表示空氣中的絕對濕度與同溫度和氣壓下的飽和絕對濕度的比值,影響人體的舒適度[4]。經(jīng)濟因素就是該地區(qū)的經(jīng)濟發(fā)展水平,一般來說,該區(qū)域經(jīng)濟發(fā)展越好,電量越高;用戶特征主要是每日使用電采暖的用戶數(shù),相鄰月份的用戶采暖率差別較大;日期類型包括節(jié)假日和工作日,家庭用戶工作日電采暖電量較低,節(jié)假日電量偏高;商業(yè)用戶則相反,工作日電采暖電量較高,節(jié)假日電量較低。
電采暖電量各影響因素之間的關(guān)系無法用固定的公式表示,變量之間關(guān)系呈灰態(tài),是典型的灰色系統(tǒng)。同時,電量與影響因素之間的關(guān)系是非線性的,因此平常的相關(guān)性分析方法并不適用。灰色關(guān)聯(lián)分析針從模糊的角度出發(fā)分析影響因素與電量之間的關(guān)聯(lián)性,對樣本數(shù)據(jù)沒有特殊的要求。因此,相比于傳統(tǒng)的相關(guān)性分析方法,灰色關(guān)聯(lián)分析更適用于電采暖電量影響因素辨識,為建立電量預(yù)測模型打下基礎(chǔ)。
灰色關(guān)聯(lián)分析用于確定各因素對其所在模型的影響程度,根據(jù)因素之間發(fā)展趨勢的相似相異程度,為衡量因素之間的關(guān)聯(lián)程度提供了量化的度量。其基本思想是通過序列曲線幾何形狀的相似程度來判斷其聯(lián)系是否緊密,曲線越接近,相應(yīng)序列之間的關(guān)聯(lián)度就越大,反之就越小。
文章利用灰色關(guān)聯(lián)分析求取各類影響因素與電采暖電量的相關(guān)性,確定每一個因素與電采暖電量之間的關(guān)聯(lián)度,根據(jù)關(guān)聯(lián)度大小選取特征指標(biāo)。由于部分特征無法用數(shù)值表示,因此需要提前對各種影響因素進行編碼以作為輸入特征[5]。采用One-Hot編碼方式對非數(shù)值數(shù)據(jù)進行處理,不會對最后的預(yù)測結(jié)果產(chǎn)生干擾。One-Hot編碼,又稱為一位有效編碼,主要是采用N位狀態(tài)寄存器來對N個狀態(tài)進行編碼,每個狀態(tài)都有其獨立的寄存器位,并且在任意時候只有一位有效。特征編碼結(jié)果如表1所示。
灰色關(guān)聯(lián)分析方法的具體計算步驟如下:
(1)確定分析數(shù)列,根據(jù)分析目的確定分析指標(biāo)體系,確定反映系統(tǒng)行為特征的參考數(shù)列和影響系統(tǒng)行為的比較數(shù)列,參考數(shù)列為電采暖電量,比較序列為上述的電采暖電量特征指標(biāo)。(2)數(shù)據(jù)歸一化,由于電采暖電量與其影響因素的物理意義不同,導(dǎo)致數(shù)據(jù)的量綱也不相同,難以分析出正確的結(jié)果。(3)計算關(guān)聯(lián)系數(shù)。(4)計算關(guān)聯(lián)度,由于關(guān)聯(lián)系數(shù)是比較序列與參考序列在各個時刻的關(guān)聯(lián)程度值,所以它不止一個。因此將各個時刻的關(guān)聯(lián)系數(shù)取平均值,作為比較數(shù)列與參考數(shù)列間關(guān)聯(lián)程度的數(shù)量表示。
關(guān)聯(lián)度表示各比較數(shù)列與參考數(shù)列之間的相似關(guān)聯(lián)程度,介于0~1之間,該值越大表示比較數(shù)列與參考數(shù)列的關(guān)聯(lián)度越高,意味著比較數(shù)列與參考數(shù)列之間關(guān)系越緊密,相關(guān)性越高。
根據(jù)關(guān)聯(lián)度大小將特征指標(biāo)排序,分析指標(biāo)對電采暖電量的影響程度。關(guān)聯(lián)度最高的兩個因素為最低溫度和用戶數(shù),如表2所示。
從表2數(shù)據(jù)可知,與電采暖電量相關(guān)性最高的為用戶數(shù),關(guān)聯(lián)度為0.952;其次是最低溫度,關(guān)聯(lián)度為0.941;其他因素對電量的影響程度相對較小。這主要是因為用戶采暖率越高,用電量越多;但最低溫度和用戶數(shù)的相關(guān)性也較高,為減少預(yù)測模型的參數(shù),快速實現(xiàn)電量預(yù)測,文章只選擇月均采暖戶數(shù)構(gòu)建電量預(yù)測模型。
3 基于數(shù)據(jù)挖掘的電采暖電量預(yù)測分析工具
文章基于數(shù)據(jù)挖掘?qū)﹄姴膳娏窟M行預(yù)測,預(yù)測過程主要分三步進行:首先對原始數(shù)據(jù)進行預(yù)處理,以保證數(shù)據(jù)的質(zhì)量和可用性;其次分析用戶變化趨勢,構(gòu)建基于線性回歸算法的用戶預(yù)測模型,計算出月度平均采暖戶,結(jié)合權(quán)重系數(shù)實現(xiàn)對電采暖電量的預(yù)測;最后創(chuàng)建預(yù)測分析工具,提供電量預(yù)測的可視化分析。具體如圖1所示。
構(gòu)建基于數(shù)據(jù)挖掘的電量預(yù)測模型的主要步驟如下。
3.1 異常值和缺失值處理
在收集數(shù)據(jù)的過程中難免會出現(xiàn)數(shù)據(jù)丟失或采集異常的情況,這些值的存在會嚴(yán)重影響后續(xù)預(yù)測工作的進行。缺失值和異常值會在一定程度上影響數(shù)據(jù)的分析結(jié)果,導(dǎo)致預(yù)測誤差偏大。因此需要對原始數(shù)據(jù)中的異常值和缺失值進行相關(guān)處理,以提升數(shù)據(jù)的質(zhì)量。利用線性插值法對序列中的缺失值進行填補,通過Z-score方法查找數(shù)據(jù)中的異常值,然后取近三天的平均值替換異常值。
3.2 用戶變化趨勢
線性回歸模型是經(jīng)典的統(tǒng)計學(xué)模型,它利用數(shù)理統(tǒng)計中的回歸分析,對自變量(特征)和因變量(目標(biāo))之間相互依賴的定量關(guān)系進行建模,是一種思想簡單的統(tǒng)計分析方式[6]。其基本原理是尋求一組自變量與因變量之間近似的線性函數(shù)關(guān)系,根據(jù)自變量的個數(shù)可分為一元線性回歸和多元線性回歸,一元線性回歸只包括一個自變量和一個因變量,二者關(guān)系可用一條直線近似表示;多元線性回歸包括兩個或兩個以上的自變量,且因變量和自變量之間是線性關(guān)系。線性回歸是回歸算法中最簡單、實用的算法之一,計算速度快,模型容易理解,具有很好的可解釋性。
統(tǒng)計處理后的每日用戶數(shù),利用線性回歸算法擬合每月電采暖用戶數(shù)與日期之間的線性關(guān)系。為優(yōu)化每月的擬合效果,將日期換算為相對于每月1號的天數(shù),如2022年11月9日就等效為第9天。文章只分析用戶數(shù)與日期之間的關(guān)系,因此,選擇一元線性回歸建立用戶預(yù)測模型,分析用戶數(shù)變化趨勢?,F(xiàn)有采暖用戶的擬合結(jié)果如表3所示。
通過分析2022年最低溫度及采暖用戶變化趨勢,2022年11月初始用戶數(shù)選擇去年11月和12月采暖用戶的均值。
3.3 月均采暖戶
根據(jù)線性回歸算法建立的用戶預(yù)測模型,利用現(xiàn)有的采暖用戶數(shù)預(yù)測未來幾個月的用戶數(shù),計算得到每個月的日均采暖用戶數(shù),即月均采暖戶。
3.4 電量預(yù)測模型
統(tǒng)計現(xiàn)有的平均采暖戶較去年同比增加的百分率,作為預(yù)測采暖電量時的權(quán)重。根據(jù)現(xiàn)在的采暖用戶數(shù)權(quán)重計算得到預(yù)計新增采暖戶,采暖電量與平均采暖戶的比值為用戶月均電量,兩者相乘即可預(yù)測出新增電量。
電采暖電量預(yù)測需要考慮多種因素,如天氣變化、用戶行為等,因此使用文章方法預(yù)測時需要綜合考慮多種因素,根據(jù)用戶變化及時調(diào)整平均采暖戶,以提高預(yù)測的準(zhǔn)確性。
針對電采暖電量預(yù)測分析,有效的數(shù)據(jù)分析平臺可提高電量預(yù)測的自動化、可視化以及科學(xué)化,結(jié)合實際工作中的分析流程,方便工作人員進行操作,為數(shù)據(jù)分析、電量預(yù)測提供有效支撐。預(yù)測分析工具的主要功能架構(gòu)如圖2所示。
3.4.1 數(shù)據(jù)管理
電量預(yù)測所需要的數(shù)據(jù)主要來源于調(diào)度的檔案、采集和關(guān)口電量等數(shù)據(jù),提供了數(shù)據(jù)集成接入、利用Excel模板導(dǎo)入以及人工維護3種功能。對導(dǎo)入后的數(shù)據(jù)進行數(shù)據(jù)校驗,甄別異常數(shù)據(jù)(零數(shù)據(jù)或突變數(shù)據(jù)),處理數(shù)據(jù)序列中的缺失值和異常值。
3.4.2 模型參數(shù)
選擇電采暖電量、采暖用戶和權(quán)重系數(shù)作為預(yù)測模型參數(shù),工作人員可查看詳細數(shù)據(jù),以便更好地開展工作。
3.4.3 模型預(yù)測
通過模型參數(shù)對月均采暖戶和新增采暖戶優(yōu)化分析及調(diào)整,實現(xiàn)電采暖電量預(yù)測。
4 算例分析
收集河北某地2021年11月1日至2022年2月28日時間段的電采暖電量相關(guān)數(shù)據(jù),預(yù)測2022年11月至2023年2月的電采暖電量。首先利用線性回歸算法預(yù)測每月的采暖用戶數(shù),計算得到月均采暖戶。然后分析電量趨勢,計算現(xiàn)有的月均采暖戶較去年同比增加的百分率;最后代入模型計算得到電量預(yù)測值,由新增采暖戶估計出新增電量。利用預(yù)測工具構(gòu)建的電量預(yù)測模型如表4所示,22年11月和12月,相比2021年11月和12月,新增電量分別增加43.77%和14.02%;23年1月和2月,相比2022年1月和2月,新增電量分別為4.84%和2.71%。
雙向LSTM網(wǎng)絡(luò)是基于時間序列的預(yù)測,當(dāng)前時間點臨近過去和未來的序列信息都可用于評估當(dāng)前時刻,且不依賴預(yù)定義參數(shù)。然而LSTM神經(jīng)網(wǎng)絡(luò)只能使用某一時刻之前的輸入信息來預(yù)測結(jié)果。雙向LSTM則基于整個時間序列對輸出進行預(yù)測,同時包括過去和未來的序列信息。構(gòu)建雙向LSTM網(wǎng)絡(luò)預(yù)測模型,驗證文章預(yù)測方法的有效性。
基于雙向LSTM網(wǎng)絡(luò)預(yù)測電采暖電量,建立預(yù)測模型的步驟具體如下。
(1)首先將隱藏層神經(jīng)元分成正時間方向和負時間方向2個部分,具有2個獨立的隱藏層,然后前饋到相同的輸出層,同時包括過去和未來的序列信息。第1層LSTM計算當(dāng)前時間點順序信息,第2層LSTM反向讀取相同的序列,添加逆序信息,每層的LSTM具有不同參數(shù)。
(2)按照灰色關(guān)聯(lián)分析的特征指標(biāo)關(guān)聯(lián)度的順序,依次選擇不同數(shù)目的特征指標(biāo)。采用雙向LSTM網(wǎng)絡(luò)對其進行電量預(yù)測,以均方誤差來衡量預(yù)測結(jié)果,選取均方誤差最小的特征指標(biāo)作為模型輸入,建立基于雙向LSTM網(wǎng)絡(luò)的電采暖電量預(yù)測模型。
(3)在模型訓(xùn)練階段,最重要的參數(shù)是雙向LSTM網(wǎng)絡(luò)隱藏層的層數(shù)和神經(jīng)元的數(shù)量。層數(shù)越多、隱藏神經(jīng)元數(shù)量越多,模型的非線性擬合能力和泛化能力就越強,但網(wǎng)絡(luò)模型復(fù)雜度和訓(xùn)練時長也會大幅增加。確定LSTM模型的層數(shù)及其隱藏神經(jīng)元數(shù)量的具體步驟是:首先搜索單層模型的最佳隱藏單元數(shù)量并將其固定;然后增加一層隱藏層,繼續(xù)搜索該層的最佳隱藏神經(jīng)元數(shù)量;反復(fù)迭代,直到確定均方誤差最小時所對應(yīng)的層數(shù)及神經(jīng)元數(shù)量,作為雙向LSTM模型的最終參數(shù)。
(4)選擇待預(yù)測的數(shù)據(jù)輸入雙向LSTM網(wǎng)絡(luò)預(yù)測模型,輸出電采暖電量預(yù)測結(jié)果。對比兩種預(yù)測方法,如表5所示。
根據(jù)表5可知,文章提出的預(yù)測方法和雙向LSTM網(wǎng)絡(luò)均具有較高的預(yù)測精度,模型預(yù)測效果更優(yōu)。但該方法模型參數(shù)簡單且計算時間短,具有廣闊的應(yīng)用前景。
5 結(jié)語
文章主要以電采暖電量的影響因素為基礎(chǔ),通過灰色關(guān)聯(lián)分析求取電量的關(guān)鍵影響因素,選擇采暖用戶數(shù)作為主要特征,構(gòu)建了基于線性回歸算法的用戶預(yù)測模型,通過月均采暖戶和權(quán)重系數(shù)實現(xiàn)電采暖電量預(yù)測,并創(chuàng)建了電量預(yù)測分析工具。根據(jù)河北某市的實際電量數(shù)據(jù),驗證文章方法的有效性。相比于雙向LSTM網(wǎng)絡(luò),兩種方法均可實現(xiàn)電采暖電量的準(zhǔn)確預(yù)測,但文章預(yù)測方法模型參數(shù)少,可調(diào)節(jié)性好,且計算時間短。文章所用方法簡化了電采暖電量的預(yù)測方法,表明了該方法的實用性,對推進電采暖的實施管理具有較高的實際意義。
參考文獻
[1]趙陽,范文奕,安佳坤,等.基于智能加權(quán)混合模型的新型電力系統(tǒng)電量預(yù)測方法[J].電測與儀表,2022,59(12):56-63.
[2]張杰,薛太林,解張超,等.基于改進AHP法和改進熵權(quán)法結(jié)合的組合電量預(yù)測模型[J].電氣自動化,2022,44(6):28-31.
[3]羅靜.基于新裝用戶用電特征的行業(yè)電量預(yù)測方法研究[D].天津:天津職業(yè)技術(shù)師范大學(xué),2023.
[4]焦宗舉.基于數(shù)據(jù)挖掘的BB供電公司售電量預(yù)測研究與應(yīng)用[D].重慶:重慶工商大學(xué),2022.
[5]孫旺青,劉曉峰,何沁蔓.基于相似月和Elman神經(jīng)網(wǎng)絡(luò)的行業(yè)月度售電量預(yù)測[J].電力需求側(cè)管理,2022,24(4):53-58.
[6]王梓屹,王越涵.基于小波分析的月售電量預(yù)測方法[J].東北電力技術(shù),2022,43(5):14-21.