孫志翔,丁 彬,孫曉燕
(1.國網江蘇省電力有限公司 連云港供電分公司,江蘇 連云港 222000;2.中國礦業(yè)大學信息與控制工程學院,江蘇 徐州 221116)
目前,在國家電網公司所轄范圍內,己經投入運行的配電變壓器的總容量約為35億kVA,如此大規(guī)模的配電變壓器造成的電能損耗約為30~50 TWh/a,約占全電網中總發(fā)電量的3%和總損耗的30%。配電變壓器損耗居高不下的原因有很多,例如延用高損配電變壓器、過載、輕載、負荷不平均、功率區(qū)數低等,都會造成配電變壓器能耗的增加等。配電變壓器長期在輕載甚至空載狀態(tài)下運行,大大影響了變壓器的運行效率。全電網范圍內輕載運行的配電變壓器數量并不少,是供電企業(yè)節(jié)能降損工作的重點之一。所以,需要根據配電變壓器的技術參數,結合不同時期的用電量與負載情況,加強對這些變壓器的運行管理,確定其經濟運行方式,以達到節(jié)約電能的目的。
變壓器容量與負荷密切相關,要測算可釋放的變壓器容量,首先需預測已投入使用變壓器及擬使用可釋放容量變壓器的新建小區(qū)的用電負荷。負荷預測在電力系統的規(guī)劃和運行中起著重要作用。根據預測時間的不同,負荷預測可以分為4類:超短期負荷預測、短期負荷預測、中期負荷預測和長期負荷預測。
近年來,隨著深度學習的發(fā)展,長短期記憶(long?short term memory,LSTM)網絡在負荷預測中得到了成功應用。文獻[1]提出了一種基于卷積神經網絡和LSTM網絡融合的負荷預測方法,并應用于孟加拉國電力系統,對電力負荷進行短期預測。文獻[2]提出了一種基于堆疊長短期記憶網絡的模型。在優(yōu)化過程中,測試了數百個模型配置。將該模型的準確性與許多深度學習模型進行了比較,并與LTLF網絡領域的相關工作進行了比較。文獻[3]提出了一種考慮相關因素的變分模態(tài)分解和LSTM網絡混合短時負荷預測方法,并采用貝葉斯優(yōu)化算法進行了優(yōu)化。文獻[4]提出了一種LSTM網絡,用于預測為期一年的月度電力需求時間序列。文獻[5]提出了基于LSTM網絡和輕梯度提升機的組合預測模型,采用實際負荷數據進行算例分析,結果表明所提方法能夠有效結合兩種模型的優(yōu)點,在保留對時序數據整體感知的同時,兼顧非連續(xù)特征的有效信息,與其他模型相比具有更高的預測精度。
但是,上述研究都是基于待預測對象具有大量可利用歷史數據的基礎之上的。對于擬利用其他小區(qū)變壓器可釋放容量的新建小區(qū),如何預測其未來需要的用電量,由于缺少任何先驗知識,因此該負荷預測具有極大難度,傳統的負荷預測方法不再簡單適用。針對此,本文提出基于相似小區(qū)特征遷移的新建小區(qū)負荷預測方法。處理零樣本新建設小區(qū)的中長期規(guī)劃問題時,應以現有的周邊成熟小區(qū)信息為依托,結合電網公司大數據平臺,構建相似小區(qū)群體的數據網絡,并利用遷移學習從數據網絡中遷移出與新建設小區(qū)特征高度相似的數據信息及預測模型參數,最終完成新建設小區(qū)的中長期預測模型。不同于成熟小區(qū)的預測,新建設小區(qū)可供訓練預測模型的數據量為0,成熟小區(qū)至少有幾個月的歷史數據,因此新建設小區(qū)的預測首先要實現從0到1,既而從1到多的過程,而完成從0到1的過程中,新建設小區(qū)的輔助信息必不可少。
鑒于此,針對新建小區(qū)可獲得的信息情況,提出了相應的解決方法[6]。首先,分別針對數據完備情況下的新建設小區(qū)中長期預測,以及信息缺失情況下的新建設小區(qū)中長期預測,提出相應的預測方案。其中,數據完備是指:① 每戶需在現有特征基礎上提供個性化特征,為避免泄露隱私,可進行脫敏操作;② 所有小區(qū)的全部戶主列表,即需要每家每戶加上個性化特征的信息。為了完成新建設小區(qū)中長期的預測,分兩步構建兩個模型,分別對應于個體入住概率預測模型、起始預測模型、蘊含時序關系的中長期預測模型。要實現新建小區(qū)負荷的中長期時序預測,則需首先獲取初始的與小區(qū)畫像特征等因素相關的負荷數據。為此,入住概率預測和初始負荷預測采用基于因素關聯關系的極端梯度增強算法(extreme gradient boosting,XGBoost)模型;基于該模型獲得一定的基礎數據后,再采用可以有效提取時序關系的門控循環(huán)單元(gated re?current unit,GRU)網絡實現對負荷中長期的預測。
本文的主要貢獻在于:① 零歷史負荷樣本下,分別針對新建小區(qū)在可獲得充足的用戶信息,以及無法獲得用戶隱私數據兩種情況下的負荷預測,給出了基于特征相似度的算法框架;② 針對零初始負荷數據但又考慮負荷時序性特性的情況,提出了融合XGBoost和GRU的聯合負荷預測策略。
由于沒有歷史數據的支撐,處理零樣本問題往往需要從提供的數據中進行遷移學習。這里采用客觀分析,對小區(qū)畫像,從所在區(qū)、占地面積、建筑面積、交房時間、戶型、樓棟總數、總戶數、車位數、裝修狀況、容積率、綠化率、均價及物業(yè)信息等方面確定小區(qū)個性化特征。遷移與新建設小區(qū)信息從房產咨詢網站上各個小區(qū)的基礎建設信息中獲得。居民用電中,測算變壓器容量時主要基于用戶數量和建筑面積。此外,還需要考慮公共用電相關因素,因此這里選用建筑面積、戶型、樓棟總數、總戶數、車位數、裝修情況、容積率、綠化率、均價為主要特征α。令α=[a1,a2,...,a9],并采用余弦相似度作為衡量成熟小區(qū)與新建設小區(qū)之間相似關系的技術手段,選擇相似度高于95%的小區(qū)作為相似小區(qū),并遷移其相關數據進行新建小區(qū)入住率和負荷的預測。特征指標如表1所示。
表1 小區(qū)間相似度衡量特征指標Table 1 Community similarity measure characteristic indexes
在獲取到與新建設小區(qū)特征相似度達到閾值的某小區(qū)樣本集后,對于待預測的新建設小區(qū)而言,由于有足夠完備的戶主個性化信息,因此可以通過成熟小區(qū)的數據量訓練一個入住概率預測模型,將新建設小區(qū)的各戶戶主信息輸入,從而預測每戶入住概率,為下一步用電量的估算做鋪墊。
所需完備特征為用戶編號、用戶名稱、用電地址、戶主年齡、戶口人數、戶主職業(yè)、個人征信、電費繳納方式、行業(yè)分類、用戶類別、合同容量、運行容量、供電電壓、定價策略、用電性質、月份等。通過分析,將已有特征整理為戶主年齡、戶口人數、戶主職業(yè)、個人征信、電費繳納方式、行業(yè)分類、用戶類別、用電性質、季節(jié)、合同容量、供電電壓、年、月份、年月差距。特征指標如表2所示。樣本輸入集如下所示
表2 樣本集特征指標Table 2 Sample set characteristic indexes
將成熟小區(qū)的以上特征數據集作為訓練集,完成XGBoost模型的訓練,新建設小區(qū)的用戶特征數據集作為測試集,測試集輸入如下所示
對新建設小區(qū)而言,在沒有歷史數據的前提下,模型的構建無法包含變化規(guī)律。因此首先要完成新建設小區(qū)前兩個采樣點的負荷預測,為下面構建蘊含時序關系的預測模型提供時序依據。與1.2節(jié)類似,輸入特征仍為戶主年齡、戶口人數、戶主職業(yè)、個人征信、電費繳納方式、行業(yè)分類、用戶類別、用電性質、季節(jié)、合同容量、供電電壓、年、月份、年月差距。樣本輸入集如下所示
與LSTM相比較,GRU精簡了門控單元個數,從而提升收斂速度而不影響精度。GRU結構如圖1所示,只有兩個門控結構:重置門rt與更新門zt。它將遺忘門和輸入門合并為重置門,只保留遺忘功能,控制上一時刻狀態(tài)信息的遺忘程度。重置門的值越小,表明歷史信息遺忘的比例越大。更新門則決定前一時刻與當前時刻的信息結合程度,更新門的值越小,說明模型的輸出更貼近前一時刻即上一隱層狀態(tài),同時配合合并細胞狀態(tài)與隱藏狀態(tài)達到簡化模型結構的目的。模型表示如下
圖1 GRU結構圖Fig.1 Structure chart of GRU
式中:ht為當前時刻的狀態(tài)信息,維度由隱層節(jié)點數決定;σ為sigmoid激活函數;?為矩陣乘法;[],為左右變量的連接;*為矩陣的哈達瑪積;Wz、Wr、W分別為更新門、重置門與當前記憶的權重。
在求得兩個月數據之后,為了加強相鄰月份間用電量的聯系,同時方便日后的數據接入從而實現模型更新,構造出的新建設小區(qū)負荷預測模型需要涵蓋時序關系。因此首先對特征進行重新構造,加入歷史負荷特征,特征指標如表3所示,然后采用GRU神經網絡對訓練樣本集進行建模,GRU時間窗口參數為2,訓練精度達到要求后,將預測出的新建設小區(qū)前兩個月負荷值作為歷史負荷特征d1,12、d2,12,構造出待預測點對應的如下特征,即
表3 樣本集特征指標Table 3 Sample set characteristic indexes
圖2 基于特征相似小區(qū)的新建設小區(qū)負荷預測模型Fig.2 Load forecasting model of newly constructed community based on similar characteristic community
采用該方法預測,顯然需要獲取大量用電用戶的個性化信息,特別是戶主年齡、職業(yè)、個人征信、家庭人口等[7]。實際應用時,這些特征難以獲取,那么,小區(qū)入住率和負荷預測的精度難以保障,上述方法的實用性就受到了極大的限制。因此,本文進一步考慮部分用戶個性化隱私數據缺失下的新建小區(qū)中長期預測模型的構建。
因為相較于數據完備情況下的負荷預測,信息缺失使現有數據潛在價值無法被充分發(fā)掘。其中最為重要的是僅提供整個小區(qū)部分用戶的信息導致所有用戶每月入住概率信息無法獲取,所以上述方法不再適用。為了完成此情況下新建設小區(qū)中長期的預測,需要重新選擇小區(qū)畫像特征[8],進而選擇相似小區(qū),對其進行數據遷移,構造新建設小區(qū)用戶樣本。本節(jié)將分3步構建3個模型,分別對應于第一個月的XGBoost預測模型、第二個月的XGBoost預測模型、蘊含時序關系的GRU中長期預測模型。
同1.1節(jié)采用余弦相似度作為衡量成熟小區(qū)與新建設小區(qū)之間相似關系的技術手段,在獲取到與新建設小區(qū)特征相似度達到閾值95%的某小區(qū)樣本集后,對于待預測的新建設小區(qū)來說,第一個預測點的難度是最大的,在沒有歷史數據的情況下常采用經驗法。由于新建設小區(qū)第一個月的用電個體數量無法得知,且用電規(guī)律也無法挖掘,所以隨之而來的不確定性問題也是顯而易見的,因此第二步著重解決新建設小區(qū)第一個月的預測問題,從已有數據入手,決定采用XGBoost作為第一個月的預測模型,參數如表4所示。
表4 XGBoost參數Table 4 XGBoost parameteres
遷移的樣本集特征為用戶編號、用戶名稱、用電地址、行業(yè)分類、用戶類別、合同容量、運行容量、供電電壓、定價策略、用電性質、月份等。通過分析將已有特征整理為行業(yè)分類、用戶類別、用電性質、季節(jié)、合同容量、總容量、供電電壓、年、月份、上房年、上房月份、年月差距。其中總容量為已有數據的最后一個月的全體用戶合同容量之和,并認為最后一個月上房率為100%。項目的最終目的是求小區(qū)配變容量,總容量雖不同于此,但卻緊密相連,因此加入總容量特征是為了能在沒有歷史數據的前提下挖掘個體與總容量的關系,通過模型訓練作用于負荷,并在最后反饋至小區(qū)配變容量。樣本集為
從新建設小區(qū)角度出發(fā),預測第一個點時,輸入特征如表5所示。沒有歷史數據,所以選取XGBoost模型進行樣本集的訓練,從而完成新建設小區(qū)第一個月的擬合。以作為訓練集,根據兩個小區(qū)相似性作為入住率相似性的衡量標準(新建設小區(qū)第一個月的會有哪些用戶用電并不知道,僅知道每戶居民及物業(yè)設施的登記信息),將樣本集年月差距為零的月入住率與新建設小區(qū)的用戶登記信息個數相乘,得到驗證樣本數m,并從用戶登記信息中隨機挑選m條數據,從而確定驗證集
表5 樣本集特征指標Table 5 Sample set characteristic indexes
在進行第二個月的預測時,采用預測第一個月時的思想??紤]新建設小區(qū)第一個月的用戶群體信息接入及更新,依據成熟小區(qū)的入住率構造出新建設小區(qū)的第二個月的用戶信息。與此同時,總容量更改為實時總容量,即輸入特征的月份的容量之和,并同樣采取XGBoost模型,參數如表6所示,樣本集為
表6 樣本集特征指標Table 6 Sample set characteristic indexes
式中:m為新建設小區(qū)第二個月經構造后得到的用戶個數。
在求得兩個月數據之后,為了加強相鄰月份間用電量的聯系,同時方便日后的數據接入,從而實現模型更新。構造出的新建設小區(qū)負荷預測模型需要涵蓋時序關系,并且用戶數量根據成熟小區(qū)的入住率進行構造更新,特征如表7所示。然后采用GRU神經網絡對訓練樣本集進行建模,參數如表8所示,再利用遷移學習將預測模型參數遷移,并加入新建設小區(qū)樣本進行訓練。由于新構造樣本沒有歷史數據,仍要采用2.2節(jié)所示模型進行預測處理。其中GRU時間窗口為2,輸入為待預測點前兩點對應的特征,即
表7 樣本集特征指標Table 7 Sample set characteristic indexes
算法框架如圖3所示。
圖3 數據缺失時新建小區(qū)中長期負荷預測模型Fig.3 Medium?and long?term load forecasting model for new community when data is missing
由于采集的用電數據存在丟失和異常的問題,因此在進行模型預測前對數據進行預處理,包括利用插值對丟失的數據進行填充、預測前針對異常值進行剔除、為消噪對數據進行分解或濾波。針對數據波動比較大的問題,可以對居民先聚類,然后將用電行為相似的用戶歸為一類,對聚類后的各類用戶單獨預測,然后聚合累加,從而提高居民用電負荷的預測精度。
W小區(qū)用電總負荷趨勢圖如圖4所示,縱坐標中的每個點為W小區(qū)每兩個月的總用電負荷(小區(qū)物業(yè)管理用電、城鎮(zhèn)居民用電累加和)。該折線圖統計分析了小區(qū)2020年1月至2020年11月的小區(qū)用戶負荷數據。在統計期間,小區(qū)入住率由0.62%上升為33.07%,可較直觀看出小區(qū)前期的用電負荷變化趨勢,該期間用電總負荷整體呈上升趨勢,其中2020年3月、2020年9月為兩個用電極大值點。
圖4 W小區(qū)用電總負荷趨勢圖Fig.4 Total electricity load trend chart of W community
由圖4可知,隨著入住率的提高,小區(qū)整體負荷穩(wěn)步上升,但由于季節(jié)特點,在夏、冬季用戶用電需求更大。構成折線的6個數據點間標準差為40035.44,因此波動性較大,與趨勢圖分析結果一致。
對所設置模型參數進行反復多次調整優(yōu)化,選擇了使得訓練誤差(損失函數)最小的算法參數設置,具體如表4、表8、表9所示。
表8 GRU參數Table 8 GRU parameteres
表9 XGBoost參數Table 9 XGBoost parameteres
以連云港市W小區(qū)為例,預測該小區(qū)2020年1月—2022年11月的用電情況,其中2020年1月—2020年10月小區(qū)有實際用電負荷數據,結果如表10和圖5所示。
圖5 新建設小區(qū)負荷預測結果Fig.5 New construction community load prediction result
表10 新建設小區(qū)負荷預測結果Table 10 New construction community load prediction result diagram kWh
為了說明預測結果的精度,這里采用式(14)計算2020年1月—2020年10月期間預測值yt*和真實值yt之間的偏差,結果為13.8,即這10個月預測精度為86.2%。
而由表10及圖5可以看出,在小區(qū)建設初期,由于入住率相對偏低,小區(qū)整體用電量較??;到2020年9月,小區(qū)用電量開始有明顯增長趨勢,原因是小區(qū)入住人口可能有所增加;2021年1月至2021年3月,小區(qū)用電量急劇增加,這個時段恰好是寒假和春節(jié)期間,用電量大量增加也是合理的;隨后用電量開始有所回落,但是,2021年6、7月的用電量明顯比4、5月低的多。此外,2022年5月的預測用電量比2021年5月減小了約4.5萬kWh,原因可能是預測出現了較大偏差,如何評價無參考數據的預測可靠性是需要進一步考慮的問題。
本文分別在兩種情況(數據信息完備和數據信息缺失)下完成對新建設小區(qū)的中長期負荷預測。首先,利用遷移學習的思想遷移出與新建設小區(qū)特征高度相似的特征數據集。其次,利用特征數據集作為訓練集完成XGBoost回歸模型的訓練。然后,采用GRU神經網絡對訓練樣本集進行建模,當模型達到預測精度時,從而完成蘊含時序關系的新建設小區(qū)的中長期負荷預測。最后,以W小區(qū)為例,得到了該小區(qū)在2020年1月—2022年11月時間段內的負荷預測結果。
在實際應用中,若能獲得較為全面的信息,即表2、表3中相關的特征數據,則還需進一步分析這些特征與入住率和用電負荷間的相關性,根據相關性設計相應的預測模型;此外,由于該預測是針對無歷史可驗證數據的小區(qū)進行預測,如何對預測結果精度進行評價也將是需要進一步研究的內容。