李鵬輝, 崔承剛, 楊 寧, 陳 輝
(上海電力學(xué)院 自動化工程學(xué)院,上海 200090)
隨著我國城鎮(zhèn)化建設(shè)的高速發(fā)展,樓宇建筑能耗的比重也將持續(xù)上升。為了緩解能源危機、改善環(huán)境惡化,降低樓宇能耗、提高能效管理已成為業(yè)界重點關(guān)注的問題。這使得樓宇負荷預(yù)測成為泛在電力物聯(lián)網(wǎng)建設(shè)的一項重要研究內(nèi)容。精確的負荷預(yù)測,可以為樓宇能效管理系統(tǒng)制定用電需求響應(yīng)和負荷調(diào)度規(guī)劃提供決策依據(jù),有利于優(yōu)化供需平衡,提高用電設(shè)備的利用率,對智能電網(wǎng)的節(jié)能調(diào)度和穩(wěn)定運行具有重要意義[1]。
目前,國內(nèi)外對短期負荷預(yù)測模型的研究主要分為兩類。一類是線性模型,文獻[2]運用協(xié)整理論并考慮帶輸入變量溫度序列,建立了ARIMAX模型來進行短期負荷預(yù)測,極大地提高了預(yù)測精度;文獻[3]采用regARIMA模型對消除離群值影響的月負荷數(shù)據(jù)進行預(yù)測,改善了預(yù)測效果。上述模型的研究對象均為地區(qū)負荷,其變化規(guī)律具有較強的周期性,若細化到單個樓宇負荷時,由于樣本數(shù)據(jù)的波動性和隨機性較大,采用線性模型將會增大預(yù)測誤差。另一類是非線性模型,文獻[4]采用DBN-SVM組合模型來預(yù)測未來小時負荷,其預(yù)測精度較高,但忽略了不同時間序列負荷數(shù)據(jù)間的關(guān)系;文獻[5]將注意力機制(Attention)與長短期記憶神經(jīng)網(wǎng)絡(luò)(Long-Short Term Memory,LSTM)相結(jié)合,突出對負荷預(yù)測起關(guān)鍵作用的輸入特征,建立多步長、多變量的短期負荷預(yù)測模型,有效提高了預(yù)測精度。上述研究均對非線性模型進行了優(yōu)化,其預(yù)測效果良好。作為時間序列的樓宇負荷,由于預(yù)測模型的誤判、擬合不足或過度擬合等問題,采用單一人工神經(jīng)網(wǎng)絡(luò)進行建模的效果不一定最好[6]。因此,組合線性和非線性模型可以提高系統(tǒng)的準確性[7]。
同時,在利用線性和非線性組合模型進行負荷預(yù)測的研究中,文獻[8-10]采用組合預(yù)測方法分別處理時間序列和誤差序列,提高了預(yù)測的精度,其中誤差序列是通過原始序列和線性預(yù)測之間的差異獲得的。根據(jù)BOX G E和JENKINS G M設(shè)計的自回歸差分移動平均(Autoregressive Integrated Moving Average,ARIMA)模型表明,誤差序列不應(yīng)該呈現(xiàn)線性相關(guān)[11]。因此,利用非線性模型來處理誤差序列中可能存在的一些非線性關(guān)系是合理的。
為解決單一模型無法同時兼顧時間序列數(shù)據(jù)的線性和非線性關(guān)系的問題,本文提出了一種基于ARIMA-LSTM組合模型的樓宇短期負荷預(yù)測方法。首先,考慮氣象因素和日期類型對樓宇負荷的影響,利用灰色關(guān)聯(lián)度分析法選取輸入特征量的關(guān)鍵影響因素;然后,獲取相似日樣本數(shù)據(jù);同時,綜合考慮樓宇負荷序列的線性和非線性特點,利用線性ARIMA模型進行預(yù)測;最后,采用LSTM模型進行誤差矯正。以上海市某樓宇為例,通過比較本文方法和其他方法的預(yù)測結(jié)果,驗證本文預(yù)測方法的有效性。
在樓宇短期負荷預(yù)測中,模型預(yù)測效果將受訓(xùn)練樣本數(shù)據(jù)質(zhì)量的影響,因此分析和獲取關(guān)鍵影響因素極為重要。其中,氣象因素、日期類型等外部因素是目前認為比較重要的負荷影響因素[12-14]。因此,在分析和篩選樓宇負荷預(yù)測的訓(xùn)練樣本數(shù)據(jù)時,考慮氣象因素及日期類型序列的灰色關(guān)聯(lián)度來選取相似日數(shù)據(jù)序列,可以有效提高預(yù)測精度。
氣象因素對樓宇短期負荷預(yù)測的主要影響因素有氣溫、風速、相對濕度、降雨量等[13]。隨著這些因素的變化,樓宇負荷會發(fā)生劇烈變化。同時,對于樓宇建筑負荷而言,工作日、非工作日(周六、周日和節(jié)假日)的電力負荷量也是差異顯著。
作為計算灰色關(guān)聯(lián)度的樣本,本文將選擇如下日特征因素:日期類型 、最高氣溫 、最低氣溫 、風速 、相對濕度 、降雨量。其映射值如表1所示。
由于負荷與各影響因子的量綱不同,直接將不同量綱的數(shù)據(jù)輸入預(yù)測模型進行訓(xùn)練,容易造成模型不收斂,進而影響負荷預(yù)測的準確度。文獻[15]的研究表明,對樣本數(shù)據(jù)進行歸一化處理可以提高模型的收斂速度。因此,本文將采用最大最小歸一化處理,將各影響因素樣本數(shù)據(jù)轉(zhuǎn)換到[0,1]內(nèi),其計算公式為
(1)
式中:X*——歸一化后的值;
X——樣本序列值;
Xmin——X中的最小值;
Xmax——X中的最大值。
表1 日特征因素的映射值
針對樓宇負荷影響因素較多的情況,本文采用灰色關(guān)聯(lián)度分析法,利用氣象因素、日期類型與負荷序列之間發(fā)展趨勢的相似或相異程度來選取關(guān)鍵影響因素。
設(shè)待預(yù)測日的特征向量為Yj={y1,y2,y2,…,ym},j=1,2,3,…,m,第i個歷史日的特征向量為Xij={xi1,xi2,xi3,…,xim},i=1,2,3,…,n,其中m為影響因子個數(shù),n為歷史記錄天數(shù)。以待預(yù)測日特征向量Yj為參考序列,歷史日特征向量Xij為比較序列,則灰色關(guān)聯(lián)度的計算步驟如下。
首先,求兩極的最大差和最小差,公式分別為
(2)
(3)
然后,記βij為Yj在Xij處的關(guān)聯(lián)系數(shù),則
(4)
式中:ρ——分辨系數(shù),一般在[0,1]之間取值,取ρ=0.5;
ΔZij=|Yj-Xij|。
計算各影響因子的灰色關(guān)聯(lián)權(quán)重為
(5)
最后,可計算灰色關(guān)聯(lián)度為
(6)
挑選出關(guān)鍵影響因素后,以該因素數(shù)據(jù)序列為對象來選擇樓宇負荷預(yù)測的相似日。余弦距離是最常用的相似度量方法,利用向量夾角的余弦值即向量方向來刻畫相似度,可以不受維度影響,范圍限定在[1,2]內(nèi)。因此,本文選用余弦距離進行相似度量。
設(shè)某兩天關(guān)鍵影響因素數(shù)據(jù)序列為Lp=[lp1,lp2,lp3,…,lpt]和Lq=[lq1,lq2,lq3,…,lqt],t=1,2,3,…,n,則兩負荷日之間的余弦距離為
(7)
其中,cosFpq的數(shù)值越大,則影響因素序列曲線形態(tài)差異越小,負荷的相似度也就越高。
樓宇負荷序列中含有線性分量和非線性分量,僅采用單一模型難以充分學(xué)習(xí)負荷序列的特性。本文采用線性和非線性模型組合的方法來預(yù)測樓宇負荷,利用線性模型ARIMA擬合時間序列的負荷數(shù)據(jù),最大程度地消除數(shù)據(jù)中的線性成分,然后利用非線性模型LSTM來預(yù)測線性模型無法擬合的誤差序列,并以此來校正最終預(yù)測結(jié)果,充分發(fā)揮了線性模型和非線性模型的預(yù)測性能。
ARIMA模型是由BOX G E和JENKINS G M[16]提出,其在時間序列分析中的能力和靈活性已得到廣泛證明。ARIMA(p,d,q)模型由p階自回歸模型AR(p)、q階移動平均模型MA(q)和產(chǎn)生平穩(wěn)序列的差分次數(shù)d組成,通過差分處理將非平穩(wěn)的時間序列平穩(wěn)化,然后對因變量的滯后值以及隨機誤差項的當前值和滯后值進行回歸。本文根據(jù)赤池信息準則(Akaike Information Criterion,AIC)來確定模型的最佳階次,最終建立ARIMA(2,1,2)模型,滿足了模型平穩(wěn)性要求,并有效地消除了預(yù)測中存在的隨機波動。
神經(jīng)網(wǎng)絡(luò)是一種可用于逼近任何非線性函數(shù)的有效工具,在處理非線性問題時受到廣泛使用[17]。其中,循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)由SATHASIVAM S[18]于1982年提出,主要用于處理和預(yù)測時間序列數(shù)據(jù),通過時間反向傳播或?qū)崟r循環(huán)學(xué)習(xí)算法進行訓(xùn)練。
但是,由于實際中序列過長會導(dǎo)致優(yōu)化時出現(xiàn)梯度消失或爆炸的問題,經(jīng)常造成訓(xùn)練結(jié)果較差。HOCHREITER S和SCHMIDHUBE J[19]提出了一種長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM),作為RNN的變體,專門用于克服梯度消失問題,能夠長時間存儲信息。
LSTM神經(jīng)網(wǎng)絡(luò)由輸入層、輸出層和介于其間的多個隱藏層構(gòu)成。其中,隱藏層被構(gòu)造成具有記憶功能的單元,每個單元包含了3個門,分別是遺忘門(Forget Gate)、輸入門(Input Gate)和輸出門(Output Gate)[20]。標準的LSTM神經(jīng)網(wǎng)絡(luò)記憶單元如圖1所示。
圖1 標準的LSTM網(wǎng)絡(luò)記憶單元
在遺忘門中,每個輸入xt,前一時刻單元輸出ht-1和前一時刻單元狀態(tài)ct-1共同決定了狀態(tài)記憶單元的遺忘部分;輸入門中,在sigmoid和tanh函數(shù)的激活下,將單元狀態(tài)ct-1更新到ct;輸出門中,更新后的單元狀態(tài)ct再一次通過sigmoid和tanh函數(shù),有選擇地輸出ht。LSTM神經(jīng)網(wǎng)絡(luò)單元可以用以下方程組進行定義:
ft=σ(Wf[ht-1,xt]+bf)
(8)
it=σ(Wi[ht-1,xt]+bi)
(9)
ot=σ(Wo[ht-1,xt]+bo)
(10)
gt=tanh(Wg[ht-1,xt]+bg)
(11)
ct=gt·it+ft·ct-1
(12)
ht=ot·tanh(ct)
(13)
式中:ft,it,ot,gt——遺忘門,輸入門,輸出門,備選狀態(tài);
ct,ht——當前輸入更新后的單元狀態(tài),當前的預(yù)測或輸出狀態(tài);
Wf,Wi,Wo,Wg——相應(yīng)門的權(quán)重矩陣;
bf,bi,bo,bg——各相應(yīng)門的偏移量;
σ——sigmoid激活函數(shù);
tanh——雙曲正切激活函數(shù);
·——向量中元素按位相乘。
設(shè)原始負荷數(shù)據(jù)集為H=[h1,h2,h3,…,hn],利用ARIMA模型得到H的歷史數(shù)據(jù)擬合序列A=[A1,A2,A3,…,An]和預(yù)測序列PA=[P1,P2,P3,…,Pt],將擬合值與負荷實際值相比較,得到擬合誤差序列ΔA=[ΔA1,ΔA2,ΔA3,…,ΔAn],計算公式為
ΔAi=hi-Ai,i=1,2,3,…,n
(14)
擬合誤差序列ΔA在一定程度上減少了線性分量的影響,使得負荷的非線性特性較強。神經(jīng)網(wǎng)絡(luò)模型的非線性學(xué)習(xí)性能適用于擬合誤差序列的預(yù)測校正,因此本文利用LSTM神經(jīng)網(wǎng)絡(luò)對擬合誤差序列ΔA進行預(yù)測,得到非線性誤差預(yù)測項ΔLt,其計算公式為
ΔLt=f(ΔAt-1,ΔAt-2,…,ΔAt-n)+εt
(15)
式中:f(·)——LSTM的非線性建模;
εt——隨機誤差,無法預(yù)測。
將預(yù)測值ΔLt作為負荷誤差預(yù)測結(jié)果,進一步學(xué)習(xí)誤差序列的非線性特征,輸出一個穩(wěn)定有效的預(yù)測結(jié)果并進行誤差校正,最后得到ARIMA-LSTM組合模型的預(yù)測結(jié)果為
PALt=Pt+ΔLt
(16)
本文提出的ARIMA-LSTM組合模型預(yù)測步驟為:將相似日負荷訓(xùn)練集數(shù)據(jù)輸入到ARIMA模型中,得到線性負荷預(yù)測值;比較負荷訓(xùn)練數(shù)據(jù)和線性擬合數(shù)據(jù),得到擬合誤差序列;結(jié)合相似日的關(guān)鍵氣象因素數(shù)據(jù),利用LSTM模型預(yù)測擬合誤差序列;將線性擬合預(yù)測值與非線性誤差預(yù)測值相加,得出組合模型最終的負荷預(yù)測結(jié)果。
本文以上海市某樓宇2011年9月2日至2012年3月12日的歷史負荷數(shù)據(jù)為樣本,對該樓宇2012年3月13日至3月19日的短期負荷進行預(yù)測。實驗數(shù)據(jù)包含負荷數(shù)據(jù)、氣象數(shù)據(jù)和日期類型數(shù)據(jù),采樣間隔均為1 h,每天記錄24個數(shù)據(jù)點。利用灰色關(guān)聯(lián)度相似日選擇和ARIMA-LSTM組合模型進行樓宇短期負荷預(yù)測的具體流程如圖2所示。
圖2 樓宇短期負荷預(yù)測流程
選用平均絕對誤差(MAE)、均方根誤差(RMSE)和平均絕對百分比誤差(MAPE)等統(tǒng)計指標對模型的負荷預(yù)測性能進行評價。其計算公式分別為
(17)
(18)
(19)
式中:N——預(yù)測點總個數(shù);
Pt——負荷預(yù)測值。
采用歸一化方法去除負荷數(shù)據(jù)和氣象數(shù)據(jù)的量綱,并計算負荷與各影響因素之間的灰色關(guān)聯(lián)度,結(jié)果如表2所示。從表2可以看出,日期類型和氣溫對負荷的影響較大,故本文只選取這兩項作為關(guān)鍵影響因素。
表2 各影響因素的灰色關(guān)聯(lián)度結(jié)果
以2012年3月13日為例,采用余弦距離法選出與預(yù)測日的日期類型和氣溫情況最相近的15個歷史日作為相似日,如表3所示。將所選取的15個相似日的日期類型數(shù)據(jù)、氣溫數(shù)據(jù)和負荷數(shù)據(jù)作為組合預(yù)測模型的訓(xùn)練集。經(jīng)多次實驗確定ARIMA模型的參數(shù)為(2,1,2),LSTM神經(jīng)網(wǎng)絡(luò)的隱藏層有50個神經(jīng)元,訓(xùn)練塊大小(batch_size)為32,訓(xùn)練次數(shù)(epochs)為50。
表3 2012年3月13日的相似日選擇結(jié)果
為比較不同模型的預(yù)測效果,本文采用ARIMA模型、LSTM模型、ARIMA-SVM組合模型和ARIMA-LSTM組合模型,分別對該辦公樓宇2012年3月13日至19日中每天24個時刻(時間間隔1 h)的負荷進行預(yù)測,并計算出每天的平均絕對誤差eMAPE,各模型的預(yù)測結(jié)果誤差曲線如圖3所示。
同時,為進一步分析不同預(yù)測模型的預(yù)測效果,表4列出了各模型在連續(xù)7個預(yù)測日的平均絕對誤差結(jié)果。由表4可以看出,ARIMA模型的平均絕對誤差為5.53%,遠大于其他3種模型,而ARIMA-LSTM模型預(yù)測連續(xù)7天負荷的eMAPE為2.45%,小于其他3種模型,預(yù)測效果最好。
表4 4種模型的預(yù)測效果對比
為進一步分析模型的性能,利用4種模型分別對2012年3月下旬的某一天進行負荷預(yù)測,將各負荷模型的預(yù)測值與實際負荷數(shù)據(jù)進行比較,計算出各個時刻負荷預(yù)測的絕對誤差百分比,如圖4所示。由圖4可以看出,各負荷預(yù)測模型的預(yù)測數(shù)值均出現(xiàn)不同程度的偏差。
圖4 4種模型的絕對百分比誤差對比
結(jié)合圖4中各模型負荷預(yù)測的誤差百分比分布,利用統(tǒng)計學(xué)原理,分別統(tǒng)計出各時刻預(yù)測誤差小于3%的概率,如表5所示。由表5可以看出:本文所提出的ARIMA-LSTM組合模型的預(yù)測誤差小于3%的概率要遠高于其他3種模型,表明該方法在負荷預(yù)測上的準確度更高;同時,ARIMA-LSTM組合模型的平均絕對誤差eMAPE為2.02%,平均絕對誤差eMAE為78.85 kW,均方根誤差eRMSE為97.91 kW,均小于其他模型,由此可見ARIMA-LSTM組合模型在控制預(yù)測誤差方面效果更理想。
表5 4種模型預(yù)測的誤差概率統(tǒng)計情況
本文提出了一種基于ARIMA-LSTM組合模型的樓宇短期負荷預(yù)測方法,通過灰色關(guān)聯(lián)度和余弦距離篩選出相似日訓(xùn)練樣本數(shù)據(jù),然后結(jié)合ARIMA模型的線性特點和LSTM模型的非線性優(yōu)勢預(yù)測樓宇短期負荷,有效提高了預(yù)測精度,從而為智能樓宇能量管理系統(tǒng)提供了更準確的數(shù)據(jù)基礎(chǔ)。但文中僅對單一樓宇進行了研究,未來可考慮結(jié)合并行技術(shù)和遷移學(xué)習(xí)實現(xiàn)對海量樓宇用戶數(shù)據(jù)的預(yù)測研究,提高運算效率。