黃旭銳,于豐源,楊波,潘軍,徐欽
(廣東電網(wǎng)有限責(zé)任公司廣州供電局, 廣州 510013)
隨著全球化石能源短缺和環(huán)境污染問題的日益嚴(yán)重,要實(shí)現(xiàn)“碳達(dá)峰碳中和”目標(biāo),核心是推動(dòng)能源低碳轉(zhuǎn)型[1]。綜合能源系統(tǒng)(integrated energy system, IES)通過多種能源的協(xié)調(diào)規(guī)劃和靈活調(diào)度,不斷推動(dòng)傳統(tǒng)的能源利用模式變革,是助力雙碳目標(biāo)實(shí)現(xiàn)的關(guān)鍵技術(shù)[2]。IES涉及冷、熱、電等多種能源形式的生產(chǎn)、傳輸、儲(chǔ)存、轉(zhuǎn)換和利用,在充分消納可再生能源提高能源利用率的同時(shí),實(shí)現(xiàn)多能源互補(bǔ)協(xié)調(diào)運(yùn)行,最終實(shí)現(xiàn)環(huán)境友好和可持續(xù)發(fā)展的目標(biāo)[3]。負(fù)荷預(yù)測是IES能量管理和優(yōu)化調(diào)度的基礎(chǔ),其預(yù)測精度直接關(guān)系到系統(tǒng)的整體運(yùn)行性能[4]。
在現(xiàn)有的負(fù)荷預(yù)測方法中,多數(shù)研究都針對單一負(fù)荷類型的獨(dú)立預(yù)測展開。在單一電負(fù)荷預(yù)測方面,反向傳播神經(jīng)網(wǎng)絡(luò)、支持向量回歸(support vector machine, SVM)、決策樹[5]、長短期記憶網(wǎng)絡(luò)(long short-term memory, LSTM)[6]、極限學(xué)習(xí)機(jī)、廣義回歸神經(jīng)網(wǎng)絡(luò)[7](generalized regression neural network, GRNN)等機(jī)器學(xué)習(xí)的方法被廣泛應(yīng)用。在此基礎(chǔ)上,有文獻(xiàn)引入注意力機(jī)制,通過注意力權(quán)重選擇性關(guān)注關(guān)鍵因素,挖掘負(fù)荷數(shù)據(jù)序列的內(nèi)部規(guī)律和長期依賴關(guān)系,有利于提高負(fù)荷的預(yù)測精度[8-9]。文獻(xiàn)[10]和[11]提出基于Attention(注意力)機(jī)制的短期負(fù)荷預(yù)測模型,通過充分利用負(fù)荷數(shù)據(jù)的時(shí)序特征,并采用注意力機(jī)制突出對負(fù)荷預(yù)測起到關(guān)鍵作用的輸入特征,減少歷史序列信息的丟失并加強(qiáng)重要信息的影響。針對單一熱負(fù)荷預(yù)測的研究較少,文獻(xiàn)[12]提出了一種基于機(jī)器學(xué)習(xí)的多步短期熱負(fù)荷預(yù)測方法,比較分析神經(jīng)網(wǎng)絡(luò)、極限學(xué)習(xí)機(jī)、支持向量機(jī)、高斯過程回歸等代表性機(jī)器學(xué)習(xí)方法預(yù)測模型。文獻(xiàn)[13]提出了一種線性模型預(yù)測熱負(fù)荷,基于智能電表采集到的數(shù)據(jù)建立黑盒方法,主要思想是識(shí)別曲線特征。文獻(xiàn)[14]針對供熱預(yù)測,結(jié)合差分進(jìn)化和灰狼優(yōu)化對支持向量機(jī)回歸模型進(jìn)行優(yōu)化。
隨著綜合能源系統(tǒng)的快速發(fā)展,針對負(fù)荷預(yù)測的研究也逐漸從單一負(fù)荷類型的預(yù)測向多元負(fù)荷預(yù)測發(fā)展。文獻(xiàn)[15]借助Stacking集成學(xué)習(xí)的思想和多目標(biāo)回歸的方法來協(xié)同預(yù)測IES多元負(fù)荷。文獻(xiàn)[16]在多元負(fù)荷耦合性分析的基礎(chǔ)上設(shè)計(jì)了一種基于徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)模型的預(yù)測方法。多任務(wù)學(xué)習(xí)結(jié)構(gòu)憑借可以滿足多元輸出的要求以及共享網(wǎng)絡(luò)層的優(yōu)勢也被應(yīng)用于IES 多元負(fù)荷的聯(lián)合預(yù)測[17-19]。通過多任務(wù)學(xué)習(xí)網(wǎng)絡(luò)中的共享機(jī)制,各個(gè)子任務(wù)可以利用神經(jīng)網(wǎng)絡(luò)建立的共享學(xué)習(xí)層互相分享學(xué)習(xí)到的序列高維特征和網(wǎng)絡(luò)參數(shù)等,以充分挖掘不同能源類型負(fù)荷的耦合特征。關(guān)于多任務(wù)學(xué)習(xí)結(jié)構(gòu)中具體的神經(jīng)網(wǎng)絡(luò)搭建,文獻(xiàn)[17]采用多個(gè)限制玻爾茲曼機(jī)和BP 網(wǎng)絡(luò)構(gòu)成的深度置信網(wǎng)絡(luò)(deep belief network, DBN),文獻(xiàn)[18]和[20]采用LSTM 神經(jīng)網(wǎng)絡(luò),文獻(xiàn)[21]采用徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)。Transformer網(wǎng)絡(luò)結(jié)構(gòu)由Google提出,摒棄了傳統(tǒng)的Encoder-Decoder框架必須結(jié)合循環(huán)神經(jīng)網(wǎng)絡(luò)的固有模式,全部采用attention結(jié)構(gòu)的方式捕捉序列間的關(guān)聯(lián)性,其所具有的并行化計(jì)算和序列長期依賴性學(xué)習(xí)的優(yōu)勢為負(fù)荷預(yù)測帶來了新的發(fā)展空間[8,22]。
基于上述分析, 本文提出了一種基于Transformer 和多任務(wù)學(xué)習(xí)的綜合能源系統(tǒng)電-熱短期負(fù)荷預(yù)測模型。首先介紹了Transformer 網(wǎng)絡(luò)和多任務(wù)學(xué)習(xí)的基本原理;然后通過特征分析,構(gòu)建多任務(wù)學(xué)習(xí)輸入特征,基于Transformer 網(wǎng)絡(luò)構(gòu)建多任務(wù)學(xué)習(xí)權(quán)值共享層,最后通過全連接層輸出多能負(fù)荷的預(yù)測值;最后分析了電、熱負(fù)荷的預(yù)測結(jié)果,通過與DBN、LSTM 和SVM 模型預(yù)測結(jié)果對比及與單任務(wù)學(xué)習(xí)預(yù)測結(jié)果對比,驗(yàn)證了本文所提方法和算法的可行性。
本文的負(fù)荷預(yù)測模型網(wǎng)絡(luò)采用基于注意力機(jī)制的Transformer模型,通過輸入-編碼-解碼-輸出4個(gè)步驟得到負(fù)荷預(yù)測結(jié)果。Transformer 主要應(yīng)用在自然語言處理等領(lǐng)域,具有良好的特征抽取能力,解決了RNN 由于序列依賴關(guān)系導(dǎo)致的并行計(jì)算能力差的問題,改進(jìn)了seq2seq 編碼端損失信息的缺陷。其原理如圖1所示。
圖1 Transformer模型Fig. 1 Structure of the Transformer model
設(shè)一條數(shù)據(jù)樣本有p個(gè)數(shù)據(jù),Transformer 的輸入由單個(gè)數(shù)據(jù)值和數(shù)據(jù)位置向量相加得到。將得到的數(shù)據(jù)表示矩陣傳入編碼器,經(jīng)過注意力機(jī)制處理后的數(shù)據(jù)傳入前饋神經(jīng)網(wǎng)絡(luò),并行計(jì)算得到的結(jié)果輸入到下一個(gè)編碼器。經(jīng)過N次編碼操作得到編碼信息矩陣并傳遞到解碼器中。解碼器根據(jù)當(dāng)前預(yù)測出的數(shù)據(jù)yi預(yù)測下一個(gè)數(shù)據(jù)yi+1,這個(gè)過程需要通過掩碼操作遮蓋住yi+1之后的數(shù)據(jù)。
Transformer中編碼和解碼的輸入所添加位置編碼向量能夠表示當(dāng)前數(shù)據(jù)的位置以及不同數(shù)據(jù)之間的距離。位置編碼公式由CPE表示。
式中:Cpos為當(dāng)前數(shù)據(jù)在樣本中的位置;d為位置編碼向量的維度;i為每個(gè)值的位置索引,偶數(shù)位置使用正弦編碼,奇數(shù)位置使用余弦編碼。
注意力機(jī)制接收的是輸入或者上一個(gè)編碼器的輸出,將接收到的數(shù)據(jù)乘以不同權(quán)重得到Q、K、V3個(gè)矩陣。通過公式(3)自發(fā)得到數(shù)據(jù)之間的相似度。
式中:Q為查詢矩陣;K為關(guān)注內(nèi)容;QKT計(jì)算出對于Q在V上的注意力權(quán)重;dk為K矩陣維度,用于歸一化注意力機(jī)制;softmax為歸一化指數(shù)函數(shù)。
殘差連接用于解決多層網(wǎng)絡(luò)訓(xùn)練的網(wǎng)絡(luò)退化問題,可以讓網(wǎng)絡(luò)只關(guān)注當(dāng)前差異的部分。將輸出表述為輸入X和輸入的一個(gè)非線性變換F(X)的線性疊加X+F(X),然后經(jīng)過層標(biāo)準(zhǔn)化操作。殘差連接如圖2所示。
圖2 殘差連接示意圖Fig. 2 Schematic diagram of residual connections
將Transformer 輸出序列與訓(xùn)練樣本對應(yīng)的輸出標(biāo)簽序列進(jìn)行對比,最小化KL 散度損失函數(shù)以得到最優(yōu)網(wǎng)絡(luò)參數(shù)。KL散度是用來衡量兩個(gè)概率分布的相似性的一個(gè)度量指標(biāo),用DKL表示。設(shè)P(X)為標(biāo)簽序列,Q(X)為Transformer 預(yù)測輸出序列。KL散度計(jì)算如式(4)所示。
式中:q(xi)為Transformer預(yù)測輸出序列中第i個(gè)負(fù)荷預(yù)測值;p(xi)為標(biāo)簽序列中q(xi)對應(yīng)時(shí)刻的負(fù)荷值;l為序列長度。DKL(P||Q)為P(X)和Q(X)兩個(gè)序列的KL 散度損失函數(shù),DKL(P||Q)越小,表示兩組數(shù)據(jù)分布越接近,通過反復(fù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)以使Q(X)的分布逼近P(X)。
大多數(shù)機(jī)器學(xué)習(xí)模型都是獨(dú)立進(jìn)行學(xué)習(xí),稱為單任務(wù)學(xué)習(xí)。單任務(wù)學(xué)習(xí)用兩個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò)分別預(yù)測電負(fù)荷和熱負(fù)荷,每個(gè)網(wǎng)絡(luò)只有一個(gè)優(yōu)化目標(biāo),訓(xùn)練相互獨(dú)立,這種方式易忽略任務(wù)之間的關(guān)聯(lián)、沖突和約束等關(guān)系,難以考慮電熱負(fù)荷之間的耦合,會(huì)導(dǎo)致負(fù)荷預(yù)測整體效果無法更優(yōu)。多任務(wù)學(xué)習(xí)可以存在多個(gè)學(xué)習(xí)目標(biāo),通過使用共享機(jī)制并行訓(xùn)練多個(gè)任務(wù)。電熱負(fù)荷間存在復(fù)雜的耦合關(guān)系,大量的共享信息存在于數(shù)據(jù)中,且這些耦合特點(diǎn)難以由傳統(tǒng)特征提取方法得到。采用多任務(wù)學(xué)習(xí)的方法對電熱負(fù)荷進(jìn)行預(yù)測,能夠有效使用復(fù)雜共享信息,有助于更好地提取抽象特征,預(yù)測效果更佳。多硬參數(shù)共享[23]是常用方法之一,底層參數(shù)統(tǒng)一共享,頂層參數(shù)各個(gè)模型各自獨(dú)立。由于對于大部分參數(shù)進(jìn)行了共享,模型的過擬合概率會(huì)降低。
多任務(wù)學(xué)習(xí)總體的損失函數(shù)來源于不同任務(wù)損失函數(shù)之和,損失函數(shù)的加權(quán)方式應(yīng)該是動(dòng)態(tài)的,根據(jù)不同任務(wù)學(xué)習(xí)的階段,學(xué)習(xí)的難易程度,學(xué)習(xí)的效果等進(jìn)行調(diào)整。電負(fù)荷預(yù)測和熱負(fù)荷預(yù)測均是對系統(tǒng)負(fù)荷進(jìn)行預(yù)測,要求兩個(gè)預(yù)測任務(wù)以相近的速度來進(jìn)行學(xué)習(xí),根據(jù)此特性,選用動(dòng)態(tài)加權(quán)平均方法,利用損失函數(shù)變化率,平衡多任務(wù)學(xué)習(xí)速度。設(shè)共有K個(gè)任務(wù),任務(wù)k的權(quán)重αk(t)根據(jù)式(5)—(6)進(jìn)行計(jì)算。
式中:t為迭代次數(shù);Lk(t- 1)和rk(t- 1)分別為任務(wù)k在第t-1 次迭代時(shí)的損失函數(shù)和相對下降率;T為常數(shù),用來控制任務(wù)權(quán)重的平滑度。多任務(wù)學(xué)習(xí)如圖3所示。
圖3 多任務(wù)學(xué)習(xí)示意圖Fig. 3 Schematic diagram of multi-task learning
負(fù)荷的典型特征指標(biāo)可分為氣候特征指標(biāo)和非氣候特征指標(biāo)兩類[24]。其中,氣候特征指標(biāo)有:溫度、降雨量、濕度、風(fēng)速等;非氣候特征指標(biāo)有:負(fù)荷歷史數(shù)據(jù)、日歷規(guī)則、星期類型、能源價(jià)格等。表1為電熱負(fù)荷預(yù)測模型輸入特征。
表1 電熱負(fù)荷預(yù)測模型的輸入特征Tab. 1 Input characteristics for electricity and heat load forecasting models
負(fù)荷預(yù)測需要在眾多影響因素中,篩選出若干種影響最大的因素。特征選擇操作可以提取反映負(fù)荷特性及其變化規(guī)律的典型指標(biāo)。隨機(jī)森林法可以對特征的貢獻(xiàn)度進(jìn)行深入分析,思想是計(jì)算每個(gè)特征在隨機(jī)森林中的每棵樹上的貢獻(xiàn)度并取平均值,比較不同特征的貢獻(xiàn)度大小。由于每棵樹均基于基尼系數(shù)選擇向下分裂的特征,基于基尼系數(shù)(GI)評價(jià)特征重要性作為貢獻(xiàn)度的衡量指標(biāo)。假設(shè)有a個(gè)特征X1,X2,…,Xa,特征Xj在某一棵樹i的節(jié)點(diǎn)m向下分裂,分裂前的基尼系數(shù)為Gm,分裂后左右分支的基尼系數(shù)分別為Gl和Gr,分裂前后的基尼系數(shù)變化量Vginijm由式(7)計(jì)算得到。
假設(shè)該特征Xj在樹i上分裂了h次,Xj在當(dāng)前樹的重要性由式(8)表示。
隨機(jī)森林共有b棵數(shù)用到該特征,得到該特征重要性評分為:
最后將所有求得的重要性評分進(jìn)行歸一化處理,得到每個(gè)特征的貢獻(xiàn)度。
各個(gè)特征對負(fù)荷預(yù)測的貢獻(xiàn)度不同,與負(fù)荷特征相關(guān)性較強(qiáng)的特征對負(fù)荷預(yù)測的貢獻(xiàn)度更大。將Vj按照由大到小順序進(jìn)行排列,重要性評分越高的特征代表貢獻(xiàn)度越大。
考慮到神經(jīng)網(wǎng)絡(luò)的訓(xùn)練需要消耗巨大的計(jì)算資源和時(shí)間成本,已訓(xùn)練完畢的神經(jīng)網(wǎng)絡(luò)參數(shù)固定不變,輸入樣本數(shù)據(jù)直接能夠輸出預(yù)測結(jié)果,采用離線訓(xùn)練+在線預(yù)測模式。訓(xùn)練完畢運(yùn)用s折交叉驗(yàn)證的方法選出最優(yōu)模型。方法是將整個(gè)樣本庫劃分為s個(gè)大小相同的互斥子樣本集。
每次迭代中,使用不同s-1 個(gè)子樣本集訓(xùn)練模型,剩余的一個(gè)子樣本集作為驗(yàn)證,并計(jì)算模型在測試集上的準(zhǔn)確率。在s次迭代中,在每個(gè)子樣本集上均構(gòu)建了模型,并驗(yàn)證了每一個(gè)子樣本集。s折交叉驗(yàn)證使用了無重復(fù)抽樣技術(shù),保證了每次迭代過程中每個(gè)樣本只有一次被劃入訓(xùn)練集或測試集的機(jī)會(huì)。計(jì)算出s次迭代的平均準(zhǔn)確率,作為最終的模型準(zhǔn)確率。選擇s個(gè)模型中KL 散度誤差最接近平均誤差的模型作為最終的離線訓(xùn)練模型。Transformer 模型下電熱負(fù)荷預(yù)測方法流程如圖4所示。
圖4 電熱負(fù)荷預(yù)測離線訓(xùn)練流程Fig. 4 Off-line training process for electricity-heat load forecasting
離線訓(xùn)練流程為全部a個(gè)輸入特征經(jīng)過特征選擇按照貢獻(xiàn)度大小排序分別篩選出p1個(gè)電負(fù)荷特征和p2個(gè)電負(fù)荷特征,合并電熱負(fù)荷輸入形成完整樣本庫。將樣本庫劃分為s個(gè)大小相同的互斥子樣本集,將每種劃分方式的訓(xùn)練集輸入Transformer 模型,電熱負(fù)荷預(yù)測任務(wù)經(jīng)過相同網(wǎng)絡(luò)進(jìn)行編碼、解碼等操作,共享權(quán)值,訓(xùn)練出s個(gè)不同的Transformer模型。用不同訓(xùn)練集對應(yīng)的測試集計(jì)算網(wǎng)絡(luò)的誤差,并取與平均誤差最接近的模型為最佳模型。通過全連接層分離電負(fù)荷預(yù)測結(jié)果和熱負(fù)荷預(yù)測結(jié)果,得到的輸出為當(dāng)前時(shí)刻電負(fù)荷和熱負(fù)荷預(yù)測值。最后評價(jià)兩個(gè)子任務(wù)并進(jìn)行綜合評價(jià)。離線訓(xùn)練完畢,保存模型參數(shù),在線決策是按照格式輸入特征數(shù)據(jù),經(jīng)過固定參數(shù)的Transformer 多任務(wù)模型得到預(yù)測結(jié)果。
基于Transformer 的多任務(wù)學(xué)習(xí)的本質(zhì)是回歸模型,常見評價(jià)指標(biāo)主要有均方誤差MSE,均方根誤差RMSE,平均絕對誤差MAE 等,主要針對單任務(wù)學(xué)習(xí)且度量的是預(yù)測數(shù)據(jù)和標(biāo)簽數(shù)據(jù)的誤差。R-squared 方法既考慮了預(yù)測值與標(biāo)簽之間的差異,也考慮了標(biāo)簽數(shù)據(jù)的離散程度,是一個(gè)歸一化的度量標(biāo)準(zhǔn),由式(12)計(jì)算。
式中:yˉ為標(biāo)簽數(shù)據(jù)的平均值;yi和分別為第i個(gè)標(biāo)簽數(shù)據(jù)值和預(yù)測值。分子表示殘差平方和,分母表示回歸平方和。R2的取值為(0,1),越接近1,表明神經(jīng)網(wǎng)絡(luò)對輸出的解釋能力越強(qiáng),模型對數(shù)據(jù)的擬合越好。增加特征數(shù)量,分母回歸平方和會(huì)增加,分子殘差平方和會(huì)減少,R2會(huì)增大;反之,R2減小。為了消除樣本數(shù)量和特征數(shù)量的影響,引入Adjusted R-squared方法,由式(13)計(jì)算:
式中:n為樣本數(shù)量;p為特征數(shù)量;R2adj為校正R2函數(shù)。增加一個(gè)有意義的特征變量,R2adj增大;若這個(gè)特征是冗余特征,R2adj減小,同時(shí)抵消了樣本數(shù)量對R2的影響。利用式(13)可以單獨(dú)對電負(fù)荷和熱負(fù)荷預(yù)測結(jié)果進(jìn)行評價(jià)。為了整體評價(jià)多任務(wù)學(xué)習(xí)模型預(yù)測精度,滿足對不同負(fù)荷主導(dǎo)性和預(yù)測精度需求,可以增加權(quán)重以平均精度作為綜合評價(jià)指標(biāo)。
式中:αk為第k個(gè)任務(wù)的權(quán)重,根據(jù)式(5)-(6)進(jìn)行計(jì)算,滿足α1+α2+ …αk= 1,根據(jù)不同任務(wù)的預(yù)測需求調(diào)節(jié)對應(yīng)權(quán)重。
本算例采用的數(shù)據(jù)來自于我國北方某地區(qū)微能源系統(tǒng)2019 年全年的電、熱負(fù)荷數(shù)據(jù)以及該地區(qū)氣象數(shù)據(jù),其中氣象數(shù)據(jù)包括溫度、濕度、露點(diǎn)等。本文預(yù)測的是未來1 h的電、熱負(fù)荷值,因此數(shù)據(jù)采集頻率為1 h,一天24個(gè)時(shí)間節(jié)點(diǎn),共8 760個(gè)樣本。將該數(shù)據(jù)按照模型預(yù)測的要求分為訓(xùn)練集、驗(yàn)證集和測試集。三種數(shù)據(jù)集劃分的比例為6∶3∶1,模型在訓(xùn)練集上進(jìn)行學(xué)習(xí),驗(yàn)證集用來評價(jià)模型的學(xué)習(xí)能力,測試集用來展示模型的預(yù)測效果。
上述原始數(shù)據(jù)集來源不同的采集系統(tǒng),電、熱負(fù)荷主要來源于用電采集系統(tǒng)和能量管理系統(tǒng),氣象數(shù)據(jù)主要來源于當(dāng)?shù)貧庀笳緮?shù)據(jù)采集裝置。這些數(shù)據(jù)在采集和存儲(chǔ)過程中難免會(huì)出現(xiàn)數(shù)據(jù)缺失異常等情況,因此對該數(shù)據(jù)集進(jìn)行數(shù)據(jù)挖掘之前,需采取一定的手段對其進(jìn)行預(yù)處理。首先對數(shù)據(jù)集進(jìn)行質(zhì)量檢測,包括數(shù)據(jù)異常值和缺失值檢測,其次對檢測出的壞數(shù)據(jù)進(jìn)行修正。本文采用箱型圖來判定數(shù)據(jù)出現(xiàn)的異常值情況,如圖5所示。圖中Q1到Q3分別為下四分位點(diǎn)和上四分點(diǎn),涵蓋了數(shù)據(jù)分布最中間50%數(shù)據(jù),IQR為四分位距,IQR=Q3-Q1。設(shè)定數(shù)據(jù)落在(Q1-1.5×IQR,Q3+1.5×IQR)范圍內(nèi)為正常值,范圍之外為異常值。
圖5 異常值判別箱型圖Fig. 5 Box diagram of outlier discrimination
對于缺失值和異常值的修正采用均值插值法,如公式(15)所示。通過求取相應(yīng)位置前后n個(gè)數(shù)據(jù)的平均值對其進(jìn)行替換,這里取n= 4。
微能源網(wǎng)系統(tǒng)中的電、熱負(fù)荷不僅與歷史負(fù)荷有很強(qiáng)的相關(guān)性,同時(shí)也受到天氣因素、日期類型的影響,因此根據(jù)歷史負(fù)荷、天氣因素以及日期類型初步構(gòu)建輸入特征,選擇預(yù)測時(shí)刻前24 h的歷史負(fù)荷、預(yù)測時(shí)刻的天氣特征、以及日期類型作為初步輸入特征。在這些特征中,存在部分不相關(guān)或者冗余的特征,增加了模型的復(fù)雜度。為了對初步輸入特征進(jìn)行特征選擇,本文采用了隨機(jī)森林法來計(jì)算初步輸入特征的貢獻(xiàn)度,通過特征貢獻(xiàn)度指標(biāo)來對負(fù)荷歷史數(shù)據(jù)、溫度、濕度、風(fēng)速等特征進(jìn)行選擇,提取反映負(fù)荷特性及其變化規(guī)律的典型特征指標(biāo)。如圖6(a)、(b)分別為初步輸入特征指標(biāo)對電、熱負(fù)荷預(yù)測的貢獻(xiàn)度。
圖6 初步輸入特征貢獻(xiàn)度排序圖Fig. 6 Sorting diagram of contribution degree of preliminary input features
從圖中可以看出,初步輸入特征指標(biāo)體系中的各個(gè)特征對負(fù)荷預(yù)測的貢獻(xiàn)度是不同,與負(fù)荷特征相關(guān)性較強(qiáng)的特征對負(fù)荷預(yù)測的貢獻(xiàn)度較大,相鄰時(shí)刻的歷史負(fù)荷對未來負(fù)荷值的影響較大,因此特征貢獻(xiàn)度相對較高。溫度具有明顯的季節(jié)特性,因此其與電、熱負(fù)荷的相關(guān)度也相對較高。
本文通過建立Transformer 多任務(wù)模型來實(shí)現(xiàn)電、熱負(fù)荷預(yù)測,而模型的超參數(shù)設(shè)置對預(yù)測結(jié)果也會(huì)產(chǎn)生一定的影響。Transformer模型的超參數(shù)主要有迭代訓(xùn)練次數(shù)(epochs)、批量大?。╞atch_size)、交叉驗(yàn)證折數(shù)(s)以及多任務(wù)權(quán)重(α1、α2),將其分別設(shè)置為epochs=100、batch_size=64、s=10以及α1∶α2=0.6∶0.4。為了突出Transformer 模型對電、熱負(fù)荷預(yù)測的顯著優(yōu)勢,分別引入深度置信網(wǎng)絡(luò)、支持向量機(jī)以及長短期記憶神經(jīng)網(wǎng)絡(luò)作為對比算法模型,通過設(shè)置相同的迭代訓(xùn)練次數(shù)來增加可對比性。
多任務(wù)學(xué)習(xí)模型的損失函數(shù)為單任務(wù)損失函數(shù)的加權(quán)求和。本文對電、熱負(fù)荷進(jìn)行預(yù)測,均采用均方誤差作為損失函數(shù),由于任務(wù)數(shù)量為2,因此電、熱負(fù)荷損失函數(shù)的權(quán)值分別為0.6 和0.4。如圖7所示,通過繪制總Loss曲線來診斷Transformer多任務(wù)預(yù)測模型的性能以及泛化能力。圖中可以看出,在迭代初始時(shí)刻,損失函數(shù)值呈急劇下降趨勢,但隨著訓(xùn)練的進(jìn)行,總損失的下降趨勢變得平緩,且訓(xùn)練集損失和測試集損失都已經(jīng)開始收斂,兩者之間的差值也越來越小,此時(shí)模型訓(xùn)練效果最佳。
圖7 Transformer多任務(wù)預(yù)測模型損失曲線Fig. 7 loss curves of Transformer multi-task prediction model
表2 分別給出了Transformer、深度置信神經(jīng)網(wǎng)絡(luò)(DBN)、支持向量機(jī)(SVM)以及長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)模型對電、熱負(fù)荷預(yù)測在測試上的表現(xiàn)。采用R2 評價(jià)指標(biāo)來評估各模型的預(yù)測效果??梢钥闯鯰ransformer 模型對電、熱負(fù)荷預(yù)測比其他對比模型在測試上的表現(xiàn)更好一些,預(yù)測精度更高一些,這主要是因?yàn)門ransformer 模型具有很好的學(xué)習(xí)能力,能夠充分學(xué)習(xí)隱藏于數(shù)據(jù)內(nèi)部的特征。但在訓(xùn)練時(shí)間方面Transformer 模型略遜于其他單任務(wù)模型,主要是因?yàn)門ransformer 模型的網(wǎng)絡(luò)結(jié)構(gòu)較為復(fù)雜,模型在訓(xùn)練時(shí)參數(shù)學(xué)習(xí)較多,因此模型訓(xùn)練的時(shí)間成本有所增加。
表2 多任務(wù)模型與單任務(wù)模型預(yù)測效果對比分析Tab. 2 Comparative analysis of prediction effect between multitask model and single-task model
表3 為Transformer 多任務(wù)學(xué)習(xí)模型和DBN 多任務(wù)學(xué)習(xí)模型的電、熱負(fù)荷預(yù)測效果對比,可以看出Transformer 多任務(wù)模型對電、熱負(fù)荷的預(yù)測結(jié)果要優(yōu)于DBN 多任務(wù)學(xué)習(xí)模型,主要因?yàn)槎嗳蝿?wù)學(xué)習(xí)通過共享層學(xué)習(xí),能夠充分學(xué)習(xí)不同負(fù)荷之間存在的非線性耦合特性,使得模型能夠更加有效的表示輸入特征與輸出量之間的關(guān)系。Transformer多任務(wù)預(yù)測模型的預(yù)測時(shí)間與DBN 多任務(wù)預(yù)測模型較為接近,但在負(fù)荷預(yù)測精度方面得到了較高的提升。
表3 多任務(wù)模型與單任務(wù)模型預(yù)測效果對比分析Tab. 3 Comparative analysis of prediction effect between multitask model and single-task model
如圖8(a)、(b)所示,分別為工作日和休息日電、熱負(fù)荷預(yù)測效果圖。從圖中可以看出,Transformer 多任務(wù)學(xué)習(xí)模型的擬合效果要更好一些,而且在一些負(fù)荷波動(dòng)比較大的時(shí)刻也能夠很好地?cái)M合。對于多任務(wù)和單任務(wù)學(xué)習(xí)模型的預(yù)測誤差只要集中在峰谷時(shí)刻。
圖8 多任務(wù)與單任務(wù)模型預(yù)測效果圖Fig. 8 Prediction effect of multi-task model and single-task model
為了進(jìn)一步刻畫Transformer 多任務(wù)模型的學(xué)習(xí)性能以及在測試集上突出表現(xiàn)??梢岳L制預(yù)測殘差分布曲線,如圖9(a)、(b)所示,分別是多任務(wù)模型和單任務(wù)模型的電、熱負(fù)荷預(yù)測殘差分布圖。從殘差分布圖中得出,多任務(wù)學(xué)習(xí)模型的電、熱負(fù)荷預(yù)測殘差分布較為集中,為單任務(wù)學(xué)習(xí)模型的電、熱負(fù)荷預(yù)測殘差分布較為離散。殘差分布圖能夠反映多任務(wù)模型在電、熱負(fù)荷預(yù)測中的優(yōu)越性和有效性,同時(shí)也能夠反映出多任務(wù)學(xué)習(xí)模型具有很好的泛化性能。
圖9 多任務(wù)與單任務(wù)模型預(yù)測殘差分布圖Fig. 9 Prediction residuals distribution of multi-task model and single-task model
本文針對綜合能源系統(tǒng)電-熱短期負(fù)荷預(yù)測,考慮電-熱負(fù)荷之間的耦合性,提出了一種基于Transformer網(wǎng)絡(luò)和多任務(wù)訓(xùn)練的模型,通過構(gòu)建多任務(wù)學(xué)習(xí)輸入特征和基于Transformer 網(wǎng)絡(luò)的多任務(wù)學(xué)習(xí)權(quán)值共享層,最后通過全連接層輸出多能負(fù)荷的預(yù)測值。采用實(shí)際微能源系統(tǒng)的數(shù)據(jù)驗(yàn)證所提方法和算法的有效性,分析了與DBN、LSTM 和SVM 模型預(yù)測結(jié)果的對比及與單任務(wù)學(xué)習(xí)預(yù)測結(jié)果的對比,算例結(jié)果表明本文所提模型可以充分學(xué)習(xí)電-熱耦合特征,提高負(fù)荷預(yù)測的精度。在未來的研究中,將進(jìn)一步考慮氣、冷等負(fù)荷的預(yù)測,挖掘分析多元負(fù)荷之間深層次的耦合性,提高IES 多元負(fù)荷預(yù)測的精度