馮文韜,李龍勝,曾 愚,潘可佳,張子聞,景致遠
(1. 國網(wǎng)四川省電力公司信息通信公司,四川 成都 610041;2. 電子科技大學(xué)機械與電氣工程學(xué)院,四川 成都 611731)
近年來,隨著各國GDP和科學(xué)技術(shù)的飛速發(fā)展,化石能源消耗急劇增長。近幾十年里,化石能源的高消耗造成大氣中CO2濃度猛增。為有效降低CO2增長比例,各國開始研究利用可再生能源替代化石能源以此實現(xiàn)低碳生活[1-2]。中國在2020年提出了“碳中和、碳達峰”目標(biāo),旨在通過加強對風(fēng)力、光伏等可再生能源的發(fā)展,降低化石能源在微電網(wǎng)體系的比例,從而實現(xiàn)減少碳排放的目標(biāo)[3]。然而可再生能源存在的隨機性、間歇性等缺點導(dǎo)致其在微電網(wǎng)中的比例難以有效提升。此外,能源需求的飛速增長也給當(dāng)前微電網(wǎng)能源供給優(yōu)化帶來了一定的壓力。因此,未來十幾年內(nèi)化石能源依舊會在微電網(wǎng)中占據(jù)較大的比例。當(dāng)前人們面臨著如何優(yōu)化能源管理策略同時滿足能源需求與實現(xiàn)系統(tǒng)低碳化的難題。電力行業(yè)中發(fā)電側(cè)使用能源最多的依舊是燃煤等化石能源,在發(fā)電的同時增加了碳排放。碳排放與發(fā)電側(cè)密切關(guān)聯(lián),因此,眾多學(xué)者對發(fā)電側(cè)碳排放進行了相應(yīng)的研究。
文獻[4]構(gòu)建了一種考慮碳減排合作機制和引入風(fēng)力發(fā)電的微電網(wǎng)低碳調(diào)度模型,利用碳捕捉裝置有效地吸收燃煤輪機產(chǎn)生的CO2,從而實現(xiàn)系統(tǒng)低碳經(jīng)濟運行[5-6]。文獻[7]設(shè)計和規(guī)劃了一個多能載體微電網(wǎng),利用能源系統(tǒng)中二氧化碳流的建模技術(shù)估計能源系統(tǒng)中分布的碳量,提出了配電系統(tǒng)層面多載能系統(tǒng)的優(yōu)化方法。文獻[8]為研究不同的低碳技術(shù)對微電網(wǎng)經(jīng)濟調(diào)度的影響,構(gòu)建了一個基于機會約束的兩階段隨機優(yōu)化調(diào)度模型。然而,隨著微電網(wǎng)規(guī)模逐漸龐大化、系統(tǒng)結(jié)構(gòu)逐漸復(fù)雜化、控制變量多元化,上述方法難以快速有效地獲取最優(yōu)低碳經(jīng)濟策略。
隨著AI技術(shù)的快速發(fā)展,具有記憶能力的強化學(xué)習(xí)(reinforcement learning, RL)方法廣泛地應(yīng)用于微電網(wǎng)電壓控制、運行優(yōu)化等領(lǐng)域[9]。文獻[10]基于深度Q網(wǎng)絡(luò)(deep Q network, DQN)構(gòu)建了一種低碳家庭微電網(wǎng)能源動態(tài)管理模型,擺脫了源荷不確定性對系統(tǒng)低碳經(jīng)濟運行的影響。然而,上述方法在面對微電網(wǎng)中連續(xù)多目標(biāo)實時控制問題,難以快速獲得最優(yōu)策略。文獻[11]利用深度強化學(xué)習(xí)(deep reinforcement learning, DRL)構(gòu)建了一種超參數(shù)自適應(yīng)的多能供給微電網(wǎng)優(yōu)化調(diào)度模型,可以實時制定系統(tǒng)中多元件最優(yōu)出力策略,實現(xiàn)微電網(wǎng)低碳經(jīng)濟運行。文獻[12]利用DRL建立了一種電動汽車充電能源管理策略。基于DRL的先進性,下面采用深度確定性策略梯度算法(deep deterministic policy gradient, DDPG)搭建了一種同時將微電網(wǎng)的經(jīng)濟性和低碳性作為優(yōu)化目標(biāo)的調(diào)度模型。首先,介紹了碳排放理論流重點概念,并基于此構(gòu)建了一種更能反映實際情況的階梯碳價計算模型;然后,利用DDPG建立了一個微電網(wǎng)低碳經(jīng)濟運行優(yōu)化模型,通過考慮負荷需求響應(yīng)實現(xiàn)降低系統(tǒng)運行成本和減少碳排放量的目標(biāo);最后,建立了一個實時調(diào)度模型,能夠根據(jù)微電網(wǎng)最新的信息實時制定最優(yōu)策略。
當(dāng)利用煤炭等化石能源發(fā)電時,燃燒過程中會釋放大量的CO2,從而產(chǎn)生碳排放。假定產(chǎn)生的CO2并不是直接從發(fā)電廠釋放到大氣層中,而是隨著電能的傳輸直至用戶。用戶在使用電能的同時,需要支付發(fā)電造成的碳排放成本。因此碳排放成本并不單單由發(fā)電側(cè)承擔(dān),用戶也具有一定的責(zé)任。據(jù)此,提出了碳排放流方法用以研究碳排放在發(fā)電側(cè)到用戶之間的關(guān)系,如圖1所示[13-14]。在計算過程中應(yīng)該從用戶側(cè)討論碳排放責(zé)任劃分,而碳排放流理論能夠有效地將發(fā)電側(cè)的碳排放任務(wù)分給用戶。
圖1 碳排放流結(jié)構(gòu)
1.2.1 碳排放流率
碳排放流率表示單位時間內(nèi)系統(tǒng)某一節(jié)點通過的CO2流量[15],t/h。
(1)
式中:MCEF為碳排放流率;CCEF為碳排放的流量;t為時間。
1.2.2 支路碳流密度
碳排放流主要依靠電力系統(tǒng)中的有功潮流,支路消耗單位電量導(dǎo)致發(fā)電側(cè)產(chǎn)生CO2的數(shù)值稱之為支路碳流密度[15],t/kWh。
(2)
式中:IBCEl為支路l的碳流密度;Pl為支路l的有功功率。
1.2.3 節(jié)點碳勢
節(jié)點碳勢主要描述節(jié)點消耗單位電量導(dǎo)致發(fā)電側(cè)產(chǎn)生CO2的數(shù)值,一般也可叫做節(jié)點碳流密度,用INCEi表示[15],t/kWh。
(3)
式中,N+為所有與節(jié)點i相連接的支路。
以圖1的節(jié)點2為例,節(jié)點2的碳勢INCE2[16]為
(4)
式中:P2為節(jié)點2的有功功率;INCEg2為發(fā)電機在節(jié)點2的碳勢。
根據(jù)碳排放流理論求解過程,支路中碳流密度由本支路中首個節(jié)點的碳流密度決定,即
IBCEl2=INCE2
(5)
根據(jù)各個發(fā)電機組在每個節(jié)點的碳勢以及系統(tǒng)各個節(jié)點的負荷量即可求解出各節(jié)點的碳排放量。
Bemi=INCEdi·Di
(6)
式中:Bemi為節(jié)點i的碳排放量;INCEdi為負荷節(jié)點i的碳勢;Di為節(jié)點i的負荷量。
在傳統(tǒng)的計算過程中,發(fā)電機組的碳排放量計算時總是采取固定因子,即碳排放量與發(fā)電量之間存在著線性關(guān)系,該方法在長時間的計算過程中精確度較低,難以真實有效地評估發(fā)電機組長時間運作碳排放量。因此采用了一種動態(tài)碳排放計算模型,該模型將發(fā)電機組的出力分為了幾個區(qū)間,隨著機組出力的增加,區(qū)間數(shù)目逐漸增大,區(qū)間碳排放強度值增長趨勢將逐漸減緩。求解每個機組總碳排放量時,首先計算每個區(qū)間的碳排放量,即區(qū)間碳排放強度值與機組出力之間的乘積;最后將所有區(qū)間的碳排量相加即為總碳排放量。動態(tài)碳排放計算模型[14]為
(7)
式中:B(i,t)為機組i在時刻t的總碳排放量;P(i,t)為機組i在時刻t的功率輸出;p為區(qū)間長度;Pmin,i和Pmax,i分別為機組i最小和最大輸出功率;P0為機組最低輸出功率;ψ1為碳排放強度的基準值;ξ1、ξ2、…、ξn為碳排放強度的增長系數(shù),隨著碳排放的逐漸增加,該值逐漸降低。
為有效降低節(jié)點碳排放量,將各節(jié)點每個時刻的碳排放量分為了幾個區(qū)間,主要包括免費區(qū)間、低碳區(qū)間、中碳區(qū)間等。隨著區(qū)間的上升,碳價具有一定的漲幅,計算總碳排放成本為各區(qū)間碳價與碳排放的乘積之和。階梯式碳價的計算模型[17]為
(8)
式中:Cemi,i,t為機組i在時刻t的總碳排放成本;ψ2為碳排放成本基準值;Bc為機組免費碳排放額度;b為區(qū)間長度;ω為區(qū)間之間的碳交易價格漲幅,一般取值較小。
該模型的優(yōu)化目標(biāo)函數(shù)為最小化系統(tǒng)發(fā)電成本、碳排放成本以及負荷轉(zhuǎn)移成本。
(9)
式中:Cg,t為火力發(fā)電機組在時刻t的成本;Cwind,t為風(fēng)力發(fā)電機組在時刻t的成本;Cload,i,t為負荷響應(yīng)產(chǎn)生的成本。
各成本的計算方式為:
Cg,t=cg·Pg,t
(10)
Cwind,t=cwind·Pwind,t
(11)
Cload,i,t=cload,i,t·Pload,i,t
(12)
式中:cg為火力機組發(fā)電成本系數(shù);Pg,t為火力機組在時刻t的發(fā)電功率;cwind為風(fēng)力機組發(fā)電成本系數(shù);Pwind,t為風(fēng)力機組在時刻t的發(fā)電功率;cload,i,t為節(jié)點i在時刻t的負荷轉(zhuǎn)移系數(shù),Pload,i,t為節(jié)點i在時刻t的負荷轉(zhuǎn)移功率。
將微電網(wǎng)低碳經(jīng)濟優(yōu)化調(diào)度問題構(gòu)建為一個馬爾可夫決策,即:
環(huán)境:微電網(wǎng)網(wǎng)絡(luò)。
智能體:深度強化學(xué)習(xí)算法。
狀態(tài):時刻t微電網(wǎng)中各節(jié)點用電負荷功率、時刻t各發(fā)電機組最大出力和碳排放系數(shù)、時刻t風(fēng)電預(yù)測功率和發(fā)電機組時刻t碳價。
動作:時刻t火力發(fā)電功率、時刻t各節(jié)點負荷轉(zhuǎn)移功率和時刻t風(fēng)電接入系統(tǒng)功率。
獎勵值:智能體針對當(dāng)前狀態(tài)選擇執(zhí)行的動作所獲得的獎勵。
Pi,t=Pexp,i,t-Pwind,t-Pg,t,i∈N
(13)
Qi,t=Qexp,i,t-Qg,t,i∈N
(14)
Pg,min≤Pg,t≤Pg,max
(15)
Pwind,min≤Pwind,t≤Pwind,max
(16)
ζre,t=0
(17)
ΔPg,min≤Pg,t-Pg,t-1≤ΔPg,max,t>2
(18)
式中:Pi,t和Qi,t分別為節(jié)點i在時刻t凈流入有功功率和無功功率;Pexp,i,t和Qexp,i,t分別為時刻t節(jié)點i負荷預(yù)測維持系統(tǒng)平衡所需有功功率和無功功率;Pg,min和Pg,max分別為發(fā)電機組出力的最小值與最大值;Pwind,min和Pwind,max為風(fēng)電機組出力的最小值與最大值;ζre,t為平衡節(jié)點時刻t相角約束;ΔPg,min和ΔPg,max為發(fā)電機組功率爬坡限制。
在監(jiān)督或無監(jiān)督學(xué)習(xí)中,學(xué)習(xí)過程是基于現(xiàn)有數(shù)據(jù)的,但強化學(xué)習(xí)采用了完全不同的方法,其通過不斷的試錯獲得最優(yōu)的結(jié)果。經(jīng)過訓(xùn)練的智能體在其環(huán)境中以一系列時間離散步驟t=1,2…,T移動。在每個時間步長,智能體感知其狀態(tài)并選擇一個動作at。根據(jù)動作智能體移動到下一個狀態(tài)st+1,它接收到來自環(huán)境的評估反饋,這表明它的決策是以目標(biāo)為導(dǎo)向的。通過這種方式定義獎勵rt,如此反復(fù)訓(xùn)練直至結(jié)果收斂,如圖2所示。
圖2 智能體與環(huán)境交互
DDPG算法的評價網(wǎng)絡(luò)包括了計算Q值的評價函數(shù)[18]。
(19)
式中:Kt為目標(biāo)評價函數(shù)的數(shù)值;σ為折扣系數(shù);Q′(·)為目標(biāo)評價函數(shù);?′為目標(biāo)評價函數(shù)中的參數(shù)合集。
評價網(wǎng)絡(luò)參數(shù)的損失函數(shù)為
(20)
式中,E(·)為數(shù)學(xué)期望;Q(·)為評價函數(shù)。
其梯度下降求解方法為:
(21)
?t+1=?t-δ??J(?)
(22)
式中:??J(?)為梯度下降方向;δ為評價網(wǎng)絡(luò)的學(xué)習(xí)率;??Q(·)為評價函數(shù)的下降梯度。
動作網(wǎng)絡(luò)中t+1時刻的動作函數(shù)[19]為
at+1=πθ(st+1|θ)
(23)
式中:πθ(·)為動作函數(shù);θ為動作函數(shù)的參數(shù)。
梯度?θJ(θ)表示為:
?θJ(θ)=Ε[?aQ(st,at|?)·?θπθ(st)]
(24)
θt+1=θt-ε?θJ(θ)
(25)
式中,ε為動作網(wǎng)絡(luò)的學(xué)習(xí)率。目標(biāo)動作函數(shù)的計算公式為
a′=π?′(s′t+1|?′)
(26)
針對目標(biāo)動作函數(shù)和目標(biāo)評價函數(shù)的參數(shù),選用了一個較小的平滑系數(shù)實現(xiàn)軟更新。
(27)
(28)
式中:?′為目標(biāo)動作函數(shù)參數(shù)合集;λ為平滑系數(shù);θ′為目標(biāo)評價函數(shù)參數(shù)合集。
所提方法的流程如圖3所示。
圖3 算法流程
在PJM-5節(jié)點系統(tǒng)上驗證試驗,結(jié)構(gòu)如圖4所示,該節(jié)點系統(tǒng)主要包括了6條輸電線路、5種不同類型的發(fā)電機組以及3個用電負荷,其中風(fēng)力發(fā)電機組接在節(jié)點E,各節(jié)點參數(shù)來源于參考文獻[20]。所提算法選用了python進行程序編撰與運行。
圖4 PJM-5節(jié)點系統(tǒng)
系統(tǒng)各時刻用電負荷以及風(fēng)力發(fā)電機組出力如圖5所示。從圖中可以看出風(fēng)力機組在1:00—8:00、13:00—16:00、22:00—24:00都維持了較高的出力。9:00—12:00、17:00—21:00出力較低。負荷在7:00—21:00之間功率較高。除了4:00—6:00以外,每個時刻的用電負荷都大于風(fēng)電出力。
圖5 風(fēng)力機組出力及用電負荷
各節(jié)點機組參數(shù)設(shè)置如表1所示,各發(fā)電機組碳排放系數(shù)求解方法參考文獻[21]。粒子群算法、DQN算法以及所提算法中各參數(shù)設(shè)置分別如表2和表3所示。
表1 發(fā)電機組相關(guān)參數(shù)設(shè)置
表2 粒子群算法相關(guān)參數(shù)設(shè)置
表3 DQN和DDPG相關(guān)參數(shù)設(shè)置
為驗證所提方法的有效性,選取了粒子群算法以及DQN算法作為對比。粒子群算法是一種基于個體之間信息交流和合作的優(yōu)化算法,DQN算法是Q-learning算法的升級版,其采用深度神經(jīng)網(wǎng)絡(luò)來近似Q值函數(shù)。各方法在測試集上的結(jié)果如表4所示。從表4中可以看出,雖然粒子群算法的風(fēng)機發(fā)電成本以及負荷響應(yīng)成本都低于其他兩個方法,但是其碳排放成本以及機組發(fā)電成本都高于其他兩種方法。這是因為其策略負荷需求響應(yīng)較低,難以有效地開發(fā)風(fēng)力發(fā)電機組的潛力。DQN算法相較粒子群方法有了一定提升,但是最終的總成本依舊低于DDPG算法。DDPG算法的總成本相較粒子群算法降低了12.68%,相較DQN算法降低了5.16%。
表4 各算法在測試集上的成本對比 單位:美元
需求響應(yīng)前后風(fēng)電出力對比和負荷變化對比情況分別如圖6和圖7所示。從圖6中可以看出,在風(fēng)電出力較高的時刻,如1:00—7:00、15:00—16:00、22:00—24:00,考慮負荷響應(yīng)以后,系統(tǒng)消納風(fēng)電的功率有所增加。這是因為通過負荷轉(zhuǎn)移,該時段的負荷有所增加,從而提升了負荷需求隨著風(fēng)電消納的增加,系統(tǒng)中火力發(fā)電相應(yīng)減少,減少了碳排放量與用電成本。
圖6 需求響應(yīng)前后風(fēng)力機組輸出對比
圖7 需求響應(yīng)前后負荷變化對比
考慮需求響應(yīng)前后系統(tǒng)整體發(fā)電成本以及碳排放成本如表5所示。從表中可以看出,考慮負荷需求響應(yīng)后,系統(tǒng)在負荷可調(diào)節(jié)的范圍內(nèi)對負荷進行了再分配。將負荷轉(zhuǎn)移至富余風(fēng)力發(fā)電時刻從而提升了風(fēng)電出力權(quán)重,減少碳排放較大的火力發(fā)電機組出力,降低系統(tǒng)運行成本的同時實現(xiàn)碳減排??紤]負荷需求響應(yīng)以后系統(tǒng)發(fā)電成本降低了2300美元,碳排放成本降低了7600美元。節(jié)點通過負荷響應(yīng)加大對風(fēng)電的消納,減少了碳排放量,如表6所示。從表6中可以看出,各節(jié)點經(jīng)過需求響應(yīng)后都降低了碳排放量,總碳排放量削減達到了707 t。
表5 考慮需求響應(yīng)前后成本對比 單位:美元
表6 各節(jié)點碳排放量 單位:t
上面提出了一種以系統(tǒng)經(jīng)濟性和低碳為目標(biāo)的考慮需求響應(yīng)的優(yōu)化調(diào)度模型,利用碳排放理論流構(gòu)建了階梯碳價模型。通過實驗驗證表明:1)所提方法能有效地求解包括系統(tǒng)經(jīng)濟性與碳排放在內(nèi)的多目標(biāo)優(yōu)化問題,總運營成本相較粒子群算法降低了12.68%,相較DQN算法降低了5.16%;2)通過考慮負荷需求響應(yīng),成功地提升了風(fēng)電消納比例并降低了碳排放量;3)所提優(yōu)化調(diào)度模型基于DRL算法的快速響應(yīng)能力能夠?qū)崟r做出決策。