張 波,馮國禮,郭景維,王 敏,秦振威
(國網(wǎng)寧夏電力有限公司 信息通信公司,寧夏 銀川 750001)
國際可再生能源署發(fā)布的《能源轉(zhuǎn)型之電網(wǎng)靈活性》報(bào)告中指出,到2050年,全球風(fēng)電、光伏等可再生能源在未來電力系統(tǒng)中占比將達(dá)到85%[1]。國家發(fā)改委和國家能源局發(fā)布的《能源生產(chǎn)和消費(fèi)革命戰(zhàn)略(2016—2030)》中指出,到2023年實(shí)現(xiàn)非化石能源發(fā)電量占全部發(fā)電量的比重力爭達(dá)到50%[2]。為實(shí)現(xiàn)我國能源革命戰(zhàn)略的順利實(shí)施,中央財(cái)經(jīng)委員會(huì)第九次會(huì)議提出構(gòu)建以新能源為主體的新型電力系統(tǒng)[3],其基于可再生能源和清潔能源、以主干電網(wǎng)和微網(wǎng)構(gòu)成主要架構(gòu),是一種可持續(xù)的電力發(fā)展模式[4-6]。
在新型電力系統(tǒng)中,微網(wǎng)不僅是規(guī)?;尤牒拖{可再生能源的重要環(huán)節(jié),而且作為城市配網(wǎng)終端的主要聚合單元,通過自治運(yùn)行能夠?qū)崿F(xiàn)對(duì)城市配網(wǎng)調(diào)度運(yùn)行性能的優(yōu)質(zhì)支撐[7]。微網(wǎng)中存在多種能源供給和用能需求,通過經(jīng)濟(jì)安全的能量管理實(shí)現(xiàn)清潔能源的消納和多種能源的協(xié)調(diào)互補(bǔ)是重要的研究內(nèi)容之一。文獻(xiàn)[8]針對(duì)工業(yè)微網(wǎng)提出了兩階段多時(shí)間尺度調(diào)度策略,通過協(xié)調(diào)供能、蓄熱裝置實(shí)現(xiàn)多設(shè)備互補(bǔ)運(yùn)行和成本降低;文獻(xiàn)[9-10]針對(duì)工業(yè)園微能源網(wǎng)構(gòu)建了考慮生產(chǎn)約束的經(jīng)濟(jì)性最優(yōu)調(diào)度模型,實(shí)現(xiàn)了工業(yè)生產(chǎn)調(diào)度時(shí)序性和用能需求多元性的結(jié)合;文獻(xiàn)[11]針對(duì)煉油工業(yè)提出一種降低用能成本的需求側(cè)能量調(diào)度方案;文獻(xiàn)[12]針對(duì)工業(yè)園空調(diào)系統(tǒng)提出一種雙層優(yōu)化模型,減小了用戶空調(diào)系統(tǒng)運(yùn)行費(fèi)用,并增加了用戶代理商利潤;文獻(xiàn)[13]針對(duì)工業(yè)園綜合能源系統(tǒng)提出考慮供能可靠性的能量調(diào)度方法,提升了綜合能源系統(tǒng)的供能可靠性和經(jīng)濟(jì)性。上述研究雖然從微網(wǎng)不同的方面提升調(diào)度運(yùn)行的經(jīng)濟(jì)性,但均未有效考慮可再生能源和負(fù)荷波動(dòng)特性的影響。
為應(yīng)對(duì)微網(wǎng)中源荷不確定性,文獻(xiàn)[14]采用隨機(jī)規(guī)劃方法對(duì)不確定性因素進(jìn)行概率分布分析,而文獻(xiàn)[15-16]采用魯棒優(yōu)化方法對(duì)不確定性因素建模,雖然這些方法能夠有效刻畫不確定性,但是受到不確定性場景數(shù)目和最壞場景約束的影響,仍舊無法應(yīng)對(duì)源荷不確定性對(duì)微網(wǎng)經(jīng)濟(jì)調(diào)度的影響。隨著人工智能技術(shù)的發(fā)展,基于數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)方法逐漸在優(yōu)化運(yùn)行方面得到應(yīng)用和發(fā)展。深度強(qiáng)化學(xué)習(xí)(DRL)作為機(jī)器學(xué)習(xí)的一種典型代表,結(jié)合了深度學(xué)習(xí)強(qiáng)大的信息表征能力和強(qiáng)化學(xué)習(xí)的序列決策優(yōu)化能力,為多種優(yōu)化調(diào)度問題提供了一種新的解決途徑[17-18],同時(shí)DRL的自主學(xué)習(xí)能力和自適應(yīng)能力在應(yīng)對(duì)不確定因素的影響時(shí),具有明顯的優(yōu)勢(shì)。文獻(xiàn)[19-20]提出一種基于Q-learning方法的綜合能源微網(wǎng)優(yōu)化調(diào)度方法以應(yīng)對(duì)光伏出力和負(fù)荷需求的不確定性;文獻(xiàn)[21]采用深度確定性策略梯度算法(DDPG)提出一種自適應(yīng)不確定性經(jīng)濟(jì)調(diào)度方法,實(shí)現(xiàn)了任意場景下的電力系統(tǒng)動(dòng)態(tài)經(jīng)濟(jì)調(diào)度。然而,基于Q-learning方法的強(qiáng)化學(xué)習(xí)算法只能處理離散動(dòng)作的問題,而現(xiàn)實(shí)中眾多研究問題均為連續(xù)動(dòng)作問題,同時(shí)基于Q-learning方法和DDPG方法的強(qiáng)化學(xué)習(xí)算法存在過估計(jì)的問題。
基于上述分析,針對(duì)以工業(yè)園為例的微能源系統(tǒng),為應(yīng)對(duì)源荷不確定性產(chǎn)生的影響同時(shí)提升微能源系統(tǒng)的運(yùn)行經(jīng)濟(jì)性,提出一種基于雙延遲深度確定性策略梯度(TD3)[22]的動(dòng)態(tài)優(yōu)化調(diào)度方法。首先構(gòu)建了工業(yè)園微能源系統(tǒng)的經(jīng)濟(jì)調(diào)度模型,然后基于行動(dòng)器-評(píng)判器(Actor-Critic)框架將經(jīng)濟(jì)調(diào)度模型表示為具有連續(xù)動(dòng)作調(diào)節(jié)的DRL模型,并使用雙延遲深度確定性策略梯度算法獲取DRL模型下的動(dòng)態(tài)連續(xù)調(diào)度策略,最后,通過對(duì)比算例分析,驗(yàn)證所提方法的優(yōu)越性。
工業(yè)園微能源系統(tǒng)由配電網(wǎng)和配氣網(wǎng)提供外部能量輸入,由屋頂分布式光伏提供內(nèi)部能量輸入。工業(yè)園微能源系統(tǒng)架構(gòu)圖如圖1所示,能量轉(zhuǎn)換設(shè)備有熱電聯(lián)產(chǎn)機(jī)組(CHP)、燃?xì)忮仩t(GB)、電鍋爐(EB),能量存儲(chǔ)設(shè)備有蓄電池(BES)、空氣壓縮儲(chǔ)能系統(tǒng)(CAES),用能設(shè)備有工業(yè)電負(fù)荷、工業(yè)熱負(fù)荷和氣負(fù)荷。
圖1 工業(yè)園微能源系統(tǒng)架構(gòu)圖
1.1.1 熱電聯(lián)產(chǎn)機(jī)組模型
熱電聯(lián)產(chǎn)機(jī)組輸出的電功率和熱功率為
PCHP(t)=QCHP(t)HNGηCHP
(1)
HCHP(t)=mPCHP(t)
(2)
式中:PCHP(t)和HCHP(t)分別為熱電聯(lián)產(chǎn)機(jī)組輸出的電功率和熱功率;QCHP(t)為熱電聯(lián)產(chǎn)機(jī)組消耗的天然氣量;HNG為天然氣熱值;ηCHP和m分別為熱電聯(lián)產(chǎn)機(jī)組產(chǎn)電效率和熱電比值。
熱電聯(lián)產(chǎn)機(jī)組需要滿足運(yùn)行上下限約束,如下所示:
(3)
1.1.2 燃?xì)忮仩t模型
燃?xì)忮仩t通過消耗天然氣產(chǎn)生熱能,燃?xì)忮仩t輸出的熱功率如下所示:
HGB(t)=QGB(t)HNGηGB
(4)
式中:HGB(t)為燃?xì)忮仩t輸出的熱功率;QGB(t)為燃?xì)忮仩t消耗的天然氣量;ηGB為燃?xì)忮仩t產(chǎn)熱效率。
燃?xì)忮仩t需要滿足運(yùn)行上下限約束,具體如下所示:
(5)
1.1.3 電鍋爐模型
電鍋爐輸出的熱功率如下所示:
HEB(t)=PEB(t)ηEB
(6)
式中:HEB(t)為電鍋爐輸出的熱功率;PEB(t)為電鍋爐消耗的電能;ηEB為電鍋爐電熱效率。
電鍋爐需要滿足運(yùn)行上下限約束,如下所示:
(7)
1.1.4 蓄電池模型
蓄電池通過存儲(chǔ)和釋放電能實(shí)現(xiàn)可再生能源的消納、電能使用高峰時(shí)段轉(zhuǎn)移等。蓄電池的荷電狀態(tài)(SOC)如下所示:
(8)
式中:SBES(t)和SBES(t-1)分別為t時(shí)刻和上一時(shí)刻蓄電池的SOC;ηBES為蓄電池的充放電效率;PBES(t)為蓄電池的充放電功率;EBES為蓄電池容量;Δt為調(diào)度時(shí)間間隔。
蓄電池需要滿足運(yùn)行上下限約束和SOC約束,如下所示:
(9)
1.1.5 CAES模型
CAES通過消耗電能將空氣壓縮至儲(chǔ)氣罐中,并通過調(diào)節(jié)儲(chǔ)氣罐中的壓力將空氣壓縮輸送到工廠氣動(dòng)系統(tǒng),如動(dòng)力機(jī)械臂[9]。CAES儲(chǔ)氣量如下所示:
ECA(t)=ECA(t-1)-DCA(t)Δt+ηCAPCA(t)Δt
(10)
式中:ECA(t)、ECA(t-1)和DCA(t)分別為CAES在t時(shí)刻、上一時(shí)刻的儲(chǔ)氣量和CAES在t時(shí)刻的用氣量;PCA(t)為CAES中空壓機(jī)t時(shí)刻的輸出功率;ηCA為CAES壓縮機(jī)效率。
CAES需要滿足氣量連續(xù)性約束、氣罐壓力約束和CAES啟停約束,如下所示:
(11)
1.2.1 目標(biāo)函數(shù)
工業(yè)園微能源系統(tǒng)在保證工業(yè)生產(chǎn)任務(wù)要求的前提下,通過合理安排可控機(jī)組的調(diào)度計(jì)劃,可實(shí)現(xiàn)綜合運(yùn)行成本最低的目標(biāo)。微能源系統(tǒng)運(yùn)行成本主要由購能成本、設(shè)備維護(hù)成本和碳排放成本構(gòu)成。微能源系統(tǒng)的經(jīng)濟(jì)調(diào)度目標(biāo)函數(shù)如下所示:
(12)
式中:Cb、Co和Cce分別為微能源系統(tǒng)的購能成本、設(shè)備維護(hù)成本和碳排放成本;ce、cg、cb、cca和cce分別為市電電價(jià)、天然氣單位價(jià)格、蓄電池折損費(fèi)用系數(shù)、CAES維護(hù)費(fèi)用系數(shù)和碳排放費(fèi)用系數(shù),其中ce由上網(wǎng)電價(jià)csale和購電電價(jià)cbuy構(gòu)成;T為調(diào)度周期數(shù)。
1.2.2 約束條件
工業(yè)園微能源系統(tǒng)優(yōu)化調(diào)度約束包括電能、熱能、氣能平衡約束、購能約束和設(shè)備運(yùn)行約束,如下所示:
(13)
(14)
強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)中一種通過智能體和環(huán)境交互學(xué)習(xí)來制定最佳狀態(tài)-動(dòng)作策略的方法。強(qiáng)化學(xué)習(xí)的核心是智能體和環(huán)境的交互。智能體通過觀測(cè)環(huán)境的狀態(tài)根據(jù)策略函數(shù)給出環(huán)境動(dòng)作,并基于狀態(tài)和動(dòng)作計(jì)算每一步獎(jiǎng)勵(lì),環(huán)境執(zhí)行智能體給定的動(dòng)作并將新的狀態(tài)提供給智能體。智能體依據(jù)每一步的獎(jiǎng)勵(lì)來尋找使累計(jì)獎(jiǎng)勵(lì)最大化的狀態(tài)-動(dòng)作策略。圖2所示為強(qiáng)化學(xué)習(xí)的核心框架。
圖2 強(qiáng)化學(xué)習(xí)核心框架
強(qiáng)化學(xué)習(xí)本質(zhì)可使用馬爾科夫決策過程(MDP)表述,即下一時(shí)刻狀態(tài)僅與當(dāng)前時(shí)刻狀態(tài)和動(dòng)作有關(guān)。MDP常表示為一個(gè)元組(S,A,Tp,R),其中:S表示狀態(tài)空間;A表示動(dòng)作空間;Tp表示狀態(tài)轉(zhuǎn)移函數(shù),Tp:S×A×S′→[0,1],即狀態(tài)S執(zhí)行動(dòng)作后轉(zhuǎn)移到下一個(gè)狀態(tài)S′的概率;R表示獎(jiǎng)勵(lì)函數(shù),R:S×A→R,即發(fā)生狀態(tài)轉(zhuǎn)移時(shí)環(huán)境給出的即時(shí)獎(jiǎng)勵(lì)。
(1) 狀態(tài)空間S。在工業(yè)園微能源系統(tǒng)的經(jīng)濟(jì)調(diào)度模型中,環(huán)境的觀測(cè)狀態(tài)包括負(fù)荷需求、屋頂光伏發(fā)電功率、蓄電池SOC和CAES儲(chǔ)氣狀態(tài)。狀態(tài)S可表示為
S=[PLHLELPPVSBESECA]
(15)
(2) 動(dòng)作空間A。智能體的動(dòng)作包括熱電聯(lián)產(chǎn)機(jī)組輸出的電熱功率、燃?xì)忮仩t輸出的熱功率、電鍋爐輸入電功率和輸出的熱功率、蓄電池的充放電功率、CAES輸入電功率和儲(chǔ)用氣量以及微能源系統(tǒng)與配電網(wǎng)交互功率。依據(jù)式(2)、式(4)、式(6)和式(13),熱電聯(lián)產(chǎn)機(jī)組輸出的電功率、燃?xì)忮仩t輸出的熱功率和蓄電池的充放電功率是智能體必不可少的動(dòng)作,其他動(dòng)作均可由相應(yīng)的計(jì)算式得到。動(dòng)作空間A可表示為
A=[PCHPHGBPBES]
(16)
(3) 狀態(tài)轉(zhuǎn)移函數(shù)f。智能體的狀態(tài)轉(zhuǎn)移函數(shù)如下所示:
st+1=f(st,at,σt)
(17)
式中:st和at分別為t時(shí)刻的狀態(tài)和動(dòng)作;σt為t時(shí)刻的隨機(jī)項(xiàng),即體現(xiàn)屋頂光伏發(fā)電功率和微能源系統(tǒng)負(fù)荷需求導(dǎo)致的隨機(jī)影響。
(4) 獎(jiǎng)勵(lì)函數(shù)r。為實(shí)現(xiàn)工業(yè)園微能源系統(tǒng)的最小調(diào)度成本,將微能源系統(tǒng)的經(jīng)濟(jì)調(diào)度模型中目標(biāo)函數(shù)式(12)改寫為獎(jiǎng)勵(lì)函數(shù)如下所示:
rt=-k[Cb(st,at)+Co(st,at)+Cce(st,at)]-ξ
(18)
式中:rt為t時(shí)刻的獎(jiǎng)勵(lì)函數(shù)值;k為比例因子;ξ為懲罰因子,當(dāng)約束條件不滿足時(shí),懲罰因子為常數(shù),當(dāng)約束條件滿足時(shí),懲罰因子為0。
(5) 狀態(tài)-動(dòng)作值函數(shù)Qπ(s,a)。智能體的策略π為狀態(tài)S到動(dòng)作A的映射,智能體采用狀態(tài)-動(dòng)作值函數(shù)Qπ(s,a)來衡量策略π的優(yōu)劣程度,如下所示:
(19)
式中:γ為折扣因子,γ∈[0,1],表示未來獎(jiǎng)勵(lì)在累積獎(jiǎng)勵(lì)中所占比重;rt為t時(shí)刻的獎(jiǎng)勵(lì);Eπ[·]為策略π的期望。
最優(yōu)策略π*可表示如下:
π*=argmaxQπ(s,a)
(20)
經(jīng)濟(jì)調(diào)度的強(qiáng)化學(xué)習(xí)框架設(shè)計(jì)中,智能體的動(dòng)作A在現(xiàn)實(shí)場景中均為連續(xù)調(diào)節(jié)的變量,且狀態(tài)轉(zhuǎn)移函數(shù)f中包含不確定性因素影響的隨機(jī)項(xiàng)σt,僅通過強(qiáng)化學(xué)習(xí)應(yīng)對(duì)動(dòng)作的連續(xù)調(diào)節(jié)和不確定性因素的影響將大大降低強(qiáng)化學(xué)習(xí)效率和適用性。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中一種基于對(duì)數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的方法,DRL將深度學(xué)習(xí)的感知能力和強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合,有效提升強(qiáng)化學(xué)習(xí)的學(xué)習(xí)效率并極大地拓展了強(qiáng)化學(xué)習(xí)的使用范圍。
TD3算法基于Actor-Critic框架,由Q值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)兩部分構(gòu)成,策略網(wǎng)絡(luò)實(shí)現(xiàn)狀態(tài)S到動(dòng)作A的映射,Q值網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)策略網(wǎng)絡(luò)建立映射的量化評(píng)估,即狀態(tài)-動(dòng)作值函數(shù)Qπ(s,a)。TD3算法通過增加Q值網(wǎng)絡(luò)和軟更新的方式抑制Qπ(s,a)的過高估計(jì)。Q值網(wǎng)絡(luò)將給出兩個(gè)狀態(tài)-動(dòng)作值函數(shù)Qπ1(s,a)和Qπ2(s,a),并取兩者的最小值作為最終Q值網(wǎng)絡(luò)的估計(jì)值,同時(shí)通過構(gòu)建與Q值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)相對(duì)應(yīng)的目標(biāo)Q值網(wǎng)絡(luò)和目標(biāo)策略網(wǎng)絡(luò),采用軟更新的方式使Q值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)向目標(biāo)Q值網(wǎng)絡(luò)和目標(biāo)策略網(wǎng)絡(luò)傳遞參數(shù),延緩Qπ(s,a)的更新速度。
基于DRL的工業(yè)園微能源系統(tǒng)經(jīng)濟(jì)調(diào)度智能體部署TD3算法,通過TD3算法的訓(xùn)練可使智能體的策略網(wǎng)絡(luò)具備任意環(huán)境狀態(tài)st下產(chǎn)生最優(yōu)動(dòng)作at。TD3算法訓(xùn)練智能體的具體步驟如圖3所示。
圖3 TD3算法訓(xùn)練流程圖
本文以西北地區(qū)某工業(yè)園1#~3#生產(chǎn)廠房的微能源系統(tǒng)為例,1#~3#廠房屋頂光伏裝機(jī)容量為2 MW,配置熱電聯(lián)產(chǎn)機(jī)組350 kW,燃?xì)忮仩t300 kW,電鍋爐200 kW,蓄電池850 kW/850 kWh,CAES 300 kW,儲(chǔ)氣罐容量40 m3,最大、最小壓強(qiáng)5、3.5 Pa。1#~3#生產(chǎn)廠房通過一臺(tái)變壓器與配電網(wǎng)相連,微能源系統(tǒng)和配電網(wǎng)交互功率不大于3 MW。配電網(wǎng)分時(shí)電價(jià):峰時(shí)段(12:00~19:00)0.59元、平時(shí)段(07:00~12:00,19:00~23:00)0.38元、谷時(shí)段(23:00~07:00)0.16元。配電網(wǎng)上網(wǎng)電價(jià)為0.2元,天然氣價(jià)格為1.9元/m3。微能源系統(tǒng)設(shè)備參數(shù)如表1所示。
表1 微能源系統(tǒng)設(shè)備參數(shù)
工業(yè)園微能源系統(tǒng)的調(diào)度周期為24 h,相鄰兩個(gè)調(diào)度時(shí)段的間隔為15 min。以西北地區(qū)某工業(yè)園1#~3#生產(chǎn)廠房3月~5月日負(fù)荷數(shù)據(jù)和光伏發(fā)電數(shù)據(jù)作為歷史數(shù)據(jù)對(duì)微能源系統(tǒng)經(jīng)濟(jì)調(diào)度智能體訓(xùn)練,使用6月的平均日負(fù)荷數(shù)據(jù)和平均光伏發(fā)電數(shù)據(jù)對(duì)智能體進(jìn)行評(píng)估,如圖4所示?;赥D3算法的DRL參數(shù)如表2所示。
圖4 平均日負(fù)荷曲線和光伏發(fā)電曲線
表2 基于TD3算法的DRL參數(shù)
3.2.1 基于TD3算法的微能源系統(tǒng)調(diào)度分析
使用歷史數(shù)據(jù)訓(xùn)練智能體:智能體接收電、熱、氣負(fù)荷和光伏發(fā)電數(shù)據(jù),并生成熱電聯(lián)產(chǎn)機(jī)組電功率、燃?xì)忮仩t熱功率和蓄電池充放電功率指令;根據(jù)圖3對(duì)智能體的網(wǎng)絡(luò)參數(shù)進(jìn)行調(diào)整,并在平均獎(jiǎng)勵(lì)達(dá)到穩(wěn)定值后,保存智能體形成的策略,即微能源系統(tǒng)的經(jīng)濟(jì)調(diào)度策略,智能體訓(xùn)練過程中獎(jiǎng)勵(lì)函數(shù)的變化如圖5所示。然后采用圖4所示的平均日負(fù)荷數(shù)據(jù)和平均光伏發(fā)電數(shù)據(jù)對(duì)智能體進(jìn)行測(cè)試,基于TD3算法的微能源系統(tǒng)經(jīng)濟(jì)調(diào)度結(jié)果如圖6~圖8所示,其中圖6為電能調(diào)度結(jié)果,圖7為熱能調(diào)度結(jié)果,圖8為氣能調(diào)度結(jié)果。
圖5 基于TD3算法的微能源系統(tǒng)經(jīng)濟(jì)調(diào)度智能體訓(xùn)練圖
圖6 基于TD3算法的電能調(diào)度結(jié)果
圖7 基于TD3算法的熱能調(diào)度結(jié)果
圖8 基于TD3算法的氣能調(diào)度結(jié)果
圖5中陰影區(qū)和黑色曲線分別表示智能體訓(xùn)練過程中的獎(jiǎng)勵(lì)值變化范圍和獎(jiǎng)勵(lì)函數(shù)的均值。通過圖5可知基于TD3算法的智能體在400回合后逐漸收斂至穩(wěn)定獎(jiǎng)勵(lì)值。圖6展示了光伏發(fā)電功率、向電網(wǎng)購售功率、蓄電池充放電功率、熱電聯(lián)產(chǎn)機(jī)組和電鍋爐消耗電功率,空壓機(jī)工作消耗電功率和工業(yè)園1#~3#生產(chǎn)廠房電負(fù)荷功率。如圖6所示,微能源系統(tǒng)電能調(diào)度中蓄電池在谷價(jià)時(shí)充電并在其他時(shí)段放電,同時(shí)蓄電池會(huì)吸收光伏和熱電聯(lián)產(chǎn)機(jī)組產(chǎn)生的多余電能(12:00~12:15,13:30~13:45),此外電能調(diào)度中還會(huì)優(yōu)先消納光伏產(chǎn)生的電能以減低對(duì)市電的需求。圖7展示了熱電聯(lián)產(chǎn)、燃?xì)忮仩t和電鍋爐的熱功率,以及工業(yè)園1#~3#生產(chǎn)廠房熱負(fù)荷功率。工業(yè)園由于生產(chǎn)工序特性,電、熱、氣負(fù)荷功率呈現(xiàn)較為規(guī)律的波動(dòng)變化,且西北地區(qū)天然氣存量豐富,成本經(jīng)濟(jì)。如圖7所示,微能源系統(tǒng)熱能調(diào)度中熱電聯(lián)產(chǎn)機(jī)組和燃?xì)忮仩t輸出熱功率占熱負(fù)荷需求的比重超過70%,而電鍋爐輸出的熱功率受分時(shí)電價(jià)影響,在谷價(jià)時(shí)段比平價(jià)和峰價(jià)時(shí)段輸出熱功率更多。在峰價(jià)時(shí)段由于熱電聯(lián)產(chǎn)機(jī)組和燃?xì)忮仩t輸出熱功率已達(dá)最大值,熱負(fù)荷需求不足的功率由電鍋爐補(bǔ)足。生產(chǎn)產(chǎn)線用氣量和儲(chǔ)氣罐儲(chǔ)氣量如圖8所示,微能源系統(tǒng)的氣能調(diào)度中儲(chǔ)氣罐在谷價(jià)時(shí)段通過空壓機(jī)的工作盡可能維持最大壓強(qiáng),而在平價(jià)和峰價(jià)時(shí)段儲(chǔ)氣罐在滿足生產(chǎn)產(chǎn)線用氣量的基礎(chǔ)上,減少維持最大壓強(qiáng)的時(shí)刻以降低用電需求。通過上述調(diào)度結(jié)果分析,可知基于TD3算法的微能源系統(tǒng)調(diào)度智能體不僅能夠獲取全時(shí)段的最優(yōu)獎(jiǎng)勵(lì),同時(shí)在每個(gè)調(diào)度時(shí)段也探索最優(yōu)獎(jiǎng)勵(lì)并影響全時(shí)段的最優(yōu)獎(jiǎng)勵(lì)。
3.2.2 不同調(diào)度方法對(duì)比分析
為驗(yàn)證提出的基于TD3算法的微能源系統(tǒng)經(jīng)濟(jì)調(diào)度方法的有效性,分別采用基于深度Q網(wǎng)絡(luò)(DQN)的微能源系統(tǒng)經(jīng)濟(jì)調(diào)度方法和基于預(yù)測(cè)信息的調(diào)度方法進(jìn)行比較。其中,基于DQN的微能源系統(tǒng)經(jīng)濟(jì)調(diào)度方法采用負(fù)荷需求、屋頂光伏發(fā)電功率、蓄電池SOC和CAES儲(chǔ)氣狀態(tài)作為狀態(tài)觀測(cè)量,采用熱電聯(lián)產(chǎn)機(jī)組輸出的電功率PCHP、燃?xì)忮仩t輸出的熱功率HGB和蓄電池的充放電功率PBES為動(dòng)作量,并將PCHP、HGB、PBES分別離散為{0,100,200,250,300,350}kW、{0,100,150,200}kW、{-850,-450,-280,-50,0,50,280,450,850}kW。DQN的折扣因子為0.99,學(xué)習(xí)率為0.001,批處理為64?;陬A(yù)測(cè)信息的調(diào)度方法采用神經(jīng)網(wǎng)絡(luò)對(duì)光伏發(fā)電功率和電、熱、氣負(fù)荷進(jìn)行預(yù)測(cè),然后采用優(yōu)化求解器進(jìn)行求解。三種方法均采用西北地區(qū)某工業(yè)園1#~3#生產(chǎn)廠房6月平均日負(fù)荷數(shù)據(jù)和平均光伏發(fā)電數(shù)據(jù)進(jìn)行調(diào)度結(jié)果比較,如表3所示。
表3 不同調(diào)度方法比較 元
由表3可知,基于TD3的微能源系統(tǒng)調(diào)度方法調(diào)度總成本為49 785元,其中購能成本占比最大,為48 306元,維護(hù)成本占比最小,為60.263元?;赥D3的調(diào)度方法比基于DQN的調(diào)度方法調(diào)度總成本節(jié)約1 074元,主要節(jié)約在購能成本;基于TD3的調(diào)度方法比基于預(yù)測(cè)信息的調(diào)度方法調(diào)度總成本節(jié)約392元,同樣主要節(jié)約在購能成本。表3表明,基于DQN方法的動(dòng)作為離散動(dòng)作,無法對(duì)更細(xì)化的動(dòng)作進(jìn)行探索,基于預(yù)測(cè)信息的方法同實(shí)際信息存在誤差,而基于TD3方法的動(dòng)作連續(xù),能夠?qū)崿F(xiàn)對(duì)動(dòng)作邊界范圍內(nèi)的所有值的選取和探索,同時(shí)其訓(xùn)練過程采用探索噪聲擾動(dòng)確保了不同誤差情況下的有效探索,因而基于TD3的微能源系統(tǒng)經(jīng)濟(jì)調(diào)度方法減小了經(jīng)濟(jì)成本。
本文針對(duì)城市工業(yè)園微能源系統(tǒng)提出了一種基于TD3的動(dòng)態(tài)調(diào)度方法,首先依據(jù)馬爾科夫決策過程,將微能源系統(tǒng)調(diào)度模型構(gòu)建為強(qiáng)化學(xué)習(xí)框架,設(shè)計(jì)包含購能成本、維護(hù)成本和碳排成本的微能源系統(tǒng)經(jīng)濟(jì)調(diào)度獎(jiǎng)勵(lì)函數(shù),然后采用Actor-Critic框架的TD3算法對(duì)智能體進(jìn)行訓(xùn)練,最后以西北地區(qū)工業(yè)園微能源系統(tǒng)為例進(jìn)行了有效性驗(yàn)證。所提方法不僅能夠確保動(dòng)作的連續(xù)性,避免獎(jiǎng)勵(lì)值的過估計(jì),同時(shí)所提方法不依賴于預(yù)測(cè)信息和不確定性建模,能夠保證源荷隨機(jī)波動(dòng)時(shí)的調(diào)度策略有效性。通過與基于DQN的調(diào)度方法和基于預(yù)測(cè)信息的調(diào)度方法對(duì)比可知,所提基于TD3的微能源系統(tǒng)調(diào)度方法具有更好的經(jīng)濟(jì)性。