林智威,劉成駿,顧 松,徐錦江,吳英俊,汝英濤
(河海大學(xué) 能源與電氣學(xué)院,江蘇 南京 211100)
近年來,隨著我國用電負(fù)荷的穩(wěn)步增長,全國多個(gè)省市尖峰負(fù)荷連年創(chuàng)下新高,直接影響電力系統(tǒng)運(yùn)行的靈活性和可靠性[1-2]。電力用戶通過需求響應(yīng)(Demand Response,DR)市場手段與電網(wǎng)進(jìn)行互動(dòng),緩解電網(wǎng)運(yùn)行的巨大壓力已成為我國電網(wǎng)發(fā)展的大趨勢,也已成為當(dāng)今電力行業(yè)的研究熱點(diǎn)[3-6]。
用戶對(duì)電能的要求綜合了質(zhì)量、可靠性、舒適性等多種維度,充分考慮了自身的經(jīng)濟(jì)效益[4-5]。因此,將用戶需求響應(yīng)的經(jīng)濟(jì)效益納入考慮,是反映用戶在需求響應(yīng)中的響應(yīng)負(fù)荷貢獻(xiàn)的價(jià)值[6-9]。電力需求響應(yīng)已經(jīng)不僅以電網(wǎng)可靠、靈活運(yùn)行本身為核心,更多需要考慮用戶如何更好地參與電網(wǎng)的需求響應(yīng)互動(dòng)、用戶如何更好地體現(xiàn)參與需求響應(yīng)的價(jià)值以及電能在需求響應(yīng)時(shí)的市場價(jià)值體現(xiàn)等內(nèi)容[10]。文獻(xiàn)[11]研究了多配用電力公司場景下的需求響應(yīng)管理問題,其中電力公司間的競爭用非合作博弈構(gòu)造,而家庭用戶間的交互用演化博弈構(gòu)造,所提出的策略方法表明電力公司和家庭用戶兩類群體分別可收斂到Nash 平衡點(diǎn)和演化博弈平衡點(diǎn);文獻(xiàn)[12]利用演化博弈論研究了一類網(wǎng)狀結(jié)構(gòu)智能電網(wǎng)的需求側(cè)管理和控制問題;文獻(xiàn)[13]從演化博弈論視角探討了需求側(cè)管理技術(shù),并重點(diǎn)關(guān)注一種由運(yùn)營商通過定價(jià)方案可強(qiáng)制執(zhí)行的分布式控制方案。文獻(xiàn)[14]則針對(duì)實(shí)時(shí)需求響應(yīng)問題提出了分布式需求響應(yīng)策略,并利用演化博弈論的概念來在解析和經(jīng)驗(yàn)基礎(chǔ)上建立確定問題中的收斂特性,研究結(jié)果表明該策略具有實(shí)時(shí)性和較高可擴(kuò)展性,為需求響應(yīng)管理實(shí)際問題提供了良好的前景。
目前,博弈論在需求響應(yīng)領(lǐng)域的總體研究思路往往考慮簡單的兩群體博弈,且注重均衡點(diǎn)穩(wěn)定性的分析,較少考慮博弈機(jī)制對(duì)兩個(gè)決策主體之間交互的影響。所以,提出了一種基于多智能體相關(guān)均衡Q(λ)(Correlated?Equilibrium?Q(λ),CEQ(λ))的電力需求響應(yīng)分布式交易模型,使得需求響應(yīng)過程中的經(jīng)濟(jì)效益共享,有效地保證了電網(wǎng)與電力用戶之間的需求響應(yīng)互動(dòng)。而后,由于采用多智能體CEQ(λ)學(xué)習(xí)算法,有效解決了傳統(tǒng)的單主體優(yōu)化的多維決策求解問題。
為解決電力用戶(Electric Users,EU)參與電力需求響應(yīng)的問題,建立基于“配電網(wǎng)—代理商—電力用戶”三層架構(gòu)的需求響應(yīng)互動(dòng)模式,如圖1 所示。在該互動(dòng)模式下存在配電網(wǎng)運(yùn)營商、電力用戶、需求響應(yīng)代理商3 個(gè)互動(dòng)主體:配電網(wǎng)運(yùn)營商實(shí)時(shí)監(jiān)控配電網(wǎng)的運(yùn)營信息,當(dāng)配電網(wǎng)處于不正常運(yùn)行狀態(tài)時(shí),配電網(wǎng)運(yùn)營商將自上而下發(fā)布需求響應(yīng)指令,提高配電網(wǎng)運(yùn)行的可靠性;電力用戶在保證其用電方式滿意度的前提下,向需求響應(yīng)代理商出售電力需求響應(yīng)服務(wù)以獲得經(jīng)濟(jì)利益;需求響應(yīng)代理商促進(jìn)配電網(wǎng)運(yùn)營商與電力用戶之間的需求響應(yīng)互動(dòng),以獲取最大的經(jīng)濟(jì)收益。
在該需求響應(yīng)互動(dòng)模式中,為了使需求響應(yīng)代理商更好地促進(jìn)三個(gè)主體的互動(dòng),提出一種需求響應(yīng)互動(dòng)模式下“配電網(wǎng)—代理商—電力用戶”經(jīng)濟(jì)效益共享計(jì)算方法。在配電網(wǎng)獲取電力需求響應(yīng)容量的過程中,需求響應(yīng)代理商提供了電網(wǎng)和電力用戶間的協(xié)調(diào)服務(wù),故配電網(wǎng)代理商將因需求響應(yīng)服務(wù)帶來可靠性上升的等值經(jīng)濟(jì)收益中的一部分分?jǐn)偨o需求響應(yīng)代理商;需求響應(yīng)代理商獲得了額外收益,故其承擔(dān)一部分電力用戶因參與需求響應(yīng)使用電滿意度下降的等值經(jīng)濟(jì)成本。
圖1 “配電網(wǎng)—代理商—電力用戶”需求響應(yīng)互動(dòng)模式
根據(jù)所提出的需求響應(yīng)互動(dòng)模式,提出了一種基于多智能體的電力需求響應(yīng)分布式交易模型,各智能體之間的交互關(guān)系如圖2所示。
圖2 多智能體分布式需求響應(yīng)互動(dòng)框架
配電網(wǎng)運(yùn)營智能體(Distribution System Operator agent,DSO agent)作為配電網(wǎng)的交易代理商,管理整個(gè)配電網(wǎng)的運(yùn)行;需求響應(yīng)交易智能體(Demand Response Coordinator agent,DRC agent),負(fù)責(zé)向電力用戶智能體(Electric User agent,EU agent)購買需求響應(yīng)容量并將其提供給配電網(wǎng),以緩解配電網(wǎng)供電壓力;EU agent 作為電力用戶的交易代理商,負(fù)責(zé)向DRC agent 出售需求響應(yīng)服務(wù),并保證電力用戶的經(jīng)濟(jì)性和用電滿意度。
根據(jù)圖2 中各智能體的交互關(guān)系,可以得到各智能體更加詳細(xì)的動(dòng)作時(shí)序。以DRC1agent 及其所管理的EU agents 為例,如圖3 所示。多智能體之間的指令主要包括通知(INFORM),詢問(QUERY),制定方案(PROPOSE),同意(AGREE),拒絕(REJECT),DSO agent、DRC agent、EU agent之間的互動(dòng)時(shí)序:
S0:DSO agent 向各DRC1agent 發(fā)出需求響應(yīng)指令,DRC1agent 詢問DSO agent 報(bào)價(jià)策略,DSO agent根據(jù)配電網(wǎng)運(yùn)行狀態(tài)確定收益分?jǐn)傁禂?shù),制定報(bào)價(jià)策略并傳遞給DRC1agent。
S1:DRC1agent 向管理所有的EU agents 發(fā)出響應(yīng)指令,EU agents 詢問DRC1agent 所需響應(yīng)容量,DRC1agent制定每一個(gè)EU agent的響應(yīng)容量。
S2:EU agents 詢問DRC1agent 報(bào)價(jià)策略,DRC1agent 確定成本分配系數(shù),制定報(bào)價(jià)策略并傳遞給EU agents。
S3:DSO agent 和EU agents 反饋DRC1agent 是否達(dá)成三方交易,若反饋為AGREE,則達(dá)成三方交易,若反饋為REJECT,則返回S0。
圖3 多智能體動(dòng)作時(shí)序圖
DSO agent 在一個(gè)電力需求響應(yīng)時(shí)段內(nèi)的目標(biāo)函數(shù)如式(1)所示,共包含兩部分:第一部分為DSO agent 向DRC agents 購買需求響應(yīng)服務(wù)費(fèi)用;第二部分則是配電網(wǎng)通過需求響應(yīng)手段使可靠性提升的等值經(jīng)濟(jì)收益。
式中:F(ΔPt)為配電網(wǎng)中備用容量下降減少的備用機(jī)組投資成本,可由配電網(wǎng)的備用容量成本函數(shù)求得;為DSO agent 傳遞給DRC agents 的機(jī)組投資成本函數(shù);αt為中需要分?jǐn)偨oDRC agents的比例。
事實(shí)上,配電網(wǎng)獲得需求響應(yīng)服務(wù)后的實(shí)際收益為式(2)中的第一項(xiàng),但由于DSO agent 更期望從DRC agents 獲得更多的電力需求響應(yīng)容量,故DSO agent 會(huì)向DRC agents 報(bào)出虛假的,并根據(jù)這一函數(shù)與DRC agent 進(jìn)行可靠性提升帶來的等值經(jīng)濟(jì)收益分?jǐn)偂?/p>
對(duì)于電力系統(tǒng),其備用容量成本可以二次函數(shù)計(jì)算[15],為
式中:aDSO、bDSO、cDSO為DSO agent 根據(jù)配電網(wǎng)的運(yùn)營狀態(tài)確定的相關(guān)常數(shù);Pspare為系統(tǒng)備用容量。
故配電網(wǎng)由于備用容量下降能夠節(jié)省的投資成本可表示為
但通常,DSO agent 在向DRC agent 傳遞這一函數(shù)時(shí),通常會(huì)根據(jù)實(shí)際情況對(duì)其進(jìn)行修正,以希望在和DRC agents 的交易中獲得更多收益,修正后的表達(dá)式為
式中:θDSO為DSO agent 根據(jù)配電網(wǎng)的實(shí)際情況確定的修正系數(shù)。
DSO agent受到的約束如式(6)—式(8)所示:
式(6)表示DSO agent 的修正系數(shù)是理性的;式(7)保證了最低響應(yīng)容量,保證了系統(tǒng)的可靠性;式(7)和式(8)保證需求響應(yīng)價(jià)格的合理性。
第i個(gè)DRC agent 下屬的第j個(gè)EU agent(即為圖2 中的EUi,jagent)在一個(gè)電力需求響應(yīng)時(shí)段內(nèi)的目標(biāo)函數(shù)如式(9)所示,包含三部分:第一部分為此用戶參與電力需求響應(yīng)導(dǎo)致用電滿意度下降產(chǎn)生的成本;第二部分是此用戶參與需求響應(yīng)后減少的用電費(fèi)用;第三部分則是此用戶參與電力需求響應(yīng)后從ERCi處獲得的收益。
用戶參與需求響應(yīng)后用用功率下降,由此導(dǎo)致用戶的用電滿意度下降,可把用電滿意度系數(shù)定義為[16]
式中:μ為與用戶自身用電屬性有關(guān)的常數(shù)為EUi,jagent 參與電力需求響應(yīng)前的電負(fù)荷功率。對(duì)于不同種類的EU agent(例如工業(yè)負(fù)荷、商業(yè)負(fù)荷和居民負(fù)荷),由于其自身用電負(fù)荷的構(gòu)成和比例各不相同,所以其用電滿意度曲線具有個(gè)體差異。
類似地,EUi,jagent 在向DRCiagent 提交用電滿意度經(jīng)濟(jì)折算成本函數(shù)時(shí)也會(huì)對(duì)其進(jìn)行修正,以期在和DRCiagent的博弈中獲得更大的收益,修正后的函數(shù)為
一個(gè)需求響應(yīng)時(shí)段內(nèi)第i個(gè)DRC agent的目標(biāo)函數(shù)由兩部分組成:第一部分為它從DSO agent 分?jǐn)偟玫降氖找?,第二部分為其管理所有EU agents 所分配的成本,為
式中:I為協(xié)調(diào)需求響應(yīng)互動(dòng)的DRC agent的總個(gè)數(shù)。
DRC agent受到的約束為:
式(20)保證DRC agent 群和DSO agent 間的交易量平衡;式(21)則保證每個(gè)DRC agent的最低收益。
搭建的需求響應(yīng)交易模型中包含1 個(gè)DSO agent、m個(gè)DRC agent 以及n個(gè)EU agent。每個(gè)智能體在所有智能體的動(dòng)作概率分布基礎(chǔ)上最大化其獎(jiǎng)勵(lì)值,達(dá)到整體獎(jiǎng)勵(lì)最大化的相關(guān)均衡,此時(shí)獲得的聯(lián)合動(dòng)作策略為最優(yōu)互動(dòng)策略。
一般常用的均衡選擇函數(shù)有4 類:uCEQ、eCEQ、pCEQ、dCEQ[17]。選用uCEQ,即在任意狀態(tài)s中,有:
式中:C為多智能體的均衡策略集;A(s)為多智能體的均衡動(dòng)作集;A-i為除了第i個(gè)智能體的其他智能體的動(dòng)作集合;ai為第i個(gè)智能體的動(dòng)作為第i個(gè)智能體的任意可選動(dòng)作,且a′i ≠ai;a-i為除了第i個(gè)智能體的其他智能體的動(dòng)作;χs為均衡策略(即動(dòng)作概率);Qi(s,a)為第i個(gè)智能體的期望狀態(tài)函數(shù);R(a-i,ai)為第i個(gè)智能體的立即獎(jiǎng)勵(lì)函數(shù)。如果某一策略χ對(duì)于所有的動(dòng)作ai,,a-i∈A-i均滿足式(23),這一策略即為相關(guān)均衡動(dòng)態(tài)平衡點(diǎn)。其中Ai為第i個(gè)智能體的動(dòng)作集合。
多智能體CEQ(λ)學(xué)習(xí)算法的一般原理是計(jì)算所有智能體當(dāng)前狀態(tài)下的Q值,并根據(jù)整體系統(tǒng)響應(yīng)、返回獎(jiǎng)勵(lì)值優(yōu)化所有智能體的Q值直到迭代至相關(guān)均衡,其迭代過程[18-19]為:
式中:Ψ為各智能體的Q值誤差函數(shù);為t時(shí)刻狀態(tài)-動(dòng)作(s,a)下的資格跡;(st,at)為t時(shí)刻實(shí)際的狀態(tài)-動(dòng)作;φ、τ、λ為算法的超參數(shù),分別為折扣因子、學(xué)習(xí)因子和衰減因子[20]。
對(duì)于在電力需求響應(yīng)交易模型中的交易主體,根據(jù)式(1)、式(9)、式(18)設(shè)計(jì)其評(píng)價(jià)獎(jiǎng)勵(lì)函數(shù)。對(duì)DSO agent,其獎(jiǎng)勵(lì)函數(shù)為
對(duì)第i個(gè)DRC agent,其獎(jiǎng)勵(lì)函數(shù)為
對(duì)第i個(gè)DRC agent 管理的第j個(gè)EU agent,其獎(jiǎng)勵(lì)函數(shù)為
在DRC agents 促成DSO agent 與EU agents 之間的需求響應(yīng)互動(dòng)過程中,描述多智能體CEQ(λ)算法偽代碼。
輸入:均衡選擇函數(shù)f;折扣因子φ;學(xué)習(xí)因子τ;衰減因子λ;
輸出:Q、V矩陣更新值;聯(lián)合動(dòng)作策略χ*;
初始化:Q、V值矩陣;初始狀態(tài)s;初始動(dòng)作a;
迭代:
1)agenti:
a)確定當(dāng)前狀態(tài)s下最佳動(dòng)作ai;
b)根據(jù)式(28)—式(30),獲得當(dāng)前狀態(tài)s下所有agent的獎(jiǎng)勵(lì)函數(shù);
c)根據(jù)式(22)和式(23)和均衡選擇函數(shù)f求取狀態(tài)s下相關(guān)均衡策略χs;
2)agentj(j≠i):
b)根據(jù)式(25),更新值誤差函數(shù)Ψ i,t+1;
c)根據(jù)式(27),更新資格跡元素Ω i,t+1(s,a);
d)根據(jù)式(26),更新值函數(shù)Qi,t+1(s,a);
3)如果當(dāng)前狀態(tài)s和下一個(gè)狀態(tài)st是同一個(gè)狀態(tài),那么輸出Q*,V*,χ*;否則執(zhí)行1)。
以某省某個(gè)示范園區(qū)為例,園區(qū)內(nèi)典型電負(fù)荷曲線如圖4 所示,整個(gè)園區(qū)包含一個(gè)DSO agent 以及兩個(gè)DRC agents,DRC1agent 管理2 個(gè)工業(yè)電力用戶,DRC2agent 管理1 個(gè)商業(yè)電力用戶和1 個(gè)居民電力用戶,即該園區(qū)有4個(gè)EU agents。仿真以13:30—15:30 作為配電網(wǎng)的需求響應(yīng)時(shí)段,以15 min作為一個(gè)時(shí)間間隔,則表1給出了需求響應(yīng)時(shí)段內(nèi)的各智能體之間的交易電價(jià)。表1 中,峰時(shí)段為08:00—11:00,平時(shí)段為11:00—18:00 和22:00—23:00,谷時(shí)段為00:00—08:00 和23:00—24:00。多智能體CEQ(λ)的超參數(shù)φ取0.8,τ取0.001,λ取0.5。
圖4 不同類型負(fù)荷曲線
表1 各agent之間交易實(shí)時(shí)電價(jià)單位:元/kWh
該算例中,經(jīng)濟(jì)效應(yīng)共享參數(shù)均取0.4。多智能體CEQ(λ)學(xué)習(xí)算法的均衡狀態(tài)數(shù)量與迭代次數(shù)變化情況如圖5 所示。由圖5 可知,多智能體CEQ(λ)學(xué)習(xí)算法迭代約15次時(shí)能穩(wěn)定達(dá)到相關(guān)均衡狀態(tài)。
圖5 均衡狀態(tài)數(shù)量變化情況
圖6 展示了多智能體CEQ(λ)學(xué)習(xí)算法在電力需求響應(yīng)互動(dòng)模式中,DSO agent、DRC agents 群以及EU agents 群三大利益主體的經(jīng)濟(jì)效益收斂變化情況。結(jié)合圖5 可知,三大利益主體均在迭代15次時(shí)收斂,迭代次數(shù)在10 次之前,各agent 的經(jīng)濟(jì)效益都叫低,而在10 次之后,經(jīng)濟(jì)效益明顯提升,說明了多智能體CEQ(λ)學(xué)習(xí)算法在求解電力需求響應(yīng)互動(dòng)模型的完整性、均勻分布性、收斂性都具有有效性。
圖6 各agent經(jīng)濟(jì)收益收斂性變化
圖7給出了DSO agent與DRC agents群之間收益分?jǐn)倢?duì)需求響應(yīng)互動(dòng)的影響,在收益分?jǐn)傁禂?shù)小于0.25 時(shí),因?yàn)榇藭r(shí)DSO agent 分?jǐn)偨oDRC agent 的收益較少,所以導(dǎo)致此時(shí)各agent 之間的需求響應(yīng)互動(dòng)比較平緩,故整體的經(jīng)濟(jì)效益偏低;在收益分?jǐn)傁禂?shù)大于0.75 時(shí),DRC agent 從DSO agent 處分?jǐn)偟降氖找孑^多,但是隨著響應(yīng)容量的增加,DRC agent 所需承擔(dān)EU agent 用電滿意度下降的等值經(jīng)濟(jì)成本將增加,故此時(shí)DRC agent會(huì)選擇降低需求響應(yīng)互動(dòng)的積極性,同時(shí)還能保證一定的經(jīng)濟(jì)收益,所以該區(qū)間在實(shí)際情況中應(yīng)盡量避免。圖8 給出了DRC agent 與EU agent 群之間的成本分配對(duì)需求響應(yīng)互動(dòng)的影響,在成本分配系數(shù)小于0.3 時(shí),EU agent 群幾乎承擔(dān)所有用電滿意度下降的等值經(jīng)濟(jì)損失,所以導(dǎo)致其響應(yīng)積極性不高;在成本分配系數(shù)大于0.7 時(shí),DRC agent 所需承擔(dān)EU 用電滿意度下降的等值經(jīng)濟(jì)損失過多,甚至超過了從DSO agent 分?jǐn)偟玫降氖找?,所以DRC agent 不愿意購買EU agent 群的需求響應(yīng)服務(wù),導(dǎo)致各agent需求響應(yīng)互動(dòng)程度較低。由圖7和圖8可知,在收益分?jǐn)傁禂?shù)與成本分配系數(shù)均取得0.4時(shí),各agent之間的需求響應(yīng)互動(dòng)達(dá)到最佳,經(jīng)濟(jì)效益最大;在0.25~0.75之間的收益分?jǐn)偤?.3~0.7之間的成本分配為較為理想需求響應(yīng)互動(dòng)經(jīng)濟(jì)效應(yīng)共享。
圖7 收益分?jǐn)傁禂?shù)對(duì)各agent收益的影響
圖8 成本分配系數(shù)對(duì)各agent收益的影響
構(gòu)建基于多智能體的電力需求響應(yīng)互動(dòng)模型,以各agent 利益均衡為目標(biāo),引入需求響應(yīng)互動(dòng)下經(jīng)濟(jì)效益共享的計(jì)算方法,采用多智能體CEQ(λ)學(xué)習(xí)算法促進(jìn)電網(wǎng)與電力用戶之間的需求響應(yīng)互動(dòng)。
將所提出的電力需求響應(yīng)互動(dòng)模式分為配電網(wǎng)代理商、需求響應(yīng)代理商以及電力用戶三大主體,采用多智能體CEQ(λ)學(xué)習(xí)算法對(duì)模型進(jìn)行求解,使各主體利益均衡。
利用基于多智能體的需求響應(yīng)互動(dòng)收益、成本分?jǐn)偡峙溆?jì)算方法,建立的電力需求響應(yīng)分布式交互模型,有利于促成三主體的交易,并顯著了各主體利益均衡收斂速度。