李洪波, 郭琦, 袁少卿, 呂小凡, 趙靜
(1.內(nèi)蒙古電網(wǎng)電力調(diào)度控制中心,內(nèi)蒙古 呼和浩特 010020;2.北京清能互聯(lián)科技公司,北京 100080)
電力市場的建設(shè)和運(yùn)營是一項(xiàng)極為復(fù)雜的任務(wù)工程,為了降低市場運(yùn)營給系統(tǒng)帶來的風(fēng)險(xiǎn),規(guī)避隱藏的試錯成本,電力市場模擬系統(tǒng)的建設(shè)顯得尤為重要。對此國內(nèi)外工作者已經(jīng)研發(fā)了多種電力市場模擬系統(tǒng)[1-5],然而其主要集中在市場運(yùn)營商的出清環(huán)節(jié),對市場成員的競價(jià)決策行為往往作了簡化處理。隨著電力市場的不斷發(fā)展,如何有效模擬市場成員的競價(jià)行為逐漸成為各學(xué)者關(guān)注的重要課題之一。
基于代理的模擬仿真技術(shù)是一種有效的試驗(yàn)工具[6-8],可為上述問題提供可行的解決思路。文獻(xiàn)[9]針對電力拍賣市場,提出了一種基于選擇概率的強(qiáng)化學(xué)習(xí)算法的智能代理模型。文獻(xiàn)[10]提出了基于猜測供給函數(shù)模型的發(fā)電公司代理模型,并構(gòu)造了重復(fù)博弈電力市場的多代理模型。文獻(xiàn)[11-13]基于Q學(xué)習(xí)算法構(gòu)造了發(fā)電商決策代理模型,并分別在現(xiàn)貨和中長期市場驗(yàn)證了模型的有效性。文獻(xiàn)[14]72-73提煉出關(guān)鍵影響因子用于建立多輸入決策因子模型,并應(yīng)用RE-learning算法模擬發(fā)電商日前市場競價(jià)行為。
綜上所述,目前國內(nèi)外基于智能代理的發(fā)電商競價(jià)模擬研究已經(jīng)取得了一定成果,但多集中于單一決策目標(biāo),缺少多重決策目標(biāo)的分析建模,此外在代理進(jìn)化學(xué)習(xí)過程中,策略空間一般是固定的,這在一定程度上限制了代理模型的靈活性。針對上述問題,本文提出一種基于綜合效用函數(shù)和動態(tài)策略空間的智能代理方法,同時(shí)結(jié)合強(qiáng)化學(xué)習(xí)中的RE-learning算法,實(shí)現(xiàn)對市場成員競價(jià)行為的模擬,并通過算例驗(yàn)證所提方法的有效性。
理想情況下,發(fā)電商進(jìn)行第二天申報(bào)時(shí),往往追求的是個人收益的最大化。然而實(shí)際中,由于生產(chǎn)經(jīng)營條件的不同,發(fā)電商追求的可能不僅僅是單一收益,還會考慮其他從屬目標(biāo),如機(jī)組相對利用率和機(jī)組市場占有率等。此外,在衡量各策略的優(yōu)劣性時(shí),各發(fā)電商關(guān)注的可能不是整體收益,而是機(jī)組容量收益。因此,為了有效模擬發(fā)電商的上述真實(shí)行為,本文借鑒文獻(xiàn)[14]73-75中的方法,綜合考慮機(jī)組單容量收益和相對利用率等因素,構(gòu)造一個綜合的效用函數(shù),具體如式(1)所示。
(1)
(2)
(3)
式中:plmp為機(jī)組所在節(jié)點(diǎn)的市場出清價(jià)格;Q為機(jī)組中標(biāo)電量;C(Q)為機(jī)組的變動成本;CGu為固定成本分?jǐn)偤蟮母們r(jià)成本;G為機(jī)組裝機(jī)容量;Gω為市場總裝機(jī)容量;Beq為系統(tǒng)負(fù)荷。
基于強(qiáng)化學(xué)習(xí)的智能代理研究中,策略空間的構(gòu)建是關(guān)鍵所在。在現(xiàn)有的研究中,通常采取簡化處理,首先對機(jī)組的容量范圍進(jìn)行分段均分處理,并固定形成量的基準(zhǔn)申報(bào)方式;其次基于邊際成本函數(shù),結(jié)合容量申報(bào)方式,從而得到一條基準(zhǔn)的申報(bào)曲線即基準(zhǔn)策略;最后基于上述基準(zhǔn)策略,等比例考慮一定的利潤率,從而形成對應(yīng)的策略空間。顯然,上述處理方式存在著不少問題:第一,各策略中量都是采取固定統(tǒng)一的分段均分方式,這顯然無法模擬發(fā)電商的真實(shí)行為,也無法從量上體現(xiàn)各策略的優(yōu)劣性和發(fā)電商在申報(bào)量上的博弈行為;第二,在進(jìn)化學(xué)習(xí)過程中,各代理策略空間都是固定的,這在一定程度上限制了代理模型的靈活性,也難以體現(xiàn)其學(xué)習(xí)性和智能性。
實(shí)際中,為了實(shí)現(xiàn)自身決策目標(biāo)最大化,在市場允許范圍內(nèi),各發(fā)電商一般都會報(bào)滿N(申報(bào)段數(shù))個量價(jià)對即申報(bào)策略曲線。對此,為了模擬發(fā)電商在量價(jià)維度上的真實(shí)考慮和博弈行為,本文對各策略的優(yōu)化空間進(jìn)行了維度還原處理,各策略對應(yīng)的優(yōu)化維度不再是單一的利潤率拉升比例,而是真實(shí)的N個量價(jià)對。
此外,針對上述所提的第二點(diǎn)不足,本文提出一種改進(jìn)的動態(tài)策略空間。在每輪次學(xué)習(xí)過程中,對各策略評價(jià)系數(shù)重新進(jìn)行排序,排序靠后的策略將會進(jìn)行動態(tài)調(diào)整替換,其中替換更新思路主要有以下兩種方式:第一,向本輪次最優(yōu)策略進(jìn)行動態(tài)學(xué)習(xí);第二,基于本輪次最優(yōu)策略隨機(jī)擾動生成新策略。
各發(fā)電商向市場運(yùn)營商提交申報(bào)信息,運(yùn)營商根據(jù)購電成本最小或者社會福利最大化原則統(tǒng)一進(jìn)行市場出清。每天電力市場的重復(fù)運(yùn)營,使發(fā)電商根據(jù)當(dāng)天的競價(jià)經(jīng)驗(yàn)不斷動態(tài)優(yōu)化后續(xù)的競價(jià)策略成為可能。
策略進(jìn)化過程如下:①各發(fā)電商提交報(bào)價(jià)信息給市場運(yùn)營商;②市場運(yùn)營商收到所有的報(bào)價(jià)信息后,在滿足系統(tǒng)負(fù)荷需求等條件下,根據(jù)市場規(guī)則進(jìn)行出清,即制訂發(fā)電計(jì)劃、計(jì)算電網(wǎng)各節(jié)點(diǎn)價(jià)格及各發(fā)電商的中標(biāo)電量,并將這些出清結(jié)果反饋給各發(fā)電商;③各發(fā)電商根據(jù)反饋的出清信息,更新計(jì)算本輪交易的綜合效用函數(shù)值;④各發(fā)電商根據(jù)綜合效用函數(shù)值和競價(jià)經(jīng)驗(yàn)優(yōu)化競價(jià)策略,進(jìn)行第二天即下一輪的報(bào)價(jià)。
圖1 算法流程圖
本文采用強(qiáng)化學(xué)習(xí)中的RE-learning算法搭建各發(fā)電商的競價(jià)模型,該算法首次由Roth和Erev在1995年提出,算法原理和相應(yīng)的決策模塊見文獻(xiàn)[11]。此處以發(fā)電商i為例詳細(xì)介紹該算法的具體求解過程,對應(yīng)流程如圖1所示。
所提方法中各策略包含了2N個優(yōu)化變量,即對應(yīng)N個量價(jià)對,其中N個變量為申報(bào)容量,另N個為對應(yīng)的申報(bào)價(jià)格。對于各優(yōu)化變量,其初始化方式具體如下:
Ck,j=Cj,min+rand×
(Cj,max-Cj,min)
(4)
式中:k、j分別為動作和變量下標(biāo),j∈2N;Cj,max、Cj,min分別為變量Cj的上下限值?;陔S機(jī)初始化的量價(jià)變量,為了保持申報(bào)曲線中各段量價(jià)非單調(diào)遞減特性,對量價(jià)變量分別重新進(jìn)行排序處理。
以競價(jià)模型的單次策略進(jìn)化過程為一輪次,則第D輪市場出清后,根據(jù)反饋的市場出清結(jié)果計(jì)算式(1)的綜合效用函數(shù)值,并利用其更新策略空間中各策略動作的學(xué)習(xí)參數(shù),式(5)是對選擇到的第m個動作進(jìn)行更新,式(6)是對未選擇到的動作進(jìn)行更新。
(5)
(6)
根據(jù)D輪出清結(jié)果更新完原始策略空間的評價(jià)系數(shù)后,按照所提的改進(jìn)思路動態(tài)調(diào)整更新策略空間,具體操作為:根據(jù)更新后的評價(jià)系數(shù)對各策略重新進(jìn)行優(yōu)先級排序,假設(shè)評價(jià)系數(shù)最高的動作k下標(biāo)為b,排序最后m個動作下標(biāo)集合為M,排序最后m~m+n個動作下標(biāo)集合為N;對動作集合M采取向最佳策略n學(xué)習(xí)的改進(jìn)策略,對動作集合N采取最佳策略b隨機(jī)擾動替換策略,其策略變量及評價(jià)系數(shù)的更新方式具體如下:
(7)
(8)
式中:Cm′,j、qim′(D+1)分別為動態(tài)替換后的第m個策略動作及對應(yīng)的評價(jià)系數(shù);biasj、biasq分別為變量j和評價(jià)系數(shù)的擾動量;rand為(0,1)的隨機(jī)量。
根據(jù)動態(tài)調(diào)整后各策略行為的評價(jià)系數(shù)更新其在輪盤賭中的概率系數(shù),更新公式如式(9)所示。下一輪競價(jià)時(shí),重新以輪盤賭的方式隨機(jī)選擇對應(yīng)的策略動作。
(9)
式中:c(D+1)為D+1輪冷卻系數(shù),決定評價(jià)系數(shù)對選擇概率的影響程度。參數(shù)的選擇根據(jù)每輪各策略評價(jià)系數(shù)進(jìn)行如下調(diào)整:
(10)
式中:g為一個大于0的實(shí)數(shù),一般設(shè)定的取值范圍為(0,3)。g的取值會改變冷卻系數(shù)c的取值,影響智能代理的收斂效率,g越大,智能代理收斂越慢。
圖2 3機(jī)9節(jié)點(diǎn)系統(tǒng)接線圖
為了驗(yàn)證所提方法的有效性,以3機(jī)9節(jié)點(diǎn)系統(tǒng)為例,其網(wǎng)絡(luò)拓?fù)淙鐖D2所示,可見其包含3個發(fā)電商、3臺變壓器、6條輸電線路以及3個電力用戶,各發(fā)電商的詳細(xì)信息如表1所示,節(jié)點(diǎn)用戶負(fù)荷和線路傳輸容量信息可詳見表2和表3。
為了便于處理,仿真中假設(shè)各發(fā)電商代理模型采取相同的參數(shù)設(shè)置,策略動作總個數(shù)K=21、遺忘因子r=0.09、經(jīng)驗(yàn)參數(shù)e=0.9、集合M和集合N個數(shù)均為2。
此外,仿真中以廣東現(xiàn)貨電力市場試結(jié)算規(guī)則為例,采取統(tǒng)一節(jié)點(diǎn)電價(jià)出清機(jī)制;各發(fā)電商最多可上報(bào)5個量價(jià)對,同時(shí)報(bào)價(jià)策略在全天24 h各時(shí)刻是統(tǒng)一的,不得中途變更。仿真中還要求各段價(jià)格須單調(diào)非遞減,各段容量需要≥0,且各段容量之和不得超過機(jī)組最大出力。
表1 發(fā)電商技術(shù)經(jīng)濟(jì)參數(shù)
表2 節(jié)點(diǎn)負(fù)荷信息
表3 變壓器及線路信息
3.2.1 算例1
本算例中為了驗(yàn)證所提動態(tài)策略空間的改進(jìn)效果,發(fā)電商1~3均采用智能代理模型,但代理模型的決策從屬目標(biāo)仍設(shè)為單一的全天總收益。改進(jìn)前后動態(tài)競演過程分別如圖3~圖4所示,為了進(jìn)一步對比效果,此處對市場均衡后各發(fā)電商代理的決策從屬目標(biāo)值作了統(tǒng)計(jì),如表4所示。
由圖3~圖4及表4的仿真結(jié)果可以看出,所提的動態(tài)策略空間,會對市場均衡收斂速度有所影響。相比改進(jìn)前有所變慢,但各發(fā)電商從屬決策目標(biāo)值有所提高,相比改進(jìn)前市場能探索到一個更優(yōu)的收斂點(diǎn)。這主要是由于動態(tài)策略空間中,對各策略優(yōu)
圖3 改進(jìn)前動態(tài)競演過程
圖4 改進(jìn)后動態(tài)競演過程
表4 市場穩(wěn)定后收益統(tǒng)計(jì)對比
化變量進(jìn)行還原處理,因此各代理策略空間范圍變大了。此外在迭代競演過程中,對原始策略空間進(jìn)行動態(tài)調(diào)整優(yōu)化,這一定程度上也影響了整體的收斂速度,但同時(shí)得益于動態(tài)策略空間的改進(jìn)優(yōu)化,市場穩(wěn)定后各發(fā)電商整體達(dá)到了一個更優(yōu)的均衡狀態(tài)。
3.2.2 算例2
本算例主要是為了模擬發(fā)電商決策從屬目標(biāo)由單一的全天收益,變?yōu)榫C合效用函數(shù)后,其動態(tài)競演的變化過程。因此在本算例中,假定發(fā)電商2和3均按300元/MW滿容量申報(bào),而發(fā)電商1采取所提的改進(jìn)代理模型,同時(shí)綜合效用函數(shù)中機(jī)組相對利用率權(quán)重比例設(shè)為2,仿真結(jié)果如圖5、圖6和表5所示。
由圖5~圖6及表5的仿真結(jié)果可以看出,當(dāng)發(fā)電商1采取綜合效用函數(shù)后,其全天總收益將有所減小,總中標(biāo)電量有所增加。這主要是由于改進(jìn)后發(fā)電商決策目標(biāo)不再是簡單的收益最大化,而是收益和中標(biāo)電量的綜合效用值。
圖5 全天總收益對比
圖6 全天總中標(biāo)電量對比
表5 市場穩(wěn)定后決策從屬目標(biāo)統(tǒng)計(jì)對比
為了有效模擬實(shí)際電力市場環(huán)境中各發(fā)電商的真實(shí)競價(jià)行為,本文提出了一種基于綜合效用函數(shù)和動態(tài)策略空間的競價(jià)模擬方法。算例仿真結(jié)果表明,所提的動態(tài)策略空間稍有犧牲市場均衡的收斂速度,但能探索到一個更優(yōu)的均衡點(diǎn)。此外,基于所提的綜合效用函數(shù),所提代理模型能一定程度上反映各發(fā)電商的實(shí)際競價(jià)和對總體收益和機(jī)組相對利用率之間的綜合考慮行為。