馮 恒, 楊爭林, 鄭亞先, 葉 飛, 張 旭, 史 昕
(中國電力科學(xué)研究院有限公司(南京), 江蘇省南京市 210003)
電力市場的建設(shè)和運營是一個復(fù)雜的系統(tǒng)工程,試錯成本巨大,所以需要前瞻性的研究去推演市場運營機理,降低市場模式選擇及運營的風(fēng)險。目前國內(nèi)外建立了多種電力市場實驗環(huán)境[1-3],其中不僅需要市場規(guī)則和市場模式的設(shè)定,更要具備對市場成員決策行為的模擬能力。目前研究市場成員競價決策行為的模擬方法有很多,但是大部分模擬方法僅限于對市場成員歷史申報數(shù)據(jù)或者人工模擬數(shù)據(jù)進行實驗,無法反映市場成員的決策過程[4]。
近年來興起的智能代理(agent)是一種能不斷地從環(huán)境中獲取知識,通過提高自身能力來取得最大利益的智能實體[5]。它在一定的環(huán)境下能獨立自主地運行,通過參數(shù)的決策改變自身的行為,從而影響外部的環(huán)境,同時也可以根據(jù)外部環(huán)境、自身收益的變化調(diào)整自身的決策行為,并可以利用有限的外部信息做出最優(yōu)決策,尤其適合在電力市場初期對各個市場成員進行建模仿真[6],促進電力市場機制和規(guī)則的快速建立。
目前國內(nèi)外基于智能代理的發(fā)電商競價模擬算法的研究已經(jīng)取得了一定成果,但多集中于單一因素分析建模,缺少多因素的分析建模,特別是多因素的動態(tài)分析建模。文獻[7]開發(fā)了基于智能學(xué)習(xí)算法Q-learning的發(fā)電商競價決策程序模塊,并在5節(jié)點測試系統(tǒng)上進行模擬。由于目前版本的AMES電力市場仿真平臺中市場運營機構(gòu)(ISO)程序模塊的局限,只能處理每天一輪的競價,決策時也未考慮負荷變化,但市場需求是發(fā)電商決策時應(yīng)考慮的主要外部因素;文獻[8]以電力市場仿真系統(tǒng)為基礎(chǔ)技術(shù)平臺,開展了不同供需水平下電力市場成員智能代理算法研究,但是沒有考慮供需變化條件下發(fā)電商的動態(tài)行為特征;在電力市場動態(tài)行為方面,文獻[9]應(yīng)用非線性動力學(xué)的離散動態(tài)理論和經(jīng)濟學(xué)的博弈論,建立了3個區(qū)域博弈電力市場的古諾模型,求出了該模型的均衡解,分析了均衡解的穩(wěn)定性,并探討了Nash均衡點的穩(wěn)定域及各參數(shù)變化對穩(wěn)定域的影響;文獻[10]基于JADE框架的多代理仿真系統(tǒng),針對多個場景對比仿真國內(nèi)月度電量集中競價市場的相關(guān)規(guī)則,定量分析兩種不同的市場出清規(guī)則。文獻[11]運用多代理技術(shù)設(shè)計以自身收益最大化為決策目標的市場博弈模型,采用強化學(xué)習(xí)方法對市場主體的競價行為進行優(yōu)化求解。文獻[11-13]針對日前電力市場發(fā)電商利益最大化問題,利用Q-learning算法構(gòu)造了發(fā)電商競價策略模型。文獻[11]中發(fā)電商決策的唯一主目標就是收益,尚未考慮機組利用率等決策從屬目標;文獻[12]以發(fā)電商即時收益和市場相對占有率組合成效用函數(shù),能使發(fā)電商收益最大化并同時達到提高市場占有率的目的;文獻[13]以發(fā)電商即時收益和機組連續(xù)使用率為目標,優(yōu)化發(fā)電商競價決策。
本文模型首先從諸多影響因素中提煉出關(guān)鍵因子分類建模,然后采用基于智能代理的多輸入決策因子模型模擬發(fā)電商日前市場競價行為,并且模擬需求變化條件下發(fā)電商的動態(tài)行為演化過程。
本文所提出的多輸入決策因子模型,從影響發(fā)電商競價決策的市場要素和行為要素里提煉出關(guān)鍵影響因子,并從決策依據(jù)、決策目標、策略演化模型3個維度對競價模型進行了分析。但是多輸入決策因子競價模型中并沒有單獨對市場規(guī)則、邊際成本、裝機容量進行單獨建模分析,因為很多現(xiàn)有的文獻已經(jīng)分析了三者對于發(fā)電商競價行為的影響。
電力行業(yè)從壟斷到競爭,市場成員的決策方式會發(fā)生很大的轉(zhuǎn)變。對于發(fā)電商而言,傳統(tǒng)電廠只需要根據(jù)調(diào)度指令安排機組出力和機組檢修計劃,而市場環(huán)境下的發(fā)電商是基于邊際成本,利用市場信息最優(yōu)化其競價行為。但是市場初期發(fā)電商掌握的外部信息有限,市場環(huán)境中存在著影響其競價的諸多因素;對于發(fā)電商自身而言,其競價決策時有不同的決策目標偏好和風(fēng)險偏好。以上影響因素均增加了發(fā)電商投標行為的不確定性,因此投標時要多維度地考慮其競價行為。但是電力市場環(huán)境下影響其競價行為的因素有很多,如果用數(shù)學(xué)模型把所有相關(guān)因素統(tǒng)一建模,會造成維數(shù)災(zāi)難或者不收斂的困難。因此有必要對影響因素進行歸類分析,提煉關(guān)鍵影響因子進行研究建模。
在市場因素層面,市場供需和市場規(guī)則是發(fā)電商競價時考慮的最基本的外部數(shù)據(jù),發(fā)電商中標電量和中標價格是由市場出清發(fā)布,而市場出清主要是依據(jù)各發(fā)電商報價、市場出清規(guī)則和市場供需關(guān)系決定。發(fā)電商的報價在本文模型中屬于其自身的行為要素層面,所以本文在市場因素中提煉出的關(guān)鍵影響因子是市場供需和市場出清規(guī)則。
在自身的行為要素層面,機組邊際成本、發(fā)電商報價和裝機容量是發(fā)電商在投標競價時考慮的主要依據(jù)。由于市場供需不斷波動,發(fā)電商在競價決策中不可避免地會遇到各種風(fēng)險規(guī)避問題,同時發(fā)電商有不同的競價決策目標偏好,因此本文在行為要素中提煉出的關(guān)鍵影響因子是風(fēng)險偏好、決策從屬目標、機組邊際成本、發(fā)電商報價及其裝機容量。
1.1.1發(fā)電商報價
在完全競爭電力市場中,發(fā)電商最優(yōu)報價就是按邊際生產(chǎn)成本函數(shù)競價。本文采用文獻[14]中的邊際成本建模方法,對發(fā)電商i的成本函數(shù)求一階導(dǎo)數(shù),即可求得發(fā)電商i的邊際生產(chǎn)成本CMi:
CMi(Pi)=ai+2biPi
(1)
式中:ai和bi為發(fā)電商i成本函數(shù)的系數(shù);Pi為發(fā)電出力。
而實際的電力市場往往是一個不完全競爭市場,區(qū)域內(nèi)通常只有少數(shù)幾個發(fā)電商提供電力,而各發(fā)電商擁有不同程度的市場力,因此可利用一定的競價策略獲得更多的收益。本文的競價策略是在邊際成本的基礎(chǔ)上增加一定的利潤率作為其報價:
CB=CMi(1+Mi)
(2)
式中:CB為發(fā)電商i的報價;Mi為加價系數(shù),可根據(jù)發(fā)電商i自身的經(jīng)營狀況和決策目標選定。
1.1.2風(fēng)險偏好
市場環(huán)境下如何優(yōu)化自身的競價策略使發(fā)電利潤最大化,是各發(fā)電商關(guān)心的首要問題。但市場初期發(fā)電商掌握的外部信息有限,市場中存在著諸如系統(tǒng)負荷波動、對手報價的策略行為等諸多不確定因素,使得發(fā)電商的競價決策面臨很大的風(fēng)險。本文模型中的發(fā)電商皆為理性發(fā)電商,即其風(fēng)險特性不同于一般文獻中的風(fēng)險建模問題,但是不同種類的理性發(fā)電商對于風(fēng)險的態(tài)度不同:有的發(fā)電商喜好風(fēng)險,善于利用原有的競價經(jīng)驗和有限的外部信息探索更好的競價策略,對于收益的響應(yīng)比較理性,要經(jīng)過較長時間的學(xué)習(xí)和探索才會達到成熟狀態(tài);有的發(fā)電商抵制風(fēng)險,不易接受市場外部環(huán)境的變化,不會大比例探索新的競價策略,對于收益的響應(yīng)比較敏感,經(jīng)過較短時間的學(xué)習(xí)和探索就會達到成熟狀態(tài)。本文模型中發(fā)電商的風(fēng)險特性和收益沒有一定的對應(yīng)關(guān)系,風(fēng)險喜好型發(fā)電商的收益不一定優(yōu)于風(fēng)險抵制型發(fā)電商的收益,風(fēng)險特性主要體現(xiàn)在對于市場環(huán)境變化和收益波動的敏感程度上。
電力市場環(huán)境下大部分發(fā)電商為了收益最大化,都會利用有限的信息進行最優(yōu)決策。但是發(fā)電商的決策目標可能不單單是即時收益,由于發(fā)電商生產(chǎn)經(jīng)營條件的不同,即時收益只是衡量其決策行為的一個主要目標,其他決策從屬目標包括機組相對利用率、機組市場占有率等因素。
發(fā)電商在日前市場競價中將競價數(shù)據(jù)提交給交易中心,但是出清后的中標電力不一定滿足發(fā)電機組最佳運行容量要求,發(fā)電商會在收益和機組相對利用率之間取一個折中。本文模型借鑒文獻[11]中的方法,在發(fā)電商的效用函數(shù)中對機組相對利用率賦予一定的權(quán)重,以表征其在決策時能兼顧決策從屬目標。機組相對利用率R計算公式如下:
(3)
式中:Q為發(fā)電商中標電量;G為發(fā)電商裝機容量;Beq為負荷;Gw為市場總裝機容量。
發(fā)電商目標函數(shù)公式如下:
fprofit=(pmcpQ-C-CGu)Rw
(4)
式中:fprofit為發(fā)電商的效用函數(shù);pmcp為市場出清電價;C為機組的變動成本;CGu為固定成本分攤到日前的競價成本。
w為一個大于0的實數(shù),一般其取值范圍為(0,5),w表征決策從屬目標在效用函數(shù)中所占權(quán)重:有些發(fā)電商會對機組的利用率有一定的考核指標,競價過程中會報低價以獲得更多的中標電力,達到較高的機組相對利用率;而有些發(fā)電商可能會單純追求收益最大化。w=0時,表明機組的決策目標僅關(guān)注即時收益;w>0時,表明在效用函數(shù)中機組相對利用率的權(quán)重,w越大,表明發(fā)電商決策時越關(guān)注機組相對利用率。
發(fā)電商向ISO提交報價數(shù)據(jù),ISO根據(jù)購電成本最小化原則進行統(tǒng)一邊際出清。電力市場每天的重復(fù)運營,使發(fā)電商根據(jù)當(dāng)天的競價經(jīng)驗不斷動態(tài)優(yōu)化后續(xù)的競價策略成為可能[6]。
策略演化過程如下:①各發(fā)電商提交報價給ISO;②ISO收到所有的報價信息后,在滿足系統(tǒng)負荷需求的條件下,根據(jù)上述的出清規(guī)則計算出市場出清價格和各發(fā)電商的上網(wǎng)電量,并將這些信息反饋給各發(fā)電商;③發(fā)電商根據(jù)反饋的市場出清電價和上網(wǎng)電量,計算本輪交易的收入和利潤;④根據(jù)即時收益和競價經(jīng)驗優(yōu)化競價策略,進行下一輪報價。
理性的發(fā)電商為追求利益最大化,會不斷從市場競價決策經(jīng)驗中學(xué)習(xí)以提高下一次競價的收益水平,智能代理能夠利用以往的歷史經(jīng)驗不斷優(yōu)化后續(xù)策略[15-16],表征了發(fā)電商的動態(tài)學(xué)習(xí)能力;發(fā)電商的競價行為由計劃體制下的集中決策轉(zhuǎn)變?yōu)楦偁幨袌鱿碌姆稚⑹經(jīng)Q策,智能代理能夠利用有限的外部信息自主決策,并且與其他智能代理間進行良好的協(xié)調(diào)互動[17];智能代理能夠通過算法中相關(guān)因子的設(shè)置表征不同種類的發(fā)電商?;谏鲜鲈?本文采用基于智能代理的方法模擬發(fā)電商競價行為。
本文提出的智能代理模型采用VRE-learning算法模擬發(fā)電商競價決策行為,該算法由Roth和Erev在1995年提出[18],算法和相應(yīng)決策模塊見文獻[7]。該算法首先需建立合理的發(fā)電商報價策略集,賦予報價策略空間中每個元素一定的初始概率和傾向系數(shù),然后通過輪盤賭算法不斷選擇發(fā)電商的報價策略,經(jīng)過ISO出清后產(chǎn)生即時收益,通過即時收益更新各策略被選中的概率和傾向系數(shù),在經(jīng)歷若干輪循環(huán)后,發(fā)電商將會收斂在能夠獲得最大收益的策略上。算法流程如附錄A圖A1所示。
模型中策略空間M的行為分為遞增的H等份,M∈[Mmin,Mmax],其中Mmin和Mmax分別為最小和最大的可選系數(shù)。若代理選擇了第v個行為,其對應(yīng)的加價系數(shù)為:
(5)
VRE算法中傾向系數(shù)的更新公式如下:
(6)
式中:qt+1為第t+1輪的傾向系數(shù)更新值;fprofit,t為第t輪獲得的即時收益;t為競價輪次;m為策略空間的某個策略;l為當(dāng)前輪次選中的策略號;Mc為策略空間的策略數(shù)目;r為遺忘因子,為減弱先前經(jīng)驗的影響,使新策略對行為傾向的影響增強;e為一個經(jīng)驗參數(shù),其取值范圍為(0,1)。
由式(6)可知,e越大,即時收益在傾向系數(shù)更新的公式中比重越小,發(fā)電商經(jīng)多次學(xué)習(xí)和探索才會達到成熟狀態(tài);e越小,即時收益在公式中的比重越大,發(fā)電商很容易收斂至較好的策略后進入穩(wěn)定狀態(tài)。因此,因子e可用來模擬發(fā)電商風(fēng)險特性。
選擇概率的更新公式如下:
(7)
式中:pt(m)為策略m第t輪更新的概率;qt(j)為策略j第t輪對應(yīng)的行為傾向系數(shù);c為冷卻系數(shù),決定傾向系數(shù)對選擇概率的影響程度,參數(shù)c的選取根據(jù)每輪各策略傾向系數(shù)進行如下動態(tài)調(diào)整,即
(8)
式中:ct為第t輪的冷卻系數(shù);k為一個大于0的實數(shù),一般設(shè)定k的取值范圍為(0,3),在不同系統(tǒng)中其值也會發(fā)生變化。k的變化將會改變冷卻系數(shù)c的取值,影響智能代理的收斂效果,k越大,智能代理收斂得越慢。
本文算例依托于國家電網(wǎng)有限公司電力市場運營技術(shù)實驗室建立的電力市場全景實驗平臺,平臺從電力交易運營模擬、市場成員決策行為模擬和電網(wǎng)運行模擬3個維度進行整體設(shè)計,在實驗平臺上搭建了5節(jié)點系統(tǒng)來說明智能代理模型及其學(xué)習(xí)算法在電力市場模擬系統(tǒng)中的運用情況。其網(wǎng)絡(luò)拓撲如圖1所示,該模擬系統(tǒng)有3個獨立發(fā)電商和6條輸電線路。假設(shè)每個發(fā)電商都采用智能代理的模型競價決策,且各線路容量不會越限,即系統(tǒng)不會發(fā)生阻塞。發(fā)電機組的邊際成本數(shù)據(jù)如表1所示,其中Pmax為發(fā)電商最大出力水平。由于本文只考慮日前市場報價,固定成本按照平均利用小時數(shù)分攤到機組日前競價成本。
圖1 5節(jié)點電力系統(tǒng)拓撲Fig.1 Topology of 5-bus electric system
表1 發(fā)電商技術(shù)經(jīng)濟參數(shù)Table 1 Technical and economic parameters of generators
為了簡化處理,本文中的3個發(fā)電商都采用同一個策略空間,同時發(fā)電商的智能決策模塊相同,智能算法因子設(shè)置為:k=2,r=0.09,H=20。
發(fā)電商每天只進行一次報價,市場出清方式為統(tǒng)一邊際出清,系統(tǒng)負荷為300 d某一時段負荷,附錄A圖A2為選取的100 d該時段負荷數(shù)據(jù),負荷平均值427 MW,方差14.6 MW2。模型中將這一時段的負荷設(shè)置為隨機波動,目的是驗證在市場供需變化情況下代表發(fā)電商的智能代理具有學(xué)習(xí)特征。
本模塊設(shè)置4個算例驗證智能代理模型的有效性。由于發(fā)電商采用了相同的策略空間和智能決策模塊,雖然其成本與裝機容量不同,但對于風(fēng)險偏好與決策從屬目標的行為特性具有共性,所以以下分析皆以發(fā)電商2為參考發(fā)電商。雖然做了簡化,但不會影響算例的合理性。
算例1:設(shè)智能代理決策因子e=0.9,w=0,k=2,r=0.09,即發(fā)電商喜好風(fēng)險,并且僅關(guān)注即時收益。
經(jīng)計算可得發(fā)電商300 d平均收益為3 976美元。由圖2可以看出,經(jīng)過一定輪數(shù)的學(xué)習(xí),發(fā)電商的競價行為達到了一個比較穩(wěn)定的狀態(tài),此后收益處于小范圍的波動,這是因為發(fā)電商通過對歷史競價經(jīng)驗的學(xué)習(xí),尋找到了一個比較成熟的策略,市場達到了一個均衡狀態(tài)。雖然發(fā)電商的競價策略受供需關(guān)系、市場成員份額、自身成本和邊際定價機制等因素影響,但從動態(tài)演化角度看報價策略會趨于穩(wěn)定,此時負荷變化會在一定程度上影響出清價格,從而影響市場成員收益。
圖2 發(fā)電商收益(算例1)Fig.2 Profits of generators (case 1)
附錄A圖A3顯示了發(fā)電商在每次競價過程中選擇的競價策略。可以看出,發(fā)電商的競價行為大概在150輪左右達到了一個比較穩(wěn)定的狀態(tài),發(fā)電商的穩(wěn)定策略集中在比較高的加價因子上,這是因為發(fā)電商僅僅關(guān)注即時收益。
算例2:智能代理決策因子e=0.9,w=3,k=2,r=0.09,即此發(fā)電商喜好風(fēng)險,同時較大比例地關(guān)注決策從屬目標。
經(jīng)計算可得發(fā)電商300 d平均收益為2 661美元。由圖3和附錄A圖A4可以看出,經(jīng)過80輪左右的學(xué)習(xí),發(fā)電商的競價行為達到了一個比較穩(wěn)定的狀態(tài)。算例1與2對比分析表明,當(dāng)風(fēng)險偏好參數(shù)e相同時,決策從屬因子不同的發(fā)電商最終策略也不同,這是因為算例2發(fā)電商2的效用函數(shù)為即時收益和機組相對使用率,其最終策略穩(wěn)定在比較低的加價因子策略,以期獲得更多的中標電力,達到發(fā)電商預(yù)期的機組使用率。相對其他策略,雖然發(fā)電商即時收益減少,但是機組相對使用率較大,整體的效用函數(shù)會優(yōu)于其他策略。
圖3 發(fā)電商收益(算例2)Fig.3 Profits of generators (case 2)
算例3:智能代理決策因子:e=0.5,w=0,k=2,r=0.09,即此發(fā)電商抵制風(fēng)險,僅僅關(guān)注即時收益。
由圖4和附錄A圖A5可以看出,發(fā)電商的競價收益在20輪左右達到了一個比較穩(wěn)定的狀態(tài)。圖4與圖2對比分析表明:當(dāng)決策從屬目標參數(shù)w相同時,風(fēng)險偏好不同的發(fā)電商的學(xué)習(xí)行為也不同。圖4發(fā)電商在競價過程中很快就達到了穩(wěn)定狀態(tài),圖3發(fā)電商經(jīng)過較長時間的學(xué)習(xí)才達到了穩(wěn)定狀態(tài),這是因為風(fēng)險抵制型發(fā)電商不易接受外界條件的變化,對于收益的波動比較敏感,獲得了一定的收益后會達到成熟狀態(tài),而風(fēng)險喜好型發(fā)電商善于接受外界環(huán)境和收益的變化,經(jīng)過較長時間的學(xué)習(xí)才會達到成熟狀態(tài)。
圖4 發(fā)電商收益(算例3)Fig.4 Profits of generators (case 3)
算例4:智能代理決策因子e=0.5,w=3,k=2,r=0.09,即此發(fā)電商抵制風(fēng)險,同時僅僅較大比例地關(guān)注決策從屬目標。
由附錄A圖A7可以看出,發(fā)電商的競價收益在20輪左右達到了一個比較穩(wěn)定的狀態(tài),發(fā)電商的平均收益為3 638美元,這是因為發(fā)電商抵制風(fēng)險,學(xué)習(xí)了一定的競價經(jīng)驗后就會選擇一個次優(yōu)策略作為自己的最終策略。同時看到其最終策略穩(wěn)定在比較低的加價因子上,這是因為發(fā)電商比較關(guān)注決策從屬目標。
4個算例對比分析說明,本文的模型可以模擬發(fā)電商的動態(tài)演化行為。模型中不同特性的發(fā)電商,最后都能通過智能代理達到成熟狀態(tài)。市場初期,理性的發(fā)電商競價經(jīng)驗和有效的歷史數(shù)據(jù)特別少,所以發(fā)電商會不斷嘗試新的報價策略,以在期待更好收益的同時為下一次的報價積累報價學(xué)習(xí)經(jīng)驗,所以其收益波動比較大。隨著探索過程和學(xué)習(xí)的不斷進行,發(fā)電商逐漸積累了大量的歷史數(shù)據(jù)和經(jīng)驗,開始逐漸減少探索新競價的概率,而是更多地研究如何利用原有的競價數(shù)據(jù)和經(jīng)驗。其隨后的競價行為不斷趨于理性與精確性,這種競價過程符合動態(tài)行為演化的特征。
本文提出基于智能代理的發(fā)電商多輸入決策因子競價模擬方法,該方法能夠有效模擬日前市場發(fā)電商競價行為,有利于電力市場初期機制和規(guī)則的快速建立。算例分析表明:①不同風(fēng)險特性的發(fā)電商達到成熟狀態(tài)所需的學(xué)習(xí)時間不同,風(fēng)險喜好型發(fā)電商要經(jīng)過更長的時間學(xué)習(xí)才會達到最終穩(wěn)定策略;②關(guān)注決策從屬目標的發(fā)電商競價時考慮的不僅僅是即時收益,同時要兼顧機組利用率,這種發(fā)電商在市場中會報低價以獲得更多的中標電力,達到整體效用函數(shù)的最大化;③本文模型能夠很好地模擬發(fā)電商的動態(tài)演化行為,通過對歷史競價經(jīng)驗的學(xué)習(xí),最終發(fā)電商競價行為都會演化到穩(wěn)定狀態(tài)。
理性的發(fā)電商決策肯定要考慮很多因素:市場用戶電量規(guī)模、市場中發(fā)電側(cè)裝機容量、各發(fā)電企業(yè)市場交易電量上限、供需比、發(fā)電企業(yè)成本、燃料價格趨勢、各發(fā)電企業(yè)長協(xié)簽約比例、邊際機組測算、各類型機組邊際成本和售電側(cè)競價預(yù)期。只有把更多相關(guān)性的因素考慮進去,才能更好地模擬電力市場成員的競價行為。但是模型中決策因子數(shù)量與仿真的收斂效果成反比,在平衡兩者的關(guān)系前提下,更好地模擬電力市場成員的競價行為可以作為下一步研究的優(yōu)先處理項。
在日前電能主市場中,由于沒有專門的容量市場、輔助服務(wù)市場來回收固定成本及輔助服務(wù)成本,日前電能市場的成本分攤方法也是影響發(fā)電商競價行為的重要因素。如何在日前電能市場考慮輔助服務(wù)成本及固定成本的分攤,也是下一步需要深入研究的重點。
附錄見本刊網(wǎng)絡(luò)版(http://www.aeps-info.com/aeps/ch/index.aspx)。