刁浩然 楊 明 陳 芳 孫國(guó)忠
基于強(qiáng)化學(xué)習(xí)理論的地區(qū)電網(wǎng)無(wú)功電壓優(yōu)化控制方法
刁浩然1楊 明1陳 芳2孫國(guó)忠3
(1. 電網(wǎng)智能化調(diào)度與控制教育部重點(diǎn)實(shí)驗(yàn)室(山東大學(xué)) 濟(jì)南 250061 2. 濟(jì)南大學(xué)自動(dòng)化與電氣工程學(xué)院 濟(jì)南 250061 3. 唐山供電公司 唐山 063000)
基于強(qiáng)化學(xué)習(xí)理論,提出一種實(shí)用的地區(qū)電網(wǎng)無(wú)功電壓優(yōu)化控制方法。方法采用Q學(xué)習(xí)算法,在動(dòng)作策略與電網(wǎng)狀態(tài)的交互中不斷學(xué)習(xí),得到各狀態(tài)—?jiǎng)幼鲗?duì)所對(duì)應(yīng)的Q值函數(shù),形成電網(wǎng)各種運(yùn)行狀態(tài)下最佳的無(wú)功電壓優(yōu)化控制策略。方法擺脫了傳統(tǒng)電網(wǎng)無(wú)功優(yōu)化求解非線性混合整數(shù)規(guī)劃模型所存在的收斂性問(wèn)題,同時(shí),相對(duì)于基于多區(qū)圖的無(wú)功電壓控制方式,由于方法所依據(jù)的Q值函數(shù)包含電網(wǎng)的全局響應(yīng)信息,因而,可以綜合判斷執(zhí)行控制策略后各變電站之間的相互影響,統(tǒng)一協(xié)調(diào)地控制各無(wú)功電壓控制設(shè)備,給出所轄電網(wǎng)內(nèi)的全局最佳控制策略,提高無(wú)功電壓優(yōu)化控制效果。通過(guò)對(duì)220kV變電站及其饋線系統(tǒng)的測(cè)試計(jì)算,證明了方法的有效性。
電力系統(tǒng) 無(wú)功電壓優(yōu)化控制 強(qiáng)化學(xué)習(xí) Q算法
電壓是評(píng)估電能質(zhì)量的重要指標(biāo),電壓水平直接影響到用戶的生產(chǎn)安全。通過(guò)調(diào)節(jié)電網(wǎng)中無(wú)功功率分布來(lái)實(shí)現(xiàn)對(duì)電壓的有效控制是保障電網(wǎng)安全、可靠運(yùn)行的關(guān)鍵措施之一。深入研究無(wú)功電壓控制技術(shù)是促進(jìn)電網(wǎng)發(fā)展必不可少的工作,具有巨大的經(jīng)濟(jì)和社會(huì)效益。
自上世紀(jì)70年代末,無(wú)功電壓控制成為電力系統(tǒng)運(yùn)行與控制方向的研究熱點(diǎn)。其中,由于內(nèi)點(diǎn)法具備計(jì)算時(shí)間對(duì)問(wèn)題規(guī)模不敏感的特點(diǎn),受到了學(xué)者們的廣泛關(guān)注[1-5]。文獻(xiàn)[1]嘗試將原對(duì)偶仿射尺度內(nèi)點(diǎn)法用于求解基于損耗靈敏度系數(shù)和相對(duì)靈敏度系數(shù)矩陣的無(wú)功優(yōu)化模型,其收斂次數(shù)比較穩(wěn)定,具有多項(xiàng)式時(shí)間復(fù)雜度。文獻(xiàn)[2]為提高電壓合格率,將電壓安全裕度進(jìn)行模糊處理,用原對(duì)偶內(nèi)點(diǎn)法求解帶有模糊約束的逐次二次規(guī)劃數(shù)學(xué)模型,在保證網(wǎng)損變化不大的前提下,使電網(wǎng)電壓安全裕度有較大提高。在與其它方法的結(jié)合使用中,文獻(xiàn)[3]將內(nèi)點(diǎn)法與分枝定界法相結(jié)合,分別用于連續(xù)變量和離散變量的尋優(yōu),據(jù)報(bào)道有較好的應(yīng)用效果。文獻(xiàn)[4]進(jìn)一步將內(nèi)點(diǎn)法與遺傳算法相結(jié)合,形成一種新的混合優(yōu)化策略,交替優(yōu)化連續(xù)變量與離散變量,提高了算法的尋優(yōu)效率。解析方法在電網(wǎng)無(wú)功電壓優(yōu)化控制方法中占有重要地位,其從全網(wǎng)角度給出了無(wú)功電壓優(yōu)化控制問(wèn)題的建模與求解方法。然而,由于解析方法對(duì)電網(wǎng)結(jié)構(gòu)、參數(shù)以及運(yùn)行量測(cè)數(shù)據(jù)的精確程度依賴較高,復(fù)雜的迭代求解算法在對(duì)實(shí)際系統(tǒng)無(wú)功優(yōu)化過(guò)程中常存在魯棒性不強(qiáng)問(wèn)題。
另一方面,在當(dāng)前地區(qū)電網(wǎng),多數(shù)變電站都裝有電壓無(wú)功自動(dòng)控制裝置VQC[6-10],此裝置基于就地量測(cè)信息,依據(jù)預(yù)定控制策略,對(duì)變電站變壓器分接頭及電容器進(jìn)行調(diào)節(jié)。文獻(xiàn)[8]利用EMS采集獲得電網(wǎng)拓?fù)浣Y(jié)構(gòu)和運(yùn)行數(shù)據(jù),基于多區(qū)圖原理對(duì)區(qū)域無(wú)功電壓控制設(shè)備進(jìn)行統(tǒng)一調(diào)節(jié)。文獻(xiàn)[9]采用兩級(jí)無(wú)功電壓控制思想,基于改進(jìn)九區(qū)圖的“廠站級(jí)”控制與輻射狀電網(wǎng)的“區(qū)域級(jí)”控制相互配合,在實(shí)際運(yùn)行中,能夠提高母線電壓和變壓器高壓繞組功率因數(shù)的合格率。文獻(xiàn)[10]較為全面地介紹了VQC控制策略及其發(fā)展過(guò)程。雖然,基于多區(qū)圖的無(wú)功電壓控制方法簡(jiǎn)單易行、運(yùn)行可靠,但由于電網(wǎng)運(yùn)行狀態(tài)變化多樣,此類無(wú)功電壓控制方法往往無(wú)法從全網(wǎng)角度設(shè)置分區(qū)與調(diào)節(jié)準(zhǔn)則,難以給出地區(qū)電網(wǎng)具有全局優(yōu)化特征的控制策略。
由此,在前人研究的基礎(chǔ)上,本文提出一種基于強(qiáng)化學(xué)習(xí)(Reinforcement learning, RL)理論的無(wú)功電壓控制方法,利用強(qiáng)化學(xué)習(xí)的漸進(jìn)學(xué)習(xí)尋優(yōu)能力優(yōu)化地區(qū)電網(wǎng)無(wú)功電壓控制策略,其能夠?qū)崟r(shí)給出當(dāng)前學(xué)習(xí)階段下的最佳控制策略,保證無(wú)功電壓控制算法的魯棒性。與此同時(shí),由于所提出的強(qiáng)化學(xué)習(xí)方法利用含有全局信息的值函數(shù)進(jìn)行策略學(xué)習(xí),因而能對(duì)多變電站實(shí)施協(xié)調(diào)控制,相比較于基于多區(qū)圖原理的無(wú)功電壓控制方法,控制效果有明顯提升。
機(jī)器學(xué)習(xí)是人工智能技術(shù)的重要分支,主要分為3類:監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。其中,強(qiáng)化學(xué)習(xí)方法由于具有與環(huán)境的交互能力,近年來(lái)得到較快發(fā)展。
強(qiáng)化學(xué)習(xí)是學(xué)習(xí)智能體(Learning Agent)在與環(huán)境(Environment)的交互中不斷試探各種動(dòng)作,并反饋回報(bào)值,漸進(jìn)獲得最優(yōu)控制策略的過(guò)程,其基本模型如圖1所示。
圖1 強(qiáng)化學(xué)習(xí)理論的基本模型Fig.1 Basic model of reinforcement learning
如圖1所示,首先,學(xué)習(xí)智能體根據(jù)當(dāng)前的控制策略就環(huán)境狀態(tài)s做出某一動(dòng)作a,作用于當(dāng)前環(huán)境,使環(huán)境狀態(tài)發(fā)生變化。進(jìn)而,環(huán)境將動(dòng)作立即回報(bào)值r反饋給學(xué)習(xí)智能體,供學(xué)習(xí)智能體形成新的控制策略。隨后,學(xué)習(xí)智能體將根據(jù)新的控制策略和新的環(huán)境狀態(tài)做出新的動(dòng)作再次作用于環(huán)境。學(xué)習(xí)智能體選擇動(dòng)作的標(biāo)準(zhǔn)是使其獲得的累計(jì)期望回報(bào)值最大化。
Q算法是強(qiáng)化學(xué)習(xí)理論中發(fā)展比較成熟的一種算法,其以離散時(shí)間馬爾科夫決策過(guò)程(Discrete Time Markov Dispatch Process, DTMDP)為數(shù)學(xué)基礎(chǔ),由Watkins于1989年提出[13-14]。Q算法考察的對(duì)象是狀態(tài)—?jiǎng)幼鲗?duì)所對(duì)應(yīng)的值函數(shù),即Q值函數(shù),用Q(s,a)表示[15],代表狀態(tài)s下執(zhí)行動(dòng)作a系統(tǒng)將獲得的累計(jì)回報(bào)值[17,18],如式(1)所示:
式中,s、s′分別為當(dāng)前和下一時(shí)刻的環(huán)境狀態(tài);a、a′表示相應(yīng)狀態(tài)下所選擇的動(dòng)作;γ表示衰減率,且γ∈[0,1],顯然,γ=0時(shí),系統(tǒng)只考慮立即回報(bào)而不考慮長(zhǎng)期回報(bào),γ=1時(shí),系統(tǒng)將長(zhǎng)期回報(bào)和立即回報(bào)看得同等重要。由式(1)可以看出,Q值由動(dòng)作的立即回報(bào)值與后續(xù)環(huán)境狀態(tài)下的最佳Q值兩部分組成。
狀態(tài)動(dòng)作對(duì)所對(duì)應(yīng)的Q值可通過(guò)在線學(xué)習(xí)得到[14,17]。在學(xué)習(xí)過(guò)程中,智能體將較高的權(quán)重給予當(dāng)前Q值較大的動(dòng)作,并根據(jù)權(quán)重隨機(jī)選擇動(dòng)作,進(jìn)而,根據(jù)環(huán)境反饋結(jié)果,對(duì)Q值進(jìn)行更新。設(shè)Qi代表Q值函數(shù)的第i次迭代值,則Q值可按式(2)進(jìn)行更新:式中,0<α<1,稱為學(xué)習(xí)因子。較大的α值會(huì)加快學(xué)習(xí)算法的收斂速度,而較小的α值能保證智能體的搜索空間,從而提高Q算法收斂的穩(wěn)定性[14-16]。
式(2)右邊項(xiàng)由兩部分組成,前半部分表示了狀態(tài)—?jiǎng)幼鲗?duì)對(duì)應(yīng)Q值的舊值,后半部分表示了本次得到Q值與舊值的差別,并以學(xué)習(xí)因子作為權(quán)重對(duì)舊的Q值進(jìn)行更新。
在智能體的在線學(xué)習(xí)過(guò)程中,Q值將一直更新,直到收斂到一個(gè)穩(wěn)定的結(jié)果Q*(s,a)為止。此后,即可以采用貪婪動(dòng)作策略[14],對(duì)于每一個(gè)狀態(tài),都執(zhí)行最優(yōu)動(dòng)作a*,即:
本文基于強(qiáng)化學(xué)習(xí)Q算法構(gòu)建220kV變電站出線后輻射狀系統(tǒng)的無(wú)功電壓優(yōu)化控制策略。下面從無(wú)功電壓控制問(wèn)題狀態(tài)集S和動(dòng)作集A的選取、Q值函數(shù)的構(gòu)建,以及利用Q算法進(jìn)行無(wú)功電壓優(yōu)化控制的實(shí)現(xiàn)流程方面對(duì)此問(wèn)題進(jìn)行闡述。
3.1環(huán)境狀態(tài)集
對(duì)于無(wú)功電壓優(yōu)化控制問(wèn)題,環(huán)境狀態(tài)即電網(wǎng)的運(yùn)行狀態(tài),可由地區(qū)電網(wǎng)中待考核的電氣量表示,此處選擇節(jié)點(diǎn)注入功率的功率因數(shù)與節(jié)點(diǎn)電壓幅值為狀態(tài)量。為計(jì)算方便,首先對(duì)各量進(jìn)行歸一化處理:
式中,xn為第n個(gè)待考核的電氣狀態(tài)指標(biāo);N表示考核指標(biāo)的個(gè)數(shù);xn,max和xn,min分別代表考核指標(biāo)在正常運(yùn)行狀態(tài)下的上限值和下限值;ηn為對(duì)xn歸一化處理后的結(jié)果。顯然,當(dāng)ηn>1時(shí),指標(biāo)越上限;當(dāng)ηn<0時(shí),指標(biāo)越下限;0≤ηn≤1表明指標(biāo)在合格狀態(tài)范圍內(nèi);特別地,當(dāng)ηn=0.5時(shí),認(rèn)為指標(biāo)達(dá)到最優(yōu)狀態(tài)。
進(jìn)一步,將指標(biāo)ηn進(jìn)行狀態(tài)劃分,顯然,狀態(tài)劃分越細(xì),對(duì)電網(wǎng)運(yùn)行狀況描述得越準(zhǔn)確;但過(guò)細(xì)的狀態(tài)劃分會(huì)導(dǎo)致環(huán)境狀態(tài)集合中的元素?cái)?shù)目過(guò)多,致使學(xué)習(xí)周期變長(zhǎng),不利于在線控制分析。本文根據(jù)現(xiàn)場(chǎng)實(shí)際需求,將每個(gè)電氣考核指標(biāo)劃分為7個(gè)狀態(tài),如表1所示。
表1 指標(biāo)狀態(tài)劃分Tab.1 Index states divisions
表1中,指標(biāo)狀態(tài)1和7分別代表指標(biāo)越下限和越上限,在實(shí)際運(yùn)用中,為保證系統(tǒng)安全,可按照距現(xiàn)場(chǎng)安全閾值尚有小范圍間距原則設(shè)定限定值。yn∈{2,3,4,5,6}為指標(biāo)合格狀態(tài)的集合,其中,狀態(tài)4為最佳狀態(tài),其余狀態(tài)隨離狀態(tài)4的距離變大而依次變差。易見,對(duì)于含有N個(gè)考核電氣量的地區(qū)電網(wǎng),其環(huán)境狀態(tài)集S中共含有7N種狀態(tài),每一種環(huán)境狀態(tài)可表示為s={y1,y2,..., yN}。
3.2可行動(dòng)作集
定義無(wú)功電壓控制的可行動(dòng)作集為:當(dāng)電網(wǎng)處于某狀態(tài)s時(shí),能夠使s過(guò)渡到更優(yōu)狀態(tài)s?的動(dòng)作策略的集合。根據(jù)地區(qū)電網(wǎng)無(wú)功電壓在線控制規(guī)程,只有當(dāng)某一環(huán)境狀態(tài)中含有不合格指標(biāo)時(shí),電網(wǎng)才會(huì)進(jìn)行無(wú)功電壓控制設(shè)備的調(diào)節(jié)。顯然,每種含不合格考核指標(biāo)的電網(wǎng)環(huán)境狀態(tài)都有其對(duì)應(yīng)的可行動(dòng)作集,不同的環(huán)境狀態(tài)所對(duì)應(yīng)的可行動(dòng)作集一般是存在差異的。
根據(jù)現(xiàn)場(chǎng)運(yùn)行要求,將需進(jìn)行無(wú)功電壓優(yōu)化調(diào)節(jié)的不合格電氣指標(biāo)分為四類:電壓越上限、電壓越下限、變壓器高壓繞組功率因數(shù)越上限和變壓器高壓繞組功率因數(shù)越下限。按現(xiàn)場(chǎng)運(yùn)行規(guī)范,同一時(shí)刻下,每個(gè)220饋線所帶網(wǎng)絡(luò)中不允許有兩個(gè)及以上的設(shè)備同時(shí)動(dòng)作。由此,對(duì)于每種需要調(diào)節(jié)的電網(wǎng)狀態(tài),其可行動(dòng)作集按如下原則確定:
1)電壓越上限:可行動(dòng)作集為在電壓指標(biāo)值ηn大于0.3(指標(biāo)處于正常狀態(tài)范圍,距電壓下限尚有裕度)的本站及上一級(jí)變電站切電容器和降變壓器分接頭;
2)電壓越下限:可行動(dòng)作集為在電壓指標(biāo)值ηn小于0.7(指標(biāo)處于正常狀態(tài)范圍,距電壓上限尚有裕度)的本站及上一級(jí)變電站投電容器和升變壓器分接頭;
3)變壓器高壓繞組功率因數(shù)越上限:可行動(dòng)作集為在本站及其下級(jí)變電站中電壓指標(biāo)值大于0.3的母線上切電容器;
4)變壓器高壓繞組功率因數(shù)越下限:可行動(dòng)作集為在本站及其下級(jí)變電站中電壓指標(biāo)值小于0.7的母線上投電容器。
上述可行動(dòng)作集的確定原則充分考慮了本站電壓和變壓器功率因數(shù)的實(shí)際狀態(tài),選擇距離限定值尚有較大(30%)可調(diào)裕度的電容器和變壓器進(jìn)行調(diào)節(jié),其中,投電容器可使待考核電壓幅值升高、功率因數(shù)升高,而切電容器則起相反作用;升變壓器分接頭可使待考核電壓幅值升高,而降變壓器分接頭則起到相反作用。強(qiáng)化學(xué)習(xí)的目的即是通過(guò)與環(huán)境的不斷交互,對(duì)于各個(gè)變電站,建立狀態(tài)集內(nèi)狀態(tài)與動(dòng)作集內(nèi)動(dòng)作的最佳關(guān)聯(lián)。
3.3 Q值函數(shù)
Q值函數(shù)用以反映動(dòng)作執(zhí)行效果的優(yōu)劣,其大小與動(dòng)作執(zhí)行后的立即回報(bào)值的大小直接相關(guān)。對(duì)于無(wú)功電壓控制問(wèn)題,動(dòng)作執(zhí)行后,將有兩種顯著差異的結(jié)果,其一是動(dòng)作執(zhí)行后,系統(tǒng)仍存在越限的指標(biāo),對(duì)于此種情況,要盡力避免,為此,將環(huán)境狀態(tài)中越限指標(biāo)對(duì)應(yīng)的回報(bào)值rn設(shè)置為-M(M為給定的大值)。另一種情況,當(dāng)動(dòng)作執(zhí)行后,系統(tǒng)狀態(tài)指標(biāo)達(dá)到最佳值(如電壓為標(biāo)幺值1.0),對(duì)于此種情況,將該指標(biāo)對(duì)應(yīng)的回報(bào)值設(shè)置為+M。
對(duì)于其余情況,采用考核指標(biāo)與最優(yōu)值之間的歐氏距離來(lái)定義回報(bào)值,如式(5)所示:式中,ηn,opt為狀態(tài)量的最佳值;ηn,max為指標(biāo)越限邊界值。
由式(5)可以看出,每個(gè)指標(biāo)對(duì)應(yīng)的回報(bào)值在區(qū)間[-M, +M]內(nèi)連續(xù)變化。而對(duì)于動(dòng)作a的整體回報(bào)值可由各指標(biāo)回報(bào)值加和得到:
從而,Q(s,a)可根據(jù)式(1)求得,并在學(xué)習(xí)過(guò)程中,依據(jù)式(2)不斷更新。
3.4優(yōu)化流程
為了快速跟蹤電網(wǎng)的實(shí)時(shí)狀態(tài)變化,使Q(s,a)有較快收斂速度,本文將式(2)中α定為0.99。同時(shí),鑒于后續(xù)狀態(tài)的控制受當(dāng)前狀態(tài)控制結(jié)果的影響較小,折扣系數(shù)γ設(shè)定為0.1?;赒算法設(shè)計(jì)的無(wú)功電壓優(yōu)化控制流程如圖2所示。
圖2 無(wú)功電壓優(yōu)化過(guò)程流程圖Fig.2 Voltage and reactive power optimization process flow chart
如圖2所示,電網(wǎng)實(shí)際控制時(shí),學(xué)習(xí)智能體將不斷監(jiān)測(cè)電網(wǎng)狀態(tài),當(dāng)出現(xiàn)越限指標(biāo),智能體將根據(jù)當(dāng)前適用策略,選擇控制動(dòng)作作用于所轄區(qū)域內(nèi)電網(wǎng),進(jìn)而根據(jù)動(dòng)作結(jié)果形成的新的電網(wǎng)狀態(tài),更新策略并形成新的動(dòng)作指令,如此反復(fù),直到所轄區(qū)域內(nèi)沒有越限指標(biāo)為止。智能體控制時(shí)間間隔按現(xiàn)場(chǎng)對(duì)設(shè)備控制間隙的要求設(shè)定。
智能體所能辨認(rèn)的狀態(tài)以及所得到的回報(bào)值由所轄電網(wǎng)內(nèi)所有的指標(biāo)量構(gòu)成,依據(jù)強(qiáng)化學(xué)習(xí)理論,智能體選擇可行動(dòng)作作用于當(dāng)前電網(wǎng)狀態(tài),并不斷試探其執(zhí)行時(shí)序,最終選擇Q值最大的動(dòng)作策略,實(shí)現(xiàn)基于多區(qū)圖無(wú)功電壓控制方式難以實(shí)現(xiàn)的多站全局控制效果的最佳化。
本文以圖3所示的一個(gè)處于山東濱州的220kV變電站及其饋線系統(tǒng)為例,驗(yàn)證本文方法的有效性。該系統(tǒng)共包含三個(gè)電壓等級(jí)的變電站,220kV變電站高壓側(cè)母線接有一臺(tái)發(fā)電機(jī)。3、6、7、11、12、13節(jié)點(diǎn)為負(fù)載節(jié)點(diǎn),并有無(wú)功補(bǔ)償電容器。六臺(tái)變壓器均具備有載調(diào)壓功能。
圖3 算例電網(wǎng)饋線系統(tǒng)Fig.3 Example of grid feeder system
不失一般性,圖3算例系統(tǒng)選取的考核電氣量指標(biāo)為220kV關(guān)口變電站的功率因數(shù)和與用戶直接相連變電站的低壓側(cè)電壓幅值,因而,環(huán)境狀態(tài)總數(shù)為77=823543個(gè)。但實(shí)際上,由于電網(wǎng)運(yùn)行規(guī)律性很強(qiáng),正常運(yùn)行情況下,絕大部分狀態(tài)不可能出現(xiàn),例如,不會(huì)出現(xiàn)七個(gè)指標(biāo)都不合格或者多數(shù)指標(biāo)不合格的狀態(tài)。所以,智能體所要學(xué)習(xí)與形成策略的狀態(tài)數(shù)量并不多,運(yùn)行中最優(yōu)控制策略的形成較為容易。
算例采用潮流計(jì)算結(jié)果模擬實(shí)際電網(wǎng)運(yùn)行中用量測(cè)設(shè)備獲取的狀態(tài)量。在學(xué)習(xí)過(guò)程中,為描述方便,本文將所有的動(dòng)作策略映射為數(shù)字指令,其對(duì)應(yīng)關(guān)系如表2所示。
表2 算法控制指令與動(dòng)作策略對(duì)應(yīng)表Tab.2 Action strategies and corresponding algorithm control commands
根據(jù)示例電網(wǎng)實(shí)際運(yùn)行情況,將存在指標(biāo)越限的部分環(huán)境狀態(tài)列于表3,對(duì)本文方法的有效性進(jìn)行說(shuō)明。表中,狀態(tài)量s={y1, y2, y3, y4, y5, y6, y7}由變壓器T1的功率因數(shù)和節(jié)點(diǎn)3、6、7、11、12、13的電壓幅值按順序構(gòu)成,系統(tǒng)依據(jù)環(huán)境狀態(tài)量,按照?qǐng)D2所示流程進(jìn)行優(yōu)化控制策略的強(qiáng)化學(xué)習(xí),收斂時(shí)所得的越限環(huán)境狀態(tài)對(duì)應(yīng)的控制策略及其Q值如表3所示。
表3 控制策略及Q值Tab.3 Control strategies and Q values
對(duì)表3所示狀態(tài)優(yōu)化控制策略選擇的合理性分析如下:
第一種環(huán)境狀態(tài)中,變壓器T1的功率因數(shù)以及第7、12、13節(jié)點(diǎn)的電壓越下限。在只允許調(diào)節(jié)一個(gè)設(shè)備的情況下,投13節(jié)點(diǎn)上的電容器得到的Q值最高,策略最佳。投13節(jié)點(diǎn)電容器后的環(huán)境狀態(tài)為{3,3,2,1,2,1,2},投12、7、11節(jié)點(diǎn)電容器后的環(huán)境狀態(tài)分別為{4,3,2,1,2,1,1}、{3,3,2,1,2,1,1}、{3,3,2,1,3,1,1}。通過(guò)對(duì)比,可以看出:13節(jié)點(diǎn)電容器投入后,不僅所有指標(biāo)都恢復(fù)合格,而且13節(jié)點(diǎn)電壓幅值的狀態(tài)達(dá)到‘2’,更趨近于理想狀態(tài),說(shuō)明此時(shí)投13節(jié)點(diǎn)的電容器對(duì)電壓提升的效果更明顯,所以,該策略對(duì)應(yīng)的Q值高于在7、11、12節(jié)點(diǎn)投電容器的Q值。
第二種環(huán)境狀態(tài)中,T1功率因數(shù)越下限,但對(duì)12節(jié)點(diǎn)投電容器的策略得到的Q值最大,投12節(jié)點(diǎn)電容器后的環(huán)境狀態(tài)為{3,3,2,2,2,2,2},投13、7、3節(jié)點(diǎn)電容器后的環(huán)境狀態(tài)分別為{3,3,2,2,2,2,2}、{3,3,2,2,2,2,2}、{4,3,2,1,2,1,1}。從動(dòng)作后的狀態(tài)可以看出:此時(shí)投12、13、7節(jié)點(diǎn)上電容器對(duì)指標(biāo)的改善效果是非常相近的,但通過(guò)式(1)(2)計(jì)算得到投12節(jié)點(diǎn)電容器的回報(bào)值更大一些。投3節(jié)點(diǎn)上電容器對(duì)T1功率因數(shù)提高比較明顯,但是對(duì)下級(jí)35kV和10kV的變電站母線電壓的提升效果很??;而投12、13、7節(jié)點(diǎn)電容器補(bǔ)償無(wú)功功率的同時(shí),也能夠顯著提高35kV、10kV變電站母線電壓,降低了有功功率損耗,相比之下,投3節(jié)點(diǎn)的電容器策略回報(bào)值明顯更低??刂平Y(jié)果說(shuō)明本文方法可以充分利用其他變電站的調(diào)節(jié)動(dòng)作,從系統(tǒng)全局考慮,給出最佳的控制策略,克服了基于多區(qū)圖原理的無(wú)功電壓控制方法只考慮本站可調(diào)設(shè)備的缺陷。
第三種環(huán)境狀態(tài)中,節(jié)點(diǎn)7、12電壓越下限。升T1變壓器分接頭環(huán)境狀態(tài)為{4,3,3,1,3,1,1},其Q值最大,策略最佳。投12、7、6、3節(jié)點(diǎn)上的電容器后狀態(tài)分別為{5,3,3,1,3,1,2}、{5,3,3,1,3,1,1}、{5,3,3,1,3,1,1}、{5,3,3,1,3,1,1},可以看出投電容器操作使T1功率因數(shù)明顯偏離最優(yōu)狀態(tài),趨近于上限值,故其回報(bào)值低于最佳策略回報(bào)值;同樣可以看到,升T3分接頭后的狀態(tài)為{4,3,2,1,2,1,1},其升壓效果不如T1明顯,升T3分接頭后指標(biāo)y3、y5的狀態(tài)為‘2’,而升T1分接頭后其狀態(tài)為‘3’,更趨近于最優(yōu)狀態(tài)。所以升T1變壓器分接頭是本方法的最佳策略,體現(xiàn)了本文方法對(duì)全局統(tǒng)籌考慮的能力。
第四種環(huán)境狀態(tài)中,節(jié)點(diǎn)13電壓越下限。而投節(jié)點(diǎn)12上的電容器后狀態(tài)為{5,3,3,1,3,2,1},獲得最大回報(bào)值,投13節(jié)點(diǎn)電容器后的狀態(tài){5,3,3,1,3,1,2}與投12節(jié)點(diǎn)電容器后狀態(tài)區(qū)別很小,但Q值作為一個(gè)連續(xù)的數(shù)值,經(jīng)式(1)(2)計(jì)算,前者得到Q值略低于后者。投6、7節(jié)點(diǎn)上的電容器后狀態(tài)為{5,3,3,1,3,1,1},其y6指標(biāo)的狀態(tài)‘1’低于投12節(jié)點(diǎn)電容器后的狀態(tài)‘2’。升T3、T6分接頭后的狀態(tài)均為{4,3,3,1,2,1,1},其指標(biāo)y5、y6的狀態(tài)均低于投12節(jié)點(diǎn)電容器后的狀態(tài)。綜上所述,投12節(jié)點(diǎn)上電容器Q值最大,體現(xiàn)了本文方法能夠考慮變電站之間的拓?fù)溥B接關(guān)系,利用全局最有效的電壓支撐點(diǎn)改善電壓質(zhì)量。
由上述分析可見,本文所提出的基于Q學(xué)習(xí)的地區(qū)電網(wǎng)無(wú)功電壓優(yōu)化控制方法,通過(guò)學(xué)習(xí)智能體的在線漸進(jìn)學(xué)習(xí),可自動(dòng)學(xué)習(xí)獲得電網(wǎng)各運(yùn)行狀態(tài)下最佳的無(wú)功電壓調(diào)控策略,決策過(guò)程不僅具有魯棒性,而且方法具有全局尋優(yōu)的能力。
本文基于強(qiáng)化學(xué)習(xí)理論,提出了一種新的無(wú)功電壓優(yōu)化控制方法。該方法利用Q算法的在線學(xué)習(xí)功能和良好的收斂性能,能夠在線給出當(dāng)前學(xué)習(xí)階段下無(wú)功電壓控制設(shè)備的最優(yōu)控制策略,保證了無(wú)功電壓控制的魯棒性。同時(shí),方法彌補(bǔ)了多區(qū)圖控制原理在局部控制過(guò)程中變電站之間設(shè)備難以協(xié)調(diào)的缺陷,能夠?qū)崿F(xiàn)所轄電網(wǎng)區(qū)域內(nèi)無(wú)功電壓控制設(shè)備的協(xié)同優(yōu)化。文章通過(guò)對(duì)濱州電網(wǎng)實(shí)際系統(tǒng)的仿真計(jì)算,驗(yàn)證了所提出方法決策的有效性與結(jié)果的合理性。
[1] 劉明波, 陳學(xué)軍. 基于原對(duì)偶仿射尺度內(nèi)點(diǎn)法的電力系統(tǒng)無(wú)功優(yōu)化算法[J]. 電網(wǎng)技術(shù), 1998, 22(3):24-28.
Liu Mingbo, Chen Xuejun. Prime-dual affine scaling interior point method based reactive power optimization in power system[J]. Power System Technology, 1998, 22(3): 24-28
[2] 李亞男, 張粒子, 楊以涵. 考慮電壓約束裕度的無(wú)功優(yōu)化及其內(nèi)點(diǎn)解法[J]. 中國(guó)電機(jī)工程學(xué)報(bào), 2001, 21(9): 1-4.
Li Yanan, Zhang Lizi, Yang Yihan. Reactive power optimization under voltage constraints margin[J].Proceedings of the CSEE, 2001, 21(9): 1-4.
[3] 許諾, 黃民翔. 原對(duì)偶內(nèi)點(diǎn)法與定界法在無(wú)功優(yōu)化中的應(yīng)用[J]. 電力系統(tǒng)及其自動(dòng)化學(xué)報(bào), 2000, 12(3): 26-30.
Xu Nuo, Huang Minxiang. Application of primal-dual interior point method and branch-bound method in reactive power optimization[J]. Proceedings of the EPSA, 2000, 12(3): 26-30.
[4] 劉方, 顏偉. 基于遺傳算法和內(nèi)點(diǎn)法的無(wú)功優(yōu)化混合策略[J]. 中國(guó)電機(jī)工程學(xué)報(bào), 2005, 25(15): 67-72.
Liu Fang, Yan Wei. A hybrid strategy based on GA and IPM for optimal reactive power flow[J]. Procee dings of the CSEE, 2005, 25(15): 67-72.
[5] 潘珂, 韓學(xué)山, 孟祥星. 無(wú)功優(yōu)化內(nèi)點(diǎn)法中非線性方程組求解規(guī)律研究[J]. 電網(wǎng)技術(shù), 2006, 30(19):59-65.
Pan Ke, Han Xueshan, Meng Xiangxing. Solution prin-ciples study of nonlinear correction equations in primal-dual interior point method for reactive power optimization[J]. Power System Technology, 2006, 30(19): 59-65.
[6] Suzuki M, Morima E. Coordinated A VQC operations of EHV transformer’s tap changer by fuzzy expert control system[A]. In: 2002 International Conference on Power System Technology[C]. 2002, 1679-1684.
[7] 閻振坤, 厲吉文, 李曉華. 基于模糊邊界和雙九區(qū)圖的變電站電壓無(wú)功控制策略研究[J]. 繼電器, 2005, 33(10): 36-40.
Yan Zhenkun, Li Jiwen, Li Xiaohua. Study of voltage and reactive power integrative control strategy based on fuzzy boundary and double nine-area control method[J]. RELAY, 2005, 33(10): 36-40.
[8] 羅毅, 涂光瑜, 金燕云, 等. 基于多區(qū)圖控制策略的地區(qū)電網(wǎng)電壓無(wú)功優(yōu)化控制[J]. 繼電器, 2004, 32(5): 44-48.
Luo Yi, Tu Guangyu, Jin Yanyun, et al. Control over optimization of voltage and reactive power in regional power network based on multi-region chart control strategy[J]. RELAY, 2004, 32(5): 44-48.
[9] 余濤, 周斌. 電力系統(tǒng)電壓/無(wú)功控制策略研究綜述[J]. 繼電器, 2008, 36(6): 79-85.
Yu Tao, Zhou Bin. A survey on voltage/reactive power control strategy for power systems[J]. RELAY, 2008, 36(6): 79-85.
[10] Yu T, Zhen W G. A reinforcement learning approach to power system stabilizer[A]. In: Proceedings of the 9th IEEE PES Power & Energy Society General Meeting[C]. 2009: 1-5.
[11] 胡細(xì)兵. 基于強(qiáng)化學(xué)習(xí)算法的最優(yōu)潮流研究[D]. 廣州: 華南理工大學(xué), 2011.
[12] 袁野. 基于強(qiáng)化學(xué)習(xí)算法的互聯(lián)電網(wǎng)AGC隨機(jī)最優(yōu)控制[D]. 廣州: 華南理工大學(xué), 2011.
[13] Vlachogiannis J G, Hatziargyriou N D. Reinforcement learning for reactive power control[J]. IEEE Transactions on Power Systems, 2004, 19(3): 1317-1325.
[14] Kaelbling L P, Littman M L, Moore A W. Reinforcement learning: A survey[J]. Journal of Artificial Intelligence Research, 1996: 237-285.
[15] 虞靖靚. 基于Q學(xué)習(xí)的Agent智能決策的研究與實(shí)現(xiàn)[D]. 合肥: 合肥工業(yè)大學(xué), 2005.
[16] 余濤, 周斌, 陳家榮. 基于Q學(xué)習(xí)的互聯(lián)電網(wǎng)動(dòng)態(tài)最優(yōu)CPS控制[J]. 中國(guó)電機(jī)工程學(xué)報(bào), 2009, (19): 13-19.
Yu Tao, Zhou Bin, Chen Jiarong. Q-learning based dynamic optimal CPS control methodology for interconnected power systems[J]. Proceedings of CSEE, 2009, (19): 13-19.
[17] Bertsekas D P, Bertsekas D P. Dynamic programming and optimal control[M]. Belmont, MA: Athena Scientific, 1995.
[18] 杜春俠, 高云, 張文. 多智能體系統(tǒng)中具有先驗(yàn)知識(shí)的Q學(xué)習(xí)算法[J]. 清華大學(xué)學(xué)報(bào): 自然科學(xué)版, 2005, (7): 981-984.
Du Chunxia, Gao Yun, Zhang Wen. Q-learning with prior knowledge in multi-agent systems[J]. Journal of Tsinghua University (Science and Technology), 2005, (7): 981-984.
Reactive power and voltage optimization control approach of the regional power grid based on reinforcement learning theory
Diao Haoran1Yang Ming1Chen Fang2Sun Guozhong3
(1. Key Laboratory of Power System Intelligent Dispatch and Control (Shandong University) Ji’nan 250061 China 2. Automation and Electrical Engineering, University of Ji’nan Ji’nan 250061 China 3. State Grid Tangshan Electric Power Company Limited Tangshan 063000 China)
Based on reinforcement learning theory, this paper proposes a practical approach for reactive power and voltage optimization control in regional power grid. The approach uses Q-learning algorithm to learn continuously under interaction between the action policies and grid states, then gets Q value function corresponding to each state - action, and finally forms the optimal grid reactive power and voltage control strategies. The approach gets rid of the convergence problems that existing in traditional reactive power optimization methods for solving nonlinear mixed integer programming model, meanwhile, compared to the multi - zone diagram method, as the Q value function contains global response messages in the whole grid, thus we can comprehensively judge the interactions between each substation and coordinate to control the reactive power and voltage control equipments, then obtain the global optimal control strategies in the jurisdiction grid. The approach paper proposes improves the reactive power and voltage optimization control results. Through a test of an actual 220kV substation and its feeder system, the example demonstrates the effectiveness of the approach.
Power system, reactive power and voltage optimization control, reinforcement learning, Q-learning algorithm
TM711
刁浩然 男,1992年生,碩士研究生,研究方向?yàn)殡娏ο到y(tǒng)可靠性分析。
國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(973計(jì)劃)(2013CB228205),國(guó)家自然科學(xué)基金(51007047, 51077087),山東省自然科學(xué)基金(ZR2014EEM022)山東大學(xué)基本科研業(yè)務(wù)費(fèi)專項(xiàng)資金(2015JC028)資助項(xiàng)目。
2014-10-01
楊 明 男,1980年生,副教授,研究方向?yàn)殡娏ο到y(tǒng)運(yùn)行與控制。(通信作者)