郭樂欣,張孝順,譚敏,余濤
(1.華南理工大學(xué) 電力學(xué)院,廣州 510640;2.廣東省綠色能源技術(shù)重點(diǎn)實(shí)驗(yàn)室,廣州 510640)
隨著溫室效應(yīng)給環(huán)境帶來的影響日益嚴(yán)重,低碳經(jīng)濟(jì)逐漸成為各能耗工業(yè)的重點(diǎn)發(fā)展方向。其中,電力工業(yè)作為最大的CO2排放企業(yè),將在低碳經(jīng)濟(jì)發(fā)展中擔(dān)任重要的角色[1]。現(xiàn)有很多關(guān)于低碳電力的研究,包括最優(yōu)潮流、經(jīng)濟(jì)調(diào)度、機(jī)組組合、碳儲(chǔ)存和碳捕捉等問題[2-5],主要是對發(fā)電側(cè)的碳排放進(jìn)行優(yōu)化。文獻(xiàn)[6]從用戶角度,提出碳流追蹤模型來計(jì)算用戶的碳排放強(qiáng)度,分?jǐn)傆脩魝?cè)碳排放責(zé)任。相比于電力行業(yè)傳統(tǒng)的碳排放計(jì)量方式,從用戶側(cè)計(jì)量碳排放是一種考慮電量傳輸過程,尊重需求產(chǎn)生供給原則的計(jì)量方式。為了與發(fā)電機(jī)側(cè)碳排放量的概念進(jìn)行區(qū)分,本文定義轉(zhuǎn)移到用戶側(cè)的碳排放量為碳排放損耗。在廠網(wǎng)分離情況下,電網(wǎng)企業(yè)承擔(dān)與其有功網(wǎng)損相對應(yīng)的碳排放損耗責(zé)任。
通過建立電網(wǎng)碳排放流的計(jì)算模型[7],筆者提出了一種多步回溯Q(λ)學(xué)習(xí)算法,解決了電網(wǎng)側(cè)的最優(yōu)碳流問題[8]。然而,文獻(xiàn)[8]所用的最優(yōu)碳流模型并不能清晰地解釋電力網(wǎng)絡(luò)中能量流和碳排放流的分布情況。因此,在本文中筆者進(jìn)一步建立了一種電網(wǎng)的最優(yōu)碳-能復(fù)合流(Optimal Carbon-energy Combined-flow,OCECF)的通用新模型:即在滿足系統(tǒng)運(yùn)行和安全約束的前提下,通過對電網(wǎng)的無功進(jìn)行優(yōu)化,使得電力網(wǎng)絡(luò)中的能量流和碳排放損耗達(dá)到最小。
另外在后續(xù)研究中我們發(fā)現(xiàn),與其它經(jīng)典優(yōu)化算法和人工智能優(yōu)化算法相比較,雖然Q(λ)算法收斂魯棒性更強(qiáng),但是算法只依靠單個(gè)主體進(jìn)行尋優(yōu),收斂時(shí)間較長,難以滿足復(fù)雜電網(wǎng)碳流在線滾動(dòng)優(yōu)化的實(shí)時(shí)要求[9]。群智能(Swarm Intelligence,SI)是人工智能的一個(gè)分支學(xué)科[10],受社會(huì)昆蟲、動(dòng)物集體行為的啟發(fā),已經(jīng)衍生出蟻群、粒子群、蜂群等智能算法,在電力系統(tǒng)領(lǐng)域得到了很好的應(yīng)用。在群智能算法中,每個(gè)群體都會(huì)有多個(gè)主體,各個(gè)主體之間會(huì)進(jìn)行信息交流或任務(wù)分工,從而實(shí)現(xiàn)協(xié)同優(yōu)化,有效縮短了尋優(yōu)時(shí)間。很自然地,有學(xué)者會(huì)聯(lián)想到把強(qiáng)化學(xué)習(xí)與粒子群、蟻群算法進(jìn)行結(jié)合,也陸續(xù)出現(xiàn)了一般改進(jìn)性的群智能算法[11-13],但這些方法都僅僅停留在把群體優(yōu)化與強(qiáng)化學(xué)習(xí)在算法流程上進(jìn)行簡單串行結(jié)合,兩類不同性質(zhì)的算法優(yōu)勢并未實(shí)現(xiàn)真正融合發(fā)揮,國際人工智能學(xué)術(shù)界一般也不認(rèn)同這些方法為真正的群智能強(qiáng)化學(xué)習(xí)算法。
本文通過深入研究強(qiáng)化學(xué)習(xí)與群智能的數(shù)學(xué)原理,對傳統(tǒng)Q(λ)學(xué)習(xí)和PSO多主體算法進(jìn)行了深度地有機(jī)結(jié)合,提出了一種全新的群智能強(qiáng)化學(xué)習(xí)算法—PSO-Q(λ)算法,實(shí)現(xiàn)兩類方法的優(yōu)缺點(diǎn)的有機(jī)互補(bǔ)。PSO-Q(λ)算法對Q(λ)算法的最大改進(jìn)之處在于:群體中的個(gè)體共享信息,各個(gè)粒子在每次迭代更新自身的Q值矩陣后,根據(jù)動(dòng)作概率矩陣隨機(jī)選擇當(dāng)前狀態(tài)下的動(dòng)作,然后利用自身歷史最優(yōu)動(dòng)作和群體歷史最優(yōu)動(dòng)作信息,對當(dāng)前動(dòng)作進(jìn)行修正。
本文的框架主要包括:首先建立最優(yōu)碳-能復(fù)合流的數(shù)學(xué)模型,然后描述了PSO-Q(λ)算法原理,并給出了算法解決OCECF問題的具體步驟,最后利用IEEE118節(jié)點(diǎn)算例仿真研究驗(yàn)證了PSO-Q(λ)算法的高效性和可行性。
電網(wǎng)的碳-能復(fù)合流是將電網(wǎng)的潮流和依附于電網(wǎng)潮流而存在的碳排放流結(jié)合,形成的綜合網(wǎng)絡(luò)流。其中,能流是實(shí)際網(wǎng)絡(luò)流,碳排放流是虛擬網(wǎng)絡(luò)流,在電力系統(tǒng)中可簡稱為碳流。碳流產(chǎn)生于發(fā)電環(huán)節(jié),表征碳排放從電源側(cè)向用戶側(cè)轉(zhuǎn)嫁的概念,在數(shù)值上等于能流與對應(yīng)電源側(cè)碳排放率的乘積[14]。碳流與能流一樣是由送電端向受電端流動(dòng),但是不同于能流,只有送電端會(huì)產(chǎn)生碳排放的電源才能稱為碳源,如圖1所示。
圖1 電力系統(tǒng)碳-能復(fù)合流示意圖Fig.1 CECF schematic diagram in power system
能流是電能在電網(wǎng)中的傳輸,在傳輸?shù)倪^程中會(huì)出現(xiàn)功率損耗,通常稱為網(wǎng)絡(luò)損耗,一般描述如式(1)所示。
式中Vi和Vj分別是互聯(lián)節(jié)點(diǎn)i和j的電壓幅值;θij是節(jié)點(diǎn)i和j之間的相角差;gij是節(jié)點(diǎn)i和j之間的電導(dǎo);NL是電網(wǎng)節(jié)點(diǎn)集合。
電網(wǎng)在傳輸電能的過程中,需承擔(dān)網(wǎng)絡(luò)損耗所對應(yīng)的碳流損耗。電網(wǎng)碳排放流的追蹤,以潮流追蹤為基礎(chǔ),按照比例共享原則[15]來追溯網(wǎng)損來源。第w臺(tái)發(fā)電機(jī)在節(jié)電j處占注入總有功的成分比例如式(2)所示。
式中Psw是發(fā)電機(jī)w的有功出力是等效無損網(wǎng)絡(luò)中的j節(jié)點(diǎn)總有功注入是發(fā)電機(jī)w在節(jié)點(diǎn)j處的有功注入權(quán)重,具體推導(dǎo)過程參見文獻(xiàn)[6]。
第w臺(tái)發(fā)電機(jī)在節(jié)電j處出線的成分比例與之相同,線路損耗按照碳源對線路的利用份額分解,所以βsw,nj即為發(fā)電機(jī)w在支路i-j有功損耗的成分比例,電網(wǎng)支路i-j的有功損耗ΔPij如式(3)所示。
式中W是所有發(fā)電機(jī)集合。
由此,電網(wǎng)的總碳流損耗如式(4)所示。
式中δsw是發(fā)電機(jī)組w的碳排放率。
本文的最優(yōu)碳-能復(fù)合流算法是在滿足電網(wǎng)各約束條件并充分考慮電網(wǎng)電壓穩(wěn)定的基礎(chǔ)上,盡可能降低電網(wǎng)的網(wǎng)損和碳流損耗。所以本文綜合考慮電網(wǎng)運(yùn)行經(jīng)濟(jì)性和電網(wǎng)安全穩(wěn)定性的多目標(biāo)最優(yōu)碳-能復(fù)合流模型目標(biāo)函數(shù)如式(5)所示。
式中f1(x)為非線性函數(shù)描述的碳流損耗分量;f2(x)為非線性函數(shù)描述的有功網(wǎng)損分量;Vd為電壓穩(wěn)定分量;μ1、μ2為權(quán)重系數(shù),μ1∈[0,1],μ2∈[0,1],μ1+μ2≤1;x=[V,θ,kt,Qc]T分別對應(yīng)電網(wǎng)各節(jié)點(diǎn)電壓值、各節(jié)點(diǎn)相角、有載調(diào)壓變壓器變比、無功補(bǔ)償容量。其中,電壓穩(wěn)定分量[16]如式(6)所示。
式中n是負(fù)荷節(jié)點(diǎn)個(gè)數(shù);Vj是負(fù)荷節(jié)點(diǎn)j的節(jié)點(diǎn)電壓;Vjmax、Vjmin分別是負(fù)荷節(jié)點(diǎn)j的最大、最小電壓限制。
此外,該模型同樣需滿足電力系統(tǒng)潮流的等式約束和不等式約束,不再贅述,詳見文獻(xiàn)[16]。
粒子群算法啟發(fā)于鳥群覓食[17],群體中每個(gè)粒子主要通過兩個(gè)極值來交互協(xié)同優(yōu)化,分別為個(gè)體極值Pi和群體極值Pg。在獲知當(dāng)前的兩個(gè)極值后,個(gè)體i即可更新自身的速度和位置,如式(7)、式(8)所示。
式中Vi為第i個(gè)粒子的速度;Xi為第i個(gè)粒子的位置;ω為慣性權(quán)重;k是當(dāng)前迭代次數(shù);c1、c2(c1≥0,c2≥0)分別為學(xué)習(xí)因子;r1、r2是分布在[0,1]之間的隨機(jī)數(shù)。
多步回溯Q(λ)學(xué)習(xí)(Multi-stepQ(λ)learning)是基于離散馬爾可夫決策過程的經(jīng)典Q學(xué)習(xí)結(jié)合了TD(λ)算法[18]多步回報(bào)的思想的強(qiáng)化學(xué)習(xí)算法。資格跡的引入能夠解決延時(shí)強(qiáng)化學(xué)習(xí)的時(shí)間信度分配問題,獲取算法行為的頻度和漸新度兩種啟發(fā)信息,從而考慮了未來控制決策的影響[19]。其中,資格跡的更新規(guī)則如式(9)所示。
在引入資格跡后,Q(λ)學(xué)習(xí)迭代更新公式如式(10)、式(11)所示。
式中A為動(dòng)作集合。
對于所有個(gè)體來說,在更新完自身的Q值矩陣后,即可更新各自的動(dòng)作概率矩陣,如式(13)所示。
式中Pi(si,ai)為個(gè)體i在狀態(tài)si下執(zhí)行動(dòng)作ai的概率值;β(0≤β≤1)為動(dòng)作搜索速度,β越小,算法越慢收斂,收斂效果越好。
根據(jù)更新后的動(dòng)作概率矩陣,個(gè)體i即可隨機(jī)選擇當(dāng)前狀態(tài)下的預(yù)判動(dòng)作預(yù)判動(dòng)作類似于粒子群的個(gè)體位置,需要對其進(jìn)行修正。其中,對于個(gè)體i來說,其個(gè)體最優(yōu)動(dòng)作即貪婪動(dòng)作群體最優(yōu)動(dòng)作可求解如式(14)所示。
式中N為群體集合。
因此,根據(jù)式(7)和式(8),本文取ω=0,則 PSOQ(λ)修正后的動(dòng)作更新如式(15)、式(16)所示。
在碳-能復(fù)合流計(jì)算時(shí),首先有必要對日負(fù)荷曲線進(jìn)行離散化,確定不同時(shí)刻的負(fù)荷值,然后求解出不同時(shí)段的最優(yōu)解。本文按照負(fù)荷消耗的能量的差別,把負(fù)荷離散化劃分成不同的斷面,每一個(gè)斷面即對應(yīng)一個(gè)狀態(tài)s。
在碳-能復(fù)合流優(yōu)化計(jì)算中,可控變量包括:有載調(diào)壓變壓器變比、無功補(bǔ)償容量等。本文算法的動(dòng)作空間與可控變量一一對應(yīng)。
PSO-Q(λ)學(xué)習(xí)中,對于所有個(gè)體而言,立即獎(jiǎng)勵(lì)函數(shù)都是體現(xiàn)系統(tǒng)優(yōu)化的方向。為了實(shí)現(xiàn)電網(wǎng)的碳-能復(fù)合流優(yōu)化,根據(jù)式(5)給出的目標(biāo)函數(shù),本文的獎(jiǎng)勵(lì)函數(shù)可設(shè)計(jì)如式(17)所示。
式中C是常數(shù),用于保證獎(jiǎng)勵(lì)函數(shù)值為正數(shù);Cds為碳流損耗;Ploss為網(wǎng)損;μ1、μ2分別為目標(biāo)系數(shù),μ1較大時(shí),則表明電網(wǎng)企業(yè)更加偏好于碳流損耗,μ2較大時(shí),則表明電網(wǎng)企業(yè)更加偏好于網(wǎng)損;N是不滿足不等式約束的個(gè)數(shù),引入這個(gè)參數(shù)是為了保證最終選定的最優(yōu)動(dòng)作能夠滿足電網(wǎng)潮流計(jì)算的不等式約束。
本文提出的基于PSO-Q(λ)的OCECF算法具體流程包括:個(gè)體自身的更新迭代和多主體的協(xié)同輸入,具體步驟如圖2所示。
圖2 基于PSO-Q(λ)的最優(yōu)碳-能復(fù)合流算法流程圖Fig.2 Flow chart of OCECF based on PSO-Q(λ)
本文算例是在Matlab7.10仿真平臺(tái)上借助Matpower4.1軟件包中的潮流計(jì)算程序,并在CPU為3.1 GHz內(nèi)存為4 GB的計(jì)算機(jī)上對IEEE118節(jié)點(diǎn)標(biāo)準(zhǔn)算例進(jìn)行的仿真。為驗(yàn)證PSO-Q(λ)算法的性能,算例中引入遺傳算法 (GA)[20]、量子遺傳算法(QGA)[21]和Q(λ)算法[16]做比較分析。
本文采用的IEEE 118節(jié)點(diǎn)系統(tǒng)作為仿真模型含有54個(gè)機(jī)組和186條支路,根據(jù)《2006年IPCC國家溫室氣體清單指南》[22],可確定各機(jī)組碳排放強(qiáng)度如表1所示。選定的可控變量是節(jié)點(diǎn)45、79、105的無功補(bǔ)償容量和線路 8-5,26-25,30-17,63-59,64-61的有載調(diào)壓變壓器分接頭位置。其中無功補(bǔ)償容量分成5檔,分別對應(yīng)正常值的 -40%、-20%、0%、20%、40%,有載調(diào)壓變壓器變比分成3檔,分別0.98(p.u.)、1.00(p.u.)、1.02(p.u.)。則動(dòng)作空間總共有5×5×5×3×3×3×3×3=30375個(gè)動(dòng)作,不等式約束的個(gè)數(shù)為:54+1+64=119,分別對應(yīng)發(fā)電機(jī)無功出力、發(fā)電機(jī)平衡節(jié)點(diǎn)有功出力和負(fù)荷節(jié)點(diǎn)的電壓。
表1 IEEE118節(jié)點(diǎn)機(jī)組碳排放強(qiáng)度/δgwTab.1 Carbon emission intensity of IEEE 118 bus
經(jīng)過大量的仿真分析,本文算法中的參數(shù)設(shè)置如下:
(1)學(xué)習(xí)因子c1取0.18,學(xué)習(xí)因子c2取1.2;
(2)折扣因子γ取0.49,資格跡衰退系數(shù)λ取0.3,學(xué)習(xí)速率α取0.1,動(dòng)作搜索速度β取0.5;
(3)目標(biāo)函數(shù)的權(quán)重系數(shù)μ1和μ2都取1/3,群體個(gè)數(shù)取為20。
圖3給出了Q(λ)算法和PSO-Q(λ)算法時(shí)的Q值收斂過程。由圖3(a)可以看出,Q(λ)算法在經(jīng)歷一系列的試錯(cuò)和探索后可以收斂到最優(yōu)Q*矩陣,但是收斂時(shí)間很長。PSO-Q(λ)算法能夠在很短的時(shí)間內(nèi)就收斂,尋優(yōu)速度明顯快于Q(λ)算法,如圖3(b)所示。
圖3 Q值收斂過程Fig.3 Convergence process of Q-value
圖4給出了PSO-Q(λ)算法時(shí)的收斂過程。從圖中可以發(fā)現(xiàn):(1)所有個(gè)體的動(dòng)作(即控制變量)在迭代50步左右即可趨于一致;(2)所有個(gè)體最終收斂得到的變量為最優(yōu)變量,使得目標(biāo)函數(shù)值達(dá)到最小。
圖4 PSO-Q(λ)算法收斂過程Fig.4 Convergence process of PSO-Q(λ)
表2 不同算法下的最優(yōu)碳-能復(fù)合流結(jié)果統(tǒng)計(jì)表Tab.2 OCECF statistical results in different algorithms
為了進(jìn)一步比較PSO-Q(λ)算法和其他幾種算法的性能,表2給出各個(gè)算法在同一斷面下運(yùn)行10次得到的優(yōu)化結(jié)果平均值。從仿真結(jié)果可以看到:(1)遺傳和量子遺傳算法的收斂速度相對更快,在20 s左右即可收斂,但是算法容易陷入早熟,收斂到局部最優(yōu)解;(2)Q和Q(λ)算法由于遍歷了馬爾科夫過程,具有較強(qiáng)的全局收斂性,然而其收斂時(shí)間長達(dá)10 min左右,當(dāng)電網(wǎng)規(guī)模增加時(shí),就難以滿足OCEEF的在線動(dòng)態(tài)滾動(dòng)優(yōu)化要求;(3)PSO-Q和PSO-Q(λ)算法雖每次都收斂到全局最優(yōu)解,但其所得的目標(biāo)函數(shù)值明顯優(yōu)于遺傳和量子遺傳算法,其收斂時(shí)間不超過1 min,明顯快于單主體Q和Q(λ)算法,可以滿足最優(yōu)碳-能復(fù)合流的在線滾動(dòng)優(yōu)化。(4)在引入資格跡后,與Q算法和PSO-Q算法相比,Q(λ)算法和PSO-Q(λ)算法的收斂時(shí)間分別加速了 8%和9%。
表3統(tǒng)計(jì)了各種算法10次優(yōu)化運(yùn)行的收斂性能??梢园l(fā)現(xiàn):(1)Q和Q(λ)算法具有很強(qiáng)的全局尋優(yōu)魯棒性,算法每次都能收斂到最優(yōu)解,收斂值的方差和標(biāo)準(zhǔn)差均為零;(2)遺傳和量子遺傳算法每次的收斂結(jié)果都不一樣,容易較早收斂到局部最優(yōu)解;(3)PSO-Q和PSO-Q(λ)算法10次仿真中分別有7、8次收斂到最優(yōu)解,相對于遺傳和量子遺傳算法收斂魯棒性更強(qiáng),目標(biāo)函數(shù)值的方差和標(biāo)準(zhǔn)差更小。
表3 不同算法下的運(yùn)行收斂性能統(tǒng)計(jì)表Tab.3 Statistical results of convergence metrics in different algorithms
本文研究了電網(wǎng)能流與碳流復(fù)合模型,提出了一種基于真正群智能強(qiáng)化學(xué)習(xí)的電網(wǎng)碳-能復(fù)合流多目標(biāo)優(yōu)化方法,理論創(chuàng)新性貢獻(xiàn)歸納如下:
(1)有機(jī)結(jié)合了電網(wǎng)能流和碳排放流傳輸特性,首次提出了電網(wǎng)最優(yōu)碳-能復(fù)合流的概念,并采用多主體強(qiáng)化學(xué)習(xí) PSO-Q(λ)算法來有效地解決OCECF問題;
(2)在傳統(tǒng)單主體Q(λ)算法的基礎(chǔ)上,結(jié)合了群智能優(yōu)化方法,大大提高了傳統(tǒng)Q(λ)算法尋優(yōu)的速度,更加符合實(shí)際大規(guī)模復(fù)雜電網(wǎng)的碳-能復(fù)合流在線滾動(dòng)優(yōu)化實(shí)時(shí)性要求;
(3)與傳統(tǒng)Q(λ)算法一樣,群智能強(qiáng)化學(xué)習(xí)算法的收斂穩(wěn)定性高,能更高效地找到碳-能復(fù)合流的全局最優(yōu)解,能在保證電壓安全穩(wěn)定的同時(shí),有效降低電網(wǎng)的碳流損耗和有功功率損耗。很顯然,本文所提的新優(yōu)化算法也可以推廣到其它電力系統(tǒng)多目標(biāo)優(yōu)化問題的求解中去。