吳 雄,張子裕,劉炳文,麻 淞,曹濱睿,何雯雯,曹菁菁
(西安交通大學(xué) 電氣工程學(xué)院,陜西 西安 710000)
近幾十年來,全球的能源消費(fèi)模式發(fā)生了重大變革,建筑逐漸成為了主要的能源消耗終端,約占全球能源消耗總量的三分之一。隨著城市化進(jìn)程的繼續(xù)推進(jìn),這一比例在未來仍會(huì)持續(xù)增高[1]。根據(jù)美國(guó)能源信息管理局的報(bào)告,建筑物內(nèi)部主要的用電途徑為供暖、通風(fēng)和供冷,約占建筑使用總電量的51 %[2]。而由于建筑物如商業(yè)建筑等占地面積大,建筑物集成度高,人口密度大,這給城市電網(wǎng)和建筑能量管理帶來了一系列的運(yùn)營(yíng)問題。一方面,為了維持建筑物內(nèi)部的溫度,需要暖通空調(diào)(heating ventilation air conditioning,HVAC)長(zhǎng)時(shí)間通風(fēng)、制熱和制冷,消耗了大量的電力;另一方面,由于目前分布式電源如屋頂光伏逐漸集成到建筑物中,其帶來的不確定性也逐漸成為目前建筑能量管理系統(tǒng)(buil-ding energy management system,BEMS)的難點(diǎn)。因此需要一種建筑能量管理方法來統(tǒng)籌考慮新能源不確定性和建筑內(nèi)部特性。
目前,在建筑物內(nèi)部進(jìn)行溫度控制的方式主要有空調(diào)和冷熱電聯(lián)產(chǎn)(combined cooling,heating and power,CCHP)。其中:文獻(xiàn)[3]和文獻(xiàn)[4]分別研究了HVAC 的二階等效熱負(fù)荷模型參數(shù)辨識(shí)方法和黑盒模型;文獻(xiàn)[5]和文獻(xiàn)[6]從消費(fèi)者的角度出發(fā),分別考慮了電動(dòng)汽車需求和消費(fèi)者舒適度以進(jìn)行HVAC的協(xié)同調(diào)度;文獻(xiàn)[7]提出了一種通過CCHP 實(shí)現(xiàn)智能建筑調(diào)度的建模方法,并采用集中母線的方式構(gòu)建了智能建筑的能量管理調(diào)度模型;文獻(xiàn)[8-9]基于CCHP 構(gòu)建的建筑能量管理調(diào)度模型,分別考慮了碳交易和熱儲(chǔ)模型。然而上述研究大多僅考慮室內(nèi)人員的溫度或舒適度需求,并未結(jié)合實(shí)際統(tǒng)籌考慮通風(fēng)輻照等因素帶來的建筑內(nèi)部溫度變化,為此需進(jìn)一步考慮室內(nèi)外溫度、輻照等影響建筑熱慣性的因素,實(shí)現(xiàn)建筑內(nèi)部的溫度控制。
同時(shí),由于可再生能源的高度隨機(jī)性,樓宇中的分布式電源可能會(huì)對(duì)建筑系統(tǒng)的穩(wěn)定性產(chǎn)生沖擊。為了應(yīng)對(duì)新能源的不確定性,文獻(xiàn)[10]和文獻(xiàn)[11]針對(duì)可能出現(xiàn)的最差場(chǎng)景,分別提出了一種商業(yè)建筑能量管理策略并使用魯棒優(yōu)化,從而應(yīng)對(duì)新能源的隨機(jī)性;文獻(xiàn)[12]提出了一種基于機(jī)會(huì)約束的社區(qū)能源零售商能源管理與定價(jià)方法。然而上述研究多針對(duì)BEMS 的日前調(diào)度進(jìn)行開展,根據(jù)系統(tǒng)預(yù)測(cè)的新能源出力曲線、負(fù)荷曲線等提前進(jìn)行決策,難以應(yīng)對(duì)可再生能源和負(fù)荷波動(dòng)較大的情況,系統(tǒng)人員需要根據(jù)日內(nèi)信息對(duì)BEMS 進(jìn)行日內(nèi)調(diào)度。在日內(nèi)優(yōu)化方面;文獻(xiàn)[13]提出了一種基于規(guī)則的調(diào)整策略對(duì)居民住宅進(jìn)行能量管理;文獻(xiàn)[14]提出了一種模型預(yù)測(cè)控制(model predictive control,MPC)算法,通過隨機(jī)規(guī)劃實(shí)現(xiàn)日前調(diào)度,并由MPC 算法利用日內(nèi)更新的隨機(jī)量預(yù)測(cè)信息進(jìn)行日內(nèi)滾動(dòng)調(diào)度。然而基于規(guī)則的調(diào)整策略易陷入局部最優(yōu)解而忽略全局最優(yōu)解,MPC 方法則過于依賴隨機(jī)信息的預(yù)測(cè)精確度,易受到預(yù)測(cè)誤差的影響。
近年來,近似動(dòng)態(tài)規(guī)劃(approximate dynamic programming,ADP)作為一種可以通過日內(nèi)調(diào)度解決多階段隨機(jī)調(diào)度問題的算法,有望解決上述研究中的問題。ADP 由動(dòng)態(tài)規(guī)劃(dynamic programming,DP)演化而來并解決了DP 中的維度爆炸問題,其使用貝爾曼方程將多階段隨機(jī)優(yōu)化問題轉(zhuǎn)化為單階段問題并迭代求解。ADP 通過歷史數(shù)據(jù)進(jìn)行主動(dòng)學(xué)習(xí),不依賴隨機(jī)量的預(yù)測(cè)準(zhǔn)確度和不確定集。文獻(xiàn)[15]使用基于值函數(shù)迭代的ADP 算法對(duì)含新能源儲(chǔ)能的微電網(wǎng)進(jìn)行多目標(biāo)調(diào)度;文獻(xiàn)[16]基于ADP思想引入決策后狀態(tài)近似值函數(shù),以表征不同時(shí)段狀態(tài)下的長(zhǎng)期期望效益;文獻(xiàn)[17]建立了基于分段線性函數(shù)的ADP 算法來解決大規(guī)模電網(wǎng)中的隨機(jī)存儲(chǔ)問題;文獻(xiàn)[18]采用基于多維分段線性值函數(shù)近似的ADP 算法來解決多類型儲(chǔ)能的調(diào)度問題。以上文獻(xiàn)均驗(yàn)證了ADP 算法在多階段隨機(jī)優(yōu)化方面的優(yōu)越性。然而上述ADP 算法可在經(jīng)濟(jì)性上達(dá)到近似最優(yōu)的結(jié)果,但涉及隨機(jī)量波動(dòng)小而影響較大的因素(如人體舒適度)時(shí)難以達(dá)到近似最優(yōu)。
為此,本文提出了一種考慮建筑熱慣性的MPCADP BEMS 日內(nèi)調(diào)度方法,使用建筑熱平衡方程描述建筑熱慣性,使用ADP 算法應(yīng)對(duì)日內(nèi)調(diào)度的隨機(jī)性問題并結(jié)合MPC 算法兼顧人體舒適度需求,該方法結(jié)合了MPC 和ADP 的優(yōu)點(diǎn),充分考慮了隨機(jī)性,可兼顧建筑內(nèi)部經(jīng)濟(jì)性最優(yōu)和人體舒適度最優(yōu)。
典型的BEMS 可由分布式電源(如風(fēng)力發(fā)電機(jī)、光伏、建筑級(jí)CCHP 等電源)、儲(chǔ)能裝置、傳感器、室溫調(diào)控裝置(HVAC)、其他電器負(fù)荷和能量管理平臺(tái)組成。BEMS 一般與主網(wǎng)相連,其物理結(jié)構(gòu)如附錄A 圖A1 所示。具體而言,CCHP 消耗天然氣產(chǎn)生電能、熱能和冷能,CCHP、光伏、風(fēng)電和配電網(wǎng)購(gòu)電共同組成建筑電源向建筑內(nèi)部的不可調(diào)控負(fù)荷和HVAC 系統(tǒng)供電,由HVAC 和CCHP 產(chǎn)生的熱能、冷能共同調(diào)控建筑內(nèi)部的溫度。
建筑圍護(hù)結(jié)構(gòu)熱慣性模型是基于物理的模型,用于模擬建筑中室內(nèi)空氣、濕度和室外溫度帶來的室內(nèi)溫度變化。一般地,建筑物由內(nèi)墻、外墻和門窗組成,太陽輻照平均散布在外墻與窗戶上,考慮到外墻和窗戶的材質(zhì)差別導(dǎo)致的透光率不同,將二者分開計(jì)算。墻體節(jié)點(diǎn)溫度主要受墻體熱傳導(dǎo)影響,墻體內(nèi)表面溫度不僅受墻體熱傳導(dǎo)影響,還受外墻輻照和窗戶房間之間的熱對(duì)流影響。假設(shè)房間墻壁兩面收到光照,其中一面含窗,兩面與相鄰房間相連,將墻壁等效為熱阻熱容模型后如附錄B圖B1所示。
為了詳細(xì)描述建筑物的熱動(dòng)態(tài),建筑圍護(hù)結(jié)構(gòu)的墻壁熱平衡[5]描述如下:
式中:n為區(qū)域標(biāo)識(shí);k為樓體標(biāo)識(shí);t為時(shí)段;C為墻體的熱容;i,j分別為房間、墻壁標(biāo)識(shí);T為墻壁溫度;T為屋內(nèi)溫度;T為相鄰房間溫度;R為墻壁的熱阻為陽光照射到墻壁上的標(biāo)識(shí)符,=1、=0 分別表示該墻壁受到、未受到陽光直射;A為墻壁面積;為墻壁的熱通量吸收系數(shù);Q為墻壁上的輻照熱通量密度;Δt為間隔時(shí)間。
室內(nèi)空氣的節(jié)點(diǎn)溫度受到多種因素的影響,包括外部因素(如溫度和輻照)和內(nèi)部因素(如建筑圍護(hù)結(jié)構(gòu)、內(nèi)部熱源),室內(nèi)空氣的熱平衡方程如式(5)所示。其中:等號(hào)左側(cè)為單位時(shí)間內(nèi)熱量變化值;等號(hào)右側(cè)為單位時(shí)間內(nèi)建筑內(nèi)外壁和窗戶向室內(nèi)傳遞的熱量、濕度傳熱、人體產(chǎn)熱[19]、CCHP 和HVAC 產(chǎn)生熱量。
式中:C為房間的熱容;T為室外溫度;R為窗戶的熱阻;為窗戶的透光系數(shù),A為窗戶的面積,Q為照射在窗戶上的輻照熱通量密度,三者乘積即為窗戶向室內(nèi)傳遞的熱量;m˙e為房間和室外之間的空氣流量,cpa為水蒸氣比熱,兩者與室內(nèi)外溫度差的乘積即為室內(nèi)外濕度交換所引起的熱量變化;Q為 室內(nèi) 熱 增益,如 人體產(chǎn) 出熱 量;Q和Q分別為CCHP 供給的熱量和冷量;EEER為能效比;PHVAC,t為HVAC的輸出功率。
1.3.1 目標(biāo)函數(shù)
本文以BEMS 的優(yōu)化周期T(本文取T= 24 h)內(nèi)的運(yùn)行費(fèi)用V最小為目標(biāo),如式(6)所示。
1)CCHP燃料費(fèi)用。
CCHP 將輸入的天然氣轉(zhuǎn)化為熱能、電能和冷能,其輸出的熱能和冷能由燃?xì)廨啓C(jī)的輸出功率與效率決定,同時(shí)考慮熱損失系數(shù)、制熱系數(shù)、制冷系數(shù)和鍋爐的回收效率,CCHP出力模型為:
式中:QMT,t為余熱鍋爐的輸入熱量,由考慮熱損失后的燃?xì)廨啓C(jī)的輸出功率決定;PCCHPoutput,t和ηCCHPMT分別為CCHP 中燃?xì)廨啓C(jī)的輸出功率和效率;ηCCHP1為熱損失系數(shù);Qh0,t和Qc0,t分別為換熱器輸出的熱量和吸收式制冷機(jī)輸出的冷量,可用于室內(nèi)溫度熱平衡模型中,由余熱鍋爐的輸入熱量、換熱/冷系數(shù)和鍋爐的回收效率決定;Kh0和Kc0分別為換熱器的制熱系數(shù)和吸收式制冷機(jī)的制冷系數(shù),分別取為1.2 和0.95[20];ηCCHPrcc為鍋爐的回收效率,由環(huán)境溫度Tinn,k,t和環(huán)境系數(shù)T1、T2決定,其中T1、T2分別取值為573.15、423.15 K[20];VCCHPMT,t為設(shè)備中輸入的天然氣量,由燃?xì)廨啓C(jī)的輸出功率和天然氣低熱值L決定。
由此可得到CCHP的燃料費(fèi)用為:
式中:wgas為天然氣的購(gòu)買單價(jià)。
2)機(jī)組運(yùn)行維護(hù)費(fèi)用。
機(jī)組運(yùn)行維護(hù)費(fèi)用包括CCHP 機(jī)組、風(fēng)力發(fā)電機(jī)、光伏發(fā)電機(jī)組和儲(chǔ)能的運(yùn)行維護(hù)費(fèi)用,具體為:
3)購(gòu)電費(fèi)用與售電收益。
式中:pmgp,t、pmgn,t分別為BEMS 向電網(wǎng)的購(gòu)、售電電價(jià);Pmgp,t和Pmgn,t分 別 為BEMS 向 電 網(wǎng) 的 購(gòu)、售 電功率。
4)切負(fù)荷懲罰。
式中:Kloss為系統(tǒng)切負(fù)荷的單位懲罰費(fèi)用;Ploss,t為切負(fù)荷功率。
5)人體舒適度懲罰。
本文BEMS 中人體舒適度采用預(yù)測(cè)平均評(píng)價(jià)(predicted mean vote,PMV)進(jìn)行表征,該值綜合考慮室內(nèi)溫度、空氣流速、人體新陳代謝等有關(guān)因素,該值趨近于0 時(shí)為人體舒適度最佳[20],其中室內(nèi)溫度和墻壁溫度由式(1)—(5)計(jì)算得到,故人體舒適度及人體舒適度懲罰定義如下:
式中:IPMV,t為人體舒適度;Tsk、D1、D2、M0、Icl、Ia和fcl分別為人體皮膚的正常溫度、房屋與墻壁的面積系數(shù)、人體與外界的熱量交換系數(shù)、衣物熱阻、空氣熱阻和衣物面積,均為常數(shù);為內(nèi)墻溫度;Lpmv為人體舒適度懲罰系數(shù)。
1.3.2 約束條件
BEMS 中人體舒適度采用PMV 進(jìn)行表征,該值綜合考慮室內(nèi)溫度、空氣流速、人體新陳代謝等有關(guān)因素,取值范圍為[-3,3][21]。PMV 與人體舒適度之間的關(guān)系詳見附錄C表C1。
本文根據(jù)ISO-7730標(biāo)準(zhǔn)將人體舒適區(qū)間設(shè)為:
同時(shí),BEMS 還考慮了功率平衡約束、機(jī)組出力約束、儲(chǔ)能裝置容量約束和電網(wǎng)交換約束,相關(guān)約束的具體表達(dá)式詳見附錄C式(C1)—(C7)。
BEMS 的日內(nèi)調(diào)度為將一天分為NT個(gè)時(shí)段,在每個(gè)階段均需做出當(dāng)前時(shí)段至最終時(shí)段全局最優(yōu)的決策。此類多階段隨機(jī)優(yōu)化問題可表述為一個(gè)馬爾可夫決策過程(Markov decision process,MDP),并用DP 方法求解。DP 可將多階段問題分解為單階段問題,并由轉(zhuǎn)移函數(shù)實(shí)現(xiàn)前后時(shí)段的過渡。MDP 通常包含狀態(tài)變量、決策變量和隨機(jī)變量,前后2 個(gè)階段的狀態(tài)變量通過轉(zhuǎn)移函數(shù)連接。
狀態(tài)變量St是一組變量,可反映系統(tǒng)當(dāng)前狀態(tài),在不考慮外來隨機(jī)變量的干擾時(shí),可直接由狀態(tài)變量確定系統(tǒng)的決策。根據(jù)文獻(xiàn)[22],對(duì)于含有“儲(chǔ)能”的優(yōu)化問題,將狀態(tài)變量設(shè)為儲(chǔ)能的荷電狀態(tài)可以獲得極好的效果,因此在本文BEMS 中,將狀態(tài)變量St定義為:
式中:SSOC,t為儲(chǔ)能的荷電狀態(tài)。
決策變量xt反映系統(tǒng)在時(shí)段t所采取的決策,由系統(tǒng)中所有的可操作量組成,在本文BEMS 中定義為:
隨機(jī)變量Wt表示時(shí)段t內(nèi)所有的隨機(jī)量,在本文BEMS中定義其預(yù)測(cè)結(jié)果W^t為:
轉(zhuǎn)移函數(shù)表示St在注入xt和W^t后轉(zhuǎn)移到下一時(shí)段系統(tǒng)狀態(tài)變量St+Δt間的關(guān)系,本文中取Δt=1 h,故BEMS中的轉(zhuǎn)移函數(shù)定義為:
式中:ηin、ηout分別為儲(chǔ)能的充、放電效率。
考慮以上MDP元素,BEMS可重新定義為:
式中:Ct(t=1,2,…,NT)為t時(shí)段內(nèi)的目標(biāo)函數(shù);EW^t[·]表示在考慮隨機(jī)變量W^t時(shí)的期望。
由Bellman最優(yōu)性原則,式(18)的尾部問題以時(shí)段t為分界可表示為(19)。
式中:Vt為時(shí)段t系統(tǒng)的價(jià)值函數(shù),即從狀態(tài)St開始的系統(tǒng)的最優(yōu)成本,包括當(dāng)前狀態(tài)的成本和未來值函數(shù);Vt+1為BEMS 從時(shí)段t+1 開始的運(yùn)營(yíng)成本到系統(tǒng)最后一個(gè)時(shí)段NT的成本;γ為MDP 問題中權(quán)衡系統(tǒng)即時(shí)獎(jiǎng)勵(lì)和未來獎(jiǎng)勵(lì)重要性的折扣因子,該值通常設(shè)置在0~1 之間;E[·]表示不考慮隨機(jī)變量時(shí)的期望。
經(jīng)典的DP 問題可通過反向求解貝爾曼最優(yōu)方程得到單個(gè)時(shí)段每種可能的狀態(tài)的值函數(shù),再根據(jù)求得的值函數(shù)正向求解貝爾曼方程來得到最優(yōu)解。然而在實(shí)際電力系統(tǒng)中問題的規(guī)模通常較大,過大的狀態(tài)空間和動(dòng)作空間會(huì)帶來維度爆炸的問題,使得未來值函數(shù)的計(jì)算極其困難,即傳統(tǒng)DP問題中的維度災(zāi)問題。因此,在ADP 中,通過分段函數(shù)對(duì)未來值函數(shù)進(jìn)行近似,可給出近似最優(yōu)解。
由于式(19)中的期望值計(jì)算量較大,文獻(xiàn)[17]提出使用決策后狀態(tài)變量代替狀態(tài)變量來規(guī)避期望值的計(jì)算,決策后狀態(tài)是指系統(tǒng)已進(jìn)行決策但還未注入任何外來隨機(jī)信息的狀態(tài)。決策前狀態(tài)、決策后狀態(tài)、決策和隨機(jī)變量之間的關(guān)系如圖1所示。
圖1 ADP決策-狀態(tài)轉(zhuǎn)移過程Fig.1 ADP decision-state transition process
采用決策后狀態(tài)變量代替狀態(tài)變量后,系統(tǒng)的貝爾曼方程可表示為:
周教授一說,可蔓眼淚一下流了出來,說,真的穿越了哇?我好怕嘛。我要回去,我要回去找我媽嘛。說著就往外走。谷老板連忙拉住了,說,你瞎說個(gè)啥,你往哪兒走啊,你沒看見外面???
式中:Nt為線性分段函數(shù)的分段數(shù)量為決策后狀態(tài)變量即決策后的儲(chǔ)能電池荷電狀態(tài),為橫坐標(biāo),隨著的增加,斜率遞增;rt,a為段數(shù)索引a對(duì)應(yīng)的橫坐標(biāo)長(zhǎng)度。相關(guān)約束如式(22)、(23)所示。
式中:SSOC,max、SSOC,min分別為儲(chǔ)能荷電狀態(tài)上、下限。
則時(shí)段t的決策最優(yōu)值可通過式(24)求解。
式中:Rt為所有rt,a的取值集合。
ADP算法通過前向求解每個(gè)時(shí)段的目標(biāo)函數(shù)來得到每個(gè)時(shí)段的最優(yōu)決策xt。為了更好地得到接近真實(shí)值函數(shù)的近似值函數(shù),ADP 算法會(huì)對(duì)近似值函數(shù)進(jìn)行多次迭代直至斜率收斂,即首先求得當(dāng)次迭代中各時(shí)段的近似值函數(shù)結(jié)果和由近似值函數(shù)結(jié)果反推得到的決策后狀態(tài)變量,為減少計(jì)算量?jī)H更新決策后狀態(tài)變量值所對(duì)應(yīng)的分段處的斜率而非將整條分段線性函數(shù)所有分段的斜率全部更新,計(jì)算斜率時(shí)采用差分方法更新段數(shù)索引a處的斜率,為防止某次隨機(jī)量波動(dòng)過大帶來的斜率驟變,將本次迭代與上一次迭代的斜率進(jìn)行整合以得到本次迭代的臨時(shí)斜率。最后為保持近似值函數(shù)的凹性,采用Leveling 方法對(duì)斜率進(jìn)行修正以得到本次迭代的最終斜率并應(yīng)用到下一次迭代中,具體說明如下。
在對(duì)分段線性函數(shù)斜率進(jìn)行更新時(shí),假設(shè)已完成s-1 次迭代,該次迭代的近似值函數(shù)已知,則將用于第s次迭代中貝爾曼方程的求解,如式(25)所示。
在第s次迭代的斜率更新中,首先按照式(26)計(jì)算第s次迭代中的狀態(tài)變量采樣觀測(cè)值()。
由此斜率更新中僅更新了第a段斜率的值,這可能會(huì)破壞分段線性函數(shù)的凸/凹性,針對(duì)此種情況需要對(duì)斜率進(jìn)行修正。本文采用Leveling 方法[22]對(duì)斜率進(jìn)行修正,如式(28)所示。
ADP 算法考慮了預(yù)測(cè)場(chǎng)景不準(zhǔn)確的情況,由于訓(xùn)練場(chǎng)景為具有隨機(jī)性的歷史數(shù)據(jù),在斜率收斂后的近似值函數(shù)可獲得近似最優(yōu)解。然而在日內(nèi)調(diào)度中人體舒適度較為敏感,微小的溫度變化會(huì)帶來較大的舒適度變化,因此有必要在日內(nèi)調(diào)度中依照日內(nèi)反饋的信息在日前調(diào)度的基礎(chǔ)上進(jìn)行調(diào)整。
考慮目前預(yù)測(cè)信息的短期準(zhǔn)確度較高,本文擬采用MPC 算法對(duì)短期內(nèi)用戶舒適度進(jìn)行追蹤,將人體舒適度加入日內(nèi)調(diào)度的目標(biāo)函數(shù)中,在時(shí)段t做出基于成本最優(yōu)的決策后,在使決策變量偏離計(jì)算值最小的基礎(chǔ)上,對(duì)人體舒適度進(jìn)行追蹤以達(dá)到人體舒適度最佳。
MPC 算法包括模型、滾動(dòng)和反饋3 個(gè)部分。首先建立模型由當(dāng)前時(shí)段的決策變量和狀態(tài)變量得到下一時(shí)段的狀態(tài)變量,即轉(zhuǎn)移函數(shù);然后結(jié)合未來p個(gè)時(shí)段的隨機(jī)變量預(yù)測(cè)值進(jìn)行優(yōu)化,得到未來p個(gè)時(shí)段的決策變量,且只采用未來p個(gè)時(shí)段中第1個(gè)時(shí)段的決策,以此類推進(jìn)行滾動(dòng)優(yōu)化;考慮到預(yù)測(cè)誤差、參數(shù)誤差、建模誤差等因素,需要對(duì)已得到的決策進(jìn)行反饋校正以彌補(bǔ)誤差因素[23]。其中MPC 算法對(duì)控制對(duì)象的傳統(tǒng)狀態(tài)轉(zhuǎn)移方程見附錄D 式(D1)、(D2)。未來p個(gè)時(shí)段的狀態(tài)轉(zhuǎn)移函數(shù)和決策變量為:
式中:Yt為系統(tǒng)的預(yù)測(cè)輸出矩陣;θt為系統(tǒng)擾動(dòng)量的參數(shù)矩陣;φt為系統(tǒng)狀態(tài)變量的狀態(tài)矩陣;ΔXt為系統(tǒng)擾動(dòng)量矩陣;Δxt為時(shí)段t+1 的狀態(tài)變量相對(duì)于時(shí)段t狀態(tài)變量的變化值;A、B為轉(zhuǎn)移矩陣。
MPC算法通過滾動(dòng)優(yōu)化來保證在系統(tǒng)控制量擾動(dòng)盡可能小的情況下將狀態(tài)變量收斂到參考值,本文中為在系統(tǒng)決策變量擾動(dòng)量盡可能小的情況下使人體舒適度盡快收斂到最優(yōu)值。
式中:α和β分別為決策函數(shù)擾動(dòng)量和人體舒適度函數(shù)的權(quán)重系數(shù);Q和R為系數(shù)矩陣;Yl為狀態(tài)變量參考值,本文設(shè)定為人體最優(yōu)舒適度參考值0,即矩陣內(nèi)部元素全為0;e為偏差;G和H為簡(jiǎn)化后的系數(shù)矩陣;P為常數(shù)。該式為MPC優(yōu)化的目標(biāo)函數(shù),需使人體舒適度狀態(tài)變量與人體最優(yōu)舒適度參考值(本文為0)之間的差值最小,同時(shí)使MPC 優(yōu)化中決策變量的與日內(nèi)ADP 調(diào)度的偏離值最小,這由決策變量ΔXt和狀態(tài)變量e決定。先在時(shí)段t求得未來p個(gè)時(shí)間段內(nèi)使目標(biāo)函數(shù)達(dá)到最優(yōu)值的決策變量序列,只取序列中第1 個(gè)時(shí)段的決策變量執(zhí)行,并求解此時(shí)狀態(tài)變量和其與參考值的誤差,迭代進(jìn)入時(shí)段t+1后未來p個(gè)時(shí)段的MPC最優(yōu)決策求解過程中。
同時(shí),控制量和擾動(dòng)量需滿足如下約束:
式 中:xt,max和xt,min分 別 為 控 制 量 的 取 值 上、下 限;Δxt,max和Δxt,min分別為擾動(dòng)量的取值上、下限。
綜上所述,MPC-ADP 混合日內(nèi)調(diào)度流程見附錄D 圖D1,具體步驟為:首先使用ADP 的離線訓(xùn)練從歷史數(shù)據(jù)中訓(xùn)練得到未來值函數(shù)的分段線性函數(shù)并保存斜率,將已訓(xùn)練好的斜率代入日內(nèi)調(diào)度中,以時(shí)段t為例,求得時(shí)段t的近似全局最優(yōu)解xt和對(duì)應(yīng)的狀態(tài)變量St;然后由MPC 算法基于xt和St求解式(32),得到Δxt和Yt,本文中Yt即為用戶最優(yōu)的舒適度。收斂判據(jù)為訓(xùn)練過程中前后2 次迭代的斜率相差小于v。
本文以中國(guó)南部某小區(qū)的部分智能建筑作為計(jì)算場(chǎng)景,該區(qū)域有3 棟建筑物,每棟建筑物20 層,每層4 個(gè)房間,樓宇參數(shù)如附錄E 表E1 所示。該區(qū)域現(xiàn)有CCHP、光伏發(fā)電機(jī)、風(fēng)力發(fā)電機(jī)和儲(chǔ)能,并可通過公共耦合節(jié)點(diǎn)與電網(wǎng)交換電量,機(jī)組參數(shù)如附錄E 表E2 所示。BEMS 全天均參與能量管理,時(shí)間間隔為1 h。所有隨機(jī)變量的歷史數(shù)據(jù)的隨機(jī)場(chǎng)景如附錄E圖E1所示。
在調(diào)度間隔內(nèi)觀察到的所有不確定的歷史數(shù)據(jù)如圖E1 所示,這些數(shù)據(jù)將用于ADP 方法的訓(xùn)練過程,以計(jì)算BEMS最終的運(yùn)行成本。
對(duì)于ADP 問題,由于BEMS 能量管理問題是有界的,且未來時(shí)段內(nèi)的成本與當(dāng)前時(shí)段同樣重要,因此將折扣因子設(shè)置為1。每個(gè)時(shí)段的分段線性函數(shù)分為10 段,初始斜率均為0。收斂閾值v=0.000 1。仿真通過Yalmip和MATLAB實(shí)現(xiàn),并在具有3.70 GHz CPU 和16 GB RAM 的64 位PC 上運(yùn)行,貝爾曼最優(yōu)方程由CPLEX進(jìn)行求解。
本文提出的MPC-ADP 方法將確定性的BEMS日內(nèi)調(diào)度問題作為基準(zhǔn),來分析其求解質(zhì)量和計(jì)算性能,即使用單個(gè)確定性場(chǎng)景來迭代訓(xùn)練分段線性函數(shù)并由此進(jìn)行日內(nèi)調(diào)度,訓(xùn)練結(jié)果如圖2所示。
圖2 確定性模擬MPC-ADP方法收斂曲線Fig.2 Convergence curve of deterministic simulation MPC-ADP method
由圖2 可以看出:在確定性輸入的情況下,本文所提MPC-ADP 方法在第100 次迭代時(shí)收斂,其收斂后相對(duì)于已知全天隨機(jī)量信息的混合整數(shù)線性規(guī)劃求解結(jié)果的求解誤差為2.78 %。MPC-ADP 方法所求得的確定性算例日內(nèi)調(diào)度方案、機(jī)組供熱/冷方案分別見附錄F圖F1、F2。由圖F1可看出:BEMS選擇在電價(jià)較低時(shí)向電網(wǎng)買電并存儲(chǔ)儲(chǔ)能電量,在電價(jià)較高時(shí)選擇售電或放電來降低成本,賺取利潤(rùn);在一天內(nèi)溫度較高時(shí),在CCHP 機(jī)組提供冷量的同時(shí)使用HVAC 對(duì)室內(nèi)溫度進(jìn)行調(diào)節(jié),此時(shí)空調(diào)負(fù)荷和不可控負(fù)荷疊加會(huì)產(chǎn)生新的峰值負(fù)荷,CCHP 大幅出力以滿足電力需求;而在一天內(nèi)溫度較低時(shí),由于此時(shí)購(gòu)電電價(jià)也較低,BEMS 選擇向電網(wǎng)購(gòu)電來代替CCHP 機(jī)組系統(tǒng)供電以保證成本最低。而由圖F2可看出:在夜間室外溫度較低時(shí)由HVAC 供熱,由于夜間電價(jià)比CCHP機(jī)組運(yùn)行成本低,此時(shí)選用HVAC供熱更為經(jīng)濟(jì),而在白天室外溫度較高時(shí)將由CCHP 和HVAC 同時(shí)制冷,由于日間電價(jià)比CCHP 機(jī)組運(yùn)行成本高,此時(shí)優(yōu)先使用CCHP 機(jī)組供冷,到達(dá)CCHP機(jī)組供冷上限后由HVAC供冷。
采用ADP 和MPC-ADP 方法時(shí)的人體舒適度對(duì)比如圖3所示。由圖可見:采用ADP 方法時(shí),人體舒適度曲線整體呈現(xiàn)S 型,且全天內(nèi)的舒適度僅有11:00為最佳,而其他時(shí)間內(nèi)均處于人體舒適度范圍的邊界;采用本文所提MPC-ADP 方法后,人體舒適性大幅提升,幾乎全天所有時(shí)間內(nèi)均處于最舒適狀態(tài)。
圖3 采用ADP和MPC-ADP方法時(shí)的人體舒適度對(duì)比Fig.3 Comparison of human comfort between ADP and MPC-ADP methods
ADP、MPC-ADP 方法和混合整數(shù)線性規(guī)劃模型的日內(nèi)調(diào)度求解時(shí)間分別為0.80、0.83、2.35 s。這是因?yàn)锳DP 算法和MPC-ADP 方法均將24 h 大規(guī)?;旌险麛?shù)線性規(guī)劃問題分解為24 個(gè)單時(shí)段的小規(guī)?;旌险麛?shù)線性規(guī)劃問題,而MPC-ADP方法比ADP算法多進(jìn)行一次追蹤求解。
在隨機(jī)性算例中,本文選取1 000個(gè)場(chǎng)景作為訓(xùn)練集,200 個(gè)場(chǎng)景作為測(cè)試集。同時(shí)將本文的MPCADP 方法與Myopic 短視策略和基于MPC 的前瞻H策略進(jìn)行比較,結(jié)果如圖4 所示。圖中基于MPC 的前瞻H策略的H取為2 h。
圖4 MPC-ADP與對(duì)比算法的收斂曲線Fig.4 Convergence curves of MPC-ADP and contrasting algorithms
由圖4 可知:Myopic 短視策略和MPC 算法都只能獲得具有較高誤差的局部最優(yōu)解,且其誤差不會(huì)隨著迭代次數(shù)的增加而呈現(xiàn)逐漸減少的趨勢(shì),而基于MPC-ADP 方法的求解誤差會(huì)隨著迭代次數(shù)的增加呈現(xiàn)逐漸收斂的趨勢(shì),并在700 次左右收斂至最優(yōu)值,約為4.32 %,這證明MPC-ADP 方法會(huì)從歷史數(shù)據(jù)中學(xué)習(xí)并逐漸收斂到全局最優(yōu)解。
表1 進(jìn)一步比較了200 個(gè)測(cè)試集中Myopic 短視策略、MPC 算法、ADP 算法和MPC-ADP 方法的求解誤差Es和求解時(shí)間Ts,可以看出基于傳統(tǒng)ADP 和MPC-ADP 方法的求解精度均較高,雖然MPC-ADP方法的求解速度稍慢于傳統(tǒng)ADP 算法,但其能夠大幅提高人體舒適度。
表1 測(cè)試集中4種算法的對(duì)比計(jì)算結(jié)果Table 1 Comparative calculation results of four algorithms in test set
本文提出了一種MPC-ADP方法用于求解BEMS的多階段隨機(jī)日內(nèi)調(diào)度問題,同時(shí)考慮了較為詳細(xì)的建筑圍護(hù)結(jié)構(gòu)室溫模型,結(jié)合MPC-ADP 方法實(shí)現(xiàn)人體舒適度最佳。本文使用大量歷史數(shù)據(jù)離線訓(xùn)練MPC-ADP 方法的近似值函數(shù),并將離線訓(xùn)練完成的值函數(shù)使用到日內(nèi)調(diào)度中,結(jié)合MPC 算法在決策變量波動(dòng)最小的基礎(chǔ)上對(duì)人體舒適度進(jìn)行優(yōu)化。仿真結(jié)果表明,MPC-ADP 方法的求解誤差相比于其他的日內(nèi)調(diào)度算法更小,且相比于傳統(tǒng)ADP 算法可大幅提高人體舒適度。
本文考慮的是值迭代的ADP 算法,在未來可進(jìn)一步拓展為策略迭代的ADP 算法,同時(shí)針對(duì)非線性問題也可選取非線性的值函數(shù)進(jìn)行近似。針對(duì)建筑內(nèi)部的系統(tǒng)設(shè)計(jì)也可進(jìn)一步細(xì)化,精細(xì)地考慮各項(xiàng)用能需求。
附錄見本刊網(wǎng)絡(luò)版(http://www.epae.cn)。