殷雨竹,陳建平,傅啟明,陸 悠,吳宏杰
1(蘇州科技大學(xué) 電子與信息工程學(xué)院,蘇州 215009)
2(蘇州科技大學(xué) 江蘇省建筑智慧節(jié)能重點(diǎn)實(shí)驗(yàn)室,蘇州 215009)
3(蘇州科技大學(xué) 蘇州市移動(dòng)網(wǎng)絡(luò)技術(shù)與應(yīng)用重點(diǎn)實(shí)驗(yàn)室,蘇州 215009)
能源與環(huán)境是當(dāng)今世界的兩大熱點(diǎn)問題,越來越受到人們的關(guān)注.為了避免能源消耗和全球變暖的有害影響,研究人員正在尋找減少建筑物能源消耗的方法[1].據(jù)統(tǒng)計(jì),供暖、通風(fēng)和空調(diào)系統(tǒng)是主要的能源消耗大戶.建筑行業(yè)最終能耗的細(xì)分表明,供暖、通風(fēng)和空調(diào)系統(tǒng)分別占住宅和商業(yè)建筑總能耗的34%–40%[2].因此,如何在不犧牲舒適性的前提下減少供熱和制冷能耗是實(shí)現(xiàn)建筑節(jié)能必須考慮的問題.
最近10年,建筑物的舒適性和能源管理已經(jīng)成為人們關(guān)注的研究熱點(diǎn).能源優(yōu)化方法建立在建筑供熱和制冷系統(tǒng)運(yùn)行模型的基礎(chǔ)上,目前已經(jīng)提出多種方法用于建筑熱舒適控制和節(jié)能優(yōu)化.優(yōu)化方法主要分為基于模型和基于數(shù)據(jù)驅(qū)動(dòng)兩種[3,4].基于模型的方法旨在用簡(jiǎn)化的數(shù)學(xué)模型對(duì)建筑物中的能耗控制進(jìn)行建模.然而,為建筑能量流建立精確的物理模型非常困難,并且計(jì)算也十分昂貴[5].此外,不同的建筑環(huán)境可能需要不同的模型,很難建立一種適用于所有建筑環(huán)境的通用模型.因此,目前多使用數(shù)據(jù)驅(qū)動(dòng)的方法進(jìn)行能耗優(yōu)化研究.
強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)是一種用來在線求解最優(yōu)控制策略的機(jī)器學(xué)習(xí)方法[6],其可以通過與環(huán)境的交互試錯(cuò)來學(xué)習(xí)最優(yōu)控制策略.最近有很多關(guān)于智能建筑的研究,通過強(qiáng)化學(xué)習(xí)方法學(xué)習(xí)的控制策略設(shè)計(jì)智能控制器,使其感知建筑狀態(tài)和環(huán)境條件,調(diào)整模型參數(shù),優(yōu)化建筑能耗.Wei 等人基于模擬軟件EnergyPlus,利用強(qiáng)化學(xué)習(xí)算法控制建筑內(nèi)設(shè)備以達(dá)到優(yōu)化建筑能耗的目的[7].Kim 等人使用馬爾科夫決策過程對(duì)能量管理系統(tǒng)進(jìn)行建模,提出一種基于強(qiáng)化學(xué)習(xí)的能量管理算法,以降低未來未知信息下目標(biāo)能源建筑的運(yùn)行成本[8].胡齡爻等人提出一種強(qiáng)化學(xué)習(xí)自適應(yīng)控制方法——RLAC,該方法具有較快的收斂速度以及較好的收斂精度[9].
雖然能耗控制技術(shù)已經(jīng)有不少研究,但是在訓(xùn)練建筑能耗系統(tǒng)設(shè)定排放溫度時(shí),會(huì)存在獲得獎(jiǎng)賞稀疏的情況.為了解決這種問題,構(gòu)建一個(gè)建筑能耗模型來模擬某建筑的能耗,采用基于自監(jiān)督網(wǎng)絡(luò)的DDPG(deep deterministic policy gradient)算法[10]將建筑能耗優(yōu)化問題轉(zhuǎn)化為馬爾科夫決策過程進(jìn)行求解,并比較不同控制器的節(jié)省能耗和排放溫度設(shè)定點(diǎn),實(shí)驗(yàn)結(jié)果證明,采用基于自監(jiān)督網(wǎng)絡(luò)的DDPG 方法可以更好地觀測(cè)數(shù)據(jù)特性、學(xué)習(xí)最佳控制策略,降低建筑能耗,同時(shí)將建筑中的環(huán)境條件保持舒適.
馬爾科夫決策過程(Markov decision process,MDP)可以用來對(duì)強(qiáng)化學(xué)習(xí)問題進(jìn)行建模,通常用一個(gè)四元組{S,A,T,R}表示,其中S表示狀態(tài)集合,A表示可執(zhí)行動(dòng)作的集合,T:S×A×S→[0,1]表示狀態(tài)轉(zhuǎn)移函數(shù),T:(s,a,s′) 表示Agent 在狀態(tài)s∈S下采取動(dòng)作a∈A后轉(zhuǎn)移到下一個(gè)狀態(tài)s′∈S的概率,R:S×A×S→R表示的是獎(jiǎng)賞函數(shù),R:(s,a,s′)表示Agent 在狀態(tài)s∈S下采取動(dòng)作a∈A后 轉(zhuǎn)移到下一個(gè)狀態(tài)s∈S后能得到的立即獎(jiǎng)賞,一般也用r表示.
強(qiáng)化學(xué)習(xí)是一種通過Agent 與環(huán)境的交互,根據(jù)獲得的獎(jiǎng)賞或懲罰學(xué)習(xí)最優(yōu)策略,從而獲得最大期望累計(jì)獎(jiǎng)賞的學(xué)習(xí)方法.策略一般用 π (s,a)表示,指在狀態(tài)s下采取動(dòng)作a的概率.強(qiáng)化學(xué)習(xí)中引入值函數(shù)的概念,利用值函數(shù)評(píng)估策略π的優(yōu)劣,將值函數(shù)分為狀態(tài)值函數(shù)Vπ(s)和動(dòng)作值函數(shù)Qπ(s,a).Vπ(s)表示Agent在當(dāng)前狀態(tài)s下遵循策略π所能得到的期望回報(bào),Qπ(s,a)表示Agent 在當(dāng)前狀態(tài)動(dòng)作對(duì)(s,a)下遵循策略π后所能獲得的期望回報(bào).如式(1)和式(2)所示:
折扣率γ決定未來獎(jiǎng)賞的當(dāng)前價(jià)值,取值范圍為(0,1].如果當(dāng)前策略是最優(yōu)策略,則對(duì)應(yīng)的最優(yōu)值函數(shù)如式(3)、式(4)所示:
DDPG 算法基于行動(dòng)者—評(píng)論家(actor-critic,AC)框架,如圖1所示.
圖1 DDPG 算法原理框圖
和傳統(tǒng)的AC 結(jié)構(gòu)不同,其Critic 網(wǎng)絡(luò)預(yù)估的是Q值而不是V值,并通過最小化損失函數(shù)L來更新值函數(shù)的參數(shù) θQ:
其中,yi的表達(dá)式為:
Actor 部分采用確定性策略梯度(deterministic policy gradient,DPG)的方式[11],使用梯度下降方法進(jìn)行更新,繼而輸出一個(gè)確定的動(dòng)作a=μ(s|θμ),θμ為策略網(wǎng)絡(luò)參數(shù),Actor 網(wǎng)絡(luò)根據(jù)式(7)進(jìn)行參數(shù)更新:
DDPG 算法在Actor和Critic 中都有估值網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò),在訓(xùn)練過程中只需要估值網(wǎng)絡(luò)的參數(shù),而目標(biāo)網(wǎng)絡(luò)的參數(shù)由估值網(wǎng)絡(luò)每隔一段時(shí)間進(jìn)行軟更新,其參數(shù)按照式(8)進(jìn)行更新:
其中,τ的取值范圍為(0,1).
將強(qiáng)化學(xué)習(xí)用于實(shí)際應(yīng)用問題時(shí),可能會(huì)出現(xiàn)獎(jiǎng)賞稀疏的問題,即多數(shù)時(shí)候Agent 沒有辦法得到獎(jiǎng)賞.如果環(huán)境中獎(jiǎng)賞非常稀疏,會(huì)導(dǎo)致Agent 學(xué)習(xí)緩慢,不積極地探索更多未知的狀態(tài),從而很難學(xué)會(huì)選擇合適的動(dòng)作.目前,好奇心機(jī)制是解決稀疏獎(jiǎng)賞(sparse reward)問題很好的一個(gè)途徑,其通過引入內(nèi)在好奇心模塊(intrinsic curiosity module,ICM),增加一個(gè)好奇心的內(nèi)在獎(jiǎng)賞Ri,使Agent 在稀疏獎(jiǎng)賞的環(huán)境下保持一定的探索率[12].ICM的模型如圖2所示.
圖2 ICM 模型
其工作原理為:通過特征提取層 ?,當(dāng)前狀態(tài)st和下一狀態(tài)st+1被 編碼為狀態(tài)特征向量? (st)和? (st+1).然后將 ? (st)和? (st+1) 輸入到逆向模型 ψi,進(jìn)而預(yù)測(cè)動(dòng)作a?.同時(shí),at和? (st)通 過前向模型 ψf預(yù)測(cè)下一個(gè)狀態(tài)特征向量,和? (st+1)之間的預(yù)測(cè)誤差用作內(nèi)在獎(jiǎng)賞Ri.因此,在對(duì)下一步狀態(tài)進(jìn)行預(yù)測(cè)時(shí),預(yù)測(cè)的誤差越大則獎(jiǎng)賞Ri的值越大,這意味著增加了Agent 在獎(jiǎng)賞稀疏的情況下探索的能力.即Agent 根據(jù)狀態(tài)輸出一個(gè)動(dòng)作作用于環(huán)境后會(huì)得到兩個(gè)獎(jiǎng)賞:環(huán)境給出的獎(jiǎng)賞r和好奇心的獎(jiǎng)賞Ri,學(xué)習(xí)目的使兩個(gè)獎(jiǎng)賞的和達(dá)到最大.
通過at的執(zhí)行動(dòng)作,可以得到一步的交互數(shù)據(jù)(st,at,rt,st+1),將數(shù)據(jù)追加到內(nèi)存緩沖區(qū)進(jìn)行訓(xùn)練.從特征提取單元獲得狀態(tài)特征向量? (st)和? (st+1),作為輸入傳送到相應(yīng)的行動(dòng)者網(wǎng)絡(luò)并產(chǎn)生動(dòng)作at和a′t.不將狀態(tài)特征向量 ?(st)和? (st+1)與相應(yīng)的動(dòng)作直接連接作為評(píng)論家網(wǎng)絡(luò)的輸入,而是對(duì)前向模型重新設(shè)計(jì),將產(chǎn)生的執(zhí)行動(dòng)作at和a′t與作為前向模型輸入的狀態(tài)特征st和st+1連接,進(jìn)而預(yù)測(cè)下一個(gè)狀態(tài)特征向量(st+1)和(st+2).預(yù)測(cè)的狀態(tài)特征向量作為評(píng)論家網(wǎng)絡(luò)的輸入,產(chǎn)生評(píng)估動(dòng)作值Q(a)和Q(a′),具體流程如圖3所示.
圖3 基于自監(jiān)督網(wǎng)絡(luò)的DDPG 算法流程圖
該算法中行動(dòng)者和評(píng)論家網(wǎng)絡(luò)的目標(biāo)函數(shù)分別定義為式(10)和式(11):
文獻(xiàn)[10]提出一種基于自監(jiān)督網(wǎng)絡(luò)的DDPG 算法,并通過實(shí)驗(yàn)證明該算法的有效性,能夠較好地解決實(shí)際任務(wù)訓(xùn)練過程中存在的獎(jiǎng)賞稀疏問題,現(xiàn)將其應(yīng)用于建筑能耗控制問題中.
當(dāng)人們處在密閉空間時(shí),保持令人舒適的室內(nèi)空氣環(huán)境尤其重要.設(shè)計(jì)控制器調(diào)節(jié)空氣處理裝置(air handling unit,AHU)的排放溫度,將空氣釋放到建筑物之前對(duì)空氣進(jìn)行加濕或者除濕,以達(dá)到使人感到舒適的程度,然后送入房間[13].一般設(shè)定建筑中期望的空氣濕度水平為50%時(shí),人體感覺舒適.通常,空氣以18 ℃–25 ℃釋放到建筑中.AHU的子系統(tǒng)中,冷卻、預(yù)熱和再熱盤管是其主要能源消耗者.設(shè)定AHU的工作模式為:當(dāng)室外溫度低于12 ℃時(shí),預(yù)熱盤管將進(jìn)入的冷空氣加熱到預(yù)定的設(shè)定點(diǎn);當(dāng)室外溫度高于12 ℃時(shí),使用冷卻盤管對(duì)空氣進(jìn)行除濕,冷凝多余的水分.再加熱和預(yù)熱設(shè)定值都取決于運(yùn)行模式,同時(shí)排放溫度由基于強(qiáng)化學(xué)習(xí)的控制器定義.
雖然在保持建筑條件舒適以及優(yōu)化建筑能耗方面已經(jīng)有不少研究,但大都忽略了控制器設(shè)定動(dòng)作后響應(yīng)延遲帶來的問題.在大型建筑中,空氣處理裝置作用的空間區(qū)域很大,設(shè)定排放溫度后系統(tǒng)需要較長(zhǎng)時(shí)間響應(yīng)并達(dá)到效果,即行動(dòng)和反饋之間存在時(shí)差,這期間Agent 獲得的獎(jiǎng)賞存在延遲,很難進(jìn)行探索和學(xué)習(xí),從而就會(huì)導(dǎo)致稀疏獎(jiǎng)賞的問題.
因此,采用基于自監(jiān)督網(wǎng)絡(luò)的DDPG 算法[10]解決描述的建筑能耗控制問題.首先單獨(dú)訓(xùn)練自監(jiān)督網(wǎng)絡(luò)部分,結(jié)合狀態(tài)和動(dòng)作變量,ICM 模塊中的前向模型以此來預(yù)測(cè)下一個(gè)狀態(tài)特征向量,并將預(yù)測(cè)誤差作為鼓勵(lì)A(yù)gent 產(chǎn)生好奇心的內(nèi)在獎(jiǎng)賞,較好地引導(dǎo)Agent在獎(jiǎng)賞稀疏環(huán)境下的探索,從而解決獎(jiǎng)賞稀疏問題.然后,使用數(shù)據(jù)驅(qū)動(dòng)的方法模擬建筑中的供暖和制冷能耗,并且為環(huán)境的狀態(tài)空間和動(dòng)作空間設(shè)置上下界.再構(gòu)建供熱和制冷系統(tǒng)基于物理的仿真環(huán)境,研究控制動(dòng)作變化后對(duì)應(yīng)的建筑能耗.之后,將基于自監(jiān)督網(wǎng)絡(luò)的DDPG 算法與上述環(huán)境進(jìn)行交互,學(xué)習(xí)最優(yōu)策略,最優(yōu)策略充當(dāng)控制器,用于實(shí)時(shí)調(diào)節(jié)空氣處理裝置中除濕空氣的排放溫度設(shè)定點(diǎn).也就是說,將比較基于建筑控制器設(shè)定值消耗的能耗和使用這個(gè)環(huán)境的強(qiáng)化學(xué)習(xí)控制器設(shè)定值消耗的能耗.將描述的建筑能耗優(yōu)化問題作為一個(gè)MDP 來解決.
(1)狀態(tài)
設(shè)定狀態(tài)st包括室外空氣溫度(OAT)、室外空氣相對(duì)濕度(OARH)以及t時(shí)刻的太陽輻照度(SI).在執(zhí)行階段,特征提取層將時(shí)間原始狀態(tài)特征st處理成狀態(tài)特征向量 ?(st),并將其作為基于自監(jiān)督網(wǎng)絡(luò)的DDPG算法的狀態(tài)輸入.
1.3 統(tǒng)計(jì)學(xué)分析 用SPSS22.0統(tǒng)計(jì)軟件處理,計(jì)數(shù)資料用χ2檢驗(yàn),P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
(2)動(dòng)作
根據(jù)歷史數(shù)據(jù),排放溫度設(shè)置在18–25 ℃之間能夠使人體保持一定舒適度.因此,設(shè)定Agent 選擇動(dòng)作的范圍為(18 ℃,25 ℃),對(duì)該范圍的數(shù)值進(jìn)行采樣.然后將狀態(tài)特征向量 ? (st)以 參數(shù) θπ的形式傳給行動(dòng)者網(wǎng)絡(luò),產(chǎn)生控制動(dòng)作at.對(duì)動(dòng)作at進(jìn)行設(shè)定,允許其在建筑控制器建議的設(shè)定值a0附近選擇排放溫度.
(3)獎(jiǎng)賞
獎(jiǎng)賞函數(shù)包括兩部分:
t時(shí)間間隔內(nèi)建筑物消耗的歷史能耗Etold與狀態(tài)st下強(qiáng)化學(xué)習(xí)控制器采取動(dòng)作at后消耗的能量Etpre的差值,表示為式(12):
建筑物內(nèi)控制器建議的排放溫度用a0表示.獎(jiǎng)賞函數(shù)的第2 部分為:
所以,總的獎(jiǎng)賞函數(shù)為:
獎(jiǎng)賞函數(shù)第1 部分的目的是為更低的能耗提供更高的獎(jiǎng)賞.t時(shí)刻,建筑物響應(yīng)強(qiáng)化學(xué)習(xí)控制器的動(dòng)作后,消耗能量Etpre,期望其少于建筑物過去消耗的歷史能耗Etold,即能耗值越低,獎(jiǎng)賞r1的值就越大.
設(shè)置控制動(dòng)作at的取值范圍為(18 ℃,25 ℃).因此,當(dāng)at在該范圍選擇排放溫度,并且和建筑控制器建議的排放溫度a0偏差越小時(shí),既保持了建筑內(nèi)的舒適度,同時(shí)獎(jiǎng)賞函數(shù)第2 個(gè)組成部分r2的值也越大.
參數(shù)λ >0用于調(diào)整獎(jiǎng)賞函數(shù)各分量的影響.λ值越高,代理越重視溫度偏差.當(dāng)λ值設(shè)置得較低時(shí),將導(dǎo)致Agent 以更多的溫度偏差為代價(jià)來最小化能量消耗.因此,控制器就是要使獎(jiǎng)賞值盡可能的大,在不犧牲舒適性的前提下達(dá)到減少建筑能耗的目的.
將基于自監(jiān)督網(wǎng)絡(luò)的DDPG 算法[10]應(yīng)用于建筑能耗控制問題中.用基于ICM 模塊的附屬網(wǎng)絡(luò)處理輸入的狀態(tài)st和st+1,用這兩個(gè)變量預(yù)測(cè)控制動(dòng)作,和真實(shí)設(shè)定的動(dòng)作做自監(jiān)督訓(xùn)練.通過單獨(dú)訓(xùn)練自監(jiān)督網(wǎng)絡(luò),增強(qiáng)Agent的好奇心,解決獎(jiǎng)賞稀疏問題,并將各模型處理得到的結(jié)果作為基于自監(jiān)督網(wǎng)絡(luò)的DDPG 算法的輸入,在此基礎(chǔ)上進(jìn)行能耗控制的實(shí)驗(yàn).流程如算法1 所示.
算法1.基于自監(jiān)督網(wǎng)絡(luò)的DDPG 算法的建筑能耗控制θQ θμθμ′←θμ θQ′←θQ 1) 初始化估值網(wǎng)絡(luò)的參數(shù)和,并將其復(fù)制給對(duì)應(yīng)的目標(biāo)網(wǎng)絡(luò)參數(shù):和;2) 初始化Replay Buffer:R;3) for episode=1,N do 4) for t=1,Tdo πθ(a|st) (st,at,rt,st+1)5) 通過策略函數(shù) 與環(huán)境進(jìn)行交互獲得采樣數(shù)據(jù);(st,at,rt,st+1)6) 將得到的交互數(shù)據(jù) 保存到Replay Buffer:R;st,st+1 ?(st),?(st+1)7) 將狀態(tài) 通過特征提取方法提取成狀態(tài)特征向量;?(st),?(st+1) ?at 8) 將 作為輸入傳給逆向模型以產(chǎn)生預(yù)測(cè)動(dòng)作,并通過提高預(yù)測(cè)動(dòng)作的精度來更好地進(jìn)行特征提取;(st,at) (st+1,a′)??(st+1),??(st+2)9) 利用當(dāng)前以及下一步的狀態(tài)動(dòng)作對(duì),,通過前向模型預(yù)測(cè)下一個(gè)狀態(tài)特征向量;10) 從重放緩沖區(qū)R 中采樣M 個(gè)序列;θ θμ11) 根據(jù)式(10)計(jì)算策略網(wǎng)絡(luò)中關(guān)于的策略梯度并更新參數(shù);θQ 12) 根據(jù)式(11)計(jì)算價(jià)值函數(shù)并更新參數(shù);13) end forμ′ Q′14) 更新目標(biāo)網(wǎng)絡(luò)和;15) end for
為驗(yàn)證該算法在實(shí)際應(yīng)用問題中的有效性,利用基于自監(jiān)督網(wǎng)絡(luò)的DDPG 方法解決建筑能耗系統(tǒng)運(yùn)行時(shí)存在的獎(jiǎng)賞稀疏問題.
實(shí)驗(yàn)的監(jiān)測(cè)數(shù)據(jù)來源于某環(huán)境學(xué)院項(xiàng)目,其中包括環(huán)境變量:室外空氣溫度(℃)、室外空氣相對(duì)濕度(RH)、時(shí)間t時(shí)的太陽輻照度(瓦特/m2),以及從建筑物自動(dòng)化系統(tǒng)中每5 min 采樣一次的空氣處理裝置的排放溫度設(shè)定點(diǎn)(℃)和建筑物消耗的總能量(J).實(shí)驗(yàn)將數(shù)據(jù)集分為兩部分,用兩個(gè)月數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,再用一周數(shù)據(jù)測(cè)試方法的應(yīng)用性能.在訓(xùn)練期間設(shè)定不同的參數(shù)λ進(jìn)行實(shí)驗(yàn),結(jié)果顯示設(shè)置參數(shù) λ=0.01時(shí)實(shí)驗(yàn)結(jié)果的性能較好.
選取均方誤差(mean-square error,MSE)、均方根誤差(root mean square error,RMSE)、平均絕對(duì)誤差(mean absolute error,MAE)和平均絕對(duì)百分比誤差(mean absolute percentage error,MAPE)作為衡量指標(biāo):
其中,n表示相關(guān)參數(shù)樣本的數(shù)量,yi表示第i個(gè)樣本的真實(shí)值,y′i表示第i個(gè)樣本的預(yù)測(cè)值.
MSE可以評(píng)價(jià)實(shí)際數(shù)據(jù)與預(yù)測(cè)數(shù)據(jù)之間的誤差;RMSE又稱標(biāo)準(zhǔn)誤差,該指標(biāo)對(duì)一組預(yù)測(cè)數(shù)據(jù)中特大特小誤差反應(yīng)十分敏感,所以RMSE能夠很好地反映出預(yù)測(cè)的準(zhǔn)確性;MAE表示所有單個(gè)預(yù)測(cè)值與算術(shù)平均值的偏差的絕對(duì)值的平均;而相對(duì)誤差MAPE評(píng)估預(yù)測(cè)值的誤差與實(shí)際值之間的比例.這4 個(gè)評(píng)估指標(biāo)從不同的角度衡量了預(yù)測(cè)模型的效果,以上4 個(gè)評(píng)估指標(biāo)值越小,表明對(duì)應(yīng)方法的性能越好.
表1為采用不同控制器設(shè)置的排放溫度后能耗預(yù)測(cè)的評(píng)估值,分別列出MSE、RMSE、MAE、MAPE的值,充分展示各自的性能.
表1 不同控制器能耗預(yù)測(cè)的誤差對(duì)比
從各項(xiàng)衡量指標(biāo)可以看出,通過基于自監(jiān)督網(wǎng)絡(luò)的DDPG 方法學(xué)習(xí)最優(yōu)策略,該策略充當(dāng)RL 控制器設(shè)置排放溫度,預(yù)測(cè)數(shù)據(jù)集的供熱和制冷能耗,該方法的預(yù)測(cè)精度優(yōu)于建筑控制器,取得了較好的結(jié)果.
目前,建筑能源控制系統(tǒng)中的空氣排放溫度通常由建筑人員確定,建筑人員根據(jù)環(huán)境濕度在不同的時(shí)間設(shè)定不同建筑區(qū)域的排放值,并編程到系統(tǒng)中.但是,這種預(yù)先設(shè)置排放溫度的方式效率低下,當(dāng)環(huán)境變化時(shí)不能及時(shí)響應(yīng)并作出改變,且未能以節(jié)能的方式實(shí)施.例如,當(dāng)AHU 在較高的溫度下釋放除濕空氣,但建筑中的某些區(qū)域需要將它們冷卻到較低的溫度時(shí),就會(huì)導(dǎo)致不必要的能源消耗.而基于RL的控制器使用動(dòng)態(tài)能量和環(huán)境模型學(xué)習(xí)一個(gè)控制策略,該策略不斷調(diào)整排放溫度設(shè)置點(diǎn)以減少建筑能耗.
在訓(xùn)練階段,代理設(shè)置排放溫度后與環(huán)境交互,并觀察立即獎(jiǎng)賞和下一個(gè)狀態(tài).每隔一段時(shí)間,從重放緩沖區(qū)R隨機(jī)采樣一批經(jīng)驗(yàn),使用式(10)訓(xùn)練Critic 網(wǎng)絡(luò).重新評(píng)估評(píng)論家網(wǎng)絡(luò)的權(quán)重,根據(jù)式(8)更新Actor網(wǎng)絡(luò)的權(quán)重.每個(gè)訓(xùn)練情節(jié)結(jié)束時(shí),觀察當(dāng)前的Actor-Critic 網(wǎng)絡(luò)是否積累了比以前更高的回報(bào).如果是,此時(shí)目標(biāo)達(dá)到最優(yōu)值,說明基于強(qiáng)化學(xué)習(xí)的控制器比在建筑中實(shí)施的控制器學(xué)習(xí)到更好的控制策略,將網(wǎng)絡(luò)權(quán)重保存為當(dāng)前最佳值.
圖4主要展示RL 控制器和建筑控制器的訓(xùn)練效果.從圖中可以看出,RL 控制器的節(jié)省能耗始終高于建筑控制器,并且隨著訓(xùn)練時(shí)間的增加,能夠達(dá)到更好的節(jié)能效果.
圖4 RL 與建筑控制器節(jié)能效果比較
接下來,用最佳權(quán)重加載Actor-Critic 網(wǎng)絡(luò),并在測(cè)試數(shù)據(jù)上使用學(xué)習(xí)的控制策略評(píng)估各自的性能.將基于RL 控制器推薦的排放溫度設(shè)定值所產(chǎn)生的能耗,與采用建筑控制器設(shè)定排放溫度所產(chǎn)生的能耗進(jìn)行對(duì)比,如圖5所示,圖中橫坐標(biāo)的時(shí)間步長(zhǎng)以5 分鐘為間隔.
分析圖5得出,當(dāng)室外溫度低于12 ℃時(shí),控制器進(jìn)入預(yù)熱模式并產(chǎn)生能耗;反之,控制器調(diào)整再熱設(shè)定值并消耗能量.總體看來,不論是RL 控制器,還是建筑控制器,都能夠根據(jù)環(huán)境條件調(diào)整空氣處理裝置的工作模式,保證舒適性,但使用RL 控制器推薦的排放溫度盡可能地降低了峰值能耗.然而,兩種控制器設(shè)定的排放溫度相差并不大.這表明,在保證舒適性的前提下,通過對(duì)建筑控制器的固定時(shí)間表進(jìn)行少量調(diào)整,可以顯著的減少能耗,即使用RL 控制器建議的排放溫度產(chǎn)生的能耗值更低.
圖5 RL和建筑控制器推薦設(shè)定值產(chǎn)生能耗的比較
式(13)表明,RL 控制器推薦的排放溫度偏離建筑控制器推薦的設(shè)定溫度時(shí),獎(jiǎng)賞函數(shù)第二部分r2的值就會(huì)隨之減少.同時(shí)根據(jù)建筑控制器的歷史數(shù)據(jù),為了使人體保持舒適,排放溫度通常設(shè)置在18–25 ℃之間.因此,從圖6可以看出,利用RL 控制器設(shè)置的排放溫度與建筑控制器的設(shè)定值僅略有不同,確保釋放到建筑中的空氣能夠使人體感覺適宜.基于RL的方法根據(jù)環(huán)境條件調(diào)整除濕空氣的排放溫度設(shè)定點(diǎn),接下來比較兩種控制器的能量消耗.
圖6 RL和建筑控制器推薦排放溫度設(shè)定值的比較
訓(xùn)練階段,通過大量迭代逐步提升動(dòng)作—價(jià)值Q函數(shù),RL 控制器已經(jīng)學(xué)習(xí)到所能達(dá)到的最佳策略,將環(huán)境變量作為輸入數(shù)據(jù),希望最小化建筑的總能耗,對(duì)空氣處理裝置的排放溫度進(jìn)行調(diào)整,將其視為控制變量以實(shí)現(xiàn)能耗減少.測(cè)試期內(nèi),使用該策略選擇控制動(dòng)作,得到基于RL 控制器和建筑控制器設(shè)定排放溫度產(chǎn)生的供熱和制冷總能耗,結(jié)果如圖7所示,對(duì)其進(jìn)行進(jìn)一步的分析.
從圖7中可以看出,和建筑控制器產(chǎn)生的總能耗相比,基于自監(jiān)督網(wǎng)絡(luò)的DDPG 方法學(xué)習(xí)的RL 控制器產(chǎn)生的能量,始終比建筑控制器的產(chǎn)生的能耗少.再結(jié)合圖6的實(shí)驗(yàn)結(jié)果,說明確保排入建筑中的空氣滿足人體的舒適度條件時(shí),采用基于RL 方法的控制器設(shè)定排放溫度能夠達(dá)到更好的節(jié)能效果.
圖7 基于RL和建筑控制器控制的總能耗比較
表2顯示RL 控制器和控制器分別執(zhí)行5 次所對(duì)應(yīng)的節(jié)能量.在整個(gè)測(cè)試期,基于RL 方法設(shè)定排放溫度的控制器平均每周可以節(jié)省能耗為43.826 1 kJ,而建筑控制器平均每周的節(jié)能量只有21.668 7 kJ.表明采用RL 控制器建議的設(shè)定值可以獲得顯著的節(jié)能.
表2 5 次實(shí)驗(yàn)的節(jié)能能耗(kJ)
本文將基于自監(jiān)督網(wǎng)絡(luò)的DDPG 算法應(yīng)用到建筑能耗控制問題中.通過提取建筑周圍環(huán)境狀態(tài)的更多特征,使Agent 在出現(xiàn)獎(jiǎng)賞稀疏問題時(shí)能夠保持好奇心,增加探索.然后對(duì)建筑的隨機(jī)能量進(jìn)行優(yōu)化,目標(biāo)是在一段時(shí)間內(nèi)降低總能耗,同時(shí)滿足建筑內(nèi)保持舒適空氣條件的要求.通過對(duì)建筑物周圍環(huán)境進(jìn)行建模,使用基于自監(jiān)督網(wǎng)絡(luò)的DDPG 方法學(xué)習(xí)最優(yōu)策略,基于該RL 方法的控制器可以學(xué)習(xí)建筑內(nèi)空氣處理裝置的最佳可能排放溫度,結(jié)果顯示設(shè)計(jì)的控制器具有較好的性能.
本文主要研究建筑內(nèi)某一區(qū)域的能耗控制問題,從結(jié)果可以看出,將基于自監(jiān)督網(wǎng)絡(luò)的DDPG 方法運(yùn)用于建筑節(jié)能領(lǐng)域可以獲得明顯的節(jié)能效果.下一步,將考慮繼續(xù)完善能量模型,并和其他控制方法進(jìn)行比較,同時(shí),預(yù)計(jì)進(jìn)一步研究如何設(shè)置不同區(qū)域的控制參數(shù),以更好地調(diào)節(jié)建筑內(nèi)的舒適度并減少能耗.