陳長(zhǎng)成, 安晶晶, 王闖, 段曉絨
(北京建筑大學(xué)環(huán)境與能源工程學(xué)院, 北京 100044)
隨著經(jīng)濟(jì)的快速發(fā)展,人類的活動(dòng)地點(diǎn)逐漸由室外轉(zhuǎn)向室內(nèi),人類平均有80%~90%的時(shí)間在室內(nèi)度過(guò),這使得人們對(duì)室內(nèi)空氣環(huán)境有著更高的要求[1]。室內(nèi)空氣環(huán)境的營(yíng)造主要依賴于各種空氣調(diào)節(jié)設(shè)備,風(fēng)機(jī)盤管作為一種空調(diào)設(shè)備,由于其機(jī)型體積小、操作安裝方便和易于獨(dú)立控制等優(yōu)點(diǎn),已經(jīng)被廣泛應(yīng)用于辦公樓、酒店賓館和科研樓等建筑場(chǎng)所。然而,現(xiàn)有的針對(duì)風(fēng)機(jī)盤管控制的研究主要集中于降低室內(nèi)溫度的波動(dòng)和超調(diào)量來(lái)獲得更佳的室內(nèi)熱舒適性,這種僅以溫度作為單一控制對(duì)象的方式,忽略了室內(nèi)濕度對(duì)人體健康方面的影響以及不同人群出于熱舒適考慮的室內(nèi)濕度差異化需求。
室內(nèi)環(huán)境濕度主要通過(guò)影響人體的熱代謝和水鹽代謝來(lái)影響人體熱舒適性[2],不同人群對(duì)室內(nèi)濕度的敏感程度不同。對(duì)于普通人群而言,在同一室溫下,室內(nèi)濕度在一定范圍內(nèi)的波動(dòng)不會(huì)顯著地影響其對(duì)室內(nèi)環(huán)境的熱舒適性評(píng)價(jià),而對(duì)于患有呼吸道疾病的人群,室內(nèi)濕度的波動(dòng)則會(huì)顯著地增加其不適感并影響其對(duì)室內(nèi)環(huán)境熱舒適的真實(shí)評(píng)價(jià)[3-4]。因此,將室內(nèi)溫度和濕度聯(lián)合控制在合適的范圍內(nèi)對(duì)于改善室內(nèi)人員的健康狀態(tài)和提高室內(nèi)人員的熱舒適評(píng)價(jià)具有十分重要的意義。
目前,風(fēng)機(jī)盤管常用的控制方法通常僅以室內(nèi)溫度作為控制對(duì)象,如通斷控制、基于規(guī)則的控制(rule based control, RBC)和比例積分微分(proportional integral derivative,PID)控制等,這些控制方法因具有部署簡(jiǎn)單的特點(diǎn)被廣泛應(yīng)用于實(shí)際的項(xiàng)目中。然而,暖通空調(diào)系統(tǒng)作為一種高度非線性的時(shí)變系統(tǒng),傳統(tǒng)的控制方法往往難以取得理想的控制效果[5-7]。近年來(lái),模型預(yù)測(cè)控制(model predictive control, MPC)在暖通空調(diào)系統(tǒng)中的應(yīng)用受到廣泛關(guān)注。MPC作為一種監(jiān)督控制,具有穩(wěn)定性較好、多目標(biāo)滾動(dòng)優(yōu)化的特點(diǎn),但MPC的控制效果不僅依賴于精準(zhǔn)的數(shù)學(xué)模型,還需要能夠準(zhǔn)確反映建筑室內(nèi)外參數(shù)變化規(guī)律的數(shù)據(jù)信息[8]。隨著大數(shù)據(jù)技術(shù)和人工智能的發(fā)展,強(qiáng)化學(xué)習(xí)(reinforcement learning, RL)作為近幾年興起的一種機(jī)器學(xué)習(xí)方法,具有免模型、自學(xué)習(xí)的優(yōu)點(diǎn)[9-10],一些學(xué)者已經(jīng)對(duì)強(qiáng)化學(xué)習(xí)算法在暖通空調(diào)系統(tǒng)中的優(yōu)化控制展開(kāi)了研究。Fang等[11]將DQN(deep Q network)算法應(yīng)用于變風(fēng)量空調(diào)系統(tǒng),以節(jié)約系統(tǒng)總能耗和滿足室內(nèi)溫度要求為總目標(biāo),通過(guò)控制送風(fēng)溫度的設(shè)定值和冷機(jī)供水溫度的設(shè)定值,驗(yàn)證了大多數(shù)情況下DQN算法的控制效果優(yōu)于基于規(guī)則的控制。閆軍威等[12]將Double DQN算法應(yīng)用于廣州市某辦公建筑的中央空調(diào)系統(tǒng)節(jié)能優(yōu)化運(yùn)行中,在滿足室內(nèi)溫度要求的前提下,相較于PID控制,降低了5.36%的系統(tǒng)總能耗。丁瑞華等[13]提出一種基于專家知識(shí)的深度強(qiáng)化學(xué)習(xí)優(yōu)化控制方法,以某數(shù)據(jù)中心的水冷式空調(diào)系統(tǒng)為研究對(duì)象,將該方法與傳統(tǒng)的RBC和PID控制相對(duì)比,證明了該方法可以實(shí)現(xiàn)在機(jī)柜出口溫度處于安全范圍內(nèi)的前提下降低系統(tǒng)總能耗。Yuan等[14]以某辦公樓變風(fēng)量空調(diào)系統(tǒng)為例,驗(yàn)證了強(qiáng)化學(xué)習(xí)控制器在滿足室內(nèi)溫度要求方面比RBC和PID控制器更節(jié)能。Biemann等[15]在模擬的數(shù)據(jù)中心環(huán)境中對(duì)4種Actor-critic算法進(jìn)行了評(píng)估,結(jié)果表明:與基于模型的控制器相比,這4種算法都可以實(shí)現(xiàn)區(qū)域溫度保持在理想范圍內(nèi)而同時(shí)減少10%的能源消耗。目前,強(qiáng)化學(xué)習(xí)算法在暖通空調(diào)系統(tǒng)中的應(yīng)用研究主要以滿足室內(nèi)溫度要求的前提下降低系統(tǒng)總能耗為優(yōu)化目標(biāo),這忽略了室內(nèi)濕度的影響,有可能造成室內(nèi)濕度滿足率降低的情況。
綜上所述,在風(fēng)機(jī)盤管的控制研究方面,目前常用的控制方法僅以室內(nèi)溫度作為單一控制對(duì)象,忽略了濕度對(duì)不同人群舒適性的影響。由于風(fēng)機(jī)盤管采用冷凝除濕的方法,室內(nèi)溫度和濕度之間存在耦合關(guān)系,通過(guò)調(diào)控風(fēng)機(jī)盤管以實(shí)現(xiàn)室內(nèi)溫濕度均控制在合適范圍內(nèi)具有較大難度,且目前相關(guān)的研究還比較少。此外,強(qiáng)化學(xué)習(xí)算法作為近幾年興起的一種機(jī)器學(xué)習(xí)控制方法,已經(jīng)有學(xué)者對(duì)其在暖通空調(diào)系統(tǒng)中的應(yīng)用進(jìn)行了初步的研究,但大多數(shù)研究集中于滿足室內(nèi)溫度要求的前提下降低系統(tǒng)能耗,利用強(qiáng)化學(xué)習(xí)算法對(duì)使用風(fēng)機(jī)盤管的建筑進(jìn)行室內(nèi)溫濕度聯(lián)合控制的研究目前還比較少。為解決上述問(wèn)題,以采用風(fēng)機(jī)盤管加新風(fēng)系統(tǒng)的北京某辦公建筑為研究對(duì)象,搭建TRNSYS-Python聯(lián)合仿真平臺(tái),提出一種基于動(dòng)作干預(yù)的強(qiáng)化學(xué)習(xí)算法對(duì)風(fēng)機(jī)盤管的送風(fēng)量進(jìn)行調(diào)控,以實(shí)現(xiàn)室內(nèi)溫度和相對(duì)濕度聯(lián)合控制滿足率的提升。本研究可為將強(qiáng)化學(xué)習(xí)算法應(yīng)用于室內(nèi)環(huán)境控制提供新的研究思路。
面向目前中國(guó)建筑廣泛使用的風(fēng)機(jī)盤管末端設(shè)備,提出一種基于動(dòng)作干預(yù)的強(qiáng)化學(xué)習(xí)算法對(duì)風(fēng)機(jī)盤管的送風(fēng)量進(jìn)行調(diào)控,以期實(shí)現(xiàn)室內(nèi)溫度和相對(duì)濕度聯(lián)合控制滿足率的提升。技術(shù)路線如圖1所示,具體如下。
圖1 技術(shù)路線圖Fig.1 Schematic diagram of the overall technical approach
(1) 強(qiáng)化學(xué)習(xí)算法的設(shè)計(jì)與部署。設(shè)計(jì)一種適用性更好的強(qiáng)化學(xué)習(xí)算法用于風(fēng)機(jī)盤管送風(fēng)量的調(diào)控,并借助深度學(xué)習(xí)庫(kù)TensorFlow部署該算法。
(2) 建筑仿真環(huán)境的搭建。在TRNSYS軟件中對(duì)建筑及其能源系統(tǒng)進(jìn)行建模,為后續(xù)智能體的訓(xùn)練提供交互環(huán)境。
(3) TRNSYS-Python聯(lián)合仿真平臺(tái)的開(kāi)發(fā)。基于文件的數(shù)據(jù)傳遞方式實(shí)現(xiàn)TRNSYS與Python的實(shí)時(shí)交互,開(kāi)發(fā)聯(lián)合仿真平臺(tái)用于算法的測(cè)試與評(píng)價(jià)。
(4) 算法評(píng)價(jià)。將所提的強(qiáng)化學(xué)習(xí)控制算法與傳統(tǒng)控制方法進(jìn)行室內(nèi)溫度和相對(duì)濕度聯(lián)合控制效果的對(duì)比,然后探究不同輸入狀態(tài)組合下強(qiáng)化學(xué)習(xí)算法的敏感性。
強(qiáng)化學(xué)習(xí)(reinforcement learning, RL)是機(jī)器學(xué)習(xí)領(lǐng)域中除了監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)以外的第三種基本的學(xué)習(xí)方法,其靈感來(lái)源于心理學(xué)中的行為主義理論,即有機(jī)體不斷地與環(huán)境進(jìn)行交互,獲得由環(huán)境給出的獎(jiǎng)勵(lì)或者懲罰,然后逐步形成對(duì)獎(jiǎng)懲的預(yù)期,產(chǎn)生能夠獲得最大收益的動(dòng)作行為[16]。圖2為強(qiáng)化學(xué)習(xí)算法的示意圖。
圖2 強(qiáng)化學(xué)習(xí)算法原理示意圖Fig.2 Schematic diagram of reinforcement learning algorithm
圖2中,智能體可以接收來(lái)自環(huán)境的狀態(tài)和獎(jiǎng)賞信息,智能體輸出的動(dòng)作可以在環(huán)境中被執(zhí)行。t時(shí)刻的狀態(tài)用st表示,動(dòng)作用at表示,獎(jiǎng)賞用r(st,at)表示。具體的交互過(guò)程為:在每個(gè)決策時(shí)刻t,智能體執(zhí)行動(dòng)作at,經(jīng)過(guò)一個(gè)時(shí)間步長(zhǎng)Δt后,環(huán)境進(jìn)入t+1時(shí)刻,狀態(tài)由st變?yōu)閟t+1,智能體觀察到st+1并知曉由環(huán)境反饋回來(lái)的此時(shí)間步長(zhǎng)內(nèi)的獎(jiǎng)賞r(st,at)。
強(qiáng)化學(xué)習(xí)算法的迭代計(jì)算對(duì)象為狀態(tài)和動(dòng)作所對(duì)應(yīng)的最大期望獎(jiǎng)勵(lì)值函數(shù),用Q(st,at)表示,其含義為在狀態(tài)st下執(zhí)行動(dòng)作at,系統(tǒng)將獲得的累計(jì)獎(jiǎng)勵(lì)值[17]。通過(guò)智能體與環(huán)境之間的不斷交互,利用式(1)對(duì)Q(st,at)進(jìn)行更新。
Qnew(st,at)←(1-α)Qold(st,at)+α[r(st,at)+
γmaxQ(st+1,at)]
(1)
式(1)中:Qnew(st,at)為更新后的最大期望獎(jiǎng)勵(lì)值函數(shù);Qold(st,at)為更新前的最大期望獎(jiǎng)勵(lì)值函數(shù);α為學(xué)習(xí)速率,α∈(0,1],當(dāng)學(xué)習(xí)速率較大時(shí),算法的收斂速度較快,但振蕩的風(fēng)險(xiǎn)較高,當(dāng)學(xué)習(xí)速率較小時(shí),算法的收斂速度較慢,但振蕩的風(fēng)險(xiǎn)較低;γ為折扣系數(shù),γ∈[0,1],其含義為當(dāng)前動(dòng)作對(duì)未來(lái)長(zhǎng)期獎(jiǎng)勵(lì)的影響程度,γ越大,智能體便更加重視未來(lái)獲得的長(zhǎng)期獎(jiǎng)勵(lì),反之,γ越小,智能體則短視近利,更在乎即時(shí)獎(jiǎng)勵(lì)。
在實(shí)際的暖通空調(diào)系統(tǒng)中,設(shè)備和傳感器比較多,狀態(tài)的維度空間很大,且許多狀態(tài)為連續(xù)而非離散的,若計(jì)算出每一個(gè)Q(st,at),將是一項(xiàng)十分繁瑣復(fù)雜且低效的任務(wù)。為了解決這一問(wèn)題,利用人工神經(jīng)網(wǎng)絡(luò)對(duì)Q值函數(shù)進(jìn)行估計(jì)的方法被提出[18-20]。人工神經(jīng)網(wǎng)絡(luò)的輸入為狀態(tài),輸出為各個(gè)動(dòng)作的Q值。此類采用人工神經(jīng)網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)算法被稱為深度強(qiáng)化學(xué)習(xí)算法。DQN算法是一種深度強(qiáng)化學(xué)習(xí)算法,其搭載了兩個(gè)人工神經(jīng)網(wǎng)絡(luò)(Q網(wǎng)絡(luò)和目標(biāo)Q網(wǎng)絡(luò))和一個(gè)經(jīng)驗(yàn)池。Q網(wǎng)絡(luò)需要被訓(xùn)練以輸出最優(yōu)的Q值。目標(biāo)Q網(wǎng)絡(luò)無(wú)需被訓(xùn)練,僅作為Q網(wǎng)絡(luò)被訓(xùn)練時(shí)的標(biāo)簽,其參數(shù)的更新來(lái)自固定時(shí)間步長(zhǎng)內(nèi)Q網(wǎng)絡(luò)參數(shù)的復(fù)制。經(jīng)驗(yàn)池存放了智能體與環(huán)境交互產(chǎn)生的經(jīng)驗(yàn),在Q網(wǎng)絡(luò)被訓(xùn)練時(shí),這些經(jīng)驗(yàn)被抽取,送入Q網(wǎng)絡(luò)作為訓(xùn)練數(shù)據(jù)。DQN算法的具體流程如圖3所示。
圖3 DQN算法流程圖Fig.3 Flowchart of DQN algorithm
考慮到空調(diào)系統(tǒng)運(yùn)行產(chǎn)生的數(shù)據(jù)十分龐大復(fù)雜,室內(nèi)空氣狀態(tài)為連續(xù)變量而非離散的,所以本文采用了DQN算法解決風(fēng)機(jī)盤管送風(fēng)量?jī)?yōu)化控制問(wèn)題。
2.2.1 輸入狀態(tài)
在基于強(qiáng)化學(xué)習(xí)的優(yōu)化控制策略中,狀態(tài)的選取至關(guān)重要。狀態(tài)包含的影響因素越多,智能體接收到關(guān)于環(huán)境的信息就越全面,最終學(xué)習(xí)到的策略也越接近最優(yōu)控制策略。但是,狀態(tài)維度的增加會(huì)導(dǎo)致訓(xùn)練時(shí)間的加長(zhǎng)以及智能體探索空間的擴(kuò)大,存在智能體學(xué)習(xí)失敗的風(fēng)險(xiǎn)[10]。因此,在確定輸入狀態(tài)之前,需對(duì)潛在的輸入狀態(tài)及其不同的組合進(jìn)行多次的實(shí)驗(yàn)。
經(jīng)過(guò)反復(fù)實(shí)驗(yàn)之后,選取同一時(shí)刻的室內(nèi)溫度和室內(nèi)相對(duì)濕度經(jīng)過(guò)轉(zhuǎn)換后作為DQN算法的輸入狀態(tài),轉(zhuǎn)換公式為
(2)
(3)
式中:tem、RH分別為轉(zhuǎn)換前的溫度和相對(duì)濕度;t′em、R′H分別為為轉(zhuǎn)換后的溫度和相對(duì)濕度;式(2)的作用是當(dāng)室內(nèi)溫度tem處于設(shè)定上限值Tup,bo和設(shè)定下限值Tlow,bo之間時(shí),將t′em分布于-1~1;當(dāng)tem大于設(shè)定上限值Tup,bo或者小于設(shè)定下限值Tlow,bo時(shí),將t′em線性地增加或者減少;式(3)的作用是當(dāng)室內(nèi)相對(duì)濕度RH處于設(shè)定上限值RHup,bo和設(shè)定下限值RHlow,bo之間時(shí),將R′H分布于-1~1,當(dāng)RH大于設(shè)定上限值RHup,bo或者小于設(shè)定下限值RHlow,bo時(shí),RH每增加或者減少10,R′H則增加或者減少1。這樣的轉(zhuǎn)化可以使得t′em和R′H的量級(jí)相近。
2.2.2 輸出動(dòng)作
DQN算法的輸出動(dòng)作可以視為暖通空調(diào)系統(tǒng)中的可控制變量。選取風(fēng)機(jī)盤管的送風(fēng)量作為輸出動(dòng)作。采用的風(fēng)機(jī)盤管的送風(fēng)量共有4個(gè)擋位,分別是關(guān)閉、低擋位、中擋位和高擋位,分別對(duì)應(yīng)額定風(fēng)量的0、50%、75%和100%,得到動(dòng)作空間為
A=[a0,a1,a2,a3]=[0,50%,75%,100%]。
2.2.3 獎(jiǎng)勵(lì)函數(shù)
理論上,智能體總是向著累計(jì)獎(jiǎng)勵(lì)值最大化的方向訓(xùn)練,獎(jiǎng)勵(lì)函數(shù)充當(dāng)了智能體牽引者的角色。所以,獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)決定了智能體訓(xùn)練過(guò)程的長(zhǎng)短以及訓(xùn)練效果的優(yōu)劣。針對(duì)研究目的,定義獎(jiǎng)勵(lì)函數(shù)由溫度懲罰項(xiàng)和相對(duì)濕度懲罰項(xiàng)的負(fù)數(shù)形式表示,如式(4)~式(6)所示。
Reward=-k1ptem-k2pRH
(4)
(5)
(6)
式中:Reward為獎(jiǎng)勵(lì);ptem為溫度懲罰項(xiàng);pRH為相對(duì)濕度懲罰項(xiàng);k1為溫度懲罰項(xiàng)系數(shù);k2為相對(duì)濕度懲罰項(xiàng)系數(shù)。
2.2.4 探索與利用機(jī)制及超參數(shù)設(shè)置
選擇ε-貪婪探索策略對(duì)更多的狀態(tài)-動(dòng)作對(duì)進(jìn)行探索,其中ε為隨機(jī)數(shù)。具體的流程為在訓(xùn)練階段,每一個(gè)時(shí)間步產(chǎn)生一個(gè)隨機(jī)數(shù),若該隨機(jī)數(shù)小于此時(shí)的εi,則智能體隨機(jī)選擇一個(gè)動(dòng)作,否則智能體根據(jù)Q網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果選擇動(dòng)作。εi的計(jì)算公式為
εi=ε0-εdecaystepi
(7)
式(7)中:εi為第i代的隨機(jī)數(shù);εdecay為衰減系數(shù);stepi為第i個(gè)時(shí)間步;ε0為初始隨機(jī)數(shù)。
為避免無(wú)意義的探索和增強(qiáng)控制器的實(shí)用性,對(duì)智能體進(jìn)行動(dòng)作干預(yù)。在訓(xùn)練階段,當(dāng)室內(nèi)溫度超出設(shè)定上限值2 ℃時(shí),風(fēng)機(jī)盤管采取高擋位送風(fēng)量,當(dāng)室內(nèi)溫度低于設(shè)定下限值2 ℃時(shí),風(fēng)機(jī)盤管關(guān)閉。在測(cè)試階段,當(dāng)室內(nèi)溫度高于設(shè)定上限值時(shí),風(fēng)機(jī)盤管開(kāi)高擋位,當(dāng)室內(nèi)溫度低于設(shè)定下限值時(shí),風(fēng)機(jī)盤管關(guān)閉。這樣的動(dòng)作干預(yù)不僅可以避免智能體為了獲得更加合適的室內(nèi)相對(duì)濕度而忽略室內(nèi)溫度,還可以避免暖通空調(diào)設(shè)備的損壞。所用DQN算法的超參數(shù)設(shè)置如表1所示。
表1 超參數(shù)設(shè)置Table 1 Hyperparameter settings
2.3.1 訓(xùn)練收斂判據(jù)
智能體的訓(xùn)練需要在合適的時(shí)候退出。訓(xùn)練時(shí)間過(guò)短,有可能造成智能體的學(xué)習(xí)過(guò)程未完成,學(xué)習(xí)到的經(jīng)驗(yàn)可靠性不足。訓(xùn)練時(shí)間過(guò)長(zhǎng),則有可能陷入人工神經(jīng)網(wǎng)絡(luò)過(guò)擬合的困境。因此,需要設(shè)定一個(gè)合適的收斂判據(jù)用于判斷智能體的訓(xùn)練是否應(yīng)該終止。選擇逐步平均獎(jiǎng)勵(lì)值SAR作為收斂判據(jù),其計(jì)算公式為
(8)
式(8)中:ri為第i個(gè)時(shí)間步長(zhǎng)內(nèi)的獎(jiǎng)勵(lì)值;N為已經(jīng)進(jìn)行的時(shí)間步長(zhǎng)的個(gè)數(shù)。
2.3.2 控制效果評(píng)價(jià)
為了驗(yàn)證所提出的強(qiáng)化學(xué)習(xí)控制方法的室內(nèi)溫度和相對(duì)濕度聯(lián)合控制效果,選取在工程中常用的通斷控制和基于規(guī)則的控制進(jìn)行仿真對(duì)比。通斷控制的設(shè)置為當(dāng)室內(nèi)溫度高于或等于控制目標(biāo)上限(27 ℃)時(shí),開(kāi)啟風(fēng)機(jī)盤管對(duì)室內(nèi)進(jìn)行降溫,當(dāng)室內(nèi)溫度低于或等于控制目標(biāo)下限(25 ℃)時(shí),關(guān)閉風(fēng)機(jī)盤管,其余情況保持送風(fēng)量不變以減少風(fēng)機(jī)盤管的擋位變化。基于規(guī)則的控制對(duì)室內(nèi)溫度的控制預(yù)留了安全范圍[17],當(dāng)室內(nèi)溫度距離控制目標(biāo)上限0.3 ℃時(shí),風(fēng)機(jī)盤管開(kāi)啟最大風(fēng)量對(duì)室內(nèi)空氣進(jìn)行降溫,避免室溫進(jìn)一步升高,反之,當(dāng)室內(nèi)溫度距離控制目標(biāo)下限0.3 ℃時(shí),關(guān)閉風(fēng)機(jī)盤管,避免室溫進(jìn)一步降低,其余情況風(fēng)機(jī)盤管開(kāi)啟中擋位送風(fēng)量維持室內(nèi)溫度。上述控制方法的具體設(shè)置如表2所示。
表2 通斷控制和基于規(guī)則的控制的具體設(shè)置Table 2 Specific settings for on-off control and rule-based control
選取溫度滿足率φtem、相對(duì)濕度滿足率φRH、溫度和相對(duì)濕度聯(lián)合控制滿足率φtem&RH作為評(píng)價(jià)指標(biāo),其計(jì)算公式分別為
(9)
(10)
(11)
式中:ntem為室內(nèi)溫度在上下限范圍內(nèi)的工況點(diǎn)數(shù);nRH為室內(nèi)相對(duì)濕度在上下限范圍內(nèi)的工況點(diǎn)數(shù);ntem&RH為室內(nèi)溫濕度均在上下限范圍內(nèi)的工況點(diǎn)數(shù);N為總工況點(diǎn)數(shù)。
2.3.3 敏感性分析
為了分析DQN算法的敏感性,測(cè)試不同輸入狀態(tài)組合在不同的折扣系數(shù)下對(duì)控制效果的影響。各個(gè)組合的設(shè)置如表3所示。
表3 各個(gè)組合的輸入狀態(tài)選擇Table 3 Input state selection for each combination
智能體需要經(jīng)過(guò)訓(xùn)練才能學(xué)習(xí)到行之有效的控制策略,訓(xùn)練過(guò)程中智能體需要不斷地接收環(huán)境信息并給出執(zhí)行動(dòng)作。若將未訓(xùn)練完成的強(qiáng)化學(xué)習(xí)算法部署于實(shí)際的建筑暖通空調(diào)系統(tǒng),將有設(shè)備損壞、室內(nèi)空氣狀態(tài)嚴(yán)重偏離舒適區(qū)間的風(fēng)險(xiǎn)。因此,在TRNSYS軟件中搭建仿真環(huán)境,用于智能體的訓(xùn)練、算法的測(cè)試與評(píng)估。
研究對(duì)象為北京市海淀區(qū)某辦公建筑內(nèi)的工會(huì)活動(dòng)室,面積為116 m2,空調(diào)系統(tǒng)形式為風(fēng)機(jī)盤管加新風(fēng)系統(tǒng)。該辦公樓由老舊庫(kù)房改建而成,圍護(hù)結(jié)構(gòu)的傳熱系數(shù):外墻為2.266 W/(m2·K),屋頂為0.804 W/(m2·K),外窗為1.46 W/(m2·K)。內(nèi)擾設(shè)置:人體發(fā)熱量為66 W/人,人員密度為0.1 人/m2,人員產(chǎn)濕量為0.109 kg/(h·人),人員在室率08:00—20:00為1,其余時(shí)間為0??照{(diào)系統(tǒng)的設(shè)置:新風(fēng)量為系統(tǒng)總風(fēng)量的10%,采用新風(fēng)處理到室內(nèi)空氣焓,不承擔(dān)室內(nèi)負(fù)荷;室內(nèi)溫度控制目標(biāo)為25~27 ℃,室內(nèi)相對(duì)濕度控制目標(biāo)為40%~60%;空調(diào)設(shè)置在07:00—20:00開(kāi)啟,其余時(shí)間關(guān)閉,空調(diào)啟動(dòng)時(shí)間比人員進(jìn)入室內(nèi)的時(shí)間提前了1 h是為了確保當(dāng)人員進(jìn)入房間時(shí),室內(nèi)溫度處于合適的范圍內(nèi),提高人員的熱舒適性。仿真時(shí)間步長(zhǎng)設(shè)置為12 min。在SketchUp軟件中建立建筑的幾何結(jié)構(gòu),如圖4所示。
圖4 建筑的幾何結(jié)構(gòu)Fig.4 The geometry of the building
提出的DQN控制算法由Python語(yǔ)言實(shí)現(xiàn),借助免費(fèi)開(kāi)源的深度學(xué)習(xí)庫(kù)TensorFlow完成人工神經(jīng)網(wǎng)絡(luò)的搭建和訓(xùn)練。
為了實(shí)現(xiàn)TRNSYS與控制器之間的實(shí)時(shí)交互,采用基于文件的數(shù)據(jù)傳遞方式。控制器將控制動(dòng)作寫入.in文件,然后TRNSYS借助本研究自定義模塊讀取該.in文件并執(zhí)行對(duì)應(yīng)的動(dòng)作,到達(dá)下一個(gè)仿真時(shí)間步后,TRNSYS將環(huán)境的狀態(tài)寫入.out文件,由控制器讀取該文件。為保證TRNSYS軟件與基于Python的控制器這兩個(gè)進(jìn)程的時(shí)間同步問(wèn)題,本研究在Python環(huán)境中自定義文件鎖用于控制Python代碼和TRNSYS模擬計(jì)算的先后次序,實(shí)現(xiàn)跨進(jìn)程計(jì)算和數(shù)據(jù)同步。結(jié)合上述DQN算法的設(shè)計(jì)和TRNSYS軟件與強(qiáng)化學(xué)習(xí)控制器之間的實(shí)時(shí)交互,提出的TRNSYS-Python聯(lián)合仿真平臺(tái)的整體架構(gòu)如圖5所示。
s為當(dāng)前狀態(tài);a為采取的動(dòng)作;s′為下一時(shí)刻的狀態(tài);rv為獎(jiǎng)勵(lì)值
選取7月1日00:00—7月15日00:00作為訓(xùn)練時(shí)間段,訓(xùn)練過(guò)程的逐步平均獎(jiǎng)勵(lì)值曲線如圖6所示。
圖6 訓(xùn)練過(guò)程逐步平均獎(jiǎng)勵(lì)值曲線Fig.6 Stepwise average reward curve during training
由圖6可知,在約前300步內(nèi),智能體不斷與環(huán)境交互并學(xué)習(xí)產(chǎn)生的經(jīng)驗(yàn),這段時(shí)間內(nèi)逐步平均獎(jiǎng)勵(lì)值迅速爬升。300步之后,智能體已經(jīng)初步完成學(xué)習(xí),繼續(xù)與環(huán)境交互,學(xué)習(xí)更多的經(jīng)驗(yàn),逐步平均獎(jiǎng)勵(lì)曲線在小范圍內(nèi)上下波動(dòng)。
將訓(xùn)練好的模型在8月1日00:00—8月31日00:00進(jìn)行測(cè)試,對(duì)測(cè)試時(shí)間段內(nèi)的仿真結(jié)果進(jìn)行統(tǒng)計(jì),結(jié)果如表4所示。
表4 強(qiáng)化學(xué)習(xí)控制器控制效果Table 4 The control effect of reinforcement learning controller
選取典型日(8月2—5日)的室內(nèi)空氣狀態(tài)進(jìn)行繪制,結(jié)果如圖7所示。
圖7 室內(nèi)空氣狀態(tài)Fig.7 Indoor air status
由圖7可知,強(qiáng)化學(xué)習(xí)控制器對(duì)室內(nèi)溫度進(jìn)行動(dòng)作干預(yù),使得室內(nèi)溫度處于舒適范圍附近,保證了空調(diào)設(shè)備的正常運(yùn)行,避免了設(shè)備的損壞。當(dāng)室內(nèi)溫度處于舒適范圍內(nèi)時(shí),智能體可以自行選擇風(fēng)機(jī)盤管的擋位進(jìn)行送風(fēng),以達(dá)到更佳的溫度和相對(duì)濕度聯(lián)合控制滿足率。
為了進(jìn)一步驗(yàn)證強(qiáng)化學(xué)習(xí)控制器的溫度和相對(duì)濕度聯(lián)合控制效果,選取通斷控制和基于規(guī)則控制進(jìn)行仿真對(duì)比。不同控制方法下,室內(nèi)溫度和相對(duì)濕度的仿真結(jié)果如圖8~圖10所示。
圖8 不同控制方法下室內(nèi)溫度分布的平均值和方差Fig.8 Mean and variance of indoor temperature distribution under different control methods
圖9 不同控制方法下室內(nèi)相對(duì)濕度分布的平均值和方差Fig.9 Mean and variance of indoor relative humidity distribution under different control methods
圖10 不同控制方法效果對(duì)比Fig.10 Effect comparison of different control methods
由圖8~圖10可知,在室內(nèi)溫度控制方面,3種通斷控制方法下,室內(nèi)溫度分布的平均值更偏向于控制目標(biāo)的平均值,為26 ℃,而基于規(guī)則的控制和強(qiáng)化學(xué)習(xí)算法控制這兩種方法下,室內(nèi)溫度分布的平均值更偏向于2 5 ℃,低于控制目標(biāo)的平均值,但仍在控制目標(biāo)范圍之內(nèi)。在室內(nèi)相對(duì)濕度控制方面,五種控制方法下,室內(nèi)相對(duì)濕度分布的平均值均大于控制目標(biāo)的平均值,即50%,強(qiáng)化學(xué)習(xí)算法控制的偏高程度最小,其室內(nèi)相對(duì)濕度分布的平均值為59.6%。對(duì)測(cè)試時(shí)間段內(nèi)的典型年氣象文件進(jìn)行數(shù)據(jù)分析,可以發(fā)現(xiàn)在該時(shí)段內(nèi)出現(xiàn)了較多陰雨天,陰雨天的室外大氣相對(duì)濕度較高,從而使得室內(nèi)相對(duì)濕度也隨之升高。由方差統(tǒng)計(jì)結(jié)果可知,在強(qiáng)化學(xué)習(xí)算法控制方法下,室內(nèi)溫度和相對(duì)濕度分布的方差最小,即該控制方法下的室內(nèi)溫度和相對(duì)濕度分布相較于其他控制方法更加集中。綜合來(lái)看,提出的強(qiáng)化學(xué)習(xí)算法可以實(shí)現(xiàn)在略微損失室內(nèi)溫度舒適性的情況下,較大幅度地提高室內(nèi)相對(duì)濕度舒適性,從而使得總的室內(nèi)溫度和相對(duì)濕度聯(lián)合控制效果提升。
由圖10可知,對(duì)于室內(nèi)溫度滿足率,通斷低擋方法的控制效果最佳,為85.8%,基于規(guī)則的控制方法的效果最差,為70.2%。對(duì)于室內(nèi)相對(duì)濕度滿足率,強(qiáng)化學(xué)習(xí)方法的控制效果最佳,為54.8%,通斷高擋控制方法的效果最差,為34.5%。而對(duì)于室內(nèi)溫度和相對(duì)濕度聯(lián)合控制滿足率,強(qiáng)化學(xué)習(xí)方法的控制效果最佳,為48.9%,比基于規(guī)則的方法的控制效果提升了9.5%,比通斷低擋方法的控制效果提升了12.6%,比通斷中擋方法的控制效果提升了19.7%,比通斷高擋方法的控制效果提升了23.0%。
為了探究所提控制算法的敏感性,對(duì)表3中的輸入狀態(tài)組合進(jìn)行仿真測(cè)試。測(cè)試結(jié)果如圖11所示。
圖11 各組合測(cè)試結(jié)果Fig.11 Test results of each combination
由圖11可知,對(duì)于組合1和組合2,γ=0.1時(shí)聯(lián)合控制效果最佳,對(duì)于組合3,γ=0.5時(shí)聯(lián)合控制效果最佳,對(duì)于組合4,γ=0.7時(shí)聯(lián)合控制效果最佳。隨著輸入狀態(tài)數(shù)的增加,最佳聯(lián)合控制效果對(duì)應(yīng)的折扣系數(shù)γ也隨之增大。這與折扣系數(shù)γ的含義相符,即當(dāng)輸入狀態(tài)越多,則需要智能體越重視長(zhǎng)期獎(jiǎng)勵(lì),當(dāng)輸入狀態(tài)越少,則需要智能體更加短視。組合1、組合2和組合3在不同折扣系數(shù)γ下的聯(lián)合控制效果比較穩(wěn)定,波動(dòng)較小,而組合4在不同折扣系數(shù)γ下的聯(lián)合控制效果穩(wěn)定性較差,控制效果出現(xiàn)了振蕩。由此可見(jiàn),雖然輸入狀態(tài)的增加可以使智能體更全面地接收到系統(tǒng)的信息,但這也增加了智能體的學(xué)習(xí)成本以及學(xué)習(xí)效果不收斂的風(fēng)險(xiǎn)。因此,輸入狀態(tài)的選擇對(duì)于智能體的學(xué)習(xí)至關(guān)重要,這也決定了最終的控制策略是否有效。
提出一種基于動(dòng)作干預(yù)的強(qiáng)化學(xué)習(xí)控制方法,并設(shè)計(jì)了其輸入狀態(tài)、獎(jiǎng)勵(lì)函數(shù)、智能體探索與利用機(jī)制。然后,以采用風(fēng)機(jī)盤管加新風(fēng)系統(tǒng)的北京某辦公建筑為研究對(duì)象,開(kāi)發(fā)TRNSYS-Python聯(lián)合仿真平臺(tái),對(duì)所提方法的控制效果進(jìn)行了驗(yàn)證,得到以下結(jié)論。
(1)利用基于文件的數(shù)據(jù)傳遞方式,開(kāi)發(fā)TRNSYS-Python聯(lián)合仿真平臺(tái),其可以在仿真環(huán)境中更加方便地訓(xùn)練智能體、測(cè)試和評(píng)估復(fù)雜的強(qiáng)化學(xué)習(xí)算法的性能。
(2)基于動(dòng)作干預(yù)的DQN算法不僅在訓(xùn)練階段可以減少訓(xùn)練時(shí)間、節(jié)約計(jì)算成本,還能夠在測(cè)試階段增加算法部署的安全性。從本文仿真結(jié)果來(lái)看,該算法可以實(shí)現(xiàn)更佳的建筑室內(nèi)溫度和相對(duì)濕度聯(lián)合控制效果,與傳統(tǒng)的基于規(guī)則的控制、通斷低擋控制、通斷中擋控制和通斷高擋控制相比,可以將溫度和相對(duì)濕度聯(lián)合控制滿足率分別提升9.5%、12.6%、19.7%和23.0%。
(3)輸入狀態(tài)的選擇和超參數(shù)的設(shè)置至關(guān)重要。輸入狀態(tài)數(shù)越多,智能體接收到關(guān)于環(huán)境的信息就越全面,最終學(xué)習(xí)到的策略也越接近最優(yōu)控制策略。但是,輸入狀態(tài)數(shù)的增加有可能導(dǎo)致智能體學(xué)習(xí)失敗、學(xué)習(xí)效果不收斂。在同一輸入狀態(tài)下,不同的超參數(shù)設(shè)置也影響著智能體的學(xué)習(xí)效果。當(dāng)超參數(shù)處于合適的范圍時(shí),算法的魯棒性較好,當(dāng)超參數(shù)超出合適的范圍時(shí),算法的性能將受到影響。
因此,所提的控制方法可以在損失較少室內(nèi)溫度舒適性的情況下,較大幅度地提高室內(nèi)相對(duì)濕度舒適性,能夠較好地實(shí)現(xiàn)室內(nèi)溫度和相對(duì)濕度的聯(lián)合控制,可以為建筑熱舒適研究提供新方法。對(duì)于室內(nèi)溫度和相對(duì)濕度均有特定要求的建筑類型和場(chǎng)景,本文方法具有工程應(yīng)用價(jià)值。
利用強(qiáng)化學(xué)習(xí)算法對(duì)暖通空調(diào)系統(tǒng)進(jìn)行優(yōu)化控制是十分復(fù)雜的問(wèn)題,因此本次研究存在一定的局限性,未來(lái)的研究可以以此開(kāi)展。所涉及的建筑和暖通空調(diào)系統(tǒng)相對(duì)簡(jiǎn)單,沒(méi)有涉及多區(qū)域之間的熱濕傳遞,強(qiáng)化學(xué)習(xí)算法在高度耦合、非線性的系統(tǒng)中將展現(xiàn)更佳的算法性能,因此,未來(lái)將強(qiáng)化學(xué)習(xí)算法應(yīng)用于復(fù)雜的暖通空調(diào)系統(tǒng)是一項(xiàng)具有挑戰(zhàn)性的工作。出于設(shè)備安全的考慮,所提的控制算法暫未部署于實(shí)際的暖通空調(diào)系統(tǒng),未來(lái)將強(qiáng)化學(xué)習(xí)算法部署于真實(shí)的系統(tǒng)中并對(duì)其進(jìn)行評(píng)估是一項(xiàng)意義重大的工作。