(西安建筑科技大學(xué) 信息與控制工程學(xué)院,西安 710055)
近年來,隨著我國(guó)城市規(guī)模的快速發(fā)展和城鎮(zhèn)化率的提高,北方城市市政集中供暖建筑面積不斷增加,隨之而來的是建筑供暖能耗的快速增長(zhǎng)。當(dāng)前,建筑供暖末端的調(diào)節(jié)閥多為手動(dòng)調(diào)節(jié)閥,且大多處于“全開”和“全關(guān)”的運(yùn)行狀態(tài),這種“全開”和“全關(guān)”的控制方式一方面給用戶帶來不良的熱舒適體驗(yàn),另一方面也造成建筑供暖能量的大量浪費(fèi)。因此,建筑供暖節(jié)能存在巨大潛力,而如何實(shí)現(xiàn)供暖末端的高效調(diào)控,既是改善供暖室內(nèi)環(huán)境熱舒適性、降低建筑能耗的關(guān)鍵,也是集中供暖系統(tǒng)節(jié)能亟待解決的問題。
針對(duì)集中供暖系統(tǒng)與供暖末端的調(diào)控問題,國(guó)內(nèi)外學(xué)者開展了大量研究,如I.H.Yang[1]等人研究了人工神經(jīng)網(wǎng)絡(luò)(ANN)在供暖系統(tǒng)中的應(yīng)用,針對(duì)溫控系統(tǒng)的時(shí)間滯后問題,采用ANN來估算供暖系統(tǒng)的啟動(dòng)時(shí)間以加快系統(tǒng)響應(yīng),提高用戶的熱舒適性;L.Z.Li[2]等人采用6種不同的混合控制策略對(duì)鍋爐系統(tǒng)的燃油燃燒速率、熱水流量和熱水溫度進(jìn)行控制,取得了近17%的節(jié)能效果;徐寶萍[3]等綜述及評(píng)價(jià)了國(guó)內(nèi)外末端控制相關(guān)研究情況,提出了突破單一用戶室溫控制、兼顧供暖系統(tǒng)水力工況及回水溫度變化的系統(tǒng)優(yōu)化控制思路;王嬌[4]等采用模糊控制理論,設(shè)計(jì)了根據(jù)各參數(shù)隸屬度函數(shù)及參數(shù)調(diào)節(jié)規(guī)則的自校正模糊控制器;李琦[5]等在分析集中供熱系統(tǒng)運(yùn)行機(jī)理的基礎(chǔ)上,建立熱源總熱量生產(chǎn)優(yōu)化問題的數(shù)學(xué)描述,利用雙啟發(fā)式動(dòng)態(tài)規(guī)劃(DHP)算法和質(zhì)量并調(diào)的控制策略求解,獲得熱源供水流量和供水溫度的優(yōu)化設(shè)定值;刁成玉琢[6]等采用實(shí)驗(yàn)研究方法對(duì)比分析了風(fēng)機(jī)盤管、頂板輻射、側(cè)墻輻射、地板輻射4種不同供暖末端時(shí)的室內(nèi)溫濕度、空氣流速和壁面溫度等數(shù)據(jù),獲得了4種供暖末端的熱舒適性結(jié)論。上述研究取得了許多積極成果,對(duì)本文研究的開展具有較好的借鑒意義。
比例-積分-微分(PID)控制以其結(jié)構(gòu)簡(jiǎn)單,魯棒性好和工作可靠性高的特點(diǎn)而在控制領(lǐng)域得到了廣泛應(yīng)用,但傳統(tǒng)PID 的參數(shù)一旦確定就無法在線調(diào)整,難以滿足時(shí)變系統(tǒng)的控制要求,如何高效地調(diào)整和優(yōu)化PID的控制參數(shù)成了人們競(jìng)相研究的問題。近年來興起的強(qiáng)化學(xué)習(xí)為PID參數(shù)自適應(yīng)調(diào)整提供了新的思路和方法,并取得了較好的應(yīng)用效果[7-10]。本文在分析現(xiàn)有研究成果的基礎(chǔ)上,以PID控制算法為基礎(chǔ),針對(duì)集中供暖末端控制系統(tǒng)存在大滯后、強(qiáng)耦合的特點(diǎn),引入強(qiáng)化學(xué)習(xí)算法,提出一種基于Q學(xué)習(xí)的PID參數(shù)在線優(yōu)化的供暖末端流量控制算法,旨在利用Q學(xué)習(xí)算法對(duì)PID 參數(shù)進(jìn)行整定與尋優(yōu),從而獲得更優(yōu)的控制參數(shù),并在仿真實(shí)驗(yàn)中驗(yàn)證該方法的有效性和節(jié)能效果。
典型的PID控制器原理如圖1所示。
圖1 PID控制系統(tǒng)原理圖
典型的PID控制系統(tǒng)由控制器、被控對(duì)象和反饋回路組成。PID控制器根據(jù)設(shè)定值和實(shí)際輸出值之間的偏差,對(duì)偏差進(jìn)行同比例放大(或縮小)、積分以及微分后,通過線性組合構(gòu)成控制量,進(jìn)而對(duì)被控對(duì)象進(jìn)行控制,其控制規(guī)律如下:
(1)
式中,e(t)=r(t)-y(t)為控制量;Kp為比例系數(shù);KI為積分時(shí)間常數(shù);KD為微分時(shí)間常數(shù)[11]。
由傳熱學(xué)理論可知,供熱末端—采暖房間的熱平衡方程可表示為:
Q=Q得-Q失
(2)
式中,Q得為采暖房間總得熱量,即散熱器散熱量;Q失為采暖房間總失熱量,主要包括房間維護(hù)結(jié)構(gòu)傳熱耗熱量Q1和門窗縫隙滲入的室外空氣吸熱量Q2;Q為采暖房間的最終熱量,且有:
(3)
式中,Ck為采暖房間空氣的熱容,Ck=c1·ρ1·V,ρ1為室內(nèi)溫度下的空氣密度,其取值一般通過查詢《傳熱學(xué)附表》可得。
散熱器釋放熱量為:
Q得=Gcp(tg-th)
(4)
式中,tg為散熱器進(jìn)口熱水溫度(℃);th為散熱器出水口熱水溫度(℃);G為散熱器進(jìn)水流量(m3/s);cp為熱水比熱。
室內(nèi)外通過圍護(hù)結(jié)構(gòu)傳遞的熱量為:
(5)
式中,tn為用戶室內(nèi)當(dāng)前溫度(℃);tw為戶外溫度,S為圍護(hù)結(jié)構(gòu)的傳熱面積(m2),k1為圍護(hù)結(jié)構(gòu)(外墻)的平均傳熱系數(shù)(W/m2·℃),L為墻體厚度m。
室內(nèi)外空氣對(duì)流換熱量為:
Q2=λ·ν·ρ2·c2(tn-tw)
(6)
式中,λ為單位換算系數(shù),1 KJ/h=0.278 W;v為門、窗縫隙滲入室內(nèi)的總空氣量(m3/h),v=M×H×β;其中:M為每米門、窗縫隙滲入室內(nèi)的總空氣量(m3/h·m),H為門、窗縫隙的計(jì)算長(zhǎng)度(m),β為修正系數(shù),根據(jù)《供熱工程》附錄查閱可知西安地區(qū)滲透量的修正系數(shù)為0.7。ρ2為冷空氣的定壓密度,c2為冷空氣的定壓比熱。將式(3)~(6)代入式(2)可得:
ρ2·c2(tn-tw)
(7)
式(7)即為供暖房間的熱平衡數(shù)學(xué)模型。由式(7)可知,當(dāng)供暖房間面積、圍護(hù)結(jié)構(gòu)參數(shù)等確定后,散熱器入口流量決定室溫變化率,由于室溫設(shè)定值為人為設(shè)置,則通過控制流量大小控制房間溫度變化。
強(qiáng)化學(xué)習(xí)算法(RL算法)是機(jī)器學(xué)習(xí)的一個(gè)重要分支,其區(qū)別于深度學(xué)習(xí)中的有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),通過試錯(cuò)與環(huán)境交互獲得策略的改進(jìn),進(jìn)行自學(xué)習(xí)和在線學(xué)習(xí)[12]。其受到大腦學(xué)習(xí)本質(zhì)的啟發(fā),只通過智能體與環(huán)境交互而不知道系統(tǒng)模型的基礎(chǔ),模擬動(dòng)物學(xué)習(xí)行為過程中大腦的學(xué)習(xí)過程,通過智能體(即實(shí)際運(yùn)用中的傳感器)與環(huán)境條件相互作用獲得先前數(shù)據(jù),獨(dú)立自主進(jìn)行動(dòng)作選擇,生成控制策略,不斷循環(huán),使智能體具有自主學(xué)習(xí)能力。強(qiáng)化學(xué)習(xí)過程如圖2所示,智能體(Agent)不斷與環(huán)境(environment)進(jìn)行信息交互。智能體Agent感知環(huán)境當(dāng)前狀態(tài)St∈S,根據(jù)初始策略施加一個(gè)動(dòng)作at∈a給環(huán)境Environment,環(huán)境在該動(dòng)作的作用后,更新狀態(tài)為St+1∈S,同時(shí)根據(jù)獎(jiǎng)懲計(jì)劃提供一個(gè)獎(jiǎng)勵(lì)或懲罰以更新策略,然后智能體Agent再次感知環(huán)境新狀態(tài)St+1∈S選擇新的動(dòng)作at+1∈a,直到到達(dá)終端狀態(tài)ST∈S。智能體Agent的目標(biāo)就是獲得最大化獎(jiǎng)勵(lì)的概率下得到一個(gè)最優(yōu)控制策略。
圖2 RL中智能體-環(huán)境交互的圖示
強(qiáng)化學(xué)習(xí)是一種基于馬爾可夫決策過程的無模型增量式動(dòng)態(tài)規(guī)劃,其屬性為:t時(shí)刻狀態(tài)信息足夠以供智能體Agent進(jìn)行決策生成t+1時(shí)刻動(dòng)作,從而決定進(jìn)行決策t+1時(shí)刻狀態(tài)[13]。假定環(huán)境的所有可能狀態(tài)是一個(gè)有限狀態(tài)的離散馬爾可夫過程,強(qiáng)化學(xué)習(xí)系統(tǒng)對(duì)每一步動(dòng)作的選取為單步進(jìn)行,環(huán)境在接受動(dòng)作后便發(fā)生狀態(tài)轉(zhuǎn)移,并得到評(píng)價(jià)函數(shù),其中狀態(tài)轉(zhuǎn)移的概率為:
(8)
策略π下給定狀態(tài)下的狀態(tài)值函數(shù)定義為:
(9)
其中:γ∈(0,1]是權(quán)衡下一步回報(bào)率的折扣因子,Eπ表示策略π下的期望值。因?yàn)樵趧?dòng)態(tài)規(guī)劃中至少得保證有一個(gè)策略π*,并有:
Vπ*(st)=max{r(π(st))+γ∑P[st,at,st+1]Vπ*(st)
(10)
類似的,在策略p下的狀態(tài)s中采取動(dòng)作a的動(dòng)作值函數(shù)Qπ可以定義為:
Qπ(s,a)?Eπ[Gt│St=s,At=a]=
(11)
在所有動(dòng)作值函數(shù)中,最佳動(dòng)作值函數(shù)定義為:
Qπ*(s,a)?maxπQπ(s,a)
(12)
式中,π*為最優(yōu)策略,當(dāng)策略為π*時(shí),動(dòng)作函數(shù)值Qπ(s,a)最大。在最佳動(dòng)作值函數(shù)最大時(shí)的π*為最優(yōu)策略,根據(jù)生成的最優(yōu)策略π*,確定最優(yōu)PID增益(Kp(t),Ki(t),Kd(t))進(jìn)行室溫控制。
Q學(xué)習(xí)算法是一種基于時(shí)間差分方法的無模型控制算法,是RL領(lǐng)域最重要的進(jìn)步之一[14]。Q學(xué)習(xí)使用狀態(tài)-動(dòng)作值函數(shù)Q(St,At)來查找最優(yōu)策略π*,動(dòng)作值函數(shù)Q(St,At)的定義如下:
Q(St,At)=Q(St,At)+α[Rt+1+
γmaxaQ(St+1,a)-Q(St,At)
(13)
式中,α∈(0,1]是學(xué)習(xí)率。Q學(xué)習(xí)算法的偽代碼如算法1所示。
算法1:Q學(xué)習(xí)算法
Step1:初始化任意Q(s,a),?a∈A,?s∈S;
Step2:循環(huán)所有epsode;
重復(fù)
Step3: 更新狀態(tài)St;
重復(fù)
Step4: 執(zhí)行動(dòng)作At,觀察St+1和Rt+1;
Step5: 根據(jù)式(13)更新Q值;
Step6:St←St+1;
Step7: 直到St達(dá)到最終狀態(tài)ST;
Step8: 直到episode 結(jié)束。
基于Q學(xué)習(xí)的供熱末端自適應(yīng)PID控制系統(tǒng)結(jié)構(gòu)如圖3所示,包含PID控制器和學(xué)習(xí)Q表兩個(gè)部分。PID 控制器實(shí)現(xiàn)供熱流量的調(diào)節(jié),控制器參數(shù)Kp,Ki,Kd通過在線學(xué)習(xí)的Q表進(jìn)行自適應(yīng)調(diào)整。
圖3 基于Q學(xué)習(xí)PID的供熱末端系統(tǒng)控制器結(jié)構(gòu)
室溫設(shè)定值tnref作為輸入,將室溫tn(t)與設(shè)定值的偏差作為控制量,進(jìn)行PID控制。便于數(shù)據(jù)采樣,將室溫tn(t)和進(jìn)水口流量G(t)離散化得到n1(t)和n2(t)作為狀態(tài),進(jìn)行Q學(xué)習(xí),生成3個(gè)Q表,每個(gè)Q表分別與PID控制器的比例增益Kp、微分增益Ki和積分增益Kd相對(duì)應(yīng),當(dāng)給定當(dāng)前狀態(tài)時(shí),每個(gè)學(xué)習(xí)的Q表生成PID控制器增益的最佳值。
本文中基于Q學(xué)習(xí)PID的關(guān)健是對(duì)PID增益參數(shù)Q表的訓(xùn)練,通過Q表將不同環(huán)境狀態(tài)映射到不同的PID的增益上。為加快Q表學(xué)習(xí)過程,采用了適應(yīng)模型參數(shù)的啟發(fā)方式——Delta-Bar-Delta[15]自適應(yīng)學(xué)習(xí)率方法。訓(xùn)練出當(dāng)前狀態(tài)下最優(yōu)的PID增益后,根據(jù)式(2)~(7)計(jì)算出控制量u(t),在控制量作用后再觀察新狀態(tài)下的流量和室溫,比較前后時(shí)刻狀態(tài)獲得獎(jiǎng)勵(lì)Rp,并繼續(xù)進(jìn)行訓(xùn)練學(xué)習(xí),不斷通過觀察狀態(tài)訓(xùn)練Q表,得出每個(gè)狀態(tài)下的PID增益以控制閥門開度改變環(huán)境狀態(tài)。故結(jié)合Q學(xué)習(xí)PID控制算法的偽代碼如算法2所示。
算法2:結(jié)合Q學(xué)習(xí)的PID控制算法
Step1:初始化任意Qi(s,a)=0,?a∈A,?s∈S,i=1,2,3…6;
Step2: 更新學(xué)習(xí)率a1和a2;
Step3: 更新ε-greedy策略的ε;
Step4: 當(dāng)episode Step5:t=0; Step7: ε衰變,(當(dāng)episode>0.6×maxepisode,ε=0); Step8: fort=1;t≤maxtime,t++; Step9: 將St離散化,獲得:n1(t),n2(t); Step10: fori=1;i≤3,i++ Step11: 根據(jù)n1(t),n2(t)選擇動(dòng)作Ai,遵循ε-greedy政策; end Step12: 根據(jù)式(2)~式(7),獲得完整的輸出u(t); Step13: 觀察新狀態(tài)St+1(tn(t+1),G(t+1)); Step14: 獲得Q1(s,a),Q2(s,a)和Q3(s,a)的獎(jiǎng)勵(lì)Rp; Step15: 將St+1離散化, 獲得:n1(t+1),n2(t+1); Step16: 更新Q1(s,a),Q2(s,a)和Q3(s,a)的學(xué)習(xí)率α1; Step17: 用Rp和α1更新Q1(s,a),Q2(s,a)和Q3(s,a); Step18:St←St+1; End End 3.4.1 離散化 為加快訓(xùn)練速度,對(duì)于效果相同的情況可為同一控制參數(shù)進(jìn)行調(diào)節(jié),故將每個(gè)連續(xù)變量被分成幾個(gè)區(qū)間,同一區(qū)間內(nèi)的值被視為一個(gè)相同的狀態(tài)。使用相同的規(guī)則設(shè)置存儲(chǔ)區(qū)間定義為: (14) 其中:[x]=max{n∈Z|n≤x};n表示離散變量;xcon表示連續(xù)變量;Xmin和Xmax分別是xcon的下限和上限;N表示每個(gè)變量被分成的區(qū)間數(shù),在這種情況下N=10。區(qū)間的數(shù)量取決于模擬性能。 本文需將室內(nèi)溫度tn和閥門開度K通過式(14)區(qū)間劃分進(jìn)行離散化處理,離散化設(shè)定的值如表1所示。 表1 系統(tǒng)離散化約束 3.4.2 ε-greedy方法 為保證獎(jiǎng)勵(lì)最大化,采用當(dāng)前Q值最大的動(dòng)作,因?yàn)樵讦?greedy策略中,ε的值越大,表示采用隨機(jī)的一個(gè)動(dòng)作的概率越大。故當(dāng)給定當(dāng)前狀態(tài)時(shí),三個(gè)Q表都根據(jù)ε-greedy方法生成動(dòng)作,此方法被定義為: (15) 式中,ξ∈[0,1]是一個(gè)正態(tài)分布的隨機(jī)數(shù)。 (16) 其中:eps是當(dāng)前episode,而maxepisode是episode的最大值。 3.4.3 獎(jiǎng)勵(lì)策略 獎(jiǎng)勵(lì)策略根據(jù)應(yīng)用實(shí)際情況而定。本文根據(jù)室內(nèi)供熱末端系統(tǒng)將獎(jiǎng)勵(lì)函數(shù)分為3種情況:調(diào)控后室溫趨于設(shè)定溫度,室溫遠(yuǎn)離設(shè)定溫度,室溫?zé)o變化。 1)調(diào)控后室溫趨于設(shè)定溫度。根據(jù)at得到的增益調(diào)控所得室溫tn(t)與設(shè)定值T設(shè)的差值小于t-1時(shí)刻室溫tn(t-1)與T設(shè)的差值,即說明此次調(diào)控有效,給予其調(diào)控所達(dá)效果的獎(jiǎng)勵(lì)值,即為前后時(shí)刻室溫變化值。 2)調(diào)控后室溫遠(yuǎn)離設(shè)定溫度。根據(jù)at得到的增益調(diào)控所得室溫tn(t)與設(shè)定值T設(shè)的差值大于t-1時(shí)刻室溫tn(t-1)與T設(shè)的差值,即說明此次調(diào)控為干擾調(diào)控,獎(jiǎng)勵(lì)負(fù)值。 3)調(diào)控后室溫?zé)o變化。根據(jù)at得到的增益調(diào)控所得室溫tn(t)與設(shè)定值T設(shè)的差值等于t-1時(shí)刻室溫tn(t-1)與T設(shè)的差值,即說明此次調(diào)控?zé)o效,即不獎(jiǎng)勵(lì)不懲罰。 所以獎(jiǎng)勵(lì)計(jì)劃如下: r(t)= (17) 3.4.4 自適應(yīng)學(xué)習(xí)率 為了提高收斂效率,采用Delta-Bar-Delta[15]自適應(yīng)學(xué)習(xí)率算法。算法定義為: (18) 當(dāng)學(xué)習(xí)速率變得太大時(shí),學(xué)習(xí)速率的增加改變符號(hào)并降低學(xué)習(xí)速率。另一方面,如果學(xué)習(xí)速率太小,則學(xué)習(xí)速率在先前趨勢(shì)中保持變化并加速收斂。所以本文通過將當(dāng)前TD誤差與先前步驟中的累積TD誤差進(jìn)行比較來更新學(xué)習(xí)速率,即時(shí)間步驟t+1中的學(xué)習(xí)速率為: αt+1=αt+Δαt (19) 實(shí)驗(yàn)環(huán)境為西安地區(qū)高3 m,寬7 m,長(zhǎng)10 m的供暖房間,故采暖房間體積為V=210 m3,窗戶為1 800 mm×1 500 mm單層金屬窗,其墻體主要為鋼筋混凝土制造,墻體厚度為L(zhǎng)=0.2 m,查閱《供熱工程》附錄可知,鋼筋混凝土圍護(hù)結(jié)構(gòu)(外墻)的平均傳熱系數(shù)為k1=1.74 W/m2,西安地區(qū)空氣滲透量修正系數(shù)β=0.7。根據(jù)我國(guó)《采暖通風(fēng)與空氣調(diào)節(jié)設(shè)計(jì)規(guī)范》查閱,設(shè)定溫度設(shè)置為18℃,西安城區(qū)冬季未供暖下平均室溫為5℃,即實(shí)驗(yàn)中初始室溫為5℃。仿真實(shí)驗(yàn)中各參數(shù)變量的取值如表2所示。 將表2實(shí)驗(yàn)環(huán)境數(shù)據(jù)代入式(7),可得到: (20) 整理得到: (21) 將式(21)拉氏變化可得: (253.4112s+889.0607)Tn(s)=125.478G(s)+1778.1214 (22) 表2 實(shí)驗(yàn)環(huán)境參數(shù)取值 由于本文僅考慮熱水流量控制對(duì)室溫調(diào)節(jié)的影響,即當(dāng)實(shí)驗(yàn)環(huán)境確定時(shí),即房間結(jié)構(gòu)參數(shù)、室外溫度和室內(nèi)初始溫度確定時(shí),供暖房間的熱平衡數(shù)學(xué)模型如式(22)所示。 本文在Simulink中搭建室內(nèi)熱平衡模型,在Matlab中利用傳統(tǒng)PID和基于Q學(xué)習(xí)的改進(jìn)PID算法對(duì)模擬實(shí)驗(yàn)環(huán)境下的供熱末端控制系統(tǒng)式(22)進(jìn)行仿真。分別比較了其輸出量室溫和控制量閥門開度的變化,也比較了控制過程中熱水總流量,并且從系統(tǒng)的性能指標(biāo)上進(jìn)行了對(duì)比。 對(duì)比圖4可以看出,調(diào)節(jié)過程中基于Q學(xué)習(xí)PID控制的室溫變化明顯比傳統(tǒng)PID控制策略超調(diào)量更小,所以其在熱量利用率會(huì)相對(duì)更高;其振蕩次數(shù)更少,人體對(duì)室溫的舒適度更好。不過基于Q學(xué)習(xí)改進(jìn)PID控制策略使室溫達(dá)到穩(wěn)態(tài)的時(shí)間較長(zhǎng),其主要原因是基于Q學(xué)習(xí)實(shí)現(xiàn)PID參數(shù)在線調(diào)節(jié)的過程中數(shù)據(jù)計(jì)算量大。 圖4 室溫變化仿真結(jié)果 在開度調(diào)節(jié)方面,對(duì)比圖5可以看出基于Q學(xué)習(xí)改進(jìn)PID控制策略下的閥門開度變化更加平緩,其調(diào)節(jié)過程中所需要的供熱流量為G總=626.1836 m3,而傳統(tǒng)PID控制策下閥門調(diào)節(jié)后,整個(gè)控制過程所需的供熱流量為G總=934.421 m3,基于Q學(xué)習(xí)的自適應(yīng)PID控制系統(tǒng)節(jié)約了32.99%的供熱量。從閥門損耗角度而言,對(duì)閥門的損耗會(huì)更小,閥門使命壽命也會(huì)得到增長(zhǎng)。 圖5 開度變化仿真結(jié)果 為了更精確分析兩種控制策略的控制效果,結(jié)合室溫變化仿真結(jié)果做了控制性能指標(biāo)分析。 表3 控制性能指標(biāo)分析 根據(jù)控制性能指標(biāo)分析可知基于Q學(xué)習(xí)改進(jìn)PID的控制策略穩(wěn)態(tài)時(shí)間在9.75 min,傳統(tǒng)PID控制策略穩(wěn)態(tài)時(shí)間在6.78 min,考慮實(shí)際情況下,15 min內(nèi)達(dá)到設(shè)定溫度可以滿足供熱用戶的需求。 由于室內(nèi)供暖過程中突變環(huán)境較為復(fù)雜頻繁,如當(dāng)室溫達(dá)到設(shè)定值后,由于外來人員的突然闖入或開窗使得外來冷空氣滲入導(dǎo)致室內(nèi)溫度驟降等。為得知基于Q學(xué)習(xí)PID控制策略在環(huán)境突變下的控制效果,本文在t=800 s時(shí),室內(nèi)溫度發(fā)生突變驟降為14℃后,比較基于Q學(xué)習(xí)PID控制策略和傳統(tǒng)PID控制策略的控制效果,仿真結(jié)果如圖6所示。 圖6 環(huán)境突變下室溫變化仿真結(jié)果 針對(duì)集中供熱末端流量調(diào)節(jié)的PID控制參數(shù)優(yōu)化與節(jié)能問題,首先依據(jù)傳熱學(xué)理論分析和推導(dǎo)了散熱器、圍護(hù)結(jié)構(gòu)和室內(nèi)外空氣對(duì)流換熱的熱動(dòng)態(tài)過程和傳熱過程,建立了供熱房間的熱平衡數(shù)學(xué)模型,在此基礎(chǔ)上,以優(yōu)化PID參數(shù)和供熱末端節(jié)能為目標(biāo),提出了基于Q學(xué)習(xí)在線優(yōu)化PID參數(shù)的供熱末端流量控制算法,設(shè)計(jì)了自適應(yīng)PID控制器,實(shí)現(xiàn)了PID參數(shù)的在線整定。最后通過仿真實(shí)驗(yàn)驗(yàn)證了所設(shè)計(jì)PID控制器的調(diào)控性能并與傳統(tǒng)PID控制結(jié)果進(jìn)行了對(duì)比,仿真實(shí)驗(yàn)結(jié)果表明,所提方法能夠?qū)崿F(xiàn)室內(nèi)溫度和調(diào)節(jié)閥開度的平緩調(diào)控,且能節(jié)省約33%的供熱量。當(dāng)發(fā)生突變后,基于Q學(xué)習(xí)PID控制策略的振蕩也優(yōu)于傳統(tǒng)PID,初始溫度-設(shè)定溫度-發(fā)生突變-設(shè)定溫度整個(gè)過程,基于Q學(xué)習(xí)的自適應(yīng)PID控制系統(tǒng)能耗減少了30.02%。在保證室內(nèi)環(huán)境的熱舒適性的基礎(chǔ)上對(duì)降低建筑供熱能耗具有重要的意義。4 仿真實(shí)驗(yàn)
4.1 仿真環(huán)境
4.2 實(shí)驗(yàn)結(jié)果分析
5 結(jié)束語(yǔ)