蔣陽升,王勝男,涂家祺,李 莎,王紅軍
(1.西南交通大學交通運輸與物流學院,成都 611756;2.中鐵二院工程集團有限責任公司建筑工程設(shè)計研究院,成都 610031;3.西南交通大學經(jīng)濟管理學院,成都 610031;4.西南交通大學信息科學與技術(shù)學院,成都 611756)
高鐵站是大量客流聚集的公共場所,其室內(nèi)環(huán)境舒適程度對乘客候車過程中的身心健康和出行狀態(tài)具有直接影響。為方便旅客進出,高鐵站進出站口通常處于半封閉半開放狀態(tài),室內(nèi)外能量交換頻繁,使得高鐵站室內(nèi)環(huán)境舒適度受到諸多因素的影響。為了提高室內(nèi)環(huán)境舒適度,通常高鐵站配置有多聯(lián)機及熱交換機等空調(diào)系統(tǒng),但由于高鐵站樓層高、空間跨度大、空氣流動性強以及圍護結(jié)構(gòu)多為玻璃建筑等特點,由此又帶來巨大的能耗。高鐵站作為城市中重要的空間節(jié)點,如何借助傳感器技術(shù)、數(shù)據(jù)挖掘技術(shù)、機器學習算法等有效感知高鐵站室內(nèi)環(huán)境舒適度特征,獲取影響高鐵站室內(nèi)環(huán)境舒適度和能耗的關(guān)鍵因素,并準確預(yù)測其變化規(guī)律,實現(xiàn)舒適的高鐵站室內(nèi)環(huán)境同時又達到節(jié)能降耗的目標是城市計算的新課題[1-2]。
基于此,本文以四川省某高鐵站為研究對象,基于城市計算框架,以表征室內(nèi)環(huán)境舒適度的指標——PMV(Predicted Mean Vote)、空調(diào)能耗綜合值為目標,使用6 種機器學習模型進行綜合預(yù)測。預(yù)測結(jié)果能夠用于制定高鐵站智慧溫控系統(tǒng)的控制策略。
本文的主要研究貢獻如下:
1)考慮到高鐵站屬于半封閉公共建筑空間、室內(nèi)外熱交換頻繁、旅客集聚密度高等特點,針對性地提出影響高鐵站室內(nèi)環(huán)境熱舒適度和能耗的8 個因素——室外溫度、客流密度、多聯(lián)機開啟臺數(shù)、多聯(lián)機設(shè)置溫度、熱交換機開啟臺數(shù)、室內(nèi)溫度、室內(nèi)濕度、室內(nèi)二氧化碳濃度。
2)為了全面刻畫高鐵站的室內(nèi)舒適度、能耗的變化規(guī)律,本文提出采用傳感器數(shù)據(jù)捕捉及Energy Plus仿真兩種方式對高鐵站室內(nèi)外狀態(tài)、多聯(lián)機及熱交換機等控制單元及熱能傳導(dǎo)環(huán)境進行建模,并設(shè)計424 種運行工況以充分獲取數(shù)據(jù)資源。
3)為了描述熱舒適度及能耗與各影響因素的非線性關(guān)系,本文提出回歸預(yù)測模型選擇框架,通過內(nèi)嵌6 種機器學習方法,并采用兩個預(yù)測性能評價指標以及Friedman 統(tǒng)計量及Iman-Davenport 統(tǒng)計量選擇最佳的高鐵站室內(nèi)熱舒適度和能耗預(yù)測模型。該模型所獲得的預(yù)測數(shù)據(jù)能夠有助于溫控系統(tǒng)主動預(yù)判環(huán)境狀態(tài)參數(shù),為下一階段的溫度控制策略制定提供準確實時的決策場景,避免傳統(tǒng)溫控系統(tǒng)所產(chǎn)生延時的控制策略而影響溫控效果。
20世紀70年代,F(xiàn)anger[3]通過大量氣候室實驗研究,首次提出了PMV 指標。該指標綜合了空氣溫度、濕度、流速、平均輻射溫度、服裝熱阻以及人體新陳代謝率6 個因素,是迄今為止應(yīng)用最廣、最全面的熱舒適度評價指標[4]。近年來,有不少國內(nèi)外學者已經(jīng)對熱舒適度預(yù)測展開研究。主要研究成果可以分為熱舒適度影響因素分析、基于機器學習方法的熱舒適度預(yù)測兩類。
1)熱舒適度影響因素分析。該類研究側(cè)重于研究環(huán)境因素對熱舒適度的影響。Chow等[5]在香港進行了一項以實驗室為基礎(chǔ)的熱舒適性調(diào)查,發(fā)現(xiàn)人的熱舒適感對空氣溫度和速度很敏感,但對濕度不敏感。劉永頡等[6]利用PMV 方程對典型溫帶地區(qū)的熱舒適度影響因素進行分析,最終確定空氣溫度和平均輻射溫度是主要因素。Chan等[7]則通過建立人工神經(jīng)網(wǎng)絡(luò)模型來預(yù)測香港室外城市公園的熱舒適性,研究表明,熱感覺是影響熱舒適評價的最重要因素,其次是夏季和冬季的氣溫。為了研究人的熱歷史是否會影響熱舒適度,Jowkar等[8]選取了1 225名在英國居住不到3年的學生以消除在英國適應(yīng)氣候變化的影響進行實驗,研究表明,有較溫暖熱歷史的人的熱偏好和舒適溫度值高于普通人,為后續(xù)研究熱舒適度影響因素提供了更好的參考。
2)基于機器學習方法的熱舒適度預(yù)測。該類研究主要采用機器學習相關(guān)算法對熱舒適度進行預(yù)測。高立新[9]和Yuce等[10]分別利用人工神經(jīng)網(wǎng)絡(luò)來建立智能預(yù)測器以及預(yù)測室內(nèi)游泳池的能耗和熱舒適度水平。侯贊等[11]將集成學習運用到了列車的熱舒適度評價上,研究證明,集成學習能提高熱舒適度評價的準確性。Marvuglia 等[12]提出了一種基于神經(jīng)模糊聯(lián)合模型的室內(nèi)溫度控制器,通過自回歸神經(jīng)網(wǎng)絡(luò)進行室內(nèi)溫度預(yù)測,驅(qū)動模糊控制器,從而實現(xiàn)對辦公大樓室內(nèi)的溫度控制。潘偉強等[13]和楊福邁[14]均利用支持向量機對室內(nèi)熱舒適度進行評價,前者將結(jié)果與反向傳播(Back Propagation,BP)神經(jīng)網(wǎng)絡(luò)和概率神經(jīng)網(wǎng)絡(luò)比較,證明該方法的可行性,后者則提出了針對寒冷地區(qū)的熱舒適度評價方法及評價規(guī)則,為該地區(qū)熱舒適度的評價提供了依據(jù)。張玲等[15]和郭彤穎等[16]分別利用改進的粒子群算法和鳥群算法去優(yōu)化BP 神經(jīng)網(wǎng)絡(luò),并在此基礎(chǔ)上提出了熱舒適度預(yù)測模型,結(jié)果證明,改進后的模型比傳統(tǒng)模型預(yù)測精度更高、收斂更快。Salamone等[17]在PMV 的基礎(chǔ)上,增加PPD(Predicted Percentage of Dissatisfied)和用戶反饋,作為個人熱舒適的評價指標,并使用機器學習中的分類回歸樹(Classification And Regression Tree,CART)方法來預(yù)測用戶的個人資料和熱舒適感知對室內(nèi)環(huán)境的影響。Guenther 等[18]則另辟蹊徑,提出了一種基于高斯過程回歸方法的個性化舒適預(yù)測模型。Ji等[19]通過對哈爾濱地區(qū)居民樓的實地考察和調(diào)查問卷,得出了住戶的舒適度區(qū)間,并利用邏輯回歸分析進行驗證,給出了我國嚴寒地區(qū)舒適和節(jié)能的具體設(shè)置溫度,為寒冷地區(qū)的節(jié)能控制提供了新的參考。Wang等[20]通過分析美國供暖、制冷和空調(diào)工程師協(xié)會(American Society of Heating,Refrigerating and Air-Conditioning Engineers Ⅱ,ASHRAE Ⅱ)數(shù)據(jù),確定了居住者熱體驗的指標,并利用邏輯回歸和支持向量機方法進行熱可接受性和熱偏好的預(yù)測。Mui 等[21]為了提高熱舒適模型預(yù)測的精確度,提出了兩種貝葉斯更新方法(全局更新和個體更新)用于改進現(xiàn)有的熱舒適模型。Luo 等[22]對比了機器學習中用于預(yù)測熱舒適參數(shù)的9 種方法,得出隨機森林具有最高的預(yù)測準確性。Ngarambe 等[23]將人工智能方法運用到熱舒適度的預(yù)測中,力求在不犧牲居住者熱舒適性的情況下優(yōu)化能源性能。
空調(diào)能耗預(yù)測一直是暖通空調(diào)的熱門研究方向。目前學者對空調(diào)能耗預(yù)測方法主要分為傳統(tǒng)預(yù)測方法和機器學習方法。
1)傳統(tǒng)預(yù)測方法。Kikegawa 等[24]和Li 等[25]均考慮了城市熱島效應(yīng)對夏季建筑空調(diào)能耗的可能影響,并建立了建筑物能源使用與城市氣象條件之間的相互作用的多尺度模型。研究指出,估計的空調(diào)能源消耗遠大于以往文獻報道的空調(diào)能源消耗。楊世忠等[26]對空調(diào)冷卻水系統(tǒng)進行節(jié)能研究,為空調(diào)節(jié)能提供了新的研究途徑。Jim[27]和Yuan 等[28]則從建筑的屋頂設(shè)計和保溫特性出發(fā),分別在香港和上海兩地展開建筑特性對空調(diào)能耗的實地調(diào)查,為炎熱夏季城市的綠色屋頂和相關(guān)建筑保溫的政策和設(shè)計提供了參考。Ma 等[29]則利用組合權(quán)重法選擇相似天數(shù)對建筑物空調(diào)系統(tǒng)能耗進行預(yù)測,并采用eQUEST 仿真驗證,結(jié)果表明,利用相似天數(shù)預(yù)測能耗具有較高的準確性。Zhou 等[30]在前人的基礎(chǔ)上,通過分析北京、臺灣、香港和伯克利四個地點在氣候、圍護結(jié)構(gòu)、居住者行為上的差異以及辦公樓的空調(diào)能源使用情況,得出了居住者行為影響最大的結(jié)論。
2)機器學習方法。為了提高空調(diào)能耗預(yù)測的準確性,研究者將機器學習應(yīng)用到了空調(diào)的能耗預(yù)測上。Atthajariyakul等[31-32]將PMV、二氧化碳濃度和冷熱負荷分別作為熱舒適、室內(nèi)空氣質(zhì)量和能耗的參數(shù)指標,提出了一種基于神經(jīng)網(wǎng)絡(luò)的PMV 模型用于確定暖通空調(diào)系統(tǒng)最佳室內(nèi)空氣狀態(tài)。實驗結(jié)果表明,與傳統(tǒng)方法相比,該方法可以有效地實現(xiàn)暖通空調(diào)系統(tǒng)室內(nèi)空氣狀態(tài)的實時監(jiān)測,同時降低能耗。Wei 等[33]提出了一種數(shù)據(jù)驅(qū)動的方法來優(yōu)化典型辦公設(shè)施中暖通空調(diào)(供暖、通風和空調(diào))系統(tǒng)的總能耗,并建立了一種綜合設(shè)施溫度、相對濕度、二氧化碳濃度的總能量模型,利用改進的多目標粒子群算法對模型做進一步優(yōu)化,在節(jié)能方面取得顯著進展。Zheng 等[34]提出了一種改進的入侵雜草優(yōu)化算法,以解決使功耗最小化的冷水機組負荷問題,與其他算法相比,該算法可以找到相等或更好的最優(yōu)解。段冠囡等[35]提出了一種基于GM-RBF(Grey Model-Radical Basis Function)的神經(jīng)網(wǎng)絡(luò)方法對超高層建筑的空調(diào)能耗進行預(yù)測,并達到較高的預(yù)測精度。錢青等[36]則將總能耗分項,利用自回歸和深度置信網(wǎng)絡(luò)(Auto-Regression-Deep Belief Network,AR-DBN)建立能耗短期預(yù)測模型,與不分項模型相比,該模型預(yù)測精度較高。Tran等[37]利用最小二乘支持向量回歸和徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)兩種機器學習方法,構(gòu)建了進化神經(jīng)機器推理模型。該模型比其他人工智能技術(shù)具有更高的預(yù)測精度。魏崢等[38]討論了使用機器學習的方法對冷水機組進行控制以降低能耗,優(yōu)化運行的情況,得出支持向量機(較差)、神經(jīng)網(wǎng)絡(luò)、隨機森林三種算法都有較好的適用性的結(jié)論。Zhou 等[39]利用長短期記憶模型預(yù)測廣州某高校圖書館的空調(diào)系統(tǒng)。結(jié)果表明,長短期記憶模型能夠產(chǎn)生更可靠的預(yù)測結(jié)果。綜上,當前對熱舒適性以及空調(diào)能耗的研究有比較豐富的研究成果,但還存在以下不足:
1)大多文獻主要考慮封閉空間的熱舒適度,而高鐵站是一類典型的半封閉半開放的建筑空間,承擔大量客流集散任務(wù),同時室內(nèi)室外熱交換頻繁,熱舒適會受到室內(nèi)室外諸多因素的影響,需要針對高鐵站的特點,提煉其室內(nèi)熱舒適度的影響因素。
2)大多文獻采用某種機器學習算法對熱舒適度或者能耗進行預(yù)測。而對于高鐵站而言,由于其半開放的建筑空間特點,各類因素的影響路徑復(fù)雜,需要設(shè)計多個機器學習算法以確定最佳的預(yù)測性能。
3)大多文獻沒有將熱舒適度和能耗結(jié)合起來共同預(yù)測。由于熱舒適度和能耗存在背反關(guān)系,即追求高舒適度會導(dǎo)致高的能耗,如何同時預(yù)測兩個目標并協(xié)調(diào)兩者關(guān)系仍待解決。
基于此,本文以四川省某高鐵站為研究對象,提煉了影響其室內(nèi)舒適度及能耗的多個因素,并建立了熱工環(huán)境模型,同時將雙目標(PMV 和能耗)轉(zhuǎn)化為單目標,并采用了6 種機器學習方法對兩者進行綜合預(yù)測。通過大量實驗對比6 種機器學習方法在實驗數(shù)據(jù)集上的測試效果,最終選出最優(yōu)預(yù)測模型。
通過大量的文獻調(diào)研及實地走訪,本文最終確定影響高鐵站室內(nèi)舒適度和能耗的因素分別為:多聯(lián)機開啟臺數(shù)、多聯(lián)機設(shè)置溫度、熱交換機開啟臺數(shù)、客流密度、室外溫度、室內(nèi)溫度、室內(nèi)濕度、室內(nèi)二氧化碳濃度。高鐵站室內(nèi)熱舒適度評價選用目前廣泛應(yīng)用的PMV 指標。為了獲取各影響因素與PMV 和能耗之間的復(fù)雜非線性關(guān)系,本文首先基于現(xiàn)場安裝傳感器進行數(shù)據(jù)捕捉,然后基于Energy Plus 構(gòu)建高鐵站的熱工環(huán)境模型,并使用傳感器數(shù)據(jù)對模型進行校正與多輪調(diào)試,保證所構(gòu)建的模型能夠復(fù)現(xiàn)高鐵站真實的熱工環(huán)境。根據(jù)各影響因素的作用范圍,設(shè)計不同工況以獲取海量數(shù)據(jù),并計算PMV 與能耗值。最后通過6種預(yù)測方法(線性回歸、深度神經(jīng)網(wǎng)絡(luò)、嶺回歸、支持向量回歸、貝葉斯嶺回歸、決策樹回歸)進行綜合預(yù)測。
PMV 代表了大多數(shù)人在同一環(huán)境中的平均冷熱感覺,它根據(jù)人體產(chǎn)熱和散熱之間的差值進行計算,該值一般與用戶在房間中的運動和服裝情況及環(huán)境情況有關(guān)。本文的PMV值采用計算值,具體計算公式如下式(1)[40]所示:
其中:M表示人體能量代謝率,單位為W/s;W表示人體所做的機械功,單位為W/s;Pa表示人體周圍空氣的水蒸氣分壓力,單位為Pa;ta表示人體周圍的空氣溫度,單位為℃;ts表示房間的平均輻射溫度,單位為℃;fcl表示人體著裝后的實際表面積和人體裸身表面積之比,即服裝的表面系數(shù);tcl表示人體外表面溫度,單位為℃;hc表示對流換熱系數(shù),單位為W/s·m2·℃;
本文中將根據(jù)所構(gòu)建的熱工環(huán)境中各時刻的狀態(tài)參數(shù),如人體周圍的空氣溫度等,依據(jù)式(1)對該時刻的PMV 進行計算。
為了同時預(yù)測PMV 和能耗,并減少預(yù)測復(fù)雜度,本文將這兩個目標通過線性加權(quán)的方式轉(zhuǎn)化為單目標。根據(jù)文獻[41],本文PMV權(quán)重取值為0.6,能耗項權(quán)重取值為0.4,以求得熱舒適性和能耗的綜合值為最優(yōu)。
由于兩個目標的取值與量綱存在較大的差異,為了減少誤差,需要對其進行標準化處理。此外,考慮到PMV 的取值范圍,對其進行絕對值處理。處理之后的預(yù)測目標如式(2)所示。
其中:f(x1,x2)為預(yù)測目標值;x1為PMV 值;x2為能耗值,為開啟的多聯(lián)機和熱回收機的能耗總和;max(|x1|)、min(|x1|)為PMV 值中的最大、最小值;max(|x2|)、min(|x2|)為總能耗中的最大、最小值。
本次調(diào)研選取處于夏熱冬冷地區(qū)的四川省某高鐵站為研究對象,該車站為高架車站,站廳層高6 m,吊頂1 m,可大致分為辦公區(qū)、候車區(qū)、離站區(qū)3 個區(qū)域,其中候車區(qū)的尺寸為74 m×28 m×5 m。該車站共配有5臺多聯(lián)機和8臺熱交換機。
本次調(diào)研時間為2019年12月31日—2020年1月3日,調(diào)研的內(nèi)容包括高鐵站室內(nèi)外環(huán)境因素的現(xiàn)場實時測試(包含溫度傳感器、濕度傳感器、二氧化碳傳感器的安裝與數(shù)據(jù)捕捉)、客流密度的實時統(tǒng)計以及站內(nèi)候車乘客的問卷調(diào)查。問卷調(diào)查時間間隔為半小時。
為了獲得海量數(shù)據(jù),本文基于Energy Plus 軟件建立高鐵車站的熱工環(huán)境模型,模擬了高鐵車站全年的熱交換與空調(diào)能耗情況。該高鐵車站位于四川(北緯30.61°,東經(jīng)103.68°),建筑朝向為北偏東30°。根據(jù)高鐵車站平面圖在sketch up 中建立一個長81.8 m、寬74 m、高5 m 的三維模型;模型中圍護結(jié)構(gòu)構(gòu)造、建筑結(jié)構(gòu)等參數(shù)均嚴格按照該高鐵站實際數(shù)據(jù)進行設(shè)置,各結(jié)構(gòu)布置完成后match 最終模型,從而進行內(nèi)外墻的識別,確認模型無誤以后,生成IDF 文件,導(dǎo)入EP-Launch進行參數(shù)設(shè)置及能耗模擬。數(shù)據(jù)模擬從1月1日開始,12月31日結(jié)束,模擬的時間段為7:00—23:00。與此同時根據(jù)實地調(diào)研結(jié)果,對所建模型進行校正與調(diào)試。就控制系統(tǒng)開行狀態(tài),本文設(shè)計了5+8+40=53種工況,分別為單獨開多聯(lián)機、單獨開熱交換機以及多聯(lián)機和熱交換機的組合。與此同時,通過文獻調(diào)研與實地訪談,設(shè)置了8 種多聯(lián)機夏季溫度與冬季溫度組合,具體情況如表1。生成了53×8=424種工況,因此,共獲取424×8 760=3 714 240個實例。
表1 多聯(lián)機溫度組合Tab.1 Temperature combination of multi-evaporator air conditioners
高鐵站熱舒適度與能耗綜合預(yù)測是一類回歸問題,因此本文選取深度神經(jīng)網(wǎng)絡(luò)、支持向量回歸、決策樹回歸、線性回歸、嶺回歸、貝葉斯嶺回歸共6 種機器學習方法,建立以PMV和空調(diào)能耗綜合值為目標的回歸預(yù)測模型,根據(jù)回歸預(yù)測模型選擇框架最終確定最佳的模型。各模型簡述如下。
1)深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN),也稱為多層感知機。在2006 年,Hinton 等[42]利用預(yù)訓(xùn)練方法緩解了局部最優(yōu)解問題,將隱藏層推動到了7 層,深度神經(jīng)網(wǎng)絡(luò)由此出現(xiàn)。近年來,很多學者也將其應(yīng)用到回歸問題上。神經(jīng)網(wǎng)絡(luò)中,設(shè)置激活函數(shù)是σ(z),隱藏層和輸出層的輸出值為a,第l-1 層共有m個神經(jīng)元,則對于第l層的第j個神經(jīng)元的輸出得到式(3):
2)支持向量回歸(Support Vector Regression,SVR)。1998年,Haykin[43]將支持向量(Support Vector,SV)學習正式納入機器學習標準方法工具箱,在2002 年Smola[44]對支持向量回歸有了更深入的概述。SVR 作為支持向量機的延伸,設(shè)容忍f(x)與y之間有ε的偏差,則SVR問題可以寫為式(4):
其中:C為懲罰因子,?ε為不敏感損失函數(shù)。
3)線性回歸(Linear Regression,LR)[45]。設(shè)預(yù)測值為則LR問題可以寫為式(5):
其中:ω=(ω1,ω2,…,ωp),xi=(xi1,xi2,…,xip)。
4)嶺回歸(Ridge Regression,RR)[46]。通過對系數(shù)的大小進行懲罰來解決普通最小二乘問題,其函數(shù)可以表示為式(6):
其中復(fù)雜性參數(shù)α≥0 控制收縮量:α的值越大,收縮量就越大,因此共線性系數(shù)也更大。
5)貝葉斯嶺回歸(Bayesian Ridge Regression,BRR)[47],具體模型表示為式(7):
其中:α1、α2、λ1和λ2分別是關(guān)于α和λ的γ分布的先驗。
6)決策樹回歸(Decision Tree Regression,DTR)[48]是一種可以用于回歸的決策樹模型,通過非參數(shù)分類和回歸方法進行有效的預(yù)測。假設(shè)X和Y分別為輸入和輸出變量,給定訓(xùn)練數(shù)據(jù)集為D={(x1,y1),(x2,y2),…,(xN,yN}) 其中xi=為輸入實例(特征向量),n為特征個數(shù),i=1,2,…,N,N為樣本數(shù)量。
對特征空間的劃分采用啟發(fā)式方法,每次劃分逐一考察當前集合中所有特征的所有取值,根據(jù)平方誤差最小化準則選擇其中最優(yōu)的一個作為切分點。如對訓(xùn)練集中第j個特征變量x(j)和它的取值s,作為切分變量和切分點,并定義區(qū)域R1(j,s)={x|x(j) ≤s}和R2(j,s)={x|x(j) >s},為找出最優(yōu)的j和s,求解式為式(8):
找出使要劃分的兩個區(qū)域平方誤差和最小的j和s。其中,c1、c2為劃分后兩個區(qū)域內(nèi)固定的輸出值,方括號內(nèi)的兩個min 意為使用的是最優(yōu)的c1和c2,也就是使各自區(qū)域內(nèi)平方誤差最小的c1和c2,易知這兩個最優(yōu)的輸出值就是各自對應(yīng)區(qū)域內(nèi)y的均值,所以式(8)可寫為式(9):
找到最優(yōu)的切分點(j,s)后,依次將輸入空間劃分為兩個區(qū)域,接著對每個區(qū)域重復(fù)上述劃分過程,直到滿足停止條件為止。這樣就生成了一棵決策回歸樹。本研究通過對比6 種機器學習方法對仿真數(shù)據(jù)預(yù)測的準確性,最終選出適合于本研究的最優(yōu)回歸預(yù)測模型。
為了選擇合適的模型對高鐵站室內(nèi)熱舒適度和能耗進行準確預(yù)測,本文設(shè)計了回歸預(yù)測模型選擇框架,具體過程如圖1所示。
圖1 回歸預(yù)測模型選擇框架Fig.1 Selection framework of regression prediction model
將數(shù)據(jù)集輸入模型進行訓(xùn)練前,需要對其進行預(yù)處理,具體步驟包括:
步驟1 數(shù)據(jù)劃分。按月份將數(shù)據(jù)分為12組。
步驟2 缺失值與異常值的處理。刪除數(shù)據(jù)集中缺失能耗的數(shù)據(jù)及異常值。
數(shù)據(jù)預(yù)處理后的數(shù)據(jù)集如表2所示。
表2 實驗數(shù)據(jù)集的樣本、特征、問題屬性數(shù)量Tab.2 Numbers of instances,features and problem properties of experimental datasets
表2 中的問題屬性即為本研究的目標函數(shù),包括PMV 值和總能耗值兩種屬性。
本文選取均方誤差(Mean Squared Error,MSE)[49]和擬合優(yōu)度(RSquared,R2)[50]兩個指標來評價模型預(yù)測性能。
MSE標準計算如式(10)所示:
其中:n為測試樣本的數(shù)量,yi表示PMV 和能耗綜合值的實際值表示回歸模型的預(yù)測值。MSE的值越小,代表預(yù)測的準確率越高。
R2標準計算如式(11)所示:
為了進一步測試算法準確性,本文使用十折交叉驗證對6 種算法進行測試,即將數(shù)據(jù)集分成10 份,依次將其中9 份作為訓(xùn)練數(shù)據(jù),1份作為測試數(shù)據(jù),進行實驗。將10次結(jié)果的正確率(或差錯率)的平均值作為對算法精度的估計。
為了檢驗不同算法的差異,本文使用Friedman統(tǒng)計量,其定義如下:
本研究的部分模型依賴超參數(shù)的選擇,為了保證實驗的嚴謹性,在測試模型的過程中,根據(jù)超參數(shù)不同設(shè)置對模型進行調(diào)參優(yōu)化操作。因線性回歸不需調(diào)參,本研究對其他5 個模型的超參數(shù)進行調(diào)試優(yōu)化,具體過程如下。
針對嶺回歸中的超參數(shù)α,首先設(shè)置取值范圍為[0,1 000],步長為100進行調(diào)參。實驗表明當α取值為100,MSE的值達到最小0.005 6。隨之將α取值范圍調(diào)至[50,150],步長為10;取值范圍為[80,100],步長為2以及取值范圍為[85,95],步長為1 進行參數(shù)微調(diào)。最終確定當α=90 時MSE的值最小。
對于支持向量機回歸,本實驗主要調(diào)節(jié)懲罰系數(shù)C的設(shè)置。設(shè)置C的取值范圍為[0.5,1.5],步長為0.1 進行實驗。結(jié)果表明當C=1.1時,MSE的值達到最優(yōu),為0.012 7。
決策樹回歸主要通過min_samples_split參數(shù)來控制葉節(jié)點上的樣本數(shù)量。設(shè)置min_samples_split的取值范圍為[2,15],步長為1進行參數(shù)測試。結(jié)果表明,當min_samples_split=11時,MSE最優(yōu),為0.002 0。
貝葉斯嶺回歸主要調(diào)節(jié)超參數(shù)α1、α2,它們是α關(guān)于γ分布的先驗,默認α1=α2=10-6。本研究測試了α1、α2分別取值10-7、10-6、10-5下的9 種組合,最終測試結(jié)果表明α1、α2的變化對MSE值不產(chǎn)生影響。
深度神經(jīng)網(wǎng)絡(luò)的效果主要依賴網(wǎng)絡(luò)層數(shù)的選擇,本研究測試了1)8→16→18→12→1;2)8→24→12→1;3)9→16→18→24→12→1 三種不同層數(shù)、不同神經(jīng)元個數(shù)的網(wǎng)絡(luò)結(jié)構(gòu),最終測試結(jié)果顯示第1)種優(yōu)于其后兩者,MSE為0.011 3,故選擇1)結(jié)構(gòu)構(gòu)建模型。
本文所選取的6 種機器學習算法,其MSE和R2結(jié)果以及測試時間如圖2~4及表3~5所示。
圖2 MSE標準的十折交叉驗證結(jié)果對比Fig.2 comparison on MSE
圖3 R2標準的十折交叉驗證結(jié)果對比Fig.3 Ten-fold cross-validation result comparison on R2
圖4 十折交叉驗證結(jié)果的實驗時間對比Fig.4 Ten-fold cross-validation result comparison on experimental time
由圖2~4可知,不論是在MSE標準的十折交叉驗證下,還是在R2標準的十折交叉驗證下,6 種算法中,DTR 的預(yù)測性能最佳。由表3~5 可知,6 種回歸模型中,DTR 的綜合預(yù)測性能最佳。在MSE方面,12 個數(shù)據(jù)集中有11 個DTR 都取得了最小值。在所有的數(shù)據(jù)集中,DTR的平均MSE最低,為0.002 2。其余算法的平均MSE從小到大依次為0.005 6(LR),0.005 6(RR),0.005 6(BRR),0.016 1(SVR),0.025 2(DNN)。在R2方面,12個數(shù)據(jù)集中有10個數(shù)據(jù)集DTR都取得了最大值。在所有的數(shù)據(jù)集中,DTR 的平均R2最大,為0.793 8。在第5 個數(shù)據(jù)集達到了最大R2(0.937 2)。其余算法的平均R2從大到小依次為 0.431 6(RR),0.431 1(BRR),0.431 0(LR),-0.159 0(DNN),-0.789 8(SVR)。在運行時間方面,DTR 的平均運行時間0.175 0 s,也大大優(yōu)于DNN(3.166 7 s)。
表3 6種機器學習算法的均方誤差及秩次Tab.3 Mean square error and rank for six machine learning methods
為了檢驗6 種機器學習算法的總體性能,本文使用Friedman 統(tǒng)計量進行假設(shè)檢驗。6 種算法在各個數(shù)據(jù)集上MSE的平均秩次分別為5.750 0,5.250 0,2.916 7,2.916 7,2.916 7,1.250 0。MSE的Friedman統(tǒng)計量為:
6 種算法在各個數(shù)據(jù)集上R2的平均秩次分別為5.583 3,5.416 7,3.166 7,2.916 7,2.416 7,1.500 0。R2的Friedman 統(tǒng)計量為:
本次對比實驗基于6個算法,12個數(shù)據(jù)集,F(xiàn)F服從于自由度為6-1=5 和(12-1)(6-1)=55 的F 分布。由F(5,55)分布計算FFMSE、FFR2所對應(yīng)的p的值分別為9.486 26E-19、7.205 94E-17,所以在高顯著性水平下拒絕原假設(shè),綜合圖2~4結(jié)果可知DTR 算法在高鐵站熱舒適度和能耗預(yù)測的準確率均優(yōu)于其他對比算法。
表4 6種機器學習算法的擬合優(yōu)度及秩次Tab.4 R2 and rank for six machine learning methods
表5 均方誤差及R2的實驗時長比較 單位:sTab.5 Comparison of experimental time for MSE and R2 unit:s
對于高鐵站熱舒適度和能耗的預(yù)測研究,對實現(xiàn)高鐵站智能溫控,改善人們的生活環(huán)境和節(jié)能減耗具有重要意義。
本文通過現(xiàn)場傳感器數(shù)據(jù)捕捉及Energy Plus平臺對四川省某高鐵候車廳室內(nèi)外狀態(tài)、多聯(lián)機及熱交換機等控制單元及熱能傳導(dǎo)環(huán)境進行建模,獲取影響高鐵站室內(nèi)熱舒適度和能耗的8 個因素:室外溫度、客流密度、多聯(lián)機開啟臺數(shù)、多聯(lián)機設(shè)置溫度、熱交換機開啟臺數(shù)、室內(nèi)溫度、室內(nèi)濕度、室內(nèi)二氧化碳濃度。通過傳感器數(shù)據(jù)對所建熱工模型進行校正與調(diào)試,并運行424種工況,生成3 714 240個實例。為了獲取熱舒適度及能耗的變化規(guī)律,本文基于回歸預(yù)測模型選擇框架,運用6 種機器學習方法(深度神經(jīng)網(wǎng)絡(luò)、支持向量回歸、決策樹回歸、線性回歸、嶺回歸、貝葉斯嶺回歸)對高鐵站室內(nèi)熱舒適度及能耗進行綜合預(yù)測。通過大量實驗可知,6 種機器學習算法中,決策樹回歸模型預(yù)測能夠在較短的時間內(nèi)獲得最佳的預(yù)測性能。相比其他算法,決策樹回歸模型在所有的數(shù)據(jù)集里,其平均R2最大,為0.793 8,平均MSE最低,為0.002 2。綜上,決策樹回歸能夠較好地反映高鐵站室內(nèi)熱舒適度和能耗的變化規(guī)律,可以為室內(nèi)環(huán)境的智慧溫控系統(tǒng)的控制和節(jié)能減耗提供決策支持。