王 巖,蘇子怡,李曉鋒,王 斌
(1. 無錫地鐵集團(tuán)有限公司,江蘇無錫 214000;2. 清華大學(xué)建筑學(xué)院,北京 100084)
“十三五”期間,城市軌道交通累計(jì)新增運(yùn)營(yíng)線路4 351.7 km,年均增長(zhǎng)率17.1%,創(chuàng)歷史新高。截至2020 年底,中國大陸地區(qū)共有45 座城市開通城市軌道交通線路244 條,運(yùn)營(yíng)總長(zhǎng)達(dá)7 969.7 km,其中地鐵占比78.8%。2020 年,城軌交通總用電量172.4 億kW·h,其中車站能耗88.4 億kW·h,隨著新建線路的增加,能耗持續(xù)增長(zhǎng)[1]。
當(dāng)前地鐵車站的運(yùn)行存在巨大的節(jié)能潛力。常用的反饋控制軟件自適應(yīng)力不強(qiáng),無法及時(shí)應(yīng)對(duì)地鐵環(huán)境的復(fù)雜變化,主要存在的問題包括車站公共區(qū)溫度控制振蕩嚴(yán)重、無法及時(shí)應(yīng)對(duì)活塞風(fēng)效應(yīng)導(dǎo)致的環(huán)境變化等,導(dǎo)致能源浪費(fèi)[2]。因此,有必要研究地鐵車站能耗預(yù)測(cè)模型,準(zhǔn)確預(yù)測(cè)用能負(fù)荷,這對(duì)于指導(dǎo)車站設(shè)備選型和節(jié)能運(yùn)行具有至關(guān)重要的意義。
數(shù)據(jù)驅(qū)動(dòng)算法是建筑能耗預(yù)測(cè)的常用方法,多種大數(shù)據(jù)技術(shù)被廣泛應(yīng)用于各類型建筑不同時(shí)間尺度的能耗預(yù)測(cè)中[3-5]。趙海湉等探究了室內(nèi)環(huán)境、室外環(huán)境、在室人員數(shù)量等使用需求參數(shù)對(duì)建筑大數(shù)據(jù)能耗預(yù)測(cè)的影響[6];Kim 等對(duì)比了線性回歸、隨機(jī)森林、決策樹回歸、卷積神經(jīng)網(wǎng)絡(luò)等算法在住宅用電量預(yù)測(cè)中的表現(xiàn)[7];何明秀以上海市多棟公共建筑為例,對(duì)比了支持向量機(jī)、隨機(jī)森林等多種方法的能耗預(yù)測(cè)效果[8];孫劭波研究了政府辦公建筑能耗的大數(shù)據(jù)預(yù)測(cè)算法[9];韓連華基于逐步回歸和決策樹方法,建立了建筑能耗預(yù)測(cè)和基準(zhǔn)評(píng)價(jià)集成模型[10]。上述研究表明,數(shù)據(jù)驅(qū)動(dòng)算法在建筑能耗預(yù)測(cè)領(lǐng)域應(yīng)用廣泛,但缺乏針對(duì)地鐵車站建筑能耗預(yù)測(cè)的數(shù)據(jù)驅(qū)動(dòng)算法研究。
本研究以地下2 層標(biāo)準(zhǔn)車站為例,建立了基于數(shù)據(jù)驅(qū)動(dòng)的通風(fēng)空調(diào)、垂直交通和照明系統(tǒng)能耗的預(yù)測(cè)模型,對(duì)比了多種常用的大數(shù)據(jù)技術(shù),包括最小二乘多元線性回歸(LR)、嶺回歸(Ridge)、Lasso 回歸、隨機(jī)森林(RF)、XGBoost,從預(yù)測(cè)精度、計(jì)算成本的角度分析了各算法的優(yōu)缺點(diǎn),為地下車站能耗的預(yù)測(cè)提供了數(shù)據(jù)驅(qū)動(dòng)算法參考。
本研究的對(duì)象為地下2 層的非換乘、屏蔽門系統(tǒng)車站,冷源為變頻螺桿冷水機(jī)組。
地鐵車站的主要用能系統(tǒng)包括通風(fēng)空調(diào)系統(tǒng)(約占55%)、垂直交通系統(tǒng)(約占15%)和照明系統(tǒng)(約占22%)[11]。其中,照明系統(tǒng)形式相對(duì)簡(jiǎn)單、能耗易算,本研究推薦采用基于運(yùn)行原理的模型進(jìn)行計(jì)算。該模型采用車站照明功率密度、照明面積、照明時(shí)長(zhǎng)進(jìn)行計(jì)算,預(yù)測(cè)模型的均方根誤差的變異系數(shù)CV-RMSE為2.9%[12]。而車站通風(fēng)空調(diào)、垂直交通系統(tǒng)能耗的影響因素復(fù)雜,所以筆者對(duì)其進(jìn)行重點(diǎn)研究,對(duì)比常用的數(shù)據(jù)驅(qū)動(dòng)模型,對(duì)其能耗進(jìn)行預(yù)測(cè)研究。
已有研究通過敏感性分析指出,地下車站通風(fēng)空調(diào)系統(tǒng)能耗的關(guān)鍵影響因素包括室內(nèi)外環(huán)境、機(jī)械新風(fēng)量、設(shè)備能效、無組織滲風(fēng)量、客流量等相關(guān)的14個(gè)參數(shù),垂直交通系統(tǒng)能耗的關(guān)鍵影響因素包括發(fā)車對(duì)數(shù)、客流量、設(shè)備功率、設(shè)備數(shù)量等相關(guān)的13 個(gè)輸入?yún)?shù),如表1 所示[13]。本研究建立的數(shù)據(jù)驅(qū)動(dòng)模型,以各系統(tǒng)能耗的關(guān)鍵影響因素作為輸入?yún)?shù)。
表1 車站能耗模型關(guān)鍵影響因素 Table 1 Key inputs of energy models for underground stations
筆者選擇了最小二乘回歸、嶺回歸、Lasso 回歸、隨機(jī)森林、XGBoost 模型,對(duì)比各模型在地下車站能耗預(yù)測(cè)上的效果。采用的數(shù)據(jù)庫為車站分項(xiàng)能耗原理模型模擬得到的10 000 條數(shù)據(jù),預(yù)測(cè)步長(zhǎng)為1 h。
2.3.1 多元線性回歸
多元線性回歸模型Y 考慮了輸入?yún)?shù)的交互作用項(xiàng),即Xi包括N 個(gè)關(guān)鍵影響因素及其兩兩乘積,有
2.3.2 嶺回歸
嶺回歸是一種替代最小二乘的壓縮估計(jì)擬合方法,通過正則化減少方差,能夠?qū)⑾禂?shù)往零的方向進(jìn)行壓縮,在多元回歸模型中實(shí)現(xiàn)變量重要性的篩選。嶺回歸的系數(shù)估計(jì)值通過最小化式(3)得到
式中,λ≥0 是調(diào)節(jié)參數(shù),選擇合適的λ 對(duì)模型十分重要,可用交叉驗(yàn)證進(jìn)行參數(shù)尋優(yōu)。
2.3.3 Lasso 回歸
Lasso 回歸也是通過正則化減少方差,與嶺回歸的差異在于Lasso 可以將系數(shù)壓縮至零,能夠?qū)崿F(xiàn)變量的篩選,得到輸入?yún)?shù)較少的稀疏模型。Lasso 回歸的系數(shù)估計(jì)值通過最小化式(4)得到
式中,λ≥0 是調(diào)節(jié)參數(shù),選擇合適的λ 對(duì)模型十分重要,可用交叉驗(yàn)證進(jìn)行參數(shù)尋優(yōu)。
2.3.4 隨機(jī)森林
隨機(jī)森林是一種常用的以決策樹為基礎(chǔ)的分析方法,隨機(jī)采樣有放回的抽取k 個(gè)樣本并進(jìn)行N次采樣生成的N 個(gè)訓(xùn)練集,用訓(xùn)練集擬合模型并求得預(yù)測(cè)值。每考慮樹上的一個(gè)分裂點(diǎn),都要從全部預(yù)測(cè)變量中選出一個(gè)包含部分預(yù)測(cè)變量的隨機(jī)樣本作為候選變量,這個(gè)分裂點(diǎn)所用的預(yù)測(cè)變量只能從候選變量中選擇,在每個(gè)分裂點(diǎn)處都重新抽樣。最后,對(duì)所有預(yù)測(cè)值求平均,得到模型。隨機(jī)森林方法由于在訓(xùn)練過程中引入了隨機(jī)性,所以能夠避免過擬合,且能夠處理高維數(shù)據(jù),訓(xùn)練速度快。
對(duì)隨機(jī)森林模型預(yù)測(cè)效果影響顯著的參數(shù)需要進(jìn)行調(diào)優(yōu),利用Python 的RandomForestRegressor 和GridSearchCV 函數(shù)進(jìn)行模型參數(shù)的調(diào)優(yōu),包含的參數(shù)如表2 所示。
表2 各算法的最優(yōu)的參數(shù)估計(jì) Table 2 Results of k-fold cross-validation
2.3.5 XGBoost
XGBoost 是一種改進(jìn)的決策樹方法:每訓(xùn)練一個(gè)決策樹模型,都會(huì)按照偏差來調(diào)整樣本的權(quán)重,通過不斷學(xué)習(xí)前一個(gè)決策樹的偏差,最終得到預(yù)測(cè)模型。利用Python 的XGBRegressor 和GridSearchCV 函數(shù)進(jìn)行參數(shù)調(diào)優(yōu),包含的參數(shù)如表2 所示。
將原始數(shù)據(jù)集拆分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。
在訓(xùn)練集和驗(yàn)證集上,采用網(wǎng)格搜尋算法和k 折交叉驗(yàn)證對(duì)模型進(jìn)行訓(xùn)練,得到模型最優(yōu)的參數(shù)估計(jì)。網(wǎng)格搜尋算法通過遍歷給定的參數(shù)組合來搜尋模型最優(yōu)的參數(shù)取值。對(duì)于每種參數(shù)取值,采用k 折交叉驗(yàn)證對(duì)模型的效果進(jìn)行評(píng)分:將樣本數(shù)據(jù)分為k 個(gè)子集,每次令一個(gè)子集作為驗(yàn)證集,其余k-1 個(gè)子集作為訓(xùn)練集;對(duì)于每種參數(shù)取值,執(zhí)行k 次模型訓(xùn)練和驗(yàn)證評(píng)分,以平均評(píng)分作為該參數(shù)取值下模型的最終評(píng)分(見圖1)。通過網(wǎng)格搜尋算法和k 折交叉驗(yàn)證得到模型的最優(yōu)參數(shù)估計(jì),進(jìn)而在訓(xùn)練集和驗(yàn)證集的全部數(shù)據(jù)上進(jìn)行訓(xùn)練,從而得到最優(yōu)模型。
在測(cè)試集上評(píng)價(jià)模型表現(xiàn)。采用均方根誤差(RMSE)和均方根誤差的變異系數(shù)(CV-RMSE),作為模型預(yù)測(cè)效果的評(píng)價(jià)指標(biāo)。RMSE 能夠綜合衡量預(yù)測(cè)值與實(shí)際值之間的偏差[14],CV-RMSE 可將預(yù)測(cè)誤差歸一化,是便于多個(gè)模型比較的無單位度量[15]。
圖1 數(shù)據(jù)集劃分及k 折交叉驗(yàn)證示意 Figure 1 Data set and k fold cross-validation
在訓(xùn)練集和驗(yàn)證集上采用網(wǎng)格搜尋法和k 折交叉驗(yàn)證進(jìn)行參數(shù)的優(yōu)化,得到每種算法的最優(yōu)的參數(shù)估計(jì),如表2 所示。
4.1.1 車站通風(fēng)空調(diào)系統(tǒng)
分別采用最小二乘回歸、嶺回歸、Lasso 回歸、隨機(jī)森林、XGBoost 算法,建立地下車站通風(fēng)空調(diào)系統(tǒng)能耗模型,將其預(yù)測(cè)值與測(cè)試集的實(shí)際值進(jìn)行對(duì)比,如圖2 所示??梢园l(fā)現(xiàn),在全部模型中,XGBoost 模型在測(cè)試集上的能耗預(yù)測(cè)值更接近實(shí)際值,預(yù)測(cè)效果最好。
圖2 通風(fēng)空調(diào)模型預(yù)測(cè)效果對(duì)比 Figure 2 Comparison on the prediction performance of VAC models
統(tǒng)計(jì)各算法在通風(fēng)空調(diào)能耗數(shù)據(jù)測(cè)試集上的預(yù)測(cè)值與實(shí)際值,給出了各算法能耗預(yù)測(cè)效果的評(píng)價(jià)指標(biāo)(見表3 和圖3)??梢钥闯觯魉惴ǖ木礁`差變異系數(shù)在5.1%~8.5%之間,均可達(dá)到工程應(yīng)用的精度要求。其中,XGBoost 算法在預(yù)測(cè)精度上優(yōu)于其他算法,預(yù)測(cè)值的均方根誤差為20.5 kW·h,其他算法預(yù)測(cè)值的均方根誤差在30.3~33.8 kW·h 之間。
表3 各算法通風(fēng)空調(diào)能耗預(yù)測(cè)效果的評(píng)價(jià)指標(biāo)統(tǒng)計(jì) Table 3 Evaluation indices of the VAC energy models
圖3 通風(fēng)空調(diào)模型評(píng)價(jià)指標(biāo)CV-RMSE Figure 3 CV-RMSE of VAC models
4.1.2 車站垂直交通系統(tǒng)
圖4 所示為各算法在垂直交通能耗數(shù)據(jù)上的預(yù)測(cè)值與實(shí)際值的對(duì)比。與通風(fēng)空調(diào)模型類似,XGBoost算法在測(cè)試集上的能耗預(yù)測(cè)值更接近實(shí)際值,預(yù)測(cè)效果最好。
統(tǒng)計(jì)各算法在垂直交通能耗數(shù)據(jù)測(cè)試集上的預(yù)測(cè)值與實(shí)際值,模型評(píng)價(jià)指標(biāo)如表4 和圖5 所示??梢钥闯觯魉惴ǖ木礁`差變異系數(shù)在5.4%~9.4%之間,均可達(dá)到工程應(yīng)用要求的精度。其中,XGBoost算法在預(yù)測(cè)精度上明顯優(yōu)于其他算法,預(yù)測(cè)值的均方根誤差僅為1.9 kW·h;其次為隨機(jī)森林算法,預(yù)測(cè)值的均方根誤差為2.5 kW·h。
圖4 垂直交通模型預(yù)測(cè)效果的對(duì)比 Figure 4 Comparison on the prediction performance of TRANS models
表4 各算法垂直交通能耗預(yù)測(cè)效果的評(píng)價(jià)指標(biāo)統(tǒng)計(jì) Table 4 Evaluation indices of the TRANS energy models
圖5 垂直交通模型評(píng)價(jià)指標(biāo)CV-RMSE Figure 5 CV-RMSE of TRANS models
對(duì)比各算法的模型訓(xùn)練所需的計(jì)算時(shí)間,結(jié)果如圖6 所示。最小二乘回歸、嶺回歸、Lasso 回歸的模型 調(diào)參簡(jiǎn)單,計(jì)算成本較低。隨機(jī)森林和XGBoost 模型需要調(diào)整的參數(shù)較多,交叉驗(yàn)證和網(wǎng)格搜尋需要的計(jì)算成本遠(yuǎn)高于其他幾種方法,隨機(jī)森林算法訓(xùn)練模型所需的計(jì)算時(shí)間約為415 s,而XGBoost 算法訓(xùn)練模型所需的計(jì)算時(shí)間超過1 000 s。
圖6 各算法模型訓(xùn)練的計(jì)算成本 Figure 6 Calculation costs of the data-driven methods
筆者研究了最小二乘多元線性回歸、嶺回歸、Lasso 回歸、隨機(jī)森林、XGBoost 算法在地下車站通風(fēng)空調(diào)和垂直交通能耗預(yù)測(cè)中的表現(xiàn),對(duì)比了各算法的預(yù)測(cè)精度和計(jì)算成本。結(jié)果顯示,對(duì)于地下車站通風(fēng)空調(diào)和垂直交通的能耗預(yù)測(cè),各算法的CV-RMSE都在10%以下,均可達(dá)到工程應(yīng)用要求的精度。其中,XGBoost 算法在通風(fēng)空調(diào)能耗預(yù)測(cè)中的CV-RMSE 僅為5.1%,在垂直交通能耗預(yù)測(cè)中的CV-RMSE 僅為5.4%,預(yù)測(cè)效果明顯優(yōu)于其他算法。從計(jì)算成本來看,最小二乘回歸、嶺回歸、Lasso 回歸的計(jì)算成本較低,隨機(jī)森林和XGBoost 模型這兩個(gè)基于樹的非線性模型需要調(diào)整的參數(shù)較多,交叉驗(yàn)證和網(wǎng)格搜尋需要的計(jì)算成本遠(yuǎn)高于其他幾種方法。綜合考慮計(jì)算成本和預(yù)測(cè)精度,在工程應(yīng)用中推薦采用最小二乘多元線性回歸(精度可接受,計(jì)算成本最低),如對(duì)精度有較高要求,推薦采用XGBoost 算法(精度高,計(jì)算成本可接受)。
本研究介紹了能耗預(yù)測(cè)領(lǐng)域常用數(shù)據(jù)驅(qū)動(dòng)算法的原理及各算法需要尋優(yōu)的參數(shù)。以地下2 層的標(biāo)準(zhǔn)車站為例,對(duì)比了多種基于數(shù)據(jù)驅(qū)動(dòng)算法在通風(fēng)空調(diào)和垂直交通系統(tǒng)能耗預(yù)測(cè)中的表現(xiàn),為工程應(yīng)用中地下車站能耗預(yù)測(cè)模型的搭建和算法調(diào)參提供了方法參考。