王珣玥, 馮文亮、2
(1.北京市公用事業(yè)科學(xué)研究所,北京100011;2.北京市建設(shè)工程質(zhì)量第四檢測(cè)所,北京100011)
目前,對(duì)于供暖室內(nèi)溫度預(yù)測(cè)的研究引起了學(xué)者們的廣泛關(guān)注。2017年,龐明月等人[1]采用粒子群優(yōu)化算法對(duì)支持向量機(jī)方法進(jìn)行優(yōu)化,利用優(yōu)化后的模型對(duì)288組數(shù)據(jù)進(jìn)行實(shí)驗(yàn),結(jié)果表明此模型對(duì)于建筑室內(nèi)溫度的預(yù)測(cè)有著較高的精度。2018年,孫燾等人[2]基于供熱系統(tǒng)的傳熱物理規(guī)律建立優(yōu)化模型,提出了最小二乘意義上的時(shí)延求解剪枝算法,完成了室內(nèi)溫度預(yù)測(cè),適用于工程計(jì)算。2019年,潘世英等人[3]構(gòu)建了基于MLP神經(jīng)網(wǎng)絡(luò)的室內(nèi)溫度預(yù)測(cè)模型,預(yù)測(cè)結(jié)果顯示預(yù)測(cè)室內(nèi)溫度與實(shí)測(cè)室內(nèi)溫度的平均相對(duì)誤差為-2.27%。
為了得到更為精確的預(yù)測(cè)效果,本文在多元線性回歸和多層感知器(Multi-layer Perceptron,MLP)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,采用集成學(xué)習(xí)算法對(duì)供暖室內(nèi)溫度進(jìn)行預(yù)測(cè)研究。本文以北京市某小區(qū)作為研究對(duì)象,選取30 d供暖數(shù)據(jù),數(shù)據(jù)每隔0.5 h采集一次,采集參數(shù)包括一級(jí)管網(wǎng)供回水溫度、二級(jí)管網(wǎng)供回水溫度、用戶室內(nèi)溫度等。室外溫度數(shù)據(jù)從北京市氣象局獲取,數(shù)據(jù)為每隔1 h發(fā)布,將前后兩個(gè)時(shí)刻的室外溫度數(shù)據(jù)的平均值,作為室外溫度數(shù)據(jù)缺失的部分。
① 多元線性回歸的基本原理
在統(tǒng)計(jì)學(xué)中,線性回歸(Linear Regression)是利用稱為線性回歸方程的最小平方函數(shù)對(duì)一個(gè)或多個(gè)自變量和因變量之間關(guān)系進(jìn)行建模的一種回歸分析。這種函數(shù)是一個(gè)或多個(gè)稱為回歸系數(shù)的模型參數(shù)的線性組合。當(dāng)自變量大于一個(gè)時(shí),這種情況被稱為多元線性回歸。
設(shè)因變量為y,自變量為x1,x2,…,xn-1,xn,多元線性回歸數(shù)學(xué)模型為[4]:
y=β0+β1x1+β2x2+…+βn-1xn-1+βnxn+ε
(1)
式中y——因變量
β0,β1,…,βn-1,βn——回歸系數(shù)
n——自變量數(shù)量
x1,…,xn-1,xn——自變量
ε——隨機(jī)因素
② MLP神經(jīng)網(wǎng)絡(luò)的基本原理
MLP是對(duì)感知機(jī)模型的推廣,感知機(jī)模型是有若干輸入,一個(gè)輸出,輸出和輸入之間學(xué)習(xí)到一個(gè)線性關(guān)系,對(duì)于線性不可分?jǐn)?shù)據(jù),感知機(jī)模型不能識(shí)別。MLP是一個(gè)人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),它是前饋式并且具有監(jiān)督的,基本運(yùn)算單元為人工神經(jīng)元[5]。MLP神經(jīng)網(wǎng)絡(luò)包括輸入層、隱藏層和輸出層,不同層之間是全連接的,上一層的任何一個(gè)神經(jīng)元與下一層的所有神經(jīng)元都有連接。
基于反向傳播誤差算法的MLP神經(jīng)網(wǎng)絡(luò)模型的學(xué)習(xí)過程包括前向傳播和反向傳播,前向傳播是輸入數(shù)據(jù)到輸出的映射過程,反向傳播是將輸出結(jié)果與真實(shí)結(jié)果的誤差向前傳播的過程,通過傳播每一層的誤差來更新網(wǎng)絡(luò)的權(quán)重,反向傳播算法是用來優(yōu)化網(wǎng)絡(luò)參數(shù)最重要的手段。
③ 集成學(xué)習(xí)算法的基本原理
集成學(xué)習(xí)因其能顯著提高一個(gè)學(xué)習(xí)系統(tǒng)的泛化能力而得到了廣泛關(guān)注[6]。集成學(xué)習(xí)通過訓(xùn)練數(shù)據(jù),構(gòu)建起多個(gè)有差異的模型,最終通過結(jié)合得到一個(gè)最優(yōu)預(yù)測(cè)模型。結(jié)合方法包括平均法、投票法和學(xué)習(xí)法等。集成方法是將幾種機(jī)器學(xué)習(xí)技術(shù)組合成一個(gè)預(yù)測(cè)模型的元算法,以達(dá)到減小方差、偏差或改進(jìn)預(yù)測(cè)的效果。
集成方法可分為序列集成方法和并行集成方法,前者參與訓(xùn)練的基礎(chǔ)學(xué)習(xí)器按照順序生成,后者為并行生成。序列集成方法的原理為利用各基礎(chǔ)學(xué)習(xí)器的依賴關(guān)系,對(duì)之前訓(xùn)練中錯(cuò)誤標(biāo)記的樣本賦較高權(quán)重,用來提升預(yù)測(cè)效果,代表算法為Boosting。并行集成方法原理為利用各基礎(chǔ)學(xué)習(xí)器的獨(dú)立性,用平均來降低錯(cuò)誤,代表算法為Bagging和隨機(jī)森林。
選取北京市某小區(qū)連續(xù)30 d供暖數(shù)據(jù)和室外溫度數(shù)據(jù),數(shù)據(jù)按每隔0.5 h作為一個(gè)時(shí)刻的數(shù)據(jù),包括一級(jí)管網(wǎng)供水溫度、一級(jí)管網(wǎng)回水溫度、二級(jí)管網(wǎng)供水溫度、二級(jí)管網(wǎng)回水溫度、室外溫度和室內(nèi)溫度??紤]到供熱系統(tǒng)的滯后性和建筑系統(tǒng)的熱惰性,將預(yù)測(cè)時(shí)刻之前6個(gè)時(shí)刻的室外溫度、一級(jí)管網(wǎng)供水溫度、一級(jí)管網(wǎng)回水溫度、二級(jí)管網(wǎng)供水溫度、二級(jí)管網(wǎng)回水溫度,共30個(gè)特征值作為模型的輸入,將下一時(shí)刻的室內(nèi)溫度作為模型的輸出。
由于所選各個(gè)特征值的大小有著較大差別,為了防止建模過程中某些特征值的作用被放大而使預(yù)測(cè)結(jié)果不準(zhǔn)確,因此需要對(duì)特征值進(jìn)行歸一化處理。本文采用特征歸一化方法為min-max,通過對(duì)數(shù)據(jù)做線性變換,將原始數(shù)據(jù)值映射到[0,1]區(qū)間,基本公式為:
(2)
式中Xnorm——?dú)w一化后的數(shù)據(jù)
X——原始數(shù)據(jù)
Xmin——數(shù)據(jù)最小值
Xmax——數(shù)據(jù)最大值
對(duì)數(shù)據(jù)進(jìn)行歸一化處理后,使用歸一化的訓(xùn)練數(shù)據(jù)更加容易正確收斂到最優(yōu)解,并且模型尋優(yōu)過程更加平緩,從而提升模型精度。
本次實(shí)驗(yàn)中,采用平均相對(duì)誤差(mean relative error,MRE)和均方誤差(mean square error,MSE)作為衡量模型性能的指標(biāo)。平均相對(duì)誤差和均方誤差的計(jì)算式分別為:
(3)
(4)
式中IMRE——平均相對(duì)誤差
m——測(cè)試集樣本數(shù)量
yi——第i個(gè)實(shí)際值
IMSE——均方誤差
將當(dāng)前時(shí)刻的室內(nèi)溫度和之前6個(gè)時(shí)刻的室外溫度、一級(jí)管網(wǎng)供水溫度、一級(jí)管網(wǎng)回水溫度、二級(jí)管網(wǎng)供水溫度、二級(jí)管網(wǎng)回水溫度,共同作為一組數(shù)據(jù)。將前28 d共1 344組數(shù)據(jù)用于模型的建立,將后2 d共96組數(shù)據(jù)作為測(cè)試數(shù)據(jù)來測(cè)試所建立模型的性能并得到預(yù)測(cè)結(jié)果。
在前28 d共1 344組數(shù)據(jù)中,隨機(jī)選取6 d數(shù)據(jù)共288組數(shù)據(jù)作為模型的不變的評(píng)估數(shù)據(jù)。將剩余的22 d數(shù)據(jù)共1 056組數(shù)據(jù)作為模型的基礎(chǔ)訓(xùn)練數(shù)據(jù),采用Bagging的方式進(jìn)行有放回采樣,得到采樣后訓(xùn)練數(shù)據(jù),共1 056組;用采樣后訓(xùn)練數(shù)據(jù)構(gòu)建多元線性回歸模型,得到1個(gè)基模型。共重復(fù)進(jìn)行30次,得到30個(gè)基模型。MLP神經(jīng)網(wǎng)絡(luò)模型建立基模型的方法與多元線性回歸模型相同。在供暖室內(nèi)溫度預(yù)測(cè)階段,分別選取多元線性回歸模型和MLP神經(jīng)網(wǎng)絡(luò)模型中平均相對(duì)誤差指標(biāo)最優(yōu)的基模型,采用將選取的這兩個(gè)最優(yōu)基模型的預(yù)測(cè)結(jié)果進(jìn)行加權(quán)平均的方式來產(chǎn)生最終的集成學(xué)習(xí)模型預(yù)測(cè)結(jié)果。
對(duì)于MLP神經(jīng)網(wǎng)絡(luò)模型的參數(shù)及最終進(jìn)行集成的權(quán)重參數(shù),采用網(wǎng)格搜索的方式來獲得最優(yōu)模型的參數(shù)。對(duì)于集成的權(quán)重參數(shù),選擇步長(zhǎng)為0.1,MLP權(quán)重初始值為0.3,多元線性回歸模型權(quán)重初始值為0.7,進(jìn)行遍歷運(yùn)算,最終得到的最優(yōu)結(jié)果為多元線性回歸模型的權(quán)重為0.6,MLP神經(jīng)網(wǎng)絡(luò)模型的權(quán)重為0.4。對(duì)于MLP神經(jīng)網(wǎng)絡(luò)模型,采用RELU激活函數(shù),隱藏層設(shè)置為兩層。在實(shí)驗(yàn)過程中,當(dāng)學(xué)習(xí)率為0.001并且兩個(gè)隱藏層的神經(jīng)元均為32時(shí),效果最優(yōu)。
① 集成學(xué)習(xí)模型
經(jīng)過集成學(xué)習(xí)算法實(shí)驗(yàn),集成學(xué)習(xí)模型預(yù)測(cè)結(jié)果見圖1,為集成學(xué)習(xí)模型的室內(nèi)溫度預(yù)測(cè)值和實(shí)測(cè)值的對(duì)比曲線。集成學(xué)習(xí)模型預(yù)測(cè)結(jié)果的絕對(duì)誤差曲線見圖2,可以看出,絕對(duì)誤差絕對(duì)值的大部分都在0.3 ℃以內(nèi)。圖3為集成學(xué)習(xí)模型預(yù)測(cè)結(jié)果的相對(duì)誤差曲線,可以看出,相對(duì)誤差的大部分在1.3%以下。集成學(xué)習(xí)模型的整體預(yù)測(cè)效果較好。
圖1 集成學(xué)習(xí)模型預(yù)測(cè)結(jié)果
② 多元線性回歸模型
在實(shí)驗(yàn)過程中,效果最優(yōu)的多元線性回歸模型預(yù)測(cè)結(jié)果見圖4,為多元線性回歸模型的室內(nèi)溫度預(yù)測(cè)值和實(shí)測(cè)值的對(duì)比曲線。多元線性回歸模型預(yù)測(cè)結(jié)果的絕對(duì)誤差曲線見圖5,將圖5和圖2對(duì)比可看出,圖5的絕對(duì)誤差較大。圖6為多元線性回歸模型預(yù)測(cè)結(jié)果的相對(duì)誤差曲線,和圖3進(jìn)行對(duì)比可看出,圖6的相對(duì)誤差較大。
圖2 集成學(xué)習(xí)模型絕對(duì)誤差曲線
圖3 集成學(xué)習(xí)模型相對(duì)誤差曲線
圖4 多元線性回歸模型預(yù)測(cè)結(jié)果
圖5 多元線性回歸模型絕對(duì)誤差曲線
③ MLP神經(jīng)網(wǎng)絡(luò)模型
在實(shí)驗(yàn)過程中,效果最優(yōu)的MLP神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)結(jié)果見圖7,為MLP神經(jīng)網(wǎng)絡(luò)模型的室內(nèi)溫度預(yù)測(cè)值和實(shí)測(cè)值的對(duì)比曲線。圖8為MLP神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)結(jié)果的絕對(duì)誤差曲線,將圖8和圖2對(duì)比可看出,圖8的絕對(duì)誤差較大。圖9為MLP神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)結(jié)果的相對(duì)誤差曲線,和圖3進(jìn)行對(duì)比可看出,圖9的相對(duì)誤差較大。
圖6 多元線性回歸模型相對(duì)誤差曲線
圖7 MLP神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)結(jié)果
圖8 MLP神經(jīng)網(wǎng)絡(luò)模型絕對(duì)誤差曲線
圖9 MLP神經(jīng)網(wǎng)絡(luò)模型相對(duì)誤差曲線
將集成學(xué)習(xí)模型、多元線性回歸模型和MLP神經(jīng)網(wǎng)絡(luò)模型平均相對(duì)誤差和均方誤差進(jìn)行對(duì)比,見表1。可以看出,采用集成學(xué)習(xí)模型的平均相對(duì)誤差和均方誤差均小于單個(gè)模型的多元線性回歸模型和MLP神經(jīng)網(wǎng)絡(luò)模型。這是因?yàn)椴煌P驮谕环萦?xùn)練數(shù)據(jù)中的表現(xiàn)會(huì)有差異,綜合不同模型的表現(xiàn),能夠在一定程度上提高模型的泛化能力和預(yù)測(cè)性能。
表1 集成學(xué)習(xí)模型、多元線性回歸模型和MLP神經(jīng)網(wǎng)絡(luò)模型平均相對(duì)誤差和均方誤差對(duì)比
提出利用基于多元線性回歸模型和MLP神經(jīng)網(wǎng)絡(luò)模型的集成學(xué)習(xí)算法對(duì)供暖室內(nèi)溫度預(yù)測(cè)進(jìn)行研究。以北京市某小區(qū)作為研究對(duì)象,選取30 d供暖數(shù)據(jù)和室外溫度數(shù)據(jù),將預(yù)測(cè)時(shí)刻之前6個(gè)時(shí)刻的室外溫度、一級(jí)管網(wǎng)供水溫度、一級(jí)管網(wǎng)回水溫度、二級(jí)管網(wǎng)供水溫度、二級(jí)管網(wǎng)回水溫度,共30個(gè)特征值作為模型的輸入,將下一時(shí)刻的室內(nèi)溫度作為模型的輸出。研究結(jié)果表明,采用集成學(xué)習(xí)模型的平均相對(duì)誤差和均方誤差均小于單個(gè)模型的多元線性回歸模型和MLP神經(jīng)網(wǎng)絡(luò)模型,預(yù)測(cè)效果較好,平均相對(duì)誤差為0.802 2%,均方誤差為0.057 665 ℃2。