王春青,王 凇,鄭 楊,許添強(qiáng),張 晗,李 超,王亦姝
1吉林建筑大學(xué) 市政與環(huán)境工程學(xué)院,長春 130118 2吉林省宇光熱電有限公司,長春 130000
目前,建筑能耗占我國總能源消耗的40 %,建筑能耗中又以供熱制冷為主[1].隨著國家對節(jié)能的重視以及計量供熱的逐步推廣,如何及時準(zhǔn)確地調(diào)整實際供熱負(fù)荷成為至關(guān)重要的問題.由于供熱系統(tǒng)滯后性特點,采取調(diào)節(jié)措施之后需要一段時間才能起到控制作用,故有必要提前預(yù)測負(fù)荷變化趨勢,以便提前應(yīng)對,確保負(fù)荷供應(yīng)與用戶實際需求相匹配,避免造成能源浪費.
近年來,在負(fù)荷預(yù)測方面,國內(nèi)常采用時間序列(Time series,縮寫TS)、神經(jīng)網(wǎng)絡(luò)(Neural Networks,縮寫NN)和支持向量機(jī)(Support vector machine,縮寫SVM)等方法.鄧盛川等[2]人通過自回歸積分移動平均(Autoregressive integral moving average,縮寫ARIMA)模型預(yù)測未來24 h的熱負(fù)荷,得到預(yù)測最大誤差為 3.14 %,但該模型對歷史數(shù)據(jù)要求高,易受負(fù)荷變化影響,抗干擾能力較弱.王美萍等[3]人通過對供熱負(fù)荷影響因素分析改善了小波神經(jīng)網(wǎng)絡(luò),結(jié)果表明采用相關(guān)性較大的影響因素作為輸入變量預(yù)測結(jié)果更接近實際值,然而該方法仍無法從根本上解決神經(jīng)網(wǎng)絡(luò)易陷于局部極小值,存在“過擬合”等問題.支持向量機(jī)回歸(Support vector machine regression,縮寫SVMR)是在SVM理論基礎(chǔ)上推廣的回歸算法.該方法具有可靠的統(tǒng)計理論基礎(chǔ),能很好地適應(yīng)高維度和小樣本數(shù)據(jù),使其用于供熱負(fù)荷多因素非線性預(yù)測成為可能.
本文針對供熱系統(tǒng)的影響因素及SVMR參數(shù)重要性,擬嘗試按照交叉驗證(Cross validation,縮寫CV)與網(wǎng)格搜索(Grid search,縮寫GS)和CV與遺傳算法(Genetic algorithm,縮寫GA)相結(jié)合的思想構(gòu)建GS-KCV-SVMR模型和GA-KCV-SVMR模型,這樣既能彌補(bǔ)以往參數(shù)選擇時經(jīng)驗不足,又能利用GS和GA的全局搜索能力,克服訓(xùn)練時間過長等缺點.
設(shè)數(shù)據(jù)訓(xùn)練樣本為:
S={(x1,y1),(x2,y2),…,(xn,yn)},xi∈Rn,yi∈R
(1)
式中,xi為樣本空間內(nèi)的輸入向量;yi為樣本空間內(nèi)的輸出向量;n為高維空間向量的維數(shù);i為樣本數(shù).
根據(jù)統(tǒng)計學(xué)理論在特征空間中構(gòu)造最優(yōu)回歸函數(shù):
yi=f(xi)=ωφ(xi)+b
(2)
式中,ω為權(quán)值向量;φ(xi)為映射函數(shù);b為偏置量.
SVMR主要是通過非線性變換使下方目標(biāo)函數(shù)最小化:
(3)
式中,C為懲罰參數(shù);ω為上式的權(quán)值向量;ε為誤差上限,即當(dāng)預(yù)測值f(xi)與實際值yi的誤差不超過給定誤差精度ε時,說明回歸函數(shù)與該點是擬合的.
引入拉格朗日乘子和對偶理論[4],最終數(shù)學(xué)描述如下:
(4)
(5)
式(4),式(5)中,αi,αi*,αj,αj*為Lagrange乘子;ε為上式的誤差上限;K(xi,xj)為內(nèi)積核函數(shù).核函數(shù)共有4種,由于徑向基函數(shù)(Radial basis function,縮寫RBF)應(yīng)用范圍廣,且只有一個待優(yōu)化參數(shù)γ,因此本文選用RBF為核函數(shù),其表達(dá)式為:K(xi,xj)=exp(-γ‖xi-xj‖2)
(1) 懲罰參數(shù)C表示預(yù)測值與實際值擬合偏差的懲罰程度,C越大越重視離群點,越趨向于訓(xùn)練集,擬合度較好,但泛化能力差;C越小,對離群點懲罰越小,容錯能力增強(qiáng),擬合度越差.
(2) 核函數(shù)參數(shù)γ反應(yīng)訓(xùn)練數(shù)據(jù)特性,影響每個支持向量對應(yīng)高斯作用范圍,當(dāng)γ過小即σ過大時,模型測試效果較差,訓(xùn)練效果較好,易出現(xiàn)“過擬合”現(xiàn)象;反之當(dāng)γ過大即σ過小時,模型平滑效應(yīng)太大,測試效果不好,訓(xùn)練誤差也大,易出現(xiàn)“欠擬合”現(xiàn)象.
在參數(shù)尋優(yōu)方法中,CV可適用于數(shù)據(jù)量不大的樣本,能夠有效避免“過擬合”與“欠擬合”[6].CV的基本思想是將原始數(shù)據(jù)劃分成訓(xùn)練集和驗證集,通過訓(xùn)練集建模,再用驗證集測試.最常用的CV方法是K折交叉驗證(K fold cross validation,縮寫KCV),KCV將樣本分割成K組,其中一組作為驗證集,剩下K-1組作為訓(xùn)練集,交叉驗證重復(fù)K次,最終得到K組模型,將每組模型測試結(jié)果相應(yīng)評價指標(biāo)的平均數(shù)作為KCV性能指標(biāo),該方法使所有數(shù)據(jù)都參與了驗證,結(jié)果具有說服力.董美蓉等[7]人研究表明,當(dāng)K=5時最低均方誤差(Mean square error,縮寫MSE)最小,故本文采用5折交叉驗證,評價指標(biāo)為均方誤差MSEcv,即:
(6)
式中,yi為實際值;f(xi)為預(yù)測值.對預(yù)測模型而言,MSEcv值越小表示預(yù)測精度越高,反之預(yù)測精度越低.
GS是一種基于窮舉法的最基本參數(shù)優(yōu)化算法[8],其實質(zhì)是將待優(yōu)化參數(shù)賦值在一定范圍的坐標(biāo)系中,通過調(diào)整搜索范圍和步長,每一點對應(yīng)一組參數(shù),GS-KCV-SVMR模型操作步驟如下:
(1) 確定參數(shù)C,γ的取值范圍為C,γ∈[2-8,28],設(shè)置參數(shù)步長為1.
(2) 用KCV方法計算模型MSE值,并取平均值.若多組參數(shù)的評價指標(biāo)相近,選取C最小的一組,若相同的C對應(yīng)多個γ時,選擇第一組為最佳參數(shù)對.這種方法既保證尋找出的參數(shù)是交叉驗證下的全局最優(yōu)解,又具有較好的擬合度和泛化能力.
(3) 不斷重復(fù)步驟(2),直至找出最佳參數(shù).具體流程如圖1所示.
圖1 GS-KCV-SVMR優(yōu)化流程Fig.1 Optimization process of GS-KCV-SVMR
圖2 GA-KCV-SVMR優(yōu)化流程Fig.2 Optimization process of GA-KCV-SVMR
GA是Holland受達(dá)爾文進(jìn)化論啟發(fā)而提出的一種通過模擬自然進(jìn)化過程搜索全局最優(yōu)解的算法.該算法通過數(shù)學(xué)方法將優(yōu)化目標(biāo)參數(shù)組編碼至生物染色體中,再選擇適應(yīng)度大的染色體復(fù)制、交叉、變異,直至適應(yīng)度最佳的個體產(chǎn)生.由于其具有高效性、魯棒性和全局最優(yōu)性,已被廣泛用于機(jī)器學(xué)習(xí)、圖像處理和組合優(yōu)化等領(lǐng)域.最主要的步驟是確定種群規(guī)模、編碼方式、適應(yīng)度函數(shù)及自身參數(shù)設(shè)定.GA優(yōu)化SVMR參數(shù)流程如圖2所示.
(1) 初始化SVMR參數(shù),設(shè)置C,γ∈[2-8,28].
(2) 初始化種群及編碼方式,設(shè)置種群規(guī)模為100,進(jìn)化代數(shù)為30,采用由0,1組成的二進(jìn)制編碼.
(3) 計算適應(yīng)度,本文采用的適應(yīng)度為式(6)的均方誤差.
(4) 個體選擇,本文模擬轉(zhuǎn)盤旋轉(zhuǎn)過程,適應(yīng)度越大即均方誤差越小的個體被選中的概率越大.
(5) 交叉遺傳,設(shè)置交叉概率為0.8.
(6) 變異操作,為增加種群多樣性避免陷入局部最小值,隨機(jī)選擇發(fā)生變異基因,設(shè)置變異概率為0.2.
本文采集了長春市某住宅小區(qū)換熱站低區(qū)數(shù)據(jù),供熱面積為168 616.7 m2,選取該區(qū)2020年10月23日~2021年4月2日供暖數(shù)據(jù)為樣本,以天為單位,共計163組.采集數(shù)據(jù)包括室外環(huán)境溫度、二次網(wǎng)供回水溫度、二次網(wǎng)供回水壓力和累計供熱負(fù)荷等.
由于數(shù)據(jù)采集周期較長,易受人為操作,儀器故障等影響產(chǎn)生少量缺失值和異常值,SVMR模型對這些異常數(shù)據(jù)極為敏感,因此需在建模前對此類數(shù)據(jù)進(jìn)行處理.本文結(jié)合插值法和多項式擬合法:對單一異常值,采用插值替換法即用其前后相鄰數(shù)據(jù)的平均值替換原值;對局部異常值,采用多項式擬合平滑處理.考慮到各類數(shù)據(jù)的量級、單位不同,采用Mapminmax函數(shù)將所有數(shù)據(jù)歸一化處理至[0,1]的概率分布中,變?yōu)闊o量綱表達(dá)式,從而簡化計算.
供熱負(fù)荷預(yù)測的影響因素主要有室外天氣因素和系統(tǒng)運行因素.室外因素有室外溫度、風(fēng)速風(fēng)向和太陽輻射等,其中室外溫度對熱負(fù)荷的影響最大[9];系統(tǒng)運行因素有供回水溫度和供回水壓力等.張佼等[10]人研究表明,在輸入變量中加入前3 d熱負(fù)荷可更好地滿足預(yù)測精度要求.故本文將室外溫度、二次網(wǎng)供回水溫度、二次網(wǎng)供回水壓力、當(dāng)日前3 d供熱負(fù)荷作為初步輸入變量,將當(dāng)日后第7 d供熱負(fù)荷即預(yù)測日負(fù)荷作為輸出變量.然后通過皮爾遜相關(guān)系數(shù)法分析各輸入變量與輸出變量的相關(guān)性和顯著性,分析結(jié)果見表1.
表1 各輸入變量與預(yù)測日供熱負(fù)荷相關(guān)性及顯著性分析Table 1 Correlation and significance analysis of each input variable and the heating load on the predicted day
由表1可見,室外溫度、供回水溫度和當(dāng)日前3 d負(fù)荷與預(yù)測日負(fù)荷均呈非常顯著的強(qiáng)相關(guān)性,其中前3 d負(fù)荷距離當(dāng)日時間越近相關(guān)性越強(qiáng),滿足時間序列中的熱惰性滯后等特點;回水壓力與預(yù)測日負(fù)荷呈不顯著、弱相關(guān),因此將該因素剔除,供水壓力雖與預(yù)測日負(fù)荷呈非常顯著、弱相關(guān),但為保證模型準(zhǔn)確度,不將此變量作為輸入變量.
綜上,本文以室外溫度Tw、供水溫度Tg、回水溫度Th和當(dāng)日前3 d的供熱負(fù)荷Qt-1,Qt-2,Qt-3為輸入變量,以預(yù)測日的供熱負(fù)荷Qt+7為輸出變量.預(yù)測模型的表達(dá)式為:
Qt+7=f(Tw,Tg,Th,Qt-1,Qt-2,Qt-3)
(7)
除上文中選用的MSE外,回歸中還用平均絕對誤差MAE(Mean absolute error,縮寫MAE)和擬合優(yōu)度R2作評價指標(biāo),具體公式如下:
(8)
(9)
本文以采暖季2020年10月23日~2021年3月5日數(shù)據(jù)為訓(xùn)練樣本,以2021年3月6日~2021年4月2日數(shù)據(jù)為測試樣本.表2為不同優(yōu)化模型下懲罰參數(shù)C和核函數(shù)參數(shù)γ選擇結(jié)果,其中SVMR模型參數(shù)由人工試算得出,GA-KCV-SVMR的適應(yīng)度曲線如圖3所示,將兩種方法優(yōu)化后的參數(shù)輸入SVMR模型并進(jìn)行下一步預(yù)測.
表2 不同優(yōu)化模型下參數(shù)選擇結(jié)果Table 2 Parameter selection results under different optimization models
圖3 GA-KCV-SVMR的適應(yīng)度曲線Fig.3 The fitness curve of GA-KCV-SVMR
對樣本數(shù)據(jù)進(jìn)行訓(xùn)練.由SVMR模型、網(wǎng)格搜索優(yōu)化模型和遺傳算法優(yōu)化模型得到供熱負(fù)荷預(yù)測值、供熱負(fù)荷實際值及它們之間的相對誤差RE(Relative error,縮寫RE),如圖4~圖5所示.
由圖4可知,SVMR,GS-KCV-SVMR,GA-KCV-SVMR均相對成功地預(yù)測了未來7 d的負(fù)荷變化趨勢,相比其他模型SVMR誤差偏大,進(jìn)一步說明了參數(shù)優(yōu)化對負(fù)荷預(yù)測模型的影響.由圖5可知,SVMR預(yù)測模型相對誤差較大,最大值為±18 %,GS-KCV-SVMR,GA-KCV-SVMR相對誤差較小,平均值分別為±10 %和±5 %.
圖4 不同預(yù)測模型3月13日~4月9日供熱負(fù)荷預(yù)測曲線Fig.4 Heating load predicted curve of different predicting models from March 13 to April 9
圖5 不同預(yù)測模型3月13日~4月9日供熱負(fù)荷預(yù)測相對誤差Fig.5 The relative error of heating load predicted by different predicting models from March 13 to April 9
圖6為不同預(yù)測模型評價指標(biāo)對比,由圖6可見,3種預(yù)測模型的擬合優(yōu)度R2均超過了80 %,其中GA-KCV-SVMR分別比SVMR和GS-KCV-SVMR提高了11 %和13 %;GA-KCV-SVMR的MSE值為88.68,分別比SVMR和GS-KCV-SVMR減少了289.86和37.01;此外,SVMR的MAE值最大,分別比GS-KCV-SVMR和GA-KCV-SVMR增加了7.13和6.42.
圖6 不同預(yù)測模型評價指標(biāo)對比Fig.6 Comparison of evaluation indexes of different prediction models
(1) 本文以室外溫度和系統(tǒng)運行影響因素為輸入變量,建立了SVMR供熱負(fù)荷預(yù)測模型,并通過網(wǎng)格搜索和遺傳算法優(yōu)化模型參數(shù),克服了傳統(tǒng)SVMR模型參數(shù)選擇的盲目性和隨意性,按照交叉驗證思想,有效避免“過擬合”與“欠擬合”,為預(yù)測模型建模提供了參考.
(2) 仿真結(jié)果表明,經(jīng)遺傳算法優(yōu)化,SVMR模型最大相對誤差RE為±8 %、均方誤差MSE為88.68、擬合優(yōu)度R2為96 %,優(yōu)勢較為明顯,在熱源分配和運行調(diào)度方面有一定實用價值.