李惠蓉,王新生
經(jīng)濟(jì)全球化帶動(dòng)了電力市場(chǎng)的全球化進(jìn)程,電力市場(chǎng)的一個(gè)尤為重要的組成部分便是電力價(jià)格,全球各個(gè)地區(qū)電力市場(chǎng)的發(fā)展都要受電力價(jià)格的影響[1-2]。而短期電力價(jià)格預(yù)測(cè)的范圍在10 min至1周,該短期電價(jià)的預(yù)測(cè)結(jié)果可指導(dǎo)發(fā)電公司設(shè)計(jì)合理、有效的電價(jià)條款。一個(gè)精確可靠的短期電價(jià)預(yù)測(cè)模型有益于發(fā)電公司創(chuàng)造營(yíng)收、躲避風(fēng)險(xiǎn)和擴(kuò)大規(guī)模,因此深入研究短期電價(jià)預(yù)測(cè)顯得尤為必要。
目前,比較常見(jiàn)的電價(jià)預(yù)測(cè)方式包括時(shí)間序列預(yù)測(cè)方式[3]、灰色模型預(yù)測(cè)方式[4]以及智能預(yù)測(cè)方式。而時(shí)間序列預(yù)測(cè)方式主要采用的電價(jià)預(yù)測(cè)模型具體指自回歸條件異方差模型(GARCH)、自回歸積分滑動(dòng)平均模型(ARIMA)以及自回歸滑動(dòng)平均模型(ARMA)。時(shí)間序列預(yù)測(cè)方式有著計(jì)算過(guò)程簡(jiǎn)單的優(yōu)點(diǎn),但缺點(diǎn)是無(wú)法準(zhǔn)確擬合出短期電價(jià)的非線性特征,以致短期電價(jià)預(yù)測(cè)結(jié)果精確性不足;灰色模型預(yù)測(cè)方式原理是將灰色過(guò)程代替電價(jià)變化,繼而構(gòu)建灰色電價(jià)模型并求解,缺點(diǎn)也是電價(jià)預(yù)測(cè)結(jié)果精確性不足;智能預(yù)測(cè)方式是在當(dāng)前機(jī)器學(xué)習(xí)和大數(shù)據(jù)等計(jì)算機(jī)技術(shù)快速進(jìn)步環(huán)境下提出的一種電價(jià)預(yù)測(cè)方式,目前該方式的缺點(diǎn)是一般采用單一機(jī)器學(xué)習(xí)方式導(dǎo)致電價(jià)預(yù)測(cè)的全面性不足,容易出現(xiàn)精度和魯棒性低的問(wèn)題。可見(jiàn)若訓(xùn)練幾個(gè)具有不同角度擬合方式的效果較佳的模型,并組合在一起,可獲得一個(gè)魯棒性好、預(yù)測(cè)精度高的電價(jià)預(yù)測(cè)模型。
Blending方法采用的集成框架為多層類串聯(lián)方式,直接用不相交的數(shù)據(jù)集用于不同層的訓(xùn)練。其使用按比例切分的方式對(duì)數(shù)據(jù)進(jìn)行分割和訓(xùn)練,形成一個(gè)Hold-out集合作為二級(jí)特征,用于訓(xùn)練下一層的基學(xué)習(xí)器。因其結(jié)構(gòu)簡(jiǎn)單且預(yù)測(cè)精度高,應(yīng)用廣泛[5]。
本文根據(jù)集成學(xué)習(xí)原理,不斷對(duì)比測(cè)試后設(shè)計(jì)了一種基于Blending學(xué)習(xí)方式的集成不同基礎(chǔ)學(xué)習(xí)器的短期電價(jià)預(yù)測(cè)模型,該模型集成了3種機(jī)器學(xué)習(xí)模型,包括梯度回歸樹(shù)(Gradient Boosting Regression Tree)模型、隨機(jī)森林(Random Forest)模型和XGBoost(Extreme Gradient Boosting)模型。集成模型與3種單一模型對(duì)比發(fā)現(xiàn),本文提出的模型具有電價(jià)預(yù)測(cè)精度高、魯棒性強(qiáng)的優(yōu)點(diǎn)。
Breiman和Cutler等借助隨機(jī)決策森林方法的基本原理,其中隨機(jī)森林由分類回歸樹(shù)組合而成,對(duì)變量和數(shù)據(jù)的使用上采用隨機(jī)化方式,得到眾多回歸分類樹(shù)之后,對(duì)其結(jié)果進(jìn)行了匯總。
基于隨機(jī)森林預(yù)測(cè)回歸方法,針對(duì)歷史電價(jià)數(shù)據(jù)搭建了相關(guān)子預(yù)測(cè)模型,該隨機(jī)森林回歸方法與bagging策略有所相似,子預(yù)測(cè)模型的搭建流程如下。
(1)采用有放回Bootstrap的采樣方法,從歷史電價(jià)數(shù)據(jù)中獲取n個(gè)樣本。
(2)在n個(gè)樣本中構(gòu)建特征屬性,并從這些特征屬性中選取k個(gè)將最佳分割點(diǎn)屬性作為CART決策樹(shù)的節(jié)點(diǎn)。
(3)將上述兩步重復(fù)m次,可以得到m顆CART決策樹(shù),并對(duì)得到的決策樹(shù)不剪枝,使之成長(zhǎng)最大化。
(4)加總?cè)繘Q策樹(shù),求取平均值后可對(duì)未來(lái)電價(jià)進(jìn)行預(yù)測(cè)工作。
由于隨機(jī)森林預(yù)測(cè)回歸方法是基于有放回Bootstrap的采樣方法,因此每顆決策樹(shù)在電價(jià)特征屬性層面上是平等的,而且每顆決策樹(shù)的訓(xùn)練是全面且不偏不倚,隨機(jī)森林預(yù)測(cè)回歸方法不受多元共線性干擾,若出現(xiàn)部分歷史電價(jià)數(shù)據(jù)缺失或不準(zhǔn),依舊不影響預(yù)測(cè)結(jié)果,是作為基礎(chǔ)學(xué)習(xí)器的良好特性。
本文選取的梯度回歸樹(shù)(Gradient boosting Regression Tree)模型采用梯度提升回歸樹(shù)(GBRT)算法[6]。梯度提升決策樹(shù)算法由Friedman首次提出,其原理與一般的模型樹(shù)和回歸樹(shù)算法原理有所不同,其特點(diǎn)是迭代過(guò)程中后一弱學(xué)習(xí)器訓(xùn)練需對(duì)前一弱學(xué)習(xí)器的殘差進(jìn)行擬合,擬合方向?yàn)樽畲笙陆堤荻取?/p>
選取梯度提升決策樹(shù)作為基礎(chǔ)學(xué)習(xí)器的原因是,其既能較好處理離散值,也能較好處理連續(xù)值,有著較強(qiáng)的數(shù)據(jù)適應(yīng)能力,只需簡(jiǎn)單優(yōu)化參數(shù)就能有準(zhǔn)確性較高的結(jié)果。
該梯度提升決策樹(shù)算法基于以下偽代碼構(gòu)建而成:
陳天奇博士首次提出XGBoost算法,該算法有著性能高效的特點(diǎn),廣泛應(yīng)用于數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)領(lǐng)域。本文采用該算法作為boosting算法,XGBoost算法抽樣方式與隨機(jī)森林回歸算法的抽樣方式類似,具有計(jì)算量一致但可防止過(guò)擬合的特點(diǎn);在二階泰勒展開(kāi)代價(jià)函數(shù)后,訓(xùn)練集上的收斂速度加快,大幅度提升訓(xùn)練速度;其注入正則項(xiàng)至代價(jià)函數(shù),簡(jiǎn)化了訓(xùn)練下的模型,增強(qiáng)了模型的泛化能力,防過(guò)擬合能力得到一定程度提升。XGBoost算法采用多核并行實(shí)現(xiàn)計(jì)算方式,C/C++作為編程語(yǔ)言,運(yùn)行速度比其他模型更快。
Blending最早出現(xiàn)在Netflix數(shù)據(jù)挖掘比賽中,由Netflix的獲勝者引入,它的實(shí)質(zhì)是一種多層的串行學(xué)習(xí)系統(tǒng)[7]。Blending方法前期使用按比例切分的方式將原始特征重建成一個(gè)Hold-out集合,并當(dāng)作一個(gè)二級(jí)特征,接著常規(guī)訓(xùn)練和擬合經(jīng)變換所得二級(jí)特征。Blending集成框架模型融合組合后的不同類型的基礎(chǔ)學(xué)習(xí)器,由于原始數(shù)據(jù)在不同的基礎(chǔ)學(xué)習(xí)器下的學(xué)習(xí)有著較大的不同,因此可從各個(gè)角度探究特征空間,使他們的最終預(yù)測(cè)結(jié)果得以融合。采用該方法可使最后的預(yù)測(cè)結(jié)果考慮因素較為全面,效果比單一基礎(chǔ)學(xué)習(xí)器的預(yù)測(cè)結(jié)果更為精確。
本文應(yīng)用的Blending集成框架的結(jié)構(gòu)有兩層,具體結(jié)構(gòu)如圖1所示。在第一層(Level1),對(duì)原始數(shù)據(jù)進(jìn)行按比例劃分,得到訓(xùn)練集和測(cè)試集(test_set),其中訓(xùn)練集需要再次劃分為訓(xùn)練集(train_set)和驗(yàn)證集(val_set),接著使用train_set創(chuàng)建Level1的n個(gè)基礎(chǔ)學(xué)習(xí)器(這n個(gè)基礎(chǔ)學(xué)習(xí)器既可以是同質(zhì)的也可以是異質(zhì)的),然后運(yùn)用Level1訓(xùn)練好的基礎(chǔ)學(xué)習(xí)器去預(yù)測(cè)val_set和test_set,重新構(gòu)建得到一個(gè)Hold-out集合用作第二層(Level2)的新特征。使用新的特征去訓(xùn)練Level2的新基礎(chǔ)學(xué)習(xí)器,最終得到整個(gè)測(cè)試集的預(yù)測(cè)結(jié)果,整個(gè)Blending的過(guò)程就結(jié)束了。
圖1 Blending集成方法框架
將電價(jià)短期預(yù)測(cè)范圍設(shè)置為3天,電價(jià)歷史數(shù)據(jù)選取自2014年1月1日至2017年6月15日美國(guó)加州3年半內(nèi)的每個(gè)小時(shí)電價(jià)歷史數(shù)據(jù)。表1為原始的電價(jià)數(shù)據(jù)統(tǒng)計(jì)信息表,表中不僅包含歷史電價(jià)數(shù)據(jù),還包含了在此電價(jià)記錄數(shù)據(jù)下的區(qū)域負(fù)荷數(shù)據(jù)z及區(qū)域總負(fù)荷數(shù)據(jù)t。建模采用Python3.5,統(tǒng)計(jì)分析采用pandas庫(kù)。
根據(jù)表1記錄的原始數(shù)據(jù)信息,將電價(jià)設(shè)置為數(shù)據(jù)標(biāo)簽,并作為回歸模型擬合對(duì)象。圖2表示電價(jià)頻率直方圖。
表1 電價(jià)歷史數(shù)據(jù)的變量統(tǒng)計(jì)信息
圖2 電價(jià)頻率直方圖
根據(jù)圖2可知,圖中整體呈現(xiàn)向左側(cè)偏移的特點(diǎn),后續(xù)有較長(zhǎng)的延伸,且這些延伸中會(huì)出現(xiàn)較高的點(diǎn)。若是將這些數(shù)據(jù)導(dǎo)入模型,將會(huì)對(duì)預(yù)測(cè)模型的準(zhǔn)確性產(chǎn)生影響,因此可將電機(jī)數(shù)據(jù)log變換后使之正態(tài)分布,并依據(jù)變換后數(shù)據(jù)重新構(gòu)建模型,可使預(yù)測(cè)結(jié)果精確性提升。圖3表示總負(fù)荷頻率直方圖和區(qū)域負(fù)荷頻率直方圖。
依據(jù)圖3可知,在分布特性上總負(fù)荷頻率直方圖與區(qū)域負(fù)荷頻率直方圖有著較高的相似性,有0.97的皮爾遜(Pearson)相關(guān)系數(shù)值,而電價(jià)與總負(fù)荷頻率、區(qū)域負(fù)荷頻率的皮爾遜相關(guān)系數(shù)值相對(duì)較低,表2為它們的皮爾遜相關(guān)系數(shù)值。
仿真檢測(cè)發(fā)現(xiàn)短期電價(jià)預(yù)測(cè)的一些特征,與它的+1/-1、+2/-2天特征的相關(guān)性較強(qiáng),因此加入包含+1/-1、+2/-2天特征信息的數(shù)據(jù)特征。
歷史電價(jià)數(shù)據(jù)選取自2014年1月1日至2017年6月15日之間美國(guó)加州3年半內(nèi)的每個(gè)小時(shí)電價(jià)歷史數(shù)據(jù)。為實(shí)現(xiàn)短期電價(jià)預(yù)測(cè)的目標(biāo),將自2014年1月1日至2017年6月12日之間的歷史電價(jià)數(shù)據(jù)作為訓(xùn)練及驗(yàn)證集,將自2017年6月13—15日的電價(jià)數(shù)據(jù)當(dāng)作測(cè)試集[8]。
根據(jù)上文介紹,將梯度回歸樹(shù)模型、隨機(jī)森林模型和XGBoost模型這3種單一模型作為對(duì)比模型,與經(jīng)Blending集成方法的集成模型進(jìn)行比較。第一步,分別對(duì)這3種單一模型進(jìn)行相關(guān)訓(xùn)練;第二步,經(jīng)Blending集成方法集成3種單一基礎(chǔ)回歸學(xué)習(xí)器后,作為集成模型的第一層基礎(chǔ)回歸學(xué)習(xí)器;第三步,將XGBoost基礎(chǔ)學(xué)習(xí)器作為第二層的基礎(chǔ)回歸學(xué)習(xí)器;最后一步,采用均方誤差和平均絕對(duì)誤差參數(shù)評(píng)測(cè)實(shí)驗(yàn)結(jié)果。
采用8折交叉驗(yàn)證方法對(duì)目標(biāo)變量進(jìn)行比例隨機(jī)抽樣,實(shí)驗(yàn)結(jié)果如表3—4所示。
表3 訓(xùn)練集交叉驗(yàn)證均方誤差(MSE)矩陣
表4 訓(xùn)練集交叉驗(yàn)證平均絕對(duì)誤差(MAE)矩陣
根據(jù)上述訓(xùn)練集交叉驗(yàn)證結(jié)果可知,在表中梯度回歸樹(shù)模型、隨機(jī)森林模型和XGBoost模型這3種單一模型的基礎(chǔ)學(xué)習(xí)器總有兩個(gè)模型的誤差值大于另外一個(gè)模型的誤差值,且數(shù)據(jù)顯示Blending集成模型有著精確性高、魯棒性強(qiáng)的特點(diǎn)。針對(duì)模型測(cè)試集繼續(xù)對(duì)比實(shí)驗(yàn),如圖4所示為4種模型在2017年6月13—15日的預(yù)測(cè)電價(jià)數(shù)據(jù)擬合曲線與真實(shí)電價(jià)數(shù)據(jù)曲線對(duì)比圖。
圖3 負(fù)荷頻率直方圖
表2 皮爾遜相關(guān)系數(shù)
圖4 4個(gè)模型在最后3天的每小時(shí)電價(jià)預(yù)測(cè)曲線
由圖4可知,將R2作為預(yù)測(cè)曲線的決定系數(shù)值,其表示為R2=1-SSres/SStot,式中:SSres表示平均值和回歸數(shù)據(jù)之間的誤差;SStot表示平均值與真實(shí)數(shù)據(jù)之間的誤差,且SStot一般大于SSres,誤差值都在0~1。在數(shù)據(jù)確定后,SStot的值也隨之固定,預(yù)測(cè)值準(zhǔn)確性越低,SSres的數(shù)值就越大,此時(shí)R2的值也越小,相反準(zhǔn)確性越高,R2的值也越大。由圖4可以計(jì)算出XGBoost模型的決定系數(shù)R2值為0.89,隨機(jī)森林模型的決定系數(shù)R2值為0.83,梯度回歸樹(shù)模型的決定系數(shù)R2值為0.87,Blending集成模型的決定系數(shù)R2值為0.91,可知采用Blending集成方法的集成模型有著較好的擬合效果。如表5所示為均方誤差(MSE)和平均絕對(duì)誤差(MAE)矩陣在測(cè)試集下的表現(xiàn)結(jié)果。
表5 測(cè)試集下各模型MSE和MAE
由表5可知,采用Blending集成方法的集成模型有著較小的均方誤差(MSE)和平均絕對(duì)誤差(MAE),因此測(cè)試集下采用Blending集成方法有著優(yōu)異表現(xiàn)。
短期電價(jià)預(yù)測(cè)有著混沌性和非線性的特點(diǎn),導(dǎo)致現(xiàn)有短期電價(jià)預(yù)測(cè)模型準(zhǔn)確性和魯棒性不高,本文從機(jī)器學(xué)習(xí)角度進(jìn)行深入探索,將包含+1/-1和+2/-2天特征信息的數(shù)據(jù)特征加入特征構(gòu)建過(guò)程。選取了3種具有優(yōu)良性能的基礎(chǔ)回歸學(xué)習(xí)器,分別是梯度提升回歸樹(shù)基礎(chǔ)回歸學(xué)習(xí)器、隨機(jī)森林基礎(chǔ)回歸學(xué)習(xí)器和XGBoost基礎(chǔ)回歸學(xué)習(xí)器,接著采用Blending集成方法將這3種基礎(chǔ)回歸學(xué)習(xí)器融合后構(gòu)建出一種電價(jià)預(yù)測(cè)集成模型。最后基于美國(guó)加州3年半內(nèi)的每個(gè)小時(shí)電價(jià)歷史數(shù)據(jù)得出,Blending集成模型相比其他3種基礎(chǔ)回歸學(xué)習(xí)器,有著預(yù)測(cè)準(zhǔn)確度高及魯棒性強(qiáng)的特點(diǎn)。
基于本文思考,在未來(lái)的短期電價(jià)預(yù)測(cè)研究中,可將如spark、hadoop等的大數(shù)據(jù)技術(shù)加入運(yùn)算,最大化提升效率,增強(qiáng)精度及縮短運(yùn)行時(shí)間。