趙俊梅, 張利平, 劉 丹, 任一峰
(中北大學(xué) 電氣與控制工程學(xué)院, 山西 太原 030051)
隨著物聯(lián)網(wǎng)、 大數(shù)據(jù)、 機器學(xué)習(xí)、 云計算等新型技術(shù)與電力系統(tǒng)的交叉融合, 可以更好地保障電力系統(tǒng)的安全運行、 資源優(yōu)化配置、 產(chǎn)業(yè)和能源結(jié)構(gòu)優(yōu)化、 電力用戶需求響應(yīng). 電力大數(shù)據(jù)的合理分析和精準(zhǔn)預(yù)測對于電網(wǎng)系統(tǒng)的安全性、 經(jīng)濟(jì)性、 環(huán)保性、 穩(wěn)定性和預(yù)見性具有非常重要而深遠(yuǎn)的意義. 電力大數(shù)據(jù)預(yù)測是電力行業(yè)研究的重要課題之一, 通過對海量的電力歷史數(shù)據(jù)進(jìn)行探索和分析, 不斷尋找巨大數(shù)據(jù)變化和各種因素之間的內(nèi)在規(guī)律, 可對未來進(jìn)行預(yù)測和估計. 科學(xué)合理的數(shù)據(jù)分析和準(zhǔn)確預(yù)測, 對于電力行業(yè)的發(fā)展戰(zhàn)略、 運營穩(wěn)步提升、 資源能源配置、 用戶用電行為等均具有重要作用.
聚焦電力大數(shù)據(jù)分析和價值挖掘, 可以強化“電力看經(jīng)濟(jì)”“電力看環(huán)?!薄半娏粗腔邸钡壬鐣?wù)能力, 助力國家遏制高耗能、 高排放、 低水平項目盲目發(fā)展, 朝著節(jié)約用電、 高效用電、 綠色用電的方向發(fā)展. 功率因數(shù)是電力系統(tǒng)中交流電路的重要參數(shù)之一, 它是衡量電氣設(shè)備效率高低的重要標(biāo)準(zhǔn)和電力系統(tǒng)是否經(jīng)濟(jì)運行的重要指標(biāo). 隨著光伏、 風(fēng)電等新能源并網(wǎng), 也給功率因數(shù)帶來了影響. 文獻(xiàn)[1-2]研究了光伏和風(fēng)電對功率因數(shù)的影響. 文獻(xiàn)[3]對無功負(fù)荷進(jìn)行了分析和預(yù)測. 文獻(xiàn)[4]研究了光伏發(fā)電的不確定性, 對電網(wǎng)質(zhì)量帶來的影響進(jìn)行了分析. 文獻(xiàn)[5]介紹了風(fēng)電的間歇性和隨機性, 給電網(wǎng)安全管理帶來了挑戰(zhàn). 文獻(xiàn)[6]利用回歸模型預(yù)測功率因數(shù), 重點針對電價的影響. 本文利用機器學(xué)習(xí)算法對發(fā)電廠的功率因數(shù)等數(shù)據(jù)進(jìn)行回歸分析和科學(xué)預(yù)測, 進(jìn)而提高能源利用率.
支持向量機回歸(Support Vector Machine Regression, SVMR)算法可以歸結(jié)為求解一個凸二次規(guī)劃問題, 理論上將獲得全局最優(yōu)解, 算法非常巧妙地解決了維數(shù)問題, 算法的復(fù)雜度與樣本維數(shù)沒有關(guān)系, 它是根據(jù)訓(xùn)練樣本數(shù)據(jù)構(gòu)造回歸函數(shù), 無需熟知回歸函數(shù)結(jié)構(gòu)的先驗信息, 便可保證回歸有較好的推廣能力. 部分回歸問題無法使用線性模型進(jìn)行充分描述, 可利用拉格朗日對偶公式擴展到非線性函數(shù)[7-8]. 利用式(1)查找非線性回歸需要的最小化系數(shù)
(1)
滿足約束條件
式中:C為懲罰因子, 一般為正.
預(yù)測函數(shù)為
(2)
式中:b為偏差量.
Karush-Kuhn-Tucker (KKT)互補條件為
?n:αn(ε+ξn-yn+f(xn))=0,
?n:ξn(C-αn)=0,
(3)
高斯過程是正態(tài)隨機過程, 是一種基于貝葉斯理論和統(tǒng)計學(xué)習(xí)理論的核學(xué)習(xí)機, 其模型是非參數(shù)的基于核的概率模型[9].
訓(xùn)練集為T={(xi,yi);i=1,2,…,n}, 式中xi∈Rd,yi∈R. 線性模型如下
y=xTβ+ε,ε=N(0,σ2),
(4)
式中:β為系數(shù);ε為服從均值為0、 方差為σ2的噪聲.
高斯過程回歸(Gaussian Process Regression, GPR)是一組隨機變量, 任意二者之間具有聯(lián)合高斯分布[10], 潛在變量f(xi),i=1,2,…,n, 如果f(xi),x∈Rd, 則潛在變量f(x1),f(x2),…,f(xn)是聯(lián)合高斯分布.響應(yīng)變量可以創(chuàng)建以下模型
(5)
式中:h(x)為基函數(shù);β為基函數(shù)系數(shù).
由于高斯過程回歸模型是一個概率模型, 故存在一個潛在變量對應(yīng)一個觀察值, 進(jìn)而使高斯過程回歸為非參數(shù)模型.
模型相當(dāng)于
P(y|f,X)~N(y|Hβ+f,σ2I),
(6)
分類與回歸樹(Classification and Regression Tree, CART)算法是通過由測試變量和目標(biāo)變量構(gòu)成的訓(xùn)練數(shù)據(jù)集的循環(huán)分析而形成二叉樹的結(jié)構(gòu)[11]. 由CART算法生成一棵深度的決策樹, 利用貪心策略來搜索近似最優(yōu)均方誤差[12]. 節(jié)點分割的主要步驟如下:
3) 接著按照升序?qū)︻A(yù)測值xi進(jìn)行排序.分類回歸預(yù)測器的每個元素都是分裂候選、 切割點.算法記錄與未分裂集合TU中的缺失值相對應(yīng)的所有索引.
4) 通過最大化所有分裂候選的均方誤差的減少來確定使用xi分裂節(jié)點t的最佳方式.決策樹將節(jié)點t中的觀察結(jié)果分成左右兩個子節(jié)點.
5) 在最大化均方誤差減少的切割點分割預(yù)測變量.
回歸樹通過使用均方誤差(MSE)對葉子進(jìn)行修剪, 算法合并來自相同父節(jié)點的葉子, 此父節(jié)點的MSE最多是其兩個子節(jié)點的MSE之和. 回歸樹拆分當(dāng)前層的所有節(jié)點, 然后統(tǒng)計分支節(jié)點的數(shù)量.
在機器學(xué)習(xí)選擇模型的過程中, 需要通過靈活調(diào)整超參數(shù)進(jìn)而改變模型復(fù)雜度, 挑選出其中最優(yōu)的超參數(shù)組合, 使模型具有更好的學(xué)習(xí)效果和性能.
超參數(shù)優(yōu)化(Hyperparameter Optimization, HO)可大大提高模型在獨立數(shù)據(jù)集上的優(yōu)勢和性能, 通過超參數(shù)的不同組合, 最終最小化模型均方誤差. 一般使用交叉驗證來評估不同超參數(shù)下的模型泛化性能, 故常常采用超參數(shù)空間中交叉驗證值最優(yōu)的超參數(shù)作為最優(yōu)超參數(shù), 模型構(gòu)建的參數(shù)一般都可以采用此方式進(jìn)行優(yōu)化[13]. 通常, 選取最小化五倍交叉驗證. 但是, 在優(yōu)化過程中, 通過超參數(shù)優(yōu)化需要防止過度擬合.
支持向量機回歸可以對核函數(shù)、 框約束、 內(nèi)核規(guī)模等參數(shù)進(jìn)行優(yōu)化. 核函數(shù)決定在訓(xùn)練SVM之前應(yīng)用于數(shù)據(jù)的非線性變換, 一般可以選擇高斯或者徑向基函數(shù). 框約束控制著對具有較大殘差的觀測值施加的懲罰, 約束值越大模型更靈活. 反之, 約束值越小, 模型越剛性, 對過度擬合越不敏感. 內(nèi)核規(guī)??梢钥刂坪税l(fā)生顯著變化的預(yù)測因子的比例, 較小的內(nèi)核規(guī)模提供了更靈活的模型. 高斯過程回歸可以對基函數(shù)、 核函數(shù)、 內(nèi)核規(guī)模、 Sigma等參數(shù)進(jìn)行優(yōu)化. 基函數(shù)指定高斯過程回歸模型的先驗均值函數(shù)的具體形式, 一般可以選擇零、 常數(shù)、 線性. 而核函數(shù)是將響應(yīng)中的相關(guān)性確定為預(yù)測值之間距離的函數(shù), 一般是平方指數(shù)、 Matern 5/2、 Matern 3/2和指數(shù)等. Sigma用于設(shè)定觀測噪聲標(biāo)準(zhǔn)差的初始值. 回歸樹主要對最小葉子尺寸參數(shù)進(jìn)行優(yōu)化. 最小葉大小設(shè)定是用于計算每個葉節(jié)點響應(yīng)的最小訓(xùn)練樣本數(shù).
下面列出實際仿真實驗的幾種主要情況. 支持向量機回歸采取內(nèi)核比例分別為sqrt(p)/4和sqrt(p)的高斯核的兩種情況,p為預(yù)測變量的數(shù)量, 核函數(shù)均為高斯函數(shù), 核尺寸分別為4.3和1.7. 高斯過程回歸采取核函數(shù)分別為高斯回歸指數(shù)、 Mastern 5/2的兩種情況, 基函數(shù)設(shè)置為常量, Sigma設(shè)置為自動模式. 若回歸樹CART樹最小葉子大小為4, 則認(rèn)為是精細(xì)樹, 若最小葉子大小為12, 則認(rèn)為是中等樹. 下面利用這些回歸算法對電力數(shù)據(jù)進(jìn)行回歸分析, 主要從RMSE、R2、 MSE、 MAE、 Time角度進(jìn)行比較分析. RMSE為均方根誤差;R2為擬合系數(shù), 定義為R2=1-SSE/SST, SSE和SST分別為殘差平方和、 總平方和; MSE 為均方誤差; MAE為平均絕對誤差; Time為運行時間.
SVMR1和 SVMR2分別為兩種高斯核的結(jié)果, GPR1和GPR2分別為兩種高斯過程回歸的結(jié)果, CART1和CART2分別為回歸樹的結(jié)果. 具體結(jié)果如表 1 所示, 通過觀察幾種誤差、 擬合系數(shù)和運行時間的參數(shù), SVM的R2最小, GPR的運行時間比較長, CART的誤差較小, 故可以看出CART1也就是精細(xì)樹的回歸結(jié)果最好.
表 1 三種機器學(xué)習(xí)算法的回歸結(jié)果Tab.1 Regression results of three machine learning algorithms
本文針對3種回歸算法通過超參數(shù)優(yōu)化比較和分析其回歸效果. 支持向量機的優(yōu)化器為貝葉斯優(yōu)化時, 核函數(shù)為線性, 框約束和核尺寸為自動模式. 優(yōu)化的超參數(shù)中框約束為 0.002 06, 核函數(shù)為三次, Epsilon值為0.011 3. 優(yōu)化后的超參數(shù)中框約束為 0.001 09, Epsilon值為 0.000 029 2. 高斯過程回歸優(yōu)化器為貝葉斯優(yōu)化, 基函數(shù)為常量, 核函數(shù)為各向同性指數(shù). 優(yōu)化后的超參數(shù)中基函數(shù)為零, Sigma值為0.055 5. 回歸樹優(yōu)化器為貝葉斯優(yōu)化, 可以設(shè)置最小葉子大小為1. 優(yōu)化后的最小葉大小為5. 3個算法的超參數(shù)優(yōu)化迭代次數(shù)均設(shè)置為30, 綜合誤差回歸樹最小, 運行時間回歸樹最快, 綜合回歸效果回歸樹較好.
同時, 為了尋找回歸樹最優(yōu)的優(yōu)化器, 先將回歸樹優(yōu)化器調(diào)整為網(wǎng)格搜索, 設(shè)置最小葉子大小為5, 網(wǎng)格分區(qū)數(shù)量為10, 優(yōu)化后最小葉大小為6, 運行時間只有4 s多, 誤差更小. 再把優(yōu)化器調(diào)整為隨機搜索時, 設(shè)置最小葉子大小為6, 迭代次數(shù)為30, 優(yōu)化后最小葉大小為5, 但是相對網(wǎng)格搜索迭代次數(shù)多了不少, 運行時間也增加到12 s多.
SVMRHO 和GPRHO分布為支持向量機回歸超參數(shù)優(yōu)化和高斯過程超參數(shù)優(yōu)化的結(jié)果. CARTHO1 、 CARTHO2、 CARTHO3分別為回歸樹貝葉斯優(yōu)化、 網(wǎng)格搜索、 隨機搜索的優(yōu)化結(jié)果. 5種超參數(shù)優(yōu)化的仿真結(jié)果誤差及運行時間如表 2 所示. 綜合考慮擬合系數(shù)、 誤差大小和運行時間, 基于網(wǎng)格搜索優(yōu)化器的回歸樹的效果最好, 故最終選用其作為對驗證集數(shù)據(jù)進(jìn)行仿真實驗.
表 2 三種機器學(xué)習(xí)算法經(jīng)超參數(shù)優(yōu)化的結(jié)果Tab.2 Hyperparametric optimization results of three machine learning algorithms
為了驗證回歸模型的預(yù)測性能, 通過驗證數(shù)據(jù)對模型進(jìn)行驗證測試. 選取5天的功率因數(shù)進(jìn)行比較和分析. 表 3 列出5天真實數(shù)據(jù)和回歸模型預(yù)測數(shù)據(jù)及二者之間的差值.
表 3 5天真實和預(yù)測功率因數(shù)及誤差的情況表Tab.3 5-day actual and predicted power factors and errors
圖 1 是優(yōu)化器為網(wǎng)格搜索的回歸樹的超參數(shù)優(yōu)化后的響應(yīng)圖, 它顯示了響應(yīng)和記錄編號的關(guān)系, 也可以反應(yīng)真實值和預(yù)測值之間的關(guān)系. 圖 2 是優(yōu)化器為網(wǎng)格搜索的回歸樹的超參數(shù)優(yōu)化后的最小MSE圖. 圖中可以看到最佳點超參數(shù)和最小誤差超參數(shù), 每個黑色點對應(yīng)于由優(yōu)化過程計算的最小MSE的估計值. 通過分析, 優(yōu)化器為網(wǎng)格搜索的回歸樹的回歸效果良好.
圖 1 回歸樹的響應(yīng)圖Fig.1 Response graph of regression tree
圖 2 回歸樹的最小MSE圖Fig.2 Minimum MSE graph of regression tree
機器學(xué)習(xí)的成熟和發(fā)展為電力大數(shù)據(jù)的分析提供了豐富的算法. 通過機器學(xué)習(xí)算法對電力數(shù)據(jù)進(jìn)行科學(xué)分析和深入研究, 可以發(fā)現(xiàn)、 尋找和探究數(shù)據(jù)之間的相關(guān)性、 規(guī)律性, 并創(chuàng)建和訓(xùn)練模型, 做出合理的預(yù)測和估計, 最終保障電力系統(tǒng)節(jié)能管理和綠色持續(xù)發(fā)展. 回歸分析是機器學(xué)習(xí)中的經(jīng)典算法之一, 本文介紹了支持向量機回歸、 高斯過程回歸、 回歸樹CART 3種算法的基本原理, 并利用算法對某電廠的電力數(shù)據(jù)進(jìn)行分析和比較. 同時, 還利用不同超參數(shù)優(yōu)化算法對3種算法進(jìn)行優(yōu)化. 通過比較均方根誤差、 擬合系數(shù)、 均方誤差、 平均絕對誤差、 運行時間等5個指標(biāo), 獲得最優(yōu)回歸模型, 對實際電力數(shù)據(jù)進(jìn)行了驗證. 通過不同參數(shù)的多次仿真實驗, 比較和分析了回歸算法的優(yōu)劣點, 證明了CART回歸模型尤其是網(wǎng)格搜索優(yōu)化后的效果較好, 并對今后的電力大數(shù)據(jù)預(yù)測和估計具有一定的現(xiàn)實意義.