張林,劉繼春,馬靖宇,周晟銳,文杰
(四川大學(xué)電氣工程學(xué)院,四川 成都 610065)
近年來,伴隨信息化建設(shè)的飛速發(fā)展和儲存收集設(shè)備的不斷完善,電力行業(yè)數(shù)據(jù)呈現(xiàn)出來的形式不再是離散、稀疏的片段點(diǎn)集,而是表現(xiàn)為連續(xù)、緊密的函數(shù)曲線特征[1],“函數(shù)”并非代表外在直觀特征的展現(xiàn),而是指觀測收集的離散數(shù)據(jù)具有函數(shù)本征連續(xù)結(jié)構(gòu),將此類具有函數(shù)型特征的數(shù)據(jù)稱為函數(shù)型數(shù)據(jù)[2]。并且,隨著能源互聯(lián)網(wǎng)的大力推進(jìn),許多地區(qū)開始推行多種能源綜合發(fā)電,如梯級水光蓄互補(bǔ)綜合發(fā)電系統(tǒng)[3],利用梯級水電和抽水蓄能出力的可控特性,去調(diào)控優(yōu)化光伏出力的隨機(jī)波動性,以此提高能源的綜合利用率,減少棄光、棄水量。抽水蓄能調(diào)控能力技術(shù)可達(dá)min級,而光伏出力受天氣因素影響,具有較強(qiáng)的隨機(jī)性和不可控性,因此,準(zhǔn)確的min級別光伏短期預(yù)測是調(diào)控水電和抽水蓄能運(yùn)行方式的重要依據(jù)。
目前,光伏特性分析預(yù)測已有不少研究。文獻(xiàn)[4]從影響光伏出力因素的角度出發(fā),使用模糊C均值(fuzzy C-means,F(xiàn)CM)對歷史太陽輻射和溫度進(jìn)行聚類分析,通過典型式子將太陽輻射和溫度轉(zhuǎn)化為光伏出力,并進(jìn)行特性分析。文獻(xiàn)[5]將光伏數(shù)據(jù)預(yù)處理成多個樣本子集,使用K-means將數(shù)據(jù)劃分為三類,依靠聚類中心挖掘光伏波動性和規(guī)律性。文獻(xiàn)[6]基于傳統(tǒng)的K-means結(jié)合層次聚類方法,研究了光伏數(shù)據(jù)的相似性。文獻(xiàn)[7]分別分析了輻射、溫度、風(fēng)速、空氣質(zhì)量單一因素和其兩兩組合因素對光伏出力的影響,并基于回歸方法建立了光伏出力預(yù)測模型。文獻(xiàn)[8]利用K-means將樣本訓(xùn)練成多個子集,對不同類別的子集分別使用支持向量機(jī)(support vector machine,SVM)進(jìn)行預(yù)測,但通過經(jīng)驗(yàn)設(shè)置SVM的參數(shù)存在一定的偶然性和誤差。文獻(xiàn)[9]提出使用改進(jìn)的粒子群優(yōu)化-支持向量機(jī)(partical swarm optimization-support vector machine,PSOSVM)方法對光伏進(jìn)行預(yù)測,雖通過PSO尋優(yōu)降低了因經(jīng)驗(yàn)選取參數(shù)而導(dǎo)致的SVM模型誤差,但光伏出力隨天氣變化差異較大,使用單一模型不具有普適性。文獻(xiàn)[10]結(jié)合歷史氣象和光伏數(shù)據(jù),將光伏數(shù)據(jù)分為晴、多云、陰和雨四種典型場景,利用分散搜索-支持向量機(jī)回歸(scatter search-support vactor regerssion,SS-SVR)算法對四種天氣分別建模預(yù)測。
考慮不同天氣類別光伏輸出功率差異較大,上述多數(shù)文獻(xiàn)在光伏預(yù)測方面,對光伏數(shù)據(jù)都進(jìn)行了預(yù)處理,目的是為了減少預(yù)測的計(jì)算時間和提升預(yù)測精度,樣本精度通常為15 min或1 h。而現(xiàn)階段對于具有函數(shù)型特征的1 min級光伏出力預(yù)測研究還較少。傳統(tǒng)預(yù)測方法[11],如灰色軌跡、BP神經(jīng)網(wǎng)絡(luò)和SVM等預(yù)測模型僅適用于小樣本數(shù)據(jù)的訓(xùn)練。
針對上述問題,提出利用傅里葉基函數(shù)將具有函數(shù)特征的光伏離散數(shù)據(jù)轉(zhuǎn)換為函數(shù)數(shù)據(jù),提取光伏形態(tài)趨勢序列;利用函數(shù)主成分分析(functional principal component analysis,F(xiàn)PCA)將集成的函數(shù)曲線進(jìn)行函數(shù)主成分降維分析,用低維的函數(shù)主成分特征向量對原始高維數(shù)據(jù)進(jìn)行直觀表達(dá);并結(jié)合高斯混合模型最大期望(gaussian mixture model-expectation maximum,GMMEM)算法對函數(shù)主成分特征矩陣進(jìn)行聚類,提取聚類簇形態(tài)中心和均值中心突出典型場景類型,結(jié)合天氣數(shù)據(jù)驗(yàn)證聚類效果。
最后,分別對聚類形成的各光伏場景建立改進(jìn)粒子群優(yōu)化-極限學(xué)習(xí)機(jī)(partical swarm optimization-extreme learning machine,PSO-ELM)算法預(yù)測模型。
現(xiàn)階段已經(jīng)建成或者正在修建的光伏電站,配備的數(shù)據(jù)采集裝置精度可達(dá)到min級別,能將光伏出力過程實(shí)時高頻的刻畫出來。針對此類數(shù)據(jù),提出以下聚類處理與預(yù)測分析的總體流程框圖,如圖1所示。
圖1 算法總體框架圖Fig.1 Algorithm overall framework
由圖1中可以看出:
1)光伏數(shù)據(jù)預(yù)處理部分,選取傅里葉基函數(shù)作為轉(zhuǎn)換模型,通過傅里葉基函數(shù)將離散的光伏數(shù)據(jù)轉(zhuǎn)換為函數(shù)型數(shù)據(jù);利用FPCA對函數(shù)型數(shù)據(jù)降維,提取函數(shù)主成分對應(yīng)的特征系數(shù),用少量代表曲線特征的特征向量來替代函數(shù)型光伏數(shù)據(jù)特征。
2)光伏數(shù)據(jù)聚類分析部分,利用GMM-EM算法將光伏函數(shù)主成分特征向量快速準(zhǔn)確分類,提取簇類別中心與均值中心突出各種類別的差異性和獨(dú)特性。
3)光伏數(shù)據(jù)預(yù)測分析部分,從GMM-EM算法得到光伏聚類分組結(jié)果1,…,n,選取處理海量數(shù)據(jù)性能優(yōu)越的ELM神經(jīng)網(wǎng)絡(luò)作為函數(shù)型光伏數(shù)據(jù)預(yù)測模型,并利用改進(jìn)PSO算法尋求ELM網(wǎng)絡(luò)中的參數(shù),分別對聚類分組結(jié)果1,…,n建立改進(jìn)PSO-ELM算法預(yù)測模型。
光伏歷史數(shù)據(jù)的完整性是進(jìn)行數(shù)據(jù)分析的前提,首先篩選剔除缺失片段數(shù)據(jù)。傅里葉基函數(shù)適用于周期性的觀測數(shù)據(jù)[12],鑒于光伏數(shù)據(jù)呈正弦波形,且日光伏出力曲線也具有一定的周期性,故采用傅里葉基函數(shù)對其進(jìn)行轉(zhuǎn)換。
用X=[x1,x2,…,xn]T代表光伏的日出力數(shù)據(jù),其第i天光伏數(shù)據(jù)xi的近似展開形式為
式中:ci為權(quán)重系數(shù);K為展開序列的傅里葉級;ω為基角頻率;r為基角頻率的倍數(shù)。
主成分分析是多元數(shù)據(jù)的一種重要的降維方法,這種降維思想推廣到函數(shù)型數(shù)據(jù)就稱為函數(shù)主成分分析[13],基于FPCA的光伏數(shù)據(jù)降維,具體步驟如下:
3)求解光伏日出力曲線協(xié)方差函數(shù)的特征值和特征向量,如下式所示,具體求解過程參考文獻(xiàn)[14]。
式中:ξ為光伏日出力曲線函數(shù)主成分的特征向量;α(t)為光伏日出力曲線函數(shù)主成分。
4)將求取的函數(shù)主成分對應(yīng)的特征值按由大到小順序排列得到 ξ1,ξ2,…,ξn,計(jì)算所有特征值的累積貢獻(xiàn)率,通常選取D>85%時前m個特征值,光伏函數(shù)主成分特征向量為
GMM-EM算法能夠精確快速將數(shù)據(jù)分類,本文采用該模型對降維后的光伏數(shù)據(jù)特征向量進(jìn)行聚類分組,假定光伏特征向量服從有限個高斯分布的線性組合。
每一個輸入高斯分布參數(shù)的極大似然表達(dá)式如下式所示:
式中:P(α|Θ)為高斯分布的最大似然函數(shù);Θ為GMM的參數(shù)集合。
對于GMM的聚類分組實(shí)質(zhì)上就是求取GMM模型中的參數(shù),關(guān)于E-step和M-step具體求解步驟參考文獻(xiàn)[15],GMM-EM聚類算法的流程框圖如圖2所示。
圖2 GMM-EM聚類算法的流程圖Fig.2 Flow chart of GMM-EM clustering algorithm
GMM中最優(yōu)聚類個數(shù)的確定,通過貝葉斯信息準(zhǔn)則(Bayesian information criterion,BIC)進(jìn)行選取,如下式所示:
式中:logP(α|Θ)為由k個高斯成分混合成的模型對數(shù)似然函數(shù);n為樣本量;γ為未知參數(shù)個數(shù)。極大化BICΘ得到的Θ對應(yīng)最優(yōu)的模型參數(shù)。
為了突出光伏數(shù)據(jù)通過GMM-EM算法聚類分組后類別的差異性和獨(dú)特性,從各個類別中提取典型光伏曲線表征該類型數(shù)據(jù)特征,參考文獻(xiàn)[16]選取類別均值中心與形態(tài)中心。
ELM作為一種單隱含層前饋神經(jīng)網(wǎng)絡(luò)算法,不僅適應(yīng)性強(qiáng)、訓(xùn)練樣本速度快,而且對于大數(shù)據(jù)樣本適應(yīng)性較好。但該算法輸入層權(quán)值與隱含層閾值隨機(jī)產(chǎn)生,穩(wěn)定性較弱[17]。因此,利用改進(jìn)PSO算法尋求ELM神經(jīng)網(wǎng)絡(luò)中的輸入權(quán)值和隱藏層閾值,提高模型的預(yù)測精度和穩(wěn)定性。
為防止標(biāo)準(zhǔn)PSO算法陷入局部最優(yōu),對標(biāo)準(zhǔn)PSO算法做出以下改進(jìn):
1)引入平均粒子距離D(t),當(dāng)平均粒子距離小于某一閾值判斷粒子是否陷入局部最優(yōu)。
2)引入動態(tài)學(xué)習(xí)因子c1,c2和慣性權(quán)重w。具體改進(jìn)如下所示:
式中:wmax為最大慣性系數(shù);wmin為最小慣性系數(shù);L為搜索空間對角最大長度;m為解空間維數(shù);pid為光伏數(shù)據(jù)在ELM神經(jīng)網(wǎng)絡(luò)訓(xùn)練參數(shù)第i個粒子位置的第d維坐標(biāo)值;為光伏數(shù)據(jù)在ELM神經(jīng)網(wǎng)絡(luò)訓(xùn)練參數(shù)粒子在第d維坐標(biāo)的均值。
ELM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)主要分為三層,分別為天氣數(shù)據(jù)輸入層、隱含層和光伏出力輸出層,如圖3所示。
圖3中,輸入、輸出關(guān)系如下式所示:
圖3 ELM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)框圖Fig.3 ELM neural network structure block diagram
式中:x(k)為天氣數(shù)據(jù),包括最高氣溫、最低氣溫、平均氣溫、平均相對濕度及日照小時數(shù)等;y(k)為每天min級光伏出力數(shù)據(jù);w1,w2分別為輸入層到隱含層、隱含層到輸出層的權(quán)值;L為隱含層節(jié)點(diǎn)數(shù);bi為第i個隱含層節(jié)點(diǎn)的閾值;gi(·)為第i個隱含層節(jié)點(diǎn)的激勵函數(shù)。
當(dāng)激活函數(shù)g(·)能夠無誤差的逼近輸出光伏出力樣本,此時:
上述方程的矩陣表達(dá)式:
式中:H為ELM神經(jīng)網(wǎng)絡(luò)隱含層到輸出層的權(quán)值矩陣;T為期望的min級光伏出力向量。
式中:H+為隱含層輸出矩陣H的逆矩陣。
本文首先利用改進(jìn)PSO算法尋求ELM神經(jīng)網(wǎng)絡(luò)算法中的輸入權(quán)值和隱藏層閾值,再采用ELM算法訓(xùn)練樣本,提高ELM神經(jīng)網(wǎng)絡(luò)的穩(wěn)定性和精確性,其預(yù)測流程如圖4所示。
圖4 改進(jìn)PSO-ELM預(yù)測模型流程圖Fig.4 Flow chart of improved PSO-ELM prediction model
選取天氣數(shù)據(jù)和光伏min級出力數(shù)據(jù),將數(shù)據(jù)歸一化處理,劃分ELM神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本和測試樣本,天氣數(shù)據(jù)作為ELM算法輸入層,min級光伏出力作為ELM算法輸出層,進(jìn)而確定ELM神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)。
通過PSO算法尋求ELM模型的輸入層權(quán)值和隱含層閾值,把ELM訓(xùn)練輸出光伏出力與期望光伏出力誤差比值平方作為改進(jìn)PSO算法適應(yīng)度函數(shù)σ2,計(jì)算各個粒子的適應(yīng)度值,找到對應(yīng)的粒子速度和位置,并設(shè)置平均粒子距離D()t閾值避免PSO算法陷入局部最優(yōu)。最后,將尋求的最優(yōu)粒子輸入層權(quán)值和隱含層閾值賦值ELM神經(jīng)網(wǎng)絡(luò)中,得到光伏的預(yù)測模型。
本節(jié)數(shù)據(jù)來源于四川省某地區(qū)國家綜合能源示范區(qū)。選取2017年9月14日~2018年11月17日該地區(qū)的天氣與歷史光伏出力作為原始數(shù)據(jù)。
光伏出力數(shù)據(jù)時間尺度為1 min;因影響光伏出力的天氣因素較多,本文選取影響功率較大的因素,具體包括日最高氣溫、最低氣溫、平均氣溫、平均相對濕度、日照小時數(shù)、地表最高輻射強(qiáng)度、地表最低輻射強(qiáng)度和地表平均輻射強(qiáng)度。光伏數(shù)據(jù)預(yù)處理和聚類在R語言中進(jìn)行,預(yù)測仿真在Matlab 2014a環(huán)境中進(jìn)行。
用傅里葉基函數(shù)將歷史min級光伏出力數(shù)據(jù)展開,得到函數(shù)化序列,圖5展示了五種典型場景用傅里葉基函數(shù)變換前后的對比圖。
圖5 典型天氣下光伏原始序列與函數(shù)化序列對比圖Fig.5 Comparison of photovoltaic raw sequence and functionalized sequence in typical weather
表1為主成分方差貢獻(xiàn)率表。由表1可知,通常情況下,選取大于85%的主成分即可以滿足要求,因此選取前2~4個主成分都滿足要求。若對光伏函數(shù)數(shù)據(jù)提取前2個主成分,方差累計(jì)貢獻(xiàn)率可達(dá)90.54%,但聚類效果差,如2018年2月無論晴天、雨雪全聚為一類;若只提取前三個主成分,會把2018年10月晴天和雨天聚成一類;若提取前四個,方差累計(jì)貢獻(xiàn)率可達(dá)98.78%,聚類效果較好。
表1 主成分方差貢獻(xiàn)率Tab.1 The contribution rate of the main component variance
R語言中預(yù)設(shè)GMM-EM模型聚類數(shù)為1~9,基于貝葉斯信息準(zhǔn)則(BIC)選取最優(yōu)聚類個數(shù),當(dāng)BIC達(dá)到最小時,其對應(yīng)的聚類數(shù)為最優(yōu)聚類數(shù)[18]。
圖6為基于BIC折線圖。從圖6可以看出最優(yōu)聚類數(shù)應(yīng)為5。
圖6 基于BIC折線圖Fig.6 Line chart based on BIC
表2為聚類簇和形態(tài)中心樣本信息表。
表2 聚類簇和形態(tài)中心樣本信息Tab.2 Clustering cluster and morphological center sample information
圖7為通過GMM-EM算法對光伏主成分特征向量聚類后生成的五個類別,分別用形態(tài)中心和均值中心來突出該類別的特征,形態(tài)中心所在的日期及天氣如表2所示。
圖7 GMM-EM算法得到的聚類簇與形態(tài)均值中心Fig.7 Cluster cluster and morphological mean center obtained by GMM-EM algorithm
從表2和圖7觀察到,聚類結(jié)果層次分明,簇內(nèi)形態(tài)中心有較高區(qū)分度,光伏聚類結(jié)果與天氣相互映照。
為有效改善光伏預(yù)測結(jié)果,ELM神經(jīng)網(wǎng)絡(luò)和PSO算法的重要網(wǎng)絡(luò)參數(shù)設(shè)置如下。
5.3.1 ELM神經(jīng)網(wǎng)絡(luò)參數(shù)設(shè)置
1)ELM 所需參數(shù)[10,19]:將全天最高氣溫Tmax,最低氣溫Tmin,平均氣溫ˉ,地表最大輻射強(qiáng)度T地max,地表最小輻射強(qiáng)度T地min,地表平均輻射強(qiáng)度,平均相對濕度ˉ,日照小時數(shù)H作為 ELM神經(jīng)網(wǎng)絡(luò)的輸入該天7∶00~20∶00的所有光伏出力作為輸出Xij=[Xi1,Xi2,…,Xim],m=1,2,…,M,Xij代表第i天j時刻的光伏出力。
2)ELM參數(shù)設(shè)置:采用的ELM結(jié)構(gòu)為8-80-780,輸入層節(jié)點(diǎn)數(shù)8,即ELM神經(jīng)網(wǎng)絡(luò)輸入變量為天氣數(shù)據(jù);隱含層節(jié)點(diǎn)80是通過經(jīng)驗(yàn)公式(13)初步確定后,再由多次ELM網(wǎng)絡(luò)訓(xùn)練選取使得光伏預(yù)測出力誤差最小的節(jié)點(diǎn)數(shù);輸出層為780節(jié)點(diǎn),表示光伏min級出力,因光伏晚上不發(fā)電,本文選取7∶00~20∶00光伏min級出力數(shù)據(jù),共780個數(shù)據(jù)。
式中:L為隱含層節(jié)點(diǎn)數(shù);N,M分別為輸入、輸出節(jié)點(diǎn)數(shù)。
5.3.2 PSO算法的重要網(wǎng)絡(luò)參數(shù)設(shè)置
PSO參數(shù)設(shè)置:粒子種群規(guī)模設(shè)置為100,迭代次數(shù)50次,慣性權(quán)重分別為ws=0.9,we=0.4,采用式(5)的減速方式;加速因子設(shè)置依據(jù)式(6);粒子最大速度為vmax=1和最小速度為vmin=-1。
從GMM-EM聚類算法得到的聚類簇中各隨機(jī)任取1 d作為測試樣本,其余的樣本作為改進(jìn)PSO-ELM神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本,分別對五種典型場景預(yù)測未來1 d的光伏出力數(shù)據(jù)。為直觀地驗(yàn)證所提模型的預(yù)測性能,分別采用ELM,PSOELM,PSO-BP(粒子群算法-BP神經(jīng)網(wǎng)絡(luò)),PSOSVM和改進(jìn)PSO-ELM模型進(jìn)行預(yù)測并進(jìn)行均方差E、平均相對誤差ˉ分析和算法耗時對比,如圖8~圖10以及表3所示。
表3 測試集的誤差分析Tab.3 Error analysis of test set
圖8 三種方法預(yù)測結(jié)果對比3D展示圖Fig.8 Comparison of three methods of prediction results 3D display
圖9 不同預(yù)測算法下均方差值EFig.9 The value of mean square deviation E under different prediction algorithm
圖10 不同預(yù)測算法下平均相對誤差值σFig.10 Average relative error valueσunder different prediction algorithm
從圖8~圖10以及表3可以看出,利用改進(jìn)PSO-ELM算法得到的光伏min級出力,在晴、多云、多變、陰雨和雪五種場景下,無論是平均相對誤差,還是均方差,都比其余四種對比算法要小。以晴天為例,五種算法的均方差E和平均相對誤差σˉ分別為3.07%,5.87%,7.98%,8.21%,8.92%和6.39%,8.63%,11.67%,12.54%,14.32%。
本文為了研究具有函數(shù)型特征的光伏數(shù)據(jù),通過傅里葉基函數(shù)將光伏離散數(shù)據(jù)轉(zhuǎn)換為函數(shù)數(shù)據(jù),從函數(shù)分析的角度出發(fā),使用FPCA將函數(shù)數(shù)據(jù)降維,得到函數(shù)主成分的得分系數(shù),提取了四個包含原信息95%以上的新變量作為聚類樣本的輸入,解決了因min級光伏數(shù)據(jù)維數(shù)過高,導(dǎo)致數(shù)據(jù)聚類復(fù)雜緩慢以及效果差等問題,消除了部分干擾數(shù)據(jù)形態(tài)的噪聲信號,保留了原始序列的主要信息。使用GMM-EM算法對主成分特征向量聚類,能夠快速精確對樣本進(jìn)行聚類,其結(jié)果圖和天氣信息驗(yàn)證表均表明聚類的有效性。
ELM模型對于大數(shù)據(jù)樣本適應(yīng)性較好,不僅包含了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn),而且訓(xùn)練速度快,適用于函數(shù)型光伏數(shù)據(jù)的預(yù)測。改進(jìn)PSO算法引入平均粒子距離,對不同性能的粒子動態(tài)分配慣性權(quán)重和學(xué)習(xí)因子,解決了傳統(tǒng)PSO算法容易陷入局部最優(yōu)的問題,通過改進(jìn)PSO算法尋求ELM神經(jīng)網(wǎng)絡(luò)的輸入層權(quán)值和隱含層閾值,提升了網(wǎng)絡(luò)的泛化能力和穩(wěn)定性。
算例分析結(jié)果表明,本文所提出的基于函數(shù)型光伏數(shù)據(jù)的預(yù)測方法,具有一定的實(shí)用價值。