牛繼濤,肖海濤
(1.國網(wǎng)河南省電力公司電力調(diào)度控制中心,河南 鄭州 450018;2.北京東潤環(huán)能科技股份有限公司,北京 100089)
太陽能是理想的可再生能源之一,近些年來我國光伏電站裝機(jī)容量也在不斷增加[1]。但是現(xiàn)代儲能技術(shù)不能儲存大量電力,從發(fā)電企業(yè)到電網(wǎng)再到用戶都是即發(fā)即用的模式。光伏發(fā)電存在間歇性,隨機(jī)性和波動性,對電網(wǎng)沖擊大,隨著光伏電站大規(guī)模并網(wǎng)[2],大量不穩(wěn)定的電量涌入電網(wǎng)有可能導(dǎo)致電網(wǎng)癱瘓。為了電網(wǎng)安全穩(wěn)定運(yùn)行,提高光伏功率預(yù)測精度具有重要的意義[3]。相似日在光伏短期預(yù)測上是光伏功率預(yù)測研究者熱議的話題[4]?;跀?shù)值天氣預(yù)報數(shù)據(jù)做無監(jiān)督學(xué)習(xí)的一些傳統(tǒng)方法,缺乏主動性、沒有考慮到數(shù)值天氣預(yù)報其本身的準(zhǔn)確性、無法對每個氣象類型進(jìn)行有效識別、對于大量歷史數(shù)據(jù)中存在的低質(zhì)量數(shù)據(jù)無法剔除,很難保證算法在工業(yè)上能夠長期高精度的運(yùn)行。且在光伏短期預(yù)測[5-11]的實際應(yīng)用中,國內(nèi)許多光功率預(yù)測廠商在陰天預(yù)測誤差很大,預(yù)測未來一天的天氣是一種迫在眉睫的需求。本文通過分析人類判斷天氣類型方法,以24 h為時間分辨率對實際功率數(shù)據(jù)進(jìn)行聚類,得到晴天、多云或陰天兩個標(biāo)簽;使用兩種天氣標(biāo)簽與數(shù)值天氣預(yù)報相結(jié)合,建立基于遺傳算法優(yōu)化的卷積神經(jīng)網(wǎng)絡(luò)模型,把相似日無監(jiān)督問題接入了有監(jiān)督問題,避開了算法一開始就陷入了天氣預(yù)報不精準(zhǔn),而又無法主動處理數(shù)據(jù)的被動局面。使得不同的算法在實際應(yīng)用上對光伏電站數(shù)據(jù)在天氣類型上主動處理成為了現(xiàn)實。
本次實驗的數(shù)據(jù)為我國某地一個裝機(jī)容量為20 MW光伏場站的2017-2018年的歷史數(shù)據(jù),數(shù)據(jù)的采樣間隔為15 min,。數(shù)據(jù)特征包括了該場站實際功率、實際輻照度與單個氣象廠商的數(shù)值天氣預(yù)報(輻照度、溫度、濕度、風(fēng)速、風(fēng)向、壓強(qiáng))。經(jīng)過數(shù)據(jù)清洗以后,剩下了175天的歷史數(shù)據(jù),本次實驗的訓(xùn)練數(shù)據(jù)為清洗后數(shù)據(jù)的前155天,測試數(shù)據(jù)為清洗后數(shù)據(jù)的后20天。圖1是訓(xùn)練集兩種天氣類型的占比,類別0為陰天,類別1為晴天或多云。從圖中可以看出,該場站一年陰天占比較多。
圖1 訓(xùn)練集類別統(tǒng)計圖
圖2是算法的流程圖。光伏場站常年運(yùn)行,設(shè)備故障、限電等原因會導(dǎo)致數(shù)據(jù)集存在大量的異常數(shù)據(jù),需要對這些數(shù)據(jù)集中的異常數(shù)據(jù)進(jìn)行清洗。在數(shù)據(jù)清洗后,對氣象數(shù)據(jù)進(jìn)行數(shù)據(jù)歸一化處理,使用變分模態(tài)分解對清洗后的實際功率進(jìn)行分解,去除噪聲所在的模態(tài)位置的模態(tài)。使用聚類算法對去噪后的光伏實際功率進(jìn)行聚類,獲取天氣類型標(biāo)簽。再設(shè)計神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。使用設(shè)計好的神經(jīng)網(wǎng)絡(luò)架構(gòu)與遺傳算法結(jié)合,產(chǎn)生第二天天氣類型的預(yù)測結(jié)果。下面會對每個模塊進(jìn)行詳細(xì)介紹。
圖2 天氣分類算法流程圖
設(shè)備測量、大氣運(yùn)動的不確定性、數(shù)據(jù)傳輸過程中會產(chǎn)生的噪聲,導(dǎo)致光伏日發(fā)電功率在特殊的天氣或者場站看起來毫無規(guī)律,大量的隨機(jī)噪聲會導(dǎo)致光伏日功率曲線凹凸不平,無法很好的歸類。且光伏日功率曲線異常的高頻段或者低頻段影響聚類算法的效果。為提高聚類算法的精準(zhǔn)度,文中嘗試通過信號分解[12]的角度去處理這些誤差和噪聲,希望找到一種方法能夠分離噪聲與真實信號,去除噪聲所在的頻段,得到較為光滑的功率曲線集合。
實際功率可以表示為噪聲信號和實際功率信號的累加和:
式中R為實際功率;V表示所有分解信號序列集合,假設(shè)當(dāng)f=0時Vf為噪聲,用字母e表示。
基于式(1),文中使用了變分模態(tài)分解的方法。變分模態(tài)分解是一種非遞歸,自適應(yīng)的信號處理方法,可以把信號分解為指定個數(shù)的具有不同中心頻率的有限帶寬分量。為了使帶寬最小,可以構(gòu)造一個約束變分問題的目標(biāo)函數(shù):
式中:k為變分模態(tài)分量數(shù);uk為分解后信號的第k個模態(tài)分量;t表示時間;ωk為第k個分量的中心頻率;?t為t的偏導(dǎo)數(shù);σ(t)為 Dirac函數(shù);*為卷積運(yùn)算符。約束條件為所有的分解信號之和需要等于原始信號f。將(1)式與約束條件引入Lagrange乘法算子,得到Extend-Lagrange表達(dá)式為:
式中:α作為二次懲罰因子,用來減少信號噪聲的干擾,保證信號重構(gòu)的精準(zhǔn)度。通過乘法算子交替方向法(ADMM)求解拓展拉格朗日表達(dá)式,式中γ是拉格朗日乘數(shù),?表示卷積算子。
具體步驟為:
Step1 初始化{μk},{ωk},γ和最大迭代次數(shù)N;
Step2 通過(4)式和(5)式更新μk和ωk;
Step3通過(6)更新γ;
Step4停止條件判定:
且n 算法的去噪效果如圖3所示,從圖中可以明顯看出去噪后的信號明顯比原始信號平滑,且保留了原始信號的趨勢。 圖3 去噪后的功率信號與原始功率信號 我國的光伏發(fā)電領(lǐng)域起步相對于國外較晚,缺乏科學(xué)系統(tǒng)的數(shù)據(jù)管理知識,積累的大量數(shù)據(jù)沒有天氣類型標(biāo)注,由于時間太長等原因重新使用人工標(biāo)注已經(jīng)無從下手,只能由無監(jiān)督學(xué)習(xí)算法代替人工對場站歷史數(shù)據(jù)進(jìn)行標(biāo)注。層次聚類是無監(jiān)督學(xué)習(xí)算法的一種通過計算不同數(shù)據(jù)點(diǎn)間的距離來創(chuàng)建一棵有層次的嵌套聚類樹。在聚類樹中,不同類別的原始數(shù)據(jù)點(diǎn)是樹的最低層,樹的頂層是一個聚類的根節(jié)點(diǎn)。 式中,x1,x2為數(shù)據(jù)中的兩個樣本點(diǎn)。 具體計算過程如下: 1)將每一個樣本單獨(dú)歸為一類; 2)循環(huán):每一次都合并距離(dist)最小的類,形成樹狀圖; 3)直到所有的元素都?xì)w為同一類停止循環(huán)。 如圖4所示,卷積神經(jīng)網(wǎng)絡(luò)主要由輸入層、卷積層、池化層、全連接層、輸出層等組成。卷積層(C層)與池化層(M層)不斷交替重復(fù),上一層的輸出作為本層的輸入,形成一個復(fù)合的特征提取層,更為準(zhǔn)確的實現(xiàn)對數(shù)據(jù)的分級表達(dá)。 圖4 卷積神經(jīng)網(wǎng)絡(luò)拓?fù)鋱D CNN的C層能夠?qū)ι弦粚拥妮斎脒M(jìn)行局部特征的提取,每個C層由多個矩陣組成,可以并行學(xué)習(xí)特征,每個C層具有多個卷積核,使得網(wǎng)絡(luò)對數(shù)據(jù)特征的提取更為充分。M層是一個降采樣的過程,能夠減少數(shù)據(jù)冗余的信息、計算量等。全連接層使用其很強(qiáng)的非線性擬合能力來學(xué)習(xí)復(fù)合特征提取層提取到的信息,增強(qiáng)了網(wǎng)絡(luò)的學(xué)習(xí)能力。 關(guān)于卷積神經(jīng)網(wǎng)絡(luò)在時間序列預(yù)測應(yīng)用的詳細(xì)介紹見文獻(xiàn)[8]。 深度神經(jīng)網(wǎng)絡(luò)存在大量參數(shù)需要調(diào)整,且單個參數(shù)可選范圍大,人工調(diào)整很難找到最合適這個任務(wù)的超參數(shù)。所以,需要通過遺傳算法[13-14]對卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化。 具體計算過程如下: 1)確定神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),確定需要優(yōu)化的超參數(shù)及其值域,把每一個種群作為深度神經(jīng)網(wǎng)絡(luò)超參數(shù)選擇的可行解,從一個種群開始,對每個種群的個體基因編碼,設(shè)置變異率,設(shè)定最大進(jìn)化次數(shù)N; 2)設(shè)置適應(yīng)度函數(shù),對種群的每個個體進(jìn)行評價,評價分?jǐn)?shù)越低,適合度越低。且每一代的個體由適應(yīng)度函數(shù)選擇進(jìn)化、交叉、變異等方式產(chǎn)生新的參數(shù),逐漸找到越來越好的近似解; 3)進(jìn)化N代后,通過適應(yīng)度函數(shù)評價,選出所有個體中表現(xiàn)最優(yōu)的超參數(shù)組合,可以作為問題的近似最優(yōu)解; 4)輸出最優(yōu)超參數(shù)組合,結(jié)束。 現(xiàn)代高校在推廣圖書館“互聯(lián)網(wǎng)+”閱讀教育時,需要對學(xué)生的學(xué)習(xí)動機(jī)進(jìn)行改善,針對上述分析的問題,校方應(yīng)當(dāng)在課堂教育等途徑當(dāng)中,讓學(xué)生了解到未來自身將面臨怎樣的壓力,使學(xué)生了解到其中的利害關(guān)系,有助于激發(fā)學(xué)生自主學(xué)習(xí)的欲望,而為了深化改善此點(diǎn),校方還可以推出一系列的有獎競賽,鼓勵學(xué)生自主學(xué)習(xí),在獎勵的引導(dǎo)之下可以使學(xué)生重視閱讀學(xué)習(xí)。此外,在選擇有獎競賽中的獎勵的時候,應(yīng)當(dāng)獎勵對學(xué)生的吸引力,可以選擇一些具有教育意義的獎勵,例如助學(xué)基金、野炊等。 數(shù)據(jù)歸一化屬于數(shù)據(jù)處理的一種,把各個特征數(shù)據(jù)進(jìn)行縮放,將其映射到0到1之間。數(shù)據(jù)歸一化處理可以減少程序執(zhí)行時間成本,同時為預(yù)測模型提供了標(biāo)準(zhǔn)同一的訓(xùn)練數(shù)據(jù),使模型的預(yù)測結(jié)果更為準(zhǔn)確和有效。計算公式為: 式中x為訓(xùn)練數(shù)據(jù),xmin為x的最小值,xmax為x的最大值。 在工業(yè)生產(chǎn)中,光伏場站的天氣類型一般劃分為多云,晴天,陰天和雨天。晴天和多云光伏出力的峰值往往表現(xiàn)比較高,而陰天和雨天光伏出力的峰值比較低。所以文中在光伏發(fā)電出力中將天氣類型分為兩種:①晴天和多云;②陰天。 算法的具體流程如下: 1)首先對實際功率數(shù)據(jù)進(jìn)行清洗,異常數(shù)據(jù)包括超出1.1倍裝機(jī)的值,不正常的負(fù)值以及連續(xù)重復(fù)8個或8個以上的值等,并且剔除異常值所在的那一天所有的數(shù)據(jù),包括不足一天的數(shù)據(jù),通過輻照度-實際功率散點(diǎn)圖,剔除訓(xùn)練集的異常點(diǎn)所在的一天的數(shù)據(jù); 2)把訓(xùn)練集的實際功率使用變分模態(tài)分解,確定變分模態(tài)分解的模態(tài)數(shù)和噪聲所在的模態(tài)位置,本文把實際功率分解成了4個模態(tài)。通過實驗,確定了其中的第2個模態(tài)和第3個模態(tài)為噪聲,然后只保留第1個和第4個模態(tài),把第1個和第4個模態(tài)相加得到去噪后的功率數(shù)據(jù); 3)數(shù)據(jù)采樣的時間間隔為15 min,每天有96個數(shù)據(jù)點(diǎn)。把2)獲取的去噪后的N個長度的一維功率序列轉(zhuǎn)換為以天為單位的數(shù)據(jù)矩陣(行為訓(xùn)練數(shù)據(jù)的天數(shù),列為一天的數(shù)據(jù)); 圖5 兩個不同標(biāo)簽的實際功率數(shù)據(jù) 由于光伏電站環(huán)境復(fù)雜,直接進(jìn)行聚類的結(jié)果沒有使用VMD再進(jìn)行聚類的效果顯著。圖6顯示了這兩種方法在數(shù)據(jù)集上的表現(xiàn),本文將光伏日功率曲線使用PCA[15]降維成兩個維度描述不同類別之間的關(guān)系,很明顯能夠看出直接聚類的兩類的類與類之間的邊界不夠明顯,但是分解后再聚類就沒有出現(xiàn)這個問題。 圖6 直接聚類與分解后再聚類結(jié)果對比 算法通過多次實驗最終的拓?fù)浣Y(jié)構(gòu)包含了:三個卷積層,三個池化層和一個全連接層(全連接層為一個隱藏層與一個輸出層)。算法的輸入為一天的預(yù)報氣象數(shù)據(jù)(包括輻照度,溫度等),算法的輸出為這一天的天氣類型。 首先把數(shù)據(jù)集分割成訓(xùn)練集和測試集,數(shù)據(jù)集的前70%部分劃分為訓(xùn)練集,后30%部分劃分為驗證集。超參數(shù)選取步驟為: 1)設(shè)置遺傳算法參數(shù):種群大小S置為10,最大進(jìn)化次數(shù)為10,交叉概率為PC=0.8,變異概率Pb=0.5。 2)卷積神經(jīng)網(wǎng)絡(luò)參數(shù)優(yōu)化:為卷積的窗口大小、移動步長、池化的窗口大小與隱藏層的神經(jīng)元個數(shù)設(shè)置可行域(卷積窗口大小設(shè)置為[60,400],移動步長設(shè)置為[1,5],池化窗口大小設(shè)置為2到10,隱藏層神經(jīng)元個數(shù)可行域設(shè)置為[300,500],輸出層神經(jīng)元個數(shù)為1個),損失函數(shù)選擇MSE。 3)每一代的每一個種群為神經(jīng)網(wǎng)絡(luò)預(yù)選參數(shù)。將每一個選擇該預(yù)選參數(shù)的卷積神經(jīng)網(wǎng)絡(luò)的預(yù)測值與真實值比較,使用式(9)作為適應(yīng)度函數(shù),對每個種群的每一代進(jìn)行評價,選擇表現(xiàn)力最好的那一個種群作為卷積神經(jīng)網(wǎng)絡(luò)的超參數(shù)。 式(9)中: TP:預(yù)測正例,實際為正例 FP:預(yù)測正例,實際為負(fù)例 TN:預(yù)測負(fù)例,實際為負(fù)例 FN:預(yù)測負(fù)例,實際為正例 圖7畫出了分類算法在測試集上的分類結(jié)果,在20天中,第1天,第6天和第分類錯誤,圖8畫出了這兩天與其他兩種類型的日功率曲線。 圖7 光伏卷積神經(jīng)算法分類結(jié)果 圖8 日功率曲線對比 光伏場站歷史數(shù)據(jù)轉(zhuǎn)換為以天為單位的數(shù)據(jù)集后,數(shù)據(jù)量較小。SVM[16]是一種有監(jiān)督學(xué)習(xí)方法,在少量數(shù)據(jù)集上是機(jī)器學(xué)習(xí)最好的算法之一,所以使用SVM與卷積神經(jīng)網(wǎng)絡(luò)算法比較(其中SVM通過網(wǎng)格搜索優(yōu)化了懲罰參數(shù)C,核函數(shù)與gamma值,CNN使用遺傳算法優(yōu)化了卷積核大小,全連接層神經(jīng)元個數(shù))。算法的輸入與精度(使用式(10)計算)如表1、表2所示,可以看出,使用遺傳算法優(yōu)化后的CNN是效果是最好的。 式中,M為預(yù)測的天數(shù),yreal是真實標(biāo)簽,ypre是預(yù)測標(biāo)簽。 表1 單變量SVM與CNN天氣分類精度表 表2 單變量CNN與多變量CNN天氣分類精度表 提高光伏功率預(yù)測精度是加大太陽能發(fā)電占總體發(fā)電量比重的前提,天氣類型是影響光伏發(fā)電功率效率的關(guān)鍵。文中從光伏功率預(yù)測的工業(yè)實際應(yīng)用問題出發(fā),應(yīng)用人工智能算法模擬人類判斷光伏實際功率數(shù)據(jù)日天氣類型的經(jīng)驗法則,提出了變分模態(tài)分解-遺傳算法-卷積神經(jīng)網(wǎng)絡(luò)的光伏日天氣分類模型。通過仿真分析,可知,文中提出的算法模型相對于傳統(tǒng)的機(jī)器學(xué)習(xí)方可以在光伏發(fā)電站常年未標(biāo)注天氣類型的情況下,為光伏場站標(biāo)注歷史天的日天氣類型;能夠較為準(zhǔn)確的預(yù)測未來一天的日天氣類型;提升了光伏場站數(shù)據(jù)的使用靈活度與利用價值。但是光伏場站地理環(huán)境錯綜復(fù)雜,氣象預(yù)報也具有誤差,僅僅依賴氣象因素可能無法很好的對每一個場站做出高精度的日天氣類型預(yù)報。如何結(jié)合衛(wèi)星云圖等技術(shù)提高模型的普適性是下一步值得去深究的問題。1.3 層次聚類算法
1.4 卷積神經(jīng)網(wǎng)絡(luò)
1.5 遺傳算法
2 變分模態(tài)分解-遺傳算法-卷積神經(jīng)網(wǎng)絡(luò)算法仿真分析
2.1 數(shù)據(jù)歸一化
2.2 層次聚類算法模型
2.3 分類算法模型
3 結(jié)語