徐鶴,曹彬,岳文彥
(中節(jié)能風(fēng)力發(fā)電股份有限公司,北京 100034)
隨著中國提出努力爭取在2060年前實現(xiàn)碳中和,發(fā)展風(fēng)力發(fā)電、太陽能發(fā)電等清潔、可持續(xù)、可再生能源成為加速能源結(jié)構(gòu)轉(zhuǎn)型的重要舉措之一,風(fēng)電裝機(jī)規(guī)模將持續(xù)擴(kuò)大。而風(fēng)能具有不確定性,大量的風(fēng)電接入電網(wǎng)可能會出現(xiàn)大規(guī)模功率波動,進(jìn)而引發(fā)電網(wǎng)穩(wěn)定性問題。為了使風(fēng)能成為可靠的能源來源,建立高效、準(zhǔn)確的風(fēng)電監(jiān)測和預(yù)測模型尤為重要。
風(fēng)功率曲線是風(fēng)力發(fā)電機(jī)組功率和風(fēng)速的對應(yīng)曲線,反映了風(fēng)力發(fā)電機(jī)組在不同風(fēng)速下產(chǎn)生電能的能力,在評價風(fēng)力發(fā)電機(jī)組發(fā)電性能優(yōu)劣及風(fēng)功率預(yù)測中發(fā)揮著重要作用。而由于棄風(fēng)限電、通信設(shè)備故障、極端天氣、葉片污染和風(fēng)速傳感器失靈等原因,實際測量數(shù)據(jù)中存在大量不符合風(fēng)力發(fā)電機(jī)組正常輸出特性的異常點,異常數(shù)據(jù)的識別和剔除是獲得風(fēng)功率曲線的重要步驟,IEC 61400-12-1中關(guān)于異常數(shù)據(jù)剔除做出了明確規(guī)定:用于分析的數(shù)據(jù)均應(yīng)該是在風(fēng)力發(fā)電機(jī)組正常運轉(zhuǎn)情況下采集的,為了確保數(shù)據(jù)沒有損壞,應(yīng)當(dāng)排除以下情況中的數(shù)據(jù)集:(1)除風(fēng)速外的外部條件超出了風(fēng)力發(fā)電機(jī)組的工作范圍;(2)由于風(fēng)力發(fā)電機(jī)組故障狀態(tài)導(dǎo)致的無法運轉(zhuǎn);(3)風(fēng)力發(fā)電機(jī)組被手動關(guān)機(jī)或者處于測試或維修操作狀態(tài);(4)測試設(shè)備故障或者性能退化(例如,葉片結(jié)冰和污染等);(5)風(fēng)向超出了規(guī)定的測量扇區(qū)。
國內(nèi)外研究學(xué)者對風(fēng)功率異常數(shù)據(jù)剔除、風(fēng)功率曲線建模做了大量研究,風(fēng)功率曲線建模的精度不斷提升。而風(fēng)力發(fā)電機(jī)組的運行數(shù)據(jù)中蘊含更多信息,除了需要將正常數(shù)據(jù)與異常數(shù)據(jù)區(qū)分開外,還需要將異常數(shù)據(jù)產(chǎn)生的原因進(jìn)一步識別,即風(fēng)力發(fā)電機(jī)組運行狀態(tài)識別。對風(fēng)力發(fā)電機(jī)組運行狀態(tài)的識別是風(fēng)電監(jiān)測的重要工作之一。同時,機(jī)組運行狀態(tài)識別結(jié)果可以用于排除IEC 61400-12-1中規(guī)定的五種數(shù)據(jù)集,獲取風(fēng)功率曲線。
本文闡述了風(fēng)速-功率散點圖中的異常數(shù)據(jù)分布特征,總結(jié)歸納了常用的異常數(shù)據(jù)識別方法、風(fēng)功率曲線建模和風(fēng)力發(fā)電機(jī)組運行狀態(tài)識別方法,重點對各個方法的技術(shù)路線、應(yīng)用情況以及應(yīng)用效果進(jìn)行介紹。通過對各個方法機(jī)理的分析,逐步梳理其應(yīng)用范圍,找出問題和不足。在此基礎(chǔ)上,提出了風(fēng)力發(fā)電機(jī)組運行狀態(tài)識別深入研究的未來發(fā)展方向,從而為今后建立高精度的風(fēng)力發(fā)電機(jī)組運行狀態(tài)識別模型提供理論依據(jù)。
風(fēng)力發(fā)電機(jī)組在運行過程中受到湍流、氣象因素和零部件故障等影響,運行數(shù)據(jù)中存在大量偏離正常工作特性的異常點。不同成因的異常點在風(fēng)速-功率散點圖中表現(xiàn)的數(shù)據(jù)形態(tài)不一致。根據(jù)風(fēng)速-功率圖中散點分布形態(tài)可以將異常數(shù)據(jù)分為四類,如圖1所示。
圖1 風(fēng)功率散點圖異常數(shù)據(jù)分布特征示意
(1)底部堆積型異常數(shù)據(jù)在風(fēng)速-功率散點圖中表現(xiàn)為一條橫向密集數(shù)據(jù)帶,功率在零值附近波動,表現(xiàn)為數(shù)據(jù)堆積。產(chǎn)生的原因包括機(jī)組故障、通信設(shè)備或測量終端故障、計劃外停機(jī)檢修等情況。
(2)中部堆積型異常數(shù)據(jù)在風(fēng)速-功率散點圖中表現(xiàn)為在保證功率曲線下橫帶狀的形態(tài),該數(shù)據(jù)帶往往是因為電網(wǎng)限電或者風(fēng)力發(fā)電機(jī)組故障無法定位,人為將風(fēng)力發(fā)電機(jī)組功率限制在某一值。
(3)上部堆積型異常數(shù)據(jù)在風(fēng)速-功率散點圖中表現(xiàn)為位于風(fēng)功率曲線右側(cè)橫帶狀的形態(tài),產(chǎn)生的原因通常是通信錯誤或風(fēng)速傳感器失靈。
(4)周圍分散型異常數(shù)據(jù)表現(xiàn)為功率曲線附近密度較低的無規(guī)律散點。此類異常數(shù)據(jù)產(chǎn)生的原因為棄風(fēng)限電、信號傳播噪聲、傳感器失靈、極端天氣情況和風(fēng)向標(biāo)松動等隨機(jī)影響因素造成的。
堆積型異常數(shù)據(jù)通常在時間上存在連續(xù)性,往往無法瞬時恢復(fù)。分散型異常數(shù)據(jù)表現(xiàn)為分散分布的形態(tài),通常是隨機(jī)產(chǎn)生且變化的,可短時間內(nèi)恢復(fù)。
棄風(fēng)限電的數(shù)據(jù)可能表現(xiàn)為堆積型數(shù)據(jù)也可能表現(xiàn)為分散性數(shù)據(jù),具體的數(shù)據(jù)形態(tài)與棄風(fēng)限電的響應(yīng)方式相關(guān)。能量管理系統(tǒng)(Energy Management System,EMS)接收自動發(fā)電控制模塊(Automatic Generation Control,AGC)限電的指令后,按照內(nèi)部控制邏輯來控制風(fēng)電場中每臺風(fēng)力發(fā)電機(jī)組的功率。AGC的限電命令是實時發(fā)送且為動態(tài)調(diào)整的,往往棄風(fēng)限電數(shù)據(jù)在風(fēng)速-功率散點圖上表現(xiàn)為分散型。而如果人工參與限電行為,如為了快速響應(yīng)限電指令,將某一臺或者幾臺風(fēng)力發(fā)電機(jī)組的功率限制在某一值下,此時棄風(fēng)限電數(shù)據(jù)在風(fēng)速-功率散點圖上則表現(xiàn)為堆積的橫帶形態(tài)。
婁建樓等人提出了組內(nèi)優(yōu)組內(nèi)方差的數(shù)據(jù)剔除方法,該方法首先將風(fēng)速和功率的原始數(shù)據(jù)根據(jù)風(fēng)速區(qū)間進(jìn)行劃分,記某一風(fēng)速區(qū)間的數(shù)據(jù)集為W:
vi表示i第個數(shù)據(jù)樣本的風(fēng)速,pi表示i第個數(shù)據(jù)樣本的功率,pi按照降序排列,即pi<pi-1(i>1)。
然后依次計算前個坐標(biāo)點中功率的方差值:
si為第個i點的方差,pj為第j個點的功率值;為第i-1個點的功率的平均值。由于是依次計算數(shù)據(jù)集中i個點的方差,該計算方式類似滑動計算,所以婁建樓等人又將此計算方法稱為滑差值計算。
最后,通過給定滑差值的閾值,分離正常點和異常點。這種方法實用、高效,并引入實際的案例證明了該方法能夠準(zhǔn)確識別出機(jī)組異常運行狀態(tài)。
沈小軍等人采用變點分組法與四分位法組合的方法。變點是指在一個序列或一個過程中的某個或某些數(shù)據(jù)突然變化的點,這種突然變化往往反映數(shù)據(jù)的某種質(zhì)的變化。變點分組法是在組內(nèi)最優(yōu)方差法的基礎(chǔ)上計算方差的變化率,采用方差變化率的變點作為分組依據(jù)。
ki為第i個點的方差變化率。
然后,采用最小二乘法作為檢測方法,對每個風(fēng)速區(qū)間的風(fēng)力發(fā)電機(jī)組功率的方差變化率分為前后兩段進(jìn)行回歸分析,回歸系數(shù)發(fā)生突變的點即為回歸變點,從而得到功率值明顯變化的位置。變點分組法準(zhǔn)確識別出了風(fēng)速-功率曲線下方的第一、二類堆積型異常數(shù)據(jù)和部分分散型異常數(shù)據(jù),但是,對風(fēng)功率曲線上界的第三類堆積型異常數(shù)據(jù)和部分分散型異常數(shù)據(jù)無法有效識別。因此繼續(xù)采用四分位法進(jìn)行異常數(shù)據(jù)識別,四分位法是常用的統(tǒng)計學(xué)異常數(shù)據(jù)檢測方法,即將全部數(shù)據(jù)從小到大排列,排列在前1/4位置上的數(shù),即25%位置上的數(shù),稱為第一四分位數(shù),記作Q1;排在后1/4位置上的數(shù),即75%位置上的數(shù),稱為第三四分位數(shù),記作Q3;排列在中間位置的數(shù)即50%位置上的數(shù),稱為第二四分位數(shù),記作Q2。將Q3-Q1定義為四分位距,記作IQR。將Q3+1.5IQR定義為上界;將Q1-1.5IQR定義為下界;將大于上界和小于下界的數(shù)據(jù)識別為異常值。沈小軍等人用四分位法有效地識別出了第三類異常數(shù)據(jù)及部分分散型異常數(shù)據(jù)。
圖2 四分位法示意圖
聚類分析是無監(jiān)督類機(jī)器學(xué)習(xí)算法中最常用的一類,其目的是將數(shù)據(jù)集分成若干組,也被稱為“簇”,使得組內(nèi)的相似性大于組間的相似性,如果劃分適當(dāng),則簇應(yīng)當(dāng)捕獲數(shù)據(jù)的自然結(jié)構(gòu),因此聚類分析也常常被用作離群點檢測。常用的聚類方法有K-means、層次聚類、Dbscan(Density-Based Spatial Clustering of Applications with Noise)、模糊C均值(Fuzzy C-Means,F(xiàn)CM)等。
Dbscan是常用的基于密度的聚類方法,延平采用Dbscan的方法對風(fēng)力發(fā)電機(jī)組運行數(shù)據(jù)進(jìn)行分析,根據(jù)數(shù)據(jù)特點將限功率數(shù)據(jù)、正常運行數(shù)據(jù)、故障停機(jī)數(shù)據(jù)、降容運行等數(shù)據(jù)進(jìn)行區(qū)分。該算法將“簇”定義為密度相連的點的最大的集合,并通過考察對象與簇之間的關(guān)系,將具有足夠高密度的區(qū)域劃分為一簇,是一種無監(jiān)督分類的方法。圖3為將Dbscan法用于功率-槳距角的聚類效果,圖中散點被聚成6類,然后結(jié)合風(fēng)力發(fā)電機(jī)組運行特性,人為將這六類散點標(biāo)記為正常運行數(shù)據(jù)、限功率數(shù)據(jù)、異常數(shù)據(jù)和故障停機(jī)數(shù)據(jù)。Dbscan方法雖然在論文所采用的標(biāo)準(zhǔn)數(shù)據(jù)集上取得了不錯的效果,但是,實際運行場景中的風(fēng)力發(fā)電機(jī)組數(shù)據(jù)集往往復(fù)雜的多,使用Dbscan方法不能很好地達(dá)到論文中的效果。
圖3 功率-槳距角DBSCAN聚類結(jié)果[5]
深度學(xué)習(xí)本質(zhì)上是自動特征提取,正常的風(fēng)力發(fā)電機(jī)組運行數(shù)據(jù)特征會有一定的規(guī)律,而異常數(shù)據(jù)往往是個性化的,如果數(shù)據(jù)量足夠多,深度學(xué)習(xí)也可以用于異常數(shù)據(jù)的識別。
(1)門控循環(huán)單元(Gate Recurrent Unit,GRU)。GRU是循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)的一種,和LSTM(Long-Short Term Memory)一樣,也是為了解決長期記憶和反向傳播中的梯度等問題而提出來的。與LSTM相比,使用GRU能夠更容易進(jìn)行訓(xùn)練,并且能夠?qū)崿F(xiàn)與LSTM相當(dāng)?shù)男Ч?,能夠很大程度上提高?xùn)練效率。
風(fēng)力發(fā)電機(jī)組的數(shù)據(jù)采集與監(jiān)視控制系統(tǒng)SCADA包含多個監(jiān)測量,其中涉及振動量、壓力量、溫度量、角度量、電氣量和速度等,不同風(fēng)力發(fā)電機(jī)組品牌和型號的傳感器測點個數(shù)不一致,一般為幾十個到一百多個,圖4為常見的SCADA連續(xù)監(jiān)測量。李秋佳根據(jù)SCADA系統(tǒng)監(jiān)測量,構(gòu)建風(fēng)力發(fā)電機(jī)組狀態(tài)評估的項目層,確定各個項目層的評估指標(biāo),并基于隨機(jī)森林(Random Forest,RF)算法建立了各指標(biāo)與對應(yīng)監(jiān)測量間的聯(lián)系。然后,選擇風(fēng)力發(fā)電機(jī)組的狀態(tài)估計指標(biāo)并對發(fā)電機(jī)正常狀態(tài)下的監(jiān)測量進(jìn)行數(shù)據(jù)預(yù)處理,通過克里金法(Kriging)-GRU模型得到各測點評估指標(biāo)的預(yù)測值,給定各指標(biāo)的殘差及劣化度并以此為依據(jù)建立相應(yīng)的標(biāo)準(zhǔn)正態(tài)云模型,之后將待估云與標(biāo)準(zhǔn)正態(tài)云對比判斷風(fēng)力發(fā)電機(jī)組運行狀態(tài)。
圖4 SCADA 連續(xù)監(jiān)測項
(2)深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)。解加盈等人將深度神經(jīng)網(wǎng)絡(luò)用于風(fēng)功率曲線建模,他們首先引入偏最小二乘法(partial least-square,PLS)分析了風(fēng)力發(fā)電機(jī)組運行數(shù)據(jù)中多個變量和風(fēng)力發(fā)電機(jī)組功率的相關(guān)性,然后,通過交叉有效原則和投影重要性指標(biāo)(Variable Importance in Projection,VIP)對多個變量進(jìn)行了降維篩選,最后把找到的最優(yōu)變量子集作為DNN的輸入,最終得到風(fēng)功率曲線的DNN模型。
風(fēng)功率曲線描述了風(fēng)力機(jī)輸出功率與風(fēng)速的關(guān)系,反映了風(fēng)力發(fā)電機(jī)組的性能。風(fēng)力發(fā)電機(jī)組功率曲線的建模有助于風(fēng)力發(fā)電機(jī)組的性能監(jiān)測和功率預(yù)測。風(fēng)功率曲線模型可分為參數(shù)模型和非參數(shù)模型。非參數(shù)模型是指對任何分布的函數(shù)形式不作任何假設(shè)的模型,本文2、3章中介紹的統(tǒng)計學(xué)方法及機(jī)器學(xué)習(xí)方法均是非參數(shù)模型。參數(shù)化模型是建立在一套數(shù)學(xué)表達(dá)式的基礎(chǔ)上,一般采用高級算法求解這套表達(dá)式。
建立參數(shù)化模型首先需要確定函數(shù)表達(dá)式,常用的函數(shù)表達(dá)式有分段線性模型、多項式擬合、指數(shù)、多參數(shù)邏輯回歸等,本文以線性分段模型和四參數(shù)模型來舉例介紹。
(1)線性化的分段模型。將風(fēng)功率曲線進(jìn)行線性化的分段,如圖5所示,利用直線方程實現(xiàn)了分段逼近:
圖5 線性分段模型
其中P是風(fēng)力發(fā)電機(jī)組功率,為輸出變量;u是風(fēng)速,為輸入變量;定義分段的斜率為θ=f(m,c),為常數(shù)。
(2)四參數(shù)回歸模型。風(fēng)功率曲線的形狀可以用帶四個參數(shù)的邏輯表達(dá)式來近似。圖6為四參數(shù)模型的曲線,其表達(dá)式為:
圖6 四參數(shù)模型
其中θ=f(a,m,n,τ)是決定四參數(shù)邏輯表達(dá)式的一個矢量參數(shù)。
參數(shù)化模型的參數(shù)擬合涉及對數(shù)學(xué)表達(dá)式的一個或多個參數(shù)的確定。常用的參數(shù)擬合方法有最小二乘法、RANSAC、GA等。圖5將功率曲線分為5個線性段,建立功率曲線的線性分段模型后,利用最小二乘法將現(xiàn)有數(shù)據(jù)擬合到每個線段上。最小二乘法使殘差平方和最小,從而得到系數(shù)估計值。RANSAC (Random Sample Consensus,RANSAC)算法由Fischler 和 Bolles提出,是一種重采樣技術(shù),通過使用估計底層模型參數(shù)所需的最小觀測值生成候選解決方案,傳統(tǒng)的采樣技術(shù)使用盡可能多的數(shù)據(jù)來獲得初始解,然后繼續(xù)去修剪離群值,而RANSAC使用盡可能小的集合,并繼續(xù)用一致的數(shù)據(jù)點來擴(kuò)大這個集合,因此,RANSAC方法適用于從噪聲點較多的數(shù)據(jù)集中提取模型。遺傳算法是一種基于達(dá)爾文生物系統(tǒng)進(jìn)化理論的搜索技術(shù),通過模擬自然進(jìn)化過程來搜索最優(yōu)解,在求解復(fù)雜的組合優(yōu)化問題時,相比常規(guī)的優(yōu)化算法往往可以較快地獲得較優(yōu)的結(jié)果。
國內(nèi)外研究學(xué)者對基于數(shù)學(xué)模型的風(fēng)功率曲線建模做了大量研究。A.Goudarzi等人研究了330kW、800kW和900kW的風(fēng)力發(fā)電機(jī)組風(fēng)功率曲線建模,使用標(biāo)準(zhǔn)化均方根誤差等統(tǒng)計指標(biāo)來評估所選模型的性能,結(jié)果表明,四階多項式是最精確的數(shù)學(xué)模型。C.Carrillo等人比較了多項式、指數(shù)、立方和近似立方四種模型,他們收集了功率在225kW-7500kW的200臺風(fēng)力發(fā)電機(jī)組功率曲線,利用確定系數(shù)作為適應(yīng)度指標(biāo)來評估模型的性能,結(jié)果表明,指數(shù)逼近和三次逼近的確定系數(shù)大,誤差小,多項式模型的確定效果最差。Alhassan等人比較九種常用的數(shù)學(xué)模型,使用相關(guān)誤差、歸一化均方根誤差和相關(guān)系數(shù)等統(tǒng)計標(biāo)準(zhǔn)來評估模型的精度,結(jié)果表明,基于功率系數(shù)的模型和通用模型是建模風(fēng)力機(jī)功率曲線最精確的數(shù)學(xué)模型,多項式模型是最不精確的模型。
國內(nèi)外研究學(xué)者已經(jīng)針對風(fēng)功率異常數(shù)據(jù)識別和風(fēng)力發(fā)電機(jī)組功率曲線建模做了大量研究,風(fēng)功率曲線建模的精度在不斷提升。統(tǒng)計學(xué)方法原理較為簡單,應(yīng)用也較廣,但是統(tǒng)計學(xué)方法嚴(yán)重依賴數(shù)據(jù)的分布特性,如果數(shù)據(jù)中存在大量的異常點,將會影響數(shù)據(jù)分布形態(tài),從而使得統(tǒng)計學(xué)識別異常數(shù)據(jù)的精度下降。機(jī)器學(xué)習(xí)方法適用性較廣,但需要大量樣本,尤其是深度學(xué)習(xí),對樣本和計算資源的要求較高。基于參數(shù)化模型建模的方法發(fā)展較為成熟,但采用不同參數(shù)模型獲得的功率曲線形態(tài)存在差異,使用過程中需要根據(jù)具體的數(shù)據(jù)集選擇合適的參數(shù)模型。
現(xiàn)階段將異常數(shù)據(jù)與正常數(shù)據(jù)區(qū)別劃分已經(jīng)可以實現(xiàn),但對于異常數(shù)據(jù)成因識別仍然存在諸多問題。如果能夠根據(jù)運行數(shù)據(jù)準(zhǔn)確地識別風(fēng)力發(fā)電機(jī)組運行狀態(tài),將會對風(fēng)電場運維形成一定的指導(dǎo)作用,從而降低運維成本,提升發(fā)電量。因此,從風(fēng)力發(fā)電機(jī)組運行數(shù)據(jù)中挖掘機(jī)組運行狀態(tài)亟待深入探索,主要分為兩個方面:一是從技術(shù)角度,將更多先進(jìn)的智能算法應(yīng)用于風(fēng)力發(fā)電機(jī)組狀態(tài)識別,研究過程中選取真實風(fēng)電場獲取的數(shù)據(jù)集,除使用電氣量、速度量、溫度量外,可以加入控制監(jiān)測量,并且結(jié)合風(fēng)電場地理信息、氣象數(shù)據(jù)等綜合考慮;二是從管理角度,推動設(shè)備制造商PLC與SCADA更好地配合,并開放保護(hù)降容(故障降容、高溫降容等)等狀態(tài)信息,同時應(yīng)與能量管理平臺配合記錄限電行為,因為棄風(fēng)限電數(shù)據(jù)是降容數(shù)據(jù)的一部分,特別是在棄風(fēng)率較高的區(qū)域,獲取單臺機(jī)組的限電記錄對風(fēng)力發(fā)電機(jī)組運行狀態(tài)識別意義重大。