摘 要:為提升風(fēng)電場原始數(shù)據(jù)中異常數(shù)據(jù)的識別精度,提出一種結(jié)合規(guī)則庫與PRRL模型的風(fēng)電場數(shù)據(jù)清洗方法。首先依據(jù)風(fēng)電場裝機(jī)容量等參數(shù)建立規(guī)則庫,提高數(shù)據(jù)集中正常數(shù)據(jù)占比。其次,以RANSAC穩(wěn)健回歸算法為核心,線性回歸模型為基礎(chǔ),將風(fēng)速數(shù)據(jù)作為輸出,同時擴(kuò)展輸入變量的多項式特征來捕捉風(fēng)速與功率之間的非線性關(guān)系,構(gòu)建PRRL穩(wěn)健回歸模型。該模型經(jīng)過規(guī)則庫處理后的數(shù)據(jù)訓(xùn)練,可有效識別原始數(shù)據(jù)中的異常數(shù)據(jù)。通過對湖南某風(fēng)電場的實例數(shù)據(jù)進(jìn)行應(yīng)用測試,結(jié)果顯示該方法在處理異常數(shù)據(jù)占比較高數(shù)據(jù)時,能有效識別其中的異常數(shù)據(jù),并降低風(fēng)電功率預(yù)測模型的預(yù)測誤差。
關(guān)鍵詞:風(fēng)電場;數(shù)據(jù)清洗;異常檢測;規(guī)則庫;回歸分析;穩(wěn)健回歸分析
中圖分類號:TK81 " " " " " " " "文獻(xiàn)標(biāo)志碼:A
0 引 言
風(fēng)能作為一種可再生能源,其優(yōu)點在當(dāng)今能源結(jié)構(gòu)轉(zhuǎn)型中愈發(fā)凸顯。據(jù)國家能源局統(tǒng)計數(shù)據(jù)顯示:截至2024年9月底,全國累計發(fā)電裝機(jī)容量約為31.6億kW,同比增長14.1%。其中,風(fēng)電裝機(jī)容量約為4.8億kW,同比增長19.8%。伴隨著風(fēng)電產(chǎn)業(yè)的快速發(fā)展,基于運行數(shù)據(jù)的風(fēng)電技術(shù)已獲得廣泛應(yīng)用并成為風(fēng)電行業(yè)的研究重點[1]。然而,風(fēng)電場數(shù)據(jù)采集與監(jiān)控(supervisory control and data acquisition,SCADA)系統(tǒng)采集的風(fēng)電功率數(shù)據(jù)質(zhì)量問題也逐漸凸顯,成為制約風(fēng)電發(fā)電效率和運行管理水平提升的瓶頸[2]。因此,高質(zhì)量的風(fēng)電功率數(shù)據(jù)清洗對于精準(zhǔn)預(yù)測風(fēng)電功率以及優(yōu)化風(fēng)電場運行至關(guān)重要[3]。
目前常用的風(fēng)電功率數(shù)據(jù)清洗方法有如下幾類[4]:統(tǒng)計方法:例如文獻(xiàn)[5]所用3σ法與文獻(xiàn)[6]所用箱線圖法。其中箱線圖法通過計算風(fēng)電場風(fēng)功率數(shù)據(jù)的四分位數(shù),同時設(shè)定內(nèi)限與外限[7]來描述數(shù)據(jù)分布,數(shù)據(jù)點若在內(nèi)限與外限之外則視為異常數(shù)據(jù)。但當(dāng)數(shù)據(jù)中包含大量異常數(shù)據(jù)時,分位數(shù)的計算結(jié)果將受到影響,因此識別結(jié)果的準(zhǔn)確性受異常數(shù)據(jù)的影響較大[8]。
基于距離的方法:例如文獻(xiàn)[9]所用[k]近鄰算法,首先為每個數(shù)據(jù)點找到[k]個最近鄰居,然后計算每個數(shù)據(jù)點與其[k]個最近鄰居之間的平均距離或最大距離,最后設(shè)定閾值,將距離超過閾值的數(shù)據(jù)點視為異常數(shù)據(jù)[10]。該方法對于大量聚集的異常數(shù)據(jù)檢測效果可能誤判,且需要較長時間來處理大規(guī)模數(shù)據(jù)集。
基于密度的方法:例如文獻(xiàn)[11]所用基于密度的空間聚類算法(density-based spatial clustering of applications with noise,DBSCAN)算法和文獻(xiàn)[12]所用的高斯模型方法。首先設(shè)定鄰域半徑和最小數(shù)據(jù)點數(shù)量;然后對每個數(shù)據(jù)點,計算其鄰域內(nèi)的點數(shù)量,將滿足最小數(shù)據(jù)點數(shù)量條件的數(shù)據(jù)點聚合成簇,未被聚合的數(shù)據(jù)點視為異常數(shù)據(jù)[13]。與[k]近鄰算法類似,當(dāng)大量異常數(shù)據(jù)聚合時,該方法會將這部分異常數(shù)據(jù)識別為正常數(shù)據(jù)。
機(jī)器學(xué)習(xí)方法:例如文獻(xiàn)[14]所用支持向量機(jī)(SVM)方法,該方法通過在[n]維空間中尋找一個([n-1])維的超平面來區(qū)分不同類別的數(shù)據(jù)點[15]。在SVM中,數(shù)據(jù)點距離超平面的距離用于判斷其是否異常[16]。然而,其有效性受到異常數(shù)據(jù)的顯著影響:大量異常數(shù)據(jù)會導(dǎo)致超平面的判定標(biāo)準(zhǔn)偏離,從而降低識別的準(zhǔn)確性。此外,SVM在計算上較為復(fù)雜,也因異常數(shù)據(jù)的存在而易受到影響。
然而,在風(fēng)電場實際生產(chǎn)過程中,由于傳感器故障等因素的影響[17],導(dǎo)致SCADA系統(tǒng)采集的原始數(shù)據(jù)中異常數(shù)據(jù)占比較高[18],上述方法識別這類數(shù)據(jù)時的效果欠佳。為應(yīng)對此問題,本文提出基于規(guī)則庫與PRRL(polynomial RANSAC regressor linear model)模型的數(shù)據(jù)識別方法。首先,根據(jù)風(fēng)電場的運行參數(shù)制定規(guī)則庫,識別并剔除明顯不符合物理運行原理以及設(shè)備性能規(guī)格的數(shù)據(jù),以提高原始數(shù)據(jù)集中的正常數(shù)據(jù)占比,進(jìn)而提高后續(xù)模型的穩(wěn)定性和收斂速度;接著,構(gòu)建PRRL穩(wěn)健回歸模型:以隨機(jī)抽樣一致性(random sample consensus,RANSAC)算法為核心[19],線性回歸為基礎(chǔ)擬合模型,并將原始數(shù)據(jù)中的功率數(shù)據(jù)作為輸入變量,風(fēng)速數(shù)據(jù)作為輸出變量,同時通過擴(kuò)展輸入變量的多項式特征,捕捉輸入與輸出變量之間的非線性關(guān)系。模型從規(guī)則庫識別后的數(shù)據(jù)中隨機(jī)抽取最小樣本集,進(jìn)行穩(wěn)健回歸迭代訓(xùn)練,得到最優(yōu)的PRRL穩(wěn)健回歸模型。最后,利用該模型進(jìn)行風(fēng)速預(yù)測,計算預(yù)測值與原始數(shù)據(jù)的誤差,并將誤差與設(shè)定閾值進(jìn)行比較,從而進(jìn)行異常數(shù)據(jù)識別。為驗證所提方法的有效性,對湖南某風(fēng)電場的實測數(shù)據(jù)進(jìn)行數(shù)據(jù)識別效果驗證,并將所提方法的識別效果與DBSCAN聚類算法識別效果、支持向量機(jī)算法識別效果以及實測風(fēng)功率曲線進(jìn)行對比驗證。最后,將這3種識別方法篩選出的正常數(shù)據(jù)分別訓(xùn)練反向傳播(back propagation,BP)神經(jīng)網(wǎng)絡(luò)預(yù)測模型,通過對比這些模型在預(yù)測風(fēng)電功率時的誤差大小與分布范圍,進(jìn)一步驗證本方法的識別效果。
1 風(fēng)電功率原始數(shù)據(jù)中異常數(shù)據(jù)分布特征與分類
1.1 異常數(shù)據(jù)分布特征
風(fēng)電場SCADA系統(tǒng)在收集風(fēng)力發(fā)電場生產(chǎn)和運行過程中的風(fēng)力發(fā)電機(jī)組、氣象塔等數(shù)據(jù)時,常因多種原因?qū)е聰?shù)據(jù)中異常數(shù)據(jù)占比較高。這些異常數(shù)據(jù)產(chǎn)生原因各異,因而在風(fēng)電場的風(fēng)速與功率散點圖中呈現(xiàn)出明顯的分布特征。以湖南某風(fēng)電場SCADA系統(tǒng)15 min間隔采集的34992組原始數(shù)據(jù)為例,繪制其風(fēng)速與功率散點圖可直觀展示這些異常數(shù)據(jù)的位置和分布特征。如圖1所示,風(fēng)速與功率的散點圖揭示了各類異常數(shù)據(jù)的獨特分布特征。
要有效識別這些異常數(shù)據(jù),關(guān)鍵在于分析其產(chǎn)生原因與分布特征,以便使識別方法更高效且更具有針對性。以下是對各類異常數(shù)據(jù)在風(fēng)速與功率散點圖中的形成原因和分布規(guī)律的詳細(xì)闡述。
1)負(fù)風(fēng)速與負(fù)功率:這類異常數(shù)據(jù)點出現(xiàn)在散點圖的第三象限(負(fù)風(fēng)速、負(fù)功率)或第四象限(正風(fēng)速、負(fù)功率),通常由傳感器故障或數(shù)據(jù)處理錯誤引起。
2)功率超出額定值:這類異常數(shù)據(jù)點出現(xiàn)在功率超過額定值的區(qū)域,即縱軸上的功率讀數(shù)高于設(shè)定的額定功率。這種情況一般是由傳感器故障或數(shù)據(jù)處理錯誤引起的。
3)風(fēng)速小于機(jī)組切入風(fēng)速的非零功率:這類異常數(shù)據(jù)點通常位于橫軸上風(fēng)速低于發(fā)電機(jī)組切入風(fēng)速時,縱軸上卻具有正功率值的區(qū)域。這種分布通常由機(jī)組設(shè)備故障導(dǎo)致。
4)風(fēng)速超過機(jī)組切出風(fēng)速的非零功率:風(fēng)速超過機(jī)組的切出風(fēng)速,卻仍有正功率讀數(shù)的異常數(shù)據(jù)點,一般由機(jī)組設(shè)備故障導(dǎo)致。
5)風(fēng)速適中的零功率:這類異常數(shù)據(jù)點位于橫軸上,即風(fēng)速位于切入風(fēng)速與切出風(fēng)速之間時的零功率點。這些異常數(shù)據(jù)值通常由機(jī)組設(shè)備故障導(dǎo)致。
6)風(fēng)速適中但功率明顯低于預(yù)期:風(fēng)速適中但功率持續(xù)低于理論輸出并保持在一定值附近,這類異常數(shù)據(jù)點通常位于正常期望功率下方。這類異常數(shù)據(jù)點通常是由電網(wǎng)負(fù)荷不足或系統(tǒng)穩(wěn)定性問題導(dǎo)致的人為限電。
7)隨機(jī)分散的異常功率:分散在期望功率附近,往往由氣象變化或信號傳播噪聲等隨機(jī)因素引起[3]。
1.2 異常數(shù)據(jù)分類
根據(jù)異常數(shù)據(jù)點的形成原因與分布特征,異常數(shù)據(jù)可分為如圖2所示的4類:
第1類異常數(shù)據(jù)點:傳感器故障或數(shù)據(jù)處理錯誤類異常數(shù)據(jù)點。這類異常數(shù)據(jù)點包含上述風(fēng)速、功率出現(xiàn)負(fù)值與輸出功率超出額定功率的異常數(shù)據(jù)點。
第2類異常數(shù)據(jù)點:機(jī)組設(shè)備故障類異常數(shù)據(jù)點。這類異常數(shù)據(jù)點包含上述風(fēng)速小于機(jī)組切入風(fēng)速的非零功率點;風(fēng)速超過機(jī)組切出風(fēng)速的非零功率點以及風(fēng)速適中的零功率點。
第3類異常數(shù)據(jù)點:人為限電類異常數(shù)據(jù)點。這類異常數(shù)據(jù)點包含述風(fēng)速適中但功率明顯低于預(yù)期且保持在一個定值附近的功率點。
第4類異常數(shù)據(jù)點:隨機(jī)因素類異常數(shù)據(jù)點。這類異常數(shù)據(jù)點包含上述隨機(jī)分散在正常期望功率附近的異常功率點。
2 規(guī)則庫與PRRL模型清洗方法實現(xiàn)
2.1 規(guī)則庫
由1.1節(jié)所述異常數(shù)據(jù)分布特征可知,第1類和第2類異常數(shù)據(jù)的分布受特定風(fēng)速與功率條件的約束。基于這些約束條件,可通過構(gòu)建規(guī)則庫的方法快速識別并清洗這兩類異常數(shù)據(jù)。規(guī)則庫制定的具體流程如圖3所示。
由圖3可知,制定規(guī)則庫,需了解目標(biāo)風(fēng)電場發(fā)電機(jī)組的切入風(fēng)速、切出風(fēng)速以及風(fēng)電場裝機(jī)容量等參數(shù)。根據(jù)這些參數(shù)便可快速制定規(guī)則以清洗識別數(shù)據(jù):首先,風(fēng)電場的有功功率值與風(fēng)速值都應(yīng)為非負(fù)值,根據(jù)該特征可制定規(guī)則1;其次,當(dāng)風(fēng)速小于機(jī)組切入風(fēng)速時,功率值應(yīng)為0,根據(jù)該特征可制定規(guī)則2;當(dāng)風(fēng)速大于切出風(fēng)速時,風(fēng)電機(jī)組會鎖定葉片進(jìn)入停機(jī)模式,功率值會降為0,根據(jù)該特征便可制定規(guī)則3;最后,當(dāng)風(fēng)電場每臺風(fēng)電機(jī)組都達(dá)到額定功率時,風(fēng)電場發(fā)出功率便會達(dá)到最大值,實際運行過程中該值為波動值,故當(dāng)實測功率值未超過風(fēng)電場最大功率理論值的1.1倍時,可視為正常數(shù)據(jù),根據(jù)該特征可制定規(guī)則4。規(guī)則庫一旦制定,將通過建立數(shù)據(jù)邊界的方式劃分?jǐn)?shù)據(jù)分布區(qū)域。如圖4所示,位于規(guī)則庫邊界所圍區(qū)域之外的數(shù)據(jù)點被視為異常數(shù)據(jù)點。
盡管規(guī)則庫能迅速識別第1類和第2類異常數(shù)據(jù),提高風(fēng)電功率數(shù)據(jù)集中的正常數(shù)據(jù)點占比,但規(guī)則庫對第3類和第4類異常數(shù)據(jù)點的識別能力有限。這類異常數(shù)據(jù)點通常分布在圖4中的陰影區(qū)域,會被規(guī)則庫誤判為正常數(shù)據(jù)點。因此,需進(jìn)一步識別位于該區(qū)域內(nèi)的異常數(shù)據(jù)點。
2.2 PRRL模型
為有效識別第3類與第4類異常數(shù)據(jù)點,構(gòu)建多項式隨機(jī)抽樣一致線性回歸(polynomial RANSAC regressor linear,PRRL)模型。模型以隨機(jī)抽樣一致(random sample consensus,RANSAC)算法為核心,融合多項式特征處理與線性回歸模型,以提升識別數(shù)據(jù)的準(zhǔn)確性和效率。
2.2.1 RANSAC穩(wěn)健回歸算法
PRRL模型以RANSAC算法為核心,可降低異常數(shù)據(jù)對模型擬合效果的不良影響。圖5為RANSAC算法處理異常數(shù)據(jù)時的穩(wěn)健優(yōu)勢。圖中實心數(shù)據(jù)點代表正常的風(fēng)電功率數(shù)據(jù),而空心數(shù)據(jù)點為人工添加的異常數(shù)據(jù);虛曲線是用多項式回歸模型擬合所有數(shù)據(jù)點所得,以下簡稱曲線1,實曲線是采用RANSAC穩(wěn)健回歸算法擬合所有數(shù)據(jù)點所得,以下簡稱曲線2。由于空心異常數(shù)據(jù)點的存在,曲線一明顯偏離了正常數(shù)據(jù)集,其原因是普通多項式算法采用的是最小二乘法,追求的是包括異常數(shù)據(jù)在內(nèi)的所有數(shù)據(jù)殘差平方和最小,
因此不可避免地受到異常數(shù)據(jù)的影響。曲線2則很好地擬合了正常數(shù)據(jù)集,異常數(shù)據(jù)對其影響有限,原因在于RANSAC穩(wěn)健回歸算法每次擬合的對象是從數(shù)據(jù)集隨機(jī)抽取的最小樣本集,這種隨機(jī)抽取最小樣本集的方法有極大概率抽取一個全部由正常數(shù)據(jù)點組成的樣本集。當(dāng)用回歸算法擬合這類樣本集時,便可有效減少異常數(shù)據(jù)對擬合結(jié)果的影響。觀察圖5可知,RANSAC算法對異常數(shù)據(jù)的魯棒性遠(yuǎn)優(yōu)于普通多項式回歸算法。
RANSAC算法的核心優(yōu)勢在于其穩(wěn)健性,在每次迭代中并非使用全量數(shù)據(jù)進(jìn)行擬合,而是隨機(jī)選取的最小樣本集。設(shè)數(shù)據(jù)集中正常數(shù)據(jù)點(以下簡稱內(nèi)點)所占比例為[p(0.5≤p≤1)],異常數(shù)據(jù)點(以下簡稱外點)所占比例為[1-p],RANSAC算法在面對數(shù)據(jù)集中內(nèi)點占比在0.5以上且均勻分布時能有效擬合。若內(nèi)點占比低于0.5,則數(shù)據(jù)被視為高污染,難以實現(xiàn)有效擬合。在設(shè)定的迭代次數(shù)[N]內(nèi),每次迭代隨機(jī)抽取[m]個樣本,所有樣本均為內(nèi)點的概率P可通過式(1)計算:
[P=pm] (1)
最小樣本集中至少包含一個異常數(shù)據(jù)的概率[P1]由式(2)計算得出:
[P1=1-P] (2)
至少有一次迭代中抽取的最小樣本集都是內(nèi)點的概率[P2]可由式(3)計算得出:
[P2=1-P1N=1-1-pmN] (3)
設(shè)[m]個樣本都是內(nèi)點的概率閾值為[P?],即要求概率[P2]滿足[P?≤P2],即:
[P?≤1-1-pmN] (4)
要使式(4)成立,則[N]的取值需滿足如下不等式:
[ln(1-P?)≥Nln(1-pm)] (5)
即:
[N≥ln(1-P?)/ln(1-pm)] (6)
式中:“[]”——向上取整。
利用2.1節(jié)中規(guī)則庫識別方法可快速識別并剔除部分異常數(shù)據(jù),進(jìn)而提高內(nèi)點的比例p,使得在最小迭代次數(shù)[N]一定的情況下,概率值[P2]得以提高,便可使基礎(chǔ)模型更快擬合出接近真實曲線的結(jié)果。
如圖6所示,RANSAC算法具體流程如下:
1)劃分輸入變量與目標(biāo)變量:將風(fēng)電場原始數(shù)據(jù)劃分為輸入變量([x=[x1 "x2 "x3 "… "xn]T])與目標(biāo)變量[(y=[y1 "y2 "y3 "… "yn]T)]。
2)隨機(jī)抽取最小樣本集:從原始數(shù)據(jù)集中隨機(jī)選擇一個最小樣本集[S],該樣本集中的樣本數(shù)量[m]在每次迭代過程中是固定的,可人為設(shè)定。
3)擬合基礎(chǔ)模型:使用基礎(chǔ)模型(線性回歸模型)擬合最小樣本集,得到模型回歸系數(shù)[βj](下標(biāo)[j]與迭代次數(shù)對應(yīng))?;A(chǔ)模型將在2.2.3節(jié)中詳細(xì)說明。
4)計算誤差:對原始數(shù)據(jù)集中的所有數(shù)據(jù)點,根據(jù)定義的損失函數(shù)(平方損失)計算實測數(shù)據(jù)與模型預(yù)測數(shù)據(jù)之間誤差。對于任意一個數(shù)據(jù)點[i],其平方損失[Lji](下標(biāo)[j]與迭代次數(shù)對應(yīng))為:
[Lji=yi-fxi,βj2] (7)
式中:[yi]——數(shù)據(jù)點[i]的目標(biāo)變量實測值;[fxi,βj]——基礎(chǔ)模型使用參數(shù)[βj]所得的目標(biāo)變量預(yù)測值。
5)劃分內(nèi)點和外點:根據(jù)預(yù)先設(shè)定的殘差閾值[τ],將數(shù)據(jù)點分為內(nèi)點和外點,即[Lj(i)≤τ]時識別為內(nèi)點,否則為外點。殘差閾值[τ]可人為設(shè)定,也可根據(jù)數(shù)據(jù)內(nèi)在統(tǒng)計特性計算得出,具體計算方法如下:
①首先計算殘差[ri]的絕對值:設(shè)數(shù)據(jù)集中數(shù)據(jù)點數(shù)量為[n],每個數(shù)據(jù)點殘差分別為[r1, r2,…,rn],其計算方法為:
[ri=yi-fxi, βj,i∈1, "n] (8)
再對每個數(shù)據(jù)點殘差取絕對值得:[|r1|, |r2|, …, |rn|]。
②計算殘差絕對值的中位數(shù):將殘差絕對值從小到大排序,然后得到位于中間位置的值,記該值為絕對偏差中位數(shù)[M]:
[M=med(r1,r2,…,rn)] (9)
式中:med()——取中位數(shù)。
③計算殘差閾值:殘差閾值是絕對偏差中位數(shù)的一個倍數(shù),這個倍數(shù)默認(rèn)為1.4826。該值源自正態(tài)分布的性質(zhì),由基于標(biāo)準(zhǔn)正態(tài)分布的[3σ]原則得出。殘差閾值的計算如下:
[τ=k·M] (10)
式中:[τ]——殘差閾值;[k]——常數(shù),取值1.4826。
6)更新最佳模型:如果當(dāng)前模型的內(nèi)點數(shù)量比之前的最佳模型多,或者在誤差相同時,內(nèi)點比例更高,則將當(dāng)前模型作為最佳模型。
7)迭代:重復(fù)步驟2~6,直到達(dá)到預(yù)先設(shè)定的最大迭代次數(shù)N或者得到一個滿足內(nèi)點占比要求的模型。
8)用內(nèi)點擬合最終模型:根據(jù)上述迭代過程中得到的最佳模型所識別的內(nèi)點,重新擬合以得到最終的模型參數(shù)[β*]。
2.2.2 擴(kuò)展多項式特征
在PRRL模型中,采用線性回歸模型作為RANSAC算法的基礎(chǔ)擬合模型,而線性回歸模型只能擬合線性關(guān)系,無法準(zhǔn)確捕捉風(fēng)速與功率數(shù)據(jù)之間的非線性關(guān)系。將數(shù)據(jù)的原始特征擴(kuò)展為多項式特征,便可使模型在擴(kuò)展后的特征空間內(nèi)進(jìn)行線性擬合,而在原始數(shù)據(jù)空間中反映為非線性關(guān)系的捕捉。設(shè)輸入變量為[x=[x1 x2 x3 … xn]T],將其原始特征轉(zhuǎn)換為多項式特征:
[Φtx=1x1x21…xt11x2x22…xt21x3x23…xt3?????1xnx2n…xtn] (11)
通過式(11)便可將輸入變量原始特征擴(kuò)展為最高次數(shù)為t次的多項式特征。
2.2.3 基礎(chǔ)擬合模型:線性回歸模型
在PRRL模型中,采用線性回歸模型作為RANSAC算法的基礎(chǔ)模型。當(dāng)輸入變量完成多項式特征擴(kuò)充后,基礎(chǔ)擬合模型將利用隨機(jī)抽樣的最小樣本集數(shù)據(jù)進(jìn)行擬合,設(shè)擬合的目標(biāo)變量為[y=[y1 y2 y3 … ym]T],輸入變量為[x=[x1 x2 x3 … xm]T],輸入變量的多項式特征為:
[Φtx=1x1x21…xt11x2x22…xt21x3x23…xt3?????1xmx2m…xtm] (12)
式(12)可簡化為[Φtx=[1 "x "x2 … xt]]。為擬合上述輸入變量的多項式特征[Φtx]與目標(biāo)變量的關(guān)系,線性回歸模型將通過式(13)對最小樣本集數(shù)據(jù)進(jìn)行擬合:
[yp=b0+b1x+b2x2+…+btxt] (13)
式中:[yp]——目標(biāo)變量預(yù)測值;[b0]、[b1]、[b2]、…、[bt]——回歸系數(shù)。
為使模型輸出的預(yù)測值與實際值之間的誤差最小,需用最小二乘法找到最佳回歸系數(shù)[β=[b0 b1 b2 … bt]T]。具體擬合過程如下:
設(shè)預(yù)測值與實際值之間的誤差函數(shù)為[R(β)]:
[R(β)=(y-Фxβ)T(y-Фxβ)] (14)
要使誤差函數(shù)[R(β)]取最小值,則[R(β)]的導(dǎo)數(shù)為0時取得最小值,即:
[R·(βj)=-2ФxT(y-Фxβj)=0] (15)
式中下標(biāo)[j]與RANSAC算法迭代次數(shù)對應(yīng)。求解式(15)可得[βj]的最佳估計值[β?j]:
[β?j=(ФxTФx)(-1)ФxTy] (16)
便可得到本次擬合模型結(jié)果:
[yp=Фxβ?j] (17)
以上便是基礎(chǔ)線性回歸模型擬合最小樣本集中數(shù)據(jù)點的過程,即RANSAC算法流程中的“擬合模型”步驟,RANSAC算法每迭代一次將擬合出一個回歸系數(shù)為[β?j]的基礎(chǔ)線性回歸模型。
2.3 規(guī)則庫與PRRL模型實現(xiàn)數(shù)據(jù)清洗流程
規(guī)則庫與PRRL模型方法清洗數(shù)據(jù)的基本流程如圖7所示?;?.1節(jié)與2.2節(jié)所構(gòu)建的規(guī)則庫與PRRL模型數(shù)據(jù)
清洗方法,便可實現(xiàn)異常數(shù)據(jù)占比較高的風(fēng)電場原始數(shù)據(jù)識別與清洗。首先,利用規(guī)則庫快速識別剔除原始數(shù)據(jù)集中部分異常數(shù)據(jù),提高正常數(shù)據(jù)占比。接著,訓(xùn)練PRRL模型:將規(guī)則庫視為正常數(shù)據(jù)的功率數(shù)據(jù)作為輸入變量,風(fēng)速作為目標(biāo)變量;擴(kuò)展輸入變量的多項式特征,并隨機(jī)抽取最小樣本集,最后用線性回歸模型擬合該樣本集,經(jīng)過RANSAC算法迭代得到最終模型。將該回歸模型應(yīng)用到規(guī)則庫識別為正常的數(shù)據(jù)集中,計算模型輸出的預(yù)測風(fēng)速與數(shù)據(jù)集中實測風(fēng)速之間的絕對誤差值。設(shè)定閾值[f],將風(fēng)速的預(yù)測值與實測值之間的差值與閾值[f]比較,從而判斷數(shù)據(jù)是否異常。
3 實例分析
為驗證規(guī)則庫與PRRL模型數(shù)據(jù)清洗方法的有效性,對圖1中的風(fēng)電功率原始數(shù)據(jù)進(jìn)行識別。采用PyCharm開發(fā)平臺,編程實現(xiàn)規(guī)則庫與PRRL模型、DBSCAN聚類模型以及支持向量機(jī)模型3種數(shù)據(jù)識別方法。首先,加載實例風(fēng)電場原始數(shù)據(jù),數(shù)據(jù)來源于湖南某風(fēng)電場SCADA系統(tǒng)15 min間隔采集的34992組原始數(shù)據(jù),數(shù)據(jù)包含采集時刻([T])、對應(yīng)時刻下的風(fēng)電場風(fēng)速([v])以及風(fēng)電場實發(fā)功率([W]);其次,設(shè)置各方法對應(yīng)的參數(shù),并通過網(wǎng)格尋優(yōu)法得到最優(yōu)參數(shù),其中規(guī)則庫與PRRL模型的參數(shù)包括:切入與切出風(fēng)速、投運裝機(jī)容量、最小樣本數(shù)量以及風(fēng)速差異閾值;DBSCAN聚類模型參數(shù)包括:鄰域大小與聚類最小樣本數(shù)量;支持向量機(jī)模型參數(shù)包括:異常數(shù)據(jù)比例、核函數(shù)類型以及Gamma。最后,對原始數(shù)據(jù)進(jìn)行識別,并將識別出的異常數(shù)據(jù)進(jìn)行標(biāo)記。通過可視化的方式對比這些不同算法的識別結(jié)果,分析不同方法的有效性和適用性。
3.1 規(guī)則庫識別數(shù)據(jù)
由圖3規(guī)則庫制定流程可知,根據(jù)風(fēng)電場基本參數(shù)可制定規(guī)則庫,對數(shù)據(jù)進(jìn)行初步識別,提高數(shù)據(jù)的內(nèi)點占比。風(fēng)電場基本參數(shù)如表1所示。
結(jié)合表1參數(shù),根據(jù)圖3所示流程制定規(guī)則庫后,對風(fēng)電場原始數(shù)據(jù)進(jìn)行清洗與識別,其識別效果如圖8所示。對比圖2與圖8可知,規(guī)則庫簡單高效地完成了第一類與第二類異常數(shù)據(jù)識別。實例中共34992條數(shù)據(jù),規(guī)則庫識別的異常數(shù)據(jù)為549條,識別率為1.57%。
3.2 PRRL模型識別數(shù)據(jù)
經(jīng)過規(guī)則庫清洗后,第一類與第二類異常數(shù)據(jù)被識別,但大部分的異常數(shù)據(jù)分布在圖4中的陰影區(qū)域,需利用PRRL穩(wěn)健回歸模型進(jìn)一步識別與清洗。由圖6與圖7所示流程可知,首先需設(shè)定模型參數(shù),PRRL模型參數(shù)如表2所示。
由于原始數(shù)據(jù)為無標(biāo)簽數(shù)據(jù),不能確定原始數(shù)據(jù)中正常數(shù)據(jù)比例[p],因此可設(shè)[p]取值為0.5;概率閾值[P*]為0.9999;最小樣集本S所含樣本數(shù)量[m]為12;根據(jù)式(6)可計算出最小迭代次數(shù)[N]為37721;殘差閾值τ設(shè)定為1.4 m/s;風(fēng)速差異閾值[f]設(shè)定為1.2 m/s。確定模型參數(shù)后,在pycharm開發(fā)平臺上運行程序,進(jìn)行數(shù)據(jù)識別與清洗。運行程序后,實例風(fēng)電場原始數(shù)據(jù)中的大部分異常數(shù)據(jù)被識別,數(shù)據(jù)識別結(jié)果如圖9所示。
經(jīng)過規(guī)則庫與PRRL模型清洗識別后,識別為異常的數(shù)據(jù)量為9415條,識別率為26.91%。由于原始數(shù)據(jù)為無標(biāo)簽數(shù)據(jù),識別率僅表示模型識別到的異常數(shù)據(jù)占總數(shù)據(jù)量的比值,并不能以此評價模型的識別效果與準(zhǔn)確率。
3.3 清洗效果對比與驗證
為進(jìn)一步展示識別清洗效果,采用可視化與對比的方法。利用DBSCAN聚類模型與支持向量機(jī)模型分別識別相同的風(fēng)電場原始數(shù)據(jù),并對各識別方法的效果進(jìn)行對比。其中,DBSCAN聚類模型尋優(yōu)后參數(shù)為:鄰域大小取0.12,最小樣本數(shù)量取40;支持向量機(jī)模型尋優(yōu)后參數(shù)為:異常點比例取0.1,核函數(shù)類型為徑向基函數(shù),Gamma取3。DBSCAN聚類模型與支持向量機(jī)模型識別效果分別如圖10所示,圖11為風(fēng)電機(jī)組廠商提供的實例風(fēng)電場單臺風(fēng)電機(jī)組功率曲線,以此作為評估規(guī)則庫與PRRL模型、DBSCAN聚類模型以及支持向量機(jī)模型3種清洗方法識別效果的基準(zhǔn)。理想的清洗結(jié)果應(yīng)盡可能與圖11所示曲線的形狀和趨勢相似。
圖9展示了使用規(guī)則庫與PRRL模型進(jìn)行數(shù)據(jù)清洗后的識別結(jié)果。從圖9可觀察到,識別為正常的數(shù)據(jù)點分布緊湊且有序,具有較高的穩(wěn)定性與收斂性。此外,識別的正常數(shù)據(jù)點緊密跟隨一個清晰的趨勢線,表明模型清洗后的數(shù)據(jù)與風(fēng)電功率的實測功率曲線有較好的一致性。圖10a所示為DBSCAN聚類算法模型清洗后的效果,其中數(shù)據(jù)點分布較為
分散,識別的正常數(shù)據(jù)集上部邊界收斂趨勢較明顯,但下部邊界多曲折,缺乏穩(wěn)定性。圖10b為支持向量機(jī)算法模型清洗后的結(jié)果,識別的正常數(shù)據(jù)集上部邊界收斂趨勢較圖10a所示上部邊界更清晰,但下部邊界仍曲折,穩(wěn)定性依舊欠佳。綜合對比圖9~圖11,可得圖9中的規(guī)則庫與PRRL模型清洗方法的結(jié)果在穩(wěn)定性與收斂性方面表現(xiàn)出較其他方法更優(yōu)的性能,同時在貼合實際功率曲線方面也展現(xiàn)了更高的一致性。
為量化3種清洗方法的識別效果,將3種方法清洗的數(shù)據(jù)分別用于訓(xùn)練相同參數(shù)設(shè)置(隱藏層大小為6,激活函數(shù)為雙曲正切函數(shù),求解器為Adam優(yōu)化器,初始學(xué)習(xí)率為0.1,最大迭代次數(shù)為100)的BP神經(jīng)網(wǎng)絡(luò)模型,計算各模型在風(fēng)電功率預(yù)測方面的平均絕對誤差(mean absolute error,MAE)和均方根誤差(root mean square error,RMSE)。通過比較這些指標(biāo),進(jìn)一步對比其識別效果,評估不同數(shù)據(jù)清洗方法對BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測性能的影響。在pycharm開發(fā)平臺運行程序,預(yù)測誤差結(jié)果如表3所示。未經(jīng)清洗的數(shù)據(jù)在BP神經(jīng)網(wǎng)絡(luò)模型上產(chǎn)生的MAE和RMSE最高,而經(jīng)規(guī)則庫與PRRL模型清洗的數(shù)據(jù)在兩項誤差指標(biāo)上均顯著降低,其效果優(yōu)于DBSCAN聚類模型和支持向量機(jī)模型。該結(jié)果表明,規(guī)則庫與PRRL模型在降低BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測誤差方面展現(xiàn)出更顯著的效能,證實了該數(shù)據(jù)清洗方法在數(shù)據(jù)清洗與風(fēng)電功率預(yù)測應(yīng)用中的有效性和優(yōu)越性。
為深入評估不同數(shù)據(jù)清洗識別方法對BP神經(jīng)網(wǎng)絡(luò)模型在功率預(yù)測任務(wù)中的影響,進(jìn)一步量化不同清洗方法的識別效果,分別取表3中4類數(shù)據(jù)的1800個測試樣本的預(yù)測結(jié)果進(jìn)行分析,計算預(yù)測值相對于實際值的相對誤差。最后利用累計分布函數(shù)(CDF)對不同清洗方法的相對誤差進(jìn)行統(tǒng)計學(xué)分析,分析結(jié)果如圖12所示。
圖12清晰展示了不同清洗方法對應(yīng)的BP神經(jīng)網(wǎng)絡(luò)模型功率預(yù)測相對誤差變化范圍以及集中趨勢,圖中CDF曲線越靠近左上角表明誤差分布越集中并且主要集中在較小誤差值區(qū)域內(nèi)。由圖12可知:規(guī)則庫與PRRL模型處理后的數(shù)據(jù)對應(yīng)的BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測相對誤差CDF曲線緊密地沿橫軸左側(cè)上升并迅速趨于1,表明該BP模型的預(yù)測誤差集中在較低區(qū)間,且誤差變化范圍小。DBSCAN聚類模型處理后的數(shù)據(jù)對應(yīng)的BP模型預(yù)測相對誤差CDF曲線上升僅次于PRRL穩(wěn)健回歸模型對應(yīng)的CDF曲線,雖然大部分預(yù)測誤差集中在較低區(qū)間,但相較于PRRL模型處理后的數(shù)據(jù),其預(yù)測誤差的整體變化范圍稍大,表明有些預(yù)測值與實際值之間的差異較大。支持向量機(jī)模型處理后的數(shù)據(jù)對應(yīng)的BP模型預(yù)測相對誤差CDF曲線上升速度相對前兩者較慢,預(yù)測誤差的范圍相對更廣,且大部分預(yù)測誤差不如PRRL和DBSCAN聚類模型集中在低值區(qū)域。未經(jīng)清洗數(shù)據(jù)對應(yīng)的BP模型預(yù)測相對誤差CDF曲線上升最緩慢,誤差范圍最廣,大部分預(yù)測誤差集中區(qū)域?qū)?yīng)的數(shù)值較大,表明預(yù)測誤差分布在一個很寬的區(qū)間內(nèi),且相對誤差值較高。
綜上,規(guī)則庫與PRRL模型不僅減少了BP神經(jīng)網(wǎng)絡(luò)模型的功率預(yù)測誤差,而且使誤差分布更集中與穩(wěn)定,從而提高了模型的預(yù)測性能。這也驗證了規(guī)則庫與PRRL模型在數(shù)據(jù)識別和處理上的有效性,突顯了其在提升模型準(zhǔn)確性方面的優(yōu)勢。
4 結(jié) 論
基于規(guī)則庫與PRRL模型的風(fēng)功率數(shù)據(jù)清洗方法在處理較高異常數(shù)據(jù)占比的數(shù)據(jù)時具有較好的魯棒性,能有效識別出風(fēng)電場風(fēng)電功率數(shù)據(jù)中的四類異常數(shù)據(jù)點,提高風(fēng)電場數(shù)據(jù)的準(zhǔn)確性與適用性,進(jìn)而提高風(fēng)功率預(yù)測模型的準(zhǔn)確性和穩(wěn)定性,其主要特點與優(yōu)勢如下:
1) 多階段異常檢測:將異常數(shù)據(jù)檢測過程分為兩個階段,分別針對不同類型的異常數(shù)據(jù)進(jìn)行篩選和分析。在第一階段,利用規(guī)則庫對數(shù)據(jù)進(jìn)行快速的初步篩選,剔除第一類和第二類異常數(shù)據(jù),提高后續(xù)建模的數(shù)據(jù)質(zhì)量。在第二階段,利用PRRL穩(wěn)健回歸模型對剩余數(shù)據(jù)進(jìn)行風(fēng)速預(yù)測,并根據(jù)預(yù)測結(jié)果與實際風(fēng)速的差異,確定異常檢測的閾值,進(jìn)而識別并清除第三類和第四類異常數(shù)據(jù)。多階段的異常檢測策略能夠靈活地應(yīng)對復(fù)雜、多樣化的異常數(shù)據(jù)情況。
2) 基于多項式特征的風(fēng)速預(yù)測:通過擴(kuò)展輸入功率的多項式特征,增強(qiáng)了模型對風(fēng)速與功率之間非線性關(guān)系的擬合能力。相較于傳統(tǒng)的線性模型,基于多項式特征的模型能更準(zhǔn)確地描述風(fēng)速和功率之間的關(guān)系,從而提高異常檢測的準(zhǔn)確性。
3) 使用PRRL模型進(jìn)行穩(wěn)健回歸:構(gòu)建PRRL模型作為穩(wěn)健回歸模型,可有效減少異常數(shù)據(jù)的影響,使模型更穩(wěn)健,能處理異常數(shù)據(jù)占比較高的數(shù)據(jù)集。
[參考文獻(xiàn)]
[1] 李莉, 梁袁, 林娜, 等. 考慮時空相關(guān)性的風(fēng)電機(jī)組風(fēng)速清洗方法[J]. 太陽能學(xué)報, 2024, 45(6): 461-469.
LI L, LIANG Y, LIN N, et al. Data cleaning method considering temporal and spatial correlation for measured wind speed of wind turbines[J]. Acta energiae solaris sinica, 2024, 45(6): 461-469.
[2] 吳永斌, 張建忠, 袁正舾, 等. 風(fēng)電場風(fēng)功率異常數(shù)據(jù)識別與清洗研究綜述[J]. 電網(wǎng)技術(shù), 2023, 47(6): 2367-2380.
WU Y B, ZHANG J Z, YUAN Z X, et al. Review on identification and cleaning of abnormal wind power data for wind farms[J]. Power system technology, 2023, 47(6): 2367-2380.
[3] WANG S, LI B, LI G Z, et al. Short-term wind power prediction based on multidimensional data cleaning and feature reconfiguration[J]. Applied energy, 2021, 292: 116851.
[4] 武煜昊, 王永生, 徐昊, 等. 風(fēng)電輸出功率預(yù)測技術(shù)研究綜述[J]. 計算機(jī)科學(xué)與探索, 2022, 16(12): 2653-2677.
WU Y H, WANG Y S, XU H, et al. Survey of wind power output power forecasting technology[J]. Journal of frontiers of computer science and technology, 2022, 16(12): 2653-2677.
[5] 許夢田, 王洪哲, 趙成萍, 等. 基于短期風(fēng)功率預(yù)測的數(shù)據(jù)預(yù)處理算法研究[J]. 可再生能源, 2019, 37(1): 119-125.
XU M T, WANG H Z, ZHAO C P, et al. Research on data preprocessing policy based on short-term wind power prediction[J]. Renewable energy resources, 2019, 37(1): 119-125.
[6] XIANG L, YANG X, HU A J, et al. Condition monitoring and anomaly detection of wind turbine based on cascaded and bidirectional deep learning networks[J]. Applied energy, 2022, 305: 117925.
[7] 沈小軍, 付雪姣, 周沖成, 等. 風(fēng)電機(jī)組風(fēng)速-功率異常運行數(shù)據(jù)特征及清洗方法[J]. 電工技術(shù)學(xué)報, 2018, 33(14): 3353-3361.
SHEN X J, FU X J, ZHOU C C, et al. Characteristics of outliers in wind speed-power operation data of wind turbines and its cleaning method[J]. Transactions of China Electrotechnical Society, 2018, 33(14): 3353-3361.
[8] 梅勇, 李霄, 胡在春, 等. 基于風(fēng)電機(jī)組控制原理的風(fēng)功率數(shù)據(jù)識別與清洗方法[J]. 動力工程學(xué)報, 2021, 41(4): 316-322, 329.
MEI Y, LI X, HU Z C, et al. Identification and cleaning of wind power data methods based on control principle of wind turbine generator system[J]. Journal of Chinese Society of Power Engineering, 2021, 41(4): 316-322, 329.
[9] MORRISON R, LIU X L, LIN Z. Anomaly detection in wind turbine SCADA data for power curve cleaning[J]. Renewable energy, 2022, 184: 473-486.
[10] 錢小毅, 張宇獻(xiàn). 基于動態(tài)特征矩陣的k近鄰風(fēng)電機(jī)組故障檢測方法[J]. 儀器儀表學(xué)報, 2019, 40(6): 202-212.
QIAN X Y, ZHANG Y X. Fault detection of wind turbines using k-nearest neighbor based on dynamic feature matrix[J]. Chinese journal of scientific instrument, 2019, 40(6): 202-212.
[11] 雷萌, 郭鵬, 劉博嵩. 基于自適應(yīng)DBSCAN算法的風(fēng)電機(jī)組異常數(shù)據(jù)識別研究[J]. 動力工程學(xué)報, 2021, 41(10): 859-865.
LEI M, GUO P, LIU B S. Study on abnormal data recognition of wind turbines based on adaptive DBSCAN algorithm[J]. "Journal "of "Chinese "Society "of "Power Engineering, 2021, 41(10): 859-865.
[12] 肖碧濤, 賴曉路, 郭鵬, 等. 高斯混合模型風(fēng)電機(jī)組異常數(shù)據(jù)識別方法研究[J]. 可再生能源, 2023, 41(8): 1051-1056.
XIAO B T, LAI X L, GUO P, et al. Abnormal data identification for wind turbine based on Gaussian mixture model[J]. Renewable energy resources, 2023, 41(8): 1051-1056.
[13] 李特, 王榮喜, 高建民. 風(fēng)電機(jī)組數(shù)據(jù)采集與監(jiān)控系統(tǒng)異常數(shù)據(jù)識別方法[J]. 西安交通大學(xué)學(xué)報, 2024, 58(3): 106-116.
LI T, WANG R X, GAO J M. A method for abnormal data recognition of wind turbine supervisory control and data acquisition " systems[J]. " Journal " of " Xi’an " Jiaotong University, 2024, 58(3): 106-116.
[14] 夏延秋, 夏和民, 馮欣. 一種基于風(fēng)功率曲線的SCADA數(shù)據(jù)清洗方法研究[J]. 可再生能源, 2022, 40(11): 1499-1504.
XIA Y Q, XIA H M, FENG X. Research on SCADA data cleaning method based on wind power curve[J]. Renewable energy resources, 2022, 40(11): 1499-1504.
[15] 金曉航, 泮恒拓, 徐正國. 數(shù)據(jù)驅(qū)動的風(fēng)電機(jī)組變槳系統(tǒng)狀態(tài)監(jiān)測[J]. 太陽能學(xué)報, 2022, 43(4): 409-417.
JIN X H, PAN H T, XU Z G. Condition monitoring of wind turbine pitch system using data-driven approach[J]. Acta energiae solaris sinica, 2022, 43(4): 409-417.
[16] 王文婷, 安愛民, 保承家, 等. 基于改進(jìn)代價敏感直推式支持向量機(jī)的發(fā)電企業(yè)濫用市場力識別[J]. 電力系統(tǒng)保護(hù)與控制, 2022, 50(11): 102-111.
WANG W T, AN A M, BAO C J, et al. Identification of abuse of market power by power generation companies based on an improved cost-sensitive transductive support vector machine[J]. Power system protection and control, 2022, 50(11): 102-111.
[17] 張浩田, 溫蜜, 李晉國, 等. 數(shù)據(jù)驅(qū)動的時間注意力卷積風(fēng)電功率預(yù)測模型[J]. 太陽能學(xué)報, 2022, 43(10): 167-176.
ZHANG H T, WEN M, LI J G, et al. Data driven time attention convolution wind power prediction model[J]. Acta energiae solaris sinica, 2022, 43(10): 167-176.
[18] 婁建樓, 胥佳, 陸恒, 等. 基于功率曲線的風(fēng)電機(jī)組數(shù)據(jù)清洗算法[J]. 電力系統(tǒng)自動化, 2016, 40(10): 116-121.
LOU J L, XU J, LU H, et al. Wind turbine data-cleaning algorithm based on power curve[J]. Automation of electric power systems, 2016, 40(10): 116-121.
[19] 徐巖, 安衛(wèi)鳳. 基于改進(jìn)隨機(jī)抽樣一致算法的視覺SLAM[J]. 天津大學(xué)學(xué)報(自然科學(xué)與工程技術(shù)版), 2020, 53(10): 1069-1076.
XU Y, AN W F. Visual SLAM based on the improved RANSAC algorithm[J]. Journal of Tianjin University (science and technology), 2020, 53(10): 1069-1076.
WIND POWER DATA CLEANING METHOD BASED ON
RULE BASE AND PRRL MODEL
Yang Haineng1-3,Tang Jie1,2, Shao Wu2,Liu Baiyang2,Chen Riheng2
(1. School of Mechanical and Energy Engineering, Shaoyang University, Shaoyang 422000, China;
2. Hunan Provincial Key Laboratory of Multi-Energy System Grid Operation and Control(Shaoyang University), Shaoyang 422000, China;
3. School of Automotive and Intelligent Manufacturing, Shaoyang Polytechnic, Shaoyang 422000, China)
Abstract:In order to improve the identification accuracy of abnormal data in the original data of wind farms, a wind farm data cleaning method combining a rule base and the PRRL model is proposed. First, a rule base is established based on parameters such as the installed capacity of the wind farm to increase the proportion of normal data in the dataset. Second, the PRRL robust regression model is constructed using the RANSAC robust regression algorithm as the core and the linear regression model as the foundation, taking wind speed data as the output and expanding the polynomial features of input variables to capture the nonlinear relationship between wind speed and power. The model is trained on data processed by the rule base, effectively identifying abnormal data in the original dataset. Application testing using sample data from a wind farm in Hunan shows that this method can effectively identify abnormal data when processing the data with a high proportion of abnormal data, and reduce the prediction error of the wind power forecasting model.
Keywords:wind farm; data cleaning; anomaly detection; rule base; regression analysis; robust regression analysis