陳江雨,李培強,鐘吳君
(湖南大學(xué)電氣與信息工程學(xué)院,長沙 410082)
隨著全球不可再生資源減少導(dǎo)致的能源供應(yīng)短缺,大力發(fā)展可再生能源逐漸成為各國優(yōu)化能源結(jié)構(gòu)、解決能源危機的重要手段。風(fēng)能作為一種清潔、易獲取的可再生能源,已逐漸成為繼火電、水電之后的第三大能源。但由于風(fēng)能具有間歇性與隨機性,風(fēng)電并網(wǎng)后給電網(wǎng)運行安全、電網(wǎng)調(diào)度和電能質(zhì)量等方面都帶來了極大的挑戰(zhàn)[1]。風(fēng)電機組運行歷史數(shù)據(jù)具有很高的研究價值,特別是風(fēng)速數(shù)據(jù)和風(fēng)功率數(shù)據(jù),對這些數(shù)據(jù)進行挖掘分析,不僅可以評估風(fēng)電場及風(fēng)電機組的性能和運行狀況,還在風(fēng)電功率預(yù)測上發(fā)揮不可或缺的作用,直接影響預(yù)測結(jié)果精準(zhǔn)度[2-3]。然而在實際運行過程中,由于環(huán)境和機組運行故障等因素,風(fēng)電機組會產(chǎn)生大量異常運行數(shù)據(jù),為提高數(shù)據(jù)質(zhì)量,需要對風(fēng)電功率歷史數(shù)據(jù)中的異常數(shù)據(jù)進行識別。
目前,許多學(xué)者已經(jīng)在異常數(shù)據(jù)處理方面開展了大量研究并取得了諸多成果,而機器學(xué)習(xí)的發(fā)展為識別異常數(shù)據(jù)提供了便利的手段。文獻[4]通過比較含噪聲的基于密度的聚類方法DBSCAN(densitybased spatial clustering of applications with noise)、局部異常因子LOF(local outlier factor)、Thompson-tau四分位法和孤立森林IF(isolation forest)4種常用異常數(shù)據(jù)識別方法,得出了IF方法通用性最強且LOF方法對稀疏異常數(shù)據(jù)效果好的結(jié)論;文獻[5]提出了基于分功率區(qū)間的自適應(yīng)DBSCAN 異常數(shù)據(jù)識別算法,但該方法需要針對不同機組運行情況劃分功率區(qū)間,普適性較差;文獻[6]提出了一種基于變點分組-四分位的組合風(fēng)電異常數(shù)據(jù)識別方法,但清洗后的功率曲線呈階梯狀;文獻[7]提出了一種孤立森林與均值漂移算法組合的風(fēng)電異常數(shù)據(jù)清理算法,但出現(xiàn)了過度刪除的情況;文獻[8]提出基于灰色關(guān)聯(lián)度和K-means 聚類的異常數(shù)據(jù)識別方法,但需要針對不同場景進行調(diào)參。
對比單一識別方法,順序集成類方法可以相互彌補單一方法在異常數(shù)據(jù)處理上的不足,但是順序集成類方法還需要探究方法之間的使用順序,并且可能會出現(xiàn)過度刪除的情況,故而有部分學(xué)者將并行集成類學(xué)習(xí)方法用于異常數(shù)據(jù)檢測。文獻[9]最早提出了并行集成類異常檢測框架feature bagging,通過從原始數(shù)據(jù)集抽取特征子集訓(xùn)練多個基學(xué)習(xí)模型(即基本異常數(shù)據(jù)檢測模型),最終采用一定策略組合所有基學(xué)習(xí)模型的輸出結(jié)果。然而這類并行集成框架缺乏對全部基學(xué)習(xí)模型輸出結(jié)果的選擇性組合,從而使表現(xiàn)優(yōu)秀的基學(xué)習(xí)模型難以發(fā)揮優(yōu)勢。同時,該類并行集成框架是基于全局角度出發(fā),難以關(guān)注到局部異常。針對這類問題,文獻[10]提出了基于局部動態(tài)選擇組合的并行集成異常檢測算法LSCP(locally selective combination in parallel outlier ensemble),通過設(shè)置不同參數(shù)的LOF 基學(xué)習(xí)模型,采用生成局部偽標(biāo)簽的方式對每個數(shù)據(jù)點進行異常識別,達到了更優(yōu)的效果。
綜上所述,本文提出一種基于多模型并行集成框架的風(fēng)電功率數(shù)據(jù)異常識別方法。鑒于LSCP框架中采用的基學(xué)習(xí)模型為超參不同的LOF方法,且單一LOF 方法對分布密度較高的異常數(shù)據(jù)識別效果較差,因此本文在LSCP 框架中加入異構(gòu)基學(xué)習(xí)模型——基于最近鄰隔離INNE[11](isolation using nearest neighbor ensemble)和不同超參的LOF 算法進行集成,通過異構(gòu)基學(xué)習(xí)模型對具有不同分布特征的風(fēng)電功率異常數(shù)據(jù)進行有選擇識別,提升模型的整體性能。通過在不同風(fēng)電場實際運行數(shù)據(jù)集上進行驗證,獲得的實驗結(jié)果表明,與單一方法和順序集成類方法相比,本文方法在風(fēng)電功率異常數(shù)據(jù)識別任務(wù)取得了更好的效果。
風(fēng)力發(fā)電是指風(fēng)電機組利用風(fēng)機葉片使風(fēng)的動能轉(zhuǎn)化為機械能,再通過發(fā)電機轉(zhuǎn)化為電能的過程。在實際運行情況中,風(fēng)電機組的輸出功率遵循以下規(guī)律:當(dāng)風(fēng)速不超過切入風(fēng)速時,機組不進行發(fā)電;當(dāng)風(fēng)速介于切入風(fēng)速與額定風(fēng)速之間時,風(fēng)機開始發(fā)電,輸出功率與風(fēng)速的立方成正比;當(dāng)風(fēng)速超過額定風(fēng)速但未達到切出風(fēng)速時,輸出功率保持額定輸出功率Pn不變;當(dāng)風(fēng)速超過切出風(fēng)速時,機組通過控制系統(tǒng)實施停機,輸出功率降為0。則風(fēng)機的實際功率[12-14]P0可表示為
式中:Cp為風(fēng)能利用系數(shù),為吸收風(fēng)能與初始風(fēng)能之比;ρ為空氣密度;S為葉片接觸面積;v為風(fēng)速;vi、vn、vo分別為切入風(fēng)速、額定風(fēng)速和切出風(fēng)速。
為直觀看出風(fēng)電機組實際運行時風(fēng)速與功率的分布情況,可以畫出風(fēng)電場的風(fēng)速-功率(v-P)散點圖。以本文使用的4個國內(nèi)外風(fēng)電場2021年的實際運行數(shù)據(jù)集為例,其實測v-P曲線散點圖如圖1所示。從圖1中可以看出,實際運行狀態(tài)下的風(fēng)速-風(fēng)功率數(shù)據(jù)呈非線性分布,且分布位置與分布密度各異,不同風(fēng)電場的運行數(shù)據(jù)分布類型并不一致。由式(1)可以得知,風(fēng)電機組實際運行時其風(fēng)速-風(fēng)功率的理想運行曲線為“S”型,故可以認(rèn)為在v-P曲線散點圖中,數(shù)據(jù)分布密度高且分布位置類似理想曲線“S”的數(shù)據(jù)為風(fēng)電機組正常運行數(shù)據(jù)。
圖1 風(fēng)速-功率散點圖Fig.1 Scatter plot of wind speed vs power
每臺風(fēng)機在投入實際運行前都需要在各種運行工況下進行測試,若在實際運行過程中收集到的運行數(shù)據(jù)與測試運行數(shù)據(jù)偏離較大,這類運行數(shù)據(jù)被稱為異常數(shù)據(jù)?;诮y(tǒng)計學(xué)的3σ準(zhǔn)則[15],假設(shè)風(fēng)電功率數(shù)據(jù)按照正態(tài)分布,σ表示數(shù)據(jù)的標(biāo)準(zhǔn)差,μ表示數(shù)據(jù)的均值,可以認(rèn)為分布在(-∞,μ-3σ)和(μ+3σ,+∞)兩區(qū)間內(nèi)的數(shù)據(jù)為異常數(shù)據(jù)。異常數(shù)據(jù)產(chǎn)生的原因主要來自兩方面:一是人為限電,如風(fēng)機停機檢修、按發(fā)電計劃降低或暫停風(fēng)機出力等;二是客觀影響,如遭遇極端天氣、風(fēng)機葉片損壞、電力通信故障等。
從數(shù)據(jù)分布位置及密度來看,異常數(shù)據(jù)類型主要可以分為堆積型和分散型兩類[16-18],其產(chǎn)生原因也不盡相同。為此,依據(jù)數(shù)據(jù)分布形態(tài)及產(chǎn)生原因,將異常數(shù)據(jù)分為5類,并在圖1中圈注為(1)~(5)。
第(1)類,頂部堆積型異常數(shù)據(jù)。如圖1(b)所示,這類異常數(shù)據(jù)在v-P散點圖上表現(xiàn)成一條橫向的密集數(shù)據(jù)帶,其功率超出風(fēng)電場的總裝機容量,主要成因是風(fēng)電機組處于超發(fā)狀態(tài)。
第(2)類,上方堆積型異常數(shù)據(jù)。這類異常數(shù)據(jù)主要是由于風(fēng)電場的測量或者通信設(shè)備發(fā)生故障,在一段時間內(nèi)持續(xù)發(fā)送某一固定數(shù)值,其在v-P散點圖上通常有2 種形式的表現(xiàn),若為豎線,說明故障發(fā)生在氣象測量或通訊儀器上,如圖1(a)所示;若為橫線,則故障發(fā)生在功率測量/通訊儀器。
第(3)類上,方分散型異常數(shù)據(jù)。這類異常數(shù)據(jù)的成因與上方堆積型相同,不同的是它出現(xiàn)時間較為隨機且在v-P散點圖上分布靠近整體曲線,這在圖1(a)、(d)中均有體現(xiàn),識別難度較高。
第(4)類,下方堆積型異常數(shù)據(jù)。如圖1中4幅分圖所示,這類異常數(shù)據(jù)通常分布在v-P曲線的右側(cè)和底部,呈現(xiàn)為一條橫向或斜向的密集數(shù)據(jù)帶,主要由棄風(fēng)限電、計劃內(nèi)停機檢修、風(fēng)機停機啟動等因素導(dǎo)致。同時,由于風(fēng)機內(nèi)部測控系統(tǒng)的自耗,會出現(xiàn)風(fēng)速為0 但輸出功率為負(fù)的情況,表現(xiàn)為聚集在v-P散點圖底部功率為0附近的數(shù)據(jù)帶。
第(5)類,下方分散型異常數(shù)據(jù)。這類數(shù)據(jù)在v-P散點圖上分布為密度較低的無規(guī)律點,在圖1所示的4 幅分圖中均有體現(xiàn),主要由測量誤差、信號噪聲、極端天氣等因素影響,導(dǎo)致輸出功率產(chǎn)生隨機偏差。
針對不同類型的風(fēng)電功率異常數(shù)據(jù),單一識別方法很難做到全方位識別處理;同樣,順序集成方法可能存在過刪除的情況,因此,本文依據(jù)所劃分的5類風(fēng)電功率異常數(shù)據(jù)特征,提出一種基于多模型并行集成框架的風(fēng)電功率異常數(shù)據(jù)處理方法,并加入異構(gòu)基學(xué)習(xí)模型,實現(xiàn)對各類風(fēng)電功率異常數(shù)據(jù)的識別。
并行集成類方法在異常數(shù)據(jù)處理領(lǐng)域上的應(yīng)用通常是采用無監(jiān)督框架,在一般情況下,風(fēng)功率數(shù)據(jù)本身不會提供自身“是否異?!钡男畔?,故而將并行集成框架用于風(fēng)電功率異常數(shù)據(jù)的研究較少。此外,大部分無監(jiān)督并行集成框架在輸出識別結(jié)果時,通常采用平均法等策略結(jié)合全部基學(xué)習(xí)模型給出識別結(jié)果,這會導(dǎo)致表現(xiàn)優(yōu)異的基學(xué)習(xí)模型被表現(xiàn)差的基學(xué)習(xí)模型掩蓋。同時,這種策略通常是基于全局,無法針對局部異常數(shù)據(jù)因地制宜[19]。
LSCP 是一個可以對多個異常檢測模型進行并行集成的無監(jiān)督框架算法,各個基本模型之間獨立運行,互不干擾。LSCP 框架采用動態(tài)分類選擇器DCS[20](dynamic classifier selection)來選擇適合于每個風(fēng)功率數(shù)據(jù)樣本點的異常檢測模型,其原理是通過評估各模型在數(shù)據(jù)點局部鄰域內(nèi)的表現(xiàn)來判斷模型是否在該點表現(xiàn)良好。再通過基于K 最鄰近算法KNN(K-nearest neighbor)生產(chǎn)局部偽標(biāo)簽,篩選并組合基學(xué)習(xí)模型的辨識結(jié)果。
本文構(gòu)建的多模型并行框架如圖2 所示,具體流程如下。
圖2 多模型并行集成框架流程Fig.2 Flow chart of multi-model parallel integration framework
步驟1構(gòu)建模型池:分別訓(xùn)練基于INNE方法和基于LOF方法的超參不同的基本異常檢測模型,構(gòu)成基本異常檢測模型池。同時劃分風(fēng)功率數(shù)據(jù)集為訓(xùn)練集Xtrain和測試集Xtest,將訓(xùn)練集輸入到模型池中對所有模型進行訓(xùn)練,完成各模型的初參數(shù)調(diào)試。
步驟2鄰域劃分:使用KNN 法劃分風(fēng)功率數(shù)據(jù)集中所有數(shù)據(jù)點的局部最近鄰區(qū)域ψi,其中,為KNN法的滿足條件。
步驟3生成偽標(biāo)簽:對于數(shù)據(jù)點xi,將其ψi內(nèi)每一數(shù)據(jù)點放入基本異常檢測模型池進行識別,獲取對應(yīng)局部異常得分橫向量,再合并形成局部異常得分矩陣O(ψi)。將所得矩陣O(ψi)中各橫向量進行歸一化處理,再選取各橫向量中的最大值fmax(),組成對應(yīng)局部偽異常標(biāo)簽targetψi。
步驟4計算最終結(jié)果:計算局部異常得分矩陣O(ψi)與對應(yīng)局部偽異常標(biāo)簽targetψi的皮爾遜相關(guān)系數(shù),選取相關(guān)系數(shù)大的基本異常檢測模型作為數(shù)據(jù)點xi的異常檢測模型,若選出模型個數(shù)為1,則其檢測結(jié)果就為xi的辨識結(jié)果;若模型個數(shù)大于1,則將各模型檢測結(jié)果的平均值作為xi的辨識結(jié)果。
基于最近鄰隔離方法是一種改進孤立森林算法,結(jié)合了最近鄰距離比來計算數(shù)據(jù)的異常指標(biāo)。對于風(fēng)功率數(shù)據(jù),IF方法可以有效處理堆積型異常數(shù)據(jù),但是考慮到IF方法是通過不斷遞歸平行軸來細(xì)分?jǐn)?shù)據(jù)區(qū)間,而使平行于坐標(biāo)軸的堆積型異常數(shù)據(jù)無法被識別。而INNE方法針對這一點進行了改進,通過建立多組多維超球體進行數(shù)據(jù)空間的切割來實現(xiàn)隔離機制,加強了對軸平行的異常數(shù)據(jù)的處理能力,可有效識別該類風(fēng)功率異常數(shù)據(jù)[11,21]。
INNE 方法分為訓(xùn)練階段和測試階段,兩階段使用的數(shù)據(jù)集可以無關(guān)也可相關(guān),過程如下。
(1)訓(xùn)練階段:從風(fēng)功率訓(xùn)練數(shù)據(jù)集中隨機選擇數(shù)據(jù)點構(gòu)成大小為N且無需替換的子數(shù)據(jù)集Xi。再對Xi中每個數(shù)據(jù)點進行最近鄰搜索,即在剩下N-1 個數(shù)據(jù)點中尋找離自身最近的點。然后以自身為球心,到所尋最近鄰點的距離為半徑畫出超球,一共畫出N個超球體。重復(fù)上述操作t次,得到t組超球體集合。
(2)測試階段:將風(fēng)功率測試數(shù)據(jù)集中某一數(shù)據(jù)點x放入某組超球體集合Bi(cj)(i∈[1,t],j∈[1,N])中,如果x不被Bi(cj)中任意一個超球體包含,則將該數(shù)據(jù)點的孤立評分記為1;若x被某個超球體Bi(c1) 包含,則再找到離Bi(c1) 最近的超球體Bi(c2),分別記錄兩者的半徑τ1、τ2,則數(shù)據(jù)點x的孤立評分為1-τ2/τ1。將測試集中每一個數(shù)點分別放進每組超球集合中計算其孤立評分,再計算其異常評分。孤立評分和異常評分分別表示為
式中:Bi(cj)為用數(shù)據(jù)集Xi構(gòu)建的超球體集合中的第j個超球體;Ii(x)為數(shù)據(jù)樣本x在子數(shù)據(jù)集Xi構(gòu)建的超球體集合中的孤立評分;Iˉ(x)為數(shù)據(jù)樣本x的異常評分。
局部異常因子方法是一種基于密度的異常數(shù)據(jù)檢測方法[22],其原理是計算風(fēng)功率數(shù)據(jù)集中某一數(shù)據(jù)點x周圍數(shù)據(jù)點所處位置的平均密度與該數(shù)據(jù)點所處位置的密度的比值,該比值定義為局部異常因子。比值越接近1或小于1,則x是正常數(shù)據(jù)的可能性越大;比值越大于1,則x越可能是異常數(shù)據(jù)。
對于風(fēng)功率數(shù)據(jù)點x來說,其處于不同數(shù)據(jù)集或同一數(shù)據(jù)集的不同位置,表現(xiàn)出的特征會不一致。LOF方法在判斷x是否異常時,是取決于x的k距離鄰域,這可以有效識別出風(fēng)電功率數(shù)據(jù)中的局部異常數(shù)據(jù),避免識別方法僅基于全局異常的問題。同時,針對分散型異常數(shù)據(jù),由于其分布密度與正常數(shù)據(jù)分布密度相差較大,也可以由LOF方法有效識別。
為驗證所提方法能對風(fēng)功率異常數(shù)據(jù)進行有效識別,以第1.2 節(jié)提到的4 個風(fēng)電場的運行數(shù)據(jù)為例,用本文所提方法進行異常數(shù)據(jù)識別,并與單一最近鄰隔離方法、局部異常因子方法及最近鄰隔離-局部異常因子順序集成方法進行對比,以此說明所提方法的識別效果及清洗效率。其中,風(fēng)機切入風(fēng)速取2 m/s,額定風(fēng)速取12 m/s,切出風(fēng)速取20 m/s。本文方法使用的并行框架中各基檢測模型的關(guān)鍵參數(shù)設(shè)置為:INNE 模型中超球體集合個數(shù)為8,訓(xùn)練集選取的子數(shù)據(jù)集大小為200;5個LOF模型的k距離鄰域選擇分別為15,20,25,30,35。4 個風(fēng)電場數(shù)據(jù)集情況如表1所示。
表1 風(fēng)電場數(shù)據(jù)集簡介Tab.1 Profile of wind farm data sets
采用本文方法對第1.2 節(jié)所提4 個風(fēng)電場的實際運行數(shù)據(jù)進行異常數(shù)據(jù)識別,得到的結(jié)果如圖3所示,其中淺色為所識別的異常數(shù)據(jù)??梢钥闯?,本文方法可以有效識別運行數(shù)據(jù)中存在的各種異常數(shù)據(jù)類型。
圖3 異常數(shù)據(jù)識別結(jié)果Fig.3 Abnormal data identification results
相較于風(fēng)電場B、C、D 的實際運行數(shù)據(jù)在v-P散點圖上呈現(xiàn)出的曲線均較為符合理想風(fēng)機運行情況,風(fēng)電場A 的采樣頻率為10 min,且安裝的風(fēng)電機組型號較多,對比圖3的4幅分圖可以看出,其運行數(shù)據(jù)組成的頻帶較寬,所包含的異常數(shù)據(jù)分布形式與其他3 個風(fēng)電場不完全一致。從圖3(a)展示的識別結(jié)果來看,風(fēng)電場A 包含的4 類異常數(shù)據(jù)均被有效識別,但當(dāng)輸出功率大于14 MW時的數(shù)據(jù)均被識別為異常數(shù)據(jù),這是由于INNE 方法中采用了最近鄰距離比,且LOF 也是基于密度檢測方法,而風(fēng)電場A在實際運行時基本沒有滿發(fā)時刻,故輸出功率大于14 MW 且小于額定功率的數(shù)據(jù)點數(shù)量較小,其分布密度雖然大于同功率區(qū)間范圍內(nèi)的異常數(shù)據(jù)分布密度,但是小于同風(fēng)速區(qū)間內(nèi)的正常數(shù)據(jù)分布密度。
對于風(fēng)電場B、C 和D,這3 個風(fēng)電場的異常數(shù)據(jù)類型一致,都具有大量類型5 的異常數(shù)據(jù),但分布位置不同,其中:風(fēng)電場B 的異常數(shù)據(jù)大部分出現(xiàn)在曲線的下半部分,風(fēng)電場C和D則多集中與上中部。除此之外,風(fēng)電場C還具有許多平行于橫坐標(biāo)軸的異常數(shù)據(jù),而風(fēng)電場B和D的這類異常數(shù)據(jù)僅分布在輸出功率為0或額定功率附近。對于這3個風(fēng)電場包含的各種異常數(shù)據(jù),文本方法均有較為優(yōu)秀的表現(xiàn)。
綜上所述,4 個風(fēng)電場運行數(shù)據(jù)中的幾類異常數(shù)據(jù)都能被有效識別。雖然風(fēng)電場A 與其他風(fēng)電場的運行數(shù)據(jù)在風(fēng)速-功率散點圖上表現(xiàn)差異較大,但本文所提方法在各類異常數(shù)據(jù)識別上均取得了有效的成果,且算法最后識別所獲得的結(jié)果都較為符合理想風(fēng)速-風(fēng)功率曲線,這說明該方法具有一定的通用性。
本節(jié)利用單一INNE 方法、LOF 方法和INNELOF 順序集成方法對4 個風(fēng)電場運行數(shù)據(jù)進行識別。其中,本文方法中所使用INNE 基本異常檢測模型的超參與單一INNE法和INNE-LOF法中一致,即超球體集合個數(shù)為8,訓(xùn)練集選取的子數(shù)據(jù)集大小為200;由于本文方法使用了不同超參的LOF基本異常檢測模型,故單一LOF 法和INNE-LOF 法的超參選擇使單一LOF 法表現(xiàn)最優(yōu)的超參,即k距離鄰域的k取25。圖4~圖6為3種方法的識別結(jié)果。
圖4 INNE 方法識別結(jié)果Fig.4 Identification results obtained using INNE method
由圖4可以看出,INNE方法能有效剔除多種類型異常數(shù)據(jù),大部分平行于坐標(biāo)軸的異常數(shù)據(jù)也得到了有效處理,但緊靠v-P曲線的部分異常數(shù)據(jù)難以被識別。除此之外,圖4 的4 幅分圖中均有小部分堆積型異常數(shù)據(jù)被誤判為正常數(shù)據(jù)。
從圖5 來看,由于風(fēng)機實際運行時存在棄風(fēng)限電等情況,故而在同一風(fēng)速區(qū)間或功率區(qū)間下,會出現(xiàn)異常數(shù)據(jù)分布密度等于甚至大于正常數(shù)據(jù)分布密度的情況,并且LOF方法的檢測原理是基于局部鄰域密度的大小,因此從圖5 所示4 個分圖中可以看出,部分分布密度較大的異常數(shù)據(jù)無法被識別。對比圖4 的4 幅分圖,LOF 方法無法識別橫向堆積型異常數(shù)據(jù),而INNE 方法在處理這部分異常數(shù)據(jù)有很優(yōu)秀的表現(xiàn)。
圖5 LOF 方法識別結(jié)果Fig.5 Identification results obtained using LOF method
雖然INNE方法采用了基于最近鄰距離比來優(yōu)化局部識別能力,但其最終輸出結(jié)果還是基于全局最優(yōu),仍存在部分局部異常數(shù)據(jù)無法被識別的情況。基于此,順序集成方法采用先INNE 后LOF 的順序,通過基于局部鄰域密度的LOF 方法彌補INNE 方法在局部異常識別的不足。從圖6 展示的結(jié)果可以看出,順序集成方法可以有效識別大部分異常數(shù)據(jù),對比圖3所示結(jié)果,部分緊靠v-P曲線下方的堆積型異常數(shù)據(jù)識別效果較差。對于圖6(a),有部分堆積型異常數(shù)據(jù)沒有被識別;觀察圖6(c),其超過額定風(fēng)速但未超過切出風(fēng)速的滿發(fā)狀態(tài)下的數(shù)據(jù),大部分被誤判為異常數(shù)據(jù)。
圖6 INNE-LOF 方法識別結(jié)果Fig.6 Identification results obtained using INNE-LOF method
綜上所述,本文方法結(jié)合了INNE 算法和LOF算法兩者之長,可以有效識別各類異常數(shù)據(jù)。對比單一INNE、LOF 方法和INNE-LOF 方法,本文方法的處理結(jié)果更為優(yōu)秀。對比INNE 方法,本文方法加強了其局部異常處理能力;對比LOF 方法,本文方法提高了對平行于坐標(biāo)軸的異常數(shù)據(jù)處理能力;對比順序集成方法,LSCP 框架在判別數(shù)據(jù)點是否異常時是根據(jù)數(shù)據(jù)點所處局部區(qū)域動態(tài)選擇表現(xiàn)優(yōu)異的基學(xué)習(xí)模型,并且在給出最終結(jié)果時結(jié)合局部偽標(biāo)簽對多個基學(xué)習(xí)模型進行二次篩選,因此,本文方法在堆積型異常上處理能力更優(yōu)。
由圖1 展示的數(shù)據(jù)分布情況可知,正常數(shù)據(jù)集中分布于v-P曲線,而大部分異常數(shù)據(jù)分布明顯遠離v-P曲線。獲取每一個風(fēng)電場的標(biāo)準(zhǔn)風(fēng)速-風(fēng)功率曲線,比較剔除異常數(shù)據(jù)后剩余數(shù)據(jù)組成的數(shù)據(jù)集與標(biāo)準(zhǔn)v-P曲線的差距,可以判斷各個異常數(shù)據(jù)處理方法的識別效果與精準(zhǔn)度。
基于風(fēng)電場提供的標(biāo)準(zhǔn)功率曲線,以風(fēng)速作為基準(zhǔn),按0.5 m/s 劃分風(fēng)速區(qū)間,在各個風(fēng)速區(qū)間內(nèi)計算數(shù)據(jù)樣本功率值與標(biāo)準(zhǔn)輸出功率值的絕對距離,再計算清洗之后整個數(shù)據(jù)集與標(biāo)準(zhǔn)曲線的誤差。區(qū)間內(nèi)誤差的計算公式為
式中:MAEi為第i個區(qū)間的數(shù)據(jù)與標(biāo)準(zhǔn)值的平均絕對誤差;RMSEi為第i個區(qū)間的均方根誤差;Ni為第i個區(qū)間的數(shù)據(jù)總量;Pi為第i個區(qū)間的基準(zhǔn)功率曲線的值;Pi,j為第i個區(qū)間的第j個數(shù)據(jù)。
此外,記錄各個方法在每個數(shù)據(jù)集的運行時間,并計算的數(shù)據(jù)刪除率為
式中:D為數(shù)據(jù)刪除率;R0為原始數(shù)據(jù);R1為剩余數(shù)據(jù)量。
將異常數(shù)據(jù)剔除后,按照式(4)、式(5)計算各個方法的識別結(jié)果與對應(yīng)樣本數(shù)據(jù)集標(biāo)準(zhǔn)功率曲線之間的離散程度,以此來分析對比4種方法識別異常數(shù)據(jù)的精確度。同時,獲取各方法進行異常數(shù)據(jù)識別所需時間,并按式(6)計算各方法的數(shù)據(jù)剔除率,即被剔除的異常數(shù)據(jù)量與原數(shù)據(jù)量的比值,各項計算結(jié)果如表2所示。
表2 數(shù)據(jù)清洗結(jié)果與功率曲線誤差Tab.2 Data cleaning results and power curve errors
從4 種方法清洗異常數(shù)據(jù)所花時間來看,順序集成方法費時最長,兩種單一方法耗時較短,本文方法耗時居中。結(jié)合表1中4個數(shù)據(jù)集的數(shù)據(jù)量可以看出,清洗時間隨風(fēng)功率數(shù)據(jù)集數(shù)據(jù)量的增大而增大。本文方法的清洗時長主要取決于基本異常檢測模型中耗時最長的檢測模型和后續(xù)利用偽標(biāo)簽對結(jié)果進行二次篩選合并。順序集成方法耗時短于兩單一模型耗時直接相加,這是因為前一步處理后風(fēng)功率數(shù)據(jù)集總數(shù)據(jù)量減小了。對于兩種單一模型,LOF 方法是基于局部鄰域密度,INNE 方法是基于集成的,后者的計算量更大,故INNE方法耗時大于LOF方法。
從表2 中可以看出,本文方法的異常數(shù)據(jù)刪除率為4種方法中最大,這是因為LSCP框架針對所集成的各個基本檢測模型結(jié)果做了再一次篩選。順序集成方法的數(shù)據(jù)刪除率均大于2 種單一類方法。值得注意的是,針對風(fēng)電場B,順序集成方法的數(shù)據(jù)刪除率大于本文方法,出現(xiàn)了過刪除的情況。此外,LOF方法在識別異常數(shù)據(jù)時更容易受到局部分布密度的影響,故該方法的刪除率會大于INNE方法。
對比MAE和RMSE可以看出,本文方法的識別效果更精準(zhǔn),與標(biāo)準(zhǔn)功率曲線的誤差也更小;但是順序集成方法在風(fēng)電場B上的誤差小于文本方法,通過對比圖3(b)和圖6(b)以及數(shù)據(jù)刪除率可以看出,順序集成方法所識別出的正常數(shù)據(jù)曲線整體寬度較本文方法的更窄,所剔除的異常數(shù)據(jù)更多,故其與標(biāo)準(zhǔn)功率曲線的誤差也會更小。
將風(fēng)電機組實測數(shù)據(jù)集中的異常數(shù)據(jù)剔除,有利于提高后續(xù)風(fēng)電機組出力預(yù)測的精度,是構(gòu)建可靠準(zhǔn)確風(fēng)電功率預(yù)測模型的重要基礎(chǔ)。使用原始風(fēng)功率數(shù)據(jù)集、本文方法清洗后的風(fēng)功率數(shù)據(jù)集和3種對比方法清洗后的風(fēng)功率數(shù)據(jù)集分別作為訓(xùn)練集對長短期記憶LSTM(long short-term memory)模型[23]進行訓(xùn)練。每個訓(xùn)練集中的訓(xùn)練樣本數(shù)相同,預(yù)測模型參數(shù)及結(jié)構(gòu)一致,選取同一天運行數(shù)據(jù)樣本作為測試集進行仿真預(yù)測,選取平均絕對誤差和均方根誤差作為預(yù)測結(jié)果的評價指標(biāo),計算預(yù)測結(jié)果與實際數(shù)據(jù)的誤差,所得結(jié)果如表3所示。
表3 風(fēng)功率預(yù)測指標(biāo)Tab.3 Indexes for wind power prediction
從表3 中可以看出,對比利用原始數(shù)據(jù)集進行訓(xùn)練,剔除異常數(shù)據(jù)后,MAE 和RMSE 均有不同程度的減少,MAE平均減少了4.02%,RMSE平均減少了2.36%,預(yù)測模型的精度均得到了提升;使用經(jīng)本文方法處理后的數(shù)據(jù)集進行風(fēng)功率預(yù)測,MAE 和RMSE兩項指標(biāo)減少得最多,分別為5.06%和3.46%,預(yù)測精度提高效果最明顯;順序集成方法的MAE和RMSE分別減少了4.68%和3.15%,對預(yù)測精度的提升效果略遜于本文方法;兩種單一模型的誤差減少最小,對預(yù)測精度的提升效果不如兩種集成方法;本文方法能有效清洗風(fēng)電功率異常數(shù)據(jù),有效提升了預(yù)測模型的預(yù)測精度,也有利于提高風(fēng)電機組的利用率和電力系統(tǒng)經(jīng)濟調(diào)度的有效性。
綜合來看,本文方法為風(fēng)電功率異常數(shù)據(jù)處理提供了一種合理、高效的識別方法。通過LSCP 框架結(jié)合了兩種識別算法的優(yōu)點,能有效識別前文所提各類異常數(shù)據(jù),在不同風(fēng)電場實際運行數(shù)據(jù)集、不同異常數(shù)據(jù)分布狀態(tài)下均具有良好表現(xiàn),其識別效果優(yōu)于順序集成方法,也避免了順序集成方法使用先后順序的問題,具有較強的實用性和通用性。
本文針對風(fēng)電機組運行過程中產(chǎn)生異常數(shù)據(jù)的問題,通過對異常數(shù)據(jù)類型及產(chǎn)生原因進行分析,提出了一種多模型集成并行框架的風(fēng)電功率異常數(shù)據(jù)識別方法。通過實例驗證和對比分析表明,該方法結(jié)合了INNE 方法和LOF 方法的優(yōu)勢,對不同風(fēng)電場運行場景、不同異常數(shù)據(jù)類型、不同異常數(shù)據(jù)分布狀態(tài),尤其是橫向堆積型異常數(shù)據(jù)的識別效果顯著,能有效提升后續(xù)風(fēng)功率預(yù)測模型的精度,具有較強的通用性,適用于大多數(shù)異常數(shù)據(jù)處理場合。但本文方法在識別過程中還存在以下2個問題:一是數(shù)據(jù)刪除率相對較高,對風(fēng)電功率數(shù)據(jù)集完整性破壞較大;二是沒有考慮數(shù)據(jù)重構(gòu)問題。下一步工作將研究如何降低數(shù)據(jù)刪除率,以及如何對被識別的異常數(shù)據(jù)進行合理重構(gòu),并在數(shù)據(jù)重構(gòu)時考慮使用更多風(fēng)電機組其他數(shù)據(jù)信息。