徐姣新 楊 召
1(商丘學(xué)院 河南 商丘 476000)2(商丘工學(xué)院 河南 商丘 476000)
近十年來,風(fēng)電裝機(jī)容量快速增長,風(fēng)電裝機(jī)規(guī)模在世界能源結(jié)構(gòu)中發(fā)揮著越來越重要的作用[1]。風(fēng)能利用的質(zhì)量也隨之受到了風(fēng)電市場的重視。隨著風(fēng)電場SCADA(Supervisory Control And Data Acquisition)系統(tǒng)歷史運(yùn)行數(shù)據(jù)的積累,海量的數(shù)據(jù)源已成為提高風(fēng)電經(jīng)濟(jì)性可行的解決方案[2]。
由于風(fēng)電機(jī)組功率曲線(Wind Turbine Power Curve,WTPC)經(jīng)常隨時(shí)間變化,將實(shí)測輸出功率與風(fēng)速聯(lián)系起來的數(shù)據(jù)驅(qū)動型WTPC已應(yīng)用于較多領(lǐng)域。它是電力預(yù)測、性能評估和狀態(tài)監(jiān)測等不同場景下的一種有效的技術(shù)手段,受到了極大關(guān)注[3-4]。WTPC建模主要有參數(shù)化建模和非參數(shù)化建模兩種技術(shù)路線。前者包括線性分段模型、多項(xiàng)式冪曲線、最大值法、Logistic函數(shù)和概率模型等,后者包括Copula冪曲線、三次樣條插值、神經(jīng)網(wǎng)絡(luò)、模糊邏輯方法和數(shù)據(jù)挖掘算法等。但是,基于數(shù)據(jù)的風(fēng)力發(fā)電應(yīng)用程序的性能在很大程度上取決于數(shù)據(jù)質(zhì)量[5-6]以及WTPC建模[7-16]SCADA系統(tǒng)可能存在傳感器故障、數(shù)據(jù)傳輸噪聲和損耗、有限的功率輸出或設(shè)備異常等原因,由此產(chǎn)生大量的異常數(shù)據(jù)和缺失數(shù)據(jù)。所以通常需要消除異常數(shù)據(jù),恢復(fù)丟失數(shù)據(jù)。文獻(xiàn)[7]將加權(quán)歐氏距離定義為相似性度量,并采用局部離群因子算法來識別離群值,但若含有高比率無效數(shù)據(jù)的數(shù)據(jù)源,這種方法可能不準(zhǔn)確。文獻(xiàn)[8]簡單地用物理極限作為識別邊界。文獻(xiàn)[9]則利用控制圖給出了過濾高度依賴于標(biāo)準(zhǔn)非線性WTPC的異常值的上/下控制限。文獻(xiàn)[10]對標(biāo)準(zhǔn)WTPC的左/右運(yùn)動進(jìn)行了優(yōu)化,得到了上下限,但其中的PDL指數(shù)對優(yōu)化不夠合理。
在假設(shè)每個(gè)風(fēng)速區(qū)間輸出功率的概率分布為正態(tài)分布的情況下,可以利用平均值附近的多個(gè)標(biāo)準(zhǔn)差來確定WTPC的置信邊界,以消除異常值[11]。然而,正態(tài)分布的假設(shè)并不總是適用的。文獻(xiàn)[12]采用四分位算法、文獻(xiàn)[13]使用基于密度的噪聲應(yīng)用空間聚類法(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)給出異常值的識別邊界,而它們的性能對初始設(shè)定參數(shù)敏感。鑒于文獻(xiàn)[11-13]中基于每個(gè)風(fēng)速區(qū)間邊界集合的方法總是忽略輸出功率對風(fēng)速的總體分布特征,文獻(xiàn)[14]使用Copula工具將WTPC作為二元聯(lián)合分布。文獻(xiàn)[15]則遵循這一思想,將概率WTPC應(yīng)用于風(fēng)電機(jī)組狀態(tài)監(jiān)測,采用經(jīng)驗(yàn)Copula方法。在其基礎(chǔ)上,文獻(xiàn)[16]采用GMCM(Gaussian mixed Copula)模型建立風(fēng)速和輸出功率的聯(lián)合概率分布,并給出識別異常值的置信度曲線。上述Copula方法考慮了風(fēng)電機(jī)組整個(gè)運(yùn)行范圍內(nèi)的整體聯(lián)合分布特性。然而,自然風(fēng)速和產(chǎn)生的輸出功率通常對它們的聯(lián)合分布特性有不同的影響。此外,在風(fēng)力機(jī)的分區(qū)運(yùn)行區(qū)域中,多個(gè)Copula邊界模型的集合尚未得到充分的研究。同時(shí),不同區(qū)域關(guān)節(jié)分布的尾部特征是不規(guī)則且多樣的。
特別是SCADA系統(tǒng)中的記錄也反映出棄風(fēng)現(xiàn)象較為嚴(yán)重。如果消除了由棄風(fēng)引起的堆積異常值,則不可避免地存在大量缺失數(shù)據(jù)。它們通??梢酝ㄟ^基于時(shí)間序列回歸、插值和統(tǒng)計(jì)方法的時(shí)間或空間方法來恢復(fù)[17]。然而,回歸方法通常需要大量連續(xù)的數(shù)據(jù)點(diǎn)。當(dāng)連續(xù)缺失的數(shù)據(jù)點(diǎn)達(dá)到一定數(shù)量時(shí),牛頓、三次樣條等插值方法的累積插值誤差往往會增大,此外,考慮到數(shù)據(jù)量有限,統(tǒng)計(jì)方法可能還不夠。因此,需要探索一種有效的插值方法。
本文在三維經(jīng)驗(yàn)Copula空間中,以轉(zhuǎn)子速度作為輔助辨識因子進(jìn)行初步數(shù)據(jù)過濾,并對WTPC的離群點(diǎn)識別邊界進(jìn)行了初步改進(jìn),提出一種基于混合阿基米德Copula函數(shù)的自適應(yīng)置信邊界模型。整個(gè)邊界是變速變槳控制(Variable Speed Variable Pitch,VSVP)風(fēng)力機(jī)分區(qū)運(yùn)行區(qū)域邊界的集合。在每個(gè)操作區(qū)域中,利用梯度下降進(jìn)行期望最大化(Expectation Maximization,EM)。然后,將推導(dǎo)出的Copula條件概率與各風(fēng)速下的條件核密度估計(jì)(Conditional Kernel Density Estimation,CKDE)相結(jié)合,建立了置信邊界模型,并提出保證性能的自適應(yīng)建模評價(jià)系統(tǒng)。在邊界模型剔除異常點(diǎn)后,提出一種雙向馬爾可夫鏈插值(BMCI)方法,用優(yōu)化的前向和后向權(quán)值恢復(fù)缺失的數(shù)據(jù)點(diǎn)。因此,所提方法有助于獲得更準(zhǔn)確的WTPC用于監(jiān)測、故障檢測和功率預(yù)測。
通常,具有雙饋感應(yīng)發(fā)電機(jī)(Doubly Fed Induction Generator,DFIG)的主流三葉片水平軸風(fēng)力發(fā)電機(jī)具有VSVP能力,其整個(gè)運(yùn)行范圍可分為五個(gè)區(qū)域,如圖1所示。風(fēng)速(V)、轉(zhuǎn)子轉(zhuǎn)速(ωrot)和輸出功率(P)之間的關(guān)系能有效地反映各區(qū)域的主要運(yùn)行特征。帶有“rated”和“min”的變量分別表示相關(guān)變量的額定值和最小值;Vcut-in和Vcut-out分別表示切入風(fēng)速和切出風(fēng)速。
圖1 風(fēng)機(jī)三維運(yùn)行區(qū)域
在I區(qū),DFIG空載空轉(zhuǎn),不并網(wǎng),不等于零的輸出功率值需要清除。
在II區(qū),DFIG通過雙向PWM變換器連接電網(wǎng)。通過核密度估計(jì)(Kernel Density Estimation,KDE)計(jì)算風(fēng)速、轉(zhuǎn)速和輸出功率的累積邊際概率分布,并將其范圍劃分為若干個(gè)小的區(qū)間。采用經(jīng)驗(yàn)Copula方法建立聯(lián)合概率分布。然后,在三維Copula空間中,聯(lián)合概率點(diǎn)分布在對稱線交叉點(diǎn)(0,0,0)和(1,1,1)周圍。點(diǎn)與線之間的距離表示點(diǎn)的偏差程度。同時(shí),最偏離點(diǎn)的概率往往較低。為了消除一定置信水平下的異常值,在對稱直線上設(shè)置距離閾值,對偏差程度明顯的點(diǎn)進(jìn)行隔離。然后,在一定的置信水平下,優(yōu)先清除其中概率較低的點(diǎn)。在Copula空間中,一個(gè)bin對應(yīng)于許多實(shí)際的數(shù)據(jù)點(diǎn)。考慮到小區(qū)間劃分間隔對建立經(jīng)驗(yàn)Copula模型的影響,利用PDL索引來最大化剩余數(shù)據(jù)量,并保證滿足置信度要求。
在III區(qū)和IV區(qū)中,可以執(zhí)行相同的過程來清除原始數(shù)據(jù)。當(dāng)然,應(yīng)該考慮轉(zhuǎn)子轉(zhuǎn)速和輸出功率的最大物理極限。
在V區(qū),風(fēng)輪葉片通常變成全順槳,渦輪轉(zhuǎn)子以非常低的速度旋轉(zhuǎn)或剎車。同時(shí),電氣系統(tǒng)不并網(wǎng),輸出功率保持恒定為零。
經(jīng)過初步的數(shù)據(jù)清理,風(fēng)速和輸出功率的散點(diǎn)圖主要表現(xiàn)為II、III、IV區(qū)的帶狀分布,這些區(qū)域的控制策略和算法不同,因此最好能準(zhǔn)確地剔除不同區(qū)域的異常值。
首先,估計(jì)風(fēng)速和輸出功率的邊際概率分布。隨后,需要在每個(gè)區(qū)域選擇合適的Copula函數(shù)。正態(tài)Copula、t-Copula和Frank-Copula等具有對稱尾特征的Copula函數(shù)不能捕捉隨機(jī)變量的非對稱尾特征??紤]到Gumbel Copula和Clayton Copula能夠捕捉隨機(jī)變量的非對稱尾特征,因此采用了Gumbel Copula、Clayton Copula和Frank Copula等混合函數(shù)。
具體的建模步驟如下。
步驟1采用KDE方法分別估計(jì)II、III、IV區(qū)的累積邊際分布FP(P)和FV(V)。
步驟2混合阿基米德Copula函數(shù)如下:
C(u,v)=φGCG(u,v;θG)+φCCC(u,v;θC)+
φFCF(u,v;θv)
(1)
式中:u=FP(P)和v=FV(V);φ*是加權(quán)系數(shù);θ*是隨機(jī)變量間的關(guān)聯(lián)關(guān)系;C*(·)是Copula函數(shù)。此外,Gumbel函數(shù)、Clayton函數(shù)和Frank Copula函數(shù)如下:
CG(u,v;θG)=exp{-[(-lnu)θG+(-lnv)θG]1/θG}
(2)
CC(u,v;θC)=max[(u-θC+v-θC-1)1/θC,0]
(3)
(4)
它們分別對應(yīng)于聯(lián)合概率分布的UT(Upper Tail)特征、LT(Lower Tail)特征和ST(Symmetric Tail)特征。
在FP(P)和FV(V)的基礎(chǔ)上,構(gòu)建聯(lián)合頻率直方圖,并擬合各操作區(qū)域的混合阿基米德Copula函數(shù)。采用梯度下降優(yōu)化的EM估計(jì)式(1)未知參數(shù)。
步驟3利用混合Copula函數(shù)C(u,V)可以建立聯(lián)合概率分布C(FP(P),F(xiàn)V(V))。然后,得到FV(V)下的FP(P)的條件概率為:
(5)
在一定條件下,將V和P的聯(lián)合概率分布與局部概率分布聯(lián)系起來。然后,在每一個(gè)V值下,計(jì)算其條件概率。
步驟4對于II、III和IV之間的轉(zhuǎn)換,由于不確定性,很容易產(chǎn)生異常數(shù)據(jù)。如果設(shè)置了各區(qū)域FP(P)的置信水平,則異常數(shù)據(jù)量可以降低到一定的水平。FP(P)在一個(gè)操作區(qū)域內(nèi)具有置信度1-β??紤]到FP(P)的不對稱性,將不對稱系數(shù)設(shè)為k。那么,置信度1-β的概率分位數(shù)可以計(jì)算如下:
βlow=κβ
(6)
βup=1-(1-κ)β
(7)
式中:βup和βlow是上概率分位數(shù)和下概率分位數(shù)。
步驟5對于風(fēng)速值V=V0,F(xiàn)V(V0)可以通過其KDE得出。通過式(5),F(xiàn)(FP(P)|FV(V0))成為單變量概率分布。對應(yīng)于βup和βlow,F(xiàn)(FP(P)|FV(V0))的輸出分別為γup和γlow,這是P在值V0下的條件概率。實(shí)際上,它們相當(dāng)于條件概率分布H(P|V0)的輸出。那么,V0下P的分位數(shù)如下:
Pup=H-1(γup|V0)
(8)
Plow=H-1(γlow|V0)
(9)
式中:Pup和Plow是在一定值V0下WTPC的上下置信邊界。
FP(P)和H(P|V)通過式(5)聯(lián)系起來。然后綜合考慮聯(lián)合概率分布和局部概率分布,得到期望置信水平。
步驟6在Ⅱ、Ⅲ和Ⅳ區(qū),按一定間隔計(jì)算各風(fēng)速值的上下邊界。然后,對所有區(qū)域的點(diǎn)進(jìn)行描述,得到WTPC的等價(jià)置信邊界。利用上下邊界,可以直接識別和消除異常數(shù)據(jù)。
利用上述方法,可以對WTPC的置信邊界進(jìn)行建模。然而,它是基于一定數(shù)量的SCADA歷史數(shù)據(jù)的統(tǒng)計(jì)模型。直觀地說,風(fēng)力發(fā)電機(jī)的動力會隨著時(shí)間而變化。因此,在評估數(shù)據(jù)清理效果時(shí),需要更新置信邊界模型。
利用WTPC的上述置信邊界模型,直接從SCADA系統(tǒng)中清除原始數(shù)據(jù)。比較原始數(shù)據(jù)和清理數(shù)據(jù)的概率分布,清理數(shù)據(jù)的概率分布變得更加規(guī)則。為了量化這些變化,本文給出了幾種統(tǒng)計(jì)指標(biāo)來表示清理數(shù)據(jù)在概率分布上的變化趨勢。
對于清潔能源輸出數(shù)據(jù)的分布,定義其顯著性水平為α。使用式(6)和式(7)確定置信度1-α下的上下分位數(shù)。然后,指數(shù)置信帶寬比(Confidence Bandwidth Ratio,CBR)可以由式(10)計(jì)算。
(10)
式中:χCBR代表CBR指數(shù);ΔP是上分位數(shù)和下分位數(shù)之間的帶寬。另外,其他兩個(gè)參數(shù)定義如下:
(11)
(12)
式中:μSke是偏度指數(shù);δKur是峰度指數(shù);D2、D3和D4分別是2階、3階和4階中心距。
CBR指數(shù)表示有效數(shù)據(jù)的平均概率分布水平,較大的CBR意味著在一定的置信度下,更多的輸出功率數(shù)據(jù)分布在相對較少的帶寬上。偏度指數(shù)表明對稱性,如果它接近于零,則概率分布更為對稱。峰度指數(shù)反映了其峰值附近概率分布的集中程度。峰度指數(shù)越大意味著數(shù)據(jù)在峰值附近越集中。
基于以上評價(jià)指標(biāo),可以看出數(shù)據(jù)清洗的變化趨勢。然而,它們都是描述清理數(shù)據(jù)的概率特性的統(tǒng)計(jì)指標(biāo)。在一定程度上,它們受數(shù)據(jù)樣本大小的影響。凈化數(shù)據(jù)的評價(jià)指標(biāo)越穩(wěn)定,反映了置信邊界WTPC模型對數(shù)據(jù)凈化的穩(wěn)定效果。本文采用隨機(jī)抽樣和交叉驗(yàn)證(Cross Validation,k-CV)方法進(jìn)行研究,從而獲得一個(gè)穩(wěn)定且普遍適用的模型
對于II、III或IV區(qū),需要選擇適當(dāng)?shù)臅r(shí)間尺度以獲得足夠的原始數(shù)據(jù)樣本量。然后,在對原始數(shù)據(jù)進(jìn)行初步數(shù)據(jù)清理后,進(jìn)行k-CV法。對于數(shù)據(jù)樣本,它們被隨機(jī)分成k個(gè)部分。每個(gè)部分都用作測試數(shù)據(jù)集,其余的k-1部分用作訓(xùn)練數(shù)據(jù)集。然后,對數(shù)據(jù)樣本進(jìn)行隨機(jī)劃分,進(jìn)行k次訓(xùn)練和測試,得到k個(gè)CBR指數(shù)、k個(gè)偏態(tài)指數(shù)和k個(gè)峰度指數(shù)。如果它們是收斂的,則使用k組的平均值來評估數(shù)據(jù)清理效果。為了保證統(tǒng)計(jì)指標(biāo)的穩(wěn)定性,可以將數(shù)據(jù)樣本的隨機(jī)劃分和非參數(shù)模型的k-CV重復(fù)n次以驗(yàn)證其性能。
如果n組平均指標(biāo)在常數(shù)附近收斂到要求的精度,則認(rèn)為WTPC的置信邊界模型是可靠的。由于風(fēng)電機(jī)組運(yùn)行特性隨時(shí)間的變化,需要對SCADA數(shù)據(jù)以及數(shù)據(jù)過濾模型進(jìn)行更新。本文采用基于滑動時(shí)間窗(Sliding Time Window,STW)機(jī)制的時(shí)間驅(qū)動模型更新方法。合理選擇時(shí)間窗T,對采集到的數(shù)據(jù)進(jìn)行增量更新,并保留足夠的數(shù)據(jù)樣本,以獲得穩(wěn)定的模型,從而構(gòu)建了WTPC置信邊界模型的自適應(yīng)更新流程。
處理數(shù)據(jù)中不可避免地存在數(shù)據(jù)丟失。如果連續(xù)丟失大量數(shù)據(jù)點(diǎn),即使重復(fù)執(zhí)行數(shù)據(jù)恢復(fù),也會造成很大的累積誤差。此外,剔除異常值后,剩余數(shù)據(jù)量也會減少??紤]到馬爾可夫鏈無后遺癥,基于隨機(jī)切換統(tǒng)計(jì)的馬爾可夫鏈可以用于不連續(xù)數(shù)據(jù),且需要較少的數(shù)據(jù)量。此外,馬爾可夫鏈還可以利用時(shí)間序列的時(shí)變特性。
為了充分利用剔除異常值后的剩余數(shù)據(jù)量,本文提出一種前向和后向馬爾可夫鏈相結(jié)合的雙向機(jī)制。首先,在一定的區(qū)間內(nèi)對輸出功率范圍進(jìn)行均勻劃分,得到連續(xù)的離散狀態(tài)。然后,選擇缺失數(shù)據(jù)段前后的剩余數(shù)據(jù)樣本。在此基礎(chǔ)上,分別建立了前向馬爾可夫鏈和后向馬爾可夫鏈。前者表示為:
…,Pt-Np)
(13)
式中:Pt是時(shí)間t時(shí)輸出功率的離散狀態(tài);0,1,…,t是正向時(shí)間序列號;NP是馬爾可夫鏈的階。雖然風(fēng)電隨時(shí)間的變化而變化,但在變化中存在一定的連續(xù)性,從而提供了變化的向后可追溯性。然后,后向馬爾可夫鏈如下:
…,Pt+Np)
(14)
式中:inf,1,…,t是后向時(shí)間序列號。使用式(15)和式(16),在t時(shí)恢復(fù)的離散狀態(tài)分別為前Pt和后Pt。然后,使用隨機(jī)數(shù)生成器如下:
(15)
(16)
式中:Pi是P的第i個(gè)狀態(tài);“upp”和“l(fā)ow”表示P的狀態(tài)劃分區(qū)間的上下限;εi是均勻分布在[0,1]中的隨機(jī)數(shù);ω1和ω2是加權(quán)系數(shù)。
為了提高丟失數(shù)據(jù)恢復(fù)的適應(yīng)性,采用均方根誤差(Root Mean Square Error,RMSE)指標(biāo)和梯度下降算法對加權(quán)系數(shù)進(jìn)行優(yōu)化。
在剔除異常值和恢復(fù)丟失數(shù)據(jù)后,對SCADA系統(tǒng)的運(yùn)行數(shù)據(jù)進(jìn)行了充分的預(yù)處理,得到的數(shù)據(jù)對許多應(yīng)用都是有效的。
為了驗(yàn)證本文方法的有效性,本節(jié)對其進(jìn)行了仿真驗(yàn)證和應(yīng)用分析。原始數(shù)據(jù)來自華北某風(fēng)電場的SCADA系統(tǒng)。時(shí)間為2017年1月1日至12月31日,采樣周期為10 min。選擇了主流的1.5 MW DFIG。它可以在圖1所示的模式下工作。切入、切出、額定轉(zhuǎn)速和轉(zhuǎn)子功率的風(fēng)速分別為3 m/s、25 m/s、8.87 m/s和10.8 m/s。最小、額定和最大風(fēng)力渦輪機(jī)轉(zhuǎn)子轉(zhuǎn)速分別為9 r/min、17.3 r/min和18 r/min。額定功率為1.5 MW。額定轉(zhuǎn)速下的有功功率為0.99 MW。
使用k-CV過程檢查不同操作區(qū)域中數(shù)據(jù)樣本的充分性和一致性。通過測試,三個(gè)月左右的時(shí)間窗可以提供足夠的數(shù)據(jù)量建立一個(gè)可靠的WTPC置信邊界模型。當(dāng)然,如果不能滿足要求,可以延長時(shí)間窗口,增加數(shù)據(jù)量。選擇2017年WT1的1月-3月和WT2的7月-9月這兩個(gè)時(shí)間段,顯示完整的驗(yàn)證過程。如表1所示,隨機(jī)分割重復(fù)5次,3倍交叉驗(yàn)證的測試數(shù)據(jù)集的平均指標(biāo)均穩(wěn)定。結(jié)果表明,三個(gè)月的時(shí)間窗可以得到一個(gè)穩(wěn)定的WTPC置信邊界模型。利用時(shí)間窗T=3個(gè)月的數(shù)據(jù),將WTPC的置信邊界建模過程顯示如下。
表1 評價(jià)指標(biāo)驗(yàn)證過程
續(xù)表1
1) 從SCADA系統(tǒng)采集原始數(shù)據(jù),用本文方法對數(shù)據(jù)進(jìn)行初步清理,最終劃分區(qū)間到邊際概率為0.023。WT1和WT2的PDL指數(shù)分別為90.3%和87.6%。Copula空間中的聯(lián)合概率分布如圖2所示,其中顯著偏離的異常值具有較深的顏色且概率較小。相對于風(fēng)速,轉(zhuǎn)速對輸出功率的不確定性影響較小。垂直于直線,計(jì)算從對稱直線到(0,0,0)和(1,1,1)點(diǎn)的距離。
(a) WT1:1月-3月 (b) WT2:7月-9月圖2 Copula空間中的聯(lián)合概率分布
Copula空間中距離的概率密度如圖3所示。在0附近的第一個(gè)峰值附近,風(fēng)速和轉(zhuǎn)子速度的影響相互重疊。由于轉(zhuǎn)子速度的最大點(diǎn)在這里,所以得到了轉(zhuǎn)子速度的最大概率密度。然后,隨著距離的增加,受轉(zhuǎn)速影響的概率密度不斷減小到谷點(diǎn)。在第二個(gè)峰值,距離的概率密度主要是由風(fēng)速引起的。因此,選擇第一個(gè)峰值處的距離作為沿轉(zhuǎn)子速度維度的距離閾值。選擇第二個(gè)峰值處的距離作為沿風(fēng)速維度的距離閾值。它們被用來識別顯著偏離的異常值,并避免僅僅通過置信度消除錯誤的異常值。在此基礎(chǔ)上,將置信度設(shè)置為0.95。過濾后的數(shù)據(jù)量對置信水平敏感,應(yīng)保證有更多的剩余數(shù)據(jù)量。原始數(shù)據(jù)和初步清理數(shù)據(jù)的散點(diǎn)圖如圖4所示。這表明顯著的異常值已經(jīng)被清除,剩余的數(shù)據(jù)變得更加集中。
(a) WT1:1月-3月 (b) WT2:7月-9月圖3 Copula空間距離概率密度
(a) WT1:1月-3月 (b) WT2:7月-9月圖4 數(shù)據(jù)清理散點(diǎn)圖
2) 根據(jù)初步清理的數(shù)據(jù),用KDE計(jì)算風(fēng)速和輸出功率的累積邊際概率分布。然后,用梯度下降優(yōu)化的EM算法估計(jì)混合阿基米德Copula函數(shù)的權(quán)值和參數(shù),如表2所示。
表2 Copula函數(shù)估計(jì)及1-β置信下概率分位數(shù)值
3) 推導(dǎo)出式(5)F(FP(P)|FV(V))中的條件概率分布。在每個(gè)區(qū)域,將1-β設(shè)置為0.95。在已知值V0下,用F(FP(P)|FV(V0))分別計(jì)算γup和γlow,如圖5所示。結(jié)果表明,不同風(fēng)速下,輸出功率的不確定性隨湍流強(qiáng)度的變化而變化。它符合實(shí)際輸出功率的特點(diǎn)。
(a) WT1:1月-3月
(b) WT2:7月-9月圖5 不同風(fēng)速下的γup和γlow
4) 用Parzen-Rosenblatt-CKDE計(jì)算了各區(qū)域的條件概率分布H(P|V)。對應(yīng)于V0下的每一對γ,反求H(P|V0),可得到分位數(shù)Pup和Plow。計(jì)算每個(gè)風(fēng)速值對應(yīng)的Pup和Plow,并描繪所有區(qū)域的所有邊界點(diǎn)。然后,可以得到WTPC的等效置信邊界,如圖6所示。利用WTPC的上下置信邊界,可以直接識別和消除異常數(shù)據(jù)。
(a) WT1:1月-3月 (b) WT2:7月-9月圖6 WTPC的散點(diǎn)以及置信邊界
5) 為了顯示最終清理數(shù)據(jù)的效果,比較不同階段的輸出功率fP(P)的概率密度曲線,如圖7所示。評價(jià)指標(biāo)比較見表3。結(jié)果表明,最終清洗后的數(shù)據(jù)更加集中,置信邊界模型在各個(gè)區(qū)域都具有可靠的數(shù)據(jù)清洗性能。
(a) II區(qū)兩時(shí)段
(b) III區(qū)兩時(shí)段
(c) IV區(qū)兩時(shí)段圖7 不同區(qū)域概率分布對比
表3 不同階段數(shù)據(jù)評價(jià)指標(biāo)
此外,為了進(jìn)一步證明本文方法的有效性,還將其與經(jīng)驗(yàn)Copula和GMCM方法進(jìn)行了比較。使用經(jīng)驗(yàn)Copula方法,Copula空間和散點(diǎn)圖中的聯(lián)合概率分布如圖8所示。圖8(b)和圖8(d)中的輪廓是沿著剩余數(shù)據(jù)點(diǎn)的邊緣描繪的。圖8(b)和圖8(d)中等高線外的數(shù)據(jù)點(diǎn)是消除的異常值。結(jié)果表明,在整個(gè)工作區(qū)域內(nèi),輪廓線非常不規(guī)則。
(a) WT1聯(lián)合概率分布 (b) WT1散點(diǎn)圖
(c) WT2聯(lián)合概率分布 (d) WT2散點(diǎn)圖圖8 聯(lián)合概率分布及功率散點(diǎn)圖
不同區(qū)域聯(lián)合概率密度的GMCM擬合和散點(diǎn)圖如圖9所示。不同區(qū)域的概率密度差異很大,如圖9(a)和圖9(c)所示,得到的輪廓也非常不規(guī)則,如圖9(b)和圖9(d)所示。結(jié)果表明,僅用概率密度剔除異常值,不能平衡WTPC的整體和局部特征。它們不足以消除異常值。
(a) WT1不同地區(qū)的GMCM (b) WT1功率散點(diǎn)圖
(c) WT2不同地區(qū)的GMCM (d) WT2功率散點(diǎn)圖圖9 不同地區(qū)的GMCM及功率散點(diǎn)圖
(17)
使用式(17)中的R2指數(shù)比較不同方法的數(shù)據(jù)清理效果。證明了Copula空間中從直線到(0,0)和(1,1)數(shù)據(jù)概率分布的中心性。R2值越大,數(shù)據(jù)的概率分布越集中。這也意味著數(shù)據(jù)清理效果更好。計(jì)算結(jié)果見表4。
表4 不同方法的評價(jià)指標(biāo)
本文方法除了在II區(qū)中有相似的性能外,在III區(qū)和IV區(qū)中也有較好的性能。此外,在本文的初步數(shù)據(jù)清理階段,風(fēng)速、轉(zhuǎn)子轉(zhuǎn)速和輸出功率的三維空間具有較強(qiáng)的識別和剔除異常值的能力。然而,這一優(yōu)勢并沒有得到R2指標(biāo)的正確評價(jià),需要定義一個(gè)更適合三維空間的指標(biāo)。
綜上所述,本文提出的異常值剔除方法包括初步數(shù)據(jù)清理和置信邊界建模是非常有效的。與經(jīng)驗(yàn)Copula和GMCM方法相比,該方法在平衡WTPC上運(yùn)行數(shù)據(jù)的整體和局部分布特性的同時(shí),具有更好的性能。
本文利用二階馬爾可夫鏈建立輸出功率模型。優(yōu)化后的權(quán)重ω1和ω2分別為0.609 8和0.390 2。當(dāng)連續(xù)缺失10個(gè)數(shù)據(jù)點(diǎn)時(shí),比較BMCI法與牛頓法和分段三次Hermite插值法,結(jié)果如圖10和表5所示。隨著連續(xù)缺失點(diǎn)數(shù)的增加,BMCI方法的精度不斷提高。
圖10 不同插值方法對比
表5 不同數(shù)據(jù)恢復(fù)方法的RMSE
處理后的數(shù)據(jù)被用于生成代表風(fēng)機(jī)實(shí)際運(yùn)行特性的WTPC。為了更好地刻畫風(fēng)速與輸出功率之間的非線性關(guān)系,采用了4參數(shù)和5參數(shù)Logistic函數(shù)等性能較好的參數(shù)化方法對處理后的數(shù)據(jù)進(jìn)行擬合。此外,還采用傅里葉函數(shù)進(jìn)行比較。曲線擬合函數(shù)表示為:
(18)
式中:PTheo是WTPC的功率;a*、b*、c*、m*、n*、g*和τ*是擬合參數(shù)。
擬合曲線如圖11所示。結(jié)果表明,所安裝的WTPC與制造商提供的WTPC完全不同?;谔幚頂?shù)據(jù)的WTPC位于置信區(qū)間之間。另外,雖然四參數(shù)和五參數(shù)logistic函數(shù)的參數(shù)較多,但三種方法的擬合性能接近。它反映了使用最終清理數(shù)據(jù)的穩(wěn)定擬合性能。為了驗(yàn)證數(shù)據(jù)清理程序的有效性,使用擬合的風(fēng)電機(jī)組來計(jì)算風(fēng)電機(jī)組的理論功率。使用以下指標(biāo)評估計(jì)算出的理論功率的性能。
(a) WT1:1月-3月 (b) WT2:7月-9月圖11 不同方法的WTPC比較
(19)
理論和實(shí)際功率曲線如圖12所示。結(jié)果表明,擬合后的WTPC理論功率曲線在上下置信邊界之間,有較好的位置。評價(jià)指標(biāo)見表6。結(jié)果表明,與制造商的計(jì)算結(jié)果相比,所擬合的WTPC的計(jì)算結(jié)果具有更大的相關(guān)性和更小的誤差。
(a) WT1:1月-3月
(b) WT2:7月-9月圖12 不同方法功率對比
表6 評價(jià)指標(biāo)比較
本文利用轉(zhuǎn)子速度的狀態(tài)變量作為輔助辨識因子,在三維Copula空間中合理地消除顯著異常值,并基于混合阿基米德-Copula函數(shù)的EM估計(jì),將各區(qū)域輸出功率的總體概率分布和各風(fēng)速下輸出功率的條件概率相結(jié)合??傮w而言,本文方法綜合考慮了運(yùn)行數(shù)據(jù)的機(jī)理和概率分布。它不同于只考慮概率密度或偏差距離的方法。而且,所用的評估系統(tǒng)對于置信邊界模型的自適應(yīng)更新也極有效。此外,所提出的BMCI方法能有效地填補(bǔ)連續(xù)缺失數(shù)據(jù)點(diǎn),減少累積誤差。最后,算例證明了本文方法優(yōu)越的性能,所用數(shù)據(jù)處理過程具有巨大的應(yīng)用潛力。