郭慧軍,李永亭*,齊詠生,劉利強(qiáng)
(1.內(nèi)蒙古工業(yè)大學(xué)電力學(xué)院,內(nèi)蒙古 呼和浩特 010080;2.內(nèi)蒙古自治區(qū)機(jī)電控制重點(diǎn)實(shí)驗(yàn)室,內(nèi)蒙古 呼和浩特 010051)
風(fēng)功率關(guān)系曲線是風(fēng)電機(jī)組發(fā)電性能的一個(gè)重要參數(shù),因?yàn)轱L(fēng)機(jī)運(yùn)行的不穩(wěn)定性,導(dǎo)致風(fēng)機(jī)的發(fā)電功率不穩(wěn)定,故而風(fēng)電并網(wǎng)對(duì)電力系統(tǒng)有一定的影響,研究造成的負(fù)面影響離不開(kāi)對(duì)風(fēng)電機(jī)組運(yùn)行狀態(tài)的有效分析和評(píng)估[1]。風(fēng)電機(jī)組的歷史數(shù)據(jù)是風(fēng)電機(jī)組功率預(yù)測(cè)、風(fēng)電機(jī)組控制策略、風(fēng)電機(jī)組性能評(píng)估的基礎(chǔ)[2],但是風(fēng)電機(jī)組在實(shí)際運(yùn)行過(guò)程中,由于運(yùn)行環(huán)境影響、數(shù)據(jù)采集、傳輸時(shí)的誤差以及設(shè)備發(fā)生故障等因素,運(yùn)行期間會(huì)產(chǎn)生大量的異常數(shù)據(jù)。這些受到擾動(dòng)和異常的數(shù)據(jù)無(wú)法準(zhǔn)確反映風(fēng)電機(jī)組的真實(shí)運(yùn)行狀態(tài),如果直接使用這些數(shù)據(jù)進(jìn)行后續(xù)分析,必然會(huì)影響風(fēng)電機(jī)組的運(yùn)行狀態(tài)和運(yùn)行特性的分析結(jié)果,為此,必須對(duì)風(fēng)電機(jī)組運(yùn)行數(shù)據(jù)進(jìn)行清洗。
當(dāng)前,關(guān)于風(fēng)電機(jī)組運(yùn)行數(shù)據(jù)的清洗研究已有許多報(bào)道,如文獻(xiàn)[3]和文獻(xiàn)[4]采用數(shù)理統(tǒng)計(jì)中的四分位方法剔除異常數(shù)據(jù),取得一定的效果,但是當(dāng)異常數(shù)據(jù)過(guò)多時(shí),確定異常值上下限會(huì)受到影響,識(shí)別效果變差。文獻(xiàn)[5]基于密度的離群因子(LOF)算法剔除異常數(shù)據(jù),可以有效剔除一些分散性異常數(shù)據(jù),但當(dāng)異常數(shù)據(jù)密度較高時(shí),LOF算法的識(shí)別能力就會(huì)下降,容易誤刪正常數(shù)據(jù)。文獻(xiàn)[6]采用組內(nèi)最優(yōu)方差建立數(shù)據(jù)清洗模型,但是該方法默認(rèn)把每個(gè)風(fēng)速區(qū)間內(nèi)的最大功率當(dāng)成額定功率,無(wú)法清洗功率曲線上方的不正常數(shù)據(jù),而且該方法本質(zhì)上是一種單邊清洗算法,不能很好地做到雙邊清洗。文獻(xiàn)[7]采用LOF 和支持向量機(jī)兩種方法進(jìn)行結(jié)合,首先用LOF算法值固定異常值范圍,然后利用支持向量機(jī)建立判別異常的準(zhǔn)則來(lái)判定異常值,但支持向量機(jī)適合處理小樣本,面對(duì)海量風(fēng)電數(shù)據(jù)顯得力不從心。文獻(xiàn)[8] 按不同風(fēng)向上的不同風(fēng)速區(qū)間內(nèi)使用組內(nèi)最優(yōu)方差來(lái)識(shí)別其相應(yīng)的異常數(shù)據(jù),利用風(fēng)玫瑰圖統(tǒng)計(jì)不同風(fēng)向的風(fēng)速大小,但是算法需要在每個(gè)風(fēng)向進(jìn)行兩次風(fēng)速細(xì)分后,再在每個(gè)風(fēng)速區(qū)間內(nèi)設(shè)定閾值,大大降低了運(yùn)行的效率。文獻(xiàn)[9] 提出了一種基于灰色關(guān)聯(lián)度和K-means聚類(lèi)的方法。利用灰色關(guān)聯(lián)法對(duì)數(shù)據(jù)進(jìn)行關(guān)聯(lián)度挖掘,其次用K-means聚類(lèi)的方法建立數(shù)據(jù)的異常檢測(cè)模型。綜上,現(xiàn)有的風(fēng)機(jī)數(shù)據(jù)清洗方法主要集中在統(tǒng)計(jì)量方法[10-11]、基于密度或者聚類(lèi)的方法上。當(dāng)異常數(shù)據(jù)量比較多時(shí),統(tǒng)計(jì)量方法如四分位會(huì)出現(xiàn)識(shí)別失效的情況[12],最優(yōu)組內(nèi)方差方法需要對(duì)不同的數(shù)據(jù)集設(shè)置不同的閾值,不具有工程通用性;基于密度和聚類(lèi)的方法,模型參數(shù)的確定缺乏有效指導(dǎo),參數(shù)選擇通常是困難的。針對(duì)以上問(wèn)題,同時(shí)考慮風(fēng)速和功率兩個(gè)屬性之間的依賴(lài)關(guān)系[13-14],本文提出了一種基于變點(diǎn)檢測(cè)方法和Copula理論相結(jié)合的兩階段數(shù)據(jù)清洗算法,該算法將特征不同的異常數(shù)據(jù)分開(kāi)討論,結(jié)合異常數(shù)據(jù)的時(shí)序特征分別建立識(shí)別模型,最后從提出算法的有效性進(jìn)行了分析驗(yàn)證。
風(fēng)電機(jī)組的切入風(fēng)速和切出風(fēng)速是反映風(fēng)電機(jī)組功能的重要設(shè)計(jì)參數(shù),理論上,當(dāng)外界實(shí)際風(fēng)速大于切入風(fēng)速后,風(fēng)電機(jī)組開(kāi)始有輸出功率。在切入風(fēng)速到額定風(fēng)速之間時(shí)輸出功率和風(fēng)速的關(guān)系可以近似用指數(shù)規(guī)律表示,當(dāng)達(dá)到額定風(fēng)速后,風(fēng)速增加,但是輸出功率不再變化。當(dāng)風(fēng)速達(dá)到切出風(fēng)速時(shí),為了防止機(jī)組過(guò)載,一般情況下風(fēng)電機(jī)組會(huì)采取制動(dòng)停機(jī),輸出功率等于零。
以某風(fēng)電場(chǎng)一臺(tái)2MW的風(fēng)電機(jī)組為例,其實(shí)測(cè)風(fēng)功率曲線的散點(diǎn)圖如圖1所示。由圖1可以看出,風(fēng)電機(jī)組在實(shí)際運(yùn)行過(guò)程中的功率點(diǎn)處于較大的分布范圍內(nèi),風(fēng)功率數(shù)據(jù)呈非線性,同時(shí)其帶狀分布特征又表現(xiàn)出一定的不確定性,但是風(fēng)功率散點(diǎn)集中區(qū)域的概率密度明顯的要比風(fēng)功率散點(diǎn)分散區(qū)域的高。因此,可以認(rèn)為概率密度高的區(qū)域?qū)儆陲L(fēng)電機(jī)組的正常運(yùn)行狀態(tài)區(qū)域,能夠更好地反映風(fēng)電機(jī)組實(shí)際運(yùn)行狀態(tài)。
根據(jù)圖1所示的實(shí)際散點(diǎn)圖數(shù)據(jù)分布形態(tài)可知,異常數(shù)據(jù)主要可分為橫向堆積型異常數(shù)據(jù)和周?chē)稚⑿彤惓?shù)據(jù),不同種類(lèi)的異常數(shù)據(jù)在風(fēng)功率散點(diǎn)圖中的分布位置也不相同,如圖2中圈注所示。為此,異常數(shù)據(jù)進(jìn)行一下分類(lèi):
1)底部堆積型異常數(shù)據(jù):這類(lèi)異常數(shù)據(jù)表現(xiàn)為一條沿風(fēng)速方向堆積的數(shù)據(jù)帶。在長(zhǎng)時(shí)間內(nèi)實(shí)測(cè)風(fēng)速大于切入風(fēng)速,但輸出功率卻等于0或接近于0的數(shù)據(jù),此類(lèi)數(shù)據(jù)產(chǎn)生的主要原因有機(jī)組故障、通信設(shè)備或采集設(shè)備故障、不定時(shí)停機(jī)檢修等情況。
2)中部堆積型異常數(shù)據(jù):這類(lèi)異常數(shù)據(jù)表現(xiàn)為一條或多條沿風(fēng)速方向堆積的數(shù)據(jù)帶。只要特征是輸出功率低于風(fēng)功率曲線下界,這時(shí)系統(tǒng)采集到風(fēng)速數(shù)據(jù)雖然不斷變化,但輸出功率在一段時(shí)間內(nèi)維持在一個(gè)較低的數(shù)值并基本保持不變,此類(lèi)異常數(shù)據(jù)產(chǎn)生的原因是人為控制的棄風(fēng)限功率或通信故障[15]。
圖1 實(shí)測(cè)風(fēng)速-功率散點(diǎn)圖
3)周?chē)稚⑿彤惓?shù)據(jù):這類(lèi)異常數(shù)據(jù)主要表現(xiàn)為風(fēng)功率曲線附近的無(wú)規(guī)律散點(diǎn),此類(lèi)異常數(shù)據(jù)可能來(lái)源于外部噪聲干擾、傳感器測(cè)量誤差、天氣變化劇烈等因素[16]。
圖2 異常數(shù)據(jù)分布示意圖
由于單一檢測(cè)方法不利于識(shí)別各類(lèi)特征的異常值,因此本文依據(jù)各類(lèi)異常數(shù)據(jù)在風(fēng)功率曲線上呈現(xiàn)的分布特征,提出了一種兩階段基于變點(diǎn)分組(Change Point, CP)-Copula理論的組合異常數(shù)據(jù)清洗算法。第一階段主要清洗大部分堆積形異常數(shù)據(jù)和少量分散型異常數(shù)據(jù),提高正常數(shù)據(jù)占比;第二階段主要清洗剩余的分散型異常數(shù)據(jù)。
CP理論其基本的定義是在一個(gè)時(shí)間序列或過(guò)程中,當(dāng)某個(gè)統(tǒng)計(jì)特性在某個(gè)點(diǎn)受非偶然性的因素影響而突然發(fā)生變化,就稱(chēng)該點(diǎn)為變點(diǎn),變點(diǎn)識(shí)別即利用統(tǒng)計(jì)量或統(tǒng)計(jì)方法將該點(diǎn)的位置估計(jì)出來(lái)。風(fēng)機(jī)數(shù)據(jù)進(jìn)行變點(diǎn)異常值檢測(cè)就是尋找風(fēng)電機(jī)組運(yùn)行數(shù)據(jù)中的數(shù)據(jù)相對(duì)于正常數(shù)據(jù)發(fā)生異常的部分。如果在某個(gè)風(fēng)速區(qū)間內(nèi)有大量堆積型異常數(shù)據(jù),那么這個(gè)區(qū)間內(nèi)功率序列的變化率、均值、方差以及方差的變化率等數(shù)據(jù)特征都會(huì)發(fā)生突變,不再符合原來(lái)的規(guī)律。因此采用變點(diǎn)理論對(duì)風(fēng)功率曲線中的異常數(shù)據(jù)進(jìn)行清洗具有理論可行性。研究數(shù)據(jù)清洗問(wèn)題時(shí),需要找出的是風(fēng)功率序列中數(shù)據(jù)特征突變的位置,即數(shù)據(jù)點(diǎn)位置。由于方差變化率可以用來(lái)衡量數(shù)據(jù)的波動(dòng)性,且采用方差變化率作為識(shí)別數(shù)據(jù)突變點(diǎn)時(shí),效果最明顯,因此,本文采用基于方差變化率的變點(diǎn)作為分組依據(jù)。
基于方差變化率的變點(diǎn)算法步驟如下:先將風(fēng)速按照相同的等間隔大小分成個(gè)s區(qū)間,統(tǒng)計(jì)這個(gè)區(qū)間內(nèi)的風(fēng)速-功率數(shù)據(jù)對(duì),記第i個(gè)風(fēng)速-功率區(qū)間內(nèi)的功率數(shù)據(jù)樣本為
I={(v1,p1),(v2,p2),…,(vn,pn)}
(1)
式中,vi和pi分別表示第i個(gè)數(shù)據(jù)樣本的風(fēng)速和功率,把功率值進(jìn)行降序排列,即pi>pi+1,i∈(1,n-1),重新排列數(shù)據(jù)對(duì),然后求出各點(diǎn)的方差
(2)
t(i)=|si-si-1|,i=2,3,…,n
(3)
對(duì)風(fēng)電機(jī)組功率的方差變化率進(jìn)行變點(diǎn)識(shí)別,可以得到功率值變化明顯的位置。最小二乘法是處理變點(diǎn)問(wèn)題時(shí)常用的一種方法,它構(gòu)造觀察值與理論值之差的二次平方和作為目標(biāo)函數(shù),當(dāng)使目標(biāo)函數(shù)達(dá)到極小值之點(diǎn)的時(shí)刻或位置作為突變點(diǎn)的估計(jì)參數(shù)。若在第個(gè)區(qū)間內(nèi),功率的方差變化率發(fā)生了突變,說(shuō)明這種突變是由大量離散程度高的異常數(shù)據(jù)所導(dǎo)致的,用最小二乘法求出變點(diǎn)位置后,變點(diǎn)之后的數(shù)據(jù)離散程度將越來(lái)越高,可認(rèn)為是異常數(shù)據(jù),進(jìn)行清洗剔除。利用上述原理在各個(gè)風(fēng)速區(qū)間進(jìn)行清洗,就可以得到整個(gè)區(qū)間內(nèi)風(fēng)功率曲線的正常數(shù)據(jù)集和異常數(shù)據(jù)集。
風(fēng)速和功率具有隨機(jī)性和波動(dòng)性,可以將其視為具有相關(guān)性的兩個(gè)隨機(jī)變量進(jìn)行處理,而Copula函數(shù)能夠描述兩個(gè)隨機(jī)變量的相關(guān)性。根據(jù)風(fēng)電機(jī)組實(shí)測(cè)數(shù)據(jù),計(jì)算風(fēng)速和輸出功率的累計(jì)概率分布,選取最合適風(fēng)速-功率數(shù)據(jù)分布的Copula函數(shù)描述風(fēng)速和功率兩個(gè)隨機(jī)變量間的相關(guān)性,在不同風(fēng)速和置信度下,即可得到輸出功率的條件概率分布模型,最終把各個(gè)風(fēng)速取值下的上下分位數(shù)連接起來(lái)形成兩條曲線即為概率功率曲線,在本算法中認(rèn)為在曲線內(nèi)的數(shù)據(jù)是符合分布規(guī)律的正常數(shù)據(jù)。
由Sklar理論知道[17],兩個(gè)隨機(jī)變量得聯(lián)合概率分布可以用Copula函數(shù)描述。對(duì)于風(fēng)速v和功率p的累積概率分布FV(V)和FP(P)存在相應(yīng)的Copula函數(shù)將其聯(lián)合分布函數(shù)連接起來(lái),即
F(V,P)=CV,P(FV(V),F(xiàn)P(P))
(4)
函數(shù)CV,P稱(chēng)為隨機(jī)變量風(fēng)速V、功率P的Copula概率分布函數(shù)。Copula函數(shù)中的未知參數(shù)可以用極大似然估計(jì)法求解,常見(jiàn)的Copula函數(shù)分別有Clayton Copula,Gaussian Copula,F(xiàn)rank Copula,Gumbel Copula和t-Copula函數(shù)。
基于兩階段CP-Copula建立異常數(shù)據(jù)組合清洗模型,分成兩個(gè)模塊,具體算法流程如圖3所示。在第一個(gè)模塊流程中,依據(jù)風(fēng)功率數(shù)據(jù)量多少,將風(fēng)速區(qū)間等間隔劃分成若干個(gè)區(qū)間,使在某風(fēng)速區(qū)間的對(duì)應(yīng)功率數(shù)據(jù)落入該風(fēng)速區(qū)間,根據(jù)公式計(jì)算每個(gè)點(diǎn)的方差以及方差變化率,之后利用變點(diǎn)算法對(duì)該區(qū)間內(nèi)的異常功率數(shù)據(jù)進(jìn)行首次識(shí)別,將第一次識(shí)別出的異常數(shù)據(jù)直接剔除,并且保留剩余的數(shù)據(jù);在第二個(gè)模塊,針對(duì)變點(diǎn)算法清洗后剩余的可疑數(shù)據(jù)首先構(gòu)造經(jīng)驗(yàn)Copula函數(shù)和五種常見(jiàn)Copula函數(shù)的歐式距離,選取距離最小的函數(shù)建立風(fēng)速和功率的依賴(lài)結(jié)構(gòu),最后利用Copula函數(shù)建立概率功率曲線進(jìn)行第二次異常數(shù)據(jù)的識(shí)別,并且形成最終的正常數(shù)據(jù)集。
圖3 CP-Copula數(shù)據(jù)清洗算法流程
為了驗(yàn)證本文所提方法的有效性,選取內(nèi)蒙古某風(fēng)電場(chǎng)中的一臺(tái)風(fēng)電機(jī)組作為實(shí)驗(yàn)對(duì)象,采集實(shí)際運(yùn)行過(guò)程中將近兩個(gè)月的歷史運(yùn)行數(shù)據(jù)進(jìn)行實(shí)例驗(yàn)證,共計(jì)954683條數(shù)據(jù)樣本。風(fēng)機(jī)基本參數(shù)如下:切入風(fēng)速為3m/s、切出風(fēng)速的10min均值為25m/s、額定風(fēng)速為10m/s,額定功率2MW。
由圖2可知,該臺(tái)機(jī)組包含本文所有類(lèi)型的異常數(shù)據(jù),首先利用變點(diǎn)算法進(jìn)行堆積型異常數(shù)據(jù)的首次識(shí)別清洗。以實(shí)測(cè)運(yùn)行數(shù)據(jù)中15.0-15.5m/s風(fēng)速區(qū)間內(nèi)的數(shù)據(jù)為例說(shuō)明變點(diǎn)算法的清洗原理,在該區(qū)間內(nèi),經(jīng)過(guò)統(tǒng)計(jì)原始風(fēng)速-功率數(shù)據(jù)對(duì)有10703個(gè),將功率值按降序排列,根據(jù)式(2) (3)計(jì)算各點(diǎn)的方差變化率,結(jié)果如圖5所示。
圖4 15.0-15.5m/s原始風(fēng)功率數(shù)據(jù)分布
圖5 功率方差變化率
由圖5可知,在9000個(gè)點(diǎn)左右,功率的方差變化率出現(xiàn)了顯著變化,這是因?yàn)樵谶@個(gè)區(qū)間中,原始數(shù)據(jù)存在大量的離散程度高的異常點(diǎn)所導(dǎo)致的,由最小二乘法計(jì)算得到功率值突變的序號(hào)是9616,因此可以判定第9616個(gè)點(diǎn)之后的數(shù)據(jù)為異常數(shù)據(jù),可以進(jìn)行剔除,圖6是該區(qū)間內(nèi)異常數(shù)據(jù)識(shí)別情況。
圖6 單區(qū)間變點(diǎn)分組異常數(shù)據(jù)識(shí)別效果
由圖6可知,變點(diǎn)分組法可以有效識(shí)別第一、二類(lèi)堆積型異常數(shù)據(jù),利用變點(diǎn)算法在整個(gè)風(fēng)速區(qū)間內(nèi)進(jìn)行相同處理,其處理后的風(fēng)功率散點(diǎn)圖如圖7所示。從圖7可知,經(jīng)過(guò)變點(diǎn)算法進(jìn)行首次識(shí)別后,大部分堆積型異常點(diǎn)被清洗掉,但是仍有部分異常數(shù)據(jù)無(wú)法有效清除,此時(shí)需要異常數(shù)據(jù)的二次識(shí)別和清洗,對(duì)剩余的異常數(shù)據(jù)進(jìn)行剔除。
圖7 變點(diǎn)法處理后的風(fēng)功率曲線
經(jīng)過(guò)第一階段變點(diǎn)算法識(shí)別后的剩余數(shù)據(jù),還需要進(jìn)一步清洗。Copula函數(shù)模型是基于隨機(jī)變量邊緣分布結(jié)果建立的,由于存在五種Copula函數(shù)模型可以描述風(fēng)速和功率的相關(guān)性,不同的Copula函數(shù)表現(xiàn)出來(lái)的變量相關(guān)性關(guān)系是不同的。為了找到最合適的描述模型,本文采用極大似然法對(duì)待選的五種Copula函數(shù)的未知參數(shù)進(jìn)行求解,并計(jì)算每種Copula函數(shù)與經(jīng)驗(yàn)Copula的二次平方歐式距離,結(jié)果如表1所示。由表1可知t-Copula函數(shù)與經(jīng)驗(yàn)Copula的二次平方歐式距離最小,能夠更好地?cái)M合原始風(fēng)功率數(shù)據(jù),因此本文選用t-Copula函數(shù)模型求取風(fēng)速-功率聯(lián)合概率分布模型。
表1 五種Copula函數(shù)的距離
利用t-Copula函數(shù)建立概率功率曲線,進(jìn)一步剔除異常數(shù)據(jù),圖8給出概率功率曲線的上下邊界,經(jīng)過(guò)兩階段CP-Copula識(shí)別模型處理后的最終風(fēng)功率散點(diǎn)圖如下圖9所示。從對(duì)異常數(shù)據(jù)點(diǎn)的識(shí)別效果來(lái)看,本文模型最大程度的還原了風(fēng)電機(jī)組的實(shí)際運(yùn)行狀況,風(fēng)速和功率之間的真實(shí)規(guī)律通過(guò)概率功率曲線得到準(zhǔn)確反映,說(shuō)明本文方法能夠有效識(shí)別風(fēng)電機(jī)組異常數(shù)據(jù)點(diǎn)。
圖8 Copula理論概率功率曲線圖
圖9 CP-Copula理論最終清洗效果圖
為了進(jìn)一步說(shuō)明本文所提方法的有效性,引入數(shù)據(jù)識(shí)別率作評(píng)價(jià)指標(biāo),識(shí)別率定義為清洗的數(shù)據(jù)量和原始數(shù)據(jù)量的比值,同時(shí)與變點(diǎn)-3σ(CP-3σ)模型和最優(yōu)組內(nèi)方差-四分位法(OIV-Quartile)進(jìn)行了對(duì)比,不同方法的異常數(shù)據(jù)識(shí)別效果對(duì)比圖如下所示。
圖10 3σ模型上下界曲線圖
圖11 CP-3σ方法最終清洗效果圖
圖12 OIV-Quartile清洗效果圖
表2比較了三種模型的異常數(shù)據(jù)識(shí)別率,從識(shí)別率的情況看,本文所提遞進(jìn)式兩階段的方法較傳統(tǒng)3σ模型和四分位模型而言有效提高了數(shù)據(jù)識(shí)別率。在第一階段利用變點(diǎn)算法有效剔除大量堆積型異常數(shù)據(jù),避免了高比例的異常數(shù)據(jù)對(duì)四分位清洗算法的干擾。在第二階段,由于不是使用方差、中位數(shù)等統(tǒng)計(jì)量進(jìn)行辨識(shí)異常點(diǎn),而是經(jīng)過(guò)對(duì)概率功率曲線的修正,減少了異常數(shù)據(jù)集中分布對(duì)統(tǒng)計(jì)分析結(jié)果的影響,所以可有效提高數(shù)據(jù)識(shí)別效果。
表2 不同算法的清洗效果對(duì)比
利用CP-Copula模型進(jìn)行異常數(shù)據(jù)識(shí)別之后,有利于挖掘風(fēng)電機(jī)組各變量與功率之間的真實(shí)關(guān)系,提高風(fēng)機(jī)功率預(yù)測(cè)模型的有效性?;趯?duì)風(fēng)電數(shù)據(jù)預(yù)處理的基礎(chǔ)上,本節(jié)分別選取原始數(shù)據(jù)集和經(jīng)過(guò)異常數(shù)據(jù)模型篩選后的數(shù)據(jù)集訓(xùn)練基于長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)的功率預(yù)測(cè)模型。用三種不同算法清洗后的數(shù)據(jù)集訓(xùn)練風(fēng)功率短期預(yù)測(cè)模型[18]。從每個(gè)數(shù)據(jù)集中選取相同數(shù)量的訓(xùn)練樣本,同時(shí)保證LSTM模型的結(jié)構(gòu)相同。選擇1000個(gè)功率點(diǎn)進(jìn)行仿真預(yù)測(cè),選取均方根誤差(RMSE)、平均絕對(duì)誤差(MAE)、R2作為指標(biāo)對(duì)預(yù)測(cè)結(jié)果進(jìn)行評(píng)價(jià),表3是各項(xiàng)指標(biāo)的記錄情況,從表3可以看出用異常數(shù)據(jù)清洗模型識(shí)別后的數(shù)據(jù)進(jìn)行短期風(fēng)功率的預(yù)測(cè)精度都得到顯著提升,但使用本文CP-Copula清洗算法得到的數(shù)據(jù)集建立的功率預(yù)測(cè)模型,RMSE和MAE比原始數(shù)據(jù)的對(duì)應(yīng)指標(biāo)減少最多,預(yù)測(cè)精度的改善效果要好于其他兩種清洗方法。各個(gè)功率預(yù)測(cè)模型的功率殘差結(jié)果如圖13(a)~(d)所示,可以看出圖13(a)的殘差波動(dòng)范圍是最小的,功率的殘差絕對(duì)值最大也沒(méi)有超過(guò)50kW。
表3 短期風(fēng)功率預(yù)測(cè)指標(biāo)
圖13 各個(gè)功率預(yù)測(cè)模型的功率殘差結(jié)果圖
風(fēng)功率曲線的異常數(shù)據(jù)會(huì)對(duì)風(fēng)電數(shù)據(jù)挖掘產(chǎn)生不利影響,本文在分類(lèi)風(fēng)電機(jī)組不同類(lèi)型異常數(shù)據(jù)的基礎(chǔ)上,提出了基于變點(diǎn)-Copula理論的組合模型,識(shí)別不同類(lèi)型的風(fēng)電機(jī)組異常數(shù)據(jù),結(jié)果表明剔除效果明顯,與傳統(tǒng)的識(shí)別模型相比,提高了準(zhǔn)確性且完整地保留了正常運(yùn)行數(shù)據(jù);又將其應(yīng)用在短期風(fēng)功率預(yù)測(cè)當(dāng)中,仿真結(jié)果表明預(yù)測(cè)精度改善明顯,為后續(xù)分析風(fēng)電機(jī)組真實(shí)的運(yùn)行狀態(tài)提供更為可靠和有效的支持。