封焯文, 朱世平, 趙志華, 孫銘仁, 董 密, 宋冬然
(1. 中國(guó)能源建設(shè)集團(tuán)湖南省電力設(shè)計(jì)院有限公司, 湖南 長(zhǎng)沙 410007; 2.中南大學(xué)自動(dòng)化學(xué)院, 湖南 長(zhǎng)沙 410083)
風(fēng)能利用是國(guó)家發(fā)展綠色經(jīng)濟(jì)的重要標(biāo)志,其發(fā)展受到世界各國(guó)的重視。風(fēng)電機(jī)組容量不斷增大,結(jié)構(gòu)愈加柔性化,依靠人力運(yùn)維的維護(hù)成本也越來(lái)越高?;跉v史數(shù)據(jù)對(duì)風(fēng)機(jī)運(yùn)行狀態(tài)進(jìn)行分析可提高分析效率,節(jié)省大量人力物力。例如,基于風(fēng)功率歷史數(shù)據(jù)可開(kāi)展風(fēng)電機(jī)組風(fēng)速預(yù)測(cè)和功率曲線(xiàn)建模等工作[1]。然而,受環(huán)境變化和機(jī)組故障等異常因素影響,風(fēng)電機(jī)組在實(shí)際運(yùn)行過(guò)程中經(jīng)常產(chǎn)生大量的異常功率數(shù)據(jù),給后續(xù)數(shù)據(jù)挖掘工作造成干擾。因此,需要對(duì)風(fēng)功率歷史數(shù)據(jù)中的異常數(shù)據(jù)進(jìn)行準(zhǔn)確識(shí)別和處理,進(jìn)而獲得有效數(shù)據(jù)集。
目前,異常值檢測(cè)主要有三種基本方法:①基于風(fēng)機(jī)運(yùn)行機(jī)理簡(jiǎn)單剔除;②基于突變點(diǎn)特征進(jìn)行異常檢測(cè),如密度、距離等;③基于概率模型建立邊界,剔除邊界外異常值,如設(shè)置閾值或建立風(fēng)功率曲線(xiàn)等效模型等。文獻(xiàn)[2]提出將Thompson-tau與四分位法相結(jié)合建立邊界的清洗方法,該方法清洗時(shí)間短,在數(shù)據(jù)樣本較多下有較好的效果。文獻(xiàn)[3]提出了用于識(shí)別異常數(shù)據(jù)的云分段最優(yōu)熵算法,通過(guò)比較每個(gè)數(shù)據(jù)的熵與閾值來(lái)判斷異常數(shù)據(jù)。異常數(shù)據(jù)點(diǎn)偏離正常數(shù)據(jù)集較遠(yuǎn)時(shí),導(dǎo)致數(shù)據(jù)集方差較大。文獻(xiàn)[4]提出最優(yōu)組內(nèi)方差算法,通過(guò)對(duì)比每個(gè)風(fēng)速區(qū)間內(nèi)數(shù)據(jù)點(diǎn)與前面數(shù)據(jù)點(diǎn)的方差來(lái)判斷異常點(diǎn)。然而,上述方法易受到偏離程度較大的點(diǎn)影響,難以去除正常數(shù)據(jù)集周?chē)漠惓?shù)據(jù)。文獻(xiàn)[5]提出基于密度的聚類(lèi)算法(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)進(jìn)行異常值檢測(cè),然而在異常數(shù)據(jù)聚集時(shí)識(shí)別效果不好。針對(duì)上述缺點(diǎn),文獻(xiàn)[6]提出將DBSCAN與四分位法結(jié)合,獲得了較好的檢測(cè)結(jié)果。文獻(xiàn)[7]采用基于密度的局部離群因子(Local Outlier Factor,LOF)算法,把具有足夠高密度的區(qū)域劃分為簇,實(shí)現(xiàn)了分散型異常數(shù)據(jù)的有效識(shí)別。文獻(xiàn)[8]提出基于DBSCAN和LOF的DLOF算法,該方法相比于上述兩種算法精度更高,但是所需時(shí)間更長(zhǎng),因此不適用于處理實(shí)時(shí)數(shù)據(jù)。文獻(xiàn)[9]在檢測(cè)異常數(shù)據(jù)時(shí)同時(shí)考慮風(fēng)向數(shù)據(jù)的正確性,將二維異常檢測(cè)擴(kuò)展至三維,通過(guò)更多的判定條件達(dá)到更好的檢測(cè)效果。文獻(xiàn)[10]采用四分位法與變點(diǎn)分組算法結(jié)合的方法,但清洗后數(shù)據(jù)存在明顯的階梯狀使功率曲線(xiàn)模型失真。在更改分組寬度后雖然會(huì)得到改善,但對(duì)于不同的機(jī)組清洗效果差別較大,泛用性低。文獻(xiàn)[11]提出一種新穎的異常檢測(cè)方法,該方法將風(fēng)速功率散點(diǎn)圖轉(zhuǎn)化為灰度圖像,通過(guò)判斷功率曲線(xiàn)的形狀來(lái)識(shí)別異常數(shù)據(jù)。文獻(xiàn)[12]結(jié)合風(fēng)機(jī)運(yùn)行過(guò)程與數(shù)據(jù)不確定性統(tǒng)計(jì),提出一種基于置信等效邊界模型的風(fēng)功率數(shù)據(jù)清洗方法,但需要針對(duì)不同數(shù)據(jù)集調(diào)整單一或混合模型。文獻(xiàn)[13]采用孤立森林(Isolated Forest,IF)算法,通過(guò)在二叉樹(shù)模型中分離單個(gè)數(shù)據(jù)所用的步數(shù)來(lái)計(jì)算該數(shù)據(jù)的異常評(píng)分,并結(jié)合等效邊界對(duì)異常數(shù)據(jù)進(jìn)行識(shí)別。雖然上述方法已經(jīng)較為成熟,但是目前對(duì)它們的清洗效果與優(yōu)缺點(diǎn)還缺少整體認(rèn)知。
因此,本文系統(tǒng)地對(duì)比研究了主流數(shù)據(jù)清洗方法,并得到了一些有益結(jié)論。本文其余部分安排如下:第2節(jié)詳述了異常數(shù)據(jù)產(chǎn)生原因,第3節(jié)介紹了四種數(shù)據(jù)清洗方法并給出了評(píng)價(jià)指標(biāo),第4節(jié)是方法應(yīng)用與實(shí)例分析,第5節(jié)給出了結(jié)論。
在運(yùn)行過(guò)程中,風(fēng)電機(jī)組受到多種不利因素的影響會(huì)采集到大量異常數(shù)據(jù)。根據(jù)文獻(xiàn)[10],異常數(shù)據(jù)可分為四類(lèi),如圖1所示。
圖1 異常數(shù)據(jù)分布情況Fig.1 Abnormal data distribution
針對(duì)這四類(lèi)異常數(shù)據(jù),各自的分布特征以及產(chǎn)生原因可表述如下。
(1)聚集分布在曲線(xiàn)底部的數(shù)據(jù)。曲線(xiàn)底部有大量功率為0或負(fù)值的點(diǎn),這些異常數(shù)據(jù)的可能原因是機(jī)組故障導(dǎo)致機(jī)組處于計(jì)劃或非計(jì)劃關(guān)閉狀態(tài)。采集到的功率值小于零的情況,這是由風(fēng)電機(jī)組此時(shí)處于停機(jī)狀態(tài),而機(jī)組測(cè)控系統(tǒng)自耗電所導(dǎo)致。
(2)零散或聚集分布在曲線(xiàn)中部的數(shù)據(jù)。此時(shí)風(fēng)電機(jī)組可以正常運(yùn)作,但由于電網(wǎng)消納能力不足、風(fēng)力發(fā)電不穩(wěn)定、建設(shè)工期不匹配等原因而出現(xiàn)棄風(fēng)限電,使得此時(shí)的輸出功率低于額定功率。
(3)零散分布在曲線(xiàn)四周的數(shù)據(jù)。功率曲線(xiàn)數(shù)據(jù)呈現(xiàn)零散或聚集性的隨機(jī)分布,源于信號(hào)噪聲、傳感器失靈等因素影響產(chǎn)生的分布隨機(jī)不固定偏差。
(4)零散或聚集分布在曲線(xiàn)的頂部的數(shù)據(jù)。由于機(jī)艙風(fēng)速傳感器或通訊故障,導(dǎo)致監(jiān)控系統(tǒng)采集的風(fēng)速測(cè)量數(shù)據(jù)異常。
基于風(fēng)機(jī)運(yùn)行機(jī)理簡(jiǎn)單剔除的方法通常與基于突變點(diǎn)特征進(jìn)行異常檢測(cè)或基于概率模型建立邊界剔除邊界外異常值的方法結(jié)合使用。因此,本文選擇基于突變點(diǎn)特征異常檢測(cè)的DBSCAN與LOF方法,以及基于概率模型建立邊界,剔除邊界外異常值的Thompson-tau四分位法與IF四種方法進(jìn)行對(duì)比研究??紤]正常數(shù)據(jù)集中于功率曲線(xiàn)周?chē)?,而異常?shù)據(jù)通常偏離功率曲線(xiàn),清洗后的數(shù)據(jù)與參考功率曲線(xiàn)之間的誤差,即清洗結(jié)果在功率曲線(xiàn)周?chē)募谐潭龋荛g接反映清洗效果。因此,本文采用基于標(biāo)準(zhǔn)功率曲線(xiàn)的評(píng)價(jià)指標(biāo),用于評(píng)價(jià)不同異常值檢測(cè)方法的優(yōu)劣。
3.1.1 DBSCAN
基于密度的聚類(lèi)算法(DBSCAN)通過(guò)判斷點(diǎn)P周?chē)霃綖閑ps內(nèi)點(diǎn)的個(gè)數(shù)是否小于某個(gè)值minpts,從而判斷點(diǎn)P是否為核心對(duì)象。
若集合中存在一點(diǎn)O同時(shí)在核心對(duì)象p和q的鄰域內(nèi),則核心對(duì)象p和q密度相連。DBSCAN的目的便是找到所有密度相連的數(shù)據(jù)點(diǎn),以此建立正常數(shù)據(jù)集[5,6]。
3.1.2 LOF
局部離群因子算法(LOF)將與點(diǎn)P第K遠(yuǎn)的點(diǎn)之間的距離定義為點(diǎn)P的第K距離記為Nk(P)。第K距離內(nèi)的所有點(diǎn)為點(diǎn)P的第K鄰域。定義點(diǎn)P的局部可達(dá)密度為:
(1)
式中,D(O,P)為P第K鄰域內(nèi)點(diǎn)O與P的距離。由式(1),得到所有點(diǎn)第K鄰域的局部可達(dá)密度,并據(jù)此計(jì)算點(diǎn)P的局部離群因子:
(2)
式中,lrdk(O)為點(diǎn)P第K鄰域內(nèi)某一點(diǎn)O的第K鄰域局部可達(dá)密度。若點(diǎn)P局部離群因子接近1則說(shuō)明點(diǎn)P與周?chē)c(diǎn)的密度接近,如果大于1點(diǎn)P周?chē)c(diǎn)的密度小于其他點(diǎn)即異常值。因此若LOFk(P)大于1,則點(diǎn)P為稀疏點(diǎn)即異常點(diǎn)[7]。
3.1.3 Thompson-tau四分位法
Thompson-tau四分位法將風(fēng)速分區(qū),分別計(jì)算每個(gè)區(qū)間的功率平均值Pi與標(biāo)準(zhǔn)差Si。由功率平均值Pi得到每個(gè)區(qū)間功率樣本數(shù)據(jù)偏差的絕對(duì)值δi,j=∣Pi,j-Pi∣。當(dāng)區(qū)間內(nèi)某個(gè)數(shù)據(jù)點(diǎn)偏差絕對(duì)值較大時(shí),表明該點(diǎn)在此區(qū)間內(nèi)過(guò)大或過(guò)小,由此判斷該點(diǎn)是否為異常點(diǎn)。Thompson-tau法中τ值的計(jì)算如下:
(3)
式中,t為功率樣本數(shù)據(jù)的t分布值;α為顯著性水平,其值影響功率數(shù)據(jù)的充裕度,通常取顯著水平α=0.01。
當(dāng)某一點(diǎn)δi,j>τSi時(shí),該點(diǎn)為異常數(shù)據(jù);反之,該點(diǎn)為正常數(shù)據(jù)。在第一步使用Thompson-tau判斷后,再結(jié)合四分位法進(jìn)行二次檢測(cè)。首先找到每個(gè)風(fēng)速區(qū)間內(nèi)功率數(shù)據(jù)的上四分位數(shù)Q3,i與下四分位數(shù)Q1,i,然后得到四分位距Ii=Q3,i-Q1,i。四分位法中四分位上限Wu,i與下限Wd,i計(jì)算公式為:
(4)
功率在四分位上下限之間的數(shù)據(jù)為最后的正常數(shù)據(jù)[2]。
3.1.4 孤立森林
孤立森林算法(IF)的主要思想是:給定n個(gè)樣本數(shù)據(jù)X={X1…Xn},特征維度為d,隨機(jī)選擇特征q和其分隔值p,遞歸分割數(shù)據(jù)集X來(lái)構(gòu)建孤立樹(shù),直到無(wú)法繼續(xù)分割或達(dá)到預(yù)設(shè)最大高度。
孤立樹(shù)中樣本點(diǎn)x的路徑長(zhǎng)度h(x)定義為從iTree的根節(jié)點(diǎn)到葉子節(jié)點(diǎn)所經(jīng)過(guò)的邊的數(shù)量。由n個(gè)樣本組成的數(shù)據(jù)集,生成模型樹(shù)的平均路徑長(zhǎng)度c(n)定義如式(5)所示,其中H(i)為調(diào)和數(shù),通常設(shè)置為ln(i)+ 0.577 215 664 9。
(5)
樹(shù)中每個(gè)樣本x的異常得分定義為:
(6)
當(dāng)E(h(x))接近0時(shí),s靠近1,即x的異常得分接近1時(shí)樣本x被判定為異常。當(dāng)E(h(x))接近n-1時(shí),s靠近0,樣本x被判定為正常[13]。
由圖1中異常數(shù)據(jù)分布可知,正常數(shù)據(jù)集中在功率曲線(xiàn)周?chē)?,異常值明顯偏離功率曲線(xiàn)。因此,通過(guò)比較不同方法清洗后的結(jié)果與廠(chǎng)家提供的標(biāo)準(zhǔn)功率曲線(xiàn)之間的誤差能夠判斷不同清洗方法的性能[14]。清洗后的數(shù)據(jù)在標(biāo)準(zhǔn)功率曲線(xiàn)周?chē)谐潭雀?,表明清洗效果好;反之,清洗效果差?/p>
針對(duì)標(biāo)準(zhǔn)功率曲線(xiàn)中0.5 m/s的區(qū)間(區(qū)間按照廠(chǎng)商提供的標(biāo)準(zhǔn)功率曲線(xiàn)上的數(shù)據(jù)點(diǎn)的風(fēng)速間隔來(lái)選擇)劃分清洗后的數(shù)據(jù)集,計(jì)算每個(gè)區(qū)間內(nèi)數(shù)據(jù)與標(biāo)準(zhǔn)功率曲線(xiàn)之間的離散程度:
(7)
(8)
式中,AADi與RMSEi分別為第i個(gè)風(fēng)速區(qū)間的平均絕對(duì)誤差和均方根誤差;Ni為第i區(qū)間內(nèi)數(shù)據(jù)量;Pi為第i區(qū)間標(biāo)準(zhǔn)功率曲線(xiàn)的值;Pi,j為第i區(qū)間內(nèi)第j個(gè)功率數(shù)據(jù)。
本節(jié)選擇3個(gè)風(fēng)場(chǎng)實(shí)際風(fēng)電機(jī)組運(yùn)行數(shù)據(jù)進(jìn)行方法應(yīng)用,并基于所提出的評(píng)價(jià)指標(biāo)對(duì)不同異常值檢測(cè)方法進(jìn)行性能對(duì)比。具體為:扶余三井子風(fēng)場(chǎng)#2機(jī)組,青徑云霄風(fēng)場(chǎng)#11機(jī)組與祥云天峰山風(fēng)場(chǎng)#5機(jī)組,采樣間隔均為10 min。本次實(shí)驗(yàn)軟件平臺(tái)為Matlab2020a,硬件平臺(tái)為CPU:AMD 4800U 主頻1.8 GHz,內(nèi)存16 G。
不同清洗方法效果可能受數(shù)據(jù)樣本量的影響。當(dāng)樣本量過(guò)少時(shí),數(shù)據(jù)無(wú)法體現(xiàn)風(fēng)電機(jī)組的風(fēng)速-功率分布特性[15];反之,清洗時(shí)間長(zhǎng)且清洗效果不會(huì)有明顯提升。在參考其他風(fēng)功率數(shù)據(jù)清洗的文獻(xiàn)后,本文研究選擇了半年的數(shù)據(jù)樣本。3個(gè)風(fēng)場(chǎng)不同風(fēng)電機(jī)組歷史數(shù)據(jù)原始散點(diǎn)如圖2(a)~圖2(c)所示,其中灰色數(shù)據(jù)點(diǎn)為原始數(shù)據(jù)散點(diǎn)圖,曲線(xiàn)為廠(chǎng)家提供的標(biāo)準(zhǔn)功率曲線(xiàn)。從圖2可見(jiàn),三臺(tái)機(jī)組異常數(shù)據(jù)分布差異明顯。
圖2 原始數(shù)據(jù)散點(diǎn)圖Fig.2 Scatter plot of raw data
根據(jù)經(jīng)驗(yàn)與現(xiàn)有文獻(xiàn)[2,5,6,7,13],將四種方法的參數(shù)限定在一定范圍內(nèi),然后在范圍內(nèi)多次實(shí)驗(yàn)得到每種方法的最優(yōu)參數(shù)。四種方法的參數(shù)分別設(shè)置為:Thompson-tau四分位法風(fēng)速區(qū)間長(zhǎng)度取0.1 m/s[2]。DBSCAN中兩次四分位法區(qū)間間隔分別取0.1 m/s和1.25%額定功率,minpts設(shè)置為5,eps設(shè)置為2.5%額定功率[5]。LOF中第K距離選擇10,LOF閾值選擇1.5。IF異常數(shù)據(jù)量設(shè)定為20%,樹(shù)的數(shù)量為100,樹(shù)枝為256。
清洗結(jié)果分別如圖3~圖5所示。其中,淺灰色點(diǎn)為原始數(shù)據(jù)集,灰色點(diǎn)為剔除異常數(shù)據(jù)后的正常數(shù)據(jù)集。不同清洗方法之間的效果差異明顯。
圖3 三井子#2機(jī)組清洗結(jié)果Fig.3 Cleaning results of #2 plant in Sanjingzi wind farm
圖4 云霄風(fēng)場(chǎng)#11機(jī)組清洗結(jié)果Fig.4 Cleaning results of #11 plant in Yunxiao wind farm
圖5 天峰山#5機(jī)組清洗結(jié)果Fig.5 Cleaning results of #5 plant in Tianfengshan wind farm
從圖3和圖5可見(jiàn),三井子#2機(jī)組和天峰山#5機(jī)組異常數(shù)據(jù)分布廣,同一風(fēng)速區(qū)間下有多個(gè)異常數(shù)據(jù)與正常數(shù)據(jù)偏差較大,并且有很多聚集的異常數(shù)據(jù),Thompson-tau四分位法(后文簡(jiǎn)稱(chēng)T-四分位法)、DBSCAN和LOF無(wú)法完全準(zhǔn)確識(shí)別這些異常數(shù)據(jù)。T-四分位法需要計(jì)算一段風(fēng)速區(qū)間內(nèi)功率的上下邊界,當(dāng)區(qū)間內(nèi)有多個(gè)異常數(shù)據(jù)與正常數(shù)據(jù)相差較大時(shí),下四分位數(shù)變小,上四分位數(shù)變大,相同顯著性水平下數(shù)據(jù)區(qū)間變大。因此,功率的邊界范圍被拉大,導(dǎo)致部分異常數(shù)據(jù)落入邊界內(nèi)而被誤識(shí)別為正常數(shù)據(jù)。LOF與DBSCAN都通過(guò)判斷數(shù)據(jù)周?chē)拿芏葋?lái)區(qū)分異常數(shù)據(jù)和正常數(shù)據(jù),其中LOF計(jì)算局部離群因子時(shí)不但要計(jì)算自身的密度,還要計(jì)算周?chē)鷶?shù)據(jù)點(diǎn)的密度,因此若一個(gè)區(qū)域內(nèi)異常數(shù)據(jù)與正常數(shù)據(jù)密度的差距不明顯就會(huì)有大量異常數(shù)據(jù)誤識(shí)別為正常數(shù)據(jù)或大量正常數(shù)據(jù)被誤刪除,所以這兩種算法更適合處理異常數(shù)據(jù)分布稀疏的情況(見(jiàn)圖4)。而當(dāng)異常數(shù)據(jù)在一定區(qū)域內(nèi)分布密集時(shí),這兩種方法無(wú)法區(qū)分異常數(shù)據(jù)和正常數(shù)據(jù)的密度差別。IF在二叉樹(shù)中對(duì)原數(shù)據(jù)集進(jìn)行多次劃分將所有數(shù)據(jù)分離,偏離較遠(yuǎn)的數(shù)據(jù)在樹(shù)中的孤立程度十分明顯。但是從圖4可見(jiàn),邊緣的正常數(shù)據(jù)也容易被孤立而出現(xiàn)誤刪除。
不同清洗方法的數(shù)據(jù)刪除率和清洗時(shí)間如表1~表3所示。其中數(shù)據(jù)刪除率D%為:
表1 三井子風(fēng)場(chǎng)#2機(jī)組數(shù)據(jù)清洗結(jié)果Tab.1 Cleaning results of #2 plant in Sanjingzi wind farm
表2 云霄風(fēng)場(chǎng)#11機(jī)組數(shù)據(jù)清洗結(jié)果Tab.2 Cleaning results of #11 plant in Yunxiao wind farm
表3 天峰山風(fēng)場(chǎng)#5機(jī)組數(shù)據(jù)清洗結(jié)果Tab.3 Cleaning results of #5 plant in Tianfengshan wind farm
(9)
式中,S0為原數(shù)據(jù)集的數(shù)據(jù)量;S1為使用數(shù)據(jù)清洗方法剔除異常數(shù)據(jù)后剩余數(shù)據(jù)集的數(shù)據(jù)量。
根據(jù)表1~表3可知,IF的數(shù)據(jù)刪除率最低,對(duì)原數(shù)據(jù)集完整性的破壞最小。T-四分位法的清洗時(shí)間最短。雖然DBSCAN和LOF都是基于密度的方法,但DBSCAN的時(shí)間復(fù)雜度通常小于O(N2),LOF的時(shí)間復(fù)雜度為O(N3)。因此,LOF的清洗時(shí)間遠(yuǎn)大于DBSCAN。
四種方法具有不同的數(shù)據(jù)刪除率。對(duì)于三井子風(fēng)場(chǎng)#2機(jī)組與天峰山風(fēng)場(chǎng)#5機(jī)組,DBSCAN與LOF的數(shù)據(jù)刪除率較高,分別在46%與40%左右。這兩種方法的數(shù)據(jù)刪除率明顯高于T-四分位法與IF,原因在于這兩臺(tái)機(jī)組的異常數(shù)據(jù)分布范圍廣,且密度較大。由前文分析可知,DBSCAN與LOF對(duì)這類(lèi)異常數(shù)據(jù)分布情況的清洗效果較差;為了獲得更好的異常數(shù)據(jù)清洗效果,只能將閾值的范圍設(shè)置得更小,進(jìn)而導(dǎo)致了更多正常數(shù)據(jù)被誤刪除。在云霄風(fēng)場(chǎng)#11機(jī)組上,LOF的數(shù)據(jù)刪除率遠(yuǎn)高于其他三種方法,主要原因是該機(jī)組異常數(shù)據(jù)分布更稀疏。根據(jù)前文分析,LOF在計(jì)算局部離群因子時(shí)更易受到數(shù)據(jù)疏密程度的影響;要獲得和DBSCAN相近的清洗效果,閾值的設(shè)定要比DBSCAN更嚴(yán)格,這就導(dǎo)致了LOF的數(shù)據(jù)刪除率更大。為進(jìn)一步分析四種方法的清洗效果,4.3節(jié)對(duì)比分析了不同方法下的檢測(cè)精度。
檢測(cè)并剔除異常數(shù)據(jù)后,分別計(jì)算不同方法清洗結(jié)果與標(biāo)準(zhǔn)功率曲線(xiàn)之間的離散程度,以此評(píng)價(jià)不同方法清洗性能?;谑?7)和式(8),得到計(jì)算結(jié)果如表4~表6所示。
表4 三井子風(fēng)場(chǎng)#2機(jī)組清洗結(jié)果與標(biāo)準(zhǔn)功率曲線(xiàn)的誤差Tab.4 Error between cleaning result and ideal power curve of #2 plant in Sanjingzi wind farm
表5 云霄風(fēng)場(chǎng)#11機(jī)組清洗結(jié)果與標(biāo)準(zhǔn)功率曲線(xiàn)的誤差Tab.5 Error between cleaning result and ideal power curve of #11 plant in Yunxiao wind farm
表6 天峰山風(fēng)場(chǎng)#5機(jī)組清洗結(jié)果與標(biāo)準(zhǔn)功率曲線(xiàn)的誤差Tab.6 Error between cleaning result and ideal power curve of #5 plant in Tianfengshan wind farm
由表4~表6能夠明顯看出,由IF得到的三臺(tái)機(jī)組的清洗結(jié)果與標(biāo)準(zhǔn)功率曲線(xiàn)的誤差也是最小的,即異常數(shù)據(jù)清洗更徹底。LOF和T-四分位法的誤差明顯高于另外兩種方法。
綜合來(lái)看,IF雖然誤刪除了部分邊緣的正常數(shù)據(jù),但在四種方法中數(shù)據(jù)刪除率最低,對(duì)機(jī)組數(shù)據(jù)完整性的破壞最小,清洗后的結(jié)果與標(biāo)準(zhǔn)功率曲線(xiàn)之間誤差最小,在標(biāo)準(zhǔn)功率曲線(xiàn)附近最集中,并且對(duì)不同機(jī)組通用性高;T-四分位法更適用于對(duì)時(shí)間敏感的情況;DBSCAN與LOF在異常數(shù)據(jù)分布稀疏時(shí)有更好的效果。
本文基于實(shí)際機(jī)組運(yùn)行數(shù)據(jù)對(duì)現(xiàn)有的四種方法開(kāi)展了對(duì)比研究,并得出各自?xún)?yōu)缺點(diǎn):
(1)IF算法具有最好的清洗效果,其次是DBSCAN;Thompson-tau四分位法程序運(yùn)行時(shí)間最短;LOF檢測(cè)效果最差。
(2)DBSCAN與LOF等基于突變點(diǎn)特征檢測(cè)的方法受到異常數(shù)據(jù)分布情況影響較為嚴(yán)重,這兩種適用于異常數(shù)據(jù)分布稀疏的情況。
(3)IF與Thompson-tau四分位法等基于建立等效邊界的方法會(huì)受到邊界數(shù)據(jù)的影響。Thompson-tau四分位法容易受到偏離程度大的異常數(shù)據(jù)影響,從而使閾值被拉大,導(dǎo)致部分異常數(shù)據(jù)落入閾值中,適用于對(duì)時(shí)間敏感或異常數(shù)據(jù)距功率曲線(xiàn)較近的情況。IF對(duì)密集的異常數(shù)據(jù)具有良好的分離效果,并且對(duì)于不同機(jī)組的通用性高,但易將邊緣的正常數(shù)據(jù)誤刪除,適用于大多數(shù)異常數(shù)據(jù)清洗的場(chǎng)合。