摘 要:為有效進行光伏陣列的性能監(jiān)控和功率預(yù)測等重要工作,如何提升光伏數(shù)據(jù)的質(zhì)量便成為當(dāng)下亟待解決的問題。提出一種基于兩步Pair-Copula的光伏陣列異常數(shù)據(jù)識別方法。該方法分為兩個步驟,第一步是對光伏陣列直流側(cè)電流進行異常值識別;第二步以第一步為基礎(chǔ),對光伏直流側(cè)電壓進行異常值識別。具體而言,首先基于Pair-Copula對光伏電流、太陽輻照度和溫度之間的相依結(jié)構(gòu)進行建模,并采用赤池信息準(zhǔn)則優(yōu)化Copula函數(shù)。然后建立光伏電流的條件概率模型,并求解出條件概率置信區(qū)間。再以光伏電流的置信區(qū)間為主要判據(jù),進行電流異常值的識別和剔除。最后,基于上一步得到的數(shù)據(jù),重復(fù)上述步驟,對光伏電壓值進行異常值的剔除。通過仿真實驗結(jié)果看出,與其他異常識別方法相比,該文提出的方法在保持低識別錯誤率的同時,具有更高的識別準(zhǔn)確率。
關(guān)鍵詞:光伏陣列;異常辨識;相關(guān)性理論;Pair-Copula理論;置信區(qū)間
中圖分類號:TK51 " " "文獻標(biāo)志碼:A
0 引 言
近年來,全球環(huán)境污染日益嚴(yán)重,能源轉(zhuǎn)型的需求推動了光伏發(fā)電技術(shù)的研究和應(yīng)用,光伏技術(shù)取得顯著進步[1-2]。然而,由于光伏陣列運行過程中非常易受到各種隨機因素的影響,光伏輸出數(shù)據(jù)存在大量異常值,導(dǎo)致對光伏數(shù)據(jù)的分析造成較大阻礙[3-4]。高質(zhì)量的光伏數(shù)據(jù)是對光伏陣列進行性能監(jiān)測等工作的基礎(chǔ),對確保系統(tǒng)正常運行和維持電網(wǎng)穩(wěn)定有重要作用,因此,識別光伏數(shù)據(jù)中的異常值具有十分重要的意義[5-6]。
導(dǎo)致光伏異常數(shù)據(jù)的原因眾多,如通信故障、設(shè)備異常、人為限電等[7-8],目前常見的辨識光伏異常數(shù)據(jù)的方法主要包括概率統(tǒng)計方法和機器學(xué)習(xí)方法兩大類。對于概率統(tǒng)計方法,通常假設(shè)數(shù)據(jù)服從特定的分布,然后根據(jù)均值和標(biāo)準(zhǔn)差來識別異常的數(shù)據(jù),或利用分位數(shù)法,遠離分位數(shù)范圍被識別為異常。文獻[9]采用中心極限定理,假設(shè)光伏功率數(shù)據(jù)服從正態(tài)分布,并利用3σ法進行異常值檢測,然而,光伏數(shù)據(jù)的分布受到天氣等隨機因素的影響,不同天氣條件下,光伏數(shù)據(jù)的分布可能發(fā)生變化,因此這種方法的異常值識別效果受到一定局限;文獻[10]提出一種基于滑動標(biāo)準(zhǔn)差的方法來清理光伏陣列運行數(shù)據(jù)中的異常數(shù)據(jù),它將滑動標(biāo)準(zhǔn)差曲線的上翹作為異常數(shù)據(jù)的標(biāo)志,但在處理大規(guī)模光伏陣列數(shù)據(jù)時,算法的效率可能成為一個重要問題,因為計算滑動標(biāo)準(zhǔn)差可能會消耗大量計算資源。
對于人工智能方法,主要通過距離、密度、孤立程度等量化指標(biāo)刻畫樣本疏離程度,進而實現(xiàn)異常識別。文獻[11]使用局部離群因子算法,結(jié)合經(jīng)驗聚類,成功去除了風(fēng)數(shù)據(jù)庫中的離群值,但該方法性能可能受到數(shù)據(jù)分布的影響,導(dǎo)致對于不同類型的離群值識別不夠穩(wěn)定;文獻[12]提出一種基于圖像的算法,利用聚類方法映射風(fēng)力發(fā)電機的正常數(shù)據(jù)和離群值,但該方法可能受到光照和影像質(zhì)量的影響,對于不同風(fēng)力發(fā)電機型號和環(huán)境條件的適應(yīng)性有限;文獻[13]介紹了孤立森林異常識別模型,其顯著特點包括線性時間復(fù)雜度和對全局稀疏點的高效感知,然而該模型在處理局部相對稀疏性異常點時表現(xiàn)不佳,可能導(dǎo)致高錯誤率,這是因為孤立森林主要依賴全局特征,未充分考慮局部特征。
上述文獻中,人工智能方法通常在特定的光伏陣列上表現(xiàn)良好,通用性較差;概率統(tǒng)計方法在面對高維數(shù)據(jù)時,尤其是在需要考慮多變量關(guān)系時,可能會面臨計算復(fù)雜性的問題[14]。Copula理論提供了一種能較為準(zhǔn)確刻畫隨機變量間相依關(guān)系的方法,不依賴于特定數(shù)據(jù)分布的假設(shè),能夠捕捉多變量數(shù)據(jù)之間的復(fù)雜關(guān)系。文獻[15]提出一種基于光照過程的光伏異常數(shù)據(jù)識別算法,利用Copula聯(lián)合分布函數(shù)構(gòu)建太陽輻照度與功率之間的概率分布關(guān)系,以功率置信區(qū)間為依據(jù)識別異常值,但未考慮到溫度的影響;文獻[16]利用Copula建立了風(fēng)機功率-風(fēng)速條件概率模型,計算給定風(fēng)速及置信度下的置信區(qū)間,根據(jù)置信區(qū)間來識別異常值。然而,上述文獻未考慮到太陽輻照度和溫度對光伏輸出數(shù)據(jù)的綜合影響,光伏功率與太陽輻照度、溫度等因素之間具有較強相關(guān)性。此外,Copula函數(shù)的類型多樣,若使用單一類型Copula函數(shù)刻畫高維變量之間的相依結(jié)構(gòu),將具有較差的靈活性和精度[17]。因此,為進一步提高識別精度,本文在現(xiàn)有方法基礎(chǔ)上做出改進,將太陽輻照度和溫度兩個影響因素作為特征,將二元變量相依結(jié)構(gòu)建模擴展到三元變量相依結(jié)構(gòu)建模,在建模方法上選取靈活性和精度更高的Pair-Copula方法。另一方面,本文的異常數(shù)據(jù)辨識對象是分布式光伏陣列,相比于傳統(tǒng)的集中式光伏電站只對功率數(shù)據(jù)進行辨識,分布式光伏陣列對直流側(cè)的電壓和電流進行辨識,更加精細化,本文在此基礎(chǔ)上分別推導(dǎo)出光伏電流和電壓置信區(qū)間計算公式,并驗證所提方法的有效性。
1 光伏異常數(shù)據(jù)分析及特征選取
1.1 異常數(shù)據(jù)分析
光伏異常運行狀態(tài)與正常運行狀態(tài)相比,光伏陣列最大功率點功率、電壓、電流會產(chǎn)生明顯變化。使光伏陣列產(chǎn)生異常的原因有很多,常見的原因有:高電位接地故障、短路故障、斷路故障、部分陰影遮擋、積灰或老化等[18],分別對應(yīng)5種異常運行狀態(tài)。表1為5種光伏異常運行狀態(tài)下電流、電壓、功率的時序故障特征。由表1可看出,光伏異常運行狀態(tài)導(dǎo)致的異常值主要體現(xiàn)在電流和電壓的下降,并且同一異常狀態(tài)下,電流和電壓出現(xiàn)的異常特征是不同的,因此,本文的光伏異常數(shù)據(jù)辨識方法將光伏輸出電流和光伏輸出電壓作為辨識對象,分成兩步分別對電壓和電流進行辨識。
除光伏異常狀態(tài)導(dǎo)致的電壓和電流下降外,還有1部分異常點高于正常值,根據(jù)光伏數(shù)據(jù)異常特點,可將異常類型分為4種。異常類型1的特點為連續(xù)一段時間高于正常范圍,這類故障通常是由通信設(shè)備或傳感器故障等引起的;異常類型2的特點為連續(xù)一段時間低于正常范圍,其產(chǎn)生的主要原因有光伏限電、異常狀態(tài)、通信或傳感器設(shè)備故障;異常類型3的特點為太陽輻照度足夠大但光伏輸出電壓或電流為0,其產(chǎn)生的主要原因為逆變器故障、通信設(shè)備或傳感器故障、發(fā)電機組關(guān)閉等;異常類型4的特點為正常范圍附近的離群值,這類數(shù)據(jù)由通信設(shè)備或傳感器信號傳播的噪聲、外部輸入的隨機波動和最大功率點跟蹤的不準(zhǔn)確性引起。
1.2 特征選取
環(huán)境因素對光伏陣列的出力特性影響非常大,尤其是太陽輻照度與溫度。光伏輸出功率幾乎與太陽輻照度成正比,與溫度成反比,由于濕度與溫度的相關(guān)性較大,所以可忽略濕度的影響。如果數(shù)據(jù)清洗方法只考慮一類環(huán)境因子與輸出分布的關(guān)系,很難識別出所有不同類型的異常值。同時,溫度對光伏輸出電流和電壓的影響也是不同的,隨著光伏組件溫度升高,光伏組件的開路電壓減小,光伏的輸出電流幾乎無變化[19],因此,有必要分別對光伏電壓和電流進行數(shù)據(jù)清洗。
表2為太陽輻照度、溫度與電壓、電流之間的斯皮爾曼秩相關(guān)系數(shù)??煽闯觯瑴囟群吞栞椪斩扰c電流和電壓之間均具有較高相關(guān)性。為此,本文提出一種基于光伏陣列輸出分布特性的離群點清洗方法。該方法使用Pair-Copula算法分兩步來清除異常值,為了簡便,下文將電壓和電流統(tǒng)稱為目標(biāo)變量,下一節(jié)將詳細介紹所提出的算法。
2 算法核心原理
Pair-Copula能基于單變量的邊際分布,捕捉復(fù)雜的非線性多變量參數(shù)之間的關(guān)系,通過使用Pair-Copula函數(shù),可計算出目標(biāo)變量在溫度、太陽輻照度條件下的置信區(qū)間,偏離置信區(qū)間的值被識別為異常值剔除。建立Pair-Copula模型總體上分成兩步:首先,確定好各個變量的邊緣分布;其次確定藤結(jié)構(gòu)和每個節(jié)點之間的最優(yōu)Copula函數(shù)。下面從這兩個方面對算法原理進行介紹。
2.1 非參數(shù)核密度估計
建立邊緣分布是統(tǒng)計分析和建模中的重要步驟,通常用于處理單個隨機變量的分布。以下是建立邊緣分布的幾種常見方法:參數(shù)估計法、非參數(shù)法、分布擬合法、經(jīng)驗分布函數(shù)法等[20]。光伏電流、電壓、太陽輻照度和溫度通常是連續(xù)變量,并且它們的分布可能不是明確的分布類型,因此本文利用非參數(shù)核密度估計法(kernel density estimation, KDE)建立邊緣分布,基于數(shù)據(jù)本身來估計概率密度,而不需要預(yù)先假設(shè)分布類型,非參數(shù)核密度估計公式如下:
[F(x)=1Nn=1NGx-Xnh] (1)
[G(x)=-∞xK(t)dt] (2)
[K(x)=12πexp-x22] (3)
式中:[F(x)]——隨機變量[x]的邊緣分布估計值;[N]——樣本總數(shù);[Xn]——隨機變量[x]的第[n]個樣本值;[K(x)]——高斯核函數(shù)。
2.2 Copula理論
2.2.1 Sklar定理
Copula可簡單描述為“將多元分布函數(shù)連接或耦合到其一維邊緣分布函數(shù)的函數(shù)”。該描述主要由Sklar定理指出,設(shè)[F]是一個具有連續(xù)邊際分布的[d]維分布函數(shù),那么存在一個唯一的Copula函數(shù)[C],使得對于所有的[x=][(x1,…,xd)][∈(??{-∞,+∞})d]:
[Fx=CF1(x1),F(xiàn)2(x2),…Fd(xd)] (4)
其聯(lián)合概率密度函數(shù)可表示為:
[fx=cF(x1),…,F(xiàn)(xd)?f(x1)…f(xd)] (5)
式中:[F(x)]——單變量邊緣分布函數(shù);[C?]——Copula函數(shù);[c?]——Copula密度函數(shù);[f(x)]——單變量概率密度函數(shù)。
2.2.2 Copula函數(shù)類型
橢圓函數(shù)族(Ellipse-Copula)和阿基米德函數(shù)族(Archimedean-Copula)是兩種常見的Copula函數(shù)類型。
用于描述對稱尾部特征的一類Copula函數(shù)統(tǒng)稱為橢圓函數(shù)族(Ellipse-Copula),包括正態(tài)Copula函數(shù)和t-Copula函數(shù);用于描述不對稱或漸進獨立尾部特征的一類Copula函數(shù)統(tǒng)稱為阿基米德函數(shù)族(Archimedean-Copula),包括Gumbel-Copula函數(shù)、Clayton-Copula函數(shù)和Frank-Copula函數(shù)。
Gaussian、Clayton和Gumbel Copula都只有一個參數(shù),而t-Copula有兩個參數(shù),后者的額外參數(shù)用來控制雙變量分布尾部的依賴強度;Clayton Copula在負尾比正尾表現(xiàn)出更大的相關(guān)性;Gumbel Copula也是一個非對稱Copula,但它在正尾比在負尾表現(xiàn)出更大的依賴性。由此可見,不同的Copula函數(shù)適合處理的變量類型不同,因此,需要針對不同變量之間的相關(guān)特點,選擇其最合適的Copula函數(shù),Copula函數(shù)具體形式見文獻[21]。
2.3 規(guī)則藤結(jié)構(gòu)
面對高維變量復(fù)雜的尾部相關(guān)性,Pair-Copula理論提出一種規(guī)則藤(Regular-Vines)的結(jié)構(gòu),將多元聯(lián)合概率密度函數(shù)分解為多個二元Copula密度函數(shù)級聯(lián)的形式,這樣就可以將一個多維變量問題分解成若干個雙變量問題來解決,從而解決了使用單一Copula函數(shù)描述多維變量導(dǎo)致的不準(zhǔn)確問題,使得Pair-Copula在捕捉各種類型的依賴關(guān)系時更有效[22]。
規(guī)則藤結(jié)構(gòu)是一種樹狀結(jié)構(gòu),通常包含多個層級。每個層級上都有一個樹,而且每個樹枝都包含兩個節(jié)點,每個樹枝代表一個Copula函數(shù),每個樹枝上的兩個節(jié)點代表兩個變量。因此,Regular-Vines可用來建模多個變量之間的復(fù)雜依賴關(guān)系,每個樹枝可選擇不同的Copula函數(shù)來適應(yīng)不同的依賴模式。圖1展示了C-vine和D-vine兩種常用的藤結(jié)構(gòu)。
D-vine的構(gòu)建方式更加靈活,依賴關(guān)系不遵循特定順序時;C-vine適用于具有明確依賴結(jié)構(gòu)的情況,本文目標(biāo)變量和輻照度以及溫度之間有明確的依賴關(guān)系,所以采用C-vine結(jié)構(gòu)。
對于一個表示[n]維變量聯(lián)合概率的規(guī)則藤[V={T1,…,Tn-1}]的定義為[23]:
1)[T1={N1,E1}]為第一棵樹,[N1={1,…,n}]為第一棵樹的節(jié)點,[E1]為第一棵樹的邊集合;
2)對于[i=2,…,n-1],[Ni=Ei-1]為第[i]棵樹[Ti]的節(jié)點;
3)如果在[Ei]中有一條連接節(jié)點[a]和[b]的邊,那么[a]和[b]必須在[Ti-1]中共享一個共同的節(jié)點([a]和[b]是樹[Ti-1]中的邊),該性質(zhì)通常被稱為“鄰近條件”,因為它表明只有當(dāng)樹[Ti-1]中的兩條邊相鄰(即共享一個公共節(jié)點)時,[Ti]中的對應(yīng)的兩個節(jié)點才是相鄰的。
4)如果[T1]中每個節(jié)點相連的邊的數(shù)量都不超過2,那么該Regular-Vines為D-vine;如果對于每個樹[Ti(i=i,…,n-1)],都有一個唯一的節(jié)點連接的邊的數(shù)量為[n-i],即根節(jié)點,那么該Regular-Vines結(jié)構(gòu)為C-vine;
5)特別地,在針對光伏功率異常辨識問題進行建模時,由于除光伏功率外其他變量均作為條件變量,因此需要確保在所有生成樹中,與光伏功率相關(guān)的節(jié)點只能與一條邊相關(guān)聯(lián),這是為了維護建立樹結(jié)構(gòu)的條件獨立性,以便有效地捕獲光伏功率與其他條件變量之間的關(guān)系。
在滿足上述的規(guī)則藤條件后,[d]維變量的聯(lián)合概率密度函數(shù)可表示為[24]:
[fx=n=1dfnxn× " " " " " " i=1d-1e∈Eicj(e),k(e)∣D(e)Fxj(e)|xD(e),F(xiàn)xk(e)|xD(e)] (6)
式中:[Ei]——第[i]棵生成樹所有的邊集合;[j,k|D]——第[i]棵樹的邊,由[j,k]兩個節(jié)點確定,[D]——第[i]棵樹所有節(jié)點的集合;[cj(e),k(e)∣D(e)]——第[e]條邊所對應(yīng)的二元Copula密度函數(shù)。式中的條件分布函數(shù)[Fx|x]可表示為[25]:
[F(xj|xD?k)=?Cj,k|D(F(xj|xD),F(xiàn)(xk|xD))?F(xk|xD)] (7)
為了簡便,引入如下函數(shù):
[hj,k|D(F(xj|xD),F(xiàn)(xk|xD))=?Cj,k|D(F(xj|xD),F(xiàn)(xk|xD))?F(xk|xD)] (8)
因此,式(7)可簡寫為:
[F(xj|xD?k)=hj,k|D(F(xj|xD),F(xiàn)(xk|xD))] (9)
2.4 Pair-Copula模型優(yōu)化
Pair-Copula模型的靈活性體現(xiàn)在兩個方面,一是有多種規(guī)則藤結(jié)構(gòu)可選擇,二是對于規(guī)則藤的每條邊,有多種Copula函數(shù)可以選擇。本文從以上兩個方面對Copula模型進行優(yōu)化。
2.4.1 優(yōu)化Copula函數(shù)
首先,基于樣本擬合得到所有類型 Copula 函數(shù)的參數(shù)。已知[x,y]為一對隨機變量,其樣本集分別為[x=(x1,…xi,…xN),][y=(y1,…yi,…yN)],采用最大似然法進行參數(shù)估計:
[θ=maxθi=1NlnFxxi,F(xiàn)yyi∣θ] (10)
式中:[θ]——Copula函數(shù)參數(shù)集合;[N]——樣本總數(shù)。
然后,借助赤池信息準(zhǔn)則(Akaike information criterion, AIC)篩選Copula函數(shù)。赤池信息準(zhǔn)則是檢驗統(tǒng)計模型擬合優(yōu)良性的一種標(biāo)準(zhǔn),計算公式中除包含用于評價擬合優(yōu)良性的似然函數(shù)外,還考慮了模型復(fù)雜度的影響,有助于平衡模型復(fù)雜度與擬合優(yōu)度之間的關(guān)系,避免出現(xiàn)過擬合問題。文獻[26]指出該方法相比其他評價方法更適合用于Copula函數(shù)的選型?;趨?shù)估計結(jié)果,利用式計算每種Copula函數(shù)對應(yīng)的AIC評價指標(biāo)。
[fAlC=-2i=1NlnFxxi,F(xiàn)yyi∣θ+2k] (11)
式中:[k]——Copula函數(shù)所包含的參數(shù)數(shù)量。將AIC評價指標(biāo)最小的Copula函數(shù)作為優(yōu)化結(jié)果。
2.4.2 優(yōu)化藤結(jié)構(gòu)
在藤結(jié)構(gòu)中,規(guī)則藤中各個節(jié)點之間的相依性越強,其所刻畫的高維變量相依結(jié)構(gòu)就越準(zhǔn)確,且第一棵生成樹的相依性強弱對于模型精度的影響最大。對此,本文借助肯德爾相關(guān)系數(shù)量化這種相依性大小,并采用順序方法(sequential method)對藤結(jié)構(gòu)進行優(yōu)化,表3展示了具體的優(yōu)化步驟。
3 異常數(shù)據(jù)辨識
3.1 方法設(shè)計
太陽輻照度、溫度與目標(biāo)變量是具有相關(guān)性的隨機變量,計算這4個變量的邊緣分布,利用Pair-Copula函數(shù)表述太陽輻照度、溫度與目標(biāo)變量之間的相關(guān)性,在給定太陽輻照度、溫度和置信度下,得到目標(biāo)變量的條件概率分布對應(yīng)的上下分位數(shù)取值,最終由各個太陽輻照度、溫度對應(yīng)的目標(biāo)變量的上下分位點形成置信區(qū)間,置信區(qū)間描述了太陽輻照度、溫度和目標(biāo)變量之間的概率分布情況。認(rèn)為置信區(qū)間以內(nèi)的數(shù)據(jù)點是在該置信度下符合正常規(guī)律的數(shù)據(jù)點,能更貼近于光伏電站的真實發(fā)電性能。
總體方法設(shè)計如下:
1)選取原始數(shù)據(jù)。包括太陽輻照度、環(huán)境溫度、光伏陣列輸出電流、電壓;
2)數(shù)據(jù)預(yù)處理。將上述4組數(shù)據(jù)按照時間序列對齊,并填補缺失值,刪除電壓和電流為0的數(shù)據(jù)以避免零點數(shù)據(jù)累加造成的影響。
3)清洗電流數(shù)據(jù)。首先計算電流、溫度和太陽輻照度的邊緣分布,再根據(jù)邊緣分布選擇合適的藤結(jié)構(gòu),然后為每條邊選擇最優(yōu)的Copula函數(shù),再推導(dǎo)出電流的條件概率分布函數(shù),最后設(shè)置合適的置信水平,求出電流的置信區(qū)間,并清除置信區(qū)間以外的數(shù)據(jù);
4)清洗電壓數(shù)據(jù)。在上一步清除數(shù)據(jù)后,重新計算電壓、溫度和太陽輻照度的邊緣分布,重復(fù)上述步驟,求出電壓的置信區(qū)間,清除電壓置信區(qū)間以外的數(shù)據(jù)??傮w流程如圖2所示。
3.2 具體實施步驟
3.2.1 計算變量邊緣分布
如式(12)所示,樣本集[S]是一個[N×4]大小的矩陣,其中[N]表示樣本容量大小,4為特征向量的維數(shù),矩陣的每一列依次對應(yīng)電壓、電流、溫度、太陽輻照度4個采樣集合,分別記作[XV,XI,XT,XE]。
[S=xV,1xI,1xT,1xE,1????xV,nxI,nxT,nxE,n????XV,NXI,NxT,NxE,N=XVXIXTXET] (12)
采用非參數(shù)核密度估計的方法,將采樣集合[XV]、[XI]、[XT]、[XE]轉(zhuǎn)化為邊緣分布的形式,可得到新集合[UV,UI,UT,UE],將該集合作為模型輸入。轉(zhuǎn)換前后各隨機變量的分布直方圖見附錄A圖A1和圖A2。
3.2.2 電流清洗
1)確定藤結(jié)構(gòu)和Copula函數(shù)
對于變量[UI,UT,UE],按照表3的步驟對其進行藤結(jié)構(gòu)優(yōu)化,根據(jù)式(11)選取每條邊的Copula函數(shù)。
2)建立電流條件概率模型
以[UE]為根節(jié)點為例,光伏電流[I]關(guān)于溫度[T]和太陽輻照度[E]的條件概率分布函數(shù)[F(xI|xTxE)]的計算式為:
[F(xI|xE)=hI,E(F(xI),F(xiàn)(xE))F(xT|xE)=hT,E(F(xT),F(xiàn)(xE))] (13)
[F(xI|xTxE)=hI,T|E(F(xI|xE),F(xiàn)(xT|xE))] (14)
式中:[xI,xT,xE]——光伏電流(A)、太陽輻照度(W/m2)、溫度(℃),函數(shù)[hj,k|D(?)]對應(yīng)式(8);[F(xI|xTxE)]——光伏電流的條件概率分布函數(shù)。
3)光伏電流置信區(qū)間求解
求解置信區(qū)間就是求解表示區(qū)間邊界的上下分位點,該計算過程與式(13)、式(14)所對應(yīng)的條件概率分布計算過程具有互逆的關(guān)系。
圖3給出了分位數(shù)點計算過程示意圖,求解步驟如式(15)~式(18)所示:
[F(xT|xE)=hT,E(F(xT),F(xiàn)(xE))] (15)
[F(xI|xE)=h-1I,T|E(α,F(xiàn)(xT|xE))] (16)
[F(xI)=h-1I|E(F(xI|xE),F(xiàn)(xE))] (17)
[xI=F-1(F(xI))] (18)
式中:[α]——分位點對應(yīng)的條件概率分布值,即[F(xI|xTxE)=α];函數(shù)[h-1j,k|D(?)]——式(8)的反函數(shù),文獻[27]給出了該函數(shù)的具體形式。
設(shè)置置信概率為[α],則有[α]的數(shù)據(jù)位于概率區(qū)間內(nèi),令:
[β=1-α] (19)
由于光伏電流數(shù)據(jù)異常分布不均勻,通常類型2的異常值偏多,因此設(shè)置信區(qū)間的不對稱系數(shù)為[κ],置信區(qū)間的上下邊界的分位概率[β1、β2],表示數(shù)據(jù)點高于上邊界的概率為[β1],低于下邊界的概率為[β2],其表達式分別為:
[β1=(1-κ)β] (20)
[β2=κβ] (21)
當(dāng)[κ=0.5]時,置信概率區(qū)間對稱,當(dāng)[κgt;0.5]時,置信概率區(qū)間向上偏移。
對于式(12)所示樣本集[S],將[xI=xI,n],[xE=xE,n],[α=β1]代入式(15)~ 式(18),得到第[n]個樣本的電流置信區(qū)間上界[xI,n,up];將[xI=xI,n],[xE=xE,n],[α=β2]代入式(15)~ 式(18)得到第[n]個樣本的電流置信區(qū)間下界[xI,n,low]。
4)清洗電流數(shù)據(jù)
當(dāng)?shù)赱n]個樣本的電流[xI,n∈[xI,n,low,xI,n,up]]時,該樣本點被標(biāo)記為正常數(shù)據(jù)點;否則,該樣本點被標(biāo)記為異常數(shù)據(jù)點,刪除被標(biāo)記為異常數(shù)據(jù)的樣本點。
3.2.3 電壓清洗
清洗異常電流數(shù)據(jù)后,對光伏電壓和溫度、太陽輻照度數(shù)據(jù)集進行3.2.2節(jié)的操作,計算出光伏電壓的置信區(qū)間并標(biāo)記異常數(shù)據(jù)。
4 算例分析
4.1 實驗數(shù)據(jù)
實驗數(shù)據(jù)來自通州供電公司2022年3—9月份的實際數(shù)據(jù),數(shù)據(jù)采集間隔為15 min,單個樣本由光伏電壓、光伏電流、溫度、太陽輻照度組成。各變量的樣本數(shù)分布直方圖和核密度估計后的樣本數(shù)分布直方圖見附錄圖A1、A2。由于該光伏陣列沒有故障等相關(guān)數(shù)據(jù),本文通過人工方法合成異常數(shù)據(jù)給原始數(shù)據(jù)添加異常,合成方法見附錄B,人工合成異常后的光伏電壓和電流散點圖如圖4所示。
數(shù)據(jù)添加人工合成異常前后對比見附錄圖A3,各類型異常數(shù)據(jù)在總體中的占比分別為:類型1為2%,類型2為6%,類型3為1%,類型4為1%。
4.2 Pair-Copula優(yōu)化結(jié)果
優(yōu)化結(jié)果如表4所示,在對電流進行相依關(guān)系建模時,生成的第一棵樹的根節(jié)點為[UE],在對電壓進行相依關(guān)系建模時,生成的第一棵樹的根節(jié)點也為[UE]。
圖5展示了實例中Copula模型的藤結(jié)構(gòu)。表5展示了Pair-Copula的具體參數(shù),包括每條邊所對應(yīng)的最優(yōu)Copula函數(shù)及其參數(shù)估計結(jié)果。
4.3 異常辨識結(jié)果
由式(15)~式(18)計算所得的所有樣本的電流和電壓上下邊界如圖6所示,圖6a為電流、溫度和太陽輻照度之間的三維散點圖,每一組樣本中的環(huán)境變量(溫度和太陽輻照度)都確定一個電流的上下邊界,組成一個上下邊界曲面,位于曲面之內(nèi)的點為正常值,位于曲面之外的點為異常值。圖6c為時序的電流圖,每一個時刻其當(dāng)前環(huán)境變量都確定一個電流上下邊界,最終形成邊界曲線,位于曲線之內(nèi)的被識別為正常值,位于曲線之外的被識別為異常值,溫度和輻照度的波動會導(dǎo)致電流和電壓的正常范圍發(fā)生變化,從而影響置信區(qū)間的寬度。
4.4 不同異常識別方法對比
為了對比算法優(yōu)劣,分別利用本文方法、一步Pair-Copula法、兩步Copula法、分位數(shù)法對實驗數(shù)據(jù)進行異常辨識。其中,一步Pair-Copula方法將溫度和太陽輻照度作為條件變量對光伏功率進行辨識,下文將該方法簡稱為Pair-Copula-PTE;兩步Copula法和分位數(shù)法都是首先采以太陽輻照度為條件變量對電流進行識別,再以溫度為條件變量對電壓進行識別。
為方便比較,定義異常數(shù)據(jù)識別正確率和正常數(shù)據(jù)誤識別率兩個指標(biāo),識別正確率的定義為:
[Ti=NiNi] (22)
[T=iNiiNi] (23)
式中:[Ti]——異常類型[i]的識別正確率;[Ni]——異常類型[i]被正確識別出來的數(shù)據(jù)點數(shù)量;[Ni]——異常類型[i]的數(shù)據(jù)點總數(shù);[T]——整體的異常識別正確率。
識別錯誤率的定義為:
[F=Nerror/Ntotal] (24)
式中:[F]——識別錯誤率;[Nerror]——誤識別為異常值的正常值個數(shù);[Ntotal]——樣本點總數(shù)。
不同方法對異常數(shù)據(jù)辨識結(jié)果如表6所示。
為方便觀察對比,將最終的辨識結(jié)果用二維的太陽輻照度-電流散點圖的方式呈現(xiàn),辨識結(jié)果如圖7所示。
在4種方法中,本文方法的異常數(shù)據(jù)識別精度最高,相比于二元Copula法,本文方法識別率和誤識別率均優(yōu)于前者,這是因為通過增加特征變量,進一步縮小了置信區(qū)間,提高了置信區(qū)間對異常值識別的靈敏度;Pair-Copula-PTE法只對功率進行異常值識別,損失了電壓和電流的細節(jié),而本文方法考慮到溫度對電流和電壓的影響的不同之處;分位數(shù)法將目標(biāo)變量數(shù)據(jù)集按照條件變量的大小分組,每組對目標(biāo)變量使用分位數(shù)方法,丟棄了目標(biāo)變量與條件變量之間的相依性關(guān)系,導(dǎo)致識別率較低。
4.5 基于異常識別的光伏電流預(yù)測
為進一步比較異常辨識方法的精度,采用以上方法剔除原始數(shù)據(jù)中的異常值后,為填補因剔除而造成的數(shù)據(jù)缺失,采用條件變量(溫度和太陽輻照度)的相似度作為指標(biāo),在正常數(shù)據(jù)中選擇相似度最高的數(shù)據(jù)來填補缺失,相似度計算公式為[28-29]:
[dm,n=ωmT(RT-xT,n)2+ωmE(RE-xE,n)2n∈Ωnorm] (25)
[ωkm=ρkmρTm+ρEmρkm=cov(Xk,Xm)σkσm] (26)
式中:[m∈I,V]——目標(biāo)變量,當(dāng)[m][為][I]時,[dm,n]表示異常數(shù)據(jù)與第[n]個正常數(shù)據(jù)之間的電流相似度,當(dāng)[m為V]時,[dm,n]表示異常數(shù)據(jù)與第[n]個正常數(shù)據(jù)之間的電壓相似度;[xT,n,xE,n]——歸一化處理后的樣本值;[ωkm]——特征變量[xk]與目標(biāo)變量[xm]的相關(guān)性權(quán)重,[k∈T,E];[Ωnorm]——異常識別結(jié)果中被識別為正常的數(shù)據(jù)序號所構(gòu)成的集合;[cov(Xk,Xm)]——變量[xk]與[xm]的協(xié)方差;[σk]——[xk]的標(biāo)準(zhǔn)差。
分別使用重構(gòu)后的數(shù)據(jù)集來訓(xùn)練雙向長短期記憶網(wǎng)絡(luò)(bidirectional long short-term memory,Bi-LSTM)[30],最后使用不同的訓(xùn)練模型對同一組數(shù)據(jù)進行預(yù)測,重構(gòu)后數(shù)據(jù)如圖8所示,預(yù)測結(jié)果如圖9所示。
不同數(shù)據(jù)集的預(yù)測結(jié)果的平均絕對誤差(mean absolute error,MAE)、均方根誤差(root mean square error,RMSE)如表7所示,可以看出,本文提出的光伏數(shù)據(jù)異常識別方法能夠有效降低預(yù)測誤差,因此,通過識別出數(shù)據(jù)采集過程中的異?;蚬收蠑?shù)據(jù),可以使預(yù)測模型更好的適應(yīng)實際情況,提高預(yù)測準(zhǔn)確度,從而幫助電力系統(tǒng)更好的規(guī)劃和管理能源供應(yīng)。
5 結(jié) 論
由于各種隨機因素影響等原因,光伏采樣數(shù)據(jù)往往存在大量異常數(shù)據(jù),無法反映真實的光伏出力特性。針對現(xiàn)有異常辨識方法存在的不足,本文提出一種基于兩步Pair-Copula高維相依結(jié)構(gòu)建模的光伏異常數(shù)據(jù)辨識方法,分析實驗仿真結(jié)果得到的主要結(jié)論如下:
1)本文基于光伏陣列異常運行狀態(tài)對異常輸出數(shù)據(jù)分析,提出分別對光伏電流和光伏電壓進行異常值辨識,識別率達到87.8%,相比于僅對光伏功率進行異常值辨識,準(zhǔn)確率提升了4.7個百分點,結(jié)果表明,本文方法更能有效捕捉隱藏信息,提升異常辨識精度。
2)應(yīng)用Pair-Copula理論分別建立以溫度、太陽輻照度為條件變量的光伏電流條件變量模型和光伏電壓條件變量模型,并對其結(jié)構(gòu)和參數(shù)進行優(yōu)化,相比于僅將太陽輻照度作為條件變量進行異常值辨識,準(zhǔn)確率提升6.5個百分點,且誤識別率下降2個百分點,表明增加環(huán)境變量能夠提升辨識精度和降低誤識別率。
3)將經(jīng)過異常辨識與重構(gòu)的數(shù)據(jù)運用于光伏電流預(yù)測,相比于未處理的數(shù)據(jù),預(yù)測誤差大幅下降,結(jié)果表明,經(jīng)過異常辨識的數(shù)據(jù)集能夠提升預(yù)測精度,并且本文方法相較于其他方法,預(yù)測精度更高,MAE達到1.06 A,表明本文所建立的Copula模型能夠很好地擬合真實的發(fā)電性能。
4)本文方法只需要進行一次建模,即可得到不同置信度下的置信區(qū)間,并且建立好模型后,只需輸入當(dāng)前時刻下的溫度和太陽輻照度參數(shù),即可確定當(dāng)前時刻目標(biāo)變量的上下閾值,在實際使用過程中具有較好的實時性。
[參考文獻]
[1] 彭道剛, 稅紀(jì)鈞, 王丹豪, 等. “雙碳” 背景下虛擬電廠研究綜述[J]. 發(fā)電技術(shù), 2023, 44(5): 602-615.
PENG D G, SHUI J J, WANG D H, et al. Review of virtual power plant under the background of “dual carbon”[J]. Power generation technology, 2023, 44(5): 602-615.
[2] CAO Y J, LI Q, TAN Y, et al. A comprehensive review of energy internet: basic concept, operation and planning methods, and research prospects[J]. Journal of modern power systems and clean energy, 2018, 6(3): 399-411.
[3] 陳宇翔, 崔凝, 李斌, 等. 積灰性質(zhì)對光伏組件輸出性能影響研究[J]. 太陽能學(xué)報, 2024, 45(1): 11-19.
CHEN Y X, CUI N, LI B, et al. Research on effect of dust deposition properties on output performance of photovoltaic modules[J]. Acta energiae solaris sinica, 2024, 45(1): 11-19.
[4] 解寶, 李萍宇, 蘇繹仁, 等. 局部陰影下光伏陣列的最大功率點跟蹤算法研究[J]. 太陽能學(xué)報, 2023, 44(12): 47-52.
XIE B, LI P Y, SU Y R, et al. Research on maximum power point tracking algorithm of PV array under local shadow[J]. Acta energiae solaris sinica, 2023, 44(12): 47-52.
[5] 馬銘遙, 王海松, 馬文婷, 等. 基于S-V特性分析的晶硅光伏組件陰影遮擋故障診斷[J]. 太陽能學(xué)報, 2022, 43(9): 64-72.
MA M Y, WANG H S, MA W T, et al. Partial shadow fault diagnosis of crystalline silicon photovoltaic module based on S-V characteristic analysis[J]. Acta energiae solaris sinica, 2022, 43(9): 64-72.
[6] 王元章, 李智華, 吳春華, 等. 基于BP神經(jīng)網(wǎng)絡(luò)的光伏組件在線故障診斷[J]. 電網(wǎng)技術(shù), 2013, 37(8): 2094-2100.
WANG Y Z, LI Z H, WU C H, et al. A survey of online fault diagnosis for PV module based on BP neural network[J]. Power system technology, 2013, 37(8): 2094-2100.
[7] 韓偉, 王宏華, 王成亮, 等. 基于參數(shù)辨識的光伏組件故障診斷模型[J]. 電網(wǎng)技術(shù), 2015, 39(5): 1198-1204.
HAN W, WANG H H, WANG C L, et al. Parameter identification based fault diagnosis model of photovoltaic modules[J]. Power system technology, 2015, 39(5): 1198-1204.
[8] 李松濃, 晏堯, 向菲, 等. 光伏直流系統(tǒng)故障電弧檢測方法研究綜述[J]. 電測與儀表, 2024, 61(2): 10-16.
LI S N, YAN Y, XIANG F, et al. A comprehensive review on detection method for DC fault arc in photovoltaic system[J]. Electrical measurement amp; instrumentation, 2024, 61(2): 10-16.
[9] ZHAO Y, LEHMAN B, BALL R, et al. Outlier detection rules for fault detection in solar photovoltaic arrays[C]//2013 Twenty-Eighth Annual IEEE Applied Power Electronics Conference and Exposition (APEC). Long Beach, CA, USA, 2013: 2913-2920.
[10] 時珉, 尹瑞, 胡傲宇, 等. 基于滑動標(biāo)準(zhǔn)差計算的光伏陣列異常數(shù)據(jù)清洗辦法[J]. 電力系統(tǒng)保護與控制, 2020, 48(6): 108-114.
SHI M, YIN R, HU A Y, et al. A novel photovoltaic array outlier cleaning algorithm based on moving standard deviation[J]. Power system protection and control, 2020, 48(6): 108-114.
[11] 陳瑤, 陳曉寧. 基于自適應(yīng)Kmeans和LSTM的短期光伏發(fā)電預(yù)測[J]. 電測與儀表, 2023, 60(7): 94-99.
CHEN Y, CHEN X N. Prediction of short-term photovoltaic power generation based on adaptive Kmeans and LSTM[J]. Electrical measurement amp; instrumentation, 2023, 60(7): 94-99.
[12] LONG H, SANG L W, WU Z J, et al. Image-based abnormal data detection and cleaning algorithm via wind power curve[J]. IEEE transactions on sustainable energy, 2020, 11(2): 938-946.
[13] LIU F T, TING K M, ZHOU Z H. Isolation forest[C]//2008 Eighth IEEE International Conference on Data Mining. Pisa, Italy, 2008: 413-422.
[14] LI G, DUAN Z, LIANG L, et al. Outlier data mining method considering the output distribution characteristics for "photovoltaic "arrays "and "its "application[J]. "Energy reports, 2020, 6: 2345-2357.
[15] 楊茂, 黃鑫. 基于光照過程特征分析的光伏功率異常數(shù)據(jù)識別算法[J]. 電力系統(tǒng)自動化, 2019, 43(6): 64-69.
YANG M, HUANG X. Abnormal data identification algorithm for photovoltaic power based on characteristics analysis of illumination process[J]. Automation of electric power systems, 2019, 43(6): 64-69.
[16] ZHENG L, HU W, MIN Y. Raw wind data preprocessing: a data-mining approach[J]. IEEE transactions on sustainable energy, 2015, 6(1): 11-19.
[17] WANG Y, INFIELD D G, STEPHEN B, et al. Copula-based model for wind turbine power curve outlier rejection[J]. Wind energy, 2014, 17(11): 1677-1688.
[18] 呂清泉, 張珍珍, 馬彥宏, 等. 區(qū)域光伏發(fā)電出力特性分析研究[J]. 發(fā)電技術(shù), 2022, 43(3): 413-420.
LYU Q Q, ZHANG Z Z, MA Y H, et al. Analysis and research on output characteristics of regional photovoltaic power generation[J]. Power generation technology, 2022, 43(3): 413-420.
[19] 全勇, 吳建高, 陳艷, 等. 風(fēng)向角和傾角對光伏陣列風(fēng)荷載的影響[J]. 太陽能學(xué)報, 2024, 45(1): 25-31.
QUAN Y, WU J G, CHEN Y, et al. Influence of wind direction and inclination angle on wind load of photovoltaic arrays[J]. Acta energiae solaris sinica, 2024, 45(1): 25-31.
[20] 朱紅路, 劉珠慧. 環(huán)境因素影響下的光伏系統(tǒng)出力特性分析[J]. 華北電力技術(shù), 2014(8): 50-55.
ZHU H L, LIU Z H. PV system output analysis of environmental factors affect[J]. North China electric power, 2014(8): 50-55.
[21] AAS K, CZADO C, FRIGESSI A, et al. Pair-copula constructions of multiple dependence[J]. Insurance: mathematics and economics, 2009, 44(2): 182-198.
[22] 龔鶯飛, 魯宗相, 喬穎, 等. 基于Copula理論的光伏功率高比例異常數(shù)據(jù)機器識別算法[J]. 電力系統(tǒng)自動化, 2016, 40(9): 16-22, 55.
GONG Y F, LU Z X, QIAO Y, et al. Copula theory based machine identification algorithm of high proportion of outliers "in "photovoltaic "power "data[J]. "Automation "of electric power systems, 2016, 40(9): 16-22, 55.
[23] 龔鶯飛, 魯宗相, 喬穎, 等. 光伏功率預(yù)測技術(shù)[J]. 電力系統(tǒng)自動化, 2016, 40(4): 140-151.
GONG Y F, LU Z X, QIAO Y, et al. An overview of photovoltaic energy system output forecasting technology[J]. Automation of electric power systems, 2016, 40(4): 140-151.
[24] 許彪, 徐青山, 黃煜, 等. 基于藤copula分位數(shù)回歸的光伏功率日前概率預(yù)測[J]. 電網(wǎng)技術(shù), 2021, 45(11): 4426-4435.
XU B, XU Q S, HUANG Y, et al. Day-ahead probabilistic forecasting of photovoltaic power based on vine copula quantile regression[J]. Power system technology, 2021, 45(11): 4426-4435.
[25] ZHANG X L, LIU Q H, LI B, et al. Analysis of output characteristics of photovoltaic system[J]. Advanced materials research, 2012, 512/513/514/515: 17-22.
[26] GENEST C, RéMILLARD B, BEAUDOIN D. Goodness-of-fit tests for copulas: a review and a power study[J]. Insurance: mathematics and economics, 2009, 44(2): 199-213.
[27] BRECHMANN E C, CZADO C, AAS K. Truncated regular vines in high dimensions with application to financial data[J]. Canadian journal of statistics, 2012, 40(1): 68-85.
[28] 朱倩雯, 葉林, 趙永寧, 等. 風(fēng)電場輸出功率異常數(shù)據(jù)識別與重構(gòu)方法研究[J]. 電力系統(tǒng)保護與控制, 2015, 43(3): 38-45.
ZHU Q W, YE L, ZHAO Y N, et al. Methods for elimination and reconstruction of abnormal power data in wind farms[J]. Power system protection and control, 2015, 43(3): 38-45.
[29] 毛李帆, 姚建剛, 金永順, 等. 中長期負荷預(yù)測的異常數(shù)據(jù)辨識與缺失數(shù)據(jù)處理[J]. 電網(wǎng)技術(shù), 2010, 34(7): 148-153.
MAO L F, YAO J G, JIN Y S, et al. Abnormal data identification and missing data filling in medium-and long-term load forecasting[J]. Power system technology, 2010, 34(7): 148-153.
[30] 趙書強, 張婷婷, 李志偉, 等. 基于數(shù)值特性聚類的日前光伏出力預(yù)測誤差分布模型[J]. 電力系統(tǒng)自動化, 2019, 43(13): 36-45.
ZHAO S Q, ZHANG T T, LI Z W, et al. Distribution model of day-ahead photovoltaic power forecasting error based " " on " " numerical " " characteristic " " clustering[J]. Automation of electric power systems, 2019, 43(13): 36-45.
ANOMALY DATA DETECTION METHOD FOR PHOTOVOLTAIC
ARRAYS BASED ON TWO-STEP PAIR-COPULA MODELING
Huang Yu1,Zhang Xiaoxiao1,Hu Songlin1,Dou Chunxia1,Hong Yi2,Song Weiqiong3
(1. Institute of Advanced Technology for Carbon Neutrality, Nanjing University of Posts and Telecommunications , Nanjing 210023, China;
2. Jiangsu Electric Power Company Suzhou Power Supply Company, Suzhou 215000, China;
3. State Grid Electric Power Research Institute, Beijing 100192, China)
Abstract:To optimally monitor photovoltaic arrays and forecast their power production, improving the quality of photovoltaic data is an essential and urgent task. To this end, this paper introduces a method for the identification of anomalous data in photovoltaic arrays based on a two-step Pair-Copula approach. This method is divided into two stages: the first stage involves the identification of outliers in the direct current side of the photovoltaic array, while the second stage, building upon the first, involves the identification of outliers in the photovoltaic direct current side voltage. More specifically, the Pair-Copula is utilized to model the dependence structure between photovoltaic current, irradiance, and temperature, with Akaike information criterion employed to optimize the Copula function. Subsequently, a conditional probability model for the photovoltaic current is established, and the formula for calculating the confidence interval of the conditional probability is derived. The confidence interval of the photovoltaic current is then used as the primary criterion for identifying and eliminating current outliers. Finally, building upon the data obtained in the previous step, the aforementioned procedure is repeated to eliminate voltage outliers. The results of simulation experiments demonstrate that, compared with other outlier identification methods, the approach proposed in this paper maintains a low identification error rate while boasting a higher identification accuracy.
Keywords:photovoltaic arrays; anomaly detection; correlation theory; Pair-Copula theory; confidence interval
附 錄A
附錄B
異常數(shù)據(jù)的人工合成方法如下:
1)確定異常比例
參考現(xiàn)有數(shù)據(jù),設(shè)置各異常值比例為:類型1為2%,類型2為6%,類型3為1%,類型4為1%。
2)生成接近于0的異常數(shù)據(jù)(類型1)
從數(shù)據(jù)集中隨機選擇多組連續(xù)的正常數(shù)據(jù),作為一次異常事件,數(shù)據(jù)的長度為1~10的隨機數(shù),數(shù)據(jù)點的總數(shù)由該類型的占比決定;將選中的數(shù)據(jù)替換為接近0的隨機值(大于0),這些隨機值由泊松分布產(chǎn)生。
3)生成低于正常值的異常數(shù)據(jù)(類型2)
從數(shù)據(jù)集中隨機選擇多組連續(xù)的正常數(shù)據(jù),作為一次異常事件,數(shù)據(jù)的長度為1~10的隨機數(shù),生成隨機值作為異常值,隨機值基于泊松分布,均值為最大值的20%,標(biāo)準(zhǔn)差為最大值的1%,若選中數(shù)據(jù)比異常值大,則替換,否則不替換,直到異常值總數(shù)達到6%。
4)生成高于正常值的異常數(shù)據(jù)(類型3)
從數(shù)據(jù)集中隨機選擇多組連續(xù)的正常數(shù)據(jù),作為一次異常事件,數(shù)據(jù)的長度為1~10的隨機數(shù),生成隨機值作為異常值,隨機值基于泊松分布,均值為最大值的80%,標(biāo)準(zhǔn)差為最大值的1%,若選中數(shù)據(jù)比異常值小,則替換,否則不替換,直到異常值總數(shù)達到1%。
5)生成正常功率值附近的異常數(shù)據(jù)(類型4)
從數(shù)據(jù)集中隨機選擇多組連續(xù)的正常數(shù)據(jù),作為一次異常事件,數(shù)據(jù)的長度為1~10的隨機數(shù),數(shù)據(jù)總數(shù)為總數(shù)據(jù)的1%,使用基于原始值的泊松分布的隨機值進行替換。