楊 霞,茍 亮,馬 倩,朱帕爾·努爾蘭,馬為真
(國(guó)網(wǎng)新疆電力有限公司信息通信公司,新疆烏魯木齊 830017)
現(xiàn)階段我國(guó)的電網(wǎng)中已經(jīng)融入多種類(lèi)的數(shù)據(jù)采集檢測(cè)設(shè)備,這些數(shù)據(jù)采集檢測(cè)設(shè)備利用不同算法可以實(shí)時(shí)檢測(cè)電網(wǎng)各個(gè)環(huán)節(jié)的運(yùn)行狀態(tài),幫助電網(wǎng)公司更好地管理電網(wǎng)設(shè)備,從而提升電網(wǎng)公司的運(yùn)營(yíng)效率。但是目前國(guó)內(nèi)電網(wǎng)的電力大數(shù)據(jù)異常值檢測(cè)技術(shù)應(yīng)用還處于初級(jí)發(fā)展階段,數(shù)據(jù)檢測(cè)量和分析量較少,傳統(tǒng)的檢測(cè)算法只有在電網(wǎng)電力大數(shù)據(jù)中進(jìn)行深度且長(zhǎng)時(shí)間學(xué)習(xí)才可以識(shí)別檢測(cè)電網(wǎng)中存在的隱患,且難以拓展電力大數(shù)據(jù)的更深層作用,所以設(shè)計(jì)開(kāi)發(fā)一套實(shí)用的電力大數(shù)據(jù)異常值檢測(cè)技術(shù)對(duì)于電網(wǎng)公司的運(yùn)營(yíng)至關(guān)重要。
文獻(xiàn)[1]針對(duì)傳統(tǒng)的電力大數(shù)據(jù)檢測(cè)方法不精準(zhǔn)的問(wèn)題提出了一種基于粒子群優(yōu)化的改進(jìn)方法,利用粒子群優(yōu)化算法的精準(zhǔn)性特點(diǎn)來(lái)尋找電網(wǎng)中的數(shù)據(jù)目標(biāo),同時(shí)還結(jié)合了C 均值算法對(duì)粒子群優(yōu)化算法獲取的結(jié)果進(jìn)行驗(yàn)證,通過(guò)實(shí)驗(yàn)證明了該方法在電力數(shù)據(jù)精準(zhǔn)度方面的有效性。但是這種電力大數(shù)據(jù)檢測(cè)方法實(shí)現(xiàn)成本較高、難度較大,且在電力數(shù)據(jù)較為密集的電網(wǎng)中并不能體現(xiàn)出精準(zhǔn)性的特點(diǎn)。文獻(xiàn)[2]提出一種以用戶(hù)負(fù)荷特性為基礎(chǔ)的電力大數(shù)據(jù)檢測(cè)方法,該方法基于SOM 和K-means 融合的一種綜合性聚類(lèi)方法,應(yīng)用了大量的電力數(shù)據(jù)證明該方法的實(shí)用性,同時(shí)還利用多種類(lèi)型的數(shù)據(jù)驗(yàn)證該方法的泛化性,具有較強(qiáng)的適應(yīng)能力,但是該方法存在精準(zhǔn)度較差的缺陷。
結(jié)合以上內(nèi)容,該文采用精準(zhǔn)度較高、容易實(shí)現(xiàn)且廣泛性強(qiáng)的利群檢測(cè)算法作為該文電力大數(shù)據(jù)異常值檢測(cè)方法的基礎(chǔ),并通過(guò)實(shí)驗(yàn)驗(yàn)證了方法的有效性。
通過(guò)離散點(diǎn)變換的方式來(lái)尋找電力大數(shù)據(jù)中的異常特征,在離群點(diǎn)變換的過(guò)程中對(duì)電力大數(shù)據(jù)中的信號(hào)進(jìn)行篩選并確定能夠應(yīng)用在電力大數(shù)據(jù)中的離群點(diǎn)函數(shù),然后基于函數(shù)進(jìn)行異常特征的深度分解[3-4]。離群點(diǎn)檢測(cè)算法的實(shí)現(xiàn)原理如下所示:
其中,ai(k)代表近似分量;di(k)代表細(xì)節(jié)分量;i∈z,j∈z;X是離群點(diǎn)集合,φij(t)是由離散點(diǎn)中的母點(diǎn)經(jīng)過(guò)φ(t)平移后得到的。離群點(diǎn)檢測(cè)算法可以將電力大數(shù)據(jù)中的初始數(shù)據(jù)按照時(shí)間尺度進(jìn)行分解,獲取初始數(shù)據(jù)中的異常數(shù)據(jù)特征[5-6]。將離群點(diǎn)檢測(cè)算法與高斯混合模型相結(jié)合,利用離群點(diǎn)檢測(cè)算法的精準(zhǔn)性和高斯混合模型來(lái)同步提取電力大數(shù)據(jù)中的異常特征。
最大似然估計(jì)法與離群點(diǎn)檢測(cè)算法對(duì)數(shù)據(jù)組中的特征數(shù)據(jù)進(jìn)行迭代求解,迭代的過(guò)程分為兩步,如圖1 所示。
圖1 特征數(shù)據(jù)迭代過(guò)程
觀察圖1 可知,第一步是將高斯混合模型中的參數(shù)進(jìn)行函數(shù)運(yùn)算,計(jì)算電力數(shù)據(jù)的特征期望值,第二步是將期望值代入到離群點(diǎn)檢測(cè)算法中獲取新的特征參數(shù),兩步交替運(yùn)行,一直到迭代步驟收斂為止[7-8]。
由于電力大數(shù)據(jù)中的數(shù)據(jù)來(lái)源不確定,數(shù)據(jù)種類(lèi)復(fù)雜,難以通過(guò)格式篩選的方式來(lái)實(shí)現(xiàn)電力大數(shù)據(jù)異常值檢測(cè),所以該文利用電力大數(shù)據(jù)中的異常數(shù)據(jù)局部特征首先進(jìn)行基于距離的異常值檢測(cè),將距離離群點(diǎn)較近位置的異常值檢測(cè)出來(lái)。基于距離的異常值檢測(cè)會(huì)在離群點(diǎn)檢測(cè)算法有效范圍內(nèi)發(fā)布一個(gè)異常值的特征定義,符合特征和距離的數(shù)據(jù)會(huì)自主進(jìn)入算法中進(jìn)行驗(yàn)證,驗(yàn)證過(guò)程的距離度量方法可以分為歐氏距離和曼哈頓距離[9]。
在電力大數(shù)據(jù)的數(shù)據(jù)儲(chǔ)存庫(kù)中建立高斯混合模型,計(jì)算出高斯混合模型的擬合參數(shù),通過(guò)參數(shù)的吸引提取異常數(shù)據(jù)特征。在高斯混合模型中的離群點(diǎn)檢測(cè)算法可以擴(kuò)展離群點(diǎn)的空間分布范圍,離群點(diǎn)算法在高斯混合模型中可以表示為:
其中,x代表離群點(diǎn)樣本變量;πi代表混合模型權(quán)重;ui代表第i個(gè)高斯分量均值。高斯混合模型的最大似然估計(jì)法可以幫助離群點(diǎn)檢測(cè)算法尋找成組的異常數(shù)據(jù)目標(biāo),其函數(shù)表達(dá)式為:
該函數(shù)與離群點(diǎn)檢測(cè)算法同步計(jì)算電力數(shù)據(jù),尋找具有共同點(diǎn)的一組特征數(shù)據(jù),數(shù)據(jù)組可以用表示。
如果能夠通過(guò)距離異常值檢測(cè)方法,則證明離群點(diǎn)有效范圍內(nèi)的異常值已經(jīng)被檢測(cè),然后再對(duì)離群點(diǎn)進(jìn)行發(fā)散處理,使用基于密度的異常值檢測(cè)法。該方法可以識(shí)別出異常值在離群點(diǎn)周?chē)拿芏?,確定異常值位置后離群點(diǎn)釋放局部異常因子,給某個(gè)異常值設(shè)定一個(gè)定點(diǎn)x,設(shè)定dk(x)為離群點(diǎn)到該異常值的距離,即可進(jìn)一步確認(rèn)出離群點(diǎn)到全部異常值的距離:
其中,dist(x,y) 代表異常值與異常值之間的距離;dk(y) 代表離群點(diǎn)到其他異常值的距離,當(dāng)dist(x,y)之間的距離最小時(shí),即可通過(guò)離群點(diǎn)尋找到一定密度內(nèi)的全部異常值[10-11]。在電力大數(shù)據(jù)儲(chǔ)存庫(kù)中釋放離群點(diǎn)聚類(lèi)簇來(lái)屏蔽異常值噪聲,運(yùn)用異常值的噪聲特性提高檢測(cè)水平,檢測(cè)異常值噪聲,實(shí)現(xiàn)電力大數(shù)據(jù)異常值檢測(cè),檢測(cè)流程如圖2 所示。
圖2 電力大數(shù)據(jù)異常值檢測(cè)流程
1)從離群點(diǎn)中選取部分點(diǎn)進(jìn)入聚類(lèi)中心;
2)設(shè)定離群點(diǎn)與聚類(lèi)中心和離群點(diǎn)與異常值之間的標(biāo)準(zhǔn)距離單位;
3)將距離聚類(lèi)中心最為接近的基數(shù)作為檢測(cè)評(píng)分的基礎(chǔ)值;
4)對(duì)每個(gè)聚類(lèi)中心內(nèi)部離群點(diǎn)成員設(shè)定噪聲閾值,然后進(jìn)行檢測(cè)[12]。
經(jīng)過(guò)以上步驟的異常值檢測(cè)后,電力大數(shù)據(jù)中的空間方面異常值和時(shí)間方面異常值均被檢測(cè)到[13-14]。
為了能夠更全面地檢測(cè)電力大數(shù)據(jù)異常值,還需要發(fā)揮聚類(lèi)異常值檢測(cè)法的原理多樣性,離群點(diǎn)在聚類(lèi)時(shí)主要以分層聚類(lèi)、劃分聚類(lèi)和網(wǎng)格聚類(lèi)三種模式存在,所以基于聚類(lèi)的異常值檢測(cè)可以通過(guò)轉(zhuǎn)變模型來(lái)檢測(cè)其他異常值[15-16]。三種模式預(yù)備檢測(cè)時(shí)需要在電力大數(shù)據(jù)儲(chǔ)存庫(kù)的基礎(chǔ)上進(jìn)行總體分析,并在電力大數(shù)據(jù)儲(chǔ)存庫(kù)中設(shè)置異常值審核閾值,利用閾值尋找與異常值相似的數(shù)據(jù)簇。
為了驗(yàn)證該文提出的基于離群點(diǎn)檢測(cè)算法的電力大數(shù)據(jù)異常值檢測(cè)方法的實(shí)際應(yīng)用效果,設(shè)定實(shí)驗(yàn),選用的實(shí)驗(yàn)對(duì)象為10 kV的配電變壓器,共統(tǒng)計(jì)了120天負(fù)荷數(shù)據(jù),在進(jìn)行檢測(cè)實(shí)驗(yàn)之前,通過(guò)歸一化處理,提高訓(xùn)練速度。歸一化處理過(guò)程如公式(6)所示:
其中,i表示被采集的樣本;mi表示采集到的電力大數(shù)據(jù)日負(fù)荷數(shù)值;表示標(biāo)準(zhǔn)化處理結(jié)果。選用該文的離散點(diǎn)檢測(cè)方法對(duì)電力系統(tǒng)內(nèi)部的單臺(tái)變壓器負(fù)荷數(shù)據(jù)進(jìn)行檢測(cè),得到的檢測(cè)結(jié)果如圖3 所示。
圖3 基于離散點(diǎn)的單臺(tái)變壓器檢測(cè)結(jié)果
根據(jù)圖3 可知,電力系統(tǒng)的額定電壓為10 V,單電變壓器電力系統(tǒng)中的大部分樣本負(fù)荷數(shù)據(jù)電壓都集中在10 V 之內(nèi),有少數(shù)的樣本符合數(shù)據(jù)電壓超過(guò)10 V,則證明這部分負(fù)荷數(shù)據(jù)為異常值。
對(duì)離散信息進(jìn)行采樣,根據(jù)離散數(shù)據(jù)分布結(jié)果,進(jìn)行響應(yīng),得到不同數(shù)據(jù)點(diǎn)的振幅情況如圖4 所示。
圖4 振幅波動(dòng)狀況響應(yīng)結(jié)果
根據(jù)圖4 可知,當(dāng)采樣數(shù)據(jù)的電壓值超過(guò)10 V時(shí),振幅不穩(wěn)定,證明異常值分布在這一區(qū)域內(nèi),與圖的分布結(jié)果相符,由此證明,該文提出的基于離群點(diǎn)檢測(cè)算法在檢測(cè)單臺(tái)變壓器異常狀況時(shí)十分有效。
在對(duì)單臺(tái)變壓器負(fù)荷數(shù)據(jù)進(jìn)行檢測(cè)后,對(duì)電力系統(tǒng)內(nèi)部的350 臺(tái)變壓器進(jìn)行負(fù)荷數(shù)據(jù)異常檢測(cè),得到的離散點(diǎn)分布結(jié)果如圖5 所示。
圖5 基于離散點(diǎn)的多臺(tái)變壓器檢測(cè)結(jié)果
根據(jù)圖5 可知,在運(yùn)行時(shí)間0~2 min 內(nèi),變壓器運(yùn)行狀態(tài)存在異常點(diǎn)。對(duì)分布的數(shù)據(jù)進(jìn)行擬合,擬合曲線(xiàn)如圖6 所示。
圖6 分布數(shù)據(jù)擬合曲線(xiàn)
根據(jù)擬合結(jié)果可知,在擬合時(shí)間在0~1 min 時(shí),由于檢測(cè)到的電力數(shù)據(jù)點(diǎn)異常點(diǎn)分布過(guò)于離散,因此難以擬合;在1~2 min 時(shí),擬合狀況得到優(yōu)化;當(dāng)擬合時(shí)間超過(guò)2 min 后,能夠得到很好的擬合,由此可見(jiàn),350 臺(tái)變壓器在同時(shí)運(yùn)行時(shí),單臺(tái)變壓器所出現(xiàn)的異常數(shù)值可以被擬合點(diǎn),但若多臺(tái)變壓器同時(shí)出現(xiàn)異常值,則難以被擬合[17-19]。
通過(guò)對(duì)比實(shí)驗(yàn)深入探究該文提出的異常值檢測(cè)方法的性能,選用基于改進(jìn)PSO-PFCM 聚類(lèi)算法的電力大數(shù)據(jù)異常檢測(cè)方法和基于云計(jì)算的電力運(yùn)行大數(shù)據(jù)異常值快速檢測(cè)算法作為對(duì)比方法,同時(shí)檢測(cè)電力大數(shù)據(jù)電壓和電流,實(shí)驗(yàn)結(jié)果如表1 所示。
表1 異常時(shí)間檢測(cè)結(jié)果
根據(jù)表1 可知,該文提出的檢測(cè)方法檢測(cè)到的異常電流和異常電壓所在檢測(cè)時(shí)間一致,證明異常數(shù)值存在時(shí)間在0.3~0.4 s 內(nèi),由此可見(jiàn)該文方法具有極高的可行性,傳統(tǒng)檢測(cè)方法檢測(cè)到的異常電流和異常電壓所在檢測(cè)時(shí)間不同,在實(shí)際應(yīng)用準(zhǔn)確性不高,可借鑒能力不強(qiáng)。
該文基于離群點(diǎn)檢測(cè)算法提出了一種新的電力大數(shù)據(jù)異常值檢測(cè)方法,離群點(diǎn)檢測(cè)算法可以從時(shí)間序列角度獲取一定量的特征參數(shù),通過(guò)離群點(diǎn)檢測(cè)算法檢測(cè)電力大數(shù)據(jù)中的異常,通過(guò)高斯混合模型進(jìn)行了電力數(shù)據(jù)特征值的維度降低,尋找更全面的數(shù)據(jù)特征,利用高斯混合模型進(jìn)行特征的取值。實(shí)驗(yàn)結(jié)果表明,該文算法在大范圍覆蓋的基礎(chǔ)上落實(shí)了精準(zhǔn)性和準(zhǔn)確性的異常值檢測(cè),從而解決了傳統(tǒng)檢測(cè)方法中的問(wèn)題。