張 超,武 澤,許 峰,姚天賜
(國網(wǎng)伊犁伊河供電有限責(zé)任公司,新疆伊犁 835000)
隨著傳感器技術(shù)和通信技術(shù)的不斷發(fā)展,使用眾多技術(shù)的電網(wǎng)也更加趨于智能化。同時產(chǎn)生的電力數(shù)據(jù)也呈現(xiàn)指數(shù)增長,如何高效利用海量電力數(shù)據(jù),為電網(wǎng)穩(wěn)定運行提供支撐成為了亟待解決的問題[1-2]。
在數(shù)據(jù)存儲、通信以及數(shù)據(jù)整合、挖掘等方面,已有大量相關(guān)的電力數(shù)據(jù)分析處理算法[3]。文獻(xiàn)[4]結(jié)合人工智能技術(shù)綜合挖掘分析電力變壓器狀態(tài)數(shù)據(jù),以提升設(shè)備狀態(tài)檢修的全面性與準(zhǔn)確性。文獻(xiàn)[5]利用并行反向傳播神經(jīng)網(wǎng)絡(luò)算法分析海量用戶側(cè)數(shù)據(jù),實現(xiàn)負(fù)荷分類。文獻(xiàn)[6]基于粒子濾波和卷積神經(jīng)網(wǎng)絡(luò)分析電網(wǎng)運行監(jiān)控數(shù)據(jù),有效提高了狀態(tài)估計精度和魯棒性。但現(xiàn)有的電力數(shù)據(jù)分析處理算法無法滿足智能電網(wǎng)對精細(xì)化和時效性的需求,為此,該文基于改進(jìn)聚類分析算法提出了一種能夠?qū)﹄娏?shù)據(jù)進(jìn)行智能分析與處理的方案。利用布谷鳥搜索(Cuckoo Search,CS)算法改進(jìn)高斯混合模型(Gaussian Mixture Model,GMM),設(shè)計實 現(xiàn)了GMM-CS 聚類算法,將其用于電力數(shù)據(jù)的分析和處理,有效提高了分析處理的準(zhǔn)確性與實時性。
GMM 參數(shù)的正確估計是實現(xiàn)電力數(shù)據(jù)智能分析和處理的關(guān)鍵,通常采用極大似然估計確定參數(shù),而期望最大化(Expectation Maximization,EM)是最常用的求解方法。但EM 算法在更新參數(shù)估計的過程中存在一些問題,易陷入局部極值[7];初始值設(shè)置對達(dá)到似然函數(shù)極值有較大的影響[8];在高維且數(shù)據(jù)量大的數(shù)據(jù)集中會生成非法協(xié)方差矩陣,無法獲取精準(zhǔn)的模型參數(shù)[9]。為此,采用CS 算法尋找最優(yōu)的GMM 參數(shù)值。
假設(shè)X={x1,x2,…,xn} 為隨機(jī)觀測數(shù)據(jù)且由某個GMM 生成,其中xj∈Rd,j=1,…,n是d維隨機(jī)變量,數(shù)據(jù)之間相互獨立,含有M個單高斯模型分量。
觀測數(shù)據(jù)樣本GMM 概率密度表示如下:
式中,ωk為每個單高斯模型的權(quán)重,且相加為1;Θ={ω1,μ1,δ1;…;ωM,μM,δM} 為GMM 的參數(shù)集合;μk∈Rd、δk(d×d),k=1,2,…,M分別為第k個單高斯模型的均值向量和協(xié)方差矩陣;為單高斯模型的概率密度,公式為:
對于觀測數(shù)據(jù),假定各個樣本之間具備統(tǒng)計的獨立性,則數(shù)學(xué)表示如下:
式(3)為Θ 關(guān)于X的似然函數(shù),則定義其對數(shù)似然函數(shù)為:
通過求解式(4),便可得到對數(shù)似然函數(shù)的最大值,即:
CS 算法主要來源于布谷鳥巢的寄生機(jī)制和Levy飛行的基本原理,為了便于分析,假設(shè)在CS 算法中每個布谷鳥的筑巢和產(chǎn)卵過程中能夠檢測到外來卵的概率是pa。同時,對于待解決的問題,為了簡化計算過程,用巢中的卵來代表相應(yīng)問題的解決方案,每個卵代表一種新的策略,旨在用更好的策略取代更差的策略,且巢的空間位置就是卵的位置。
布谷鳥巢位置更新如下:
式中,si(t)為第i個布谷鳥在第t次迭代中的嵌套位置;⊕表示點乘;α為步長,α>0。實質(zhì)上,式(6)表示一個隨機(jī)游走過程,并遵循馬爾可夫鏈,其未來空間位置主要受當(dāng)前位置和轉(zhuǎn)移概率的影響。Levy(λ)表示隨機(jī)搜索當(dāng)前路徑,數(shù)學(xué)表示如下:
CS 算法的基本流程如圖1 所示。
圖1 CS算法的處理流程
從CS 算法流程可以看出,該算法原理清晰、流程簡單,但Levy 飛行的實現(xiàn)相對復(fù)雜。在算法中,寄生巢的位置越來越集中,則Levy 飛行步長縮小,因此算法在較小的局部范圍內(nèi)進(jìn)行搜索[10-12]。由于Levy飛行操作和宿主放棄寄生巢,CS 算法具有較強(qiáng)的跳出局部最優(yōu)解的能力[13]。
利用CS 算法求解GMM 參數(shù)的最優(yōu)解,從而構(gòu)成GMM-CS 聚類方法,對電力數(shù)據(jù)進(jìn)行智能分析和處理。其中GMM-CS 聚類分析的流程如下:
1)初始化種群規(guī)模及相應(yīng)參數(shù)。根據(jù)數(shù)據(jù)集維數(shù)d、GMM 分量個數(shù)M設(shè)置GMM-CS 算法個體長度D和種群規(guī)模Np。其中Np和D的計算如下:
CS算法的參數(shù)初始化為:pa=0.25,s0=[0 0.25],u0=[1 0.75]。
2)將訓(xùn)練數(shù)據(jù)集進(jìn)行Np次GMM 聚類,計算出每一次聚類的均值向量和協(xié)方差矩陣,以得到初始種群的每個個體。
4)根據(jù)給定的CS 算法的寄生機(jī)制和Levy 飛行原理,對所有個體進(jìn)行優(yōu)化選擇,產(chǎn)生新的種群。同時更新每個個體的適應(yīng)值,并計算最優(yōu)適應(yīng)值。
5)判斷迭代次數(shù)是否達(dá)到最大,若達(dá)到最大,則轉(zhuǎn)到6);否則轉(zhuǎn)到4)。
6)將最優(yōu)個體和對應(yīng)的最優(yōu)適應(yīng)度函數(shù)值輸出,即可得到最優(yōu)的GMM 參數(shù)。
隨著信息技術(shù)在電力系統(tǒng)的廣泛應(yīng)用,要保證其安全運行,需要對電力數(shù)據(jù)進(jìn)行有效分析[14-15]。通過構(gòu)建電力數(shù)據(jù)智能分析處理系統(tǒng),為改進(jìn)聚類分析的應(yīng)用提供條件,從而實現(xiàn)準(zhǔn)確、高效的數(shù)據(jù)異常分析并采取預(yù)防措施。
通過構(gòu)建電力數(shù)據(jù)智能分析處理系統(tǒng),可以利用電網(wǎng)數(shù)據(jù)進(jìn)行聚類分析、時序預(yù)測等,并根據(jù)分析結(jié)果劃分為多維數(shù)據(jù),為電網(wǎng)數(shù)據(jù)的應(yīng)用提供參考。其中,電力數(shù)據(jù)智能分析處理系統(tǒng)的架構(gòu)如圖2所示。
圖2 電力數(shù)據(jù)智能分析處理系統(tǒng)的架構(gòu)
對于給定的電力數(shù)據(jù)樣本,其智能分析的目標(biāo)是識別異常數(shù)據(jù)并采取處理措施[16]。在電力數(shù)據(jù)異常分析任務(wù)中,目的是找到異常數(shù)據(jù)Θ*,其對應(yīng)的模型Θi使得待分析電力數(shù)據(jù)組具有最大后驗概率P(Θi|X)?;贕MM-CS 的電力數(shù)據(jù)分析和處理算法的架構(gòu)如圖3 所示。
圖3 基于GMM-CS的電力數(shù)據(jù)分析和處理算法的架構(gòu)基于貝葉斯理論,最大后驗概率可表示為:
對于Θi的先驗概率p(Θi),如果沒有先驗知識,則1 ≤i≤T。在電力數(shù)據(jù)的智能分析和處理中,p(Θi) 為訓(xùn)練數(shù)據(jù)中第i組異常數(shù)據(jù)與總數(shù)據(jù)量的比值,即訓(xùn)練集中第i組數(shù)據(jù)存在的異常數(shù)據(jù)越多,其先驗概率越大。對于一個確定的特征量x,p(x) 是一個確定的常數(shù),所有異常數(shù)據(jù)的p(x)均一致。因此,求取后驗概率可以通過求取p(x|Θi)·p(Θi)得到。如此,分析電力數(shù)據(jù)中異常數(shù)據(jù)便可表示為:
為了確定GMM-CS 模型分量的最優(yōu)個數(shù),采用模型中封裝的Akaike Information Criterion(AIC)和Bayesian Information Criterion(BIC)兩個指標(biāo)評估調(diào)整模型,結(jié)果如圖4 所示。其中AIC 和BIC 的數(shù)值越小,說明模型的性能越優(yōu)。
圖4 AIC、BIC與GMM-CS模型分量個數(shù)的關(guān)系
從圖4 中可以看出,當(dāng)GMM-CS 模型分量個數(shù)大約為6 時,BIC 數(shù)值達(dá)到最小。而AIC 數(shù)值隨著GMM-CS 模型分量個數(shù)的增加持續(xù)減小。但當(dāng)分量個數(shù)達(dá)到10 之后,AIC 數(shù)值變化較小。因此綜合考慮,將GMM-CS 模型的分量個數(shù)設(shè)為10。此時AIC和BIC 數(shù)值均接近最小,因此模型的聚類效果最為理想。
為了能夠更加直觀地看出所提算法的收斂性能,將其與文獻(xiàn)[5]、文獻(xiàn)[6]、文獻(xiàn)[10]進(jìn)行對比分析,結(jié)果如圖5 所示。
圖5 不同算法的收斂性對比結(jié)果
從圖5 中可以看出,相比于其他算法,所提算法的在迭代約75 次即實現(xiàn)收斂,收斂速度快。由于所提算法采用CS 算法尋得GMM 模型的最優(yōu)值,避免局部最優(yōu),加快了尋優(yōu)速度。文獻(xiàn)[5]的反向傳播神經(jīng)網(wǎng)絡(luò)、文獻(xiàn)[6]結(jié)合粒子濾波和卷積神經(jīng)網(wǎng)絡(luò),分析算法復(fù)雜,均在約150 次實現(xiàn)收斂。而文獻(xiàn)[10]采用數(shù)據(jù)挖掘進(jìn)行數(shù)據(jù)分析,所使用的是傳統(tǒng)算法,未進(jìn)行優(yōu)化和改進(jìn),收斂性并不理想。
電力數(shù)據(jù)智能分析的重要應(yīng)用之一是系統(tǒng)故障檢測,如網(wǎng)絡(luò)入侵、各種短路故障等[17-18]。目前系統(tǒng)對可能出現(xiàn)的異常已有明確的界定,因此可采用檢測率和誤檢率進(jìn)行性能評價。其中檢測率為數(shù)據(jù)集中被算法檢測出的異常數(shù)據(jù)個數(shù)與所有異常數(shù)據(jù)個數(shù)的比值;誤檢率為數(shù)據(jù)集中被誤檢為異常的正常數(shù)據(jù)個數(shù)與所有正常數(shù)據(jù)個數(shù)的比值。四種算法的對比結(jié)果,如表1 所示。
表1 不同算法數(shù)據(jù)分析處理性能對比結(jié)果
從表1 中可以看出,所提算法的檢測率、誤檢率分別是95.35%和7.81%,均優(yōu)于其他對比算法。所提算法采用改進(jìn)聚類分析模型實現(xiàn)全局搜索,保證了數(shù)據(jù)分析的準(zhǔn)確性。而文獻(xiàn)[10]采用數(shù)據(jù)挖掘技術(shù),由于算法步驟較為簡單,因此耗時僅為14.37 s,短于所提算法的16.54 s,但其整體性能不佳,誤檢率超過了10%。文獻(xiàn)[5]采用反向傳播神經(jīng)網(wǎng)絡(luò)以及文獻(xiàn)[6]結(jié)合粒子濾波和卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)電力數(shù)據(jù)分析,檢測率和誤檢率較為理想,但算法較為復(fù)雜,耗時較長,均超過20 s。綜合檢測結(jié)果與耗時,所提算法的整體性能最佳,能高效且準(zhǔn)確地分析電力數(shù)據(jù)并采取相應(yīng)的措施。
電力數(shù)據(jù)的精準(zhǔn)分析對電網(wǎng)的穩(wěn)定運行至關(guān)重要,為此該文設(shè)計了一種電力數(shù)據(jù)智能分析與處理算法,以提高數(shù)據(jù)分析的準(zhǔn)確性和時效性。通過求解GMM 參數(shù)的最優(yōu)解,避免了算法陷入局部最優(yōu)。同時將GMM-CS 改進(jìn)聚類算法用于處理系統(tǒng)內(nèi)的多維模式數(shù)據(jù)庫,從而獲得異常數(shù)據(jù)。此外實驗結(jié)果表明,當(dāng)GMM 參數(shù)個數(shù)設(shè)為10 時,所提算法性能最佳,且其迭代次數(shù)約為75,檢測率、誤檢率分別是95.35%和7.81%,分析時間為16.54 s,整體性能優(yōu)于其他對比算法。對于龐大的電力系統(tǒng)而言,時效性是重要的指標(biāo),因此在接下來的研究中,將考慮將算法與分布式相結(jié)合,進(jìn)一步提高運行速度,增強(qiáng)算法的實用性。