彭 剛 唐松平 曾 力 肖 云
(廣東電網(wǎng)有限責(zé)任公司惠州供電局 惠州 516000)
電網(wǎng)系統(tǒng)是現(xiàn)代社會(huì)維持正常運(yùn)轉(zhuǎn)的重要生命線。而分散的電網(wǎng)系統(tǒng)在各種動(dòng)態(tài)的環(huán)境下,不可避免的受到設(shè)備故障、接觸動(dòng)物,樹木,雷擊等各種影響造成停電事故[1~3]。如何快速地進(jìn)行故障診斷和系統(tǒng)恢復(fù),已成為確保電網(wǎng)系統(tǒng)可靠性研究的方向[4]。為了提高點(diǎn)完后系統(tǒng)的可靠性,電力管理系統(tǒng)需要對(duì)停電做出正確迅速的反應(yīng)。然而,由于安全原因,許多電力公司在發(fā)現(xiàn)故障原因之前不能及時(shí)修復(fù)故障。整個(gè)修復(fù)過程可能需要幾十分鐘到數(shù)小時(shí),維修人員往往需要沿輸電線路搜尋幾十公里,試圖找到故障的原因。例如,可能由雷擊造成的輸電線灼燒痕跡,死亡的動(dòng)物尸體懸掛在輸電線上,更有倒下的樹木毀壞輸電線路等現(xiàn)象[5]。
現(xiàn)有文獻(xiàn)已經(jīng)研究了許多不同的方法來定位故障[6~8]。有效的故障原因識(shí)別也可以提供有價(jià)值的信息來縮小搜索區(qū)域,從而加快恢復(fù)和提高系統(tǒng)的可靠性。例如,調(diào)度中心可以告知救援車輛集中于某些類型的故障原因,甚至派遣相應(yīng)人員早較早的恢復(fù)系統(tǒng)。電網(wǎng)系統(tǒng)故障原因識(shí)別可以看作是一個(gè)分類問題,在某種意義上,運(yùn)營商試圖將已報(bào)告的故障分類為現(xiàn)有故障原因類中的一個(gè),這些故障類已經(jīng)由專家精心設(shè)計(jì)。隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,大量的研究已經(jīng)證明了數(shù)據(jù)挖掘方法在電力系統(tǒng)中應(yīng)用的有效性[9],可利用歷史電網(wǎng)停電數(shù)據(jù)提取故障模式。然而許多停電數(shù)據(jù)不平衡,難以滿足供電部門及時(shí)根據(jù)停電數(shù)據(jù)挖掘出故障的真實(shí)原因。
本文首先介紹了基于數(shù)據(jù)挖掘的模糊分類E-算法,同時(shí)根據(jù)廣東省電網(wǎng)故障原因選取了7個(gè)地區(qū)作為研究對(duì)象,并給出了故障原因識(shí)別方案。最后驗(yàn)證了算法在故障原因識(shí)別中的性能,并與人工神經(jīng)網(wǎng)絡(luò)(ANN)進(jìn)行了比較。
模糊分類系統(tǒng)有兩個(gè)關(guān)鍵要素[10]:模糊集和模糊規(guī)則。模糊集可以通過其隸屬函數(shù)得到充分的定義;模糊規(guī)則提供了類的推理能力和推理機(jī)制。
假設(shè)一個(gè)含有K規(guī)則、m輸入和n輸出的模糊分類系統(tǒng),在本文中,只考慮單個(gè)輸出屬性的情況,即n=1,K規(guī)則表示為
其中,k=1,…,K,Am,k(i=1,…,m)是規(guī)則 Rk中輸入屬性xi的模糊集,Bk是規(guī)則Rk中輸出屬性y的模糊集,則模糊規(guī)則也可以用向量形式表示。
數(shù)據(jù)挖掘中的關(guān)聯(lián)分析[11]主要是探究關(guān)聯(lián)規(guī)則X=Y的屬性之間有意義的關(guān)系(本文只考慮一個(gè)結(jié)果屬性)。關(guān)聯(lián)規(guī)則與模糊規(guī)則具有相同的格式,并且它們滿足前部分X的數(shù)據(jù)也可能滿足結(jié)果部分Y。
支持度[12]是指前項(xiàng)屬性 Xk(k=1,…,K ,K是關(guān)聯(lián)規(guī)則的數(shù)量)與后項(xiàng)屬性Yk在一個(gè)數(shù)據(jù)集中同時(shí)出現(xiàn)的頻率。信任度[13]是指前項(xiàng)屬性Xk發(fā)生時(shí),后項(xiàng)屬性Yk發(fā)生的概率。
其中,P(?)為概率算子。
基于規(guī)則的數(shù)據(jù)樣本相容性等級(jí)將這兩個(gè)度量運(yùn)用到模糊規(guī)則中,即 Xl與第k個(gè)規(guī)則的相容性等級(jí)表示為[14]
其中,Xl=(x1,l,…,xm,l)表示第l個(gè)數(shù)據(jù)樣本,l=1,…,N,N表示數(shù)據(jù)樣本的總數(shù),m表示每個(gè)數(shù)據(jù)樣本中的屬性的數(shù)量,μA1,k(xi,l),l=1,…,m表示屬性xi,l相對(duì)于規(guī)則Rk模糊集Ai,k的隸屬關(guān)系。
支持度標(biāo)準(zhǔn)化[15]的模糊向量表示Bk類數(shù)據(jù)基于第k個(gè)規(guī)則的相容性等級(jí)標(biāo)準(zhǔn)和與數(shù)據(jù)樣本數(shù)之比:
置信度的標(biāo)準(zhǔn)化[16]的模糊向量表示Bk類數(shù)據(jù)基于第k個(gè)規(guī)則的相容等級(jí)標(biāo)準(zhǔn)和與基于第k個(gè)規(guī)則的所有數(shù)據(jù)樣本的相容等級(jí)之比:
由于每個(gè)屬性的模糊集合分類是未知的先驗(yàn)假設(shè),E-算法同時(shí)為每個(gè)屬性使用四個(gè)模糊集合分類,如圖1所示。其結(jié)果是每個(gè)前項(xiàng)屬性首先與由這四個(gè)分類生成的14個(gè)模糊集以及一個(gè)特殊集(即總共15個(gè))相關(guān)聯(lián)。
圖1 每個(gè)屬性隸屬函數(shù)的四個(gè)模糊劃分
E-算法首先枚舉前項(xiàng)模糊集的所有可能組合,然后將每個(gè)組合賦值給后項(xiàng)部分生成規(guī)則,所有這些規(guī)則形成初始規(guī)則種群。由于每一個(gè)前項(xiàng)屬性對(duì)應(yīng)于15個(gè)可能的模糊集,屬性m的模糊集合的可能組合數(shù)為15m,即呈指數(shù)增長,為了減少計(jì)算需求,只生成小于或等于三個(gè)前項(xiàng)屬性的規(guī)則。如式(5)所示,兼容性級(jí)別是幾個(gè)數(shù)值的乘積。隸屬度值規(guī)則所包含的隸屬度值可以用規(guī)則計(jì)算數(shù)據(jù)樣本的相容性等級(jí)。因此,只有在邏輯上包含較短的規(guī)則才能降低計(jì)算需求,同時(shí)保持合理的性能。
每一個(gè)前項(xiàng)模糊集的組合對(duì)應(yīng)一個(gè)模糊規(guī)則,一旦其結(jié)果被指定,其結(jié)果取決于式(8),即給定模糊集合組合的最大置信值的類被賦值為規(guī)則結(jié)果。
其中,M表示分類的總數(shù)。E-算法進(jìn)一步將每個(gè)規(guī)則作為規(guī)則權(quán)重分配給確定的CFk等級(jí)。確定性等級(jí)是給定Ak的最大置信值和第二最大置信值csec之間的差值:
其中,csec=maxq∈{1,…,M};q≠pc(Ak? q)。通過初始規(guī)則種群的試驗(yàn)和錯(cuò)誤選擇每個(gè)類的用戶定義的數(shù)字規(guī)則(在本文中,Ns=30),使用 s(Ak?Bk)和c(Ak?Bk)的乘積作為度量。這些規(guī)則形成了從數(shù)據(jù)中提取出來的模糊分類規(guī)則庫,并負(fù)責(zé)分類任務(wù)的決策。
當(dāng)在測(cè)試數(shù)據(jù)上實(shí)現(xiàn)模糊分類任務(wù)時(shí),采用單一優(yōu)勝規(guī)則方法,對(duì)于任何測(cè)試數(shù)據(jù)Xr,從模糊分類規(guī)則庫中選擇一個(gè)規(guī)則,該規(guī)則將相容性等級(jí)的最大乘積與測(cè)試數(shù)據(jù)Xr和確定等級(jí)CFk劃分。
在本文中,廣東省電網(wǎng)故障數(shù)據(jù)用來說明故障原因識(shí)別。由于保護(hù)裝置(例如斷路器、熔斷器)的激活,檢測(cè)廣東省電網(wǎng)分布系統(tǒng)中的故障,則將相關(guān)信息記錄到數(shù)據(jù)收集系統(tǒng)中。每次停電記錄由33個(gè)信息域組成,其中六個(gè)信息域被認(rèn)為是統(tǒng)計(jì)顯著性檢驗(yàn)的建議中最重要的因素。這六個(gè)信息域是電路ID、天氣、季節(jié)、時(shí)間、相位影響和保護(hù)裝置激活。機(jī)組人員在恢復(fù)過程中輸入的屬性原因記錄了故障的實(shí)際根源,并用作類標(biāo)簽。在本文中用于說明客觀故障原因分為三個(gè)主要方面:樹木,動(dòng)物接觸和雷擊。
基于專家建議和不同地理特征的考慮,在廣東省的21個(gè)地級(jí)市選取7個(gè)地區(qū)作為研究對(duì)象:廣州(GZ)、深圳(SZ),珠海(ZH)、佛山(FS)、東莞(DG)、汕頭(ST)和惠州(HZ)。
所有選擇的分類變量分為六個(gè)因素,如表1所示。
表1 各影響因素的要素綜述
運(yùn)用似然測(cè)度將分類變量轉(zhuǎn)換為數(shù)值變量,即需要將數(shù)值輸入確定到先前不同的模糊集屬性的模糊隸屬度中,以滿足變量可以使用E-算法進(jìn)行計(jì)算。
式(10)所示的可能性度量代表在某個(gè)條件下,發(fā)生故障造成的停機(jī)的條件概率。
其中,i代表故障類型,j代表影響因素,Ni,j代表在條件 j下引起的故障i的停機(jī)次數(shù),Nj代表在條件 j下引起的停機(jī)次數(shù),Li,j代表在條件 j下引起的故障i的可能性度量。
似然測(cè)度可以為故障原因識(shí)別提供有用的信息,它在邏輯上可以用作E-算法的輸入值。然而,似然測(cè)度依賴于故障類型i和影響因素 j。相同的數(shù)據(jù)映射到不同故障原因得到不同似然測(cè)度集合,即使在相同影響因素下同樣適用。這意味著似然測(cè)度隨故障原因而變化。圖2所示的電網(wǎng)故障原因識(shí)別方案由三個(gè)相同的支路組成:樹木、動(dòng)物和雷電。每個(gè)分支標(biāo)識(shí)其指定的故障原因,也可以擴(kuò)展以識(shí)別更多的故障原因。
圖2 配電故障原因識(shí)別原理圖
在每個(gè)分支中,故障數(shù)據(jù)首先由似然計(jì)算模塊進(jìn)行轉(zhuǎn)換,然后將生成的似然測(cè)度傳遞給分類模塊,其中應(yīng)用E-算法確定輸入故障的類。由于每個(gè)分支只負(fù)責(zé)指定的故障原因,所以它面臨一個(gè)二進(jìn)制分類任務(wù)。由于故障原因造成的停電次數(shù)可能只占故障原因多樣性的一小部分(由樹木引起的故障、動(dòng)物引起的故障和雷擊故障的比例)。
決策融合模塊將不同分支的結(jié)果組合成最終的分類決策。當(dāng)不同的分支達(dá)到一致的故障原因估計(jì)時(shí),決策融合模型可以做出簡單的決策。當(dāng)沖突的結(jié)果偶爾發(fā)生時(shí),該模塊將測(cè)試數(shù)據(jù)的相容等級(jí)與每個(gè)分支進(jìn)行比較,以確定故障原因。
本文采用的是2004年至2012年廣東省電網(wǎng)故障數(shù)據(jù)。在每個(gè)代表地區(qū)數(shù)據(jù)按年劃分為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù):從2004年到2009年的故障數(shù)據(jù)用作訓(xùn)練集,其余數(shù)據(jù)作為測(cè)試集。表2顯示了各地區(qū)的數(shù)目、動(dòng)物和雷電造成的電網(wǎng)故障率。
表2 不同地區(qū)的樹木、動(dòng)物和雷電造成的電網(wǎng)故障
在訓(xùn)練數(shù)據(jù)中,雷電引起的故障占9.97%,測(cè)試數(shù)據(jù)占4.36%。在其測(cè)試數(shù)據(jù)集中,ZH地區(qū)只有1.89%的電網(wǎng)故障是由雷電引起。動(dòng)物造成的故障在訓(xùn)練數(shù)據(jù)中占15.25%,在測(cè)試數(shù)據(jù)中占14.83%。樹木引起的故障是最大的故障類別。在訓(xùn)練數(shù)據(jù)集中,樹木引起的平均故障率為25.52%,測(cè)試數(shù)據(jù)為28.88%。與雷電和動(dòng)物引起的故障相比,樹木引起的故障和非樹故障造成的故障相對(duì)比較平衡。
當(dāng)數(shù)據(jù)不平衡時(shí),使用傳統(tǒng)測(cè)度對(duì)整體分類精度會(huì)產(chǎn)生影響。若考慮兩類不平衡數(shù)據(jù)集,假設(shè)95%的數(shù)據(jù)來自大多數(shù)的類,而只有5%的數(shù)據(jù)來自少數(shù)的類。那么分類器盲目地將每個(gè)數(shù)據(jù)歸類到各自的類中,在不處理數(shù)據(jù)的情況下可達(dá)到95%的整體精度。運(yùn)用g-mean來評(píng)價(jià)數(shù)據(jù)集的分類性能可以有效避免不平衡數(shù)據(jù)帶來的分類結(jié)果誤差。g-mean是由混淆矩陣組成,假設(shè)由樹木、動(dòng)物和雷電引起的故障是正類,對(duì)應(yīng)的不由這些因素引起的故障為負(fù)類,如表3所示。
表3 混淆矩陣
正確率Acc+=TP/(TP+FN)表示正類的分類精度,而錯(cuò)誤率Acc+=TN/(TN+FP)表示負(fù)類的分類精度。g-mean檢驗(yàn)正負(fù)類的分類精度,并對(duì)兩者之間的巨大差異進(jìn)行判斷,數(shù)學(xué)表達(dá)式為
運(yùn)用基于g-mean的E-算法和ANN算法分別計(jì)算雷電、動(dòng)物、樹木造成的故障測(cè)試數(shù)據(jù),結(jié)果如圖3~圖5。ANN算法的性能基于30個(gè)運(yùn)行結(jié)果表明:在95%置信區(qū)間,豎條的高度表示平均值。由于E-算法的確定性結(jié)果為Nn,在模糊分類規(guī)則庫中包含的規(guī)則數(shù)量已經(jīng)確定。
圖3 雷擊引起的故障識(shí)別g-means
圖3 表明,在識(shí)別雷電引起的故障時(shí),E-算法在g-means中具有顯著的優(yōu)勢(shì)。在ST地區(qū)中,E-算法平均的g-mean值超過ANN算法的271%。在表4中,所有7個(gè)地區(qū)的“雷電引起的故障”假設(shè)的單樣本檢驗(yàn)的P值小于0.05。因此,零假設(shè)被拒絕,接受備選假設(shè)??梢缘贸鯡-算法的g-mean比ANN的平均g-mean大。盡管在所有七個(gè)選擇地區(qū)中,E-算法在雷電引起的故障中始終比ANN表現(xiàn)得更好,但對(duì)于其他兩個(gè)故障原因,不能得出類似的明確結(jié)論。
圖4 動(dòng)物引起的故障識(shí)別g-means
圖4 表明,在5個(gè)地區(qū)內(nèi)由動(dòng)物引起的故障,E-算法的g-mean值比平均g-mean值大,但在兩個(gè)地區(qū)中較小:SZ和FS。假設(shè)的單樣本檢驗(yàn)也表明,在5個(gè)地區(qū)中,E-算法優(yōu)于ANN算法。而對(duì)于FS地區(qū),ANN算法比E-算法有更大的g-mean值。
圖5表明,在四個(gè)地區(qū)中由樹木引起的故障,E-算法有較大的 g-mean,而 CZ、SZ和 HZ的g-mean值較小。
圖5 樹木引起的故障識(shí)別g-means
在實(shí)驗(yàn)數(shù)據(jù)中也對(duì)假設(shè)進(jìn)行了單樣本檢驗(yàn),以比較E-算法和ANN算法的g-mean:
式(12)是基于測(cè)試P值進(jìn)行的零假設(shè),可得到實(shí)驗(yàn)數(shù)據(jù)的概率。當(dāng)P值小時(shí),則會(huì)拒絕零假設(shè)。本文選用顯著性水平0.95,則P值小于0.05,拒絕零假設(shè),選擇備擇假設(shè)。表4給出了E-算法和ANN算法所實(shí)現(xiàn)g-mean單樣本檢驗(yàn)的P值。
表4 對(duì)假設(shè)檢驗(yàn)的P值g-means采樣
表4中假設(shè)單樣本檢驗(yàn)結(jié)果表明,E-算法在四個(gè)地區(qū)優(yōu)于ANN算法,在SZ和HZ中得到更小的g-mean值。
有效的電網(wǎng)故障原因識(shí)別有助于加快恢復(fù)電力供應(yīng),提高配電系統(tǒng)的可靠性。然而,許多現(xiàn)實(shí)數(shù)據(jù)不平衡問題常常影響到故障原因識(shí)別的性能,尤其是對(duì)少數(shù)類原因的識(shí)別。本文針對(duì)不平衡數(shù)據(jù),利用模糊分類E-算法計(jì)算電網(wǎng)故障數(shù)據(jù)并進(jìn)行原因識(shí)別。為了驗(yàn)證本研究所提出方法的有效性,將該算法與人工神經(jīng)網(wǎng)絡(luò)(ANN)進(jìn)行對(duì)比。結(jié)果表明:當(dāng)故障數(shù)據(jù)是不平衡時(shí),本研究算法可以實(shí)現(xiàn)更好的性能。