謝聞捷, 王永威, 陳豪鈺, 楊淑凡
(三峽大學(xué) 電氣與新能源學(xué)院,湖北宜昌 443002)
變壓器是供電系統(tǒng)的關(guān)鍵設(shè)備之一,保證變壓器安全平穩(wěn)地工作是保證供電正常工作和電源安全可靠的前提。而在變壓器的實(shí)際運(yùn)行中,電力系統(tǒng)因各種原因?qū)е碌耐话l(fā)故障以及變壓器自身的設(shè)備老化問(wèn)題,都會(huì)對(duì)變壓器的運(yùn)行造成嚴(yán)重的不良影響,當(dāng)這種影響對(duì)設(shè)備造成的損害達(dá)到一定的程度,就會(huì)發(fā)生變壓器的運(yùn)行故障[1-2]。
目前對(duì)于變壓器故障診斷國(guó)內(nèi)外學(xué)者已經(jīng)有了一定的研究,考慮到故障數(shù)據(jù)獲取的便捷性以及故障樣本與實(shí)際故障之間的關(guān)聯(lián)性,油中溶解氣體分析(dissolved gas analysis,DGA)技術(shù)被廣泛應(yīng)用于提取變壓器的故障主要特征信息,該方法可以準(zhǔn)確地識(shí)別變壓器的故障原因。通過(guò)DGA技術(shù),對(duì)變壓器油樣品進(jìn)行化學(xué)氣相色譜分析,測(cè)定油中溶解氣體的組分和含量,主要檢測(cè)的氣體包括:H2、CH4、C2H4、C2H6和C2H2等[3]。
DGA技術(shù)主要檢測(cè)變壓器油中溶解的特征氣體的成分和含量,并且因?yàn)楣收系脑?、部位、?yán)重程度等關(guān)系,特征氣體與故障之間存在著復(fù)雜的對(duì)應(yīng)關(guān)系。根據(jù)這一現(xiàn)象,國(guó)內(nèi)外的研究人員可以分析到溶解的氣體含量值與變壓器事故種類和嚴(yán)重程度有關(guān),從而產(chǎn)生了羅杰斯(Rogers)比值法、IEC三比值法、Duval三角形法等傳統(tǒng)方法。傳統(tǒng)的DGA方式雖然并不依賴于大量的樣本訓(xùn)練,但是如今的變壓器工作條件越來(lái)越復(fù)雜,產(chǎn)生的冗余特征信號(hào)會(huì)影響變壓器的故障診斷,從而大幅降低了診斷的準(zhǔn)確性。通過(guò)對(duì)變壓器的故障信息進(jìn)行特征選擇,減少高冗余信息所產(chǎn)生的影響,對(duì)提升故障診斷的準(zhǔn)確度有著重要意義。
在消除特征的領(lǐng)域,隨機(jī)森林(random forest,RF)作為一個(gè)基于集成技術(shù)把不同決策樹(shù)融合到一起的方法,可以有效地處理具有冗余數(shù)據(jù)的高維特征輸入樣本,并能評(píng)估數(shù)據(jù)的各個(gè)特征在分類問(wèn)題上的重要性,實(shí)現(xiàn)重要度排序。李萌鋒等[4]將RF運(yùn)用變電站隔離開(kāi)關(guān)的定位與識(shí)別中,將RF算法運(yùn)用到對(duì)隔離開(kāi)關(guān)的工作狀態(tài)分類中;董彥軍等[5]在電力負(fù)荷預(yù)測(cè)中使用RF對(duì)特征重要度排序的特點(diǎn),從時(shí)間日期和氣候因素建立的高維特征數(shù)據(jù)集篩選出重要特征量;在診斷方面,深度神經(jīng)網(wǎng)絡(luò)、貝葉斯網(wǎng)絡(luò)、極限學(xué)習(xí)機(jī)被廣泛用作電力變壓器的診斷方法,但這些算法受到自身的限制,如人工神經(jīng)網(wǎng)絡(luò)等可能容易發(fā)生局部最優(yōu)解的情況,貝葉斯網(wǎng)絡(luò)的先驗(yàn)概率模型很容易在分類與判斷時(shí)產(chǎn)生一定錯(cuò)誤,極限學(xué)習(xí)機(jī)具有快速的機(jī)器學(xué)習(xí)能力,但無(wú)法保證安全性。支持向量機(jī)(support vector machine,SVM)具有可以解決較小數(shù)據(jù)下的機(jī)器學(xué)習(xí)提問(wèn),計(jì)算速度快,解決非線性問(wèn)題的特性,由核函數(shù)和懲罰因子來(lái)共同確定分類性能。在智能算法方面,天牛須搜索(beetle antennae search,BAS)算法擁有出色的全局搜索性能、計(jì)算復(fù)雜程度低、收斂速度快的特點(diǎn),無(wú)需大量樣本便可完成尋優(yōu),尋優(yōu)效率有明顯提升。肖旰等[6]在高壓電纜故障診斷中,引入BAS算法對(duì)卷積神經(jīng)網(wǎng)絡(luò)的超參數(shù)進(jìn)行優(yōu)化,提高模型精度;李鎮(zhèn)等[7]將BAS算法使用到有源電力濾波器(APF)的直流側(cè)電壓控制問(wèn)題中,對(duì)自抗控制器(ADRC)的參數(shù)進(jìn)行優(yōu)化,提升了控制精度與響應(yīng)速度。
綜上所述,本研究采用RF算法的MDG值對(duì)變壓器油中溶解氣體的特征量重要度排序,再通過(guò)氣體的優(yōu)選, 從而減少數(shù)據(jù)冗余,在此基礎(chǔ)上,利用BAS算法優(yōu)化SVM的核函數(shù)與懲罰因子,并將優(yōu)選出來(lái)的特征量輸入到BAS-SVM故障診斷模型中,從而實(shí)現(xiàn)故障診斷。將優(yōu)選特征量與傳統(tǒng)特征量對(duì)比,并將BAS-SVM與PSO-SVM、ABC-SVM兩種模型對(duì)比,驗(yàn)證所提的優(yōu)選特征和BAS-SVM模型的實(shí)用性與可靠性。
RF是利用集成學(xué)習(xí)的概念實(shí)現(xiàn)多棵決策樹(shù)集成組合分類器[15]。RF對(duì)輸入特征量的平均值基尼不純度GI進(jìn)行計(jì)算,該指標(biāo)是通過(guò)基尼指標(biāo)計(jì)算節(jié)點(diǎn)的不純度以判斷特征量的重要程度,即平均值基尼指標(biāo)下降(mean decrease in Gini,MDG)指標(biāo),根據(jù)MDG值即可對(duì)優(yōu)選結(jié)果做出判斷。
以本文所論述的變壓器故障診斷方法為例,對(duì)RF模型加以解釋。假定獲得的故障樣本(xj,yj)的數(shù)量為D個(gè),j=1,2,3...W,其中xj代表變壓器設(shè)備的W維輸入特征,yj代表故障類型,為訓(xùn)練樣本的輸出值。在計(jì)算特征信息xj的重要度時(shí),以一棵決策樹(shù)i為起始節(jié)點(diǎn),計(jì)算xj在第i棵決策樹(shù)的GI值。
通過(guò)計(jì)算RF中每棵決策樹(shù)對(duì)應(yīng)的GI值并取平均值,得到MDG值,就可以得到特征信息xj的重要性。
式中:N為決策樹(shù)的數(shù)量。
SVM算法適用于小樣本學(xué)習(xí),對(duì)線性可分樣本和線性不可分樣本都具有良好的處理能力。
通過(guò)引入松弛變量ξi以及懲罰因子C,得到最小化優(yōu)化模型,目標(biāo)函數(shù)和約束條件為:
式中:M(xj)為特征向量xj的MDG值;b為偏置;ω為權(quán)重向量。
引入拉格朗日函數(shù)以及乘子αj,得到SVM的對(duì)偶問(wèn)題優(yōu)化模型:
由K-T條件可得,αj需滿足:
當(dāng)αj≠0時(shí),滿足對(duì)應(yīng)樣本為支持向量。對(duì)上述問(wèn)題求解后的最優(yōu)分類函數(shù)表示為:
式中:K(xi,xj)表示核函數(shù),采用高斯核函數(shù)(radial basis function,RBF)[20]。RBF表達(dá)式為:
式中;h為核函數(shù)。
BAS算法是一種不需要知道函數(shù)的具體類型,只需單一個(gè)體就能夠做到快速尋優(yōu)的智能算法,大幅降低了計(jì)算量。
BAS算法的建模過(guò)程如下:
(1)建立天牛須的隨機(jī)變量,并做歸一化數(shù)據(jù)處理:
式中:k為空間維度。
(2)經(jīng)過(guò)第t次迭代后左右天牛須的空間坐標(biāo)表示為:
式中:xlt和xrt分別為左右天牛須第t次迭代時(shí)的坐標(biāo);d0表示觸須的間距;x為質(zhì)心位置。
(3)設(shè)適應(yīng)度函數(shù)為f(),則左右觸須的最適應(yīng)度函數(shù)值分別為:
(4)天牛的空間位置表示為:
其中,sign()表示符號(hào)函數(shù),δt為第t次迭代時(shí)的步長(zhǎng)因子。
通過(guò)BAS優(yōu)化算法對(duì)SVM中的核函數(shù)h與懲罰因子C進(jìn)行尋優(yōu),進(jìn)而提升SVM故障診斷的準(zhǔn)確性。BAS-SVM故障診斷流程如圖1所示。
圖1 BAS-SVM故障診斷流程
BAS-SVM模型診斷流程如下:
(1)構(gòu)建天牛須隨機(jī)朝向向量,定義空間維度k。
(2)設(shè)置算法的步長(zhǎng)因子δ,其表達(dá)式為:
其中,eta取[0,1]之間靠近1的值,本文取eta=0.95。
(3)設(shè)置適應(yīng)度評(píng)價(jià)函數(shù):
式中:N為訓(xùn)練樣本數(shù);tsim(i)為第i個(gè)樣本輸出值;yi為第i個(gè)樣本的實(shí)際值。
(4)重新定義天牛須位置。從[-0.5,0.5]中隨機(jī)選取一個(gè)數(shù)字設(shè)點(diǎn)為新的天牛須起始點(diǎn),并將新的起始點(diǎn)輸入bestX進(jìn)行存儲(chǔ);通過(guò)表達(dá)式(13)計(jì)算新的起始點(diǎn)適應(yīng)度,將新的函數(shù)值輸入bestY進(jìn)行儲(chǔ)存;通過(guò)表達(dá)式(9)確定新的左右天牛須坐標(biāo)。
(5)更新bestX和bestY。通過(guò)式(10)的函數(shù)中f(xr)和f(xl)計(jì)算得到左右天牛須的位置,天牛的實(shí)時(shí)位置由式(9)確定,即對(duì)SVM的懲罰因子C和核函數(shù)h更新,同時(shí)計(jì)算實(shí)時(shí)記錄bestX和bestY。
(6)迭代停止。如果計(jì)算得到的適應(yīng)度函數(shù)值與預(yù)設(shè)的精度條件相一致,則執(zhí)行步驟(7),否則,返回步驟(4)進(jìn)一步對(duì)天牛須位置更新。
(7)得到最優(yōu)解。最優(yōu)解即為支持向量機(jī)優(yōu)化的懲罰因素C和核函數(shù)h。
以三比值法為基礎(chǔ),對(duì)常見(jiàn)的5種DGA診斷氣體(H2、CH4、C2H6、C2H4、C2H2)構(gòu)建特征向量來(lái)進(jìn)行分析是目前智能算法的主流故障診斷方式。目前生產(chǎn)運(yùn)行中的變壓器種類、電壓等級(jí)各不相同,所處的環(huán)境、運(yùn)行年限等也有較大的差別,所以不同的變壓器在產(chǎn)生相似的故障時(shí),產(chǎn)生的氣體含量和速率不同。因此,定義7種不同的變壓器運(yùn)行狀態(tài):正常(normal,N)、低能放電(low energy discharge,LED)、高能放電(high energy discharge,HED)、局部放電(partial discharge,PD)、中低溫過(guò)熱(thermal fault of low and medium temperature,LMT)、高溫過(guò)熱(thermal fault of high temperature,HT)、放電兼過(guò)熱(Discharge and overheating,DAO),其中每一類故障類型與氣體的對(duì)應(yīng)關(guān)系如圖2所示。
圖2 變壓器故障類型與故障氣體的關(guān)系
由圖2可知,分析的7種運(yùn)行狀態(tài)中,熱故障會(huì)使絕緣材料的性能減弱,同時(shí)熱應(yīng)力會(huì)分解固體材料生成一定量的CO和CO2。僅針對(duì)發(fā)熱點(diǎn)分析,CH4和C2H4氣體占據(jù)了總烴類氣體的絕大部分,溫度越高,C2H4的含量就會(huì)越高。C2H2氣體不是熱故障產(chǎn)生氣體的主要組成成分,占比很低,即使發(fā)生嚴(yán)重過(guò)熱情況時(shí),C2H2也不會(huì)有很高的含量。
故本研究不考慮CO和CO2作為參考?xì)怏w,兩種熱故障定義如下:①中低溫過(guò)熱,溫度低于500 ℃,CH4占比高于C2H4,C2H4占總烴2%以下,總烴較高;高溫過(guò)熱,溫度高于500 ℃,CH4占比低于C2H4,C2H4占總烴5.5%以下,H2占?xì)錈N氣體的27%以下,總烴高。
以常見(jiàn)的5種DGA診斷氣體(H2、CH4、C2H6、C2H4、C2H2)、總烴THC為基礎(chǔ),共生成22種特征氣體建立待選特征集(詳見(jiàn)表1)。
表1 輸入氣體待選特征量
按表1中特征量產(chǎn)生的冗余信息,提出基于RF特征選擇優(yōu)化的BAS-SVM變壓器DGA故障診斷方法,其具體步驟:①選取5種典型的油中溶解氣體,根據(jù)相關(guān)比值法,生成22維DGA待選輸入量;②預(yù)處理生成的待選特征集,并對(duì)數(shù)據(jù)集歸一化,分為訓(xùn)練集和測(cè)試集;③設(shè)置RF參數(shù),輸入訓(xùn)練樣本,輸出22維待選特征量的MDG值并排序;④得到MDG值結(jié)合SVM對(duì)待選特征量?jī)?yōu)選;⑤設(shè)置BAS的迭代次數(shù)、空間維度、初始位置的范圍;⑥通過(guò)訓(xùn)練集完成模型的訓(xùn)練,建立BAS-SVM變壓器DGA故障診斷模型;⑦將測(cè)試集輸入訓(xùn)練好的診斷模型并輸出故障類型。
本研究主要引用IEC TC10 database DGA數(shù)據(jù)庫(kù)和文獻(xiàn)[10-11]中的數(shù)據(jù),共計(jì)350組數(shù)據(jù)(每種故障類型均有50組樣本)。任選其中240組數(shù)據(jù)作為模型的訓(xùn)練樣本,另選110組數(shù)據(jù)作為測(cè)試樣本來(lái)檢測(cè)訓(xùn)練后模型的性能。
由表1確定的22維變壓器故障待選特征建立需要的DGA故障特征數(shù)據(jù)庫(kù),通過(guò)對(duì)得到的數(shù)據(jù)進(jìn)行歸一化處理,可以避免信息冗余的現(xiàn)象,并通過(guò)RF對(duì)已處理過(guò)的信息集中進(jìn)行優(yōu)選,設(shè)置RF的決策樹(shù)數(shù)量N。決策樹(shù)的數(shù)量決定對(duì)輸入特征向量的重要度評(píng)分的準(zhǔn)確性,設(shè)置為N=300,以保證模型的準(zhǔn)確性。22維特征量的重要度排序如圖3所示。
圖3 特征向量重要程度排序
由圖3可知,不同特征向量重要程度存在較大差異。為了消除冗余特征,需要對(duì)輸入的特征向量進(jìn)行優(yōu)選。圖4所示為特征向量數(shù)量對(duì)診斷準(zhǔn)確率的影響。
由圖4可知,不同特征的重要程度數(shù)值之間存在較大的差異,當(dāng)輸入特征量的維數(shù)較少時(shí),SVM模型將無(wú)法獲得特征量的關(guān)鍵信息,準(zhǔn)確率降低;隨著輸入特征數(shù)量逐漸增多,準(zhǔn)確率也隨之提高,峰值為82.38%,此時(shí)的輸入特征量達(dá)到10個(gè)。當(dāng)輸入特征量上升至16個(gè)時(shí),準(zhǔn)確率開(kāi)始降低,但繼續(xù)增加后又趨于平穩(wěn),在20個(gè)特征量全部輸入后準(zhǔn)確率為77.67%,這說(shuō)明在特征量增加到一定個(gè)數(shù)帶來(lái)的冗余信息對(duì)模型的分類性能產(chǎn)生了一定的負(fù)面影響。
通過(guò)圖4的結(jié)果,選擇RF排序后的前10種特征作為診斷模型的最優(yōu)輸入特征。定義樣本診斷準(zhǔn)確率為:
式中:Nright表示正確診斷的樣本總數(shù);Nall表示測(cè)試樣本總數(shù)。通過(guò)式(14)來(lái)驗(yàn)證優(yōu)選出的10維特征相較于傳統(tǒng)DGA數(shù)據(jù)、無(wú)編碼比值法以及三比值法的有效性,具體情況見(jiàn)表2。
表2 采用不同特征選擇方法的診斷準(zhǔn)確率
由表2可知,4種不同特征選擇方法的總樣本準(zhǔn)確率分別為60.95%、76.05%、57.76%、82.38%。其中優(yōu)選后的特征量對(duì)于HED故障的診斷準(zhǔn)確率達(dá)到100%,證明RF優(yōu)選后的特征量對(duì)于提高故障診斷的準(zhǔn)確率具有顯著的效果。
BAS算法通過(guò)對(duì)SVM中的懲罰因子與核函數(shù)優(yōu)化,可以提高診斷模型的準(zhǔn)確率。通過(guò)BASSVM診斷模型對(duì)上述10種輸入特征量進(jìn)行診斷,設(shè)置模型中的各項(xiàng)參數(shù):初始步長(zhǎng)δ=5,空間維度K=10,最大迭代次數(shù)E=100,懲罰因子C和核函數(shù)h從[0.01,1000]隨機(jī)選取。其適應(yīng)度變化曲線如圖5所示。BAS-SVM的診斷結(jié)果如圖6所示。
圖5 適應(yīng)度曲線變化趨勢(shì)
圖6 BAS-SVM故障診斷結(jié)果
由圖5可得,兩條適應(yīng)度曲線都隨迭代次數(shù)的增加而收斂,在第20次最佳適應(yīng)度達(dá)到最優(yōu)。由圖6可得,相較于表2的故障診斷準(zhǔn)確率82.38%,經(jīng)過(guò)BAS算法參數(shù)優(yōu)化的SVM模型的準(zhǔn)確率達(dá)到了92.78%,提高了10.4%。
為驗(yàn)證本研究的BAS-SVM算法的優(yōu)勢(shì),將上述優(yōu)選的10維特征變量分別用于其他主流的SVM故障診斷方法,采用粒子群極限學(xué)習(xí)機(jī)(PSO-SVM)和蜂群極限學(xué)習(xí)機(jī)(ABC-SVM)進(jìn)行對(duì)比實(shí)驗(yàn),三種算法對(duì)應(yīng)的適應(yīng)度曲線變化如圖7所示。兩種對(duì)比算法的診斷結(jié)果如圖8、圖9所示。
圖7 3種智能算法適應(yīng)度曲線變化趨勢(shì)
圖8 PSO-SVM故障診斷結(jié)果
圖9 ABC-SVM故障診斷結(jié)果
由圖7可知,對(duì)比3種方法,BAS-SVM的收斂速度與尋優(yōu)能力相較于其他兩種算法都有明顯的優(yōu)勢(shì)。3種算法的診斷準(zhǔn)確率與運(yùn)行時(shí)間對(duì)比如表3所示。由表3可知,對(duì)相同的故障集樣本,BASSVM的診斷用時(shí)更少,準(zhǔn)確率得到提升,其中對(duì)LED和PD的故障診斷準(zhǔn)確率均達(dá)到了100%,證明了BAS-SVM的準(zhǔn)確性與快速性。
表3 3種改進(jìn)的SVM智能算法的性能對(duì)比
研究了一種基于RF特征選擇的BAS-SVM變壓器DGA故障診斷方法,主要結(jié)論如下。
(1)利用RF特征選擇方法從22個(gè)特征量中優(yōu)選出10個(gè),對(duì)于文中所提到的7種狀態(tài)的診斷,新的特征量組合比傳統(tǒng)的三比值法、無(wú)編碼比值法、常用DGA數(shù)據(jù)準(zhǔn)確率分別高出21.43%、6.33%、24.62%,并消除了冗余信息。
(2)建立了BAS-SVM故障診斷模型。BAS優(yōu)化算法具有時(shí)間復(fù)雜度低、搜索能力強(qiáng)的特點(diǎn),對(duì)SVM的參數(shù)進(jìn)行優(yōu)化,將故障診斷準(zhǔn)確率由82.38%提升至92.78%。
(3)以新的10維特征量作為輸入,與傳統(tǒng)的PSO-SVM和ABC-SVM相比,BAS-SVM能夠更有效地減少模型訓(xùn)練的時(shí)間,同時(shí)提高了對(duì)本文所提不同故障狀態(tài)的分類準(zhǔn)確率,為變壓器故障診斷提供了一種新的方法。