張育杰,李典陽,2,馮 健,王善淵
(1. 東北大學(xué)信息科學(xué)與工程學(xué)院,遼寧省沈陽市110819;2. 國網(wǎng)遼寧省電力有限公司,遼寧省沈陽市110006)
電力變壓器作為電網(wǎng)輸配電系統(tǒng)的重要設(shè)備,如發(fā)生故障將會影響電能傳輸、電網(wǎng)運行穩(wěn)定及社會用電可靠性[1-2]。因此,對變壓器進行故障診斷及預(yù)判對于保障電力系統(tǒng)的穩(wěn)定可靠運行具有重要意義[3]。
變壓器發(fā)生故障時,絕緣油與固體絕緣材料會發(fā)生裂解,產(chǎn)生氫氣(H2)、甲烷(CH4)、乙烷(C2H6)、乙烯(C2H4)、乙炔(C2H2)、一氧化碳(CO)、二氧化碳(CO2)等氣體[4],油中溶解氣體分析(DGA)成為現(xiàn)場常用的故障診斷方法。隨著診斷方法的發(fā)展,多種智能算法[5-7]被用于故障分析。
受限于算法原理,智能診斷算法大都存在不足之處,尤其是參數(shù)的選擇對診斷效果影響很大,相關(guān)研究提出了改進磷蝦群算法(IKHA)[8]、帝國競爭算法(ICA)[9]、遺傳算法(GA)[10]等多種優(yōu)化算法及參數(shù)篩選方法,以達到更好的診斷效果。為克服單一診斷算法的局限性并進一步提升診斷準(zhǔn)確率,提出多種融合決策方法[11-12]。文獻[13-14]將DGA 數(shù)據(jù)、電氣及油試驗數(shù)據(jù)等作為智能診斷算法的輸入,再將其結(jié)果進行融合診斷。這些方法適用于事后故障分析,難以實現(xiàn)在線診斷,且沒有分析診斷算法間的互補性。
目前,變壓器智能診斷方法存在2 個問題有待解決。①DGA 方法所采用的氣體比值對于診斷效果影響較大,需采用恰當(dāng)?shù)姆绞綇亩喾N氣體比值參量中選取可提供充足診斷信息的故障征兆。文獻[15]采用遺傳算法(GA)從多種氣體比值中優(yōu)選故障征兆子集并優(yōu)化支持向量機(SVM)參數(shù)。文獻[16]通過多個屬性排序算法對氣體比值進行重要度排序,再通過融合策略選取較為重要的故障征兆,使用GA 進行征兆子集優(yōu)選。但這些方法未考慮不同屬性排序算法在同一診斷算法下的診斷效果差異,也未充分使用各算法排序的差異性結(jié)果。②診斷算法影響診斷性能及優(yōu)選子集的診斷效果呈現(xiàn),應(yīng)從多角度對優(yōu)選子集的合理性進行評判。相關(guān)研究對多種診斷算法進行了對比分析,文獻[17-18]分別將改進型極限機器學(xué)習(xí)(ELM)及深度信念網(wǎng)絡(luò)用于變壓器故障診斷,相較于SVM 等診斷算法取得了較好的診斷效果。這些診斷算法將為優(yōu)選子集的全方面評價提供依據(jù)。
模型融合可避免單一評價方法的局限性,避免模型冗余,達到模型互補的目的。本文對多種診斷算法基于傳統(tǒng)氣體比值進行診斷效果對比以選取診斷效果較好的算法。通過多種屬性排序算法對于故障征兆進行排序,使用選取的診斷算法基于征兆排序結(jié)果進行征兆優(yōu)選與模型訓(xùn)練。通過驗證集評估各診斷模型診斷效果差異性,選取診斷結(jié)果互補性強的診斷模型進行融合決策。從差異性和診斷效果2 個角度對融合模型性能進行評價,以此獲得融合多排序結(jié)果特點及各診斷算法優(yōu)勢的診斷模型。
本文所提的多模型選擇性融合診斷過程如附錄A 圖A1 所示。為避免數(shù)據(jù)分布不均衡及數(shù)據(jù)間數(shù)量級差異對征兆優(yōu)選及診斷效果的影響,首先采用合成少數(shù)類過采樣技術(shù)(SMOTE)按故障類對樣本進行均衡化處理,使用均衡化DGA 數(shù)據(jù)生成故障征兆。再結(jié)合各征兆數(shù)據(jù)分布特點,選擇性地進行預(yù)處理,符合長尾分布特點的征兆先進行反正切變換再進行歸一化,而不符合該特點的直接歸一化。
將歸一化處理后的樣本隨機分配成訓(xùn)練集和測試集,將訓(xùn)練集用于征兆優(yōu)選及診斷算法性能比較。本文算法庫包含ELM、SVM、決策樹、隨機森林、AdaBoost 共5 種診斷方法,選取傳統(tǒng)方法的氣體比值組合及本文全部故障征兆分別作為診斷算法的輸入,基于訓(xùn)練集進行5 次交叉驗證,分析診斷算法性能。
使用多個屬性排序算法對故障征兆進行重要度排序,用于篩選征兆子集,以加快建模并剔除冗余征兆??紤]到無監(jiān)督算法的簡約化效果受限于故障征兆數(shù)據(jù)的離散化方式,因此本文采用信息增益(IG)算法、卡方分布(CS)算法、Fisher Score(FS)算法與Student T(ST)檢驗算法等4 種有監(jiān)督排序算法[19-20]分析各征兆與故障標(biāo)簽之間關(guān)聯(lián)程度,給出重要度權(quán)值及征兆排序。
對常見智能診斷算法進行綜合性能比較與優(yōu)選。不同算法給出的征兆重要度排序代表了不同角度的征兆子集組合方法??紤]到基于單一排序結(jié)果或多算法的融合排序結(jié)果進行征兆子集優(yōu)選本質(zhì)上都只是基于一種排序結(jié)果而未考慮不同排序結(jié)果的合理性,本文基于優(yōu)選診斷算法分別對排序結(jié)果進行征兆優(yōu)選。而診斷算法不僅會影響到屬性子集的選擇結(jié)果,還會影響到優(yōu)選子集的診斷效果,因此基于多個征兆排序結(jié)果通過各診斷算法得到多個優(yōu)選子集及診斷模型,將優(yōu)選子集記為Subset,診斷模型記為M。這些模型代表了不同征兆選擇算法的分析角度及診斷算法不同的診斷性能,具有不同的診斷效果。
使用各模型對驗證集樣本進行診斷,通過分析其診斷結(jié)果來判斷模型間的差異性與互補性。選擇互補性強的模型進行融合不僅可以彌補單個屬性排序算法未考慮屬性間聯(lián)系的缺點,還可以整合不同診斷算法的性能優(yōu)勢,減少模型在單個樣本上的誤判。通過實驗生成多個融合模型,比較各融合模型間的性能,選取綜合性能最好的融合模型作為優(yōu)選結(jié)果。
定義差異度為D,指對變壓器故障類別分類時,分類結(jié)果的不完全程度。如果2 個模型在變壓器故障樣本集上的診斷結(jié)果完全相同,則差異性為0。只有當(dāng)2 個診斷模型的診斷結(jié)果存在差異性時,對其診斷結(jié)果進行融合才有可能提高診斷準(zhǔn)確率。一種差異性計算方法如式(1)所示。
式中:Sdiff為變壓器診斷模型診斷結(jié)果中任取2 組進行對比,所有組合的不同結(jié)果位數(shù)之和;p為所有分類結(jié)果正確率的平均值;L為診斷模型的個數(shù);N為樣本集包含樣本個數(shù);s為所有診斷模型正判樣本個數(shù)之和。
通過分析變壓器故障診斷模型間的差異性及D-S 證據(jù)理論融合診斷的準(zhǔn)確率可以逐步獲得融合模型,其流程如附錄A 圖A2 所示,詳細步驟如下。
步驟1:在訓(xùn)練集上通過征兆排序結(jié)果和診斷算法的組合訓(xùn)練,可以得到12 個診斷模型。在驗證集上使用12 個診斷模型進行故障診斷,獲得模型i在驗證集中每個樣本的診斷結(jié)果、驗證集整體正判率βi、每個樣本被判定為故障類k的概率qi(k)。
步驟2:對12 個診斷模型進行隨機編號,選取編號為1 的模型作為初始融合模型,將初始融合模型正判率a的值取為β1,差異度記為D。
步驟3:執(zhí)行11 次循環(huán),每次循環(huán)中,分析當(dāng)前新增模型j與融合模型在驗證集診斷結(jié)果的差異度,記為Dnew。
步驟4:比較Dnew與D的大小。如果Dnew值較大,則接著執(zhí)行步驟6 至步驟8,得到新融合模型的驗證集正判率anew,如果該值大于a,則記錄新增模型j的編號,否則不記錄。如果D值較大,則不執(zhí)行步驟5 至步驟7。
步驟5:將當(dāng)前有記錄的模型在驗證集上進行融合診斷,并計算當(dāng)前有記錄模型間的差異度值,更新當(dāng)前參數(shù)值a與D。
步驟6:計算診斷模型的基本概率賦值與不確定度,如式(3)所示。
式中:mi(k)為診斷模型i基于單個樣本的第k種故障類的基本概率賦值;mi(Θ)為診斷模型i診斷結(jié)果的不確定度;Θ為由n種故障類別構(gòu)成的辨識框架;n為故障類別個數(shù)。
步驟7:通過D-S 證據(jù)理論對融合模型j-1 與新增模型j的診斷結(jié)果進行融合。由式(3)分別計算融合模型j-1 與新增模型j的基本概率賦值與不確定度,并構(gòu)成融合信息源,記2 個融合信息源的子集分別為B和C。記辨識框架Θ下故障類別子集Ai的基本概率賦值為m(Ai),融合過程可表示為:
步驟8:采用基于基本概率賦值的決策方式獲得驗證集各樣本的融合診斷故障類別,并計算驗證集樣本正判率anew?;诨靖怕寿x值決策方式的判斷式如下。
設(shè)A1,A2?Θ,滿足:
式中:ε1和ε2為預(yù)選設(shè)定閾值,為常值。
步驟9:循環(huán)結(jié)束后,保留編號的診斷模型即為篩選的用于融合診斷的模型。
根據(jù)征兆排序結(jié)果,按照一定的比例組成征兆子集,通過診斷算法分析征兆子集診斷效果常被用于征兆優(yōu)選[16,21-25]。這種方法可以將與故障標(biāo)簽相關(guān)度較大的征兆逐漸放入一個子集,直至冗余征兆導(dǎo)致診斷效果變差而停止,本文采用逐維預(yù)判方法判斷征兆子集選擇的合理性,過程如附錄A 圖A3所示。逐維預(yù)判的過程是按照征兆重要度排序結(jié)果,每次增加一個故障征兆組成征兆子集,作為故障診斷信息源,通過診斷算法得到診斷準(zhǔn)確率。當(dāng)采用征兆排序方法R的排序結(jié)果使用診斷算法C進行逐維預(yù)判,若第i個征兆子集在L次實驗中的效果最好,則記該征兆子集為征兆排序方法R的優(yōu)選征兆子集SubR,所訓(xùn)練的診斷模型記為SubR-C。
本文從IEC TC10 數(shù)據(jù)庫和文獻[17-23]收集到316 組變壓器故障樣本作為數(shù)據(jù)集1 中原始樣本,使用smote 算法[26]平衡各變壓器故障類別樣本數(shù),得到699 組均衡樣本,其分布如附錄A 表A1 所示。從國網(wǎng)遼寧省電力有限公司收集了362 組有標(biāo)簽變壓器故障樣本作為數(shù)據(jù)集2,數(shù)據(jù)分布如表A2 所示。數(shù)據(jù)集1 和數(shù)據(jù)集2 中樣本類別可劃分為:低溫過熱(LT)、中溫過熱(MT)、高溫過熱(HT)、局部放電(PD)、低能放電(LD)、高能放電(HD)及正常狀態(tài)(NS)。在分析傳統(tǒng)氣體比值及文獻[12-18]所用征兆參量的基礎(chǔ)上,選擇表A3 所示的常用DGA 數(shù)據(jù)及其比值作為本文故障征兆的選擇范圍,共37 種。
本文對涉及氣體含量為0 的氣體比值的計算原則參考文獻[15]。通過分析各故障征兆樣本數(shù)據(jù)分布特點,對序號為1-6、14-15、17、19-22、24-35、37 的故障征兆參考文獻[17]先進行反正切變換再進行歸一化,其余故障征兆直接進行歸一化。
通過附錄B 中的綜合分析,本文選取隨機森林、決策樹與ELM 算法用于下文的多決策模型融合故障診斷?;诰鈽颖?,通過4 種排序方法對各征兆重要度進行排序。根據(jù)排序結(jié)果,通過3 種優(yōu)選診斷算法進行逐維預(yù)判,可以得到12 個診斷模型,診斷結(jié)果如圖1 所示。圖1 中為5 次交叉驗證平均診斷正判率。
由圖1 可知,征兆個數(shù)較少時,3 種診斷算法的逐維預(yù)判準(zhǔn)確率存在相互超越的現(xiàn)象,當(dāng)預(yù)判屬性個數(shù)較多時,診斷效果差異明顯,準(zhǔn)確率排序為隨機森林、ELM 與決策樹算法。這說明同一算法在不同故障診斷信息源下的診斷性能并不相同。對比同一診斷算法在不同排序結(jié)果下的逐維診斷性能可知,不同排序結(jié)果影響到了算法的診斷效果及優(yōu)選征兆子集。如隨機森林采用FS 算法排序的前36 個征兆組成的子集達到了最高診斷準(zhǔn)確率79.32%,而基于ST 檢驗排序的前30 個征兆可達到80.08%的準(zhǔn)確率。因此,排序與診斷算法的選擇對變壓器故障診斷效果存在影響。
圖1 基于不同排序結(jié)果的各診斷算法逐維診斷結(jié)果Fig.1 Dimensional diagnosis results of different diagnosis algorithms based on different ranking results
通過前文分析可知,基于不同征兆排序與診斷算法的變壓器診斷模型在不同評價指標(biāo)上各具優(yōu)勢,為發(fā)揮各模型優(yōu)勢并提高診斷效果,有必要對多個模型的診斷結(jié)果進行融合。
為分析各變壓器故障診斷模型間的差異性,隨機選取均衡樣本中225 個樣本組成測試集,其余樣本組成訓(xùn)練集用于模型訓(xùn)練,統(tǒng)計測試集各樣本被模型正確診斷的數(shù)量,共有106 個樣本被12 個診斷模型全部正確診斷,其余樣本分布如附錄C 圖C1所示。
由圖C1 可知,有100 個樣本存在至少一個模型診斷正確,如果能選擇恰當(dāng)?shù)淖儔浩鞴收显\斷模型進行融合決策,便可以達到提高診斷效果的目的。
附錄C 表C1 中列舉了12 個模型在14 個樣本上的診斷結(jié)果,1 表示診斷結(jié)果正確,0 表示錯誤,包含7種故障類,每種類別共2個樣本。表C1中,SubFS-ELM與SubFS-決策樹、SubCS-決策樹與SubIG-隨機森林、SubIG-決策樹與SubST-隨機森林在14 個樣本上的診斷結(jié)果完全相同,如果將這3 種組合分別進行結(jié)果融合,則無助于提高診斷準(zhǔn)確率。為了簡化,下文表述將各模型表述為Mi,模型編號對應(yīng)關(guān)系見表C1。
基于3.1 節(jié)訓(xùn)練集與測試集,得到各模型測試集樣本的診斷標(biāo)簽,計算模型間差異度。用測試集診斷正確率評價模型診斷效果。附錄C 表C2 給出了 模 型 篩 選 順 序 為M3、M7、M1、M9、M8、M11、M4、M10、M5、M6、M12、M2的融合模型篩選過程。在12 次的循環(huán)中,每次增加一個模型,對比融合后模型差異度值與融合準(zhǔn)確率的變化,按照1.3 節(jié)的流程來篩選融合后診斷效果比較好的模型。
M3作為初始選擇模型直接保留,在第3 和第4 次循環(huán)中,融合模型的差異度值和融合準(zhǔn)確率滿足了1.3 節(jié)所規(guī)定的要求,故保留診斷模型M1與M9。在第7 次和第12 次循環(huán)中,因為差異度不滿足要求,新增模型在融合后不能提供更多的診斷依據(jù),故舍去新增模型。其余循環(huán)過程因為融合準(zhǔn)確率未滿足要求而舍去新增模型。故此次篩選出的融合模型為M3⊕M1⊕M9。
第2 次和第3 次循環(huán)中均為2 個模型進行融合,但融合準(zhǔn)確率分別低于和高于單獨模型M3的正判率。另外,在第5 至12 次循環(huán)中,均為4 個模型進行融合,但在第10 次循環(huán)中,融合正判率出現(xiàn)明顯下降,說明了篩選用于融合模型的必要性。而最終的融合模型使用3 個模型進行融合,診斷效果有提升。通過30 次實驗,篩選出融合結(jié)果較好的10 組組合,如附錄C 表C3 所示。
為分析3.2 節(jié)篩選出的10 組融合模型的診斷性能,使用均衡樣本對10 組模型進行了5 次交叉驗證,每個模型所使用的5 次交叉驗證訓(xùn)練集和測試集均相同,且每個模型進行20 次重復(fù)實驗。將20 次實驗的平均正判率作為各測試集正判率,計算5 個測試集的平均正判率及分類精度標(biāo)準(zhǔn)差,結(jié)果如表1所示,表中G1至G10分別代表附錄C 表C3 中1 至10 組融合模型。
表1 融合模型交叉驗證結(jié)果Table 1 Cross-validation results of fusion models
由表1 可知,除融合模型G1、G2、G9外,其余7 組模型在交叉驗證的第1 組實驗取得了最好的正判率。全部融合模型在第3 組測試上獲得了最差的正判率。這說明融合模型在不同樣本集上診斷效果存在差異,差異大小反映了融合模型的泛化性能。從平均正判率看,G2與G5模型獲得了較好的診斷結(jié)果;從STD 值看,G2模型的泛化能力最好。
為分析融合模型在提高整體樣本正判率的同時是否較為平均地提高了各故障類別的區(qū)分能力,本文在表2 中給出了最高最低故障正判率及其類別與各故障類別正判率STD 值。
表2 融合模型各故障類別正判率Table 2 Correct judging ratio of different fusion models for various fault categories
從表2 可知,融合模型最高與最低正判率的故障類別存在差異,G5模型的平均正判率最高,G2模型 次 之。G7模 型 的STD 最 小,G2模 型 的STD 較 ?。ㄅ诺? 位)。對比附錄表B1 與表6 可知,融合模型的各故障類正判率STD 值小于各單獨診斷模型,說明融合模型具有更好故障類別區(qū)分能力。從綜合性能分析來看,本文篩選的G2模型具有更好的故障診斷能力。
以均衡樣本作為訓(xùn)練集,對G2融合模型進行模型訓(xùn)練,對數(shù)據(jù)集2 中的現(xiàn)場樣本進行故障診斷,實驗結(jié)果如表3 所示。表3 中,現(xiàn)場樣本的整體正判率達到85.64%,表明本文方法能夠較好地分析現(xiàn)場樣本信息,模型具有較好的泛化能力。
表3 現(xiàn)場樣本故障診斷結(jié)果Table 3 Fault diagnosis of on-site samples
除上文介紹的5 種智能診斷方法外,反向傳播神經(jīng)網(wǎng)絡(luò)(BPNN)是另一種常用的變壓器故障智能診斷技術(shù)。以均衡樣本作為訓(xùn)練集,數(shù)據(jù)集2 作為測試集進行故障診斷。BPNN 的輸入層節(jié)點數(shù)設(shè)置為37,輸出層設(shè)置為7,其他參數(shù)設(shè)置參照文獻[24]。以附錄A 表A2 中的全部故障征兆作為BPNN 的輸入,實驗重復(fù)進行20 次,實驗結(jié)果如表4所示。從表4 可知,G2模型診斷結(jié)果好于SVM、BPNN、ELM 與隨機森林算法。
表4 智能診斷方法診斷結(jié)果對比Table 4 Comparison of results of intelligent diagnosis methods
將均衡樣本作為訓(xùn)練集,現(xiàn)場樣本作為測試集,附錄B 表B1 中的4 種氣體比值參量組合分別作為深度置信網(wǎng)絡(luò)(DBN)的輸入,DBN 的參數(shù)設(shè)置及結(jié)果融合策略均參照文獻[14],其診斷模型記為MDBN。同樣將4 種氣體比值參量組合分別作為隨機森林、決策樹、ELM、SVM 的輸入進行模型訓(xùn)練,參數(shù)設(shè)置參照前文,按照投票聚合方法及文獻[12]的融合策略獲得融合模型,分別記為Mvote、MDS。各模型診斷結(jié)果如表5 所示,其中測試集查準(zhǔn)率與查全率的計算過程見附錄B。
表5 融合模型故障診斷結(jié)果對比Table 5 Comparison of fault diagnosis results of fusion model
結(jié)果表明,本文篩選的G2模型綜合診斷結(jié)果好于MDBN、Mvote與MDS融合模型,且在相同信息源下,證據(jù)融合理論的融合效果好于投票法。
本文通過多個智能算法基于不同征兆排序結(jié)果進行征兆子集優(yōu)選,并訓(xùn)練了多個診斷模型,通過模型的差異性分析對優(yōu)選模型進行診斷結(jié)果融合得到融合模型,用于故障診斷。該方法通過比較模型間性能差異,選取互補性強的模型進行融合,可以避免相似模型融合造成冗余,發(fā)揮各模型算法的優(yōu)勢,具有更好的診斷效果與綜合性能。進一步研究中,可以通過引入?yún)?shù)優(yōu)化算法進一步提高模型的診斷性能,并分析基于DGA 數(shù)據(jù)、電氣實驗數(shù)據(jù)等多源數(shù)據(jù)的診斷效果。
附錄見本刊網(wǎng)絡(luò)版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網(wǎng)絡(luò)全文。