栗 磊,王廷濤,赫嘉楠,牛 健,梁亞波,苗世洪
(1. 國網(wǎng)寧夏電力有限公司電力科學(xué)研究院,寧夏銀川 750002;2. 華中科技大學(xué)電氣與電子工程學(xué)院,湖北武漢 430074)
電力變壓器作為連接不同電壓等級的關(guān)鍵設(shè)備,在電力系統(tǒng)的輸、變、配電過程中起到不可替代的作用。因此,準(zhǔn)確掌握變壓器的健康狀態(tài),尤其是當(dāng)變壓器出現(xiàn)異常或故障后的及時診斷,對于保障電力系統(tǒng)的安全穩(wěn)定運(yùn)行具有重要意義。
電力變壓器按絕緣介質(zhì)可分為油浸式變壓器、干式變壓器和SF6氣體絕緣變壓器,其中以油浸式變壓器居多。針對油浸式變壓器的故障,傳統(tǒng)方法主要通過分析變壓器油中溶解氣體含量的比值特征進(jìn)行診斷,其代表為IEC 三比值法[1]、立體圖示法[1-2]、大衛(wèi)三角形法[3-4]等。此類方法簡便實(shí)用,但存在準(zhǔn)確率較低、判據(jù)過于絕對等問題。近年來,基于人工智能算法的變壓器故障診斷技術(shù)逐步發(fā)展起來。此類方法通常以變壓器油中溶解氣體含量等作為指標(biāo),通過大量歷史故障樣本來訓(xùn)練神經(jīng)網(wǎng)絡(luò)[5-6]、極限學(xué)習(xí)機(jī)[7-8]、相關(guān)向量機(jī)[9-10]、支持向量機(jī)(support vector machine,SVM)[11-12]等人工智能模型,使其具有識別變壓器故障類型的能力。與傳統(tǒng)方法相比,人工智能方法在診斷準(zhǔn)確率方面有較大提升。然而,變壓器故障樣本通常具有類間樣本數(shù)量不平衡的問題[13],當(dāng)采用人工智能方法對不平衡故障樣本進(jìn)行分類時,分類結(jié)果容易偏向多數(shù)類樣本。
為提高人工智能方法對不平衡樣本的分類性能,可以對樣本進(jìn)行均衡化處理,主要有欠采樣和過采樣2 種思路。前者是通過刪除部分多數(shù)類樣本實(shí)現(xiàn)類間樣本平衡,后者則是通過生成少數(shù)類樣本實(shí)現(xiàn)。由于欠采樣可能會丟失原樣本集的有效信息,導(dǎo)致分類不準(zhǔn)確[14],因此目前相關(guān)研究大多采用過采樣。過采樣算法中應(yīng)用最為廣泛的是合成少數(shù)過采樣技術(shù)(synthetic minority oversampling technique,SMOTE)[15-18]算法及其改進(jìn)算法,如自適應(yīng)綜合過采樣(adaptive synthetic sampling,ADASYN)[12,14]、SVM SMOTE[13]、基于圍繞中心點(diǎn)的劃分聚類的SMOTE[19]算法等。上述算法的應(yīng)用使得變壓器故障診斷的準(zhǔn)確率進(jìn)一步提升,但仍有可改進(jìn)之處,具體有如下2個方面。
1)SMOTE 算法存在一定的缺陷。首先,SMOTE算法依靠少數(shù)類樣本集生成新樣本,若所選樣本為噪聲樣本,則生成樣本同樣屬于噪聲,擾亂樣本集的正確分類。其次,SMOTE 算法生成新樣本時不考慮多數(shù)類樣本的分布情況,容易加重多數(shù)類與少數(shù)類的邊界重疊問題,使得類邊界更加模糊。此外,SMOTE 算法生成新樣本時不考慮少數(shù)類樣本的分布情況,若少數(shù)類樣本內(nèi)部分布不均勻,則經(jīng)SMOTE 算法過采樣后不均勻程度會進(jìn)一步加劇,使得少數(shù)類內(nèi)部稀疏區(qū)樣本不易識別。雖然現(xiàn)有改進(jìn)算法對前兩點(diǎn)缺陷進(jìn)行了一定的改善[20],但鮮有算法針對第三點(diǎn)缺陷提出改進(jìn)措施。
2)過采樣倍率優(yōu)化問題。過采樣倍率用于衡量生成新樣本的數(shù)量,若不對少數(shù)類樣本進(jìn)行過采樣,則倍率為0,若采用過采樣使少數(shù)類、多數(shù)類樣本數(shù)量一致,則倍率為1。倍率越小,對原樣本集改動越小,但不利于強(qiáng)化少數(shù)類樣本的數(shù)據(jù)特征;倍率越大,少數(shù)類樣本的數(shù)據(jù)特征越強(qiáng),但易引入噪聲。因此過采樣倍率選擇是一個參數(shù)優(yōu)化問題[21],而目前在變壓器故障診斷領(lǐng)域鮮有研究考慮這一問題。
針對上述問題,本文提出一種考慮過采樣器與分類器參數(shù)優(yōu)化的變壓器故障診斷策略。首先,針對SMOTE 方法存在的缺陷,提出其改進(jìn)方法——基于近鄰分布特性的改進(jìn)SMOTE(SMOTE based on nearest neighbor distribution,SMOTE-NND)算法,采用改進(jìn)方法對變壓器不平衡故障樣本進(jìn)行過采樣;其次,選取SVM 作為變壓器故障診斷基準(zhǔn)分類器,采用層次式有向無環(huán)圖支持向量機(jī)(hierarchical directed acyclic graph SVM,HDAG-SVM)算法搭建變壓器故障診斷的多標(biāo)簽分類結(jié)構(gòu);進(jìn)而,提出基于層次搜索-改進(jìn)哈里斯鷹(hierarchical searchmodified harris hawks optimization,HS-MHHO)算法的雙層參數(shù)優(yōu)化方法,對過采樣倍率、SVM參數(shù)進(jìn)行尋優(yōu),以得到泛化能力更強(qiáng)的診斷模型;最后,開展算例分析,驗(yàn)證本文所提方法的有效性。
根據(jù)標(biāo)準(zhǔn)DL/T 722—2014《變壓器油中溶解氣體分析和判斷導(dǎo)則》[1],油浸式變壓器的故障類型主要有過熱故障與放電故障2 類,故障代碼分別為T、D。過熱故障可細(xì)分為低溫過熱、中溫過熱、高溫過熱,故障代碼依次為T1、T2、T3;放電故障可細(xì)分為局部放電、低能放電、高能放電,故障代碼依次為PD、D1、D2。故障樣本的特征量主要有氫氣(H2)、甲烷(CH4)、乙烷(C2H6)、乙烯(C2H4)、乙炔(C2H2)這5種氣體的含量。本文參考該標(biāo)準(zhǔn)給出的故障類型與特征量開展變壓器故障診斷研究。
變壓器故障診斷是一個六分類問題,本文將其分解為7 個二分類問題,先構(gòu)建7 個不同的SVM 二分類器,再采用HDAG-SVM 算法對上述二分類器進(jìn)行組合以實(shí)現(xiàn)故障診斷的六分類功能。本文變壓器故障診斷策略分為數(shù)據(jù)預(yù)處理階段、診斷模型訓(xùn)練階段和診斷模型測試階段,具體結(jié)構(gòu)見附錄A圖A1。
數(shù)據(jù)預(yù)處理階段主要包括訓(xùn)練樣本分組、樣本數(shù)據(jù)歸一化和過采樣3個部分,其中歸一化公式為:
為使各組訓(xùn)練樣本集內(nèi)多數(shù)類樣本與少數(shù)類樣本的數(shù)量均衡化,需要對其中的少數(shù)類樣本進(jìn)行過采樣。過采樣后少數(shù)類的新增樣本數(shù)如式(2)所示。
訓(xùn)練階段,需要對過采樣倍率β及SVM 參數(shù)進(jìn)行優(yōu)化。β決定過采樣新增樣本的數(shù)量,如果β過小則難以突出少數(shù)類樣本的數(shù)據(jù)特征,如果β過大則容易引入噪聲,因此需要對β的取值進(jìn)行尋優(yōu)。同樣地,SVM的分類性能受其參數(shù)的影響,本文選用高斯核函數(shù)作為SVM 的核函數(shù),則待優(yōu)化SVM 參數(shù)為誤差懲罰參數(shù)C和高斯核寬度σ[11]。
測試階段,將未知類別故障樣本集送入已訓(xùn)練好的變壓器故障診斷多標(biāo)簽分類器進(jìn)行診斷,可得到故障樣本的診斷結(jié)果集。
由于變壓器故障樣本存在類間不平衡問題,需要對少數(shù)類樣本進(jìn)行過采樣,其中最常用的方法為SMOTE 方法,該方法通過線性插值的方式在2 個少數(shù)類樣本間生成新樣本,其原理可參考文獻(xiàn)[16]。鑒于傳統(tǒng)SMOTE 算法存在模糊類邊界、易產(chǎn)生噪聲、少數(shù)類內(nèi)部不均勻等問題,本文提出一種SMOTE-NND算法,該方法綜合考慮少數(shù)類樣本近鄰內(nèi)各類樣本的數(shù)量及歐氏距離,并據(jù)此分配每個少數(shù)類樣本生成過采樣樣本的數(shù)量,方法流程圖如圖1所示。
圖1 SMOTE-NND算法流程圖Fig.1 Flowchart of SMOTE-NND algorithm
SMOTE-NND算法的關(guān)鍵步驟如下。
1)計算每個少數(shù)類樣本在原始樣本集范圍內(nèi)的L近鄰,將L近鄰內(nèi)均為多數(shù)類樣本的少數(shù)類樣本認(rèn)定為噪聲。
2)計算非噪聲少數(shù)類樣本的類別指標(biāo),L近鄰內(nèi)多數(shù)類樣本越多,則類別指標(biāo)越大,如式(3)所示。
式中:S為非噪聲少數(shù)類樣本集;Ri為樣本i的類別指標(biāo);mi為樣本i的L近鄰內(nèi)多數(shù)類樣本的數(shù)量。
3)計算非噪聲少數(shù)類樣本在自身樣本集范圍內(nèi)的K近鄰,并計算距離指標(biāo),K近鄰歐氏距離平均值越大,則距離指標(biāo)越大,如式(4)所示。
式中:Qi為樣本i的距離指標(biāo);Di為樣本i與其K近鄰歐氏距離的平均值。
4)依據(jù)類別指標(biāo)和距離指標(biāo)為非噪聲少數(shù)類樣本分配過采樣樣本數(shù)量,如式(5)所示。
5)將非噪聲少數(shù)類樣本作為過采樣根樣本,在K近鄰內(nèi)依據(jù)各近鄰樣本到根樣本歐氏距離的幾何概率隨機(jī)選擇過采樣輔助樣本。
6)將過采樣根樣本和輔助樣本分別記為xroot、xaux,則過采樣生成的樣本xos如式(6)所示。
式中:r為[0,1]范圍內(nèi)的隨機(jī)數(shù)。
由步驟1)可知,SMOTE-NND 算法將L近鄰內(nèi)均為多數(shù)類樣本的少數(shù)類樣本認(rèn)定為噪聲,不對其進(jìn)行過采樣,可盡量避免引入新的噪聲。由步驟2)、4)可知,SMOTE-NND 算法使L近鄰內(nèi)多數(shù)類樣本較多的非噪聲少數(shù)類樣本生成更多的過采樣樣本,從而避免類邊界少數(shù)類樣本被淹沒,起到強(qiáng)化類邊界的作用。由步驟3)—5)可知,SMOTE-NND 算法使K近鄰歐氏距離平均值較大的非噪聲少數(shù)類樣本生成更多的過采樣樣本,并且使K近鄰內(nèi)距離根樣本更遠(yuǎn)的樣本被選為輔助樣本的概率更大,從而降低少數(shù)類樣本內(nèi)部分布的不均勻程度,提高分類器對少數(shù)類樣本稀疏區(qū)的識別率。
由于變壓器屬于高可靠性設(shè)備,其故障樣本數(shù)量較少,因此變壓器故障診斷問題屬于多標(biāo)簽小樣本分類問題。作為一種基于結(jié)構(gòu)風(fēng)險最小化原理的分類模型,SVM 具有訓(xùn)練效率高、泛化能力強(qiáng)、不易陷入局部最優(yōu)的優(yōu)點(diǎn),因此適用于解決變壓器故障診斷問題[11,15]。由于SVM 是一種二分類模型,因此處理多標(biāo)簽分類問題時需要采取一定的SVM 組合策略。本文采用HDAG-SVM 算法對變壓器故障樣本進(jìn)行分類,具體結(jié)構(gòu)如附錄A 圖A2 所示。由圖A1、A2 可知,HDAG-SVM 算法將訓(xùn)練所得的7 個SVM二分類器組合為層次式有向無環(huán)圖形式。在診斷階段,對于任意未知類別的故障樣本,HDAG-SVM算法僅需調(diào)用3 個SVM 二分類器即可給出診斷結(jié)果,且不存在分類重疊、不可分類等問題。
訓(xùn)練階段,需要對過采樣倍率β、SVM 誤差懲罰參數(shù)C、高斯核寬度σ這3種參數(shù)進(jìn)行優(yōu)化。本文采用雙層優(yōu)化方法求取參數(shù)最優(yōu)解,上層采用層次搜索(hierarchical search,HS)算法對β尋優(yōu),下層采用改進(jìn)哈里斯鷹算法(modified Harris hawks optimization,MHHO)對SVM參數(shù)C和σ尋優(yōu)。
HS 算法是對傳統(tǒng)遍歷搜索的改進(jìn),遵循“從整體到局部”的原則,首先采用大步距在整體范圍內(nèi)初步搜索,確定適應(yīng)度最高的點(diǎn),進(jìn)而在以該點(diǎn)為中心的區(qū)間內(nèi)小步距精細(xì)化搜索,最終求得全局最優(yōu)解。采用HS優(yōu)化β的具體步驟如下。
1)設(shè)置整體搜索的范圍為[0,1],步距為Δβw,搜索點(diǎn)為βwt=tΔβw,其中t=0,1,2,…,1/Δβw,1/Δβw為整數(shù)。在每個過采樣倍率下進(jìn)行過采樣,將利用過采樣補(bǔ)充后的擴(kuò)充訓(xùn)練樣本集送入下層MHHO優(yōu)化模塊對SVM 參數(shù)進(jìn)行優(yōu)化。優(yōu)化完成后將下層適應(yīng)度返回至上層HS優(yōu)化模塊。
4.2.1 MHHO算法
在上層優(yōu)化β的過程中,需要將擴(kuò)充訓(xùn)練樣本集送入下層并對SVM 進(jìn)行參數(shù)優(yōu)化。本文采用MHHO算法優(yōu)化SVM的誤差懲罰參數(shù)C和高斯核寬度σ,該算法是在哈里斯鷹(Harris hawks optimization,HHO)算法的基礎(chǔ)上改進(jìn)而來。HHO 算法是一種新型群體智能算法,其通過模擬哈里斯鷹的群體捕獵行為,并結(jié)合Lévy 飛行來實(shí)現(xiàn)對高維、非連續(xù)、不可微等復(fù)雜問題的求解,具體算法實(shí)現(xiàn)詳見文獻(xiàn)[22]。
HHO 算法搜索范圍較大,搜索效率較高,且針對多極值問題的收斂性能較好,但仍存在一定的缺陷,主要體現(xiàn)在兩方面。一是參數(shù)設(shè)置過于簡單,HHO算法中控制迭代進(jìn)程的2個重要參數(shù)分別為獵物逃逸能量E和獵物跳躍強(qiáng)度J,其中E設(shè)置為簡單的線性衰減,在迭代后期只進(jìn)行局部開發(fā),易陷入局部最優(yōu);而J設(shè)置為隨機(jī)數(shù),忽略了其與E之間的關(guān)系。二是位置更新時僅依賴種群個體信息,當(dāng)種群陷入局部最優(yōu)后無法產(chǎn)生新位置,使得迭代停滯,算法收斂早熟。針對上述問題,本文提出一系列改進(jìn)措施,具體如下。
1)改進(jìn)獵物迭代參數(shù)。
將E和J的更新公式改進(jìn)為:
式中:g為當(dāng)前迭代次數(shù);G為迭代次數(shù)上限。改進(jìn)后E的最值在迭代中后期變化較為平緩,在進(jìn)行局部開發(fā)的同時保留了進(jìn)行全局探索的可能性,降低了陷入局部最優(yōu)的風(fēng)險。改進(jìn)后J的最值由當(dāng)前的E值決定,一方面有助于擴(kuò)大局部開發(fā)階段前期的搜索范圍,另一方面有助于提高局部開發(fā)階段后期的搜索精度。
2)logistic混沌映射生成初始位置。
混沌映射具有良好的擬隨機(jī)性、非周期性、遍歷性,常用于啟發(fā)式算法種群初始位置的生成,以使種群盡量均勻分布,從而擴(kuò)大搜索范圍,提高全局收斂性能。本文采用logistic 混沌映射生成HHO 算法的種群初始位置,計算方法詳見文獻(xiàn)[23]。
3)精英保留策略。
HHO 算法在迭代過程中沒有將當(dāng)前代的種群最優(yōu)適應(yīng)度與上一代進(jìn)行比較,難以保證每一代的種群最優(yōu)適應(yīng)度單調(diào)不減。針對此問題,本文在每一代位置更新后增加1個判斷環(huán)節(jié),若當(dāng)前代種群最優(yōu)個體位置更新后適應(yīng)度變差,則不更新該個體位置,從而保證種群最優(yōu)適應(yīng)度向理論最優(yōu)值不斷逼近。
4)隨機(jī)變異。
為降低HHO 算法陷入局部最優(yōu)的風(fēng)險,引入個體隨機(jī)變異機(jī)制,若變異后個體的適應(yīng)度更優(yōu),則將該個體位置更新為變異位置,如式(9)、(10)所示。
4.2.2 MHHO算法在SVM參數(shù)優(yōu)化中的應(yīng)用
采用MHHO 算法優(yōu)化SVM 參數(shù)的關(guān)鍵點(diǎn)在于個體維度及適應(yīng)度函數(shù)的設(shè)置,其中哈里斯鷹個體設(shè)置為2 維向量,分別對應(yīng)SVM 的誤差懲罰參數(shù)C和高斯核寬度σ。適應(yīng)度函數(shù)如式(11)所示。
綜合本節(jié)分析,基于HS-MHHO 算法的過采樣器與分類器參數(shù)雙層優(yōu)化算法流程見附錄A圖A3。
本文共搜集到979 條變壓器故障樣本數(shù)據(jù),其來源主要有國家電網(wǎng)公司監(jiān)測數(shù)據(jù)以及公開發(fā)表的刊物、文獻(xiàn)等。將所有樣本劃分為訓(xùn)練樣本和測試樣本,樣本數(shù)量分配情況如表1所示。
本文算例在CPU 型號為Intel Xeon Gold 2.70 GHz、內(nèi)存為256 GB的計算機(jī)上進(jìn)行測試。SMOTENND 算法中,若近鄰數(shù)L、K取值過大則難以篩查噪聲少數(shù)類樣本,若取值過小則難以充分反映少數(shù)類樣本的周圍樣本分布情況,本文取常用經(jīng)驗(yàn)值5[16-17]。HS算法中,過采樣倍率β優(yōu)化范圍?。?,1],為保證β整體搜索的遍歷性與快速性以及β局部搜索的精細(xì)度,整體搜索步距Δβw取0.1[15],局部搜索步距Δβp取0.01。由表1 可知,在Δβp=0.01 的情況下,局部搜索點(diǎn)每前進(jìn)一次,過采樣樣本數(shù)量僅增加1 個,從而達(dá)到最大精細(xì)度。MHHO 算法中,優(yōu)化范圍、迭代次數(shù)上限G、種群容量H對算法性能有重要影響。若取值過大則算法收斂慢、計算效率低;若取值過小則算法搜索能力差,容易陷入局部最優(yōu)。本文對上述參數(shù)均取常用經(jīng)驗(yàn)值,其中SVM 誤差懲罰參數(shù)C的優(yōu)化范圍?。?,100],SVM 高斯核寬度σ優(yōu)化范圍?。?,10],G取100,H取30[11-12];為使分類器對少數(shù)類及多數(shù)類樣本具有同等的泛化能力,3 種適應(yīng)度指標(biāo)權(quán)值αAcc、αSen、αSpe均取1/3。
5.2.1 過采樣倍率訓(xùn)練結(jié)果分析
采用本文算法訓(xùn)練變壓器故障診斷模型,具體訓(xùn)練結(jié)果如表2 所示,其中展示的子分類器即為附錄A 圖A2 中HDAG-SVM 結(jié)構(gòu)的7 個二分類器。由表1 可知,子分類器SVMT/D的原始訓(xùn)練樣本集已平衡,因此無需進(jìn)行過采樣,對應(yīng)表2 中的過采樣倍率β為0。
表2 診斷模型訓(xùn)練結(jié)果Table 2 Training results of diagnostic model
由表2 可知,除SVMT/D外,其他子分類器的最優(yōu)過采樣倍率均小于1,可以在充分強(qiáng)化少數(shù)類樣本數(shù)據(jù)特征的同時,盡量避免引入噪聲樣本。訓(xùn)練階段采用留一法驗(yàn)證的準(zhǔn)確率基本都在90%以上,說明本文所提雙層優(yōu)化方法效果較好。各子分類器的訓(xùn)練用時均在0.5~2 h 范圍內(nèi),訓(xùn)練用時不同主要是由各子分類器原始訓(xùn)練樣本數(shù)量及不平衡度差異造成的,同時也受訓(xùn)練期間計算機(jī)CPU 及內(nèi)存占用情況的影響。由于變壓器故障診斷模型的訓(xùn)練過程是離線的,因此表2中的訓(xùn)練用時是可以接受的。
為進(jìn)一步展示過采樣倍率的訓(xùn)練效果,以SVMT1/T3為例,繪制其過采樣倍率搜索過程中下層適應(yīng)度的變化曲線,如圖2所示。
由圖2 可知,在整體搜索過程中,下層適應(yīng)度在β=0.9 處達(dá)到峰值0.934。進(jìn)一步地,局部搜索在β為[0.8,1]的范圍內(nèi)進(jìn)行。在局部搜索過程中,下層適應(yīng)度在β=0.87 處達(dá)到峰值0.943,即為最終的優(yōu)化結(jié)果。從整個搜索過程看,隨著過采樣倍率的增大,下層適應(yīng)度逐漸增大,達(dá)到峰值之后略有減小。這說明過采樣倍率的增大使得少數(shù)類樣本的數(shù)據(jù)特征不斷增強(qiáng),當(dāng)過采樣倍率達(dá)到一定值后少數(shù)類樣本數(shù)據(jù)特征的可強(qiáng)化空間趨于飽和,此后繼續(xù)增加倍率并不會使得下層適應(yīng)度有明顯增大,反而可能引入噪聲樣本導(dǎo)致分類性能下降。
5.2.2 不同過采樣倍率的診斷測試對比分析
為驗(yàn)證不同過采樣倍率對診斷模型分類性能的影響,設(shè)計3組算例CE1—CE3。CE1的過采樣倍率取為5.2.1節(jié)的優(yōu)化結(jié)果,CE2不進(jìn)行過采樣,CE3中各子分類器的過采樣倍率均取1,其余參數(shù)設(shè)置與5.1 節(jié)相同。分別采用CE1—CE3訓(xùn)練所得的診斷模型對379 個測試樣本進(jìn)行診斷分類,得到混淆矩陣如圖3所示,準(zhǔn)確率及診斷用時如附錄A表A1所示,379個測試樣本的具體診斷結(jié)果如附錄A表A2所示。
由圖3 及表A1 可知:CE1的整體準(zhǔn)確率及各類樣本的準(zhǔn)確率均在90%以上,且明顯高于CE2、CE3的各項準(zhǔn)確率。這說明與不進(jìn)行過采樣和完全平衡過采樣相比,對過采樣倍率進(jìn)行優(yōu)化后的故障診斷模型具有更強(qiáng)的故障樣本區(qū)分能力;CE1—CE3的診斷用時均在1 s 以內(nèi),體現(xiàn)了故障診斷模型的高效性。
圖3 算例CE1—CE3的混淆矩陣Fig.3 Confusion matrix of CE1 to CE3
由表A2 可知,存在極少一部分樣本,采用本文方法及其他對比方法(包括后續(xù)的算例)都無法對其進(jìn)行正確識別??赡茉斐稍摤F(xiàn)象的原因主要有2種:一是采樣裝置、監(jiān)測系統(tǒng)、數(shù)據(jù)記錄等本身具有一定的誤差,導(dǎo)致記錄的樣本與其故障類型實(shí)際上并不匹配,從而產(chǎn)生診斷錯誤;二是現(xiàn)有的樣本指標(biāo)體系不足以完全刻畫變壓器的故障特征,需要增加新的指標(biāo)以完善故障診斷模型。
為驗(yàn)證不同過采樣方法對診斷模型分類性能的影響,另設(shè)計2 組算例CE4、CE5與CE1進(jìn)行對比。相較于CE1,CE4、CE5的過采樣方法分別為SMOTE 算法、ADASYN 算法,2 種方法的近鄰數(shù)均取5。除上述設(shè)置外,CE4、CE5的其他設(shè)置與CE1相同。
5.3.1 不同過采樣方法的過采樣樣本分布對比分析
分別對CE1、CE4、CE5的診斷模型進(jìn)行訓(xùn)練,以各算例的子分類器SVMT1/T3為例,采用t-SNE 算法對不同過采樣方法的高維過采樣樣本分布情況進(jìn)行降維可視化,CE1、CE4、CE5的過采樣樣本分布分別如圖4、附錄A圖A4、圖A5所示。
由表1 可知,SVMT1/T3的少數(shù)類訓(xùn)練樣本為T1故障樣本。由圖4、圖A4、圖A5 可知,3 種過采樣方法均圍繞T1 原始樣本生成過采樣樣本,以增強(qiáng)T1原始樣本的數(shù)據(jù)特征。然而,SMOTE、ADASYN 算法生成了大量與T1 原始樣本重合的過采樣樣本,這部分樣本不具有數(shù)據(jù)增強(qiáng)價值,造成了過采樣冗余。且上述2種方法的過采樣樣本均圍繞T1原始樣本呈小團(tuán)體式、緊湊式分布,難以改善T1原始樣本的內(nèi)部稀疏問題。相比之下,SMOTE-NND算法的過采樣樣本在T1原始樣本小團(tuán)體之間建立聯(lián)系,降低了T1原始樣本分布的內(nèi)部不均勻程度,提高了過采樣質(zhì)量。
圖4 算例CE1(SMOTE-NND算法)的過采樣樣本分布圖Fig.4 Oversampling sample distribution of CE1(SMOTE-NND algorithm)
5.3.2 不同過采樣方法的診斷測試對比分析
分別采用CE1、CE4、CE5訓(xùn)練所得的診斷模型對379 個測試樣本進(jìn)行分類,得到混淆矩陣如圖5 所示,準(zhǔn)確率及診斷用時如附錄A表A1所示,379個測試樣本的具體診斷結(jié)果如附錄A表A2所示。
由圖5 及表A1 可知,CE1的各項準(zhǔn)確率均優(yōu)于CE4、CE5,這說明SMOTE-NND 算法通過降低合成噪聲風(fēng)險、強(qiáng)化類邊界、強(qiáng)化少數(shù)類樣本內(nèi)部稀疏區(qū)等措施,使得生成的過采樣樣本質(zhì)量高于SMOTE、ADASYN 算法生成的樣本,從而訓(xùn)練得到分類性能更強(qiáng)的診斷模型。
圖5 算例CE1、CE4、CE5的混淆矩陣Fig.5 Confusion matrix of CE1,CE4 and CE5
為驗(yàn)證不同參數(shù)優(yōu)化方法對診斷模型分類性能的影響,另設(shè)計2 組算例CE6、CE7與CE1進(jìn)行對比。相較于CE1,CE6、CE7的下層SVM 參數(shù)優(yōu)化方法分別為標(biāo)準(zhǔn)HHO 算法、粒子群優(yōu)化(particle swarm optimization,PSO)算法,HHO、PSO算法的種群數(shù)量、迭代次數(shù)上限均與5.1節(jié)相同,PSO 算法的自我學(xué)習(xí)因子、群體學(xué)習(xí)因子均取2。除上述設(shè)置外,CE6、CE7的其他設(shè)置與CE1相同。
5.4.1 不同參數(shù)優(yōu)化方法的優(yōu)化過程對比分析
分別對CE1、CE6、CE7的診斷模型進(jìn)行訓(xùn)練,以各算例的子分類器SVMT1/T3為例,CE1、CE6、CE7的尋優(yōu)過程分別如圖6、附錄A圖A6、圖A7所示。
圖6 算例CE1(MHHO算法)的迭代過程Fig.6 Iterative process of CE1(MHHO algorithm)
由圖6、圖A6、圖A7 可知,針對SVMT1/T3,3 組算例在各自的最優(yōu)過采樣倍率下分別采用MHHO、HHO、PSO 算法對SVM 參數(shù)進(jìn)行優(yōu)化,最終適應(yīng)度優(yōu)化結(jié)果分別為0.943、0.935、0.92,達(dá)到最優(yōu)適應(yīng)度時的迭代次數(shù)分別為54、32、14。這說明MHHO 算法的變異機(jī)制使算法進(jìn)入局部開發(fā)階段后依然有跳出局部最優(yōu)解的能力,相較于HHO、PSO 算法,算法早熟及陷入局部最優(yōu)的風(fēng)險更小。此外,MHHO 算法的初始適應(yīng)度最高,這是因?yàn)閘ogistic 混沌映射生成的哈里斯鷹個體初始位置幾乎均勻地散布在算法的搜索空間當(dāng)中,從而保障了算法的全局搜索性能。
5.4.2 不同參數(shù)優(yōu)化方法的診斷測試對比分析
分別采用CE1、CE6、CE7訓(xùn)練所得的故障診斷模型對379個測試樣本進(jìn)行分類,得到混淆矩陣如圖7所示,準(zhǔn)確率及診斷用時如附錄A表A1所示,379個測試樣本的具體診斷結(jié)果如附錄A表A2所示。
圖7 算例CE1、CE6、CE7的混淆矩陣Fig.7 Confusion matrix of CE1,CE6 and CE7
由圖7 及表A1 可知,CE1的各項準(zhǔn)確率均優(yōu)于CE6、CE7,這說明MHHO 算法前期全局探索-后期局部開發(fā)的最優(yōu)解搜索模式,配合其變異機(jī)制、混沌映射等改進(jìn)措施,能夠有效降低SVM 參數(shù)尋優(yōu)過程中的收斂早熟及局部最優(yōu)風(fēng)險,從而能夠搜索到使故障診斷模型泛化能力更強(qiáng)的SVM參數(shù)。
為驗(yàn)證不同基準(zhǔn)分類器對診斷模型分類性能的影響,另設(shè)計2 組算例CE8、CE9與CE1進(jìn)行對比。相較于CE1,CE8、CE9的基準(zhǔn)分類器分別為分類回歸樹(classification and regression tree,CART)分類器、K最鄰近(K-nearest neighbor,KNN)分類器。其中,CART 分類器的待優(yōu)化參數(shù)為最大決策分支數(shù)和最小葉節(jié)點(diǎn)觀測數(shù),優(yōu)化范圍均為[1,50]內(nèi)的整數(shù);KNN 分類器的待優(yōu)化參數(shù)為近鄰搜索數(shù),優(yōu)化范圍為[1,50]內(nèi)的整數(shù)。由于CART分類器和KNN分類器均為二分類器,因此CE8、CE9的多分類策略同樣采用層次式有向無環(huán)圖形式,如附錄A 圖A2 所示。除上述設(shè)置外,CE8、CE9的其他設(shè)置與CE1相同。分別采用CE1、CE8、CE9訓(xùn)練所得的診斷模型對379 個測試樣本進(jìn)行分類,得到混淆矩陣如圖8 所示,準(zhǔn)確率及診斷用時如附錄A 表A1 所示,379 個測試樣本的具體診斷結(jié)果如附錄A表A2所示。
圖8 算例CE1、CE8、CE9的混淆矩陣Fig.8 Confusion matrix of CE1,CE8 and CE9
由圖8 及表A1 可知:除CE9在PD 準(zhǔn)確率上略高于CE1之外,CE1的其他各項準(zhǔn)確率均優(yōu)于CE8、CE9,這說明與CART 分類器、KNN 分類器相比,SVM 作為處理變壓器故障診斷問題的基準(zhǔn)分類器更具優(yōu)勢。CART 分類器、KNN 分類器對T2、D1 等類型故障樣本分類性能較差,且存在T、D 大類故障樣本間錯分的問題,在診斷用時方面也略高于SVM,因此不適合用于變壓器的故障診斷。
針對變壓器故障樣本不平衡導(dǎo)致的故障診斷準(zhǔn)確率低、診斷效果偏向多數(shù)類樣本的問題,本文提出一種考慮過采樣器與分類器參數(shù)優(yōu)化的變壓器故障診斷策略,所得結(jié)論如下。
1)與不進(jìn)行過采樣及完全平衡過采樣相比,最優(yōu)倍率過采樣能夠充分強(qiáng)化少數(shù)類樣本的數(shù)據(jù)特征,且降低引入噪聲的風(fēng)險,可有效提高過采樣合成少數(shù)類樣本的質(zhì)量。相較于不進(jìn)行過采樣及完全平衡過采樣的診斷模型,測試樣本診斷準(zhǔn)確率分別提高了8.18%、4.49%。
2)本文提出的SMOTE-NND 過采樣方法能夠盡量避免合成噪聲,降低少數(shù)類與多數(shù)類的邊界模糊度,降低少數(shù)類樣本內(nèi)部分布的不均勻程度,從而合成高質(zhì)量的少數(shù)類樣本。相較于采用SMOTE、ADASYN 算法進(jìn)行過采樣的故障診斷模型,測試樣本診斷準(zhǔn)確率分別提高了4.22%、2.64%。
3)本文提出的基于MHHO 算法的下層SVM 參數(shù)優(yōu)化方法,收斂性能良好,不易陷入局部最優(yōu),使得優(yōu)化后SVM 的泛化能力更強(qiáng)。相較于采用HHO、PSO 算法進(jìn)行下層SVM 參數(shù)優(yōu)化的診斷模型,測試樣本診斷準(zhǔn)確率分別提高了4.22%、3.69%。
附錄見本刊網(wǎng)絡(luò)版(http://www.epae.cn)。