郝玲玲 朱永利
(華北電力大學(xué)控制與計(jì)算機(jī)工程學(xué)院 河北 保定 071003)
變壓器是電力系統(tǒng)的核心設(shè)備,保障其安全運(yùn)行至關(guān)重要,因此,提前對(duì)變壓器進(jìn)行故障診斷尤為關(guān)鍵[1]??梢愿鶕?jù)油中溶解氣體的濃度與變壓器故障之間的關(guān)系來預(yù)測(cè)故障,常用的方法就是油中溶解氣體分析法(Dissolved Gases Analysis,DGA)[2]?;贒GA的故障診斷方法通常有人工神經(jīng)網(wǎng)絡(luò)(ANN)[3]、極限學(xué)習(xí)機(jī)(ELM)[4]和貝葉斯分類器[5]等算法,其中:人工神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度慢;極限學(xué)習(xí)機(jī)的運(yùn)行速度快,但穩(wěn)定性差;貝葉斯分類器則需要將大量樣本數(shù)據(jù)進(jìn)行實(shí)驗(yàn)才能得到較好的效果。因此,如何在現(xiàn)有方法的基礎(chǔ)上提高診斷準(zhǔn)確率成為了重要問題。
隨著智能化的普及,越來越多的機(jī)器算法被用在變壓器診斷中。文獻(xiàn)[6]在變壓器診斷中采用深度自編碼器的方法,診斷精度高于傳統(tǒng)算法;文獻(xiàn)[7]將降噪自編碼器應(yīng)用于油色譜異常數(shù)據(jù)的特征提取中,但是特征提取的效果并不理想;文獻(xiàn)[8]將堆棧降噪自編碼器用于變壓器診斷中,診斷性能較好;文獻(xiàn)[9]將堆棧降噪自編碼器與支持向量機(jī)相結(jié)合應(yīng)用于壓力機(jī)軸承故障診斷中,故障識(shí)別度較高;文獻(xiàn)[10]將多分類最小二乘支持向量機(jī)用于變壓器診斷中,與傳統(tǒng)方法比診斷率較高。雖然上述文獻(xiàn)將幾種不同的自動(dòng)編碼器應(yīng)用于變壓器故障診斷中,但特征提取能力及診斷準(zhǔn)確率還有一定的不足之處。
本文針對(duì)目前存在的變壓器故障樣本少及無標(biāo)簽樣本無法充分利用的情況,提出了基于深度收縮自編碼器(DCAE)與支持向量機(jī)(SVM)相結(jié)合的混合診斷模型。該混合模型通過大量無標(biāo)簽樣本數(shù)據(jù)訓(xùn)練DCAE網(wǎng)絡(luò),自動(dòng)更新網(wǎng)絡(luò)參數(shù),然后用有標(biāo)簽樣本對(duì)DCAE-SVM網(wǎng)絡(luò)的參數(shù)進(jìn)行微調(diào)和進(jìn)一步優(yōu)化,實(shí)現(xiàn)故障預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明變壓器診斷準(zhǔn)確率明顯提高了。
DGA是通過獲取變壓器中的油色譜監(jiān)測(cè)數(shù)據(jù)來預(yù)測(cè)可能出現(xiàn)的故障類型,監(jiān)測(cè)的主要是幾種氣體(氫氣H2、甲烷CH4、乙烷C2H6、乙烯C2H4和乙炔C2H2)的濃度變化值,而且最終的故障類型主要包含熱故障和電故障兩種,具體分為中低溫過熱、高溫過熱、局部放電、高能放電、低能放電和正常情況6種狀態(tài)。
深度自編碼器[11]是由多個(gè)自編碼器(AutoEncoder,AE)疊加而成,逐層依次訓(xùn)練每個(gè)自編碼器,有效提高了單層網(wǎng)絡(luò)訓(xùn)練效果不理想的情況。Vincent等[12]為了提高自編碼器的魯棒性,在自編碼器的基礎(chǔ)上提出了降噪自編碼器(Denoising AutoEncoder,DAE)。本文所采用的收縮自編碼器(Contractive AutoEncoder,CAE)[13-16]就是在AE的基礎(chǔ)上為了進(jìn)一步提高自編碼器的魯棒性而提出的。
DAE網(wǎng)絡(luò)是在原始輸入數(shù)據(jù)上添加噪聲,然后再盡可能地重構(gòu)出原始數(shù)據(jù),從而達(dá)到提高網(wǎng)絡(luò)魯棒性的目的。CAE網(wǎng)絡(luò)是在傳統(tǒng)AE網(wǎng)絡(luò)重構(gòu)誤差的基礎(chǔ)上添加了一個(gè)新的雅克比矩陣項(xiàng),以此來保證自編碼器在較小數(shù)據(jù)擾動(dòng)的情況下有更強(qiáng)的魯棒性。DAE網(wǎng)絡(luò)是在重構(gòu)函數(shù)處的魯棒性較高,能抵抗小的數(shù)據(jù)擾動(dòng)情況;而CAE網(wǎng)絡(luò)依靠提取更準(zhǔn)確的樣本特征,在特征提取處的魯棒性高,能抵抗微小的輸入擾動(dòng),其結(jié)構(gòu)圖如圖1所示。
圖1 收縮自編碼器結(jié)構(gòu)
原始輸入數(shù)據(jù)用向量x={x1,x2,…,xn}表示,通過自編碼器將輸入數(shù)據(jù)映射到隱含層,表示為h={h1,h2,…,hm},然后通過解碼器在特征空間重構(gòu)輸入數(shù)據(jù)并輸出為y={y1,y2,…,yn},最后通過最小化重構(gòu)誤差優(yōu)化網(wǎng)絡(luò)參數(shù),最大程度地重構(gòu)原始數(shù)據(jù)。本文采用的編碼器、解碼器和重構(gòu)誤差函數(shù)如下。
(1) 編碼 編碼器將原始輸入數(shù)據(jù)通過函數(shù)映射實(shí)現(xiàn)從輸入層到隱含層的編碼過程,具體原理可表示為:
h=fθ(x)=Sf(Wx+b)
(1)
式中:θ={W,b}為模型參數(shù);W為權(quán)重矩陣;b為輸入層的偏置向量;Sf為激活函數(shù),本文用的是sigmoid函數(shù),表示為:
s(t)=1/(1+exp(-t))
(2)
(2) 解碼 解碼器將隱含層編碼h映射到輸出層y,并使得輸出層y的值與輸入層x的值盡可能相近,具體解碼原理可表示為:
y=gθ′(h)=s(W′h+b′)
(3)
式中:θ′={W′,b′}為解碼器的模型參數(shù);W′為解碼器的權(quán)重,且W′=WT;b′為隱含層的偏置向量。
(3) 重構(gòu)誤差函數(shù) 編碼器盡可能地縮小重構(gòu)誤差以此來達(dá)到優(yōu)化網(wǎng)絡(luò)參數(shù)的目的,CAE的重構(gòu)誤差函數(shù)是在原函數(shù)的基礎(chǔ)上加了雅克比矩陣構(gòu)成的,原本的自編碼器重構(gòu)誤差表達(dá)式為:
(4)
式中:L為重構(gòu)誤差,本文選用的是均方根誤差(Root Mean Squared Error,RMSE),表達(dá)式為:
(5)
式中:m為樣本數(shù),xi為輸入向量,yi為輸出向量。所以,CAE的重構(gòu)誤差函數(shù)可表示為:
(6)
(7)
因此,雅克比矩陣中F范數(shù)的平方和也可以表示為:
(8)
式中:hi為隱含層的輸出值,Wij為輸入層到隱含層的連接權(quán)重。
本文通過疊加多層CAE構(gòu)成深度收縮自編碼器(Deep Contractive AutoEncoder,DCAE),也就是將上一層CAE隱含層的輸出作為下一層的輸入,其網(wǎng)絡(luò)結(jié)構(gòu)圖如圖2所示。
圖2 DCAE網(wǎng)絡(luò)結(jié)構(gòu)圖
支持向量機(jī)(SVM)[17]是現(xiàn)在較為常用的分類方法,在二分類、小樣本模式識(shí)別等方面均已取得了一定的成果。
為了實(shí)現(xiàn)對(duì)樣本的分類,SVM可以選擇不同的核函數(shù),將樣本數(shù)據(jù)從低維映射到高維空間,從而找到一個(gè)超平面將其分為不同的類型,假設(shè)訓(xùn)練樣本集為:{(ui,vi),i=1,2,…,n},其中ui為類屬性,vi為類標(biāo)記,n為樣本個(gè)數(shù),則超平面可定義為:
(9)
式中:ai為拉格朗日因子,K(u,ui)為核函數(shù),b為偏置量。本文核函數(shù)選用的是高斯徑向核函數(shù):
(10)
傳統(tǒng)的SVM針對(duì)的是二分類問題,因此,本文將變壓器診斷分解為多個(gè)二分類問題相結(jié)合的方法。針對(duì)變壓器故障診斷來說,需要使用5個(gè)二分類器,第一次分類區(qū)分的是故障和正常兩種情況,第二次區(qū)分的是熱故障和放電故障,之后三次分類就詳細(xì)區(qū)分具體的故障,模型圖如圖3所示。
圖3 SVM多分類故障診斷模型
本文首先用無標(biāo)簽樣本數(shù)據(jù)訓(xùn)練DCAE網(wǎng)絡(luò),初始化并調(diào)整網(wǎng)絡(luò)參數(shù),然后采用有標(biāo)簽數(shù)據(jù)對(duì)DCAE-SVM模型參數(shù)進(jìn)行調(diào)優(yōu),最終得到優(yōu)化后的DCAE-SVM故障診斷模型,具體步驟如下:
(1) 對(duì)數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化處理,并劃分成訓(xùn)練集與測(cè)試集兩部分。
(2) 設(shè)置DCAE網(wǎng)絡(luò)參數(shù),并初始化模型。
(3) 使用無標(biāo)簽樣本訓(xùn)練DCAE網(wǎng)絡(luò),并自動(dòng)調(diào)整每一層的參數(shù)W和b,將調(diào)整好網(wǎng)絡(luò)參數(shù)的DCAE模型作為預(yù)訓(xùn)練模型。
(4) 用一部分有標(biāo)簽樣本調(diào)整DCAE-SVM混合模型參數(shù),得到優(yōu)化后的網(wǎng)絡(luò)模型。
(5) 用剩下的有標(biāo)簽樣本進(jìn)行故障診斷測(cè)試,并計(jì)算診斷準(zhǔn)確率。
本文選用的故障樣本是從同一型號(hào)的變壓器上采集的,共包含1 500組無標(biāo)簽樣本和360組有標(biāo)簽樣本,將其中1 500組無標(biāo)簽樣本作為訓(xùn)練集,360組有標(biāo)簽樣本中的180組作為調(diào)優(yōu)集,另外180組作為測(cè)試集。
根據(jù)DGA數(shù)據(jù)的特點(diǎn),首先對(duì)五種典型氣體的含量值進(jìn)行標(biāo)準(zhǔn)化處理,然后將其作為DCAE網(wǎng)絡(luò)的輸入值。標(biāo)準(zhǔn)化公式如下:
(11)
式中:xnew是標(biāo)準(zhǔn)化處理后的氣體值;x為氣體原始值;xmean表示數(shù)據(jù)集中該類氣體的平均值;xmax表示該類氣體中最高值;xmin表示該類氣體中最低值。
變壓器故障診斷結(jié)果共有6種類型,編碼情況如如表1所示。
表1 變壓器狀態(tài)編碼
本文采用MATLAB R2016a平臺(tái)測(cè)試算法性能,硬件環(huán)境為L(zhǎng)enovo,i5- 7300處理器,64位操作系統(tǒng),8 GB運(yùn)行內(nèi)存。
DCAE網(wǎng)絡(luò)預(yù)訓(xùn)練階段需要首先確定隱含層層數(shù)和隱含層節(jié)點(diǎn)數(shù),然后設(shè)置迭代次數(shù)為1 000,學(xué)習(xí)率為0.01,網(wǎng)絡(luò)的權(quán)值矩陣W和偏置系數(shù)b都是隨機(jī)生成的較小數(shù)值。
(1)隱含層節(jié)點(diǎn)數(shù) 設(shè)收縮自編碼器隱含層層數(shù)為1層,輸入1 500組無標(biāo)簽樣本數(shù)據(jù)分別測(cè)試了隱含層節(jié)點(diǎn)數(shù)為0~100時(shí)的均方根誤差(RMSE),實(shí)驗(yàn)結(jié)果如圖4所示。
圖4 隱含層節(jié)點(diǎn)數(shù)與RMSE的關(guān)系圖
可以看出,當(dāng)隱含層節(jié)點(diǎn)數(shù)小于50時(shí),隨著隱含層節(jié)點(diǎn)數(shù)的增加,RMSE的值有明顯下降的趨勢(shì);當(dāng)節(jié)點(diǎn)數(shù)在50~60之間時(shí),RMSE的值下降趨勢(shì)變得緩慢;而當(dāng)節(jié)點(diǎn)數(shù)在60~100之間時(shí),RMSE的值幾乎不變。因此,最終選用的隱含層節(jié)點(diǎn)數(shù)為60,若隱含層層數(shù)增加,則隱含層節(jié)點(diǎn)依次選取前一層一半的節(jié)點(diǎn)數(shù)會(huì)使得實(shí)驗(yàn)結(jié)果較優(yōu)。
(2)隱含層層數(shù) 設(shè)收縮自編碼器的隱含層層數(shù)為1~7,隱含層節(jié)點(diǎn)數(shù)按層數(shù)依次為:60,30,15,8,4,2,1,并以1 500組無標(biāo)簽DGA數(shù)據(jù)作為輸入進(jìn)行實(shí)驗(yàn),得到網(wǎng)絡(luò)輸出的均方根誤差,如圖5所示。
圖5 隱含層層數(shù)與RMSE的關(guān)系
可以看出,當(dāng)隱含層節(jié)點(diǎn)數(shù)在1~3之間時(shí),RMSE的值下降得很明顯;而當(dāng)隱含層節(jié)點(diǎn)是在3~7之間時(shí),RMSE的值逐漸趨于穩(wěn)定。因此,本文選取的隱含層層數(shù)為3層,每層節(jié)點(diǎn)數(shù)分別為60、30、15。
本文首先對(duì)比了在隱含層層數(shù)與隱含層數(shù)量都相同情況下的深度收縮自編碼器與堆棧降噪自編碼器的RMSE的值,如圖6所示,其中:選用1 500組無標(biāo)簽數(shù)據(jù)進(jìn)行實(shí)驗(yàn),堆棧降噪自編碼器的隱含層層數(shù)為3層,隱含層節(jié)點(diǎn)數(shù)分別為60、30、15,學(xué)習(xí)率為0.01,噪聲比例為0.2。
圖6 兩種自編碼器的RMSE值對(duì)比
可以看出,隱含層節(jié)點(diǎn)數(shù)量在0~100之間時(shí),幾乎都是本文選用的DCAE網(wǎng)絡(luò)的RMSE的值更低,表明使用DCAE網(wǎng)絡(luò)輸出的特征值比使用堆棧降噪自編碼器輸出的特征值與輸入的特征值更加接近。
其次,用180組有標(biāo)簽數(shù)據(jù)集微調(diào)DCAE-SVM模型,其中模型的輸入數(shù)據(jù)為180組標(biāo)準(zhǔn)化處理后的5種氣體含量值,中間經(jīng)過三個(gè)隱含層,將提取到的特征數(shù)據(jù)傳送到SVM中,輸出6種故障類型的編碼值,并與原本給定的故障類型進(jìn)行比對(duì)微調(diào),得到最優(yōu)的網(wǎng)絡(luò)模型。最終,用另外180組有標(biāo)簽樣本數(shù)據(jù)集進(jìn)行測(cè)試,并計(jì)算出分類準(zhǔn)確率。
為更明顯地對(duì)比出實(shí)驗(yàn)效果,本實(shí)驗(yàn)分別選用有標(biāo)簽樣本中的120組數(shù)據(jù)、150組數(shù)據(jù)和180組數(shù)據(jù)作為訓(xùn)練集。另外180組數(shù)據(jù)作為測(cè)試集,而且將提前訓(xùn)練好DCAE的DCAE-SVM模型與傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)、SVM模型進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表2所示。其中BP神經(jīng)網(wǎng)絡(luò)的迭代次數(shù)與學(xué)習(xí)率的值均與DCAE網(wǎng)絡(luò)一致,SVM均選用RBF核函數(shù),懲罰系數(shù)C設(shè)為80,參數(shù)Gamma設(shè)為0.008。
表2 不同訓(xùn)練集時(shí)基于SVM和DCAE-SVM的結(jié)果對(duì)比
從表2中可以看出,隨著訓(xùn)練集數(shù)量的增加,診斷準(zhǔn)確率均有所上升,但是本文采用的DCAE-SVM模型的準(zhǔn)確率更高,而且準(zhǔn)確率變化幅度更小,說明DCAE-SVM算法前期能夠有效利用大量無標(biāo)簽樣本數(shù)據(jù),提取出更有效的樣本特征,從而提高了預(yù)測(cè)準(zhǔn)確率。
另外,在分類算法實(shí)現(xiàn)過程中,F(xiàn)1指標(biāo)是非常常用的模型效果判別方法,需要根據(jù)各種變壓器狀態(tài)的準(zhǔn)確率和召回率來計(jì)算出F1-Score、Micro-F1和Macro-F1三個(gè)指標(biāo)值,精確率的計(jì)算式為:
(12)
召回率的計(jì)算式為:
(13)
F1-Score又稱平衡F分?jǐn)?shù)法,計(jì)算式為:
(14)
Micro-F1又稱微平均法,是將變壓器6種狀態(tài)的精確率之和以及召回率之和代入式(14)中計(jì)算出的;Macro-F1又稱宏平均法,是將每一種變壓器狀態(tài)的精確率與召回率都分別代入到式(14)中,然后將6個(gè)F1-Score的值取平均值得到的。
本實(shí)驗(yàn)選用180組訓(xùn)練集與180組測(cè)試集對(duì)DCAE-SVM方法的一次診斷結(jié)果做進(jìn)一步的判定,詳細(xì)預(yù)測(cè)結(jié)果如表3所示。
表3 詳細(xì)預(yù)測(cè)結(jié)果
由表3的實(shí)驗(yàn)結(jié)果可以計(jì)算出DCAE-SVM方法的精確率、召回率,以及F1-Score值,如表4所示。
表4 精確率與召回率結(jié)果
因此,由式(14)與表3、表4可得到Micro-F1的值為0.916 7,Macro-F1的值為0.905 0,而采用BPNN以及SVM方法計(jì)算出的Micro-F1值與Macro-F1值均不超過0.85。這表明本文采用的DCAE-SVM的變壓器故障診斷分類方法是有效的。
針對(duì)目前常用的變壓器故障診斷方法存在診斷準(zhǔn)確率不高、無法充分利用無標(biāo)簽樣本等問題,本文采用了基于DCAE-SVM的變壓器故障診斷方法,實(shí)驗(yàn)結(jié)果證明,深層的DCAE-SVM模型不僅可以更好地利用無標(biāo)簽樣本數(shù)據(jù)進(jìn)行訓(xùn)練,而且特征提取能力高于常用的堆棧降噪自編碼器,故障診斷率高于常用的BP神經(jīng)網(wǎng)絡(luò)和SVM,是一種有效的變壓器故障診斷方法。