郭如雁,彭敏放,曹振其
(湖南大學(xué)電氣與信息工程學(xué)院,湖南 長沙 410082)
變壓器是電力系統(tǒng)中傳輸電能的重要設(shè)備,關(guān)于變壓器故障診斷的研究對電力系統(tǒng)的運行、維護和檢修具有十分重要的意義。在電力系統(tǒng)中500/220 kV和500/330 kV油浸式變壓器是各變電站常用的設(shè)備,雖然變壓器的故障率較低,但由于附件(如分接開關(guān))質(zhì)量問題,線匝、線餅間的絕緣損壞,內(nèi)部絕緣距離不夠,絕緣油被污染,雷擊,出口短路,長期過載,過電壓運行等內(nèi)外部原因,均能造成變壓器的重大故障,給國民經(jīng)濟造成嚴(yán)重損失。為保障電力系統(tǒng)的安全可靠穩(wěn)定運行,國內(nèi)外各學(xué)者圍繞變壓器故障診斷,做了多個方向的研究。文獻[1]通過小波變換對繞組行波的頻率響應(yīng)進行分析,文獻[2]通過測量變壓器原邊電壓電流利用二端口網(wǎng)絡(luò)知識在線監(jiān)測短路阻抗,文獻[3]通過提取變壓器振動信號的時域特征進行主分量分析,文獻[4]通過遷移學(xué)習(xí)將故障數(shù)據(jù)清洗得到的有效知識輸入支持向量機進行故障分類,文獻[5]基于變壓器油溶解氣體(Dissolved Gas Analysis, DGA)的油色譜數(shù)據(jù)結(jié)合深度神經(jīng)網(wǎng)絡(luò)進行分析等。由于前四者分別具有電磁干擾、對故障反映的靈敏度低、感應(yīng)高壓造成的安全隱患、集成多個二分類診斷器效率不高等問題,目前基于DGA的故障診斷[6,7]依然是變壓器故障診斷的主要方法之一。
基于DGA診斷有實時在線進行,安全無干擾、發(fā)現(xiàn)變壓器早期潛伏性故障[8]等優(yōu)點,結(jié)合深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)強大的特征提取并進行多分類的能力,能較大地提高變壓器故障診斷的準(zhǔn)確率,并且所建模型具有性能穩(wěn)定、易收斂的優(yōu)點,是一個新穎且發(fā)展前景廣闊的研究方向。至今國內(nèi)已知的基于深度學(xué)習(xí)的變壓器故障診斷神經(jīng)網(wǎng)絡(luò)有四種[9-12]。這四種網(wǎng)絡(luò)均能實現(xiàn)多分類,但由于變壓器故障樣本數(shù)據(jù)較少,需要使用數(shù)據(jù)增強進一步提高模型的泛化能力。卷積神經(jīng)網(wǎng)絡(luò)擅長提取抽象特征,能夠?qū)⒏呔S空間向量非線性變換映射到低維空間從而實現(xiàn)線性可分,在圖像分類、目標(biāo)檢測等問題上取得了很大的成功。本文所提出的基于SE-DenseNet變壓器故障診斷模型,就是深度壓縮、激勵網(wǎng)絡(luò)和深度稠密網(wǎng)絡(luò)的結(jié)合。模型的輸入采用無編碼比值法[13]所提出的9種不同組合形式的特征氣體比率值,模型的輸出為9種故障類型的各自概率值,將概率值代入softmax交叉熵損失函數(shù)中,再使用Adam算法最優(yōu)化該損失函數(shù),最終使SE-DenseNet模型的預(yù)測準(zhǔn)確率收斂。
基于大云物移智技術(shù)平臺的智能傳感器在線監(jiān)測的變壓器油色譜數(shù)據(jù)不平衡,且故障數(shù)據(jù)量少,為此提出WGAN[14]網(wǎng)絡(luò)進行數(shù)據(jù)增強,即樣本生成技術(shù),WGAN可生成同一故障類別同特征的多類樣本數(shù)據(jù),為樣本原始特征非線性化表示提供了充足的數(shù)據(jù)源。本文在已有故障數(shù)據(jù)的基礎(chǔ)上利用WGAN 將故障樣本數(shù)量增加近一倍。實驗證明SE-DenseNet模型預(yù)測效果在同類網(wǎng)絡(luò)中最好。
本文構(gòu)造一種能學(xué)習(xí)到特征圖各通道的空間相關(guān)性和各通道的權(quán)重大小的SE模塊,在DenseNet神經(jīng)網(wǎng)絡(luò)中加入SE[15]操作。SE模塊對輸入其中的特征圖每個通道的重要性進行學(xué)習(xí),將得到的權(quán)重與對應(yīng)的通道相乘,輸出各通道權(quán)重得到校準(zhǔn)后的特征圖,即進行特征選擇,使有用特征得到加強,無用特征得到削弱,完成特征重標(biāo)定,以提高神經(jīng)網(wǎng)絡(luò)的辨別能力,其功能模塊如圖1所示。
圖1 SE模塊圖Fig.1 SE module
(1)通過卷積操作將第L層特征圖XL變換為張量U1,即:
U1=WL?f(BN(WL-1?f(BN([X0X1…XL-1]))))
(1)
式中,BN表示批量歸一化處理;f(·)為ReLU函數(shù);WL-1,WL分別為大小為1×1,3×3 的卷積核。
(2)擠壓操作,此環(huán)節(jié)是全局池化層,將特征圖形狀[M,H,C]壓縮為[1,1,C],得到該層特征圖的c個通道的數(shù)值分布情況,其數(shù)學(xué)描述如式(2):
(2)
式中,uc表示卷積操作后第c個通道特征圖;zc為擠壓操作后第c個通道特征圖。M,H,C代表特征矩陣U1的三維信息;c為第個c通道。
(3)激勵操作,其數(shù)學(xué)原理是式(3):
sc=Fex(z,W)=σ(g(z,W))=σ(W2f(W1zc))
(3)
式中,W1∈R(C/β)×C;W2∈RC×(C/β);f(·)表示ReLU激活函數(shù);σ是Sigmoid函數(shù);β為維度變換率,在本文中取16,以減少計算量。最后將所得尺度矩陣sc的c個元素與特征圖U1的c個通道一一對應(yīng)相乘,輸出得到Y(jié)=[y1y2…yc],其數(shù)學(xué)原理是式(4):
Y=Fscale(uc,sc)=sc·uc
(4)
式中,sc表示先擠壓后激勵所得到的向量,其維數(shù)為c;uc表示卷積操作后的特征圖,其通道數(shù)為c。
由以上分析可知,SE模塊通過先壓縮再激勵輸入,將特征圖以通道為單位映射成一個具有全局性的實數(shù),最后將此實數(shù)與輸入對應(yīng)相乘,完成特征圖各通道的相關(guān)性學(xué)習(xí)。
DenseNet[16]主要特點是將每一層特征圖與前面所有層的特征圖在通道數(shù)的維度上進行累加,網(wǎng)絡(luò)的每一層對特征值進行少量的學(xué)習(xí),降低了冗余性[17]。Densenet的優(yōu)點是通過稠密連接將神經(jīng)網(wǎng)絡(luò)的各層特征進行了融合,特征得到了重復(fù)利用,可以減少計算量,其跳躍結(jié)構(gòu)使各層輸入特征圖可以直接與最后的損失函數(shù)相連,接受最終損失函數(shù)的監(jiān)督,解決梯度消失問題,使網(wǎng)絡(luò)的信息流通順暢。
本文介紹的SE-DenseNet將SE模塊與Densenet的優(yōu)點結(jié)合,其網(wǎng)絡(luò)配置信息如表1所示,結(jié)構(gòu)如圖2所示。由表1和圖2可知,相較于傳統(tǒng)DenseNet神經(jīng)網(wǎng)絡(luò),SE-DenseNet的創(chuàng)新之處在于:
(1)將稠密連接結(jié)構(gòu)塊上的轉(zhuǎn)換層中包含的平均池化層去掉,保留BN層,ReLU層和1×1的卷積,得到新的轉(zhuǎn)換層,可以保留全局信息,增強網(wǎng)絡(luò)的穩(wěn)定性,減少資源占用。
(2)SE模塊再將經(jīng)稠密連接塊得到的特征圖與經(jīng)新的轉(zhuǎn)換層得到的特征圖進行各通道權(quán)重校準(zhǔn),增強有益特征,抑制無用特征,使網(wǎng)絡(luò)的性能得到有效提高。
表1 SE-DenseNet網(wǎng)絡(luò)配置信息表Tab.1 SE-DenseNet network configuration information
圖2 SE-DenseNet示意圖Fig.2 SE-DenseNet
本文在DenseNet程序的基礎(chǔ)上,采用6種方法改進SE-DenseNet模型的收斂效果和預(yù)測準(zhǔn)確率:指數(shù)衰減學(xué)習(xí)率確保模型參數(shù)較快的更新速度和在全局最優(yōu)點收斂;L2正則化使模型待估參數(shù)衰減,以減少計算資源占用;dropout減弱特征之間的依賴性,以防止過擬合;Adam算法使用迭代次數(shù)和指數(shù)衰減率對梯度均值和梯度平方均值進行了校正,使算法對梯度的預(yù)測更加精準(zhǔn);使用批量歸一化可減少初始化的影響,提高訓(xùn)練速度;運用ReLU函數(shù)可提高神經(jīng)網(wǎng)絡(luò)逼近任意非線性函數(shù)的能力。這6種方法具體介紹如下。
學(xué)習(xí)率是用梯度更新模型待估參數(shù)的速率,當(dāng)學(xué)習(xí)率較大時,網(wǎng)絡(luò)參數(shù)更新較快,在模型訓(xùn)練初期局部收斂較快,隨著迭代次數(shù)增加時,模型會在全局最優(yōu)點回蕩,此時較小的學(xué)習(xí)率能使模型收斂,因此提出學(xué)習(xí)率隨迭代次數(shù)進行指數(shù)級衰減,如式 (5):
decayed_learning_rate=learning_rate×decay_rate^(global_step/decay_steps)
(5)
式中,decayed_learning_rate為衰減后的學(xué)習(xí)率;decay_rate是衰減指數(shù);global_step是當(dāng)前的迭代輪數(shù);decay_steps是衰減速度。
Dropout是一種正則化方法,它在一次訓(xùn)練中讓隱含層神經(jīng)元以概率P抑制,丟棄隱含層一部分神經(jīng)元,同時保留被丟棄節(jié)點的參數(shù)值,在誤差反向傳播時僅更新被激活神經(jīng)元的參數(shù)值,在下一次訓(xùn)練時重復(fù)上述過程,每次訓(xùn)練得到一個不同的神經(jīng)網(wǎng)絡(luò),最后集成這些網(wǎng)絡(luò)。在測試集上運行模型時,將模型學(xué)習(xí)到的權(quán)值矩陣乘以概率P,使模型預(yù)測準(zhǔn)確。dropout將性質(zhì)相反的過擬合相互削弱,在不同隱含層子集中均可學(xué)到相應(yīng)特征,以減弱特征之間的依賴性,防止過擬合。
為了將權(quán)重和偏置參數(shù)收斂為稀疏性更好的矩陣,以減少計算量,通常在目標(biāo)函數(shù)上附加一項參數(shù)懲罰項,在用梯度下降更新參數(shù)時,權(quán)重矩陣會乘以一個小于1的縮放因子,將權(quán)重正則化至零點,若未添加懲罰項的原損失函數(shù)的Hessian矩陣為H,則H的特征值越小,權(quán)重收縮至零點的效果越明顯,L2正則化公式為:
(6)
式中,ω,b為神經(jīng)網(wǎng)絡(luò)模型待尋優(yōu)參數(shù)θ;X為輸入向量;ypredictedi為預(yù)測值;yi為真實標(biāo)簽值;α為正則項系數(shù)。α能增加輸入X的方差,因此L2正則化使權(quán)重往稀疏性好的方向衰減,在以下要介紹的Adam算法中,f(θ;X,y)為損失函數(shù)。
Adam算法是一種用一階梯度對損失函數(shù)進行最優(yōu)化的方法,該算法所需存儲小,準(zhǔn)確率高,能避免模型在最優(yōu)點大幅振蕩,因此適用于大規(guī)模數(shù)據(jù)集和參數(shù)的神經(jīng)網(wǎng)絡(luò)。該算法的流程如圖3所示。
圖3 Adam算法流程Fig.3 Adam algorithm flow
(1)設(shè)置超參數(shù)學(xué)習(xí)率α,一階矩估計指數(shù)衰減率β1,二階原點矩估計指數(shù)衰減率β2,α采用指數(shù)衰減學(xué)習(xí)率,其值從0.001開始隨迭代次數(shù)t按指數(shù)規(guī)律衰減。初始化參數(shù)θ0向量的各元素,一階矩向量m0,二階矩向量v0。
(2)求出f(θ)對θ的偏導(dǎo)數(shù)θf(θt-1),得梯度向量gt,用gt按指數(shù)加權(quán)平均值公式更新帶偏差的一階矩估計mt,同理,用梯度向量的逐元素平方更新帶偏差的二階原點矩估計vt。用指數(shù)衰減率β1,β2計算偏差修正的一階矩估計和二階原點矩估計將與的比值取代梯度下降法的gt,對參數(shù)進行更新,圖3中“·”表示乘法。
(3)進行收斂準(zhǔn)則校驗,若收斂則停止更新返回參數(shù)θt,否則重新計算步驟(2)、(3)直至收斂。
對批量歸一化(Batch Normalization,BN)做出解釋:訓(xùn)練網(wǎng)絡(luò)時,對于正向傳播,一個批量的每張?zhí)卣鲌D輸入神經(jīng)元為x={x1,x2,…,xm},歸一化公式為:
(7)
式中,u為樣本均值;σ2為樣本方差;縮放系數(shù)γ和平移系數(shù)β為類似于權(quán)重的可學(xué)習(xí)參數(shù)。通過變換重構(gòu),使網(wǎng)絡(luò)學(xué)習(xí)到所要提取的特征的數(shù)據(jù)分布,反向傳播時通過鏈?zhǔn)角髮?dǎo)求得梯度,從而改變訓(xùn)練權(quán)值;測試網(wǎng)絡(luò)時,對于多個批量樣本的均值u和方差σ2,計算u′,σ′時采用滑動平均的技巧:
(8)
式中,變量u′在第t批次記為u′(t);θ(t)為變量u′在第t批次取值;α∈[0,1),當(dāng)α=0時,則不使用滑動平均;當(dāng)α≠0,使用滑動平均計算法,減少內(nèi)存占用。通過BN可以防止梯度彌散和爆炸。
使用ReLU非線性激活函數(shù)可以使神經(jīng)網(wǎng)絡(luò)擬合各種函數(shù),ReLU函數(shù)的定義是:
f(x)=max(0,x),x∈(-∞,+∞)
(9)
式中,x為輸入張量。該函數(shù)可將輸入映射到正數(shù)域,ReLU函數(shù)占用計算資源小,當(dāng)輸入為負數(shù),該神經(jīng)元處于抑制狀態(tài),當(dāng)輸入x為正值時,由于其導(dǎo)數(shù)為常數(shù)1,不會導(dǎo)致梯度變小,模型參數(shù)能保持收斂。綜上可得基于SE-DenseNet變壓器故障診斷流程如圖4所示。
圖4 SE-DenseNet診斷流程Fig.4 SE-DenseNet diagnosis process
根據(jù)《變壓器油中溶解氣體分析和判斷導(dǎo)則》[18]所述,變壓器發(fā)生故障時,變壓器油中會產(chǎn)生七種含量不同的氣體[19],將其中的氫氣(H2)、甲烷(CH4)、乙烷(C2H6)、乙烯(C2H4)、乙炔(C2H2)的體積分?jǐn)?shù)作為觀察對象,依據(jù)在線監(jiān)測的氣體含量數(shù)據(jù),可采用IEC三比值法[20]、四比值法[21](包括Dornenburg法,Rogers法,德國四比值法)、大衛(wèi)三角形法[22]進行故障診斷,但故障編碼不多,由于缺碼的原因?qū)е掠行┕收蠠o法判斷。本文采用無編碼比值法,即直接由比值確定故障,不用將氣體含量的比值進行編碼,將變壓器的故障區(qū)分為9種:低能放電兼過熱MF1、高能放電兼過熱MF2、局部放電PD、低能放電D1、高能放電D2、低溫過熱T1(<300℃)、中溫過熱T2(300~700℃)、高溫過熱T3(>700℃)、正常N。將以下特征氣體濃度比值作為輸入特征量:
CH4/H2,C2H2/C2H4,C2H4/C2H6,C2H2/(C1+C2)/%,H2/(H2+C1+C2)/%,C2H4/(C1+C2)/%,CH4/(C1+C2)/%,C2H6/(C1+C2)/%,(CH4+C2H4)/(C1+C2)/%
式中,C1為一階碳氫化合物CH4;C2為二階碳氫化合物C2H6、C2H4、C2H2體積分?jǐn)?shù)之和,輸入特征信息含量豐富,適用于SE-DenseNet深度神經(jīng)網(wǎng)絡(luò)。
針對9種故障類型,采用one-hot編碼。將MF1、MF2、PD、D1、D2、T1、T2、T3、N依次序編碼為:[0,0,0,0,0,0,0,0,1],[0,0,0,0,0,0,0,1,0],[0,0,0,0,0,0,1,0,0],[0,0,0,0,0,1,0,0,0],[0,0,0,0,1,0,0,0,0],[0,0,0,1,0,0,0,0,0],[0,0,1,0,0,0,0,0,0],[0,1,0,0,0,0,0,0,0],[1,0,0,0,0,0,0,0,0]。針對本文探討的分類問題,使用softmax交叉熵來作為目標(biāo)函數(shù)的一部分。
WGAN是有監(jiān)督的學(xué)習(xí),本文使用WGAN將數(shù)據(jù)空間規(guī)模擴大,依據(jù)原始數(shù)據(jù),生成特征一致,但數(shù)值不同、故障類型可以被識別為同一種類型的數(shù)據(jù),以提高SE-DenseNet神經(jīng)網(wǎng)絡(luò)的泛化能力。
生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)[25]由生成器G和判別器D組成,生成器G將噪音數(shù)據(jù)生成為與真實數(shù)據(jù)分布相似的數(shù)據(jù),并盡量騙過判別器,使判別器將生成的數(shù)據(jù)判斷為真(1)。判別器的作用是辨別數(shù)據(jù)的真(1)偽(0)。因此使判別器不斷的學(xué)習(xí),以提高它的判別能力,讓判別器效果更好,在生成器和判別器對抗學(xué)習(xí)中,最后判別器分辨不出生成數(shù)據(jù)的真?zhèn)?,即生成的?shù)據(jù)特征和真實數(shù)據(jù)的特征也就高度一致了,損失函數(shù)即為式(10):
(10)
式中,x為真實數(shù)據(jù);pdata(x)為真實數(shù)據(jù)分布;z為噪音數(shù)據(jù);pz(z)為噪音數(shù)據(jù)分布;D(·)為判別器;G(·)為生成器。損失函數(shù)的功能是最大化D的判斷能力,使最小化G和真實數(shù)據(jù)的分布之間的差異。判別器中使D(x)接近1,D(G(z))接近0,生成器中使D(G(z))接近1。Ex~pdata(x)和Ez~pz(z)表示真實數(shù)據(jù)和生成數(shù)據(jù)的概率,E表示期望。
WGAN中使用平滑的EM(Earth-Mover)距離,用梯度下降法優(yōu)化參數(shù)時,可以提供梯度,實現(xiàn)兩分布距離度量,在EM距離中加入李普希茲約束,使網(wǎng)絡(luò)滿足穩(wěn)定性要求。以已知故障類型樣本的五種特征氣體含量為真實數(shù)據(jù),從九種故障中任選一種,樣本量10左右,在區(qū)間[-1,1]中隨機選取服從均勻分布的噪音數(shù)據(jù),將兩者輸入WGAN模型得生成數(shù)據(jù)gen_data,用關(guān)于gen_data的一次函數(shù)生成同種故障類型的樣本數(shù)據(jù)data??偣采?500條樣本數(shù)據(jù),為驗證生成數(shù)據(jù)與原始數(shù)據(jù)特征一致性,預(yù)先使用1630條原始數(shù)據(jù)訓(xùn)練SE-DenseNet模型,再分別將生成的各種故障類型數(shù)據(jù)作為輸入,得到的SE-DenseNet模型預(yù)測準(zhǔn)確率如表2所示。
表2 生成數(shù)據(jù)作為輸入的模型準(zhǔn)確率Tab.2 Accuracy of model with generated data as input
表2的準(zhǔn)確率為將生成的某一故障類型數(shù)據(jù)輸入模型,重復(fù)預(yù)測12次得到的平均值。準(zhǔn)確率最低的故障類型為正常,其值為86.72%,最高為低能放電兼過熱,其值為98.43%,當(dāng)將所有生成樣本輸入模型時得到的準(zhǔn)確率值為90.41%,表2數(shù)據(jù)充分說明生成數(shù)據(jù)具有與原始數(shù)據(jù)一致的特征。
本實驗使用的軟件框架為tensorflow 1.12,win10系統(tǒng),硬件為intel core i7,1.80 GHz,內(nèi)存16 GB,英偉達顯卡MX-150,2 GB顯存。本文使用某水電站的500/330 kV變壓器的1 630條數(shù)據(jù)作為原始數(shù)據(jù),使用WGAN生成了1 500條數(shù)據(jù)。將生成數(shù)據(jù)和原始數(shù)據(jù)合并成3 130條數(shù)據(jù)的樣本集,兩者隨機充分混合后,按9∶1的比例分為訓(xùn)練集和測試集。運用t-SNE技術(shù)將樣本數(shù)據(jù)進行可視化,得到初始分類效果如圖5所示,可知未經(jīng)SE-DenseNet模型特征提取處理的數(shù)據(jù)分類效果較為分散。
圖5 原始分類效果Fig.5 Original classification effect
在CNN,Densenet和SE-DenseNet中,將數(shù)據(jù)輸入各自模型,迭代300個epoch(每個epoch代表整個數(shù)據(jù)集完整處理一次),可得訓(xùn)練集和測試集的準(zhǔn)確率如圖6和圖7所示。
圖6 訓(xùn)練集準(zhǔn)確率圖Fig.6 Accuracy graph of training set
圖7 測試集準(zhǔn)確率圖Fig.7 Test set accuracy chart
由圖6和圖7可知,CNN,Densenet,SE-DenseNet訓(xùn)練集、測試集準(zhǔn)確率的最終收斂值如表3所示。
表3 各神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率Tab.3 The accuracy of each neural network (%)
此處訓(xùn)練集樣本量為2 816,測試集樣本量為312。訓(xùn)練集準(zhǔn)確率的定義是將單批次64個樣本作為模型輸入,共44個批次,將單批次的準(zhǔn)確率累加,再除以44求得平均準(zhǔn)確率。單批次準(zhǔn)確率是模型評分logits向量中的最大值的索引號與真實標(biāo)簽(已轉(zhuǎn)為獨熱編碼向量)中的最大值索引號相等的次數(shù)之和除以單批次樣本量。每44個批次為一回迭代輪數(shù),共300回迭代輪數(shù),模型采用最終收斂的平均準(zhǔn)確率。測試集是單批次26個樣本,共12個批次,其平均準(zhǔn)確率同理可得。
由圖6可知,當(dāng)數(shù)據(jù)為訓(xùn)練集時,CNN、Densenet、SE-DenseNet分別在迭代220、250、200次后趨于穩(wěn)定。通過觀察可得Densenet準(zhǔn)確率上升的速度最快,SE-DenseNet由于擠壓和激勵環(huán)節(jié)操作,準(zhǔn)確率上升速度位居其次,在迭代48次后,SE-DenseNet的訓(xùn)練集的準(zhǔn)確率高于Densenet,最終SE-DenseNet網(wǎng)絡(luò)在訓(xùn)練集上的準(zhǔn)確率為三者最高:94.08%,分別比DenseNet和CNN高出了3.85%和9.78%。由圖7可知,當(dāng)數(shù)據(jù)為測試集時,CNN、Densenet、SE-DenseNet分別在迭代160、135、140次后收斂,在迭代初期,Densenet準(zhǔn)確率上升的速度最快,迭代65次后,SE-DenseNet的準(zhǔn)確率高于Densenet,最終SE-DenseNet在測試集上的準(zhǔn)確率為88.46%,在三者之中最高,分別比DenseNet和CNN高出了2.88%和6.99%。
CNN由于數(shù)據(jù)樣本量不夠,提取特征的能力相較于數(shù)據(jù)特征信息流通更為順暢的DenseNet和SE-DenseNet較低,容易出現(xiàn)過擬合,所以準(zhǔn)確率最低,SE-DenseNet由于在DenseNet基礎(chǔ)上嵌入SE操作,使得網(wǎng)絡(luò)能更快的學(xué)習(xí)到重要特征,降低了DenseNet網(wǎng)絡(luò)融合數(shù)據(jù)特征時產(chǎn)生的冗余性,所以準(zhǔn)確率最高。
從圖8和圖9可以看出SE-DenseNet模型在訓(xùn)練集和測試集上的最終損失值分別為0.270 1和0.605 8,由此得出SE-DenseNet損失值很小,說明SE-DenseNet模型預(yù)測很準(zhǔn)確。
圖8 SE-DenseNet的訓(xùn)練集損失函數(shù)下降圖Fig.8 SE-DenseNet training set loss function decline graph
圖9 SE-DenseNet的測試集損失函數(shù)下降圖Fig.9 SE-DenseNet test set loss function decline graph
為了驗證SE-DenseNet模型的優(yōu)良的預(yù)測性能,將其與DenseNet在與本節(jié)上文同樣的數(shù)據(jù)集的條件下進行訓(xùn)練對比,在測試集的結(jié)果如表4和表5所示。
此處準(zhǔn)確率定義同表3,由表4可得模型改進后,在相同的網(wǎng)絡(luò)層數(shù)下,SE-DenseNet比DenseNet測試集準(zhǔn)確率都要高,平均高出1.504%,為驗證模型的穩(wěn)定性,繼續(xù)對SE-DenseNet進行深層訓(xùn)練,由表4和5可得SE-DenseNet模型在56層時達到穩(wěn)定狀態(tài),準(zhǔn)確率維持在88.46%。經(jīng)表4和表5的對比可知,由于SE模塊的特征重標(biāo)定,結(jié)合DenseNet的特征重復(fù)利用的優(yōu)點,本文所提出的SE-DenseNet模型有著優(yōu)良的性能和很高預(yù)測準(zhǔn)確率。
表4 模型改進前后測試集分類準(zhǔn)確率對比Tab.4 Comparison of classification accuracy (%)
表5 深層SE-DenseNet測試集分類準(zhǔn)確率Tab.5 Deep SE-DenseNet accuracy (%)
在每一單批次迭代過程中,經(jīng)SE-DenseNet模型的特征提取后,將模型得到的評分?jǐn)?shù)據(jù)logits輸入softmax交叉熵函數(shù)之前,將評分?jǐn)?shù)據(jù)logits保存至文檔中,然后再進行分類訓(xùn)練。當(dāng)評分?jǐn)?shù)據(jù)迭代更新至第300輪,即分類訓(xùn)練結(jié)束時,將最終的評分?jǐn)?shù)據(jù)提取出來并進行t-SNE的可視化,可得最終分類效果如圖10所示。由圖10可得經(jīng)本文提出的SE-DenseNet模型特征提取后樣本數(shù)據(jù)分類效果更集中。結(jié)合圖6和圖7、表3和表4中的數(shù)據(jù)對比以及對圖8~圖10的分析,可知本文提出的SE-DenseNet診斷模型收斂性能最好,泛化能力最強。
圖10 最終分類效果Fig.10 Final classification effect
針對變壓器在已有故障數(shù)據(jù)條件下,故障類型難以判斷、診斷準(zhǔn)確率較低的情況,本文結(jié)合WGAN數(shù)據(jù)增強提出了SE-DenseNet模型,能準(zhǔn)確細致地檢測出故障數(shù)據(jù)與故障類型的內(nèi)在聯(lián)系,結(jié)論如下:
(1)基于無編碼比值法原理的CNN,DenseNet,SE-DenseNet變壓器故障診斷準(zhǔn)確率普遍較高,SE-DenseNet加入了特征圖校準(zhǔn)權(quán)重的SE模塊,抑制無用特征,增強有用特征,同時充分利用DenseNet的梯度流通順暢,計算冗余性較低的優(yōu)點,結(jié)合運用指數(shù)衰減學(xué)習(xí)率、dropout、L2正則化,運用Adam收斂算法,批量歸一化及ReLU函數(shù),經(jīng)表3和表4的對比可知,相較于傳統(tǒng)的CNN和DenseNet,本文提出的SE-DenseNet性能更好,預(yù)測準(zhǔn)確率最高。
(2)無編碼比值法在變壓器的故障判斷中,能將復(fù)合故障和單一故障區(qū)分開來,使模型判斷能力得到很大的提高,泛化能力增強。在WGAN數(shù)據(jù)增強時,雖然生成了特征一致的同故障類型數(shù)據(jù),但還可進一步研究關(guān)于生成數(shù)據(jù)gen_data的經(jīng)驗公式,以提高特征一致性程度和模型的預(yù)測準(zhǔn)確率。
(3)SE-DenseNet神經(jīng)網(wǎng)絡(luò)模型的加深與樣本空間規(guī)模的擴大有著密切聯(lián)系,通過實驗已找到本文數(shù)據(jù)集下SE-DenseNet具有最佳性能的網(wǎng)絡(luò)層數(shù),今后的工作將研究模型性能的提高與故障樣本規(guī)模擴大之間的關(guān)聯(lián),以及使用更有效的迭代收斂算法,對原模型進行優(yōu)化,使模型收斂速度更快,泛化能力更優(yōu)秀。