劉文浩,李文澤,王洪雨,吳毅江,王干軍,Ashfaque Ahmed Bhatti,彭小圣
(1.廣東電網(wǎng)有限責(zé)任公司中山供電局,廣東 中山528400;2.強電磁工程與新技術(shù)國家重點實驗室(華中科技大學(xué)),湖北 武漢 430074)
高壓電纜作為電能傳輸?shù)闹饕O(shè)備之一,是輸配電系統(tǒng)不可或缺的組成部分[1-4]。對局部放電(partial discharge,PD,以下簡稱“局放”)的檢測在高壓電纜的檢測與診斷技術(shù)領(lǐng)域獲得了廣泛的發(fā)展和應(yīng)用[5-8],可以及時發(fā)現(xiàn)高壓電纜存在的潛在故障,保障其安全運行[9-10]。但是局放類型復(fù)雜多樣[7],對電力設(shè)備的危害程度也有所不同,需要有效的方法對其進(jìn)行識別[8]。
高壓電纜局放模式識別是局放檢測與診斷的重要環(huán)節(jié)之一[10-12],如果模式識別過程中采用局放樣本的數(shù)量相對不足,訓(xùn)練得出的識別模型往往泛化識別能力差,準(zhǔn)確率低,而對局放樣本進(jìn)行擴充可以解決該問題[13]。根據(jù)模式識別理論,局放樣本擴充可以提高模型的識別精度,一方面擴大訓(xùn)練數(shù)據(jù)的覆蓋范圍,使模型得到更充分的訓(xùn)練,另一方面有利于減少模型過擬合[10-11]。數(shù)據(jù)擴充主要有2種思路:一種是通過在實驗室進(jìn)行多批次實驗,獲取局放樣本數(shù)據(jù),但該方法主要靠人力完成,需要大量人力物力;另一種是基于實驗室已有局放樣本特點生成相似的新樣本,或創(chuàng)造出全新的局放樣本[14]。
文獻(xiàn)[15]提出利用HR-DCGAN法來擴充樣本,以解決帕金森等疾病判別時患者聲紋樣本偏少的問題;文獻(xiàn)[16]提出Faster R-CNN算法,將威脅電網(wǎng)安全運行的隱患目標(biāo)與背景圖像按照一定規(guī)則進(jìn)行融合,達(dá)到批量擴充樣本集的目的;文獻(xiàn)[17]中提出一種借助真實背景及真實物體來合成樣本的方法,發(fā)現(xiàn)相比于全部使用真實樣本,借助合適的方式自動生成樣本加入訓(xùn)練集,可以有效擴充樣本數(shù)據(jù);文獻(xiàn)[18]中Michiels等面對屬性協(xié)變量數(shù)據(jù)缺失時的總體參數(shù)估計問題,采用模式混合模型和選擇模型構(gòu)建似然函數(shù);文獻(xiàn)[19]通過訓(xùn)練統(tǒng)計系統(tǒng)調(diào)用的頻率信息,擴充傳統(tǒng)異常檢測算法的數(shù)據(jù)源。
目前,上述數(shù)據(jù)擴充方法在高壓電纜局放模式識別領(lǐng)域的應(yīng)用和研究還不多,本文提出基于可變噪音的高壓電纜局放樣本擴充的方法。與上述方法相比,可變噪音能夠在不依賴任何先驗假設(shè)的情況下,通過無監(jiān)督學(xué)習(xí),在較短的時間內(nèi)快速獲得樣本數(shù)據(jù)間的潛在分布規(guī)律并合成或生成新的局放樣本[20]。本文基于從實驗室采集到的已有局放樣本,基于可變噪音的方法來擴充局放樣本數(shù)據(jù)。采用隨機森林(random forest,RF)、支持向量機(support vector machine,SVM)、邏輯回歸(logic regression,LR)3種模式識別的方法來驗證本文所提方法的有效性。結(jié)果充分證明,通過數(shù)據(jù)擴充可以得到與原始樣本具有高相似度的局放樣本,利用較少的樣本即可對局放模式進(jìn)行識別,從而解決在局放模式識別模型訓(xùn)練過程中樣本不足的問題。
本文采用的實驗系統(tǒng)為IEC 60270系統(tǒng),設(shè)置5種電纜人工缺陷進(jìn)行加壓實驗(加壓到11 kV),保持10 s,開始記錄數(shù)據(jù)。每種人工缺陷各采集560個樣本,一共獲取2 800個局放樣本。實驗系統(tǒng)如圖1所示。實驗使用高速示波器對局放原始數(shù)據(jù)進(jìn)行采集,為了能夠采集1個周期內(nèi)的工頻信號,設(shè)定示波器采樣時長為20 ms,采樣率為100 ms/s。所采用的電纜為長度3 m的11 kV乙丙橡膠電纜(EPR),5種缺陷類型如圖2所示。
實驗針對每種人工缺陷分別開展加壓測試。圖1中,Zn為保護(hù)阻抗,Ck為耦合電容,Zm為檢測阻抗,HFCT為高頻電流互感器;圖2中PVC為聚氯乙烯。
圖1 PD實驗系統(tǒng)Fig.1 PD experimental system
圖2 5種局部放電缺陷類型Fig.2 Five types of PD defects
5種缺陷類型包括:類型1為電纜絕緣層空隙缺陷,類型2和類型3均為尖刺缺陷,類型4為外半導(dǎo)電層缺口缺陷,類型5為電纜終端沿面放電缺陷。缺陷類型的具體制作過程見文獻(xiàn)[21]。本文使用的局放脈沖參數(shù)包括放電量、峰值電壓、電壓平均值、相位角、測試電壓、等效帶寬、小波參數(shù)(ED1—ED5,EA5,Ea1—Ea5,Ed1—Ed5)等34個特征,見表1。這34個特征的含義見文獻(xiàn)[13]。
表1 局放樣本的34個特征Tab.1 34 features of PD samples
局放相位圖譜分析是局放分析的主要手段,本文基于第1.1節(jié)實驗所獲取的高壓電纜5種類型人工缺陷局放數(shù)據(jù),繪制不同類型局放的相位圖譜,如圖3所示。
圖3 不同類型局放的相位圖譜Fig.3 Phase resolved patterns of different types of partial discharges
通過局放相位圖譜分析可知5種局放信號的電壓幅值分布存在一定的差異性,具體結(jié)論如下:①局放類型1、2、3在電壓幅值為0~30 mV范圍重疊較大;②局放類型4、5在電壓幅值為100~200 mV范圍重疊較大;③放電類型5電壓幅值分布范圍最廣,最大放電幅值可接近1 200 mV;④放電類型2的電壓幅值范圍最小,最大放電電壓不超過30 mV。
本文基于可變噪音方法,對實驗室獲取的2 800個局放樣本數(shù)據(jù)進(jìn)行擴充,擴充出另外2 800個局放樣本。局放樣本擴充流程如圖4所示。
圖4 局部放電樣本擴充流程Fig.4 Flowchart of PD samples augmentation
該流程由局放樣本獲取、局放樣本擴充、擴充驗證和結(jié)果分析4部分構(gòu)成。局放樣本獲取后依次進(jìn)行人工缺陷設(shè)置和高壓測試,在得到的原始數(shù)據(jù)中提取局放原始樣本;在樣本擴充階段,設(shè)定局放樣本噪音的正態(tài)分布參數(shù),得到噪音的正態(tài)分布,然后將噪音與原始樣本疊加,得到擴充后的局放樣本數(shù)據(jù);在數(shù)據(jù)擴充驗證階段,將對擴充后的樣本通過RF、SVM、LR這3種方法進(jìn)行模式識別;最后,對局放樣本擴充結(jié)果開展對比分析。
正態(tài)分布的噪音水平概率密度函數(shù)為
式中:x為噪音水平值;μ為噪音正態(tài)分布均值(本文取0);σ為噪音正態(tài)分布的標(biāo)準(zhǔn)差。不同標(biāo)準(zhǔn)差下噪音水平的分布如圖5所示。
圖5 不同標(biāo)準(zhǔn)差下的噪音分布Fig.5 Distribution of noise with different standard deviations
圖6為原始樣本和擴充后樣本的相位分布變化情況,其中圖6(a)為原始樣本分布情況,圖6(b)為采用標(biāo)準(zhǔn)差為0.01的正態(tài)分布噪音水平擴充后的樣本分布情況。由圖6可知,數(shù)據(jù)擴充前后的樣本整體分布比較接近,即通過數(shù)據(jù)擴充可以得到與原樣本具有高相似度擴充樣本。
圖6 原始樣本和擴充樣本的分布情況Fig.6 Distribution of original and augmentation samples
局放的關(guān)鍵特征包含:放電量、峰值電壓、等效寬度等。表2為在數(shù)據(jù)擴充前的分布情況,表3為局放樣本擴充后的分布情況,表4為數(shù)據(jù)擴充前后的分布變化率。表4中大多數(shù)局放關(guān)鍵特征的變化微小,不超過1%,這也說明通過數(shù)據(jù)擴充可以得到與原樣本具有高相似度擴充樣本。
表2 數(shù)據(jù)擴充前關(guān)鍵特征的分布Tab.2 Distribution of key features before data augmentation
表3 數(shù)據(jù)擴充后關(guān)鍵特征的分布Tab.3 Distribution of key features after data augmentation using variable noise
表4 數(shù)據(jù)擴充后關(guān)鍵特征分布變化率Tab.4 Changing of key features after data augmentation using variable noise %
本文選取的34個特征參數(shù)的分布范圍會隨著噪音水平的變化而變化,因此會導(dǎo)致識別精度變化。本文采用RF、SVM、LR這3種方法驗證所提方法的可行性。將5種缺陷類型共2 800個原始樣本的75%作為訓(xùn)練集,25%作為驗證集。在樣本擴充之前,3種方法對5種缺陷類型的平均識別率分別為73.29%、84.14%、88.29%;樣本擴充之后,新擴充的2 800個樣本增加到訓(xùn)練集,驗證集保持不變。3種方法在不同標(biāo)準(zhǔn)差下的正態(tài)分布噪音水平對5種缺陷類型的平均識別精度見表5,表6為識別精度的提升情況。
表5 不同噪音水平下的平均模式識別精度Tab.5 Average pattern recognition accuracy under different noise levels
表6 不同噪音水平下模式識別精度的提升Tab.6 Pattern recognition accuracy improvement of different training data sets under different noise levels
由表5和表6可以看出:①在噪音水超過0.1之前,基于可變噪音的樣本擴充方法對3種模式識別方法的精度均有所提升,這充分證明了本方法對局放樣本擴充的有效性;在噪音水平超過0.1之后,部分模式識別模型精度反而有所下降,建議該方法用于局放樣本擴充時,將噪音水平控制在0.1以內(nèi)。②本方法應(yīng)用于LR模型,其識別精度在噪音水平為0.5之前提升了大約1.5%,在噪音水平為0.5之后,識別精度開始降低,識別精度的提升效果不理想,原因還有待進(jìn)一步研究。③本方法應(yīng)用于SVM模型,其識別精度在噪音水平10-7~10之間均有不同程度的提升,但是在噪音水平0.5之后,提升效果比噪音水平在0.5之前相對減弱。④本方法應(yīng)用于RF模型時,局放模式識別精度除了在噪音水平5外,其他均有提升;在噪音水平為0.01時,識別精度提升至91.44%,提高了3.15%。
本文將可變噪音方法應(yīng)用到高壓電纜局放樣本的數(shù)據(jù)擴充中,得出以下結(jié)論:
a)通過數(shù)據(jù)擴充可以得到與原始樣本具有高相似度的局放樣本,且絕大多數(shù)局放關(guān)鍵特征分布的變化率都不超過1%,這從樣本相似度的角度證明了基于可變噪音的樣本擴充方法的可行性。
b)在噪音水平10-7~0.1之間,基于可變噪音擴充后的樣本對RF、SVM、LR這3種方法的精度均有所提升,從模式識別的角度證明了可變噪音方法對局放樣本擴充的可行性。
c)在噪音水平超過0.1之后,部分模式識別方法精度反而有所下降,所以建議可變噪音方法用于局放樣本擴充時,將噪音水平控制在0.1以內(nèi)。
d)基于可變噪音的數(shù)據(jù)擴充法應(yīng)用于LR模型時,識別精度的提升效果不理想,其原因還有待進(jìn)一步研究。
e)基于可變噪音的數(shù)據(jù)擴充應(yīng)用于RF模型,噪音水平為0.01時,識別精度提升了3.15%,提升效果最大。