陳鐵,冷昊偉,李咸善,陳一夫
(1.三峽大學(xué) 水電站運(yùn)行與控制湖北省重點(diǎn)實(shí)驗(yàn)室,湖北 宜昌 443000;2.三峽大學(xué) 電氣與新能源學(xué)院,湖北 宜昌 443000)
油 中溶解氣體分析 (dissolved gas analysis,DGA)是一種常用的油浸式變壓器故障診斷方法,油中各種溶解氣體的含量及類型可為判斷變壓器運(yùn)行狀態(tài)和故障檢測(cè)提供重要參考[1]。近年來,國內(nèi)外學(xué)者以DGA為基礎(chǔ)提出了三比值法、機(jī)器學(xué)習(xí)與人工智能模型等一系列變壓器故障診斷方法,取得了一定的成果[2]。
在實(shí)際工程中,變壓器故障數(shù)據(jù)獲取困難,故障數(shù)據(jù)不足、數(shù)據(jù)不平衡被普遍認(rèn)為是影響診斷精度的重要原因[3-4]。一些學(xué)者利用過采樣技術(shù)[5]增加訓(xùn)練樣本數(shù)量或引入偽標(biāo)簽數(shù)據(jù)[6]擴(kuò)充原始數(shù)據(jù)集,解決故障數(shù)據(jù)不足的問題。有學(xué)者提出合理的采樣技術(shù)可彌補(bǔ)數(shù)據(jù)的不平衡,如:合成少數(shù)樣本過采樣技術(shù)[7-8],混合采樣[9]或聚類重采樣技術(shù)[10]等方法,通過剔除和增加樣本數(shù)量,都可將不平衡數(shù)據(jù)轉(zhuǎn)化為平衡數(shù)據(jù)。也有學(xué)者通過改進(jìn)診斷算法提高診斷精度,如改進(jìn)支持向量機(jī)(support vector machines, SVM)算法[11]和改進(jìn)極限學(xué)習(xí)機(jī)算法[12-13]等,都取得了不錯(cuò)的結(jié)果。還有學(xué)者根據(jù)變壓器故障類別,采用分層診斷策略,將變壓器由多故障分類問題轉(zhuǎn)化為二分類問題,簡(jiǎn)化了診斷模型的復(fù)雜性。
然而在實(shí)際工程中,當(dāng)變壓器發(fā)生不同類型故障時(shí),產(chǎn)生的油中溶解氣體含量具有一定的重疊度,會(huì)出現(xiàn)多類樣本共享數(shù)據(jù)空間中一個(gè)公共區(qū)域的情況,即出現(xiàn)類重疊現(xiàn)象,這是分類任務(wù)的一個(gè)重大障礙[14-15]。處于類重疊區(qū)域的樣本雖然屬于不同的類別,但由于它們的特征值相似,會(huì)嚴(yán)重影響分類精度,這是變壓器故障診斷的一個(gè)關(guān)鍵問題。然而現(xiàn)階段,在變壓器故障診斷的研究中,均忽略了類重疊的影響。已有研究表明,分類器劃分錯(cuò)誤的樣本點(diǎn)往往集中在類重疊區(qū)域,類別之間的重疊會(huì)增加分類決策邊界的復(fù)雜性[16],且這種影響在多分類時(shí)會(huì)更加明顯。文獻(xiàn)[17]設(shè)計(jì)不同重疊率下的分類實(shí)驗(yàn),證明了隨著類別重疊率的增大,分類精度會(huì)有顯著降低。更有學(xué)者指出,類重疊是造成類不平衡問題的重要因素。只有當(dāng)類重疊程度較高時(shí),類不平衡對(duì)分類精度才更具影響力,而當(dāng)類重疊程度較低時(shí),類不平衡對(duì)分類效果沒有顯著影響[18]。
針對(duì)類重疊的處理,文獻(xiàn)[14]首先采用分隔訓(xùn)練法將樣本數(shù)據(jù)劃分為重疊區(qū)數(shù)據(jù)和非重疊區(qū)數(shù)據(jù),再利用SVM進(jìn)行分隔訓(xùn)練,該方法相比直接訓(xùn)練,獲得了更好的分類效果。文獻(xiàn)[19]提出一種鄰域欠采樣方法剔除重疊區(qū)域中部分多數(shù)類實(shí)例,降低了重疊區(qū)的樣本復(fù)雜度并減小了數(shù)據(jù)不平衡程度,取得了良好的效果。文獻(xiàn)[20]利用類重疊度表征樣本點(diǎn)的重要程度,提出了一種基于類重疊度的欠采樣技術(shù)處理不平衡數(shù)據(jù),提高了分類精度。
鑒于此,本文提出了一種基于類重疊特征的變壓器分層診斷模型。首先,利用支持向量數(shù)據(jù)描述(support vector data description,SVDD)劃分變壓器故障樣本數(shù)據(jù)空間,刻畫出故障的重疊區(qū)域,并采用類重疊率與類重疊度分別對(duì)類重疊程度和類重疊區(qū)樣本重要性進(jìn)行描述。其次,以類重疊率為分層標(biāo)準(zhǔn)建立分層診斷模型,將多分類簡(jiǎn)化為多個(gè)二分類。最后,在分層模型中采用分隔訓(xùn)練法將樣本集分開訓(xùn)練,針對(duì)分類難度較大的重疊區(qū),基于類重疊度構(gòu)造二分類模糊支持向量機(jī) (fuzzy support vector machine,F(xiàn)SVM)進(jìn)行故障診斷。實(shí)驗(yàn)結(jié)果表明,相比于其他模型,本文所提方法具有更高的準(zhǔn)確度。
類重疊被認(rèn)為是機(jī)械學(xué)習(xí)領(lǐng)域和數(shù)據(jù)挖掘的主要難點(diǎn)之一。類重疊現(xiàn)象一般發(fā)生在決策邊界相交的區(qū)域,在重疊區(qū)域內(nèi)的樣本往往有更大的力量來決定分類邊界,同時(shí)它們也是分類器最容易劃分錯(cuò)誤的樣本點(diǎn)。
在實(shí)際工程中,不同類別的樣本位于特征空間的重疊區(qū)域,被稱為重疊樣本,因重疊樣本導(dǎo)致的分類問題就稱為“類重疊問題”。在多維空間中類重疊區(qū)域 Ω 可描述為:至少存在2個(gè)不同類別Ca和Cb同時(shí)表現(xiàn)出大于零的概率密度的區(qū)域[21],即對(duì)所有重疊樣本x均存在x∈Ω,有p(x|Ca)≥0且p(x|Cb)≥0,如圖1所示。
圖1 類重疊示例Fig.1 Class overlap examples
1.2.1 類重疊率
為表征樣本數(shù)據(jù)集中各類別之間的相關(guān)性,本文引入類重疊率的概念來代表各個(gè)類別的相關(guān)程度[22],數(shù)據(jù)集的重疊率 δ是指重疊樣本相對(duì)于總數(shù)據(jù)空間樣本的比值,即
式中:n為重疊區(qū)樣本數(shù);N為總數(shù)據(jù)樣本數(shù)。
1.2.2 類重疊度
在類重疊區(qū)域中,越靠近重疊區(qū)中心的樣本點(diǎn)對(duì)分類邊界的影響就越大,這些樣本點(diǎn)對(duì)分類決策面的確定具有更大的貢獻(xiàn),其重要程度也越高。本文引入類重疊度的概念來代表類重疊區(qū)域中樣本點(diǎn)的重要程度[23],數(shù)據(jù)點(diǎn)Xi在二類集合中的重疊度為
式中:ap和aq為類Cp和類Cq的類中心點(diǎn);Rp和Rq為類Cp和類Cq的平均類中心距;Np和Nq為樣本數(shù)量;為X到類中心點(diǎn)的距i離,為樣本點(diǎn)Xi屬于類Cp和類Cq的模糊度,其值在0~0.5之間。
對(duì)于平衡數(shù)據(jù)集(Np=Nq)中的樣本點(diǎn),越靠近重疊區(qū)的中心,其類重疊度越大,如點(diǎn)A距離2個(gè)類中心的距離相等( μA=0.5),而距離重疊區(qū)越遠(yuǎn),其類重疊度越?。?μA>μB>μC),如圖2所示。
圖2 平衡數(shù)據(jù)計(jì)算類重疊度Fig.2 Class overlap degree calculation based on balanced data
而該方法同樣適用于分布不平衡的數(shù)據(jù)集,如圖3所示,點(diǎn)A距離2個(gè)類中心的距離相等,但由于兩類的樣本數(shù)量不同(Np≠Nq),導(dǎo)致樣本點(diǎn)到兩類的平均類中心距有差異,因此其類重疊度并不會(huì)很高( μA<μB<μC),符合實(shí)際情況。
圖3 不平衡數(shù)據(jù)計(jì)算類重疊度Fig.3 Class overlap degree calculation based on imbalanced data
本文選擇SVDD網(wǎng)絡(luò)劃分類重疊區(qū)域。SVDD通過非線性變換將目標(biāo)樣本映射到高維特征空間,構(gòu)造出一個(gè)封閉的超球面邊界去圍繞大多數(shù)目標(biāo)樣本,以此確定合適的超球體半徑和球心,驅(qū)逐異類樣本點(diǎn)。本文利用SVDD為每個(gè)類別建立獨(dú)立球體模型以刻畫類重疊區(qū)域[24-28]。
給定的數(shù)據(jù)集 {Xi|Xi∈Rm,i=1,···,n}(m為特征維度),通過非線性變換映射到高維空間,可構(gòu)造一個(gè)半徑為R,球心為a的超球體,令其盡量覆蓋所有Xi,這個(gè)過程可歸結(jié)為以下優(yōu)化問題。
式中: ξi為松弛變量;C>0表示懲罰系數(shù),可控制超球體的體積與球外數(shù)據(jù)的平衡。
引入拉格朗日函數(shù)可得
式中: αi>0,γi>0是拉格朗日系數(shù)。對(duì)式中R、a和 ξi求其偏導(dǎo)且令其為零,可將式(5)最小化問題轉(zhuǎn)化為
式中:K(Xi,Xj)是滿足mercer定理的核函數(shù)。本文選擇高斯核函數(shù), 因?yàn)樗话粋€(gè)可變參量g,邊界比其他核函數(shù)的邊界更緊湊。
根據(jù) αi值的大小,將樣本分為3類:(1)在超球體內(nèi)的 αi=0的樣本;(2)在超球體邊界上的0<αi<C的樣本,稱為支持向量(support vector,簡(jiǎn)稱SV);(3)在超球體外的 αi=C的樣本。通過任意支持向量與球心的距離,可以得到超球體半徑R,即
對(duì)于一組測(cè)試樣本z,此時(shí)決策函數(shù) φ (z)可定義為
當(dāng)決策函數(shù)值為0時(shí),該樣本為支持向量;決策函數(shù)值小于0時(shí)為球外點(diǎn),大于0時(shí)為球內(nèi)點(diǎn)。利用SVDD對(duì)每個(gè)故障類別進(jìn)行單類學(xué)習(xí),當(dāng)樣本點(diǎn)僅在一個(gè)單類SVDD模型中的決策函數(shù)值大于或等于0時(shí),則其位于樣本空間的非重疊區(qū)域。當(dāng)樣本點(diǎn)在至少2個(gè)單類SVDD模型中的決策函數(shù)值大于或等于0,則其位于重疊區(qū)域,如圖4所示。
圖4 類重疊區(qū)識(shí)別Fig.4 Class overlap recognition
文章采用油中溶解氣體分析(DGA)作為判斷變壓器故障診斷的標(biāo)準(zhǔn),選取H2、CH4、C2H2、C2H4、C2H65種氣體作為分類的特征參考,依據(jù)中國電力行業(yè)標(biāo)準(zhǔn)DL/T722—2014《變壓器油中溶解氣體分析和判斷導(dǎo)則》以及樣本特征可以將變壓器運(yùn)行狀態(tài)劃分為正常、過熱故障與放電故障三大類。其中本文將局部放電與火花放電統(tǒng)稱為低能放電,低溫過熱與中溫過熱統(tǒng)稱為低中溫過熱,因此放電故障可分為低能放電和高能放電,過熱故障可分為低中溫過熱和高溫過熱。
變壓器絕緣油是多種碳?xì)浠衔锝M成的混合物,在不同的故障狀態(tài)下絕緣油會(huì)發(fā)生不同的化學(xué)反應(yīng),產(chǎn)生的氣體也會(huì)隨之改變,如表1所示。
表1 故障類型與相應(yīng)氣體成分Table 1 Fault type and corresponding gas composition
為充分利用變壓器故障特征,考慮故障之間的相關(guān)程度,本文以類重疊率為標(biāo)準(zhǔn),建立分層診斷模型。以A、B、C、D、E替代正常、低能放電、高能放電、低中溫過熱和高溫過熱等5種狀態(tài),分層故障模型如圖5所示。
圖5 基于類重疊率的分層診斷模型Fig.5 Hierarchical diagnosis model based on class overlap rate
具體步驟如下。
(1)首先采用SVDD計(jì)算各個(gè)類別的重疊率,如 δAB, δAC,···, δ BE。
(2)選取類重疊率最小的二類作為起始劃分的異類,假設(shè)A,B二類的類重疊率最小。
(3)進(jìn)行類重疊率判斷,比較A,C與B,C的類重疊率,若 δAC>δBC,則將類別AC歸為同類,反之BC歸為同類。
(4)重復(fù)步驟(3)依次將所有剩余類別全部歸類,整個(gè)數(shù)據(jù)集劃分為兩類,完成初步分層。
(5)重復(fù)步驟(2)~(4)不斷將多類別集合化簡(jiǎn)為二類集合,逐步構(gòu)建分層診斷模型。
支持向量機(jī)通過懲罰因子C和松弛變量保證所有樣本線性可分,以此求解最大幾何間隔的分離超平面來正確劃分訓(xùn)練數(shù)據(jù)集。支持向量機(jī)的分類精度是由支持向量決定,在類重疊區(qū)域中,訓(xùn)練樣本類重疊度越高,越靠近分類決策面,成為支持向量的可能性就越大,其重要程度也應(yīng)該越高。而傳統(tǒng)的SVM對(duì)所有的訓(xùn)練樣本同等對(duì)待,對(duì)錯(cuò)分的訓(xùn)練樣本點(diǎn)賦予相同的懲罰,這并不合理[25]。本文以樣本的類重疊度為隸屬度值,構(gòu)建模糊支持向量機(jī)(FSVM),針對(duì)數(shù)據(jù)集中不同樣本點(diǎn)對(duì)分類的貢獻(xiàn),分配其不同的權(quán)重(即模糊隸屬度),可以增加算法的抗噪能力。
給定一個(gè)基于模糊隸屬度的訓(xùn)練樣本集S={(xi,yi,μi),i=1,2,···,n}, 其 中n為 樣 本 數(shù) 量 、xi為輸入樣本數(shù)據(jù)、yi為標(biāo)簽數(shù)據(jù)、 μi為第i個(gè)樣本的類重疊度。則基于類重疊度的模糊支持向量機(jī)模型為
式中: ω 為可調(diào)權(quán)值向量;b為超平面的常數(shù)項(xiàng)。
由式(10)可知,類重疊度 μi越小,則該樣本點(diǎn)xi的 錯(cuò)分代價(jià)就越小,松弛變量 ξi對(duì)目標(biāo)函數(shù)的影響就越小。
結(jié)合拉格朗日函數(shù)以及對(duì)偶原理,可將目標(biāo)函數(shù)轉(zhuǎn)化為
式中: αi為拉格朗日系數(shù)。
引入徑向基核函數(shù),對(duì)上式進(jìn)行最優(yōu)求解,可得到最終分類決策函數(shù),即
圖6為本文提出的基于類重疊特征的變壓器分層故障診斷模型,步驟如下。
(1)收集變壓器在各個(gè)狀態(tài)時(shí)的油中溶解氣體數(shù)據(jù),主要以H2、CH4、C2H2、C2H4、C2H65種氣體為主。
圖6 基于類重疊特征的變壓器分層故障診斷模型流程Fig.6 Transformer hierarchical fault diagnosis model flow chart based on class overlap feature
(2)利用SVDD算法劃分出故障樣本空間的重疊區(qū)以及重疊區(qū)樣本,計(jì)算各類故障的類重疊率與類重疊度。
(3)根據(jù)類重疊率將多故障分類化簡(jiǎn)為幾個(gè)二分類問題,逐步構(gòu)建分層故障診斷模型。
(4)采用分隔訓(xùn)練法將各層分類樣本集分開訓(xùn)練,針對(duì)分類難度較大的重疊區(qū),利用類重疊度代表樣本的重要程度,構(gòu)造模糊二分類支持向量機(jī)應(yīng)用于各層診斷模型中,得到基于類重疊特征的變壓器分層故障診斷模型。
本文采用某地區(qū)500 kV變壓器的油色譜數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)集,將400組樣本數(shù)據(jù)分為300組訓(xùn)練數(shù)據(jù)集和100組測(cè)試數(shù)據(jù)集。為構(gòu)建不平衡數(shù)據(jù)環(huán)境,訓(xùn)練數(shù)據(jù)集包含正常狀態(tài)60組、低能放電42組、高能放電74組、低中溫過熱40組和高溫過熱84組,測(cè)試數(shù)據(jù)從100組中隨機(jī)選取70組進(jìn)行驗(yàn)證。
根據(jù)變壓器故障診斷的標(biāo)準(zhǔn),選取H2、CH4、C2H2、C2H4、C2H6作為特征氣體,部分有標(biāo)簽樣本如表2所示,為避免特征氣體之間數(shù)據(jù)差距過大造成診斷誤差,對(duì)其進(jìn)行標(biāo)準(zhǔn)化處理,即
表2 部分有標(biāo)簽氣體樣本Table 2 Labeled gas samples
式中:x′i為標(biāo)準(zhǔn)化處理后的值;xi為原始值;xmean為該類氣體的均值;xmax為該類氣體的最大值;xmin為該類氣體的最小值。
重疊區(qū)劃分模型選擇SVDD網(wǎng)絡(luò),其網(wǎng)絡(luò)中參數(shù)設(shè)置為:學(xué)習(xí)率為0.001,最大迭代次數(shù)為1000,采用網(wǎng)格搜索法 (grid search, GS)對(duì)懲罰系數(shù)C進(jìn)行尋優(yōu),尋優(yōu)范圍設(shè)置為[0,0.2],搜索步長(zhǎng)為0.01,懲罰系數(shù)C根據(jù)各類網(wǎng)絡(luò)尋優(yōu)取不同值(正常:C1=0.1,低電:C2=0.08,高電:C3=0.05,低中溫:C4=0.07,高溫:C5=0.07)。結(jié)合DGA數(shù)據(jù)對(duì)樣本空間進(jìn)行類重疊區(qū)域劃分,計(jì)算其類重疊率,如表3所示。
表3 二類組合的類重疊率Table 3 Class overlap rate of two-class combination
據(jù)表3可知,在總體數(shù)據(jù)集中,類別為正常狀態(tài)和高溫過熱故障狀態(tài)的樣本集合重疊率 δ15最低,因此選擇該二類狀態(tài)作為初始異類,再根據(jù)類重疊率分別判斷低能放電、高能放電與低中溫過熱的歸屬,完成初步分層(12-345)。針對(duì)第二層中的多類別集合(高能放電-低中溫過熱-高溫過熱),選擇類重疊率最小(δ34)的高能放電與低中溫過熱作為異類,判斷高溫過熱的歸屬,繼續(xù)進(jìn)行分層(3-45),直到所有類別均成為單類,則分層完畢。
由于低能放電與高能放電的類重疊率達(dá)到77.5%,說明兩類放電故障產(chǎn)生的特征氣體相關(guān)程度較大,若采用本文所提模型直接在第一層將其分開,會(huì)降低兩類放電故障的診斷精度。因此本文在第三層再次對(duì)低能放電與高能放電進(jìn)行二分類訓(xùn)練,以確保模型準(zhǔn)確度,最后再采用基于類重疊度的FSVM對(duì)各層進(jìn)行分類訓(xùn)練,完成分層診斷模型,具體分層模型如圖7所示。
圖7 基于類重疊特征的變壓器分層診斷模型Fig.7 Transformer hierarchical diagnosis model based on class overlap features
3.3.1 診斷結(jié)果對(duì)比
為構(gòu)建各診斷層的分隔模糊支持向量機(jī),本文計(jì)算重疊區(qū)中各類樣本的類重疊度作為模糊隸屬度來代表其重要程度,以FSVM2為例,正常-低電組中部分樣本的類重疊度如表4所示。
表4 部分樣本類重疊度Table 4 Class overlap degree of some samples
采用GS對(duì)分層診斷模型中的模糊支持向量機(jī)參數(shù)(核參數(shù)g與懲罰因子C)進(jìn)行優(yōu)化,尋優(yōu)范圍設(shè)置為[–10,10],搜索步長(zhǎng)為0.1,核參數(shù)與懲罰因子最優(yōu)值分別為 2g與 2C,其參數(shù)如表5所示,將70組測(cè)試數(shù)據(jù)輸入至訓(xùn)練完成的分層診斷模型中,統(tǒng)計(jì)結(jié)果如圖8所示,具體各類別分類準(zhǔn)確率如表6所示。
表5 模糊支持向量機(jī)參數(shù)尋優(yōu)Table 5 Parameter optimization of FSVM
圖8 基于類重疊特征的故障診斷模型結(jié)果Fig.8 Result of fault diagnosis model based on class overlap features
表6 故障分類準(zhǔn)確率Table 6 Fault classification accuracy
為驗(yàn)證本文故障診斷模型的有效性,本文采用SVM、傳統(tǒng)分層-SVM、類重疊率分層-SVM與本文所提類重疊率分層-分隔FSVM模型進(jìn)行分析對(duì)比,如表7所示,具體統(tǒng)計(jì)結(jié)果如圖9、圖10、圖11所示。
表7 各方法故障診斷精度對(duì)比Table 7 Fault diagnosis accuracy of different methods
圖9 SVM模型診斷結(jié)果Fig.9 Diagnosis result of SVM model
圖10 傳統(tǒng)分層SVM診斷結(jié)果Fig.10 Diagnosis result of traditional hierarchical SVM
圖11 類重疊率分層SVM診斷結(jié)果Fig.11 Diagnosis result of class-overlap-ratio hierarchical SVM
綜上所述,通過4種實(shí)驗(yàn)結(jié)果的對(duì)比驗(yàn)證,基于類重疊率分層–分隔FSVM故障診斷模型的準(zhǔn)確度能夠達(dá)到94.28%,而使用SVM、傳統(tǒng)分層SVM與類重疊率分層SVM故障診斷模型的準(zhǔn)確度分別為74.28%、81.40%和85.70%,結(jié)果驗(yàn)證了本文所提模型的可行性。
3.3.2 傳統(tǒng)分層與類重疊特征分層模型對(duì)比分析
傳統(tǒng)分層診斷模型以變壓器故障類別為分層標(biāo)準(zhǔn),先對(duì)大類故障進(jìn)行診斷,再細(xì)分其小類故障,如圖12所示。將70組測(cè)試數(shù)據(jù)分別輸入至傳統(tǒng)分層故障診斷模型與本文所提出的基于類重疊率分層診斷模型進(jìn)行對(duì)比分析,其結(jié)果如表8、表9所示。
圖12 變壓器傳統(tǒng)分層診斷模型Fig.12 Traditional hierarchical diagnosis model of transformer
表8 傳統(tǒng)分層診斷模型分類準(zhǔn)確率Table 8 Classification accuracy of traditional hierarchical diagnosis model
表9 基于類重疊率分層診斷模型分類準(zhǔn)確率Table 9 Classification accuracy of hierarchical diagnosis model based on class overlap rate
據(jù)表8、表9分析,基于類重疊率分層比傳統(tǒng)分層模型在正常類別上的診斷準(zhǔn)確率提高了37.50%,這是由于傳統(tǒng)分層未考慮正常狀態(tài)與整個(gè)故障狀態(tài)之間的不平衡數(shù)據(jù)分布所導(dǎo)致。如圖13所示,選取H2和CH4代表油氣特征來描述數(shù)據(jù)分布情況,由于變壓器處于正常狀態(tài)時(shí)各類特征氣體的含量都相對(duì)較少,所以在整個(gè)訓(xùn)練樣本空間中,正常狀態(tài)的樣本分布狹小而緊密,與整個(gè)故障類別相比,正常類別處于弱勢(shì)。如果將正常一類直接從整體數(shù)據(jù)集中率先分出,必然會(huì)導(dǎo)致對(duì)正常類別劃分的不公平,診斷精度也隨之下降。
圖13 正常-故障數(shù)據(jù)分布Fig.13 Data distribution of normal-fault samples
而在基于類重疊率的分層診斷模型中,將正常樣本和與其類重疊程度較大的低能放電樣本劃分為一組進(jìn)行分類,可避免正常樣本和整個(gè)數(shù)據(jù)集之間出現(xiàn)分布極不平衡的現(xiàn)象,從而提高正常樣本的診斷準(zhǔn)確度,如圖14所示。但在基于類重疊率的分層診斷模型中,低能放電樣本由于與正常樣本劃分為一組率先分出,在提升正常樣本的診斷準(zhǔn)確度時(shí),也導(dǎo)致低能放電樣本與整體數(shù)據(jù)集之間出現(xiàn)分布不平衡現(xiàn)象。因此本文對(duì)分層模型第三層進(jìn)行改進(jìn),由于低能放電與高能放電的類重疊率達(dá)到77.50%,兩者相關(guān)程度較大,在分層模型第三層對(duì)低能放電和高能放電進(jìn)行再分類,以確保低能放電的診斷準(zhǔn)確度,改進(jìn)后診斷結(jié)果如表10所示。
圖14 正常低電-其他故障的數(shù)據(jù)分布Fig.14 Data distribution of normal-low power and other fault samples
表10 基于類重疊率分層診斷模型分類準(zhǔn)確率(改進(jìn)后)Table 10 Classification accuracy of hierarchical diagnosis model based on class overlap rate (improved)
據(jù)表10可知,改進(jìn)后的分層診斷模型對(duì)低能放電與高能放電的診斷精度分別提升了10%和5%,改善了低能放電從整個(gè)數(shù)據(jù)集中率先分出導(dǎo)致精度降低的情況。相比于傳統(tǒng)分層,改進(jìn)后的基于類重疊率分層診斷模型在正常樣本的診斷上更有優(yōu)勢(shì),并且未對(duì)放電故障的診斷精度造成過多的負(fù)面影響。
3.3.3 分隔法驗(yàn)證
為驗(yàn)證分隔法對(duì)平衡數(shù)據(jù)以及不平衡數(shù)據(jù)的普適性,本文用平衡數(shù)據(jù)集和不平衡數(shù)據(jù)集分別訓(xùn)練模型,再將70組測(cè)試數(shù)據(jù)中相對(duì)應(yīng)的故障數(shù)據(jù)分別輸入至2個(gè)訓(xùn)練好的FSVM模型中進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果見表11。其中平衡數(shù)據(jù)集(82組)由42組低能放電數(shù)據(jù)與40組低中溫過熱數(shù)據(jù)組成;不平衡數(shù)據(jù)集(116組)由42組低能放電數(shù)據(jù)與74組高能放電數(shù)據(jù)組成。
表11 FSVM分隔法對(duì)比Table 11 FSVM Compartmentalization comparison
據(jù)表11可知,無論是平衡數(shù)據(jù)集還是不平衡數(shù)據(jù)集在非重疊區(qū)的故障診斷精度達(dá)到100%,這說明類重疊是導(dǎo)致類不平衡問題的重要影響因素。在2種情況下,采用分隔訓(xùn)練的診斷精度分別提高了4.6%和10.0%,其中對(duì)不平衡數(shù)據(jù)集診斷精度的提升效果要更加明顯,這是因?yàn)閷⒉黄胶鈹?shù)據(jù)集的重疊區(qū)單獨(dú)訓(xùn)練可以有效減小其類不平衡比例,有助于分類器尋找分類邊界,從而提高診斷精度。
為提高變壓器故障診斷的準(zhǔn)確性,本文提出了基于類重疊特征的變壓器分層故障診斷模型,得出如下結(jié)論。
(1)采用分層診斷策略將多分類診斷模型轉(zhuǎn)化為多個(gè)二分類診斷模型可以提高診斷精度,而通過類重疊率可以很好地發(fā)現(xiàn)各類別之間的相關(guān)程度,以此對(duì)模型分層能有效簡(jiǎn)化模型的復(fù)雜度。
(2)針對(duì)分類難度較大的重疊區(qū),采用分隔訓(xùn)練法可以降低重疊區(qū)數(shù)據(jù)集的類不平衡程度,再根據(jù)類重疊度構(gòu)建模糊支持向量機(jī)進(jìn)行分類,可以大幅提高診斷的準(zhǔn)確度。
(3)類重疊是影響變壓器故障診斷的關(guān)鍵問題,也是導(dǎo)致類不平衡問題的重要影響因素。本文所提模型采用SVDD算法劃分類重疊區(qū)域,從類重疊角度為變壓器故障診斷研究提供了一種思路,下一步將繼續(xù)探究更先進(jìn)的類重疊區(qū)域劃分方法以及更多的類重疊特征,以用于變壓器故障診斷分析,進(jìn)一步完善基于類重疊特征的變壓器故障診斷模型。