張慶磊,王寶華,陳祥睿(.南京理工大學(xué)自動(dòng)化院,南京0094;.南京供電公司,南京0000)
運(yùn)用多分類多核參數(shù)SVM的變壓器故障診斷算法
張慶磊1,王寶華1,陳祥睿2
(1.南京理工大學(xué)自動(dòng)化院,南京210094;2.南京供電公司,南京210000)
針對(duì)變壓器故障診斷中支持向量機(jī)(SVM)的核參數(shù)選擇和特征值權(quán)重問(wèn)題,對(duì)多分類多核參數(shù)SVM算法做了改進(jìn)。該方法研究了核參數(shù)對(duì)多分類SVM分類器分類性能的影響,采用多核參數(shù)表示輸入特征分量的權(quán)重,通過(guò)最優(yōu)化分類間隔來(lái)獲得核參數(shù)的最優(yōu)值,使SVM的分類性能達(dá)到最優(yōu)。實(shí)驗(yàn)表明此算法擁有最優(yōu)的分類性能,可以提高變壓器診斷的精度和效率,擁有良好的應(yīng)用前景。
多分類;多核參數(shù);支持向量機(jī)(SVM);變壓器;故障診斷
變壓器是電力系統(tǒng)重要設(shè)備,其運(yùn)行狀態(tài)直接影響電力系統(tǒng)的安全與穩(wěn)定。變壓器油中溶解氣體分析DGA(dissolved gasanalysis)方法,由于其直觀簡(jiǎn)單的特點(diǎn),已得到了廣泛研究和運(yùn)用。但變壓器結(jié)構(gòu)復(fù)雜,故障原因多變,故障表現(xiàn)和故障原理之間存在模糊性和復(fù)雜性,使得故障診斷存在許多困難。近年來(lái),大量智能算法被運(yùn)用于變壓器故障診斷中,而支持向量機(jī)算法SVM(support vectormachines)因?yàn)槠溆?xùn)練樣本數(shù)目要求小,診斷準(zhǔn)確率高,魯棒性好,得到了廣泛的運(yùn)用。但變壓器故障診斷由于本身的一些特點(diǎn)和技術(shù)要求,傳統(tǒng)的SVM難以獲得理想的診斷效果。
變壓器故障診斷屬于多分類問(wèn)題,并需要考慮多個(gè)特征量,想要獲得較好的分類效果,則需要使用多個(gè)核參數(shù)。傳統(tǒng)的多分類SVM方法如“一對(duì)一”和“一對(duì)多”[1]有著算法復(fù)雜、計(jì)算耗時(shí)久的缺點(diǎn),而整體優(yōu)化方法[2-3]在一個(gè)目標(biāo)函數(shù)中同時(shí)考慮所有子分類器的優(yōu)化參數(shù),降低了優(yōu)化算法的復(fù)雜程度,改善了SVM性能。文獻(xiàn)[4-7]采用多個(gè)核函數(shù),提出了多分類多核學(xué)習(xí)的SVM算法,在傳統(tǒng)單核SVM基礎(chǔ)上再增加了一層線性節(jié)點(diǎn),將單核的分類結(jié)果線性疊加得到多核的運(yùn)算結(jié)果。
在SVM的運(yùn)用中,核參數(shù)的選擇是一個(gè)關(guān)鍵。文獻(xiàn)[8]采用高斯函數(shù)作為核函數(shù),并定義同類的幾何中心為該類的類中心,非同類的類中心之間的間距定義為類間距,研究了高斯核的寬對(duì)類間距的影響,并且證明了類間距全局收斂且存在極值,進(jìn)而通過(guò)求極值點(diǎn)達(dá)到最優(yōu)化核參數(shù)的目的。其他選擇核參數(shù)的方法如考慮核相似性最大[9]、核空間聚類[10]等,都得到了研究和運(yùn)用。DGA算法通常使用變壓器油中H2、CH4、C2H2、C2H4、C2H65種溶解氣體的含量作為樣本輸入特征量。若要得到性能更好的SVM分類器,則必須研究這些特征量對(duì)分類器性能的影響。文獻(xiàn)[11]通過(guò)測(cè)量類間距來(lái)篩選樣本輸入的特征量,能夠準(zhǔn)確、快速地選擇特征量并確定核參數(shù)。該文獻(xiàn)僅去除了對(duì)影響分類性能無(wú)關(guān)或影響較小的特征量,沒(méi)有考慮余下的有效特征量的權(quán)重問(wèn)題。
針對(duì)這些問(wèn)題,本文重新定義了多分類樣本的類間距,采用高斯函數(shù)作為核函數(shù),分析高斯核的寬度在類間距最優(yōu)化過(guò)程中的作用,提出考慮核參數(shù)選擇的優(yōu)化方法。并且將高斯函數(shù)變形,把單核參數(shù)推廣到考慮特征分量權(quán)重的多核參數(shù)分類方法,提出了基于多分類多核參數(shù)的支持向量機(jī)MMP_SVM(multiclassmultiple parameters supportvectormachine)方法。實(shí)驗(yàn)表明,該方法分類性能高于一般SVM,有較好的應(yīng)用前景。
1.1 凸外形二分SVM
令S為m個(gè)訓(xùn)練樣本的合集,S=({xi,y)i;i= 1,2,…,m},,其中xi∈Rn。定義I1和I2為類1和類2的樣本標(biāo)簽集合。若i∈I1,則yi=-1;若i∈I2,則yi=1。傳統(tǒng)的二分SVM是找到最優(yōu)超平面H= {x∈X:wTx-b=0},將兩類樣本分開(kāi)。在兩類樣本中,尋找一對(duì)穿過(guò)兩類樣本點(diǎn)的平行線,并通過(guò)最大化平行線的間隔來(lái)得到最優(yōu)超平面,如圖1(a)所示。上述問(wèn)題可以表示為
文獻(xiàn)[12]指出,該最優(yōu)化過(guò)程可以用另一種形式表示。定義P1和P2為各自兩類樣本點(diǎn)的線性組合的集合,代表類各自所在的凸多邊形區(qū)域,如圖1(b)所示。最優(yōu)化問(wèn)題就變?yōu)閷ふ襳1∈P1和v2∈P2,使得‖v1-v‖22最小。最優(yōu)化得到兩點(diǎn)間隔就是類間距,兩點(diǎn)的垂直平分線就是分類間隔,而分類面可以表示為
式中:w=v1-v2;b=(v1+v2)T(v1-v2)/2。v1和v2可以看作各自類中元素的線性組合。
圖1 SVM分類超平面的選取Fig.1 Classification hyperplane selected by SVM
則最優(yōu)化過(guò)程可以表示為
分類器還可以用另一種方式表示。定義c=(v1+v2)/2,c為v1和v2的中點(diǎn),若測(cè)試樣本在I1中,則有
1.2 凸外形多分類SVM
二分SVM拓展到多分類,即有K個(gè)分類數(shù)目。定義訓(xùn)練樣本集S={(xi,yi);i=1,2,…,m},xi∈Rn,yi∈{1,2,…,K},則最優(yōu)化的目標(biāo)就成為最小化所有類凸多邊形的間隔之和,即
式(7)帶入樣本數(shù)據(jù),可表示為
式中:Xl為由所有屬于l類的樣本x(ii∈I)l拼接成的矩陣;ul為對(duì)應(yīng)的權(quán)值。
Kij=j表示屬于類i和類j的所有樣本之間的內(nèi)積。
于是最優(yōu)化過(guò)程可表示為
式(11)剛好對(duì)所有樣本輸入僅做一次內(nèi)積(Kij與Kji是不同的兩次內(nèi)積,盡管他們的值是相同的)。建立一個(gè)m×m的矩陣α,α=(αi)j,且當(dāng)樣本i和樣本j屬于同一類時(shí),αij=K-1;當(dāng)樣本i和樣本j不屬于同一類時(shí),αij=-1。則式(11)的目標(biāo)函數(shù)以內(nèi)積形式可表示為
上述所有推導(dǎo)都是在原空間進(jìn)行的,但在樣本映射的Hilbert空間也同樣適用,用核函數(shù)取代內(nèi)積,最優(yōu)化過(guò)程可表示為
同樣,將內(nèi)積以核函數(shù)代替,分類器最終可表示為
2.1 核參數(shù)對(duì)分類性能的影響
采用高斯函數(shù)作為核函數(shù),研究核參數(shù)λ∈[0,∞)的變化對(duì)分類器性能的影響。核函數(shù)為
式(12)的目標(biāo)函數(shù)的最小值W(u~),其物理意義表示在Hilbert空間中各類的類間距之和,那么類間距之和越大,樣本的可分性就越好。找到λ∈[0,∞)使得類間距達(dá)到最大,那么此時(shí)的λ就可以認(rèn)為是最優(yōu)的核參數(shù)。
式(12)引入λ作為變量,即目標(biāo)函數(shù)擁有2個(gè)最優(yōu)化對(duì)象,表示為W(,λ)。
考察代價(jià)函數(shù),即
設(shè)Dij表示xi和xj在Hilbert空間的映射φ(和φ(x)j之間的距離,則核函數(shù)表示為
當(dāng)λ=0時(shí),Dij=0,此時(shí)所有的樣本輸入都被映射到一點(diǎn),所以樣本映射的所有線性組合也是位于同一點(diǎn),即有
從而退化為對(duì)角矩陣,此時(shí)對(duì)于所有屬于Ij的樣本i,對(duì)應(yīng)的乘子都有
式中,W(λ)≥0且可導(dǎo)。根據(jù)拉格朗日中值定理,必存在ξ1∈(0,∞),使得)〉0
實(shí)際上,由于二次規(guī)劃迭代精度有限,當(dāng)λ= ξ2足夠大時(shí),ui就退化為式(20)的常數(shù),此時(shí)
為了清楚地觀察W(λ)和λ的關(guān)系,利用加州大學(xué)UCI網(wǎng)站下載的公開(kāi)實(shí)測(cè)特征數(shù)據(jù)庫(kù)Iris、Wine和Soybean對(duì)優(yōu)化算法進(jìn)行仿真驗(yàn)證,并分別繪制了λ-W(λ)曲線,如圖2所示,橫坐標(biāo)采用對(duì)數(shù)坐標(biāo)。從圖中可以看出,W(λ)在λ=0為0,而在λ→∞時(shí)趨于某個(gè)正常數(shù),這個(gè)常數(shù)和式計(jì)算的相吻合,并且W(λ)在某處存在極大值。設(shè)λ=λξ時(shí)W(λ)有極大值,那么λξ即為最優(yōu)核參數(shù)。
圖2 三樣本集的λ-W(λ)曲線Fig.2λ-W(λ)curves for 3 kindsof datasets
2.2 核參數(shù)的求解
若|λ1-λ0|≤η,則迭代結(jié)束(η是人為取的某一較小值,表示最優(yōu)化結(jié)束條件);若|λ1-λ0|〉η,則更新λ0,轉(zhuǎn)步驟1。
步驟1使用二次規(guī)劃求解最優(yōu)值,同一般SVM最優(yōu)化算法相同,步驟2使用最速下降法求解最優(yōu)值。
在λ0=1、λ0=50條件下,通過(guò)步驟1求解u~= argmin u后,描繪了W(u~)關(guān)于λ的變化曲線,如圖3所示。圖中虛線的最大值對(duì)應(yīng)的橫坐標(biāo)就是步驟2所要求解的λ1;對(duì)應(yīng)的縱坐標(biāo)表示λ= λ0條件下獲得的最優(yōu)間隔。每個(gè)λ0都對(duì)應(yīng)一個(gè)最優(yōu)解λ1和最優(yōu)間隔W(λ)|λ=λ1。圖3中實(shí)線表示最優(yōu)間隔對(duì)于λ0的全局變化趨勢(shì)。從圖中可看出,實(shí)曲線擁有一個(gè)最大值,所在點(diǎn)的λ值就是全局最優(yōu)點(diǎn),即是最終要獲得的理想核參數(shù)。在λ0=1和λ0=50情況下,最大值和全局最優(yōu)點(diǎn)總是在初值的同一邊,可以說(shuō)步驟2的最優(yōu)化過(guò)程總是趨向于最終目標(biāo)的。
圖3 已知λ0條件下的λ-W(λ)曲線Fig.3λ-W(λ)curvesw ith knownλ0
假設(shè)X和Z有S個(gè)特征分量,Xi與Zi是其中的第i個(gè)特征分量。
選取核函數(shù)為
式中,λi一方面構(gòu)成了高斯函數(shù)的寬,另一方面也包含特征量之間的權(quán)重關(guān)系。若某一個(gè)λ值較小,則表示該特征量對(duì)于分類結(jié)果的影響較?。蝗糁递^大,則表示分類結(jié)果對(duì)這一特征量更為敏感。
采用第2.2節(jié)中的兩步迭代方法最優(yōu)化多個(gè)核參數(shù)。但多維優(yōu)化更加難以收斂,所以將核函數(shù)分解為賦初值βi=,n為樣本特征量數(shù)目,通過(guò)兩步迭代法求解λ,再通過(guò)約束條件下最優(yōu)化方法來(lái)求解βi。
多分類多核參數(shù)SVM算法具體描述如下。
(1)定義樣本集S=({xi,y)i;i=1,2,…,m},xi∈Rn,yi∈{1,2,…,K}。I={1,2,…,m}為樣本標(biāo)簽集合,Ik?I表示屬于k類樣本的標(biāo)簽集合。
(2)選取核參數(shù)初值λ0=1,迭代次數(shù)s=0,設(shè)定結(jié)束條件η。
(3)令λ=λ0,s=s+1。選取核函數(shù)為
式中,ε0和τ均為用戶選擇的常數(shù)。若|λ0-λ1|≤η,繼續(xù)下一步;反之,更新λ0,即λ0=λ1。轉(zhuǎn)至步驟(3)。
(7)選取核函數(shù)為
搜集確定實(shí)際故障結(jié)果的84組變壓器油中氣體分析檢測(cè)記錄,其中28組作為訓(xùn)練樣本,其余作為測(cè)試樣本。選擇變壓器油中H2、CH4、C2H2、C2H4、C2H6這5種溶解氣體的含量作為樣本輸入特征量,輸入量為xi=(xi1,xi2,xi3,xi4,xi5)T,溶解氣體含量差異較大,為提高診斷精度,對(duì)DGA數(shù)據(jù)做歸一化處理,即
考慮以下6種故障模式:低溫過(guò)熱T1、中溫過(guò)熱T2、高溫過(guò)熱T3、局部放電(PD)、低能放電D1和高能放電D2。使用三比值法、BP神經(jīng)網(wǎng)絡(luò)(back prop-agation network)、一對(duì)多(one-versus-all,OVA)SVM和MMP_SVM模型對(duì)相同的樣本進(jìn)行比較實(shí)驗(yàn)。各方法的訓(xùn)練時(shí)間、訓(xùn)練經(jīng)驗(yàn)誤差、測(cè)試準(zhǔn)確率如表1所示。表2列舉了樣本集的5種典型樣本的診斷實(shí)例。
表1 不同方法的診斷結(jié)果比較Tab.1 Comparison of faultdiagnosis resultsvia different methods
表2 變壓器故障診斷實(shí)例Tab.2 PracticalexaMplesof fault diagnosis for power transformer
實(shí)驗(yàn)數(shù)據(jù)表明:
(1)在小樣本的情況下MMP_SVM算法仍然具有很好的泛化能力,診斷結(jié)果與實(shí)際診斷結(jié)果吻合得很好。相比樣本訓(xùn)練數(shù)目要求較多的BP神經(jīng)網(wǎng)絡(luò),該算法擁有更高的診斷準(zhǔn)確率。
(2)MMP_SVM準(zhǔn)確率比OVA SVM稍高,但訓(xùn)練時(shí)間卻大大減少。因?yàn)樵撍惴ㄗ顑?yōu)化過(guò)程中需要求解的參數(shù)少,且同時(shí)計(jì)算最優(yōu)化核參數(shù);而OVA SVM必須重復(fù)計(jì)算多個(gè)分類機(jī),并且通過(guò)交叉驗(yàn)證法最優(yōu)化核參數(shù),另在診斷實(shí)驗(yàn)中,OVA SVM僅考慮單一核參數(shù)的選擇,訓(xùn)練時(shí)間是MMP_SVM的2倍。
本文提出了基于凸外形的多分類、面向特征值權(quán)重的多核參數(shù)向量機(jī)模型,并將其運(yùn)用于變壓器故障診斷。該模型具有如下優(yōu)點(diǎn)。
(1)相比于傳統(tǒng)的SVM模型,該模型避免了中間運(yùn)算,從輸入數(shù)據(jù)直接獲得輸出分類結(jié)果,且運(yùn)算過(guò)程清晰、簡(jiǎn)單,有效地避免混淆和差錯(cuò)的可能性。
(2)選擇合適的核參數(shù)來(lái)考慮特征值的權(quán)值,樣本的不均衡性不會(huì)對(duì)分類精度產(chǎn)生太大影響,進(jìn)一步加強(qiáng)模型的分類能力。核參數(shù)的選擇可以用單一的數(shù)學(xué)式表達(dá),核參數(shù)的數(shù)量不再顯著地影響運(yùn)算復(fù)雜程度。
(3)將模型分解為1個(gè)凸規(guī)劃問(wèn)題和2個(gè)約束最優(yōu)化問(wèn)題,降低問(wèn)題復(fù)雜度,加快了收斂速度。
實(shí)驗(yàn)表明,該模型能保證較高的診斷準(zhǔn)確性,有著良好的運(yùn)用前景。
[1]Hsu Chih-Wei,Lin Chih-Jen.A comparison ofmethods for multiclasssupportvectormachines[J].IEEETranson Neural Networks,2002,13(2):415-425.
[2]Crammer K,Singer Y.On the algorithmic implementation ofmulticlass kernel-based vectormachines[J].Journal of Machine Learning Research,2002,2(2):265-292.
[3]Crammer K,Singer Y.On the learnability and design of outputcodes formulticlassproblems[J].Machine Learning,2002,47(2/3):201-233.
[4]郭創(chuàng)新,朱乘治,張琳,等(Guo Chuangxin,Zhu Chengzhi,Zhang Lin,etal).應(yīng)用多分類多核學(xué)習(xí)支持向量機(jī)的變壓器故障診斷方法(A fault diagnosis method for power transformer based onmulticlassmultiple-kernel learning support vectormachine)[J].中國(guó)電機(jī)工程學(xué)報(bào)(Proceedingsof the CSEE),2010,30(13):128-134.
[5]KiMSeung-Jean,Magnani A,Boyd S.Optimal kernel selection in kernel fisher discriminantanalysis[C]//23rd InternationalConference on Machine Learning.Pitts-burgh,USA,2006:465-472.
[6]朱蘇航,呂干云(Zhu Suhang,LüGanyun).利用遺傳支持向量機(jī)進(jìn)行電壓暫降信號(hào)識(shí)別(Voltage sag signal identificationwith GA-SVM)[J].電力系統(tǒng)及其自動(dòng)化學(xué)報(bào)(Proceedingsof the CSU-EPSA),2012,24(1):84-87.
[7]Lee Y,Wahba G,Ackerman SA.Cloud classification of satellite radiancedatabymulticategory supportvectormachines[J].Journal of Atmospheric and Oceanic Technology,2004,21(2):159-169.
[8]宋小衫,蔣曉瑜,羅建華,等(Song Xiaoshan,Jiang Xiaoyu,Luo Jianhua,etal).基于類間距的徑向基函數(shù)-支持向量機(jī)核參數(shù)評(píng)價(jià)方法分析(Analysis of the inter-class distance-based kernel parameter evaluating method for RBF-SVM)[J].兵工學(xué)報(bào)(Acta Armamentarii),2012,33(2):203-208.
[9]唐耀華,郭為民,高靜懷(Tang Yaohua,GuoWeimin,Gao Jinghuai).基于核相似性差異最大化的支持向量機(jī)參數(shù)選擇算法(SVMparameter selection algorithMbased onmaximuMkernel similarity diversity)[J].模式識(shí)別與人工智能(PR&AI),2010,23(2):210-215.
[10]劉瓊蓀,范瑞雅(Liu Qiongsun,F(xiàn)an Ruiya).確定高斯核參數(shù)的聚類方法(Method ofdetermining Gaussian kernel parameter by clustering)[J].計(jì)算機(jī)工程與應(yīng)用(Computer Engineering and Applications),2011,47(3):38-40,60.
[11]黃應(yīng)清,趙鍇,蔣曉瑜(Huang Yingqing,Zhao Kai,Jiang Xiaoyu).基于核空間類間平均距的徑向基函數(shù)—支持向量機(jī)特征選擇算法(RBF-SVMfeature selection arithmetic based on kernelspacemean inter-class distance)[J].計(jì)算機(jī)應(yīng)用研究(Application Research of Computers),2012,29(12):4556-4559.
[12]Nanculef R,Concha C,Allende H,etal.A lightextension of SVMs for multicategory classification[J].International Journal of Hybrid Intelligent Systems,2009,6(2):69-79.
Research of Transformer Fault Diagnosis Based on MulticlassMultiple ParametersSVM
ZHANGQinglei1,WANGBaohua1,CHENXiangrui2
(1.College of Automation,Nanjing University of Science and Technology,Nanjing 210094,China;2.Jiangsu Electric Power Company,Nanjing210000,China)
In order to tackle the problems of support vector machines(SVM)parameters selection and feature′s contribution for the application of transformer fault diagnosis,multiclass multiple parameters support vector machine(MMP_SVM)is improved in this paper.The effectof radial basis function(RBF)kernelparameterson the classification performance ofmulticlass SVMis analyzed,and every features′contribution is considered to obtain the bestperformance of SVM,this is carried outby tuningmultiple kernel parameters automatically through optimizing the interclass distance.The results of experiments indicate that the algorithMof this paper demonstrates the best performance and has high classification accuracy when applied for transformer fault diagnosis,which proves its effectiveness and usefulness.
multiclass;multiple parameters;supportvectormachine(SVM);transformer;faultdiagnosis
TM855
A
1003-8930(2015)09-0097-06
10.3969/j.issn.1003-8930.2015.09.17
張慶磊(1989—),男,碩士研究生,研究方向?yàn)橹悄芸刂评碚摷捌湓陔娏ο到y(tǒng)中的運(yùn)用。Email:czxqzql@126.com
2013-10-09;
2014-04-14
王寶華(1968—),男,博士,副教授,研究方向?yàn)殡娏ο到y(tǒng)分析、運(yùn)行、控制與規(guī)劃。Email:13951845674@163.com
陳祥睿(1988—),男,碩士研究生,研究方向?yàn)殡娏ο到y(tǒng)。Email:291824318@qq.com