張重遠(yuǎn),林志鋒,劉棟,黃景立
(1.華北電力大學(xué) 高電壓研究所,河北 保定 071003;2.華北電力大學(xué) 電氣與電子學(xué)院,河北 保定 071003;3.國網(wǎng)山西省電力公司計量中心,太原 030032)
電力變壓器是電力系統(tǒng)的樞紐設(shè)備,其運行狀態(tài)對電網(wǎng)的安全穩(wěn)定運行有重要影響。隨著數(shù)據(jù)采集與監(jiān)控系統(tǒng)(SCADA)、管理信息系統(tǒng)(MIS)以及在線監(jiān)測系統(tǒng)等廣泛應(yīng)用于電力系統(tǒng)中,油浸式變壓器的監(jiān)測數(shù)據(jù)已呈爆炸性增長,傳統(tǒng)的統(tǒng)計理論方法難以在現(xiàn)有海量數(shù)據(jù)中挖掘出更深層次的規(guī)律,不能為變壓器的穩(wěn)定運行提供快捷、可靠的決策支持[1-3]。因此,將善于在大量數(shù)據(jù)中發(fā)現(xiàn)潛在有價值信息和知識的數(shù)據(jù)挖掘技術(shù)[4]引入電力行業(yè),解決“數(shù)據(jù)爆炸但知識貧乏”的現(xiàn)象是十分必要的。
變壓器油中溶解氣體的變化直接反映著變壓器的運行狀態(tài),相關(guān)學(xué)者在變壓器故障診斷領(lǐng)域中,提出了基于油中溶解氣體分析技術(shù)(Dissolved Gas A-nalysis,DGA)的多種數(shù)據(jù)挖掘方法,如比值分析法[5]、Bayesian網(wǎng)絡(luò)法[6]、支持向量機(jī)法[7]、人工神經(jīng)網(wǎng)絡(luò)法[8]等。
大多數(shù)應(yīng)用于基于DGA數(shù)據(jù)進(jìn)行變壓故障診斷的數(shù)據(jù)挖掘方法,存在離散時未考慮邊界數(shù)據(jù)多重屬性的問題,為解決該問題文章引入正態(tài)云模型,對定量連續(xù)的DGA數(shù)據(jù)進(jìn)行定性分析與離散,使數(shù)值區(qū)域劃分更加客觀并得到更符合人認(rèn)知的概念;同時,云模型的引入精簡了DGA數(shù)據(jù)庫,也提升了關(guān)聯(lián)規(guī)則挖掘的效率。應(yīng)用樸素貝葉斯分類器的故障診斷方法中,各屬性值相對獨立的假設(shè)不符合變壓器油中溶解氣體密切相關(guān)的實際情況,為此,文章引入關(guān)聯(lián)規(guī)則森林表示法[9]和屬性聯(lián)合概率算法對貝葉斯分類器進(jìn)行改進(jìn),并結(jié)合正態(tài)云模型,建立了基于正態(tài)云模型&改進(jìn)貝葉斯分類器的模型,將其應(yīng)用于基于DGA數(shù)據(jù)的變壓器故障診斷。
正態(tài)云模型是李德毅院士在概率論和模糊數(shù)學(xué)理論兩者交互的基礎(chǔ)之上提出的[10],通過特定的結(jié)構(gòu)算法從而形成的定性概念與其定量表示之間的轉(zhuǎn)換模型。該模型在正態(tài)分布函數(shù)與正態(tài)隸屬函數(shù)基礎(chǔ)上,用參數(shù)期望Ex、熵En、超熵He共同表達(dá)一個定性概念,反映概念的不確定性和模糊性。
云變換是基于云模型的連續(xù)數(shù)據(jù)離散化的一種方法[11],簡單講是從連續(xù)的定量數(shù)值區(qū)間到離散的定性概念的轉(zhuǎn)換過程。文章基于無確定度逆向云發(fā)生器[11],對已有的油中溶解氣體定量數(shù)據(jù)進(jìn)行云變換并概念躍升后,轉(zhuǎn)換為由3個數(shù)字特征(期望Ex、熵En、超熵He)來表征的定性云概念,使離散化連續(xù)數(shù)據(jù)得到實現(xiàn)。
具體云變換算法如下:
(1)歸一化采集到的變壓器DGA數(shù)據(jù):
式中Gi表示第i種氣體歸一化后的值;gi表示第i種氣體歸一化前的值;gmax為樣本中第i種氣體最大值。
(2)歸一化DGA數(shù)據(jù)后,對數(shù)據(jù)進(jìn)行分析,得到不同數(shù)值區(qū)段的頻數(shù)分布,并轉(zhuǎn)化為頻數(shù)分布曲線[12]。DGA數(shù)據(jù)頻數(shù)分布曲線的峰值往往表明數(shù)據(jù)是以該點為中心匯聚,因此選擇峰值對應(yīng)橫坐標(biāo)作為第i種氣體第j個云概念期望值Exij,(j=1,…,m)。
(3)選取云滴。在Exij左右兩側(cè)各取n距離(n的大小試驗取得)。以Exij的值為中心,在(Exij-n,Exij)范圍中找到首個波谷和波峰,并計算橫坐標(biāo)之間的差是否大于設(shè)定閾值,如大于則將此波峰的橫坐標(biāo)值記為xleft,如小于該特定值則繼續(xù)尋找下一個滿足條件的波峰;同理在右邊找到xright。比較|Exijxleft|與|xright-Exij|值的大小,取較小的那個,假設(shè)為|xright-Exij|。將[Exij-|xright-Exij|,Exij+|xright-Exij||]范圍內(nèi)的數(shù)據(jù)點作為云滴Gijk,云滴數(shù)為N。
(4)
(5)計算云滴樣本方差:
(7)將樣本中與Ex^的距離過小的e樣本點 去除,轉(zhuǎn)向步驟(5);
實際計算過程中,步驟(7)中刪除樣本點的比例e是可調(diào)整的參數(shù)。實際刪除樣本點過程中,刪除越少,則保留樣本信息就越多,還原的精度也越高,但是為了計算效率,可以按照一定的比例刪除。根據(jù)經(jīng)驗,當(dāng)樣本點的數(shù)目小于等于100,每次刪除1個離期望最近的云滴樣本,當(dāng)樣本點的數(shù)目大于100,每次刪除1%離期望最近的云滴樣本。
若經(jīng)過云變換后,得到相距過近的兩個云概念,則可根據(jù)人的認(rèn)知特點以及 IEC 60599:2007中技術(shù)標(biāo)準(zhǔn)[13],對其進(jìn)行合并躍升,從而得到獨立的云概念。
根據(jù)該算法,離散化已收集到的變壓器油中溶解氣體數(shù)據(jù),結(jié)果見表1。
表1 DGA數(shù)據(jù)離散后各個云概念的數(shù)字特征Tab.1 Digital features of the cloud model after DGA
關(guān)聯(lián)規(guī)則模式是數(shù)據(jù)挖掘的知識模式中非常重要的一種,Agrawal等于1993年首先提出關(guān)聯(lián)規(guī)則[14],它側(cè)重于表示數(shù)據(jù)庫中不同屬性域之間的聯(lián)系,發(fā)現(xiàn)數(shù)據(jù)屬性域之間有實際意義的相互關(guān)系。
關(guān)聯(lián)規(guī)則可定義為[15]:設(shè)T={t1,t2,…,tk}為事務(wù)數(shù)據(jù)庫,tk為T的第k件事務(wù);I={i1,i2,…,ik}為數(shù)據(jù)項集;對任意k,tk∈I;X與Y為I的子集,X∩Y為空集;在T中尋找X與Y之間存在的關(guān)聯(lián)。若可由X的值推出Y的值,則關(guān)聯(lián)規(guī)則記為X→Y。X與Y分別稱為關(guān)聯(lián)規(guī)則的前件和后件。
(1)設(shè)支持度為S,S為T中包含關(guān)聯(lián)規(guī)則X→Y的概率:
(2)設(shè)置信度C,C為T中包含聯(lián)規(guī)則X→Y的數(shù)量與包含Y的數(shù)量的比值:
然而因單靠支持度和置信度得到的規(guī)則,并不能有效判別規(guī)則是否真的有實際意義,故有學(xué)者提出了前件與后件的關(guān)聯(lián)性判別方法[16]:
式中P(X∩Y)表示前件和后件同時出現(xiàn)的概率;P(X)×P(Y)表示前件和后件完全獨立時的概率;V表示前件和后件的相關(guān)性,V<1時,表示負(fù)相關(guān),即規(guī)則沒實際意義,V=1時,表示前件和后件相互獨立,V>1時,表示正相關(guān),即規(guī)則有實際意義。
挖掘關(guān)聯(lián)規(guī)則步驟如下:
(1)將頻繁項目集找出。這一階段必須從原始數(shù)據(jù)庫中,找出所有滿足最小支持度閾值的項目,組成頻繁項目集,大多算法都是針對第一階段提出的,故挖掘性能主要由這階段決定。
(2)由頻繁項目集產(chǎn)生需要的關(guān)聯(lián)規(guī)則。利用前一步驟的頻繁項目集,在最小置信度的條件門檻下,尋找度滿足最小置信度的規(guī)則,則稱此規(guī)則為關(guān)聯(lián)規(guī)則。
對于數(shù)值型數(shù)據(jù),在關(guān)聯(lián)規(guī)則挖掘前,需要對其進(jìn)行離散化,有兩種方法用的較多:一種是把屬性定義域劃分為離散且互不重疊的區(qū)間[17],但是這種方法可能會失去一些有意義的區(qū)間;另一種是將屬性定義域劃分為有重疊的區(qū)域[17],這種方法的邊界元素可能同時屬于兩個相鄰區(qū)域。針對硬劃分所造成的問題,文章引入云模型對數(shù)據(jù)進(jìn)行離散化,解決硬劃分帶來的問題。
在關(guān)聯(lián)規(guī)則挖掘的第一階段中,文章采用的是經(jīng)典的Apriori算法,具體關(guān)聯(lián)規(guī)則挖掘方法步驟如下:
(1)計算收集到的DGA數(shù)據(jù)中的各個氣體對上文所生成的對應(yīng)云概念的隸屬度:
由最大隸屬度原則,得出云概念,輸出0~4中對應(yīng)的數(shù)字。
(2)用云概念對收集到的故障類型定義:Cf1-低能放電,輸出1;Cf2-高能放電,輸出2;Cf3-低、中溫過熱,輸出3;Cf4-高溫過熱,輸出4。
(3)文章在WEKA平臺上,基于經(jīng)典的Apriori算法對DGA數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘,設(shè)置最小支持度為0.005,最小置信度為0.2。得出若干條關(guān)聯(lián)規(guī)則。
計算相關(guān)性系數(shù),綜合考慮,得出有實際意義的關(guān)聯(lián)規(guī)則。最后得出關(guān)聯(lián)規(guī)則如表2所示,以第一條關(guān)聯(lián)規(guī)則為例“1,2,5,1,1→3”,該規(guī)則表示 H2、C2H4、C2H6隸屬于云概念C1,CH4隸屬于云概念C2,C2H2隸屬于云概念C5時,變壓器發(fā)生低、中溫過熱的故障。得到的有效關(guān)聯(lián)規(guī)則將對變壓器的故障診斷有實際的參考價值。
表2 有效關(guān)聯(lián)規(guī)則Tab.2 Effective association rules
貝葉斯分類器是通過已知分類的例子集學(xué)習(xí)得到先驗概率,再利用貝葉斯分類公式計算得出后驗概率,把具有最大后驗概率的類作為該屬性的類,這種方法巧妙地把先驗概率和后驗概率聯(lián)系起來,根據(jù)先驗信息和樣本集確定分類,該方法在各個領(lǐng)域的數(shù)據(jù)挖掘中得到了廣泛的應(yīng)用,取得了一定的成果。
設(shè)已知分類的實例集合為D,D={X1,X2,…,Xn,C}={I,C},X1,X2,…,Xn為離散后的屬性變量,取值為x1,x2,…,xn,C為類變量,取值范圍為{c1,c2,…,cm}。實例Ii={x1,x2,…,xn}屬于類cj的概率為(由貝葉斯定理得):
式中α為正則化因子;P(cj)為類cj的先驗概率,可由樣本集計算得,P(cj|x1,x2,…,xn)為類cj的后驗概率。貝葉斯分類器進(jìn)行分類的最關(guān)鍵之處就在于如何求解P(x1,x2,…,xn|cj)。
基于對P(x1,x2,…,xn|cj)的不同限定條件和求法,常用的貝葉斯分類器有:樸素貝葉斯分類器(Naive Bayes Classifier,NBC)、樹擴(kuò)展樸素貝葉斯分類器(Tree Augmented Naive Bayes Classifier,TAN)、增強(qiáng)貝葉斯網(wǎng)絡(luò)分類器(BN Augmented Naive Bayesian Classifier,BAN)等。
為在關(guān)聯(lián)規(guī)則森林中融入多條關(guān)聯(lián)規(guī)則,對于關(guān)聯(lián)規(guī)則森林有如下定義:
(1)關(guān)聯(lián)規(guī)則中只包含有唯一對應(yīng)節(jié)點的屬性值;
(2)規(guī)則中后件的屬性值節(jié)點都是前件的子節(jié)點,稱有父節(jié)點的節(jié)點為非根節(jié)點,反之稱為根節(jié)點。
為使得到的關(guān)聯(lián)規(guī)則集合所構(gòu)造的規(guī)則森林合理可用,對規(guī)則集合做如下約束:
(1)每條規(guī)則的前件和后件的屬性均不相交;
(2)為根據(jù)規(guī)則計算其屬性的聯(lián)合概率,任意兩條的關(guān)聯(lián)規(guī)則后件不相交;
(3)為避免包含屬性少的規(guī)則失去意義,任意兩條的關(guān)聯(lián)規(guī)則的所有屬性互不包含;
(4)為避免所構(gòu)造的森林中出現(xiàn)回環(huán),任意兩條的關(guān)聯(lián)規(guī)則至少有一組規(guī)則前件與另一規(guī)則的后件的交集為空集。
為計算關(guān)聯(lián)規(guī)則中屬性值的聯(lián)合概率,文章引入定理[9]:
設(shè)集合E為N條關(guān)聯(lián)規(guī)則包含的全部屬性值,第i條規(guī)則的置信度為Ci,構(gòu)造的關(guān)聯(lián)規(guī)則森林中所包含的M個根節(jié)點對應(yīng)的屬性值集合S={D1,D2,…,DM},第j個根節(jié)點Dj的概率為P(Dj),則E中包含的全部屬性值的聯(lián)合概率為:
該屬性聯(lián)合概率即是貝葉斯分類器中的P(x1,x2,…,xn|cj),表示所有屬性值在類cj中同時存在的概率。
在數(shù)據(jù)預(yù)處理階段,文章引入正態(tài)云模型,很好的解決了數(shù)據(jù)離散化劃分區(qū)域過硬的問題,同時將數(shù)據(jù)離散時的模糊性和隨機(jī)性結(jié)合起來;在分類器的選取階段,針對樸素貝葉斯分類器做出的與實際情況不相符的假設(shè),引入關(guān)聯(lián)規(guī)則森林表示法和基于其的所有屬性聯(lián)合概率算法,對樸素貝葉斯分類器進(jìn)行了改進(jìn)。最終實現(xiàn)了基于DGA數(shù)據(jù)集的變壓器故障診斷模型。
該故障診斷模型的實現(xiàn)步驟如下:
(1)數(shù)據(jù)離散化。將樣本數(shù)據(jù)集進(jìn)行歸一化處理,根據(jù)表1中的云模型特征參數(shù),由公式(6)計算隸屬度,按最大隸屬度原則,得出各屬性值所屬的云概念,實現(xiàn)數(shù)據(jù)的離散化;
(2)進(jìn)行關(guān)聯(lián)規(guī)則的挖掘。設(shè)置支持度閾值和信任度閾值,將訓(xùn)練數(shù)據(jù)集按故障類別分為4組,采用經(jīng)典的Apriori算法進(jìn)行頻繁項的求取,關(guān)聯(lián)規(guī)則的挖掘流程如圖1。按照3.2提到的四個約束條件,對得到的關(guān)聯(lián)規(guī)則進(jìn)行消除,獲得有用的關(guān)聯(lián)規(guī)則集R。這些規(guī)則有兩個特點:其一為規(guī)則的后件只包含一個非類別屬性;其二,規(guī)則的后件包含一個類別屬性和一個非類別屬性。
圖1 關(guān)聯(lián)規(guī)則挖掘流程圖Fig.1 Flow chart of mining association rules
(3)求取測試樣本各屬性在不同故障類別下的聯(lián)合概率。在當(dāng)前第i類故障條件下構(gòu)建關(guān)聯(lián)規(guī)則森林,設(shè)根屬性集合S,為測試樣本中包含的屬性值;非根屬性集合S′,為空集;關(guān)聯(lián)規(guī)則集合R。將出現(xiàn)在關(guān)聯(lián)規(guī)則后件中的屬性值,從S中去除并加到S′中,將規(guī)則前件中,不屬于S′的屬性值加到S中。計算屬性聯(lián)合概率,將S中各屬性值的條件概率與各關(guān)聯(lián)規(guī)則置信度相乘。
(4)建立改進(jìn)貝葉斯分類器,并應(yīng)用其對測試樣本進(jìn)行故障診斷。流程如圖2所示。
圖2 變壓器故障診斷流程Fig.2 Transformer fault diagnosis process
文章共收集200個變壓器故障實例,其中70%作為訓(xùn)練數(shù)據(jù),30%作為測試數(shù)據(jù),在規(guī)則頻繁項求取上取支持度閾值為20%,選擇關(guān)聯(lián)規(guī)則上置信度閾值60%。在WEKA平臺上,將改進(jìn)貝葉斯分類器與NB分類器、TAN分類器、BAN分類器進(jìn)行準(zhǔn)確率對比,結(jié)果見表3。故障類別為2.3中所定義的4個故障類別,屬性為5種氣體和1種故障。由表3可見,文章所使用的方法在變壓器故障診斷準(zhǔn)確率上相比其他方法有一定的提高。
表3 各分類器準(zhǔn)確度對比Tab.3 Accuracy comparison of each classifier
實例一:
110 kV某主變(設(shè)備型號:SSZ8-50000/110),廠家:某電力變壓器廠,出廠日期:1998年1月,投運日期:1998年4月。在2014年6月份進(jìn)行變壓器油更換,油更換方案采取不吊罩、熱油循環(huán),更換后三個月的油樣持續(xù)跟蹤檢測,數(shù)據(jù)合格無異常。
表4為在2015年1月13日到2015年1月16日內(nèi),該主變油色譜在線監(jiān)測系統(tǒng)中監(jiān)測到的數(shù)據(jù)(氣體單位均為:μL/L)。
表4 在線監(jiān)測系統(tǒng)中監(jiān)測到的數(shù)據(jù)Tab.4 Monitoring data in on-line monitoring system
用三比值法,結(jié)果得到編號022,即低能放電兼過熱;樸素貝葉斯分類器輸出3,即為中低溫過熱;由文章方法,輸出4,即為高溫過熱。
2015年1月26日,吊罩檢查發(fā)現(xiàn)B相套管導(dǎo)電桿穿芯軸銷未落入瓷套固定卡槽內(nèi),其下部連接銅片的緊固螺絲松動,接觸電阻增大從而引起的過熱,高溫發(fā)熱使得氣體含量超標(biāo)?,F(xiàn)場見圖3??梢娢恼滤梅椒▽ψ儔浩鞴收系脑\斷與實際相符。
圖3 110 kV變壓器故障現(xiàn)場Fig.3 110 kV transformer fault scene
實例二:
某110 kV變壓器(設(shè)備型號:SZ10-40000/110),廠家:某科技股份有限公司,出廠日期:2007年3月,投運日期:2007年8月。
受臺風(fēng)影響,該變電站多條線路跳閘,現(xiàn)場如圖4。表5為2010年7月23日到8月10日之間對1號主變跟蹤的油色譜數(shù)據(jù)(氣體單位均為:μL/L)。
表5 1號主變跟蹤的油色譜數(shù)據(jù)Tab.5 Oil chromatographic data tracked by No.1 main transformer
圖4 變壓器故障現(xiàn)場Fig.4 Transformer fault scene
樸素貝葉斯分類器,輸出1,即低能放電;文章方法,輸出2,即為高能放電。
現(xiàn)場于2015年7月26日停電,對主變進(jìn)行繞組變形測試,用頻響法測試?yán)@組變形,發(fā)現(xiàn)高壓繞組與交接時比較及三相之間橫向比較重合度好;但是中頻段在低壓繞組三相橫向比較中,重合度不好;Lc-a相與交接試驗波形對比中,重合度同樣不好,相關(guān)系數(shù)顯示,低壓繞組明顯變形。波形如圖5。經(jīng)停電多項測試后,最終確定為低壓繞組變形引發(fā)高能放電。
圖5 低壓側(cè)三相間橫向比較波形Fig.5 Horizontal waveform comparison in low voltage side of the three phases
目前已有的基于DGA數(shù)據(jù)的大多數(shù)數(shù)據(jù)挖掘方法中,存在數(shù)據(jù)離散的邊界硬分劃問題,將樸素貝葉斯分類器應(yīng)用于變壓器故障診斷中,存在各屬性間相對獨立的假設(shè)不符合實際情況的問題,針對以上兩個問題,文章建立了基于正態(tài)云模型&改進(jìn)貝葉斯分類器的變壓器故障診斷模型。
(1)引入正態(tài)云模型,離散DGA數(shù)據(jù),將邊界元素的模糊性和隨機(jī)性結(jié)合起來,形成更符合人認(rèn)知的云概念和更加客觀的區(qū)間劃分,同時云模型也精簡了數(shù)據(jù)集,提高了關(guān)聯(lián)規(guī)則挖掘的效率;
(2)引入規(guī)則森林表示法和屬性聯(lián)合概率計算法,改進(jìn)貝葉斯分類器,提高了對變壓器故障分類的正確率;
(3)通過與其他分類器進(jìn)行對比并應(yīng)用于現(xiàn)場實例中,證明了建立的基于正態(tài)云模型&改進(jìn)貝葉斯分類器的變壓器故障診斷模型具有更高的正確率和有效性。