董 翔,趙 璧,戴瑞成,董小兵
(1.國網(wǎng)北京電力檢修分公司,北京 100069;2.國網(wǎng)陜西省電力有限公司經(jīng)濟技術(shù)研究院,西安 710065)
隨著計算機技術(shù)的飛速發(fā)展,電力變壓器的故障檢測手段發(fā)生了巨大變化[1-2],已逐漸轉(zhuǎn)入計算機領(lǐng)域,通過建立相應(yīng)的數(shù)學模型來預測變壓器內(nèi)部故障,使得故障的檢測朝向智能化、信息化的方向發(fā)展[3-4]。
常用的故障檢測方法有基于人工神經(jīng)網(wǎng)絡(luò)模型的診斷、基于模糊理論的故障診斷和基于專家系統(tǒng)的故障診斷。此外,其他的診斷方法如Petri網(wǎng)、灰色聚類及支持向量機等也運用于故障診斷中,并得到了一定程度的發(fā)展。每種方法均有優(yōu)點和缺點,需要人們根據(jù)實際問題尋找最合適的辦法。按照當今的發(fā)展趨勢,人工智能的方法在故障診斷領(lǐng)域占據(jù)越來越重要的地位。
傳統(tǒng)的設(shè)備運維基本采用狀態(tài)檢修技術(shù),根據(jù)設(shè)備的定期試驗結(jié)果并結(jié)合評價模型開展檢修策略的制訂[1-2]?,F(xiàn)階段隨著帶電檢測、在線監(jiān)測和運行數(shù)據(jù)逐步納入電力企業(yè)云平臺,為開展電力設(shè)備大數(shù)據(jù)分析、進一步提高供電可靠性奠定了基礎(chǔ)。而現(xiàn)階段積累的狀態(tài)監(jiān)測和檢測數(shù)據(jù)沒有得到充分挖掘利用,造成信息資源的浪費[3-4]。
因此,非常有必要完成變壓器異常事件及其影響因子的調(diào)研、收集和相關(guān)規(guī)則庫建設(shè),對規(guī)則庫中的海量數(shù)據(jù)開展基于大數(shù)據(jù)技術(shù)的潛在關(guān)聯(lián)探索和未來短期預測,逐步提升設(shè)備故障診斷水平,為后續(xù)生產(chǎn)運行和狀態(tài)評估提供決策依據(jù)。本文介紹了關(guān)聯(lián)規(guī)則挖掘的基本原理、故障狀態(tài)量的劃分及數(shù)據(jù)離散化處理方法,以此為基礎(chǔ),利用SPSS Modeler 軟件平臺建立電力變壓器故障關(guān)聯(lián)規(guī)則挖掘模型,旨在采取關(guān)聯(lián)規(guī)則挖掘的方法發(fā)現(xiàn)狀態(tài)特征量和故障類別之間的內(nèi)在聯(lián)系,對故障進行判定。
關(guān)聯(lián)規(guī)則挖掘的概念可以描述如下:設(shè)I={i1,i2,…,im}是一個項目的集合,D={d1,d2,…,dn}是事務(wù)數(shù)據(jù)庫且其中的事務(wù)都具有唯一的標識。每個事物di(i=1,2,…,n)都對應(yīng)I 上的一個子集Ij(j=1,2,…,m),Ij即為由j 項I 中的元素組成的集合。關(guān)聯(lián)規(guī)則就是定義在I 和D 上,滿足一定的置信度及支持度的形如Ij→di的關(guān)系式。關(guān)聯(lián)規(guī)則挖掘的主要任務(wù)在于挖掘出支持度和置信度分別大于或等于設(shè)定的最小支持度及其最小置信度的關(guān)聯(lián)規(guī)則。
1.2.1 關(guān)聯(lián)規(guī)則挖掘流程
關(guān)聯(lián)規(guī)則挖掘流程如下:
(1)找出全部的頻繁項目集。所謂的頻繁項目集指的是支持度不小于給定的最小支持度的項目集,例如k 階頻繁項集Lk中每個元素都是由k個項組成的集合,且其中每個元素的支持度均不小于最小支持度閾值,以2 階頻繁項集為例,其形式為L2={{i1,i2},{i1,i3},{i2,i4},…}。
(2)根據(jù)頻繁項目集來生成關(guān)聯(lián)規(guī)則。這一步以置信度大于等于用戶所設(shè)定的最小置信度作為基本原則,生成所期望的強關(guān)聯(lián)規(guī)則。
在以上2 步中第(1)步的任務(wù)集中了幾乎所有的計算量,所以耗時相對較大;第(2)步在第(1)步的基礎(chǔ)上較容易實現(xiàn),所以關(guān)聯(lián)規(guī)則挖掘算法性能主要取決于第(1)步。
1.2.2 關(guān)聯(lián)規(guī)則挖掘算法
Apriori 算法作為關(guān)聯(lián)規(guī)則挖掘的經(jīng)典算法,自被提出以來就一直在關(guān)聯(lián)規(guī)則挖掘中占據(jù)重要的地位。該算法主要包含兩大步驟:挖掘得到頻繁項目集;由頻繁項目集生成關(guān)聯(lián)規(guī)則。Apriori算法是一種挖掘關(guān)聯(lián)規(guī)則頻繁項集的算法,其核心是基于兩階段頻集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。該算法的基本原理如圖1 所示。
圖1 Apriori 算法原理
關(guān)聯(lián)規(guī)則挖掘過程的核心部分是頻繁項集的生成過程,因為頻繁項集的生成過程是影響算法的關(guān)鍵,也是計算量最大、耗時最長的過程。生成頻繁項集的過程又有2 個子步驟:
(1)連接步。為了產(chǎn)生頻繁k 項集的集合Lk,首先要找到候選k 項集的集合Ck,該集合可以通過頻繁(k-1)項集的集合Lk-1與自身進行連接得到。假設(shè)l1和l2均為Lk-1中的項集,lj中的第i 項用lj[i]來表示。如果它們的前(k-2)個項均相同的話,即滿足(l1[1]=l2[1]∧l1[2]=l2[2]∧…∧l1[k-2]=l2[k-2]∧l1[k-1]≠l2[k-1])。連接l1,l2產(chǎn)生的結(jié)果項集即為候選k 項集:Ck={l1[1],l1[2],…,l1[k-1]l2[k-1]}。
(2)剪枝步。由于候選項集并不是所有的項集都是頻繁的,因此為了減小搜索空間,可從Ck中去掉候選k 項集的(k-1)項子集[5-7]。
1.2.3 算法程序?qū)崿F(xiàn)
根據(jù)以上算法原理可以設(shè)想程序的實現(xiàn)應(yīng)分為以下3 個模塊:
(1)找出滿足最低規(guī)則支持度的頻繁n 項集Ln,為此要先構(gòu)建初始候選1 項集C1及頻繁1 項集L1,由連接步依次生成Cn,再在Cn中篩選出Ln。
(2)從頻繁n 項集Ln中篩選出滿足最低支持度的Qn。
(3)在Ln中找出滿足最低規(guī)則支持度和最低支持度的強規(guī)則集。
關(guān)聯(lián)規(guī)則挖掘階段主要由四大部分構(gòu)成,即變壓器故障數(shù)據(jù)歸集整合、數(shù)據(jù)預處理、單變量交叉表分析和利用Apriori 算法得到關(guān)聯(lián)規(guī)則[8-10]。
變壓器在故障狀態(tài)下會生成多種氣體,本文采用基于PCA(主成分分析)的輸入?yún)?shù)分析方法對相關(guān)量進行優(yōu)選。利用PCA 法選取診斷模型對應(yīng)的最優(yōu)參數(shù),并同步剔除影響診斷正確率的冗余參量,最終取8 種氣體(CH4,C2H2,C2H4,C2H6,H,CO,CO2和總烴)作為故障特征量,即故障診斷中的條件變量,而故障類型選取過熱兼放電、低溫過熱、中溫過熱、高溫過熱、低能放電和高能放電,并標記相應(yīng)的變量,如表1、表2 所示。
將故障特征與變壓器典型故障相結(jié)合,可形成關(guān)于關(guān)聯(lián)分析規(guī)則分析中的數(shù)據(jù)項集I,記為:
I={x1,x2,…,x11,y1,y2,…,y6} . (1)
以下電力變壓器故障與特征量的關(guān)聯(lián)分析,是對特征量集X={x1,x2,…,x11}與故障集Y={y1,y2,…,y6}的相關(guān)性進行分析,計算獲得X→Y 的模糊關(guān)系規(guī)則。
原始數(shù)據(jù)中存在著許多空缺值,并且關(guān)聯(lián)規(guī)則挖掘需要針對的是離散化數(shù)據(jù),因此原始數(shù)據(jù)必須進行預處理后方可使用。對于空缺值的處理一般有平均值填充和去除2 種方法。由于本文中所處理數(shù)據(jù)量較大,并且分散性較高,所以當一個案例所有信息均空缺時對空缺值采用去除的方法,若案例的空缺信息不多,則利用Spss Modeler將其設(shè)為缺失值。數(shù)據(jù)的離散化方法有很多,如等距離劃分法、等頻率劃分法、K-means 算法、最小信息熵法、NavieScaler 離散化和模糊離散方法,方法的具體選取由數(shù)據(jù)本身決定。
表1 變壓器故障特征量
表2 變壓器典型故障類型
有關(guān)故障狀態(tài)量的離散化本文選取了布爾邏輯算法和模糊離散方法2 種方法,優(yōu)先運用布爾邏輯算法。由于正常變壓器油中氫和烴類氣體的含量限值各不相同,具體注意值如表3 所示,若對所有屬性值采用相同的區(qū)間,則缺乏一定的針對性。且由對電力變壓器數(shù)據(jù)統(tǒng)計特征分析可知,有4 種氣體其絕大部分數(shù)據(jù)均集中在含量極小處,綜合考慮后決定離散方法如下:若離散值為0,則表示氣體含量在正常范圍內(nèi);若離散值為1,則表示氣體含量超出注意值。
表3 正常變壓器油中氫和烴類氣體的含量限值
由于國標沒有規(guī)定CO 和CO2的閾值,因此可利用現(xiàn)有數(shù)據(jù)的分布來確定二者具體閾值,即根據(jù)IEEE 所規(guī)定的氣體濃度極限值,通常是基于去除了破壞后的樣品的大型數(shù)據(jù)庫的90%和95%的氣體濃度來確定的。
基于關(guān)聯(lián)規(guī)則挖掘基本原理,利用SPSS Modeler 軟件平臺建立電力變壓器故障關(guān)聯(lián)規(guī)則挖掘模型。先以改進的等距離劃分算法所得離散化數(shù)據(jù)的建模過程作為重點介紹。當采用模糊的離散化方法離散時,建模過程與此相同。
其中,將能直觀表示故障特征量以及故障類型總共9 個類別量之間相關(guān)聯(lián)程度的網(wǎng)絡(luò)關(guān)系展示如圖2 所示。圖中,如果案例支持兩點之間存在關(guān)聯(lián),那就在兩點之間連成一條線;如果案例不支持,兩點之間就不連線。把所有案例遍歷后,哪兩點之間的連線最多,說明這兩點之間的相關(guān)性最強。
圖2 不同鏈接數(shù)下的屬性值相關(guān)關(guān)系網(wǎng)絡(luò)圖
利用模糊關(guān)聯(lián)規(guī)則模型對特高壓變壓器進行異常狀態(tài)診斷及分析,流程如圖3 所示。以故障特征量為前項,以故障類型為后項,設(shè)置最小支持度和最小置信度,運用Apriori 數(shù)據(jù)挖掘經(jīng)典算法挖掘出變壓器故障和故障狀態(tài)量之間的關(guān)聯(lián)規(guī)則。
以2016 年某220 kV 變壓器跳閘為例進行驗證[15]。該變壓器跳閘后的試驗結(jié)果見表4,油色譜數(shù)據(jù)見表5。
將該結(jié)構(gòu)化數(shù)據(jù)與故障類型、故障部位進行關(guān)聯(lián)規(guī)則匹配,結(jié)果見表6。由表6 可知,基于模糊關(guān)聯(lián)規(guī)則的變壓器診斷結(jié)果與實際解體檢查結(jié)果(B 相低壓繞組嚴重變形,多處匝間短路,存在電弧放電)相符。
圖3 模糊關(guān)聯(lián)規(guī)則模型診斷分析流程
表4 變壓器電氣試驗結(jié)果
表5 變壓器故障油色譜數(shù)據(jù)
表6 診斷結(jié)果
本文以電力變壓器故障特征量為前項,以故障類型為后項,設(shè)置最小支持度和最小置信度,運用Apriori 數(shù)據(jù)挖掘經(jīng)典算法挖掘出變壓器故障和故障狀態(tài)量之間的關(guān)聯(lián)規(guī)則。基于關(guān)聯(lián)規(guī)則挖掘基本原理,利用SPSS Modeler 軟件平臺建立電力變壓器故障關(guān)聯(lián)規(guī)則挖掘模型進行建模分析,得到以下故障診斷流程:
(1)利用PCA 法對輸入特征參量進行優(yōu)選,得到優(yōu)選后的特征參量。
(2)基于模糊集合理論對優(yōu)選后的特征量(油色譜及電氣試驗數(shù)據(jù))進行模糊離散處理,得到相應(yīng)離散后的特征數(shù)據(jù)庫。
(3)基于離散后的特征數(shù)據(jù)庫,使用Apriori算法進行關(guān)聯(lián)規(guī)則的提取。
(4)利用所提取的關(guān)聯(lián)規(guī)則對待診斷設(shè)備進行故障判定。
該流程能夠從歷史數(shù)據(jù)中獲取潛在的診斷知識,有效解決故障診斷中知識獲取困難的問題。實際應(yīng)用時,在得到相應(yīng)特征參量(油色譜數(shù)據(jù)及電氣試驗)的數(shù)據(jù)后,及時轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)并對結(jié)構(gòu)化數(shù)據(jù)進行模糊離散化處理,再將離散數(shù)據(jù)輸入到模糊關(guān)聯(lián)規(guī)則模型后即可得到變壓器異常狀態(tài)的診斷及分析情況。