楊貴宇
摘要:利用數(shù)據(jù)挖掘技術(shù)對電力系統(tǒng)中的大量測控數(shù)據(jù)挖掘已成為一種有效的故障診斷方法,首先介紹基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘原理,然后分析了關(guān)聯(lián)規(guī)則在變壓器故障診斷中的應(yīng)用方法,實例表明,使用關(guān)聯(lián)規(guī)則對電力設(shè)備進(jìn)行故障診斷更高的正確率。
關(guān)鍵詞:關(guān)聯(lián)規(guī)則;數(shù)據(jù)挖掘;電力設(shè)備;故障診斷
中圖分類號:TP393文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2012)30-7167-02
近年來數(shù)據(jù)挖掘技術(shù)(粗糙集理論,模式聚類, 決策樹,關(guān)聯(lián)規(guī)則等)得到了快速的發(fā)展,在金融、醫(yī)療、生物、電力、化工等領(lǐng)域得到了廣泛應(yīng)用。電力設(shè)備在運行管理中產(chǎn)生大量的測控數(shù)據(jù),如:遙測數(shù)據(jù)、繼保數(shù)據(jù)、遙信數(shù)據(jù)和二次計算結(jié)果等,這些數(shù)據(jù)隱含著設(shè)備的運行狀態(tài),如在實際電力設(shè)備發(fā)生故障之前的一段時間內(nèi),遙測數(shù)據(jù)可能會發(fā)生某種變化,如溫度、壓力等參數(shù)的異常增減,如果能利用數(shù)據(jù)挖掘技術(shù)對歷史測控數(shù)據(jù)進(jìn)行分析和總結(jié),找出其內(nèi)在的規(guī)律,再用這些內(nèi)在規(guī)律判斷當(dāng)前設(shè)備運行的狀況,如能及時發(fā)現(xiàn)故障征兆并采取有效措施,就可以避免電力系統(tǒng)出現(xiàn)重大的故障,基于關(guān)聯(lián)規(guī)則的故障診斷技術(shù)能夠從歷史數(shù)據(jù)中自動或半自動地獲取潛在的診斷知識,從而有效解決故障診斷中知識獲取困難的問題,非常適合用來分析變壓器狀態(tài)。
1 基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘
在電力設(shè)備故障診斷領(lǐng)域,采用關(guān)聯(lián)規(guī)則在大型關(guān)系數(shù)據(jù)庫中進(jìn)行數(shù)據(jù)挖掘分析找出設(shè)備的狀態(tài)是電力狀態(tài)檢修的一個新方向,通過分析故障特征量與故障模式之間的可信度,便能確定故障特征量與該故障模式的相關(guān)程度, 通過大量的數(shù)據(jù)挖掘,可以挖掘出設(shè)備特征量指標(biāo)與故障模式之間可能存在一些隱含關(guān)聯(lián)關(guān)系,并以此作為電力設(shè)備狀態(tài)檢修決策的依據(jù)。
1.2 關(guān)聯(lián)規(guī)則原理分析
關(guān)聯(lián)規(guī)則挖掘(Association Rule Mining)是根據(jù)用戶給定的最小支持度minsup和最小置信度minconf從事務(wù)數(shù)據(jù)庫D中找出所有的關(guān)聯(lián)規(guī)則。
1)關(guān)聯(lián)規(guī)則:若滿足X中條件的數(shù)據(jù)庫元組能推導(dǎo)出Y,則稱X與Y關(guān)聯(lián),記為X=>Y,其中 Y∈I,X∈I,并且 X ∩ Y = Φ,[I=i1,i2,...ik,...,in];
2)支持度:[supportX?Y=countX?YD×100%]其中,[D=t1,t2,...tk,...,tn]為事務(wù)數(shù)據(jù)集,[countX?Y]表示事務(wù)中[X?Y] 的事務(wù)數(shù);
3)置信度:[confidence(X→Y)=count(X?Y)count(Y)×100%],其中, count(Y)是包含項集Y的事務(wù)數(shù)目,count(X=>Y)是包含項集X=>Y的事務(wù)數(shù)目;
4)強關(guān)聯(lián)規(guī)則:[X?Ysupport(X?Y)%,confidence(X?Y)%]。
1.2 關(guān)聯(lián)規(guī)則挖掘的過程
關(guān)聯(lián)規(guī)則對數(shù)據(jù)事務(wù)進(jìn)行挖掘中,首先,掃描事務(wù)數(shù)據(jù)庫T,并對任何個項i進(jìn)行計數(shù)接著對數(shù)據(jù)進(jìn)行歸一化處理和離散化處理,然后組成適合關(guān)聯(lián)規(guī)則挖掘的事務(wù)數(shù)據(jù)庫,再根據(jù)最小支持度閾值尋找頻繁項集,并將其組成新的頻繁項集,然后再根據(jù)最小可信度閾值篩選出關(guān)聯(lián)規(guī)則,對可以合并的關(guān)聯(lián)規(guī)則進(jìn)行合并,確定感興趣的強關(guān)聯(lián)規(guī)則,并作為有用規(guī)則輸出,最后用關(guān)聯(lián)規(guī)則對電力設(shè)備進(jìn)行故障診斷;常用的算法有 Apriori 算法、FP 樹頻繁項集算法等,文中選用了最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的Apriori 算法,并對其進(jìn)行了改進(jìn),采用基于散列的技術(shù)壓縮候選 k項集 Ck(k>1),利用事務(wù)壓縮對一些候選項進(jìn)行標(biāo)記或刪除,并對尋找候選項集進(jìn)行數(shù)據(jù)劃分,減少掃描數(shù)據(jù)庫的次數(shù),此外,在任何點前添加動態(tài)項集計數(shù),提高了Apriori 算法的搜索速度。
2 基于關(guān)聯(lián)規(guī)則的電力設(shè)備故障診斷方法
1)簡化事務(wù)數(shù)據(jù)庫
事務(wù)數(shù)據(jù)集是使用關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)挖掘必須直接面對的對象,在關(guān)聯(lián)規(guī)則挖掘過程中,需要收集大量的數(shù)據(jù),數(shù)據(jù)越充分,得出的有用結(jié)論的置信度就越高,但由于變壓器測控的數(shù)據(jù)存在很多重復(fù)的數(shù)據(jù),必須對這些重復(fù)的數(shù)據(jù)進(jìn)行歸一化量化,將其值歸一化到[0,1]區(qū)間上。
2)分箱
由于經(jīng)過歸一化后得到的數(shù)據(jù)是連續(xù)的數(shù)據(jù),為了方便挖掘,我們對連續(xù)的數(shù)據(jù)進(jìn)行分箱,劃分為區(qū)間。這些區(qū)間是動態(tài)的,在挖掘期間我們可以對它們進(jìn)行進(jìn)一步合并,三種常用的分箱策略有等寬分箱、等頻分箱和基于聚類的分箱,本文使用等寬分箱,每箱的區(qū)間長度相同,每個屬性的量化屬性的分箱大小由操作者確定,由于屬性區(qū)間被歸一到[0,1]區(qū)間,默認(rèn)分箱分為 10 個區(qū)間,每個區(qū)間大小為 0.1,變壓器經(jīng)過量化后得到動態(tài)離散值,再對這些數(shù)據(jù)進(jìn)行等寬分箱操作,劃分區(qū)間。再根據(jù)比值編碼,選擇屬性子集,剔除對挖掘任務(wù)無關(guān)的冗余屬性。
3)找頻繁謂詞
掃描上一步產(chǎn)生的數(shù)據(jù),找出滿足條件的頻繁謂詞集。因為變壓器色譜數(shù)據(jù)指標(biāo)只有 5 項,頻繁項集內(nèi)最大成員只可能為 5 個,不會產(chǎn)生更多的頻繁相集,因此可以根據(jù) Apriori算法,找出滿足最小置信度的頻繁謂詞集(滿足最小支持度),發(fā)現(xiàn)頻繁項集后產(chǎn)生強關(guān)聯(lián)規(guī)則。
4)關(guān)聯(lián)規(guī)則聚類
為了將強關(guān)聯(lián)規(guī)則進(jìn)一步聚類,首先將其映射到 2-D 柵格上,搜索規(guī)則的矩形簇,使用聚類將關(guān)聯(lián)規(guī)則進(jìn)一步合并,使用該聚類后,進(jìn)一步合并出現(xiàn)在規(guī)則簇中的量化屬性的箱,從而動態(tài)離散化屬性;例如對故障數(shù)據(jù)計算后,我們將最小支持度和置信度計算為 0.10 和 0.6,對其進(jìn)行故障事務(wù)數(shù)據(jù)集的關(guān)聯(lián)規(guī)則挖掘,將挖掘結(jié)果整理,對收集到的變壓器故障色譜分析統(tǒng)計表的數(shù)據(jù)進(jìn)行預(yù)處理后,然后根據(jù)以上步驟,則可以得出關(guān)聯(lián)規(guī)則,如:[CH4(0.3-0.34)∧C2H2(0.5-0.54)?鐵芯多點接地],而置信度和支持度分別是0.712和0.242,其表示為當(dāng)CH4和C2H2在數(shù)據(jù)中含量分別是(0.32)和(0、53)時,71.2%的變壓器數(shù)據(jù)表明該變壓器出于鐵芯多點接地故障。
3 應(yīng)用實例分析
為了測試關(guān)聯(lián)規(guī)則診斷模型的準(zhǔn)確性,以現(xiàn)場運行的100組變壓器檢測樣本的診斷結(jié)果為例進(jìn)行實驗,收集的變壓器故障數(shù)據(jù)的特征量包括H2,CH4,C2H6,C2H2,C2H4五種,變壓器故障按故障部位劃分有七種故障,分別是分接開關(guān)故障,鐵芯故障,絕緣介質(zhì)故障,套管故障,繞組故障引線故障和漏油故障;按過熱和放電故障類型劃分有九種故障,高溫過熱(>700℃),中溫過熱(300℃~700℃),低溫過熱(150℃~300℃),低溫過熱(<150℃),電能放電,低能放電兼過熱,局部放電,電弧放電和電弧放電兼過熱。對故障特征量采用監(jiān)督離散化算法 ChiMerge 算法,其采用自底向上的策略,首先將數(shù)值屬性的每個不同值看作一個區(qū)間,然后對對每個相鄰區(qū)間進(jìn)行 χ2檢驗,然后通過遞歸算法,找出最佳臨近區(qū)間,然后合并它們,形成較大的區(qū)間,實驗結(jié)果如表1所示:
從表中可以看出,應(yīng)用本文提出的并聯(lián)規(guī)則數(shù)據(jù)挖掘?qū)ψ儔浩鞴收线M(jìn)行診斷,取得了較為正確的診斷結(jié)果,表明了該算法可應(yīng)用到電力變壓器故障中。
4 結(jié)束語
將關(guān)聯(lián)規(guī)則應(yīng)用到變壓器故障分析中, 通過利用歷史故障數(shù)據(jù)來確定系統(tǒng)的行為模型,從故障數(shù)據(jù)中發(fā)現(xiàn)分類屬性與決策屬性
間的頻繁模式、相關(guān)性或因果關(guān)系,以便從宏觀上把握變壓器故障元素間的關(guān)聯(lián)特性,測試表明,本文提出的方案在變壓器的故障診斷中有更高的正確率。
參考文獻(xiàn):
[1] 聶倩雯.基于關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù)的電網(wǎng)故障診斷[J].電力系統(tǒng)保護(hù)與控制,2009(9).
[2] 鄭元兵.變壓器故障特征量可信度的關(guān)聯(lián)規(guī)則分析[J].高電壓技術(shù),2012(1).
[3] 熊忠陽.基于關(guān)聯(lián)規(guī)則的電力變壓器運行故障評估[J].微計算機信息,2010(34)
[4] 楊國慶.數(shù)據(jù)挖掘技術(shù)在電力設(shè)備狀態(tài)檢修中的應(yīng)用[J].上海電力學(xué)院學(xué)報,2012(2).