陳 昕
(中國能源建設(shè)集團江蘇省電力設(shè)計院有限公司,江蘇 南京 211102)
隨著電網(wǎng)規(guī)模的擴大,產(chǎn)生的告警信號也日益增長[1]。由于遠動系統(tǒng)、通信系統(tǒng)和測量設(shè)備在運行中的異常以及必要的設(shè)備檢修,導(dǎo)致在上傳的告警信息中還包含大量的告警頻報信號[2-3]。摒棄設(shè)備檢修引起的的頻報信號,剩余頻報信號雖然不能反映電網(wǎng)的真實狀態(tài),但對其進行分析,可以找到引起告警頻報的相關(guān)因素,從而發(fā)現(xiàn)可能產(chǎn)生頻報信號的設(shè)備,并密切關(guān)注。
文中將數(shù)據(jù)挖掘領(lǐng)域中的頻繁模式挖掘技術(shù)[4]引入頻報信號的分析中。由于頻報信號影響因素具有不同重要性,對各影響因素賦權(quán),應(yīng)用加權(quán)頻繁模式概念,提出結(jié)合加權(quán)模型的加權(quán)改進FP-growth算法,可以挖掘出與頻發(fā)信號強關(guān)聯(lián)的影響因素,繼而可以找到可能產(chǎn)生頻報信號的設(shè)備并加以密切關(guān)注,產(chǎn)生的頻繁模式可以為設(shè)備檢修提供規(guī)則知識。
為了盡可能地找到產(chǎn)生頻報信號的設(shè)備,需要歸納出告警信號頻報的影響因素。對頻報信號進行分析,設(shè)使用設(shè)備類型X1、運行年限X2、大修次數(shù)X3和告警頻報發(fā)生月份X4為影響因素。其中,設(shè)備類型分為線路、母線、變壓器、互感器、避雷器、斷路器、隔離開關(guān)、電容器和電抗器等。運行年限和大修次數(shù)為離散值,需要進行離散化處理。按照文獻[5]規(guī)定,設(shè)定運行年限小于等于10 a為短,大于10 a且小于20 a為中,大于等于20 a為長。設(shè)定大修次數(shù)小于等于2次為低,大于2次小于5次為中,大于等于5次為高。告警頻報發(fā)生月份即為告警報發(fā)時刻所在的月份。由于頻報信號各影響因素具有不同的重要性,因此需要對各影響因素進行加權(quán)處理,權(quán)值越大表示影響因素越重要。
層次分析法[6]建立在專家咨詢基礎(chǔ)上,把各影響因素的權(quán)重賦值簡化為影響因素重要性的兩兩比較,然后進行數(shù)學(xué)處理,對各影響因素賦值,具有可信、靈活和實用的特點??紤]到告警頻報信號的研究尚處于起步階段,獲得大量有明確結(jié)論的樣本存在很大困難,需要借鑒專家經(jīng)驗。因此,文中采用層次分析法(AHP)求取影響因素權(quán)重。
邀請專家按表1要求給出各影響因素間兩兩比較的相對重要性,構(gòu)成評判矩陣。
表1 評判矩陣標度及含義Tab.1 Evaluation matrix scale and meaning
根據(jù)評判矩陣計算權(quán)重,求出矩陣的最大特征值及其對應(yīng)的特征向量,所求的特征向量即為權(quán)重分配。由于評估人不可能精確判斷出權(quán)重的精確度,需要對判斷矩陣進行一致性檢驗,通過一致性檢驗公式,表示如下:
CR=CI/RI
(1)
其中:CR為評判矩陣的隨機一致性比率;CI為判斷矩陣的一般一致性指標,由下式給出:
(2)
RI為評判矩陣的一般一致性指標,對于1-9階判斷矩陣,RI值如表2所示。
表2 n階評判矩陣RI值Tab.2 RIvalue of evaluation matrix
當(dāng)CR<0.1時,即認為判斷矩陣具有滿意的一致性,說明權(quán)重分配是合理的,否則需要調(diào)整判斷矩陣,直至取得具有滿意的一致性為止。
現(xiàn)有的頻繁模式雖然在某種程度上發(fā)現(xiàn)了事務(wù)數(shù)據(jù)庫中頻繁出現(xiàn)的數(shù)據(jù)項,但這些數(shù)據(jù)項在數(shù)據(jù)庫中的重要程度被看作是一致的,沒有進行區(qū)分。這樣不能體現(xiàn)各數(shù)據(jù)項具有不同的重要程度,也會因此挖掘出一些過于“平凡”的頻繁模式,具有一定的局限性。針對這個問題,需要引入權(quán)重的概念,解決數(shù)據(jù)項重要程度不一致的問題,由此產(chǎn)生的頻繁模式稱為“加權(quán)頻繁模式”。
加權(quán)頻繁模式挖掘算法[7]研究最初是圍繞商品交易展開的,解決了往往優(yōu)先考慮利潤較高項目而忽略利潤較低項目的問題。為了更好地滿足用戶需求,提出了一些新算法上的嘗試[8-14]。文中的研究對象是告警頻報信號數(shù)據(jù)庫,考慮各影響因素的重要性不同,引入加權(quán)頻繁模式概念,提出將加權(quán)模型與改進FP-growth算法[12]相結(jié)合來有效挖掘出與頻報信號有強關(guān)聯(lián)的影響因素。
I={i1,i2,…,im}是由m個不同項目組成的集合,D={T1,T2,…,Tn}是事務(wù)數(shù)據(jù)庫,其中每個事務(wù)Ti(i=1,2,…,n)包含事務(wù)唯一標識TID和一個I的子集X。
定義1: 項目集I={i1,i2,…,im}中每一項目ij有一個權(quán)值w(ij),其中0≤w(j)≤1。當(dāng)項目具有權(quán)重后,其項目集X也具有相應(yīng)的權(quán)重,記作W(X):
(3)
當(dāng)|X|=1時,W(X)=w(ij)。X的加權(quán)支持度WS(X)定義為:
WS(X)=W(X)×S(X)
(4)
S(X)表示項目集X在事務(wù)記錄中出現(xiàn)頻率,即:
(5)
式中:N為事物總數(shù)。若WS(X)≥WS,min,其中WS,min為最小加權(quán)支持度,則稱X為加權(quán)頻繁模式。當(dāng)加權(quán)頻繁模式X含有k個項目時,稱為加權(quán)k-頻繁模式。
在告警頻報信號影響因素頻繁模式挖掘中,對各影響因素賦予不同權(quán)重,采用加權(quán)頻繁模式挖掘算法挖掘出大量的加權(quán)頻繁模式。這些頻繁模式中只有一些是用戶感興趣的,通過由用戶設(shè)定加權(quán)支持度閥值,可以控制頻繁模式數(shù)量,其中不滿足閥值的頻繁模式不作為知識向用戶提供。
FP-growth算法[16-17]在當(dāng)前挖掘頻繁模式算法中應(yīng)用最廣,并且不需要候選集,大大節(jié)約了計算空間。但是,該算法也有一些不足。它的主要缺點是建樹和挖掘過程都需要占用大量的內(nèi)存。當(dāng)數(shù)據(jù)庫很大,或者數(shù)據(jù)庫中的頻繁1-項集的數(shù)目很大時,運行速度將大為降低。更有甚者,由于無法構(gòu)造基于內(nèi)存的FP-tree,該算法不能有效地工作。為了克服這些不足,文中使用改進FP-growth算法[12],主要思想是在繼承FP-growth算法不需要產(chǎn)生候選項集的優(yōu)點的基礎(chǔ)上,將數(shù)據(jù)庫進行頻繁1-項集的項總數(shù)次掃描,每次掃描分別得到各個頻繁1-項集的項的數(shù)據(jù)庫子集。然后分別對各項數(shù)據(jù)庫子集使用FP-growth算法進行約束頻繁項挖掘,得到含有各個頻繁1-項集的項的頻繁模式,最后將這些頻繁模式合并起來便得到整個數(shù)據(jù)庫的所有頻繁模式。
文中將加權(quán)模型與改進FP-growth算法相結(jié)合。加權(quán)改進FP-tree定義如下:
(1) 定義根節(jié)點的標記為null,其子節(jié)點為項前綴子樹集合,同時包含項頭表。
(2) 子節(jié)點由3個域組成:item-name,count,node_link。其中item-name記錄了該節(jié)點所代表的項目名字;count記錄了所在路徑表中達到此節(jié)點的項目個數(shù);node_link指向下一個具有同樣的item-name域的節(jié)點,要是不存在,就為null。
(3) 項頭表的結(jié)構(gòu)是item-name,WS和node_link。其中item-name是項頭表項目名稱;WS記錄了該項目集的加權(quán)支持度,按定義1計算得到;node_link指向表中具有與該表項相同item-name域的第一個節(jié)點。
文中構(gòu)造的加權(quán)改進FP-growth算法如下:
輸入:事務(wù)數(shù)據(jù)庫D,WS,min;
輸出:D中的頻繁模式。
算法:
(1) 掃描數(shù)據(jù)庫D一次,找出候選1-項集的集合,計算它們的加權(quán)支持度。然后,按照加權(quán)支持度遞減排列候選1-項集的各項,得到候選1-項集的集合F。將F中加權(quán)支持度小于WS,min的項刪除,得到頻繁1-項集的集合L。設(shè)L={I1,I2,…,Im},其中,I1的加權(quán)支持度最高,Im的加權(quán)支持度最小。
(2) 再次掃描數(shù)據(jù)庫D,將加權(quán)支持度小于WS,min的項從各事務(wù)中刪除,然后按照各項的加權(quán)支持度遞減地將各事務(wù)中的項進行重新排列,得到數(shù)據(jù)庫為D'。
(3) 根據(jù)頻繁1-項集L中的各項的加權(quán)支持度計數(shù),按照以下規(guī)則由小到大依次構(gòu)造各項的數(shù)據(jù)庫子集,并利用FP-growth算法對其進行約束頻繁項挖掘。
(4) 對于L中的每個項Ii(i=m,m-1,…,1)進行如下處理:
(a) 掃描數(shù)據(jù)庫D',從中提取所有含項Ii的事務(wù),然后,刪除這些事務(wù)中加權(quán)支持度小于該項的加權(quán)支持度的項,所得事務(wù)集合便為項Ii的數(shù)據(jù)庫子集Di。
(b) 對數(shù)據(jù)庫子集Di,利用FP-growth算法進行包含項Ii的約束頻繁模式挖掘,其挖掘過程如下:利用數(shù)據(jù)庫子集Di,構(gòu)造FP-tree,并創(chuàng)建項頭表HT。構(gòu)造FP-tree時,該數(shù)據(jù)庫子集中各事務(wù)的項按照頻繁1-項集L中的次序處理。用項頭表HT中的項Ii的加權(quán)支持度及其節(jié)點鏈信息,構(gòu)造該項的條件模式基,然后構(gòu)造其條件FP-tree,就能在該條件FP-tree上挖掘出包含該項的頻繁模式,完成在數(shù)據(jù)庫子集Di上的約束頻繁模式Xi挖掘。
(5) 當(dāng)L中所有的項的約束頻繁模式Xi被依次挖掘出來后,合并這些約束頻繁模式,即取這些約束頻繁模式Xi的并集,便可得到數(shù)據(jù)庫D的所有頻繁模式,結(jié)束挖掘過程。
為了驗證文中所提方法的有效性,從福建省網(wǎng)采集了從2013年1月1日到2013年6月30日的告警數(shù)據(jù),經(jīng)過去噪處理后得到噪聲數(shù)據(jù)中的告警頻報信號。
(1) 對頻報信號影響因素進行整理、形成和編號,形成告警頻報信號記錄表,存放在告警頻報信號數(shù)據(jù)庫中。
頻報信號影響因素的整理:告警歷史事項表中的告警事件可用,調(diào)度運行管理系統(tǒng)(outage management system ,OMS)中檢修記錄和設(shè)備投運時間可用。
頻報信號影響因素的形成:從告警事件中提取出設(shè)備類型和告警報發(fā)時間所在的月份,統(tǒng)計和計算得到大修次數(shù)和運行年限。
頻報信號影響因素的編號:對頻報信號影響因素按不同變電站編號,相同變電站的頻報信號具有相同編號,對具有相同編號的記錄進行頻繁項集挖掘。
例如:某條告警頻報信號為500 kV某條線路某開關(guān),線路投運年限為9 a,大修次數(shù)為1次,頻報時間發(fā)生在2月。對于這樣一條告警頻報信號,預(yù)處理后形成告警頻報信號記錄表如表3所示。
表3 告警頻報信號記錄表Tab.3 Alarm frequency reported signal transaction table
(2) 采用層次分析法(AHP)計算各影響因素(設(shè)備類型X1、運行年限X2、大修次數(shù)X3和告警頻報月份X4)的權(quán)重。
邀請專家按AHP要求給出各影響因素間兩兩比較的相對重要性,數(shù)據(jù)如表4所示(E1~E4分別表示4位專家,X1~X4為影響因素代表符號)。
表4 專家對各影響因素的權(quán)重分配表Tab.4 Weights of every index assigned by experts
即形成的評判矩陣:
根據(jù)評判矩陣W,計算出權(quán)重并歸一化,得到:
w={0.182 0,0.314 1,0.357 4,0.146 5}
利用式(1)、式(2)計算出CR=0.047 1<0.1,即認為評判矩陣具有滿意的一致性,說明權(quán)重分配是合理的。
(3) 采用加權(quán)改進FP-growth算法對告警頻報信號數(shù)據(jù)庫進行頻繁模式挖掘。
例如,由表3形成的項目如表5所示。
表5 項目名稱及其權(quán)重Tab.5 Project name and their weights
假設(shè)WS,min=0.5,掃描告警頻報信號事務(wù)表,得到表5中“二月”小于WS,min,刪除項目“二月”,由此得到表3中事務(wù)為{500 kV線路斷路器,投運年限為短,大修次數(shù)為低}。由定義1和表5中各權(quán)重計算得到該事項的WS(X)=0.32<0.5,因此該事務(wù)不是頻報信號影響因素的頻繁模式。
利用加權(quán)改進FP-growth算法對告警頻報信號數(shù)據(jù)庫進行分析,設(shè)定WS,min為0.2時生成頻報信號影響因素的部分頻繁模式如表6所示。
表6 告警頻報信號影響因素的頻繁模式(部分)Tab.6 Frequency item sets of alarm frequency reported signal influence factors (part)
通過頻繁模式挖掘分析可以得到需要的規(guī)則知識,如{220 kV線路斷路器,長}說明某變電站投運年限超過20 a的220 kV線路斷路器容易產(chǎn)生頻報信號;{500 kV母線PT,中,中}說明某變電站投運年限在10~20 a年之間以及大修次數(shù)在2~5次之間的500 kV母線上的電壓互感器容易產(chǎn)生頻報信號。這些規(guī)則可以指導(dǎo)運行人員根據(jù)設(shè)備運行檢修記錄,找到可能會產(chǎn)生頻報信號的設(shè)備并加以密切關(guān)注,檢查該設(shè)備運行狀況是否會進一步惡化,出現(xiàn)故障,對運行人員的決策起參考作用。
加權(quán)頻繁模式與頻繁模式相仿,只是更進一步地考慮到各數(shù)據(jù)項的不同重要程度,對各數(shù)據(jù)項進行賦權(quán)。文中從數(shù)據(jù)智能處理的角度出發(fā),將加權(quán)頻繁模式引入告警頻發(fā)信號分析中,提出加權(quán)模型與改進FP-growth算法相結(jié)合的加權(quán)改進FP-growth算法。該算法在計及各影響因素權(quán)重和繼承FP-growth算法不需要產(chǎn)生侯選項集的優(yōu)點的基礎(chǔ)上,將整個數(shù)據(jù)庫分解為子數(shù)據(jù)庫進行頻繁模式挖掘,可以大大降低對告警頻報信號數(shù)據(jù)庫的搜索開銷,在時間和空間上都有很好的效率。
利用該算法產(chǎn)生的頻報信號影響因素頻繁模式可以發(fā)現(xiàn)與頻報信號具有強關(guān)聯(lián)的影響因素,從而更加清楚地認識頻報信號的產(chǎn)生。工程實現(xiàn)中,頻報信號影響因素頻繁模式可以指導(dǎo)運行人員發(fā)現(xiàn)可能產(chǎn)生頻報信號的設(shè)備并加以密切關(guān)注,可以和設(shè)備檢修形結(jié)合,為設(shè)備檢修提供規(guī)則知識。
參考文獻:
[1] 李云鵬. 智能告警專家處理系統(tǒng)在南通電網(wǎng)的應(yīng)用[J]. 江蘇電機工程,2008,27(5):48-50.
LI Yunpeng. Application of intelligent warning expert system to nantong power system [J]. Jiangsu Electrical Engineering,2008,27(5):48-50.
[2] 歐陽永堅, 郭建, 魯國剛. 變電站自動化系統(tǒng)遙信去抖方法分析[J]. 電網(wǎng)技術(shù), 2006, 30: 47-50.
OUYANG Yongjian, GUO Jian, LU Guogang. Analysis of subtractive dithering method for signals measurement in substation automation system [J]. Power System Technology, 2006, 30: 47-50.
[3] 陳剛, 蔡澤祥. 變電站遠動信息采集的分析和改進[J]. 繼電器, 2003, 31(4): 73-75.
CHEN Gang, CAI Zexiang. Analysis and improvement of remote information collection in substations [J]. RELAY, 2006, 30: 47-50.
[4] 厙向陽, 張玲. 基于Hadoop的FP-Growth關(guān)聯(lián)規(guī)則并行改進算法[J]. 計算機應(yīng)用研究, 2017, 35.
SHE Xiangyang, ZHANG Ling. Parallel improved algorithm of FP-Growth association rules based on Hadoop [J]. Application Research of Computers,2017, 35.
[5] DL/T 573-2010,電力變壓器檢修導(dǎo)則[S].
DL/T 573-2010, Maintenance Guide for Power Transformers [S].
[6] 王毅, 丁力, 侯興哲, 等. 基于層次分析法的加權(quán)力線竊電檢測方法[J]. 科學(xué)技術(shù)與工程, 2017, 17(33):96-103.
WANG Yi, DING Li, HOU Xingzhe, et al. Weighted LOF stealing detection method based on analytic hierarchy process [J]. Science Technology and Engineering, 2017, 17(33):96-103.
[7] 耿汝年. 加權(quán)頻繁模式挖掘算法研究[D]. 無錫:江南大學(xué). 2008.
KEN Runian. Research of weighted frequent pattern algorithm [D]. Wuxi: Jiangnan University. 2008.
[8] 萬軍. 加權(quán)關(guān)聯(lián)規(guī)則挖掘算法的研究與改進[D]. 南寧:廣西大學(xué), 2013.
WAN Jun. Research and improvement of weighted association rule mining algorithm[D]. Nanning: Guangxi University, 2013.
[9] 陳文. 基于FP樹的加權(quán)頻繁模式挖掘算法[J]. 計算機工程, 2012, 38(6): 63-65.
CHEN Wen. Mining algorithm for weighted frequent pattern based on FP-tree [J]. Computer Engineering [J], 2012, 38(6): 63-65.
[10] 劉聞超, 施化吉, 馬素琴. 加權(quán)模糊關(guān)聯(lián)挖掘算法[J]. 計算機工程與設(shè)計, 2010, 31(16): 3654-3657.
LIU Wenchao, SHI Huaji, MA Suqin. Algorithm of weight fuzzy association rules[J]. Computer Engineering and Design, 2010, 31(16): 3654-3657.
[11] 王艷, 薛海燕, 李玲玲, 等. 一種改進的加權(quán)頻繁項集挖掘算法[J]. 計算機工程與應(yīng)用, 2010,46(23): 135-137.
WANG Yan, XUE Haiyan, LI Lingling, et al. Improved algorithm for mining weighted frequent patterns [J]. Computer Engineering and Application, 2010,46(23): 135-137.
[12] 吳俊, 李珉, 惠峻. 基于關(guān)聯(lián)度分析的電網(wǎng)可靠性指標評價[J]. 江蘇電機工程, 2015, 34(6): 82-84.
WU Jun, LI Min, HUI Jun. Network reliability evaluation based on association analysis [J]. Jiangsu Electrical Engineering,2015, 34(6): 82-84.
[13] 成樂祥, 季麗. 基于加權(quán)K-means 聚類和遺傳算法的變電站規(guī)劃[J]. 2016, 35(6): 9-12.
CHENG Lexiang, JI Li. Substation planning based on weighted K-means cluster algorithm and genetic algorithm [J]. JiangsuElectrical Engineering, 2016, 35(6): 9-12.
[14] 李彥偉, 戴月明, 王金鑫. 一種挖掘加權(quán)頻繁項集的改進算法[J]. 計算機工程與應(yīng)用, 2011,47(15): 165-167.
LI Yanwei, DAI Yueming, WANG Jinxin. Improved algorithm for mining weighted frequent itemsets [J]. Computer Engineering and Application, 2011,47(15): 165-167.
[15] 許延祥, 曹軍威, 許杏桃, 等. 基于FP-growth算法的電壓事件干擾源定位方法[J]. 華東電力, 2014, 42(7): 1299-1304.
XU Yanxiang, CAO Junwei, XU Xingtao, et al. A method of locating voltage disturbance sources based on FP-growth algorithm [J]. East China Electric Power, 2014, 42(7): 1299-1304.
[16] 王新宇, 杜孝平, 謝昆青. FP-growth算法的實現(xiàn)方法研究[J]. 計算機工程與應(yīng)用, 2004, 40(9): 174-176.
WANG Xinyu, DU Xiaoping, XIE Kunqing. Research on implementation of the FP-growth algorithm [J]. Computer Engineering and Application, 2004, 40(9): 174-176.