蔣平,李寧,孫誼媊,楊金成,袁鐵江,3
(1.新疆大學(xué)電氣工程學(xué)院,新疆烏魯木齊 830047;2.國(guó)網(wǎng)新疆電力公司電力科學(xué)研究院,新疆烏魯木齊 830000;3.清華大學(xué)電機(jī)系電力系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100084)
C5.0算法在極端環(huán)境輸電線路巡檢中的應(yīng)用
蔣平1,李寧2,孫誼媊2,楊金成2,袁鐵江1,3
(1.新疆大學(xué)電氣工程學(xué)院,新疆烏魯木齊 830047;2.國(guó)網(wǎng)新疆電力公司電力科學(xué)研究院,新疆烏魯木齊 830000;3.清華大學(xué)電機(jī)系電力系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100084)
以新疆地區(qū)的極端環(huán)境為背景,針對(duì)目前輸電線路巡檢效率低下等問(wèn)題,選取新疆某地區(qū)的歷史巡檢數(shù)據(jù),詳細(xì)介紹了利用C5.0算法對(duì)該數(shù)據(jù)進(jìn)行自動(dòng)提取、分類的過(guò)程,構(gòu)建了輸電線路巡檢評(píng)估決策樹(shù),并從中提取了一些重要信息。研究方法和結(jié)果可為輸電線路巡檢人員制定巡檢計(jì)劃提供參考。
決策樹(shù);極端環(huán)境;數(shù)據(jù)挖掘;輸電線路巡檢
輸電線路在電力系統(tǒng)中起著至關(guān)重要的作用,除了要承受正常的機(jī)械載荷之外,還要承擔(dān)電力系統(tǒng)的高峰負(fù)荷壓力。新疆地區(qū)極端氣候(強(qiáng)風(fēng)、沙塵暴、暴風(fēng)雪和冰凍等)時(shí)有發(fā)生,使得輸電線路的電力元件加劇老化,甚至受損,如果不及時(shí)發(fā)現(xiàn)這些問(wèn)題,積累到一定程度,則會(huì)發(fā)展成各種故障甚至事故,給電力系統(tǒng)的安全穩(wěn)定運(yùn)行帶來(lái)巨大威脅[1-6]。
線路巡檢是保證電力系統(tǒng)安全穩(wěn)定運(yùn)行的有效措施之一[6-7]。目前,輸電線路巡檢是通過(guò)制定定期和臨時(shí)的巡檢計(jì)劃來(lái)實(shí)現(xiàn),而定期巡檢存在有些狀態(tài)良好的路段“過(guò)”巡檢,浪費(fèi)人力、時(shí)間;而狀態(tài)差的路段“欠”巡檢,不能及時(shí)處理和防范突發(fā)的自然災(zāi)害對(duì)輸電線路的損害。但臨時(shí)的巡檢往往并不科學(xué),也不能有效地預(yù)先檢查出突發(fā)事件對(duì)輸電線路造成的故障[8-9]。數(shù)據(jù)挖掘是從海量信息中提取或“挖掘”知識(shí),是連接數(shù)據(jù)和知識(shí)的橋梁[10-13]。利用電力公司的歷史巡檢數(shù)據(jù),采用數(shù)據(jù)挖掘技術(shù)對(duì)海量輸電線路巡檢數(shù)據(jù)進(jìn)行挖掘,提取出有用的信息,找出數(shù)據(jù)變化規(guī)律和數(shù)據(jù)間的關(guān)系,用來(lái)科學(xué)合理地制定輸電線路巡檢計(jì)劃。因此研究C5.0算法挖掘新疆地區(qū)極端環(huán)境的輸電線路巡檢數(shù)據(jù)是很有意義的。
將數(shù)據(jù)挖掘技術(shù)應(yīng)用到輸電線路巡檢的文獻(xiàn)較少,文獻(xiàn)[14]考慮了影響輸電線路運(yùn)行狀態(tài)的各種因素,采用基于貝葉斯網(wǎng)絡(luò)的數(shù)據(jù)挖掘方法,建立了輸電線路運(yùn)行狀態(tài)模型。通過(guò)SPSS Clementine的仿真實(shí)驗(yàn)證明,該模型具有較高的準(zhǔn)確率。但其并未涉及新疆極端環(huán)境的因素對(duì)輸電線路巡檢的影響。
本文以新疆地區(qū)的極端環(huán)境為背景,對(duì)新疆某地區(qū)的輸電線路歷史巡檢數(shù)據(jù)進(jìn)行分析,利用C5.0算法計(jì)算不同屬性的信息增益率,生成輸電線路巡檢評(píng)估決策樹(shù),評(píng)估輸電線路狀態(tài)。該決策樹(shù)可為巡檢人員提供參考,提高巡檢效率。
1.1 決策樹(shù)描述
決策樹(shù)是由上至下形成的一顆倒置的樹(shù),它的生長(zhǎng)是一個(gè)遞歸過(guò)程,每一層節(jié)點(diǎn)依照某一屬性向下分子節(jié)點(diǎn),待分類目標(biāo)在每一節(jié)點(diǎn)處與該節(jié)點(diǎn)相關(guān)屬性按照某一標(biāo)準(zhǔn)進(jìn)行比較,該標(biāo)準(zhǔn)是尋找最大的信息增益和最小熵。也就是計(jì)算每個(gè)屬性的平均熵,將平均熵最小的屬性作為根節(jié)點(diǎn),然后用同樣的方法再選擇其他節(jié)點(diǎn),直到最終形成整個(gè)決策樹(shù)[15]。有關(guān)建造決策樹(shù)的具體方法請(qǐng)參閱文獻(xiàn)[16]。
1.2 C5.0算法
C5.0算法是Quinlan從決策樹(shù)的雛形(ID3算法)中不斷改進(jìn)發(fā)展起來(lái)的最新的決策樹(shù)算法[17-18]。C5.0算法主要是克服了ID3算法選擇偏向于取值多的屬性的不足,采用最大信息增益率作為屬性選擇及樣本區(qū)分的準(zhǔn)則,它比采用信息增益法的ID3算法更好[19]。
C5.0算法原理為[20]:
設(shè)S是訓(xùn)練樣本集,具有n個(gè)值的屬性X將S分成n個(gè)子集S1,S2,…,Sn,設(shè)S中樣本的總數(shù)為|S|,ffreq(Ci,S)是S中屬于類別Ci(i=1,2,…,N)的樣本個(gè)數(shù),S中某個(gè)樣本屬于類別Ci的概率為ffreq(Ci,S)/|S|,它所傳達(dá)的信息為:log2(ffreq(Ci,S))/|S|。
訓(xùn)練集S的熵由式(1)表示。式(1)也是信息論中識(shí)別S中所有樣本所需的總信息量。
將訓(xùn)練集S根據(jù)屬性X分割成n個(gè)子集后,計(jì)算各個(gè)子集的信息熵,則集合S的期望信息用式(2)來(lái)表示。
為了度量按照屬性檢驗(yàn)X進(jìn)行分區(qū)的S所得到的信息,使用增益標(biāo)準(zhǔn)ggain(X),它選擇使其值能最大化,即此標(biāo)準(zhǔn)選擇的是具有最高信息增益的屬性來(lái)進(jìn)行每次分區(qū)。
根據(jù)屬性X的n個(gè)不同取值將S分割成S1,S2,…,Sn共n個(gè)子集后產(chǎn)生的潛在信息為式(4)所示。
式(5)為X對(duì)S進(jìn)行劃分信息增益率,
C5.0算法采用的是選擇最高信息增益率的屬性作為當(dāng)前結(jié)點(diǎn)的測(cè)試屬性。
2.1 數(shù)據(jù)預(yù)處理
新疆某電力部門提供的原始輸電線路巡檢數(shù)據(jù)因不僅考慮每一個(gè)線路塔桿的本身因素,還考慮了周圍環(huán)境、天氣、人為等因素的影響,因此該數(shù)據(jù)具有格式不統(tǒng)一、雜項(xiàng)較多的特點(diǎn)。為保證數(shù)據(jù)的正確性,提高數(shù)據(jù)挖掘的效率,要對(duì)數(shù)據(jù)進(jìn)行預(yù)先處理,為以后的數(shù)據(jù)挖掘做好充分準(zhǔn)備。
經(jīng)過(guò)對(duì)原始輸電線路巡檢數(shù)據(jù)進(jìn)行分析,最終選取了對(duì)電力系統(tǒng)影響較為突出的幾個(gè)因素,主要考慮“天氣情況”、“地質(zhì)條件”、“材料等級(jí)”、“投運(yùn)時(shí)間”、“異常頻率”和“未檢查天數(shù)”6個(gè)屬性對(duì)輸電線路巡檢的影響,輸電線路巡檢評(píng)估屬性如表1所示。其中天氣情況屬性中“正常天氣”包括晴天、小雨、小雪、小風(fēng)等天氣,“惡劣天氣”包括大雨、大風(fēng)、大雪等天氣,“極端天氣”包括沙塵暴、強(qiáng)風(fēng)、暴風(fēng)雪、冰雹等天氣,這3類天氣分別劃分為“A”、“B”、“C”3個(gè)等級(jí);地質(zhì)條件屬性中“簡(jiǎn)單”指地質(zhì)災(zāi)害少,地形地貌簡(jiǎn)單,“中等”指地質(zhì)災(zāi)害較少,地形地貌較簡(jiǎn)單,“復(fù)雜”指地質(zhì)災(zāi)害多,地形地貌復(fù)雜,這3類地質(zhì)條件分別劃分為“A”、“B”、“C”3個(gè)等級(jí);材料等級(jí)屬性中將輸電線路所用材料分為一般材料和高級(jí)材料,即“A”,“B”等級(jí);投運(yùn)時(shí)間屬性中“較短”、“較長(zhǎng)”、“很長(zhǎng)”分別指線路投運(yùn)時(shí)間小于4 a、大于等于4 a小于7 a、大于等于7 a,分別劃分為“A”、“B”、“C”3個(gè)等級(jí);異常頻率屬性中“較少”、“較多”,分別指線路在1年中出現(xiàn)異常次數(shù)小于10次和大于等于10次;未檢查天數(shù)屬性中“較短”、“較長(zhǎng)”分別指離上次巡檢時(shí)間未檢查的天數(shù)小于7天和大于等于7天,分別劃分為“A”,“B”2個(gè)等級(jí);線路狀態(tài)作為決策屬性,分為“正?!焙汀爱惓!?種[14]。
表1 輸電線路巡檢評(píng)估屬性表Tab.1 Attribute table of the transmission line inspection evaluation
2.2 C5.0算法建立決策樹(shù)
2.2.1 計(jì)算信息增益率
首先計(jì)算該樣本屬性的信息熵。
由表2可知:46組數(shù)據(jù)中線路狀態(tài)為“正?!焙汀爱惓!钡姆謩e有20和26組,則由式(1)計(jì)算出改樣本屬性的信息熵為:
再以“天氣情況”、“地質(zhì)條件”、“材料等級(jí)”、“投運(yùn)時(shí)間”、“異常頻率”和“高峰負(fù)荷持續(xù)時(shí)間”為根節(jié)點(diǎn)計(jì)算信息增益率。
1)天氣情況。
在表2中天氣情況為“A”、“B”、“C”的天氣分別有12、19、15個(gè)。其中“A”天氣中線路“正?!焙汀爱惓!钡姆謩e有12個(gè)和0個(gè),“B”天氣中線路“正?!焙汀爱惓!钡姆謩e有6個(gè)和13個(gè),“C”天氣中線路“正?!焙汀爱惓!钡姆謩e有2個(gè)和13個(gè)。
由式(2)、式(3)計(jì)算天氣情況的信息熵、增益標(biāo)準(zhǔn)為:
表2 具體樣本取值Tab.2 The specific sample values
由式(4)計(jì)算天氣情況的潛在信息為:
由式(5)計(jì)算天氣情況的信息增益率為:
2)地質(zhì)條件。
用同樣方法計(jì)算可以得到:
3)材料等級(jí)。
4)投運(yùn)時(shí)間。
5)異常頻率。
6)未檢查時(shí)間。
2.2.2 決策樹(shù)構(gòu)建及分析
由上一節(jié)結(jié)果可知ggain_ratio(天氣情況)最大,按照信息增益率最大為原則,選擇天氣情況作為根節(jié)點(diǎn)建立決策樹(shù),然后剩下的屬性繼續(xù)按照上述方法遞歸計(jì)算,直到最后形成整個(gè)決策樹(shù)。最終形成的輸電線路巡檢評(píng)估決策樹(shù)如圖1所示。
圖1 輸電線路巡檢評(píng)估決策樹(shù)Fig.1 Transmission line inspection evaluation decision tree
圖1為輸電線路巡檢評(píng)估決策樹(shù),電力巡檢人員可以利用它作為巡檢計(jì)劃的參考。可以看出在新疆地區(qū),天氣情況、線路投運(yùn)時(shí)間及異常頻率等對(duì)輸電線路狀態(tài)的影響較大,其中天氣情況對(duì)輸電線路狀態(tài)影響起主導(dǎo)作用。例如,一旦出現(xiàn)極端天氣(即C等級(jí)),對(duì)于那些投運(yùn)時(shí)間稍長(zhǎng)的線路則很有可能出現(xiàn)異常,此時(shí)巡檢人員很有必要對(duì)這些線路巡檢,查看是否出現(xiàn)故障以便及時(shí)處理隱患。同時(shí)輸電線路的材料等級(jí)因素對(duì)輸電線路影響相對(duì)較小,巡檢人員可以結(jié)合當(dāng)?shù)厍闆r酌情考慮該因素。另一方面,可以看出凡是投運(yùn)時(shí)間較長(zhǎng)的線路,其異常頻率也普遍較高,巡檢人員可利用這些隱藏的信息更科學(xué)地制定巡檢計(jì)劃。
本文根據(jù)新疆地區(qū)輸電線路巡檢的特點(diǎn),充分挖掘輸電線路巡檢數(shù)據(jù),通過(guò)C5.0算法實(shí)現(xiàn)了對(duì)輸電線路巡檢數(shù)據(jù)的高效率提取,最終形成的決策樹(shù)表明,在新疆地區(qū)極端天氣對(duì)輸電線路的影響很大。輸電線路巡檢人員可以利用該決策樹(shù)全面挖掘各個(gè)屬性之間的內(nèi)在聯(lián)系,發(fā)現(xiàn)更多隱藏的信息,更科學(xué)地制定巡檢計(jì)劃,及時(shí)發(fā)現(xiàn)問(wèn)題,提高巡檢效率,保障電力系統(tǒng)的安全穩(wěn)定運(yùn)行。
[1]徐大成,黃欲成,柏曉路,等.輸電線路冰災(zāi)事故原因及按新國(guó)標(biāo)提高設(shè)計(jì)標(biāo)準(zhǔn)的措施[J].電網(wǎng)與清潔能源,2011,27(1):9-14.XU Dacheng,HUANG Yucheng,BAI Xiaolu,et al.Causes of transmission line icing damages and how to improve the design according to new national standard[J].Power System and Clean Energy,2011,27(1):9-14(in Chinese).
[2]肖妤,賀長(zhǎng)宏,宋珊,等.輸電線路不停電自融冰技術(shù)仿真研究[J].電力電容器與無(wú)功補(bǔ)償,2016,37(2):72-78.XIAO Yu,HE Changhong,SONG Shan,et al.Simulation study on transmission line de-icing technology without power off[J].Power Capacitor&Reactive Power Compensation,2016,37(2):72-78(in Chinese).
[3]巢亞鋒,楊力,彭曉亮,等.輸電線路覆冰特點(diǎn)及防冰技術(shù)研究綜述[J].高壓電器,2014(10):131-138.CAO Yafeng,YANG Li,PENG Xiaoliang,et al.Review of the researches on icing characteristics of transmission lines and anti-icing technologies[J].High Voltage Apparatus,2014(10):131-138(in Chinese).
[4]胡毅,劉凱,吳田,等.輸電線路運(yùn)行安全影響因素分析及防治措施[J].高電壓技術(shù),2014,40(11):42-42.HU Yi,LIU Kai,WU Tian,et al.Analysis of influential factors on operation safety of transmission line and countermeasures[J].High Voltage Engineering,2014,40(11): 42-42(in Chinese).
[5]況軍,李志詠.新型智能化輸電線路巡檢系統(tǒng)的研發(fā)[J].重慶建筑大學(xué)學(xué)報(bào),2006,28(1):139-142.KUANG Jun,LI Zhiyong.Development of a novel intellectual transmission line inspection system[J].Journal of Chongqing Jianzhu University,2006,28(1):139-142(in Chinese).
[6]張海軍,趙雪松.基于GPS的輸電線路巡檢管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].電網(wǎng)技術(shù),2005,29(7):78-81.ZHANG Haijun,ZHAO Xuesong.The design and realization of inspection tour of transmission lines management system based on GPS[J].Power System Technology,2005,29(7):78-81(in Chinese).
[7]馮偉東,張庚,郝鵬宇,等.基于GIS技術(shù)的線路移動(dòng)巡檢系統(tǒng)關(guān)鍵技術(shù)研究[J].電氣應(yīng)用,2013(S1):252-254.FENG Weidong,ZHANG Geng,HAO Pengyu,et al.On the key technology of the check line system based on GIS[J].Electrotechnical Application,2013(S1):252-254(in Chinese).
[8]段其昌,程有富.粗糙集與決策樹(shù)理論在輸電線路巡檢中的應(yīng)用[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2011,20(6):155-160.DUAN Qichang,CHENG Youfu.Application of rough set and decision tree theory to inspection of power transmission line[J].Computer Systems&Applications,2011,20(6):155-160(in Chinese).
[9]劉學(xué)瑞,王春華,牛非非.基于狀態(tài)評(píng)價(jià)的輸電線路差異化巡檢管理[J].山東電力技術(shù),2014,41(6):60-62.LIU Xuerui,WANG Chunhua,NIU Feifei.The differential patrolling management based on condition evaluation of transmission lines[J].Shangdong Electric Power,2014,41(6):60-62(in Chinese).
[10]陸安生,陳永強(qiáng),屠浩文.決策樹(shù)C5算法的分析與應(yīng)用[J].電腦知識(shí)與技術(shù):技術(shù)論壇,2005(3):17-20.LU Ansheng,CHEN Yongqiang,TU Haowen.Analysis and application of C5 algorithm of decision tree[J].Computer Knowledge and Technology:Technology Forum,2005(3): 17-20(in Chinese).
[11]吉根林,孫志揮.數(shù)據(jù)挖掘技術(shù)[J].中國(guó)圖象圖形學(xué)報(bào),2001(8):715-721.JI Genlin,SUN Zhihui.Survey of the data mining techniques[J].Journal of Image and Graphics,2001(8): 715-721(in Chinese).
[12]梁俊宇,趙明,李鵬飛,等.基于數(shù)據(jù)挖掘的火電機(jī)組主要參數(shù)基準(zhǔn)值獲取方法[J].熱力發(fā)電,2015(1):73-76.LIANG Junyu,ZHAO Ming,LI Pengfei,et al.Data mining based determination method of main parameter benchmark values for power plants[J].Thermal Power Generation,2015(1):73-76(in Chinese).
[13]豆朋,黃松波,江聰世,等.基于時(shí)空聚類算法的地閃活動(dòng)特性研究[J].電瓷避雷器,2012(4):95-98.DOU Peng,HUANG Songbo,JIANG Congshi,et al.The research of ground flashover activities characteristics based on time and space clustering algorithm[J].Insulators and Surge Arresters,2012(4):95-98(in Chinese).
[14]段其昌,周華鑫,程有富,等.貝葉斯網(wǎng)絡(luò)在輸電線路運(yùn)行狀態(tài)預(yù)測(cè)中的應(yīng)用[J].計(jì)算機(jī)科學(xué),2012,39(S3): 83-87.DUAN Qichang,ZHOU Huaxin,CHENG Youfu,et al.Application of bayesian network in transmission lines running state prediction[J].Computer Science,2012,39(S3):83-87(in Chinese).
[15]JOHN Durkin,蔡競(jìng)峰,蔡自興.決策樹(shù)技術(shù)及其當(dāng)前研究方向[J].控制工程,2005,12(1):15-18.JOHN Durkin,CAI Jingfeng,CAI Zixing.Decision tree technique and its current research[J].Control Engineering of China,2005,12(1):15-18(in Chinese).
[16]MINGERS J.An empirical comparison of selection measures for decision-tree induction[J].Machine Learning,1989,3(4):319-342.
[17]QUINLAN J R.C4.5:programs for machine learning[M].San Mateo.CA:Morgan Kaufmann,1993.
[18]SULLIVAN MATTHEW S,JONES MARTIN J,LEE DAVID C,et al.A comparison of predictive methods in extinction risk studies:Contrasts and decision trees[J].Biodiversity and Conservation,2006,15(6):1977-1991.
[19]李強(qiáng).創(chuàng)建決策樹(shù)算法的比較研究—ID3,C4.5,C5.0算法的比較[J].甘肅科學(xué)學(xué)報(bào),2006,18(4):84-87.LI Qiang.A comparative study on algorithms of constructing decision trees—ID3,C4.5 and C5.0[J].Journal of Gansu Sciences,2006,18(4):84-87(in Chinese).
[20]鞏固,呂俊懷,黃永青,等.有效改進(jìn)C5.0算法的方法[J].計(jì)算機(jī)工程與設(shè)計(jì),2009,30(22):5197-5199.GONG Gu,Lü Junhuai,HUANG Yongqing,et al.Effective method of improving C5.0 algorithm[J].ComputerEngineering and Design,2009,30(22):5197-5199(in Chinese).
(編輯 馮露)
Application of C5.0 Algorithm in the Transmission Line Inspection under Extreme Environment
JIANG Ping1,LI Ning2,SUN Yiqian2,YANG Jincheng2,YUAN Tiejiang1,3
(1.School of Electrical Engineering,Xinjiang University,Urumqi 830047,Xinjiang,China;2.Xinjiang Electric Power Research Institute,Urumqi 830000,Xinjiang,China;3.The State Key Laboratory of Power System,Department of Electrical Engineering,Tsinghua University,Beijing 100084,China)
Based on the extreme environment in Xinjiang,aiming at the inefficiency in the inspection of transmission lines,this paper introduces the automatic extraction and classification progress of C5.0 algorithm of the historical inspection data of a region in Xinjiang,and then establishes the power transmission line inspection evaluation decision tree and obtains some important information.The research methods and results in this paper can provide some rewarding reference to the transmission line inspectors in the making of the inspection plan.
decision tree;extremity environment;data mining;transmission line inspection
2016-03-08。
蔣 平(1992—),男,碩士研究生,研究方向?yàn)樾履茉窗l(fā)電及其并網(wǎng)技術(shù);
李 寧(1968—),男,高級(jí)工程師,主要研究方向?yàn)殡娏τ?jì)量與營(yíng)銷;
孫誼媊(1974—),女,碩士,高級(jí)工程師,主要從事電網(wǎng)運(yùn)行方式研究;
楊金成(1990—),男,助理工程師,主要研究方向?yàn)殡娏τ?jì)量與營(yíng)銷;
袁鐵江(1975—),男,博士,副教授,研究生導(dǎo)師,清華大學(xué)博士后,研究方向?yàn)樾履茉窗l(fā)電及其并網(wǎng)技術(shù)和新能源-氫儲(chǔ)能與煤化工多能耦合技術(shù)。
新疆杰出青年自然科學(xué)基金項(xiàng)目(2014711005);國(guó)家自然科學(xué)基金(51367018);中國(guó)電力科學(xué)研究院科技創(chuàng)新基金項(xiàng)目(150200018)。
Project Supported by Xinjiang Natural Science Foundation for Distinguished Young Scholars(2014711005);the National Natural Science Foundation of China(51367018);the Science and Technology Innovation Fund of China Electric Power Research Institute(150200018).
1674-3814(2016)11-0020-05
TM755
A