張東利
(水利部產(chǎn)品質(zhì)量標(biāo)準(zhǔn)研究所,浙江杭州 310012)
數(shù)據(jù)挖掘是關(guān)于統(tǒng)計學(xué)和人工智能學(xué)相互交叉而產(chǎn)生的一門學(xué)科[1-2]。其主要作用是在大量的數(shù)據(jù)集中找出信息之間的關(guān)系,而對于數(shù)據(jù)的分類是常常遇到的問題。一般數(shù)據(jù)挖掘分類方法是通過對訓(xùn)練集進(jìn)行學(xué)習(xí),構(gòu)造一個分類函數(shù)或分類模型,其能夠?qū)?shù)據(jù)對應(yīng)到給定的某一個類別當(dāng)中,從而實現(xiàn)數(shù)據(jù)分類,其主要數(shù)據(jù)分類的分析方法包括如貝葉斯分類方法、決策樹分類方法、神經(jīng)網(wǎng)絡(luò)分類方法等[3]。決策樹分類算法是在大量數(shù)據(jù)中找到一些有價值的信息供決策者做出正確的決策的分類方法[4]。這里決策樹分類由于其提取規(guī)則簡單、計算量較小在近些年的數(shù)據(jù)挖掘中得到了廣泛的應(yīng)用。
水輪發(fā)電機(jī)機(jī)組在其運(yùn)行的過程中,機(jī)組的振動信號中含有大量的故障信息。根據(jù)不完全統(tǒng)計,水輪發(fā)電機(jī)組發(fā)生故障時,大約有80%以上其特征可以在振動當(dāng)中有所體現(xiàn)[5]。但由于機(jī)組在運(yùn)行過程中,其監(jiān)測數(shù)據(jù)是不斷產(chǎn)生的,這樣通過普通診斷方法則不能對其進(jìn)行分析,這里就需要一種簡單實用的對數(shù)據(jù)進(jìn)行分類的方法,而決策樹分類方法正好符合這種數(shù)據(jù)分類情況,由此通過決策樹分類的方法對水輪發(fā)電機(jī)組振動信號的分類是一種實用方法。
決策樹分類算法是一種分類算法中的重要技術(shù),其產(chǎn)生的結(jié)構(gòu)類似于程序流程圖的樹型結(jié)構(gòu)。決策樹分類的方法是通過尋找數(shù)據(jù)集合中的信息量最大的特征屬性來建立不同的規(guī)則節(jié)點,在通過不同特征值的取值再建立不同的樹分枝,通過循環(huán)來建立整個樹的過程[6]。一般目前比較通用的決策樹分類的方法有ID3和C4.5兩種。與其他分類算法相比決策樹由于其計算速度快,準(zhǔn)確度高得到了廣泛的應(yīng)用。
在創(chuàng)建決策樹前,首先將要分析的數(shù)據(jù)進(jìn)行數(shù)據(jù)量化,使其變?yōu)橛嬎銠C(jī)可以識別的數(shù)字信息量之后既可以進(jìn)行決策樹的建立。先設(shè)一個訓(xùn)練集合S,通過公式計算其熵:
其中集合T和通過特征屬性X進(jìn)行分類的。這里通過計算分類前后,子集合的熵的增益大小來判斷選取分類節(jié)點,當(dāng)增益較大時使其當(dāng)中分類節(jié)點,計算公式如下:
信息的增益有可能出現(xiàn)較多的分枝時,其產(chǎn)生的函數(shù)值較大,從而使得決策樹的分枝也較多,使得產(chǎn)生的決策樹的結(jié)果不理想。維利解決此問題,這里通過信息增益率來解決此問題,在計算信息增益時,其與每次產(chǎn)生的子節(jié)點的數(shù)量和大小都有一定的關(guān)系,由此,其計算是對每個對象進(jìn)行分析,而不是對于分類所包含的信息。其中屬性信息增益率計算公式為:
水輪機(jī)組在運(yùn)行過程中,引起其出現(xiàn)振動的原因很多種,大致可以分為3大類,即機(jī)械原因、水力原因和電氣原因。在對水輪發(fā)電機(jī)組的監(jiān)測過程中,不同的故障特征大部分都在其振動頻域中體現(xiàn),由此可利用頻率分量作為特征向量進(jìn)行診斷。這里對采集的振動信號進(jìn)行快速傅里葉變換,從而得到振動信號的幅頻特性,一般選擇1/6~1/2(平均量)x,1x,2x,3x,50 Hz,100 Hz頻率分量進(jìn)行比較,其中x為轉(zhuǎn)頻[8]。目前,有很多學(xué)者對水輪發(fā)電機(jī)組進(jìn)行故障分析和研究,得到了大量有關(guān)機(jī)組振動的典型故障征兆[9],總結(jié)如表1所示,其中包括 6種機(jī)組常見故障,如轉(zhuǎn)子不平衡、軸系不對中和渦帶偏心等故障[10]。
表1 訓(xùn)練數(shù)據(jù)表Tab.1 Training samples table
這里根據(jù)典型的故障特征向量樣本創(chuàng)建決策樹。第一步先在特征向量中選擇一個特征屬性做為一個分支節(jié)點,在通過此特征屬性的不行值劃分既可以把數(shù)據(jù)集合劃分為不同子集,而在子集當(dāng)中選擇再選擇不同特征屬性節(jié)點繼續(xù)劃分,將子集再劃分為不同子集集合。當(dāng)一個子集集合中所有的數(shù)據(jù)所代表同一類時則結(jié)束,由此就形成決策樹的過程,如圖1所示。
下面我們將圖1所產(chǎn)生的決策樹轉(zhuǎn)化為的規(guī)則進(jìn)行表示。
圖1 決策樹Fig.1 Decision tree
規(guī)則1:if x1<0.56 then node 2 else node 3
規(guī)則2:if x2<0.38 then node 4 else node 5
規(guī)則3:if x3<0.51then node class1 else node class5
規(guī)則4:if x5<0.52then node class6 else node class4
規(guī)則5:if x2<0.79then node class2 else node class3
通過訓(xùn)練好的決策樹對監(jiān)測的機(jī)組故障特征向量進(jìn)行分類。這里對機(jī)組不平衡故障特征向量進(jìn)行分類,特征向量如(0.10,0.96,0.19,0.01,0.01,0.01,0.01)。根據(jù)決策樹分類后得到其故障特征為class3類故障,根據(jù)典型故障特征表說明其故障特征為轉(zhuǎn)子不平衡故障,得出故障類型與實際類型相同。
決策樹分類算法是數(shù)據(jù)挖掘中的一個常用的分類方法。本文將數(shù)據(jù)挖掘技術(shù)應(yīng)用水輪發(fā)電機(jī)組故障診斷當(dāng)中,通過決策樹分類的方法對故障特征向量進(jìn)行分類,從而實現(xiàn)對機(jī)組的故障進(jìn)行診斷,具有一定的實用價值。
[1] Han J,KamberM.Data mining:concept and techniques[C].2ed.San Fransisco,CA.Higher Education Press,2001:1-7.
[2]Tan Pang ning,SreinbachM,KumarV.數(shù)據(jù)挖掘?qū)д揫M].北京:北京大學(xué)出版社,2006.
[3] 欒麗華,吉根林.決策樹分類技術(shù)研究[J].計算機(jī)工程,2004,30(9):94-97.LUAN Li-hua,JI Gen-lin.The Study on decision tree classification techniques[J].Computer Engineering,2004,30(9):94-97(in Chinese).
[4] 劉同明.數(shù)據(jù)挖掘技術(shù)及其應(yīng)用[M].北京:國防工業(yè)出版社,2001.
[5] 趙道利,馬薇,梁武科,等.水電機(jī)組振動故障的信息融合診斷與仿真研究[J].中國電機(jī)工程學(xué)報,2005,25(20):137-142.ZHAO Dao-li,MA Wei,LIANG Wu-ke.On Data fusion faultdiagnosisand simulation ofhydroelectric units vibration[J].Proceedings of the CSEE,2005,25(20):137-142(in Chinese).
[6] 劉繼清,黃金花.基于改進(jìn)決策樹算法的設(shè)備故障智能診斷模型[J].制造業(yè)自動化,2011,33(4):30-33.LIU Ji-qing,HUANG Jin-hua.Intelligent fault diagnosis method for equipments based on improved decision tree algorithm[J].Manufacturing Automation,2011,33(4):30-33(in Chinese).
[7]李楠,段隆振,陳萌.決策樹C4.5算法在數(shù)據(jù)挖掘中的分析及其應(yīng)用[J].計算機(jī)與現(xiàn)代化,2008,12(12):160-163.LI Nan,DUAN Long-zhen,CHEN Meng.Research and application of data mining algorithm based on decision tree[J].Computer and Modemization,2008,12(12):160-163(in Chinese).
[8] 白亮,王瀚,李輝,等.基于時間序列相似性挖掘的水電機(jī)組振動故障診斷研究[J].水力發(fā)電學(xué)報,2010,29(6):229-236.BAI Liang,WANG Han,LI Hui,et al.Vibration fault diagnosisbased on time-seriessimilarity mining for hydropower units[J].Journal of Hydroelectric Engineering,2010,29(6):229-236(in Chinese).
[9] 張利平,孫美鳳,王鐵生.新型的RBF神經(jīng)網(wǎng)絡(luò)在水輪發(fā)電機(jī)組故障診斷中的應(yīng)用[J].水力發(fā)電學(xué)報,2009,28(6):219-223.ZHANG Li-ping, SUN Mei-feng, WANG Tie-sheng.Application of a novel RBF algorithm to fault diagnosis of hydro-turbine generating unit[J].Journal of Hydroelectric Engineering,2009,28(6):219-223(in Chinese).
[10]蘇立,南海鵬,余向陽.關(guān)聯(lián)規(guī)則分類的數(shù)據(jù)流挖掘方法在水電機(jī)組故障診斷的研究[J].西安理工大學(xué)學(xué)報,2012(1):106-110.SU Li, NAN Hai-peng, YU Xiang-yang.Associative classification of data streams for vibrant fault diagnosis of hydro-turbine generating unit[J].Journal of Xi’an University of Technology,2012(1):106-110(in Chinese).