付淳川 朱文博
(1.北京城建設(shè)計(jì)發(fā)展集團(tuán)股份有限公司,北京 100032;2.中交機(jī)電工程局有限公司武漢技術(shù)中心,武漢 430060)
軌道電路是保障列車(chē)安全運(yùn)行的關(guān)鍵信號(hào)設(shè)備,ZPW-2000A型無(wú)絕緣軌道電路是目前鐵路區(qū)間應(yīng)用最多的設(shè)備,及時(shí)準(zhǔn)確地診斷軌道電路故障,直接關(guān)系到鐵路運(yùn)輸效率和行車(chē)安全[1,2]。目前主要依靠電務(wù)工作人員憑借經(jīng)驗(yàn)對(duì)其定期檢修的方式進(jìn)行維護(hù),這種方法存在一定的盲目性且維護(hù)效率較低[3,4]。因此有必要合理引進(jìn)智能診斷算法對(duì)軌道電路故障進(jìn)行快速有效地診斷。一些學(xué)者將模糊神經(jīng)網(wǎng)絡(luò)[5],支持向量機(jī)[6]和遺傳算法[7]等多種智能診斷方法應(yīng)用到軌道電路故障診斷中,在一定程度上取得良好的效果。
決策樹(shù)C4.5算法具有對(duì)樣本實(shí)例進(jìn)行分類(lèi)并記憶的能力,所產(chǎn)生的規(guī)則清晰、可理解性強(qiáng)。同時(shí)粗糙集具有處理不完備決策表、去除冗余信息的能力,與決策樹(shù)方法有較好的相容性。由于ZPW-2000A型軌道電路系統(tǒng)設(shè)備結(jié)構(gòu)復(fù)雜,故障現(xiàn)象和故障特征屬性之間沒(méi)有明確的對(duì)應(yīng)關(guān)系,存在較大的隨機(jī)性和復(fù)雜性,單憑某種單一的智能方法進(jìn)行軌道電路故障診斷往往存在很大的局限性。本文結(jié)合粗糙集對(duì)故障決策表進(jìn)行屬性約簡(jiǎn),采用C4.5對(duì)約簡(jiǎn)決策表訓(xùn)練學(xué)習(xí)提取診斷規(guī)則,將得到的規(guī)則應(yīng)用于軌道電路故障診斷,達(dá)到快速準(zhǔn)確診斷的目的。
1986年自J. R. Quinlan提出ID3算法[8]以來(lái),不斷有學(xué)者開(kāi)始研究各種改進(jìn)的決策樹(shù)(Decision Tree)算法,其中包括1993年提出的C4.5算法[9]。C4.5能夠自動(dòng)從數(shù)據(jù)中挖掘分類(lèi)規(guī)則,處理具有不確定性、離散數(shù)值特征的模式識(shí)別問(wèn)題。決策樹(shù)是從根節(jié)點(diǎn)開(kāi)始劃分節(jié)點(diǎn)屬性值依次向下產(chǎn)生分支節(jié)點(diǎn),直到產(chǎn)生葉節(jié)點(diǎn),從根節(jié)點(diǎn)到葉節(jié)點(diǎn)的每條路徑對(duì)應(yīng)一條分類(lèi)規(guī)則。C4.5引入信息增益率作為節(jié)點(diǎn)選擇度量,克服ID3算法偏向選擇多值屬性的缺點(diǎn),可提取數(shù)據(jù)本身隱含的真實(shí)規(guī)則。采用后剪枝[10]的方法去除噪聲數(shù)據(jù)、控制樹(shù)的深度以便簡(jiǎn)化決策樹(shù)。
設(shè)訓(xùn)練樣本集T中,樣本個(gè)數(shù)為|T|,每個(gè)樣本由n個(gè)條件屬性A分別標(biāo)記某一類(lèi)別Di(i=1,2,…,k)。同一類(lèi)別的樣本個(gè)數(shù)記為|Di|,定義某類(lèi)樣本的概率分布為Pi=|Di|/|T|,C4.5利用樣本實(shí)例提取規(guī)則的步驟如下。
步驟1:計(jì)算樣本分布初始熵。
步驟2:計(jì)算任一測(cè)試屬性A信息熵。
步驟3:計(jì)算測(cè)試屬性A的信息增益。
步驟4:計(jì)算屬性A的分割信息量和信息增益率。
步驟5:選擇具有最大信息增益率的屬性作為當(dāng)前節(jié)點(diǎn),重復(fù)步驟2~4依次選擇各級(jí)節(jié)點(diǎn),直到葉節(jié)點(diǎn)同屬一種類(lèi)別。
粗糙集理論[11]是由Z. Pawlak在1982年提出的一種用于處理不完整不精確知識(shí)的數(shù)學(xué)工具。其中屬性約簡(jiǎn)方法用來(lái)簡(jiǎn)化信息系統(tǒng)的復(fù)雜程度,粗糙集中核被認(rèn)為是信息系統(tǒng)基本屬性集,是進(jìn)行屬性約簡(jiǎn)的理論依據(jù)?;诖植诩泻说亩x,簡(jiǎn)要介紹利用可辨識(shí)矩陣[12]計(jì)算區(qū)分函數(shù)的方法,求取決策信息系統(tǒng)所有可能的約簡(jiǎn)組合。
根據(jù)決策表求得可辨識(shí)矩陣為M,A={a1,a2,…,an}是所有條件屬性的集合,S是M中所有屬性組合的集合,且S中不包含重復(fù)項(xiàng),令S中包含有s個(gè)屬性組合,每個(gè)屬性組合表示為Bi,其公式化描述為BiS,Bi≠Bj(i,j=1,2,…,s),令 |Bi|=m,則Bi中任意條件屬性表示為Bi,k(k=1,2,…,m)。若矩陣中元素的屬性組合數(shù)為1,表明除該屬性以外的屬性無(wú)法將決策不同的兩條記錄區(qū)分開(kāi),該屬性不可去掉,它屬于核屬性,所有這樣的屬性組成核屬性集,設(shè)C0為核屬性集,C為屬性約簡(jiǎn)后得到的屬性集合,基于可辨識(shí)矩陣的屬性約簡(jiǎn)算法描述如下。
步驟1:將決策表轉(zhuǎn)換為可辨識(shí)矩陣的形式,計(jì)算核屬性集,令C=C0。
步驟2:在可辨識(shí)矩陣中找出所有不包含核屬性的屬性組合
步驟3:將屬性組合S表示為合取范式,即區(qū)分函數(shù)為
步驟4:將區(qū)分函數(shù)?轉(zhuǎn)化為析取范式的形式,此時(shí)所有合取子式即為約簡(jiǎn)結(jié)果。
軌道電路微機(jī)監(jiān)測(cè)子系統(tǒng)[13]用于監(jiān)控軌道電路設(shè)備工作狀態(tài),監(jiān)測(cè)并存儲(chǔ)大量設(shè)備狀態(tài)信息。本文利用軌道電路監(jiān)測(cè)信息系統(tǒng)獲得原始決策表,此時(shí)決策表中有許多連續(xù)量無(wú)法直接用粗糙集進(jìn)行處理,需要對(duì)原始決策表進(jìn)行模糊離散化處理,形成離散形式的決策表,利用粗糙集對(duì)離散決策樹(shù)進(jìn)行屬性約簡(jiǎn),用C4.5規(guī)則提取算法對(duì)約簡(jiǎn)決策表進(jìn)行訓(xùn)練提取診斷規(guī)則?;诖植诩?C4.5算法的軌道電路故障診斷過(guò)程如圖1所示。
ZPW-2000A型無(wú)絕緣移頻軌道電路是由室內(nèi)、外設(shè)備組成的復(fù)雜信號(hào)系統(tǒng),系統(tǒng)設(shè)備結(jié)構(gòu)如圖2所示。軌道電路設(shè)備故障導(dǎo)致的異常紅光帶或分路不良故障現(xiàn)象,若得不到及時(shí)準(zhǔn)確地診斷處理,會(huì)嚴(yán)重影響行車(chē)效率甚至危及行車(chē)安全。
分析某區(qū)段軌道電路的監(jiān)測(cè)信息,歸納系統(tǒng)常見(jiàn)故障模式作為軌道電路故障決策表的決策屬性,如表1所示。
表1 軌道電路故障模式表
根據(jù)表1歸納的常見(jiàn)故障模式,選擇軌道電路部分監(jiān)測(cè)信息作為決策表的條件屬性如表2所示。
表2 軌道電路狀態(tài)監(jiān)測(cè)量
由此確定軌道電路故障決策表的條件屬性和決策屬性,結(jié)合模擬故障樣本數(shù)據(jù)得到如表3所示的原始決策表。
表3 軌道電路故障原始決策表
軌道電路故障數(shù)據(jù)決策表中,大部分條件屬性是連續(xù)量,無(wú)法直接用粗糙集進(jìn)行處理,所以需要對(duì)其進(jìn)行模糊化處理成離散量的形式。根據(jù)專家經(jīng)驗(yàn)來(lái)選擇條件屬性聚類(lèi)中心和屬性各模糊子集的隸屬函數(shù),選擇高斯正態(tài)隸屬函數(shù)來(lái)描述屬性值隸屬于各模糊子集的程度。
故障數(shù)據(jù)屬性值經(jīng)過(guò)模糊化后得到3個(gè)模糊子集,分別用模糊符號(hào)0(合適)、1(偏低)、2(偏高)來(lái)表示,第i個(gè)連續(xù)屬性Ai的取值屬于第j(j=1,2,3)個(gè)模糊子集的隸屬度采用高斯正態(tài)隸屬度函數(shù)表達(dá)如公式(6)。
其中σ>0,dij∈R是各屬性模糊取值的聚類(lèi)中心。按上述方法離散化的不完備決策表如表4所示。
表4 軌道電路故障離散決策表
考慮到軌道電路信息系統(tǒng)存在冗余屬性、重復(fù)樣本和數(shù)據(jù)缺失的情況,需要利用粗糙集進(jìn)行屬性約簡(jiǎn)。本文用可辨識(shí)矩陣方法和區(qū)分函數(shù)對(duì)離散決策表進(jìn)行約簡(jiǎn)處理。對(duì)決策表約簡(jiǎn)的過(guò)程即對(duì)原始故障特征信息進(jìn)行提煉的過(guò)程,使決策表簡(jiǎn)化的同時(shí)去掉干擾信息,減少下一步?jīng)Q策樹(shù)訓(xùn)練樣本、提取診斷規(guī)則的計(jì)算量。
由粗糙集中可辨識(shí)矩陣方法計(jì)算表4對(duì)應(yīng)的區(qū)分函數(shù)?。
?=(M∧A4)∨(M∧A8)∨(M∧A12)
=(core∧A9∧A12)∨(core∧A8∧A9)
∨(core∧A4∧A9)∨(core∧A4∧A11)
∨(core∧A8∧A11)∨(core∧A11∧A12)
其中core=(A2∧A3∧A5∧A7)為決策表4條件屬性核,M=(core∧A9)∨(core∧A11)。
對(duì)上述離散決策表的約簡(jiǎn)處理得到6個(gè)約簡(jiǎn),分別為:
1)(core∧A9∧A12)
2)(core∧A8∧A9)
3)(core∧A4∧A9)
4)(core∧A4∧A11)
5)(core∧A8∧A111)
6)(core∧A11∧A12)
通常采用不同約簡(jiǎn)集形成的決策表,對(duì)其訓(xùn)練得到的樹(shù)形規(guī)則有所不同,選擇不同約簡(jiǎn)集進(jìn)行訓(xùn)練,直到求得符合要求的決策樹(shù)為止,其中約簡(jiǎn)1)對(duì)應(yīng)的決策表如表5所示。
表5 約簡(jiǎn)1)對(duì)應(yīng)的決策表
經(jīng)過(guò)對(duì)不完備決策表屬性約簡(jiǎn),去除信息系統(tǒng)的冗余屬性,得到簡(jiǎn)化的決策表5,屬性組合{A2,A3,A5,A7,A9,A12}可完全代替原始決策表?xiàng)l件屬性,達(dá)到約簡(jiǎn)目的。
在眾多的規(guī)則提取算法中,決策樹(shù)C4.5算法可以對(duì)故障樣本決策表進(jìn)行快速規(guī)則提取,產(chǎn)生清晰易理解的樹(shù)狀形式規(guī)則,適用于小規(guī)模故障樣本集的診斷分類(lèi),提取到的規(guī)則集作為對(duì)新故障樣本實(shí)例進(jìn)行分類(lèi)的故障診斷器。C4.5采用后剪枝技術(shù),得到初始決策樹(shù)規(guī)則集后進(jìn)行剪枝,可去除噪聲數(shù)據(jù)和克服孤立點(diǎn)的分支規(guī)則異常。
表6 屬性的信息熵、信息增益、信息增益率
計(jì)算樣本分布的初始熵和各個(gè)屬性的信息增益及信息增益率,如表6所示,其中樣本初始熵為3.59。
根據(jù)規(guī)則提取的具體步驟,選取信息增益率最大且信息增益最大的屬性A2為決策樹(shù)的根節(jié)點(diǎn)。屬性A2有2個(gè)取值(即有2個(gè)分支,A2=1和A2=2),分別以A2的兩個(gè)分支計(jì)算下一級(jí)節(jié)點(diǎn)的信息熵、信息增益、信息增益率,如此類(lèi)推,直到所有樣本類(lèi)別被標(biāo)記為葉節(jié)點(diǎn)為止。最終得到的診斷決策樹(shù)如圖3所示。
利用軌道電路故障模擬數(shù)據(jù)(訓(xùn)練和測(cè)試故障樣本各100組)對(duì)本文方法進(jìn)行仿真驗(yàn)證,與決策樹(shù)ID3算法和BP神經(jīng)網(wǎng)絡(luò)法進(jìn)行對(duì)比,對(duì)比結(jié)果如表7所示。BP神經(jīng)網(wǎng)絡(luò)存在收斂速度慢、易陷入局部極值的問(wèn)題,網(wǎng)絡(luò)分類(lèi)性能受網(wǎng)絡(luò)結(jié)構(gòu)的影響較大,不適于小規(guī)模樣本的學(xué)習(xí)[14]?;诖植诩虲4.5的故障診斷方法對(duì)軌道電路故障樣本數(shù)據(jù)進(jìn)行訓(xùn)練提取診斷規(guī)則,可將得到的規(guī)則直接運(yùn)用于新的故障數(shù)據(jù)進(jìn)行故障判斷,該方法的訓(xùn)練速度明顯快于BP神經(jīng)網(wǎng)絡(luò)診斷法,經(jīng)過(guò)粗糙集屬性約簡(jiǎn)后,進(jìn)一步加快了決策樹(shù)訓(xùn)練速度,并且對(duì)測(cè)試樣本的誤判率低至3%。
表7 診斷效果對(duì)比表
本文提出一種基于粗糙集-C4.5決策樹(shù)算法的ZPW-2000A型軌道電路故障診斷方法,該方法實(shí)現(xiàn)不完備信息系統(tǒng)模式下的軌道電路故障診斷,揭示軌道電路信號(hào)集中監(jiān)測(cè)信息集合的內(nèi)在冗余性,體現(xiàn)了良好的容錯(cuò)性能。利用模糊集理論對(duì)包含連續(xù)屬性的故障樣本進(jìn)行模糊離散化處理,建立離散決策表,粗糙集屬性約簡(jiǎn)在保留關(guān)鍵信息的前提下對(duì)決策表進(jìn)行約簡(jiǎn)求得最小約簡(jiǎn)集,利用決策樹(shù)具有快速學(xué)習(xí)及分類(lèi)的優(yōu)勢(shì)對(duì)約簡(jiǎn)后的決策表進(jìn)行診斷規(guī)則提取,避免對(duì)冗余屬性的判斷,縮短訓(xùn)練學(xué)習(xí)的時(shí)間。最后利用模擬故障樣本數(shù)據(jù)仿真測(cè)試該方法的可行性和準(zhǔn)確率,并與ID3算法和BP神經(jīng)網(wǎng)絡(luò)法做對(duì)比,仿真測(cè)試結(jié)果表明,該方法訓(xùn)練速度快并且誤判率較低。
[1]郭進(jìn).鐵路信號(hào)基礎(chǔ)[M].北京:中國(guó)鐵道出版社,2010.
[2]董松.論軌道交通列車(chē)位置檢測(cè)設(shè)備[J].都市快軌交通,2005,18(3):72-75.
[3]米根鎖,張鳳霞,魏蕾.基于剩余壽命的鐵路軌道電路調(diào)整型維修方法研究[J].鐵道學(xué)報(bào),2015,37(4):69-74.
[4]唐濤,燕飛,郜春海.軌道交通信號(hào)系統(tǒng)安全評(píng)估與認(rèn)證體系研究[J].都市快軌交通,2004,17(1):28-32.
[5]黃贊武,魏學(xué)業(yè),劉澤.基于模糊神經(jīng)網(wǎng)絡(luò)的軌道電路故障診斷方法研究[J].鐵道學(xué)報(bào),2012,34(11):54-59.
[6]張夢(mèng)琪,趙會(huì)兵,孫上鵬,基于粒子群支持向量機(jī)的軌道電路分路不良預(yù)測(cè)方法[J].鐵道學(xué)報(bào),2015,37(10):68-74.
[7]趙林海,冉義奎,穆建成.基于遺傳算法的無(wú)絕緣軌道電路故障綜合診斷方法[J].中國(guó)鐵道科學(xué),2010,31(3):107-114.
[8] QUINLAN J R.Induction of Decision Trees[J].Machine Learning, 1986, 1(1):81 106.
[9] QUINLAN J R.C4.5: programs for machine learning[M].San Francisco:Morgan Kaufmann Publishers Inc.1993.
[10]魏紅寧.決策樹(shù)剪枝方法的比較[J].西南交通大學(xué)學(xué)報(bào),2005,40(1):44-48.
[11] Pawlak Z.Rough set[J].International Journal of Computer& Information Sciences, 1982, 11(5): 341-356.
[12]張文修.粗糙集理論與方法[M].北京:科學(xué)出版社,2001.
[13]孫志忠,于樹(shù)永.ZPW-2000A監(jiān)測(cè)子系統(tǒng)[J].鐵道通信信號(hào),2008,44(11):24-25.
[14]魯娟娟,陳紅.BP神經(jīng)網(wǎng)絡(luò)的研究進(jìn)展[J].控制工程,2006,13(5):449-451.
[15]楊帆,王堅(jiān)強(qiáng),陳世然.貝葉斯網(wǎng)絡(luò)在ZPW-2000K無(wú)絕緣軌道電路故障診斷中的應(yīng)用[J].鐵路通信信號(hào)工程技術(shù),2016,13(6):73-75.