王 超
(中國(guó)鐵道科學(xué)研究院通信信號(hào)研究所,100081,北京//助理研究員)
列車仿真技術(shù)中基于屬性矩陣圖的故障分析決策樹算法
王 超
(中國(guó)鐵道科學(xué)研究院通信信號(hào)研究所,100081,北京//助理研究員)
根據(jù)數(shù)據(jù)挖掘技術(shù)分析列車運(yùn)行大數(shù)據(jù)的特點(diǎn),提出了基于屬性矩陣圖的決策樹算法。結(jié)合某列車仿真數(shù)據(jù),詳細(xì)闡述了計(jì)算屬性度量、構(gòu)建屬性矩陣圖模型及構(gòu)造決策樹的具體過程。由該決策樹算法的故障分析結(jié)果可見,基于屬性矩陣圖決策樹算法能準(zhǔn)確地對(duì)故障問題進(jìn)行分類歸納,為故障預(yù)測(cè)提供可靠依據(jù)。
屬性矩陣圖;決策樹算法;列車仿真;故障分析
列車運(yùn)行時(shí),其車載設(shè)備每時(shí)每刻都要產(chǎn)生大量的數(shù)據(jù)。傳統(tǒng)數(shù)據(jù)處理方法是先由車載設(shè)備存儲(chǔ)日記,再由人工對(duì)文本格式的日志進(jìn)行下載,這即便耗費(fèi)了大量的時(shí)間和精力,也只是分析了部分?jǐn)?shù)據(jù)。因此有必要引入數(shù)據(jù)挖掘技術(shù),通過決策樹模型在線分析處理列車運(yùn)行數(shù)據(jù),發(fā)現(xiàn)其中的關(guān)聯(lián)規(guī)則。這不僅能盡早發(fā)現(xiàn)列車存在的故障隱患,提高列車的運(yùn)行效率,也能節(jié)省人工核對(duì)數(shù)據(jù)的成本,具有非常高的現(xiàn)實(shí)意義。為此,提出了基于列車仿真技術(shù)的數(shù)據(jù)挖掘系統(tǒng)方案。
列車仿真系統(tǒng)的工作原理如圖1所示。
圖1 列車仿真系統(tǒng)原理圖
由圖1可見,數(shù)據(jù)挖掘系統(tǒng)是列車仿真系統(tǒng)的核心部分之一,主要負(fù)責(zé)處理來自于其他子系統(tǒng)的數(shù)據(jù)信息。通過反饋調(diào)整信息,并傳輸給各個(gè)子系統(tǒng)模塊,可有效地減少故障發(fā)生的概率,提高列車運(yùn)行的效率。數(shù)據(jù)挖掘系統(tǒng)解決了傳統(tǒng)應(yīng)用中對(duì)列車日志分析存在的重復(fù)耗時(shí)低效的問題,是一種自適應(yīng)的智能學(xué)習(xí)系統(tǒng)。數(shù)據(jù)挖掘系統(tǒng)采用的決策樹算法決定了其處理能力的強(qiáng)弱。
ID3算法是經(jīng)典的決策樹算法,其核心是采用信息熵和信息增益的方法來劃分最佳決策樹分裂點(diǎn)。該算法也存在著問題:首先,ID3算法需要通過重復(fù)遍歷數(shù)據(jù)集來計(jì)算每個(gè)屬性的信息增益,故當(dāng)數(shù)據(jù)集很大時(shí),計(jì)算耗時(shí)會(huì)呈幾何級(jí)數(shù)量增長(zhǎng);其次,ID3算法不能對(duì)決策樹進(jìn)行動(dòng)態(tài)更新,處理實(shí)時(shí)數(shù)據(jù)時(shí)易造成預(yù)測(cè)信息增益的偏差;最后,ID3算法只能用來處理屬性元素為離散變量的問題。
本文提出一種基于屬性矩陣圖決策樹算法,改進(jìn)了ID3算法存在的問題。利用屬性矩陣圖決策樹算法能找出故障模式的規(guī)律,可發(fā)現(xiàn)列車運(yùn)行過程中存在的隱患,能有效提高列車運(yùn)行的安全性;通過動(dòng)態(tài)構(gòu)造決策樹算法,可實(shí)時(shí)處理列車運(yùn)行的數(shù)據(jù),能對(duì)可能遇到的故障模式進(jìn)行預(yù)判。
2.2.1 構(gòu)建屬性矩陣圖
對(duì)屬性節(jié)點(diǎn)的劃分決定了數(shù)據(jù)集的分裂方式。故基于屬性矩陣圖的決策樹算法只有實(shí)現(xiàn)對(duì)屬性節(jié)點(diǎn)合理劃分,才能對(duì)數(shù)據(jù)規(guī)則進(jìn)行挖掘和預(yù)測(cè)。
劃分屬性節(jié)點(diǎn)時(shí),以屬性度量來表示給予每個(gè)屬性的評(píng)價(jià),只有獲得最好屬性度量的屬性才可作為分裂屬性。根據(jù)信息論,期望信息越小,信息增益就越大,相應(yīng)的分裂屬性對(duì)確定整個(gè)系統(tǒng)劃分的作用就越大,所以采用熵值和信息增益來進(jìn)行屬性度量。此處的熵值為整個(gè)數(shù)據(jù)集中屬性的不確定性。令x表示對(duì)數(shù)據(jù)集劃分的屬性不確定性集合,則x的熵值定義為
對(duì)于第i類屬性xi有:
式中:
E(x|x)i——屬性對(duì)整個(gè)系統(tǒng)的條件熵值;
f(x)——數(shù)據(jù)集中的平均信息量;
則屬性xi對(duì)整個(gè)數(shù)據(jù)集的信息增益為:
g(xi)=E(x)-E(x|xi),i∈(1,2,…,m)
現(xiàn)截取部分列車仿真平臺(tái)處理的車載數(shù)據(jù),如表1所示。決策樹算法的核心問題就是分析故障數(shù)據(jù),發(fā)現(xiàn)其中的規(guī)律,并對(duì)故障進(jìn)行分析和預(yù)測(cè)。
由表1,經(jīng)計(jì)算可得E(x)=0.880。表1中列車保護(hù)速度及列車實(shí)際速度為連續(xù)型數(shù)據(jù),其他均為離散型數(shù)據(jù)。
由表 1,列車 ID(標(biāo)識(shí))屬性 Xi按 0x01、0x02、0x03 分別取 x1、x2、x3,則相應(yīng)的條件熵值為:E(x1)=0.845,E(x2)=0.811,E(x3)=0.971;故有 E(x1|x2)=0.860。列車ID屬性對(duì)數(shù)據(jù)集的信息增益 g(列車ID)=E(x)-E(x|xi)=0.020。
同理,可分別算出其他離散型數(shù)據(jù)屬性(控制、駕駛、信標(biāo)ID、SRP及BTM)的信息增益分別為:g(控制)=0.000 5;g(駕駛)=0.030 0;g(信標(biāo) ID)=0.019 5;g(SRP)=0.016 0;g(BTM)=0.001 8。
列車運(yùn)行速度為連續(xù)型數(shù)據(jù)。本文采用一種基于速度窗口的方法來計(jì)算連續(xù)型數(shù)據(jù)屬性的信息增益。根據(jù)相關(guān)行業(yè)規(guī)范,根據(jù)不同的列車運(yùn)行等級(jí)和運(yùn)行模式,可將列車的運(yùn)行速度劃分成不同等級(jí)。列車在不同運(yùn)行速度等級(jí)下發(fā)生的故障往往具有類型一致性。根據(jù)這種特性,把列車的保護(hù)速度值和實(shí)際速度值分為3個(gè)速度窗口(速度單位為km/h)。在相應(yīng)的速度窗口內(nèi),速度具有相同的屬性類別。由此計(jì)算可得 g(保護(hù)速度)=0.016 5 km/h,g(實(shí)際速度)=0.040 0 km/h。
表1 部分列車車載設(shè)備仿真數(shù)據(jù)
根據(jù)上述計(jì)算結(jié)果可見,列車實(shí)際速度的信息增益最大,因此,選取實(shí)際速度作為數(shù)據(jù)集的分裂點(diǎn)。為便于計(jì)算屬性的信息增益,需建立屬性矩陣圖模型以快速確定屬性類別的狀態(tài)和數(shù)量。根據(jù)表1數(shù)據(jù),以列車實(shí)際速度作為數(shù)據(jù)集分裂點(diǎn),構(gòu)建屬性矩陣圖模型如圖2所示。
根據(jù)屬性矩陣的對(duì)應(yīng)關(guān)系,可繼續(xù)計(jì)算下層節(jié)點(diǎn)分裂屬性的信息增益?,F(xiàn)以列車實(shí)際速度在[0,25]區(qū)間的數(shù)據(jù)集為例進(jìn)行計(jì)算。根據(jù)動(dòng)態(tài)信息圖,可以快速計(jì)算得出列車實(shí)際速度∈[0,25]數(shù)據(jù)集的熵值 E(實(shí)際速度[0,25])=0.720。
通過快速定位屬性矩陣圖中元素的統(tǒng)計(jì)值,可計(jì)算出在[0,25]內(nèi)各屬性的條件熵值為E(0x1a)=0.65,E(0x1b)=0.91,E(信標(biāo) ID)=0.663,信標(biāo) ID 的信息增益 g(信標(biāo) ID)=E(實(shí)際速度∈[0,25])-E(信標(biāo) ID)=0.057;
以此類推,其余屬性的信息增益分別為:g(駕駛等級(jí))=0.020,g(信標(biāo) ID)=0.057,g(列車 ID)=0.071,g(控制等級(jí))=0;所以列車實(shí)際速度[0,25]的分裂屬性為列車ID。
圖2 根據(jù)案例數(shù)據(jù)建立的屬性矩陣圖
2.2.2 構(gòu)造決策樹,進(jìn)行故障分析
根據(jù)此方法依次計(jì)算信息增益判斷新的分裂點(diǎn),構(gòu)造決策樹如圖3所示。
圖3 根據(jù)仿真數(shù)據(jù)構(gòu)建的決策樹
根據(jù)數(shù)據(jù)集構(gòu)造的決策樹,可以得到4類故障分析結(jié)果:
(1)列車實(shí)際速度在[0,25]的范圍內(nèi),駕駛等級(jí)為PM模式,SRP未激活。
(2)列車實(shí)際速度在[0,25]的范圍內(nèi),駕駛等級(jí)為AM模式。
(3)列車實(shí)際速度在(25,60]的范圍內(nèi),列車保護(hù)速度為25。
(4)列車實(shí)際速度在(60,80]的范圍內(nèi),信標(biāo)ID為0x1c。
可見,基于屬性矩陣圖決策樹算法能準(zhǔn)確地對(duì)故障問題進(jìn)行分類歸納,為故障預(yù)測(cè)提供可靠依據(jù)。
數(shù)據(jù)挖掘技術(shù)現(xiàn)已廣泛應(yīng)用在多個(gè)領(lǐng)域。城市軌道交通行業(yè)也在探索數(shù)據(jù)挖掘技術(shù)的應(yīng)用方向。本文首次以數(shù)據(jù)挖掘技術(shù)為基礎(chǔ),針對(duì)城市軌道交通列車運(yùn)行中的大數(shù)據(jù)問題,提出了屬性矩陣圖決策樹算法,能準(zhǔn)確地對(duì)故障問題進(jìn)行分類歸納,為故障預(yù)測(cè)提供可靠依據(jù)。
[1] 王威.基于決策樹的數(shù)據(jù)挖掘算法優(yōu)化研究[J].現(xiàn)代計(jì)算機(jī),2012,(19):11.
[2] 王大玲,于戈,王國(guó)仁.基于概念層次樹的數(shù)據(jù)挖掘算法的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)科學(xué),2001,28(6):88.
[3] 胡笑蕾,胡華平,宋世杰.數(shù)據(jù)挖掘算法在入侵檢測(cè)系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用研究,2004,21(7):88.
[4] 李良俊,張斌,楊明.一種基于模糊神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘算法[J].計(jì)算機(jī)工程,2007,33(12):63.
[5] 孫亞,錢洪波,葉亮.數(shù)據(jù)挖掘算法在交通狀態(tài)量化及識(shí)別的應(yīng)用[J].計(jì)算機(jī)應(yīng)用,2008,28(3):738.
Application of Decision Tree Optimization Algorithm in Train Simulation Technology
WANG Chao
The data mining technology is used to analyze the large data generated during train operation,the decision tree algorithm isproposed based on attribute matrix graph.Combined with the simulation date of a train,the computing attribute matrix and the structure design of the decision tree optimization algorithm are elaborated.According to fault analysis result of the decision tree algorithm,this algorithm could classify the faults accurately and provide reliable basis for the prediction of metro faults.
attribute matrix graph;decision tree algorithm;train simulation;fault analysis
Author′saddress Signal& Communication Research Institute, ChinaAcademy ofRailway Sciences,100081,Beijing,China
N945.25;U391.99∶U27
10.16037/j.1007-869x.2017.12.025
2016-05-25)