宇占軍
近年來,我國電氣化鐵路飛速發(fā)展,成為支撐國民經(jīng)濟的重要基礎,為民眾日常出行提供了便利。截至2019年年底,我國鐵路營業(yè)里程已達13.9萬公里[1]。接觸網(wǎng)作為電氣化鐵路牽引供電系統(tǒng)的重要組成部分,是電力機車的動力來源,其服役安全是保障鐵路高效運行的關鍵[2]。然而,接觸網(wǎng)是一種沿路軌架設的特殊供電線路,無備用且結構復雜,工作環(huán)境惡劣[3],隨著服役時間的增加,接觸網(wǎng)性能勢必逐漸退化,發(fā)生故障的可能性逐漸提高。因此,如何有針對性地對接觸網(wǎng)進行維修是目前亟需解決的問題。
在接觸網(wǎng)系統(tǒng)中,故障之間并不是完全互相獨立的隨機事件,其通常存在著關聯(lián)性,即一個故障的發(fā)生往往會誘發(fā)另一個故障。隨著檢測監(jiān)測與診斷評估技術的不斷提升,各鐵路局建立的接觸網(wǎng)故障數(shù)據(jù)庫中積累了大量的相關數(shù)據(jù),其包含了由6C系統(tǒng)檢測到的故障和人工定期巡檢得到的數(shù)據(jù),這為從數(shù)據(jù)挖掘角度進行相關研究提供了較好的數(shù)據(jù)支持。
頻繁模式挖掘(Frequent Itemset Mining,F(xiàn)IM)是關聯(lián)分析技術的一種,其通過挖掘數(shù)據(jù)庫中頻繁出現(xiàn)的模式,進而探究模式之間的關聯(lián)性。FIM技術最早由Agrawal R.于1993年提出[4],目前已廣泛應用于醫(yī)療、工業(yè)、交通等領域[5~7]。其核心是通過掃描數(shù)據(jù)庫生成潛在的候選模式,并根據(jù)設定的閾值驗證其最終是否頻繁。其中,向下封閉原則[8](Downward Closure Property)對某些模式進行了預篩選,減少了需要驗證模式的數(shù)量,從而提升算法效率。
目前,已經(jīng)有學者將頻繁模式挖掘應用于接觸網(wǎng)故障數(shù)據(jù)分析,并得到了一些實用的關聯(lián)規(guī)則。文獻[9]根據(jù)逐條記錄的接觸網(wǎng)故障數(shù)據(jù)結構以及數(shù)據(jù)上存在的稀疏性提出了多維信息分類模型,實現(xiàn)了對故障數(shù)據(jù)的有效聚類,完成了條目數(shù)據(jù)結構向事務型數(shù)據(jù)庫(Transaction Database)的轉變。但由于其在時間維度上對數(shù)據(jù)的劃分僅依據(jù)自然年月,會破壞某些數(shù)據(jù)間的內(nèi)在聯(lián)系,從而使得到的關聯(lián)規(guī)則失去作用。文獻[10]基于挖掘得到的關聯(lián)規(guī)則建立了故障關系網(wǎng)絡,并采用復雜網(wǎng)絡中的指標對規(guī)則進行使用。上述方法在規(guī)則數(shù)量較少時才能方便運用,當規(guī)則數(shù)量增加后,整個網(wǎng)絡會變得過于復雜,從而降低了對規(guī)則使用的效率。
本文基于Apriori算法框架,提出根據(jù)實際故障維修周期劃分故障數(shù)據(jù)的分類模型,保證數(shù)據(jù)間既有的關聯(lián)性不被破壞;并采用熵權法對挖掘算法常用的幾個參數(shù)進行綜合評價,得到對可能出現(xiàn)大量關聯(lián)規(guī)則的快速推薦模型。此外,為了避免多次掃描數(shù)據(jù)庫,提高算法效率,應用布爾映射矩陣,僅需單次掃描數(shù)據(jù)庫即可實現(xiàn)挖掘算法。
假設有一組項目集合I= {i1,i2, …in},集合I的任意非空子集被稱為項集,記為X,通常項集X中包含的項目個數(shù)被稱為項集的長度,同時項集也根據(jù)其長度k被稱為k階項集。事務記錄通常用一個二元組〈tid,X〉來表示,其中tid是該事務記錄的唯一標識。所有的事務記錄共同組成了事務數(shù)據(jù)庫,記為TDB,如表1所示。對于一個項集X和一條事務記錄〈tid,Y〉而言,如果X?Y,則稱項集X被包含在該事務記錄中。
表1 事務型數(shù)據(jù)庫
在挖掘關聯(lián)規(guī)則的過程中,需要設置支持度和置信度的閾值,在有些研究中,還需要涉及提升度和相似度等參數(shù)。這些參數(shù)的定義如下:
定義1(支持度):對于一個給定的事務型數(shù)據(jù)庫TDB,項集X的支持度(記為sup(X))為數(shù)據(jù)庫中包含項集X的事務記錄數(shù)占比,反映了項集X在數(shù)據(jù)庫中出現(xiàn)的頻繁程度,其計算式為
定義2(置信度):置信度是評價關聯(lián)規(guī)則可信程度的指標。對于生成的關聯(lián)規(guī)則“A→B”,其置信度(記為conf(A→B))為在項集A發(fā)生的條件下,項集B發(fā)生的條件概率。其具體計算式為
定義3(提升度):提升度(記為lift(A→B))是描述項集A對項集B影響程度的參數(shù),其反映了在項集A發(fā)生的條件下,項集B發(fā)生的條件概率與非條件概率的提升情況。當提升度大于1時,說明項集A的發(fā)生對項集B有促進作用。其計算式為
定義4(相似度):相似度能夠反映2個研究對象之間的相似程度,有著多種計算方式,其中以余弦相似度最為常用。將項集A和B在每個事務記錄中出現(xiàn)與否的情況用向量表示,則可計算出其相似度,即
目前,頻繁模式挖掘算法可以根據(jù)算法框架分為3大類,Apriori算法框架[11]則是其中之一,通過對數(shù)據(jù)庫進行廣度優(yōu)先遍歷,以實現(xiàn)整個算法。算法具體過程如下:算法將整個數(shù)據(jù)庫的數(shù)據(jù)和設置的最小閾值(支持度和置信度)作為參數(shù);數(shù)據(jù)庫中出現(xiàn)的項目均被視為1階候選項集,通過掃描數(shù)據(jù)庫對候選集的頻繁程度進行評估,算法刪去了不符合閾值的項集,并根據(jù)先驗規(guī)則[4]合并生成2階候選項集;通過再一次掃描數(shù)據(jù)庫,對當前候選項集進行驗證,根據(jù)剩余的頻繁項集生成高階候選集;該過程被不斷重復,直至無法生成候選集,此時所有滿足閾值的頻繁模式均被遍歷并驗證。
文獻[9]提出的多維信息分類模型通過靈活地選擇時間和空間尺度,有效地實現(xiàn)了對故障數(shù)據(jù)的聚類和事務型數(shù)據(jù)庫的構建,但由于時間尺度的劃分過于刻板,破壞了故障數(shù)據(jù)間原本的內(nèi)在聯(lián)系。為了解決這一問題,本文提出基于維修周期的故障分類模型。
對于同一空間尺度下的故障數(shù)據(jù),可按其檢測時間順序排列成對應的時間序列。為保證構建的事務型數(shù)據(jù)庫中每一條事務記錄的項目享有共同的物理和邏輯聯(lián)系,對于接觸網(wǎng)系統(tǒng)來說,只有發(fā)生在同一維修周期內(nèi)的故障數(shù)據(jù)才具有這種特性。圖1展示了基于維修周期的故障分類模型示意圖,在由故障數(shù)據(jù)構成的時間序列下方增加了維修記錄管理的序列,并將其作為劃分故障數(shù)據(jù)的依據(jù)。
圖1 基于維修周期的故障分類模型示意圖
維修記錄管理的序列作為無限時間序列,可以根據(jù)其序列上的n個結點,將其劃分成對應的區(qū)間,記為IM= {(ti-1,ti)|i≤n}。同時,故障序列上的數(shù)據(jù)IF= {fm|m≥1}將根據(jù)IM生成事務記錄,記為Ts={∪fm|fm∈IF,fm∈(ts-1,ts)}。借助這一分類模型,可以在生成事務型數(shù)據(jù)庫時良好地保留故障數(shù)據(jù)間的內(nèi)在聯(lián)系。
Apriori算法框架在每次驗證當前階數(shù)的候選集時需要掃描一次數(shù)據(jù)庫,多次掃描數(shù)據(jù)庫將耗費大量運算成本,為了避免這種重復掃描,本文提出采用布爾映射矩陣存儲事務型數(shù)據(jù)庫的數(shù)據(jù),并對候選集進行批量計算。
定義5(布爾映射矩陣):矩陣中的元素根據(jù)其行列所對應的信息,用“1”或“0”表示是否出現(xiàn)的具有映射關系的矩陣稱為布爾映射矩陣。
對于挖掘接觸網(wǎng)的頻繁模式而言,矩陣的每一行對應事務型數(shù)據(jù)庫中的每一條事務記錄,矩陣的每一列對應一個項目或項集。矩陣內(nèi)的元素確定規(guī)則如下:
性質(zhì)1(列交運算):設矩陣Am×n為事務型數(shù)據(jù)庫TDB的布爾映射矩陣,AT×A=Bn×n,則矩陣B稱為矩陣A的列交矩陣。矩陣B的主對角線上的元素反映了各項目在數(shù)據(jù)庫中出現(xiàn)的次數(shù),則每個項目的支持度可表示為
頻繁模式挖掘算法往往伴隨著大量關聯(lián)規(guī)則的返回,文獻[10]采用復雜網(wǎng)絡的知識對返回的關聯(lián)規(guī)則進行了推薦,但隨著規(guī)則數(shù)量的增加,網(wǎng)絡的復雜度明顯增加,大幅降低了對規(guī)則使用的效率。為了解決該問題,本文提出基于熵權法的推薦模型。熵權法[12,13]可以通過選取多個評價指標,利用數(shù)據(jù)中包含的有效信息量的大小來衡量各個指標對最終評價結果的影響。
熵權法的基本原理如下:假設有m個評價對象,選取了n個評價指標,所有數(shù)據(jù)構成的初始矩陣記為Xm×n;首先對各個指標的數(shù)據(jù)進行標準化處理,生成評價矩陣Y= [yij]m×n, 其中yij為第i個評價對象的第j個指標的歸一化結果;然后計算同一個評價指標數(shù)據(jù)的信息熵Ej,其定義式為
其中,當pij= 0時,習慣認為pijlnpij= 0。
從而,通過信息熵可以計算出各個評價指標所對應的權重Wj,即
最終,根據(jù)指標的權重計算出每一條關聯(lián)規(guī)則的評分Zi,并按降序推薦關聯(lián)規(guī)則。評分的計算式為
為了驗證本文提出推薦模型的正確性,本節(jié)對某鐵路局接觸網(wǎng)故障數(shù)據(jù)庫中的數(shù)據(jù)進行頻繁模式挖掘,時間跨度為2016年1月—2018年4月,共計22 749條接觸網(wǎng)故障數(shù)據(jù)。
在選擇空間尺度為線路后,依據(jù)維修記錄管理序列與同一空間尺度下的故障序列,將這些故障數(shù)據(jù)劃分為137條事務記錄,并將閾值設置為(25%,80%),即表示在事務型數(shù)據(jù)庫中有25%的事務記錄含有的項集被視為了頻繁模式,且在這些頻繁模式生成的關聯(lián)規(guī)則中,只有置信度大于80%的規(guī)則(強關聯(lián)規(guī)則)才被保留下來。最終,在該閾值設定下,頻繁模式挖掘算法共挖掘得到689條強關聯(lián)規(guī)則。這個數(shù)量的關聯(lián)規(guī)則如果通過復雜網(wǎng)絡理論對其進行推薦,整個過程將十分復雜。采用本文提出的基于熵權法的推薦模型,則可以輕松得到支持度(sup)、置信度(conf)、提升度(lift)、相似度(sim)4個評價指標的權重,如表2所示??梢姡С侄鹊臋嘀刈罡?,貢獻程度接近60%,其余3個指標的權重都在10%以上。
表2 基于熵權法的關聯(lián)規(guī)則評價指標權重
表3展示了部分關聯(lián)規(guī)則的推薦評分結果,表4給出了表3中涉及的故障項目和故障部件(類型)的對應關系??梢钥闯?,本文提出的模型可以有梯度地對挖掘出的規(guī)則進行評分和推薦。用戶可以根據(jù)自身的需求,對期望推薦的關聯(lián)規(guī)則數(shù)量進行推薦,當推薦數(shù)量設置為10時,則排序前10的關聯(lián)規(guī)則將被推薦給用戶。
表3 部分關聯(lián)規(guī)則的推薦評分結果
表4 故障項目和故障部件(類型)對照
圖2展示了對689條關聯(lián)規(guī)則構建故障關系網(wǎng)絡的結果??梢钥闯?,得到的網(wǎng)絡十分復雜,涉及的結點數(shù)量眾多,這對分析網(wǎng)絡中各結點的中心度等必要信息造成了極大的影響,且很難對每一條關聯(lián)規(guī)則分析其值得推薦的程度。
通過查看關聯(lián)規(guī)則的評分結果可知,故障項目A(支持裝置)容易引發(fā)故障項目B(定位裝置),是最值得推薦的關聯(lián)規(guī)則。其次,故障項目D(環(huán)境管理)會誘發(fā)故障項目E(接觸線)、故障項目F(平腕臂底座)極可能造成故障項目B(定位裝置)等也是十分值得關注的關聯(lián)規(guī)則。
圖2 689條關聯(lián)規(guī)則挖掘結果構建的復雜網(wǎng)絡
根據(jù)最終推薦的多條關聯(lián)規(guī)則,對于算例研究中使用的故障數(shù)據(jù),可以為該地區(qū)接觸網(wǎng)運營維護提出如下建議:(1)支持裝置故障和定位裝置故障是2個頻繁發(fā)生且會互相誘發(fā)的故障,需要對其進行嚴格防護和縮短維修周期;(2)除支持裝置外,接觸線故障、平腕臂底座故障等也容易誘發(fā)定位裝置的故障,需要對上述多個故障進行監(jiān)測,以防止定位裝置頻繁發(fā)生故障;(3)周遭環(huán)境和異物容易引發(fā)接觸線故障,需要增加線網(wǎng)周圍的巡查力度和對植被的修剪頻次。
本文針對近年來爆發(fā)式增長的接觸網(wǎng)故障數(shù)據(jù),提出采用頻繁模式挖掘技術對其進行關聯(lián)性分析。在現(xiàn)有多維信息分類模型的基礎上,提出了維修周期故障分類的方法,實現(xiàn)了在生成事務型數(shù)據(jù)庫時對故障數(shù)據(jù)內(nèi)在聯(lián)系的良好保留。針對Apriori算法框架在挖掘時需要多次掃描數(shù)據(jù)庫的問題,提出了應用布爾映射矩陣的列交運算,實現(xiàn)了僅需對數(shù)據(jù)庫進行單次掃描即可實現(xiàn)對候選集進行批量閾值驗證。針對挖掘算法返回的大量關聯(lián)規(guī)則,提出了用熵權法對各條規(guī)則進行評價打分,實現(xiàn)了對規(guī)則的有梯度推薦,相較原本基于復雜網(wǎng)絡的規(guī)則使用,熵權法對大規(guī)模關聯(lián)規(guī)則有著更好的實用性。