許 未,何世偉,劉朝輝,王沂棟,王夢瑤,毛偉文
(北京交通大學 交通運輸學院,北京 100044)
鐵路系統(tǒng)安全需要從人員、設備和復雜的內外部環(huán)境等多方面進行管控,當前對事故的致因分析大多基于專家經驗構建事故模型,主要有順序事故模型、傳染病事故模型和系統(tǒng)化事故模型等[1-2],分析結果的優(yōu)劣往往取決于模型及其假設與實際事故的符合情況。鐵路事故致因復雜且種類繁多,在系統(tǒng)結構復雜性和非線性背景下,研究不同致因因素的重要程度和各致因因素間的內在聯系并提出相應的管控措施,對保障鐵路的運營安全具有重要意義。
利用關聯規(guī)則挖掘可以快速分析事物之間的強弱關系。楊劍紅[3]基于數據挖掘理論,利用Apriori算法在Weka平臺上挖掘道路交通事故數據間的聯系;楊余壘[4]將改進的Apriori算法應用到高血壓患者的體檢數據處理中,挖掘符合醫(yī)學規(guī)律的關聯規(guī)則,準確判斷高血壓患者的心血管風險水平,為實現自動化判診提供理論基礎。網絡化分析方法是探索復雜系統(tǒng)內部特征的有效手段。王亞浩等[5]和曾俊偉等[6]基于復雜網絡理論分別構建鐵路客運復雜網絡模型和公共交通站點復雜網絡模型,通過分析相關拓撲參數對網絡可靠性展開研究;Fan等[7]基于復雜網絡理論提出一種新型的有人機與無人機協(xié)同作戰(zhàn)網絡模型的構建方法,并通過分析網絡拓撲參數評估協(xié)同作戰(zhàn)效果。
在既有研究的基礎上,結合關聯規(guī)則挖掘和復雜網絡理論,對大量鐵路事故調查報告進行預處理,挖掘鐵路事故致因關聯規(guī)則并確定致因間的相互關系,基于關聯規(guī)則挖掘結果構建鐵路事故致因網絡并分析網絡拓撲特征,從而高效處理繁雜的鐵路事故數據,挖掘事故發(fā)生的內在機制和潛在規(guī)律,輔助鐵路安全監(jiān)管決策。
基于關聯規(guī)則的鐵路事故致因網絡構建與分析方法主要分為以下3個步驟:①數據預處理,確定鐵路事故致因因素,并通過文本提取建立鐵路事故致因數據集;②利用Apriori算法挖掘因素間的強關聯規(guī)則;③結合復雜網絡理論,構建鐵路事故致因網絡,并劃分網絡社團結構和計算網絡拓撲結構指標,得到網絡關鍵節(jié)點和節(jié)點間的相互關系?;陉P聯規(guī)則的鐵路事故致因網絡構建與分析過程如圖1所示。
圖1 基于關聯規(guī)則的鐵路事故致因網絡構建與分析過程Fig.1 Process of constructing and analyzing the railway accident causation network based on association rules
鐵路事故調查報告詳細記錄了事故概況、事故過程、原因分析和所暴露的問題等對鐵路事故進行分類,通過分析典型事故報告,從人、機、環(huán)、管4個方面確定鐵路事故致因因素。基于python語言利用正則表達式找到事故調查報告中的“原因分析”和“暴露問題”等段落,將致因因素拆解為相關的關鍵字,對重點段落的內容進行關鍵字抓取,從而得到每起事故的致因因素,建立鐵路事故致因數據集。
鐵路系統(tǒng)內一個或多個因素的非正常狀態(tài)會對其相關聯的因素產生影響,影響逐步蔓延致使風險不斷積累與傳播,最終可能導致事故的發(fā)生。這個過程涉及到了眾多因素,部分因素間關系緊密且當這些因素同時故障時,很容易導致某種特定事故的發(fā)生,這就需要挖掘因素間的關聯關系。關聯規(guī)則挖掘會得到大量因素之間的關聯,為接下來鐵路事故致因網絡的構建和分析做準備。
記某起鐵路事故的事故類型及其全部致因因素的集合為一個事務T,D為鐵路事故致因數據集中所有事務的個數,X表示一個非空項集,且X?T。關聯規(guī)則是形如X?Y的蘊含式,表示項集X和項集Y間的關聯關系,其中X為關聯規(guī)則的前項,Y為后項,且X∩Y= ?。通常采用支持度(Support)和置信度(Confidence) 2個指標作為關聯規(guī)則的衡量標準,關聯規(guī)則的頻繁程度和強度分別可以表示為
式中:Support(X?Y)為X?Y的支持度,滿足最小支持度閾值的關聯規(guī)則的項集又稱為頻繁項集;Confidence(X?Y)為X?Y的置信度;σ(X)為所有事務中包含項集X的個數;σ({X,Y})為所有事務中同時包含項集X和Y的個數。
由于通過支持度和置信度挖掘得到的關聯規(guī)則中,存在前后項呈負相關的情況,采用提升度(Lift)反映關聯規(guī)則中前項和后項之間的相關性,當Lift(X?Y) > 1時,X出現和Y出現是正相關的,即X出現促使Y出現。關聯規(guī)則的提升度可以表示為
式中:Lift(X?Y)為X?Y的支持度;P(Y)為所有事務中包含項集Y的比例;P(Y|X)為所有事務包含項集X的同時包含項集Y的比例。
Apriori算法是挖掘布爾關聯規(guī)則的經典算法[8],該算法使用逐層搜索迭代的方式,通過低維頻繁項集產生高維頻繁項集,主要包括頻繁項集的產生和強關聯規(guī)則的生成2個階段??衫肁priori算法進行鐵路事故致因關聯規(guī)則挖掘,算法主要流程如下。
(1)設定最小支持度、最小置信度和最小提升度的閾值。
(2)掃描鐵路事故致因數據集,產生候選1-項集的集合C1,并根據最小支持度閾值,由C1產生頻繁1-項集L1。
(3)由L1自連接產生候選2-項集C2,得到滿足最小支持度閾值的頻繁2-項集L2。重復該過程,直到算法進行到第k次循環(huán)并產生頻繁k-項集Lk后,無法進一步產生Ck+1,由此獲得全部的頻繁項集。
(4)根據最小置信度和提升度閾值,產生鐵路事故致因的強關聯規(guī)則。
1.3.1 鐵路事故致因網絡構建
在關聯規(guī)則挖掘過程中已經過濾掉了較不重要的事故致因、事故類型及這些因素間的弱關聯關系,鐵路事故致因網絡的構建分為3個步驟:①將所有強關聯規(guī)則的前項和后項表示為網絡中的節(jié)點,根據項集的實際含義,可將節(jié)點劃分為人因層、設備層、環(huán)境層、管理層、事故類型層和組合層6種類型;②每條強關聯規(guī)則中,前項和后項間的關系表示為節(jié)點間的邊;③選擇關聯規(guī)則的提升度作為邊的權重,提升度>1的規(guī)則表示因素間正向相關,值越大則相關性越大。
1.3.2 網絡社團劃分
復雜網絡中的節(jié)點可以劃分為組,組內節(jié)點之間的聯系更為緊密,而組間節(jié)點間的連接較為稀疏。基于模塊度的Louvain算法是一種常用的社區(qū)檢測算法[9],該算法以最大化整個社區(qū)網絡的模塊度為目標,劃分效率較高。借助復雜網絡分析軟件進行網絡社團劃分。
1.3.3 網絡拓撲特征
復雜網絡呈現特定的拓撲特征,表征著網絡的連通性、相互作用和動態(tài)過程。通過分析鐵路事故致因網絡拓撲特征,可挖掘網絡中的關鍵節(jié)點及節(jié)點間的相互關系,實現對大量鐵路事故數據的高效處理和分析。網絡拓撲特征相關統(tǒng)計指標如下。
(1)節(jié)點的度。節(jié)點的度指與該節(jié)點相鄰的所有節(jié)點的數目,節(jié)點的度越大,表示節(jié)點對周圍節(jié)點的影響力越大,一定程度上表征節(jié)點的重要性越大。
(2)網絡直徑和平均路徑長度。2點間最短路上邊的數量為節(jié)點間的距離,網絡直徑指所有節(jié)點對間距離的最大值,網絡中任意2點間距離的平均值稱為平均路徑長度,表明網絡間節(jié)點的分離程度。
(3)聚類系數。聚類系數指某觀察點的鄰點之間連線數占預期最大連線數量的比例,衡量該點將鄰點緊密聚集成團的程度,較高的聚集系數意味著該觀察點的鄰點之間存在更高程度的交互關系。
(4)節(jié)點緊密度。節(jié)點緊密度衡量一個節(jié)點通過網絡連接其他節(jié)點的能力,反映了網絡的整體通達性。相較于節(jié)點的度,這一指標更具有全局性。
以實際鐵路事故數據為例,搜集2016—2018年共2 618起鐵路事故調查報告,建立相應的鐵路事故致因數據集和鐵路事故致因網絡,挖掘關鍵致因和因素間的關聯特性。
參考《鐵路交通事故調查處理規(guī)則》中對事故的分類方法,將主要鐵路事故分為列車碰撞或擠壓(A01)、列車火災或爆炸(A02)、列車或車輛脫軌(A03)、列車延誤(A04)、列車錯誤進入區(qū)段或線路(A05)、未按規(guī)定接發(fā)列車(A06)、未按規(guī)定行車(A07)、列車分離(A08)、設備故障或損壞(A09)、未按規(guī)定作業(yè)(A10)10類。同時選取300份典型鐵路事故調查報告進行分析,提取71個鐵路事故致因因素,建立鐵路事故致因因素集如表1所示。
在表1基礎上對所有鐵路事故調查報告進行文本提取,除去因調查報告本身格式問題等原因導致抓取失敗的165起事故報告外,最終得到總計2 453起事故的致因因素,抓取成功率達93.70%。將抓取結果儲存在數據集中,部分鐵路事故致因數據集示例如表2所示。
表1 鐵路事故致因因素集Tab.1 Set of railway accident causes
表2 部分鐵路事故致因數據集示例Tab.2 Example of the data set of railway accident causes
設定最小支持度閾值為0.025,最小置信度閾值為0.1,最小提升度閾值為1,并將最大前項數設置為2。利用Apriori算法得到455條強關聯規(guī)則。其中,84.8%的關聯規(guī)則的支持度介于0.025 ~ 0.06之間,“{安全培訓不到位(M02)}?{列車延誤(A04)}”的支持度最大,值為0.188;82.2%的關聯規(guī)則的置信度較為均勻地分布在0.1 ~0.6之間,之后隨著置信度的提升規(guī)則的數量逐漸減少,“{翻車作業(yè)操作不當(H28),鋼軌狀態(tài)不良(Eq10)}?{列車或車輛脫軌(A03)}”的置信度最大,值為1;同時74.9%的關聯規(guī)則的提升度都介于1 ~ 2.25之間。強關聯規(guī)則體現了鐵路系統(tǒng)內較為重要的因素及因素間緊密的聯系,給鐵路系統(tǒng)的安全帶來了隱患。455條關聯規(guī)則的支持度、置信度和提升度散點圖如圖2所示,提升度排名前5的關聯規(guī)則如表3所示。
2.3.1 鐵路事故致因網絡構建
圖2 455條關聯規(guī)則的支持度、置信度和提升度散點圖Fig.2 Support, confidence and lift of 455 association rules
基于強關聯規(guī)則可以確定118個節(jié)點及它們間的相互關系,構建鐵路事故致因網絡如圖3所示。該網絡共包含118個節(jié)點和334條邊,其中包含16個人因層節(jié)點、12個設備層節(jié)點、2個環(huán)境層節(jié)點、5個管理層節(jié)點、79個組合層節(jié)點和4個事故類型節(jié)點。邊的權重為相應規(guī)則提升度的大小,在圖3上表示為邊的厚度。
表3 提升度排名前5的關聯規(guī)則Tab.3 Top 5 association rules by lift
圖3 鐵路事故致因網絡Fig.3 Railway accident causation network
對除事故類型節(jié)點外的各層節(jié)點進行合并精簡后,得到精簡化鐵路事故致因網絡如圖4所示,合并后邊的權重即為原網絡各邊的權重之和。由圖4可以看出,組合層、人因層和設備層節(jié)點處于重要地位,與其他節(jié)點關系更為緊密,而環(huán)境層節(jié)點僅與A04產生了關聯。4個事故類型節(jié)點中,A01和A04與各層致因節(jié)點連接頻繁,而A09僅與設備層節(jié)點產生了關聯,說明A09類型事故的發(fā)生主要受設備層致因因素的影響。
圖4 精簡化鐵路事故致因網絡Fig.4 Simplified railway accident causation network
2.3.2 社團劃分
借助復雜網絡分析軟件Pajek中的社區(qū)檢測功能對鐵路事故致因網絡進行分析,得到社團劃分結果如表4所示。該網絡有較明顯的社團結構,各社團內部的節(jié)點聯系更為緊密,更容易相互觸發(fā),從而導致事故的發(fā)生。同時可以看出各社團中節(jié)點類別不單一,且除社團7外均包含人因層節(jié)點,但環(huán)境層節(jié)點出現比例較小,為非必需因素,因而鐵路運輸系統(tǒng)內部因素應為防控重點。
2.3.3 網絡拓撲特征分析
(1)節(jié)點的度。鐵路事故致因網絡的累計度分布服從y= 1.384 2×x-0.990(R2= 0.968)的冪律分布,節(jié)點的平均度為5.7,低于平均度的節(jié)點比例高達76.3%,少部分度較大的節(jié)點與大多數節(jié)點都有關,是在安全管控中比較值得注意的因素。節(jié)點的度不低于10的節(jié)點如圖5所示。由圖5可知,M02,H04,Eq09是其所屬致因層中度最大的節(jié)點,A04為節(jié)點度最大的事故類型。這些度較大的節(jié)點散落在各個社團,也是各自所屬社團中的重要節(jié)點。通過計算發(fā)現組合層節(jié)點的度普遍較低,這是由于特定因素組合對網絡中其他節(jié)點所產生的影響更為專一化,導致其僅與少數節(jié)點產生了關聯。這些度較大的節(jié)點如果得到有效控制和防護,網絡將變得十分脆弱并且將分解為若干個小的子網絡,從而使致因間的相互影響能力大幅降低,提高整個系統(tǒng)的安全性。
表4 社團劃分結果Tab.4 Results of community division
圖5 節(jié)點的度不低于10的節(jié)點Fig.5 Nodes with degree not less than 10
(2)網絡直徑與平均路徑長度。鐵路事故致因網絡的網絡直徑為5,平均路徑長度為2.634,意味著該網絡中每個節(jié)點平均2.6步就可以與另外一個節(jié)點產生較強的關聯。不同類型節(jié)點與關鍵事故節(jié)點間的平均路徑長度如圖6所示。經分析,可知人因層、管理層和設備層節(jié)點更易導致事故發(fā)生,且A04 (列車延誤)到各層節(jié)點的平均距離都較小,是最容易被觸發(fā)的事故類型。
圖6 不同類型節(jié)點與關鍵事故類型節(jié)點間的平均路徑長度Fig.6 Average path length between different types of nodes and key accident nodes
(3)聚類系數。鐵路事故致因網絡的平均聚類系數為0.644,節(jié)點聚集程度較高。當某些聚類系數較低的單因素組合發(fā)生時,其聚類系數會迅速增大,如M07和H04,因而組合層節(jié)點普遍聚類系數較高,除組合層節(jié)點外聚類系數大于0.5的節(jié)點如圖7所示。這些聚類系數較大的節(jié)點一旦發(fā)生異常,很容易導致其鄰居節(jié)點狀態(tài)的改變,從而引起網絡的連鎖反應并導致事故的發(fā)生。
圖7 除組合層節(jié)點外聚類系數大于0.5的節(jié)點Fig.7 Nodes with clustering coefficient larger than 0.5 besides combination layer
(4)節(jié)點緊密度。鐵路事故致因網絡的平均節(jié)點緊密度為0.389,緊密度排名前20的節(jié)點如圖8所示。發(fā)現管理層節(jié)點緊密度普遍較高,除A04外,緊密度排名前3的節(jié)點分別為M02,M07,M04,這也間接說明管理層節(jié)點對網絡中其他節(jié)點間接施加影響的能力更大,往往是鐵路事故發(fā)生的根源所在。
綜上所述,鐵路事故致因網絡的拓撲特征總結如下。①網絡存在著核心節(jié)點。列車延誤、列車或車輛脫軌等為關鍵事故類型節(jié)點,更容易被其他節(jié)點間復雜的耦合關系所觸發(fā),而安全培訓不到位、安全檢查不到位和司機操作不當等節(jié)點是防控關鍵事故類型時應注意的關鍵致因因素。②網絡的節(jié)點平均聚類系數較高。聚類系數較大的節(jié)點狀態(tài)一旦發(fā)生改變,很容易大范圍觸發(fā)其關聯節(jié)點并造成網絡中的連鎖反應,從而導致事故的發(fā)生,如列車檢修或維護不到位、鋼軌或路基狀態(tài)不良和車鉤緩沖裝置故障等。③關聯規(guī)則呈較明顯的聚集特征。人因層和設備層節(jié)點與其他節(jié)點關系更為緊密,而管理層節(jié)點更容易對其他節(jié)點產生間接影響,如安全培訓不到位和安全檢查不到位等。
圖8 緊密度排名前20的節(jié)點Fig.8 Top 20 nodes ranking by tightness
鐵路事故致因繁多且種類復雜,構建基于關聯規(guī)則挖掘結果的鐵路事故致因網絡,并分析其網絡拓撲特征,多角度直觀且深入地揭示鐵路事故致因關聯規(guī)則,挖掘鐵路事故的關鍵致因與因素間的內在聯系,對高效、精準地處理大量鐵路事故數據、提升鐵路運輸系統(tǒng)安全性有重要意義。在鐵路安全監(jiān)管過程中,應當綜合考慮事故數量、事故嚴重程度等,建立基于鐵路事故致因網絡分析結果的分級監(jiān)管體系,明確各級監(jiān)管部門針對具體事項的管理辦法。另外,還應結合復雜網絡動力學,深入研究風險在網絡中的動態(tài)傳播過程和演化規(guī)律,為建立和完善鐵路安全動態(tài)防控機制提供參考。