王明輝
摘 要:高速鐵路網的主要供電設備接觸網,是沿鋼軌上空呈“之”字形架設的特殊輸電系統(tǒng)。對高速電氣化鐵路接觸網,缺陷的檢測顯得是十分重要,隨著檢測設備的不斷更新,缺陷檢測準確度逐漸提高,數據量越來越大,研究缺陷檢測數據顯得尤為重要。本文主要利用數據挖掘技術中的聚類分析法,將缺陷數據按照線路分布的密集程度進行聚類,然后將聚類結果進行可視化,并且通過分析聚類結果數據,給出合理可行的缺陷預警方案和線路檢修建議。為了驗證方案的可行性,選取沈陽鐵路局的部分缺陷檢測數據作為本次方案的測試樣本。經過數據預處理和方案測試發(fā)現:吊弦類缺陷聚類高發(fā)區(qū)域占比約為78%,一二級燃弧類缺陷聚類高發(fā)區(qū)域占比約為71%,高發(fā)時段為4-9月。實驗結果表明不同類型的缺陷熱點區(qū)域分布的時段與區(qū)域不同。
關鍵詞:接觸網;缺陷;數據挖掘;聚類分析法
中圖分類號:BT
文獻標識碼:Adoi:10.19311/j.cnki.1672-3198.2020.19.093
0 引言
作為鐵路運輸牽引供電系統(tǒng)的重要組成部分的接觸網,其動態(tài)設備質量情況直接影響到牽引供電的質量,對接觸網運行狀態(tài)的實時監(jiān)測是保證鐵路安全運輸的重要手段。如今,接觸網動態(tài)監(jiān)測設備(6C系統(tǒng))能夠完成接觸網的各項數據檢測,所有基礎數據和報警數據均被收集入庫長期存放,隨著時間的推移,數據庫中的檢測基礎數據和缺陷數據越來越多,但對數據資源的利用率不是很高。目前,國內主流方向都是關于如何提高線路設備缺陷識別或者機車運行異常檢測準確度作研究和測試,設計出了針對不同零部件的缺陷識別方法,效果顯著。隨著大數據時代的到來,為了讓現有的檢測數據的作用不再局限于傳統(tǒng)的數據統(tǒng)計層面,本文利用數據挖掘技術對燃弧、吊弦缺陷進行了深入研究。
數據挖掘作為當今智能系統(tǒng)理論技術的重要組成部分,它包括了人工智能、神經網絡、模式識別、數理統(tǒng)計等先進技術,從大量數據中通過相關算法搜索隱藏于其中的有價值和隱秘信息的過程。本文就是通過數據挖掘技術從大量接觸網的檢測數據中尋找數據間的特性,全方位分析檢測的數據,做出歸納性的推理,從中挖掘出潛在的模式,爭取為鐵路局的檢修計劃提供切實可行的建議。首先,本文對檢測的原始數據進行預處理,為數據挖掘過程做好前提準備;然后,利用聚類算法模型把預處理后的數據進行分析計算;最后,將聚類結果進行可視化,并給出預警方案。
1 高速鐵路網供電系統(tǒng)缺陷檢測現狀
隨著我國國民經濟的日益發(fā)展,我國在新的歷史背景下提出了新時代交通強國戰(zhàn)略,國家提出2020-2035基本建成交通強國,2035-2050全面建成交通強國,高速鐵路作為公共交通中的重要組成部分,也面臨著新的規(guī)劃建設任務;我國規(guī)劃在2030年,高鐵線網由原來的四橫四縱形成八橫八縱,整個高鐵路網達到4.5萬公里。
但隨著高鐵線網的高速度高密度運行的同時,接觸網的安全可靠運行是整個電氣化鐵路安全可靠運行的關鍵。當前國內接觸網的檢修模式采取周期修與狀態(tài)修相結合的方式組織作業(yè),其作業(yè)主體仍以車間及工班為最小作業(yè)單元。該種作業(yè)模式安全風險點多、作業(yè)效率低、占用人力物力資源大、個人素質要求高、作業(yè)效果差強人意,已經不能滿足鐵路快速發(fā)展的需要。
目前,接觸網檢測監(jiān)測數據主要是通過對各個檢測參數的閾值判斷,發(fā)現相關接觸網等設備的局部缺陷,通過相關平臺反饋給用戶進行后續(xù)工作,所以,對于檢測數據的利用率還是很低。如何利用并發(fā)揮好已有設備檢測數據的價值,成為整個鐵路行業(yè)的主題。
且隨著高速鐵路施工質量的逐步提高,眾多高速鐵路接觸網只能檢測出少量或局部的有效缺陷。在鐵路維修作業(yè)中過度依賴人工操作,如果對維護區(qū)域沒有主次之分,那么對于整個線路檢修計劃來說,必定會耗費很多人力物力等資源。因此,如何利用好現有的海量缺陷檢測數據,實現接觸網熱點缺陷區(qū)域預測,從而節(jié)約檢修成本是本次的研究重點。2012年,田國保利用數據挖掘技術及回歸分析找到了接觸網動態(tài)參數間的關系,通過實踐找了設備運行的規(guī)律。
2 基于聚類分析的算法實現原理
數據挖掘又稱為數據庫中的知識發(fā)現(Knowledge Discover in Database,KDD),是目前人工智能和數據庫領域研究的熱點問題,所謂數據挖掘是指從數據庫的大量數據中揭示出隱含的、先前未知的且具有潛在價值的信息的過程。而時空聚類算法分析主要是從具有時間和位置信息的數據庫中發(fā)現具有相似特征的時空實體(即時空簇),也是基于傳統(tǒng)的聚類分析從空間域到時空域的進一步擴展。目前,時空聚類在全球氣候變化、公共衛(wèi)生安全、地震檢測分析以及犯罪熱點分析等領域具有重要應用價值,有助于更好地發(fā)現和分析地理現象發(fā)展變化的趨勢、規(guī)律與本質特征?,F有的時空聚類方法主要包括時空掃描統(tǒng)計方法、基于密度的方法以及基于時空距離的方法。
本文主要采用ST-DBSCAN時空聚類算法實現高速鐵路網供電系統(tǒng)熱點缺陷區(qū)域信息挖掘。ST-DBSCAN算法中有三個參數:minPts、eps、delta_t。其中minPts表示形成簇的最小點個數,eps表示形成簇的時空點距離,delta_t表示形成簇的最大時間。ST-DBSCAN算法的基本思想是:通過循環(huán)判斷時空核心對象c以eps為半徑,delta_t時間差內點的個數是否大于等于minPts,如果大于則形成簇,反之則對下一個時空對象進行聚類,直到所有的時空對象都歸在某個簇中,或被標記為時空孤立點,則聚類結束。
利用ST-DBSCAN算法模型進行線路缺陷高危爆發(fā)區(qū)域信息挖掘的過程中,涉及三個重要的閾值參數,即空間距離閾值sptial_threshold、時間距離閾值temporal_threshold和時空對象量閾值minPts,這三個參數主要根據實際業(yè)務需求進行篩選設置。
2.1 模型閾值設定規(guī)則
該模型將線路上“已確認”的缺陷作為時空對象,然后通過繪制距離頻數柱狀圖來查找時間與空間閾值,方便設定盡可能滿足需求的閾值,具體步驟如下:
步驟1:計算缺陷時空對象事務集中兩兩時空對象在時間維度(或空間維度)下的時間(或空間)距離大小值。
步驟2:計算上步所得的各個距離大小值出現的頻數。
步驟3:將上步所得的頻數值對應縱坐標,距離大小值對應橫坐標,繪制出時空對象距離頻數柱狀圖,找出柱狀圖中最大距離頻數值所對應的點,該點的時間(或空間)距離大小值便可作為該維度下的閾值,即時間閾值temporal_threshold(或空間閾值sptial_threshold)。
步驟4:計算時空對象量閾值minPts,計算公式如下:
2.2 算法實現過程
具體實現步驟如下:
步驟1:從基礎數據庫中獲取目標數據,數據必須含有參數經度x,緯度y,時間t,由此構成滿足條件的時空對象數據,每條完整的基礎數據記為一個時空對象點Ci={idi,xi,yi,ti},i(1in)表示時空對象序號,從而組成對象集合DC。
步驟2:選取任意對象點Ci,(Ci∈DC),判讀其是否屬于現有簇中,如果該點已有歸屬簇,則選取下一個對象點Ci+1,否則進行下一步操作。
步驟3:判斷對象點Ci是否為時空核心對象,是核心對象則進行下一步操作,否則就返回步驟2,重新選擇新的對象點。
步驟4:搜索時空核心對象點Ci的所有時空相鄰對象點Ei,如果Ei不屬于任何已經存在的簇,那么就將Ei放入新簇中,反之Ei已有歸屬簇則不進行操作。
步驟5:判斷步驟4中放入的對象點Ei是否為新簇中的時空核心對象,如果不是核心對象,則將其標記為邊緣時空對象不再進行下步操作,如果是核心對象則重復步驟4。
步驟6:重復上述步驟2到步驟5的操作,直到DC中所有對象都屬于某個簇,或為時空孤立點截止。
步驟7:將上述得到的所有簇標簽存放到新建數據的對應字段中,方便后續(xù)的結果分析。
3 基于聚類分析的熱點缺陷區(qū)域研究
目前,鐵路供電系統(tǒng)中的各種檢測監(jiān)測設備對接觸網的運行狀態(tài)實現了全線路實時監(jiān)測、精確定位、缺陷報警監(jiān)控、數據集中的存儲、信息共享等功能,而相關配套的智能分析系統(tǒng)可以通過綜合各種數據,比如(車型、導高值、拉出值、線路、區(qū)站、行別、經緯度、時間、缺陷類型、缺陷級別等),實現供電設備缺陷的智能識別和預警。隨著設備不斷采集數據和系統(tǒng)結果計算,使得現在積累了大量有關接觸網缺陷相關的線路基礎數據,亟待深入挖掘有用信息,讓基礎數據變得更有價值。
線路上缺陷的發(fā)生,在時間和位置上存在一定的規(guī)律性,為了挖掘缺陷在時空上的特性,本文利用時空聚類方法設計出的高速鐵路網供電系統(tǒng)發(fā)生缺陷的熱點區(qū)域分析的時空模型,該模型可以展現線路整體時間段內(年、月)缺陷熱點爆發(fā)趨勢,根據趨勢提出預警方案,對第二年的工作鐵路的檢修計劃有一定的指導意義。此次挖掘主要實現方案如圖1。
(1)數據清洗。由于基礎數據庫中的數據存在字段為空,存儲內容格式不統(tǒng)一、經緯度不準等問題,需要將這些數據進行清洗,保證目標數據的完整性。
(2)數據處理。對清洗后的數據進行處理,調準經緯度,對時間項進行格式轉化,篩選出模型計算需要的有用字段,組成新的數據集。
(3)分析計算。首先,計算出模型的空間閾值(以米為單位)、時間閾值(以天為單位),以及調整minPts的值。然后,調用ST-DBSCAN算法模型進行數據挖掘計算。最后,聚類結果中cluster值為“-1”表示離散點,非“-1”表示缺陷熱點。
(4)結果可視化。將所有聚類結果,根據類別利用三維圖像可視化展示。
(5)根據該線路熱點區(qū)域聚類分布情況,給出缺陷的預警方案。
4 運行檢測實驗結果
要滿足時空聚類條件,需要選取缺陷較為密集的位置進行挖掘,稀疏類的缺陷無法進行時空分析。本次實驗樣本主要選取2019年以前沈陽鐵路局管理區(qū)域內的燃弧類、吊弦類一二類缺陷數據。
4.1 燃弧類缺陷結果分析
本次實驗測試選取了2019年沈陽鐵路局-秦沈線-錦州供電段內6000條列車上行一二類燃弧缺陷數據作為模型演示樣本,經過數據清洗剩余5102條有限缺陷數據,由于不同區(qū)站上燃弧缺陷聚類結果顯著,分布范圍較廣(見表1),為了表示不同區(qū)站上缺陷熱點分布情況,因此本次將用不同顏色的點進行可視化,演示結果如圖2所示。
圖2中黑色點表示缺陷熱點分散點,其它顏色點的集群表示缺陷的熱點簇。從時間維度分析,燃弧類缺陷高發(fā)段主要出現在4-9月份(詳情見表2)。
以盤錦北站-錦州南站區(qū)站上的分布情況為例,進行聚類結果分析:
圖中X坐標軸為地理緯度,Y為經度,Z為時間軸(分為12個月)。盤錦北站-錦州南站區(qū)站燃弧缺陷熱點聚集區(qū)為:圖2中黃-A區(qū)域(1-2月份)、黃-B區(qū)域(4-9月份)、黃-C區(qū)域(10-12月份)、黃-D區(qū)域(10月份)。
該區(qū)段上燃弧缺陷較少發(fā)生區(qū)域為:3月份。
4.2 吊弦類缺陷結果分析
為了測試不同線路熱點區(qū)域缺陷分布情況,實驗選取了2019年以前沈陽鐵路局2000條吊弦數據作為模型演示樣本,經過數據清洗剩余1958條有效缺陷數據,為了區(qū)分不同線路缺陷高發(fā)區(qū),用不同顏色的點表示不同線路缺陷的熱點高發(fā)區(qū)(見表3),演示結果如圖4所示。
圖4中黑色點表示缺陷熱點分散點,紅色集群表示丹大快速線上的缺陷熱點簇,橘色集群表示秦沈線上的缺陷熱點簇,粉色集群表示長琿城際上的缺陷熱點簇,綠色點集群表示沈丹客專線上的缺陷熱點簇,灰色表示其他線上的熱點簇。
以長琿城際的分布情況為例,進行聚類結果分析:
長琿城際線上吊弦缺陷熱點聚集區(qū)為:圖5中黃-A區(qū)域(1-3月份)、黃-B區(qū)域(2-5月份)、黃-C區(qū)域(5-8月份)、黃-D區(qū)域(11-12月份)。
該線路上吊弦缺陷較少發(fā)生區(qū)域為:墨綠-A區(qū)域(2-5月份)、墨綠-B區(qū)域(10-12月份)。
4.3 缺陷預警方案
此次缺陷熱點預警方案主要針對樣本數據,對來年發(fā)生相關缺陷的時間-地理位置預警:首先,將設備缺陷預警分為三級:一級預警為缺陷較密集狀態(tài),即熱點趨勢;二級預警為缺陷密度平均狀態(tài);三級預警為缺陷較稀疏狀態(tài)。然后,根據不同的時間段,給用戶推送針對不同區(qū)域的預警信息及方案,情況如下:
(1)一級預警:在熱點時間段內提示用戶,對各熱點區(qū)域增加日常檢修頻數,預防設備損壞。
(2)二級預警:在缺陷平均時間、區(qū)域內提示用戶,進行正常的日常檢修。
(3)三級預警:在缺陷較少時間、區(qū)域內提示用戶,減少日常檢修頻數,降低人工成本,提高檢修效率。
5 結論
為了提高現有缺陷檢測數據的利用率,提高線路檢測數據的利用率,本文提出了一種基于聚類算法分析的高速鐵路供電系統(tǒng)接觸網缺陷熱點區(qū)域分布的挖掘模型方案,這種方案將利用時間、空間、線路發(fā)生的缺陷三種參數作為聚類的核心參數進行分析計算,得出線路的缺陷熱點區(qū)域分布圖,然后結合聚類結果分析給出比較合理的預警方案。所得預警方案在實際檢修中有較強的指導意義。
參考文獻
[1]王璟,張于峰.高速鐵路牽引供電系統(tǒng)健康管理及故障預警體系[J].中國高新科技,2019,(14):81-83.
[2]史冬雪.6C系統(tǒng)保障高鐵供電設備安全[J].世界軌道交通,2012,(9):22-23.
[3]陳海波.高速鐵路接觸網檢測技術分析[J].建材與裝飾,2018,(4):278-279.
[4]王達,崔蕊.數據平滑技術綜述[J].電腦知識與技術,2009,5(17):4507-4509.
[5]邵峰晶.數據挖掘原理與算法[M].北京:水利水電出版社,2003.
[6]韋勝,高湛.中國高鐵網絡空間分布格局及其發(fā)展變化研究[C].2018年中國城市交通規(guī)劃年會論文集,2018:579-591.
[7]王藝錚.談中國高鐵的發(fā)展[J].智富時代,2019,(3):40-40.
[8]程學慶,李月,楊濤,等.高速鐵路供電系統(tǒng)安全風險研究[J].鐵道科學與工程學報,2016,13(2):233-237.
[9]田國保.基于數據挖掘的接觸網檢測數據處理方法研究[J].科技創(chuàng)新與應用,2012,(13):81-82.
[10]唐建波,鄧敏,劉啟亮.時空事件聚類分析方法研究[J].地理信息世界,2013,20(1):38-45.
[11]Thakur, Sidharth, et al. SUMMARY VISUALIZATIONS FOR COASTAL SPATIAL-TEMPORAL DYNAMICS[J]. International Journal for Uncertainty Quantification,2013,3(3):241-253.
[12]Birant D, Kut A. ST-DBSCAN: An algorithm for clustering spatial–temporal data[J]. Data & Knowledge Engineering,2007,60(1):208-221.