王 喆,馬小寧
(中國鐵道科學研究院集團有限公司 鐵路大數(shù)據(jù)研究與應用創(chuàng)新中心, 北京 100081)
隨著鐵路運行速度、規(guī)模和周邊環(huán)境的變化,在大數(shù)據(jù)技術同各行各業(yè)不斷融合的形勢下,如何通過大數(shù)據(jù)技術充分挖掘數(shù)據(jù)價值,實現(xiàn)數(shù)據(jù)驅動決策,支撐鐵路轉型升級,是值得每一個鐵路管理者思考的問題。鐵路大數(shù)據(jù)的實施既要貫徹鐵路總公司大數(shù)據(jù)發(fā)展的總體思想,又要兼顧鐵路信息化發(fā)展的客觀現(xiàn)實。文獻[1]研究了其他行業(yè)開展大數(shù)據(jù)的經驗,提出了鐵路大數(shù)據(jù)應用的體系架構。文獻[2]分析了當前鐵路大數(shù)據(jù)的應用需求,設計了鐵路大數(shù)據(jù)平臺的總體架構。文獻[3]分析了鐵路基礎設施大數(shù)據(jù)的特征,提出了基礎設施大數(shù)據(jù)的應用框架和實施建議。文獻[4]主要從大數(shù)據(jù)的視角提出了鐵路各專業(yè)維護單位對建設大數(shù)據(jù)的思考?,F(xiàn)階段對鐵路大數(shù)據(jù)的研究多集中在大數(shù)據(jù)平臺通用技術以及鐵路部分專業(yè)大數(shù)據(jù)分析需求等方面,缺乏對通用的實施策略的研究。本文旨在從鐵路大數(shù)據(jù)應用實施規(guī)劃研究出發(fā),基于鐵路大數(shù)據(jù)發(fā)展面臨的問題,有針對性地提出適合鐵路自身特點的大數(shù)據(jù)實施策略。
2017年6月,鐵路總公司向全路印發(fā)了《鐵路信息化總體規(guī)劃》(簡稱:總體規(guī)劃)和《鐵路大數(shù)據(jù)應用實施方案》(簡稱:實施方案)。在架構規(guī)劃方面,總體規(guī)劃提出了建設鐵路數(shù)據(jù)服務平臺,并明確了各業(yè)務領域及業(yè)務系統(tǒng)和數(shù)據(jù)服務平臺之間的關系[5]。
依據(jù)總體規(guī)劃,鐵路數(shù)據(jù)服務平臺是鐵路一體化信息集成平臺的重要組成部分,是鐵路總公司及各鐵路局進行數(shù)據(jù)集中管理、大數(shù)據(jù)分析的基礎支撐。平臺從既有各業(yè)務系統(tǒng)采集數(shù)據(jù),同時又為各系統(tǒng)提供數(shù)據(jù)交換、數(shù)據(jù)分析服務。2017年12月鐵路總公司發(fā)布的《一體化信息集成平臺—數(shù)據(jù)服務平臺總體方案》中,明確了數(shù)據(jù)服務平臺在鐵路總公司和鐵路局兩級部署模式,平臺總體架構如圖1所示。鐵路總公司級鐵路數(shù)據(jù)服務平臺匯集了鐵路總公司級系統(tǒng)數(shù)據(jù)和所需要的各鐵路局的匯總及細節(jié)數(shù)據(jù),為鐵路總公司各業(yè)務部門提供數(shù)據(jù)分析服務。鐵路局級鐵路數(shù)據(jù)服務平臺將匯集各鐵路局、下屬站/段系統(tǒng)數(shù)據(jù),為各鐵路局提供數(shù)據(jù)分析服務[6]。因此,平臺級別的硬件資源、數(shù)據(jù)整合、標準制定、數(shù)據(jù)匯集等由企業(yè)統(tǒng)一規(guī)劃,各專業(yè)和各業(yè)務部門只需要在平臺提供的數(shù)據(jù)和服務的基礎上建設滿足各自需求的應用。這種“平臺+應用”的模式擴展性好、適應性強,避免了數(shù)據(jù)孤島和資源浪費。
圖1 鐵路數(shù)據(jù)服務平臺總體架構圖
在應用實施規(guī)劃方面,實施方案將全路大數(shù)據(jù)應用分為運輸調度、客運、貨運、設備狀態(tài)、安全風險管控等16大領域,并對每個專業(yè)領域內的大數(shù)據(jù)工作方向、目標以及工作階段進行了規(guī)劃[7],如圖2所示。實施方案從應用建設的角度理清了工作思路,解決了“干什么”的問題;總體規(guī)劃從信息架構方面指導了鐵路大數(shù)據(jù)的建設工作,解決了“怎么干”的問題。二者是新時期全路信息化建設和大數(shù)據(jù)工作的總體設計,是規(guī)范指導鐵路信息化建設的綱領性文件。
(1)安全管理需求:研究鐵路安全管控大數(shù)據(jù)應用,全面提高安全管理水平。
(2)運輸組織需求:基于運輸生產實時數(shù)據(jù),開展車流預測分析,對運輸生產能力不足問題進行預測預警。
(3)資源管理需求:利用大數(shù)據(jù)挖掘分析技術,對鐵路局運營資源數(shù)據(jù)進行綜合分析,提高資源綜合利用效率,促進企業(yè)運營效益提升。
(4)設備管理需求:采集設備設施的實時狀態(tài),實現(xiàn)設備設施運用狀態(tài)的精準評價和趨勢預測,指導現(xiàn)場維護,實現(xiàn)設備全生命周期的故障預測與健康管理。
圖2 鐵路大數(shù)據(jù)應用實施規(guī)劃
近年來,隨著鐵路信息化建設的逐步深入,信息系統(tǒng)已覆蓋客貨營銷、運輸組織、經營管理等各個領域,各系統(tǒng)都積累了海量的數(shù)據(jù)。隨著12306 網(wǎng)站及95306 網(wǎng)站的上線,售票信息及鐵路物流信息大幅增長?;A設施及設備檢測方面,鐵路的工務、電務、供電、車輛和機務等部門積累了鐵路線路、通信信號、機車車輛等各種設施設備的海量實時狀態(tài)數(shù)據(jù)。根據(jù)近年來歷次鐵路數(shù)據(jù)和信息系統(tǒng)調研統(tǒng)計,鐵路總公司及各鐵路局存儲的數(shù)據(jù)量已經達到10 PB的數(shù)量級。
鐵路的PB級海量數(shù)據(jù)是非常分散的。鐵路總公司層面統(tǒng)一建設了超過150個業(yè)務系統(tǒng),涵蓋了客貨運、安監(jiān)、計統(tǒng)、機務、工務、電務、供電、調度、建設管理等專業(yè)。統(tǒng)建系統(tǒng)面向各專業(yè)支柱型的應用需求,且數(shù)據(jù)集中存儲于鐵路總公司。此外,各鐵路局為了滿足個性化定制需要,分散建設了規(guī)模龐大的中小型業(yè)務系統(tǒng),與統(tǒng)建系統(tǒng)共同承擔各專業(yè)工作開展。這些系統(tǒng)的數(shù)據(jù)存儲在所屬鐵路局。
受限于鐵路整體信息化水平不高,有大量的數(shù)據(jù)以文檔的形式存儲,如事故故障報告、聯(lián)調聯(lián)試報告等。檢測車日常巡檢過程中拍攝了大量的高清圖像和視頻,再加上車站內和鐵路沿線部署的監(jiān)控攝像頭,實時采集站內和區(qū)間的影像信息,生成了海量的監(jiān)控視頻、檢測圖像等數(shù)據(jù)。這些非結構化的視頻、圖像以及文本數(shù)據(jù)對于鐵路的日常工作以及保障鐵路行車安全至關重要,數(shù)據(jù)量遠遠大于結構化數(shù)據(jù)的體量。
鐵路信息化在部分單項應用上可以達到世界先進水平,但由于長期處于分散建設階段,業(yè)務系統(tǒng)開發(fā)建設各自為戰(zhàn),各層級業(yè)務應用水平參差不齊。因此,導致鐵路數(shù)據(jù)的質量因系統(tǒng)而異,整體質量處于較低水平;且基礎編碼不統(tǒng)一,缺乏必要的數(shù)據(jù)標準,對數(shù)據(jù)的互聯(lián)互通和共享構成極大的障礙。
鐵路計算機網(wǎng)絡按照安全等級,通過動態(tài)物理隔離技術和防火墻技術構建了具有層次結構的網(wǎng)絡,形成外部服務網(wǎng)、內部服務網(wǎng)、安全生產網(wǎng)和國家涉密網(wǎng)4個邏輯安全區(qū)域。各應用系統(tǒng)依據(jù)其涉密程度,分別部署于不同的專網(wǎng)中??紤]到未來的大數(shù)據(jù)應用場景中,會涉及到跨專業(yè)的數(shù)據(jù)融合乃至實時的數(shù)據(jù)接入,當前鐵路網(wǎng)絡隔離的現(xiàn)狀顯然會加大數(shù)據(jù)匯集的難度和成本。
鐵路信息化經過多年的發(fā)展,已經為鐵路培養(yǎng)了一大批信息化專業(yè)人才。在這個人才隊伍中,大多數(shù)人具備信息系統(tǒng)開發(fā)的能力,涉及到同大數(shù)據(jù)建設相關的數(shù)據(jù)分析人員相對較少,尤其是能夠將機器學習、深度學習等技術同鐵路業(yè)務相結合的人才更加缺乏。
綜合各行業(yè)發(fā)展大數(shù)據(jù)的經驗,有以下兩種思路:(1)自下而上,整合企業(yè)的所有數(shù)據(jù),開展全范圍的數(shù)據(jù)治理、標準化等工作,構建企業(yè)級數(shù)據(jù)模型,對整合好的數(shù)據(jù)開展數(shù)據(jù)分析等工作,互聯(lián)網(wǎng)、金融行業(yè)多采用此方法;(2)自上而下,即由具體的大數(shù)據(jù)分析需求入手,推導出所需要的數(shù)據(jù),優(yōu)先匯集上述數(shù)據(jù)并開展數(shù)據(jù)清洗和整理,最終通過大數(shù)據(jù)的分析響應需求。
鐵路總公司層面因為持有的結構化數(shù)據(jù)比例較高,易于制定統(tǒng)一的數(shù)據(jù)標準,規(guī)劃統(tǒng)一的數(shù)據(jù)模型,因此,可以參考數(shù)據(jù)質量較好的互聯(lián)網(wǎng)和金融行業(yè),自下而上的開展大數(shù)據(jù)工作。各鐵路局因為非結構化數(shù)據(jù)比重較高,數(shù)據(jù)質量偏低,數(shù)據(jù)的大集中成本較高且難度太大,可以采用自上而下的思路。
鐵路各專業(yè)在信息化建設水平上不盡一致,應對大數(shù)據(jù)分析的能力也有差距。因此,信息化水平較弱的專業(yè)應該先按照鐵路總公司和鐵路局的規(guī)劃補齊本專業(yè)的信息系統(tǒng)??梢詢?yōu)先從信息化水平較高專業(yè)的信息系統(tǒng)中匯集數(shù)據(jù)并整理。與此同時,先開展數(shù)據(jù)匯集的專業(yè)還可以給后開展工作的專業(yè)起到探索和示范作用。
主數(shù)據(jù)描述了企業(yè)的核心業(yè)務實體,可以跨越各業(yè)務部門被重復使用。主數(shù)據(jù)平臺包括了主數(shù)據(jù)查詢、下載、版本管理等功能[8],且鐵路大數(shù)據(jù)工作必然涉及到各專業(yè)數(shù)據(jù)的融合,例如車站、線路、物資編碼、組織機構以及人員信息等務必統(tǒng)一,所以主數(shù)據(jù)的規(guī)范化決定著大數(shù)據(jù)工作的成敗。
GIS平臺提供了鐵路車站、線路、固定設施等要素實體的地圖展示,提供了鐵路局管界、站段管界等圖層服務[9],還提供了鐵路公里標和經緯度坐標的相互轉換功能,能夠將地理信息相關的數(shù)據(jù)或者大數(shù)據(jù)分析的結果直觀的展現(xiàn)在地圖上,便于對數(shù)據(jù)的理解。
主數(shù)據(jù)平臺和GIS平臺都是大數(shù)據(jù)平臺的有益補充,能夠從數(shù)據(jù)準備和數(shù)據(jù)展現(xiàn)兩個層面輔助大數(shù)據(jù)工作的開展。
鐵路局在日常生產運營過程中,積累了大量的非結構化數(shù)據(jù),如事故故障報告、供電設備檢測圖像、周界入侵檢測視頻、客服語音記錄等,數(shù)據(jù)類型包括了文本、圖像、視頻、語音等。這些信息中蘊含了大量的有價值信息但利用率不高。隨著深度學習技術在圖像識別、語音識別、自然語言處理領域取得的長足進步,傳統(tǒng)的基于模式識別和專家規(guī)則的方法逐漸被取代。因為深度學習是傳統(tǒng)神經網(wǎng)絡發(fā)展下的新一代神經網(wǎng)絡[10],比較適合作為非結構化數(shù)據(jù)的特征學習器,結合機器學習的分類器,能夠很好的實現(xiàn)非結構化數(shù)據(jù)的分析與信息挖掘。
鐵路數(shù)據(jù)多分布在不同的網(wǎng)絡中,且不同的網(wǎng)絡安全級別也不一樣。為了實現(xiàn)異構網(wǎng)絡環(huán)境下的數(shù)據(jù)交換,解決異構網(wǎng)絡之間數(shù)據(jù)共享交換的安全性[11],需要引入“數(shù)據(jù)采集前置機”系統(tǒng)。該系統(tǒng)主要由交換前置機和安全隔離網(wǎng)閘構成,如圖3所示。
圖3 前置機數(shù)據(jù)交換模式
數(shù)據(jù)交換共需要5個步驟:(1)前置機同業(yè)務系統(tǒng)以及數(shù)據(jù)服務平臺之間是斷開狀態(tài);(2)連通前置機與業(yè)務系統(tǒng)之間的安全隔離網(wǎng)閘,將數(shù)據(jù)傳輸?shù)角爸脵C;(3)斷開前置機與業(yè)務系統(tǒng)之間的安全隔離網(wǎng)閘;(4)連通數(shù)據(jù)服務平臺與前置機之間的安全隔離網(wǎng)閘,從前置機提取數(shù)據(jù);(5)斷開數(shù)據(jù)服務平臺與前置機之間的安全隔離網(wǎng)閘。采用前置機方式能夠在保證異構網(wǎng)絡數(shù)據(jù)安全的前提下實現(xiàn)數(shù)據(jù)采集。
鐵路各業(yè)務數(shù)據(jù)之間并非是完全獨立的,數(shù)據(jù)之間的關聯(lián)是天然存在的。這種關聯(lián)關系包括空間位置的關聯(lián),事件時間關聯(lián),配屬關系關聯(lián),組織機構關聯(lián)等。通過這些關聯(lián)可以將鐵路絕大多數(shù)數(shù)據(jù)關聯(lián)到同一個維度或者多個維度上,把看似不相干的若干事件或者對象建立起關聯(lián)關系,增加了決策時可以依賴的信息量,對企業(yè)的經營和決策有著重要意義。
本文分析了鐵路總公司大數(shù)據(jù)發(fā)展的總體戰(zhàn)略和當前鐵路發(fā)展大數(shù)據(jù)所面臨的問題,提出了面向鐵路行業(yè)特點的大數(shù)據(jù)實施策略。該實施策略已在太原鐵路局《安全大數(shù)據(jù)應用平臺》建設和廣鐵集團《鐵路安全風險管控大數(shù)據(jù)應用》建設過程中應用,保障了鐵路局大數(shù)據(jù)應用建設的開展。下一階段將圍繞實施策略的具體內容進行細化研究,形成較為完備的解決方案,為全路大數(shù)據(jù)工作提供有力幫助。