劉彥軍, 楊濤存, 武威, 劉慶猛, 王衛(wèi)東
(1. 中國鐵道科學研究院集團有限公司鐵路大數(shù)據(jù)研究與應(yīng)用創(chuàng)新中心,北京 100081;2. 中國鐵道科學研究院集團有限公司,北京 100081)
近年來,物聯(lián)網(wǎng)技術(shù)的不斷成熟[1],促進傳感器類數(shù)據(jù)的充分采集,信息技術(shù)的不斷革新支撐海量數(shù)據(jù)不斷積累,社會逐步進入數(shù)字化時代,數(shù)據(jù)驅(qū)動和賦能將會進一步促進創(chuàng)新發(fā)展,大數(shù)據(jù)的作用將進一步凸顯。在鐵路行業(yè),針對海量數(shù)據(jù)的處理及應(yīng)用,中國國家鐵路集團有限公司構(gòu)建了鐵路大數(shù)據(jù)應(yīng)用頂層設(shè)計[2],建設(shè)鐵路一站式大數(shù)據(jù)平臺——鐵路數(shù)據(jù)服務(wù)平臺[3],充分支撐數(shù)據(jù)匯集和大數(shù)據(jù)應(yīng)用。
自2008年我國第1 條高速鐵路開通以來,高鐵建設(shè)和運營規(guī)模持續(xù)擴大,已經(jīng)積累了大量高鐵運營安全相關(guān)數(shù)據(jù),這些數(shù)據(jù)體量大、分布廣,數(shù)據(jù)類型多元化,如何充分運用大數(shù)據(jù)技術(shù)[4],有效管理、分析、挖掘已有的高鐵運營數(shù)據(jù),科學、有效地對運營狀況和安全趨勢做出階段性評估總結(jié),成為一個非常重要的課題。
因此,結(jié)合創(chuàng)新安全管理理念、夯實安全管理基礎(chǔ)、健全安全生產(chǎn)責任制等安全管理思路和措施[5],圍繞高鐵運營安全分析相關(guān)需求,研究設(shè)計了高鐵運營安全規(guī)律分析系統(tǒng)(簡稱安全規(guī)律分析系統(tǒng)),通過采集、整理高鐵工務(wù)、電務(wù)、供電、移動裝備等專業(yè)的安全相關(guān)數(shù)據(jù),對其進行有效地分析挖掘,提煉涉及高鐵運營安全的主要因素,利用交互式圖表、多維度關(guān)聯(lián)等可視化展現(xiàn)方法,直觀展現(xiàn)安全運用現(xiàn)狀和安全規(guī)律,充分支撐安全管理工作,提高安全管理水平。
安全規(guī)律分析系統(tǒng)面向移動裝備、工務(wù)、電務(wù)、供電、技術(shù)規(guī)章等專業(yè)的事故、故障和病害數(shù)據(jù)進行統(tǒng)一管理,數(shù)據(jù)主要來源于安監(jiān)報、事故及故障統(tǒng)計、安全分析報告、檢測監(jiān)測系統(tǒng)等。數(shù)據(jù)內(nèi)容涵蓋安全生產(chǎn)信息、安全問題隱患、安全履職信息等涉及安全管理的多方面數(shù)據(jù)。數(shù)據(jù)類型以Excel報表和Word文檔格式為主。安全規(guī)律分析系統(tǒng)相關(guān)數(shù)據(jù)見表1。
表1 安全規(guī)律分析系統(tǒng)相關(guān)數(shù)據(jù)列表
與高鐵運營安全相關(guān)的移動裝備、工務(wù)、電務(wù)、供電等專業(yè)的事故、故障的結(jié)構(gòu)化數(shù)據(jù)分別來源于不同的業(yè)務(wù)系統(tǒng),這些業(yè)務(wù)系統(tǒng)數(shù)據(jù)根據(jù)所屬主管單位的要求,需按照專業(yè)分類、系統(tǒng)分類進行管理,應(yīng)滿足如下需求:
(1)各專業(yè)對各自數(shù)據(jù)具有管理權(quán)限,不同專業(yè)的數(shù)據(jù)自動隔離;
(2)跨專業(yè)數(shù)據(jù)如需共享則通過授權(quán)的方式進行數(shù)據(jù)共享;
(3)針對故障、病害等數(shù)據(jù)提供手動錄入或者接口自動對接的功能,能夠?qū)崿F(xiàn)數(shù)據(jù)的批量導(dǎo)入;
(4)支持按不同字段、不同檢索條件快速查詢、檢索,實現(xiàn)授權(quán)后數(shù)據(jù)的在線瀏覽、查看、編輯等。
與高鐵運營安全相關(guān)的非結(jié)構(gòu)化數(shù)據(jù)涉及到文本、圖像、視頻等多種類型文件格式,其中事故調(diào)查報告、認定書、技術(shù)規(guī)章等多以文本形式(doc、docx、txt)存儲,車輛、基礎(chǔ)設(shè)施、動車組行車等故障數(shù)據(jù)多以xls、xlsx 格式存儲,現(xiàn)場的視頻多以視頻文件格式(mp4 等)存儲,存儲類型多樣,結(jié)構(gòu)復(fù)雜。因此,在非結(jié)構(gòu)化數(shù)據(jù)管理的過程中,應(yīng)該滿足如下需求:
(1)實現(xiàn)針對文本、圖像、視頻、音頻等文件的存儲管理和在線處理,支持各類文件的在線打開和預(yù)覽;
(2)利用標簽化方式管理非結(jié)構(gòu)化數(shù)據(jù),在非結(jié)構(gòu)化數(shù)據(jù)上傳存儲時,要求用戶同時提供數(shù)據(jù)描述標簽,設(shè)置專業(yè)、鐵路局集團公司、線路、位置、事故類型、責任單位等多維度標簽,便于多條件按需查詢檢索;
(3)實現(xiàn)按照專業(yè)的非結(jié)構(gòu)化文件管理,各專業(yè)對其非結(jié)構(gòu)化文件具有管理權(quán)限,跨專業(yè)的數(shù)據(jù)共享需通過授權(quán)實現(xiàn)。
安全規(guī)律分析系統(tǒng)的構(gòu)建需支撐針對海量結(jié)構(gòu)化數(shù)據(jù)的分析計算功能,提供可用、易用、安全、穩(wěn)定的數(shù)據(jù)分析環(huán)境和算法支撐,并滿足以下需求:
(1)提供在線自主編程環(huán)境,以供具有科學計算基礎(chǔ)的研究人員深入挖掘使用;
(2)提供拖拽式模型構(gòu)建與算法分析工具,擴大人工智能用戶范圍,降低人工智能應(yīng)用門檻;
(3)內(nèi)嵌豐富的統(tǒng)計學方法,從繁雜、高維數(shù)據(jù)中進行數(shù)據(jù)特征的選擇與準備,更好地選取待分析目標的強關(guān)聯(lián)影響因素;
(4)封裝業(yè)界常用經(jīng)典算法,研發(fā)多種適用度高的專有算法,涵蓋數(shù)據(jù)分析、機器學習、深度學習等不同難度的AI算法。
文本類數(shù)據(jù)是高鐵運營安全相關(guān)數(shù)據(jù)中的一類重要數(shù)據(jù),系統(tǒng)中存在大量文本類數(shù)據(jù),涵蓋了工務(wù)、電務(wù)、供電、移動裝備、技術(shù)規(guī)章、安全監(jiān)督等業(yè)務(wù),數(shù)據(jù)主要來源于安監(jiān)報、鐵路局集團公司的人工表統(tǒng)計、事故分析報告等。既有方法處理文本數(shù)據(jù)時,采用人工閱讀提取信息的方式,耗費大量時間精力。由于文本數(shù)據(jù)高度序列化,且文檔具有結(jié)構(gòu)一致性,所以適用于使用基于深度神經(jīng)網(wǎng)絡(luò)框架下的人工智能自然語言處理模型進行文本數(shù)據(jù)自動化智能分析。因此,在安全規(guī)律分析系統(tǒng)設(shè)計和開發(fā)的過程中,應(yīng)滿足文本分析的以下需求:
(1)文本獲取。從非結(jié)構(gòu)化文件管理處獲取文本文件功能。
(2)文本標注。提供在線的文本標注功能,支持自定義標注任務(wù)、標注標簽和命名實體標注。
(3)文本分析。支持文本分析的算法編寫和文本分析。
(4)結(jié)果推送。支持將分析結(jié)果推送報告或推送至數(shù)據(jù)可視化進行展現(xiàn)。
數(shù)據(jù)可視化功能對各專業(yè)關(guān)注的重點事故、故障,重點病害類型,重點區(qū)段進行可視化展示,實現(xiàn)高鐵運營安全規(guī)律分析報告的動態(tài)數(shù)據(jù)圖表,并提供交互分析功能。應(yīng)滿足如下需求:
(1)支持自助化構(gòu)建可視化案例,通過拖拽和編寫SQL設(shè)計可視化圖表。
(2)支持多種數(shù)據(jù)來源,如數(shù)據(jù)庫、文件、鐵路數(shù)據(jù)服務(wù)平臺、數(shù)據(jù)接口等;同時支持多源數(shù)據(jù)在同一分析模型或場景中分析與展示。
(3)支持圖表更新,在數(shù)據(jù)更新后支持圖表展現(xiàn)的更新。
(4)支持可視化案例的共享。
提供用戶管理、角色管理的功能。角色管理可以配置相關(guān)的基礎(chǔ)角色,并賦予相應(yīng)的菜單權(quán)限;用戶管理可以新增、刪除、修改用戶,并為用戶賦予相應(yīng)角色。組織機構(gòu)管理系統(tǒng)支持組織機構(gòu)的增、刪、改、查。
安全規(guī)律分析系統(tǒng)的總體架構(gòu)見圖1,系統(tǒng)將各類業(yè)務(wù)數(shù)據(jù)源的事故數(shù)據(jù)和故障數(shù)據(jù)通過數(shù)據(jù)集成層接入鐵路數(shù)據(jù)服務(wù)平臺進行數(shù)據(jù)存儲,在平臺開展結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)管理。針對非結(jié)構(gòu)化數(shù)據(jù)開展標注和文本分析工作,針對結(jié)構(gòu)化數(shù)據(jù)開展數(shù)據(jù)分析和挖掘,并將分析結(jié)果通過可視化模塊進行數(shù)據(jù)展示,分析的相關(guān)結(jié)果可以充分支撐各專業(yè)的安全規(guī)律分析工作。
圖1 安全規(guī)律分析系統(tǒng)總體架構(gòu)
(1)數(shù)據(jù)源層。主要提供鐵路移動裝備、工務(wù)、電務(wù)、供電等專業(yè)對安全規(guī)律分析系統(tǒng)的事故數(shù)據(jù)和故障數(shù)據(jù)。
(2)數(shù)據(jù)集成層。主要針對數(shù)據(jù)源層提供的數(shù)據(jù)同步、數(shù)據(jù)清洗、數(shù)據(jù)格式轉(zhuǎn)換,可采用數(shù)據(jù)集成ETL工具通過托拉拽的方式進行采集任務(wù)配置,也可通過推送數(shù)據(jù)到消息隊列、數(shù)據(jù)上傳及采用調(diào)用REST 接口的方式進行數(shù)據(jù)集成。
(3)數(shù)據(jù)存儲層。主要對高鐵運營過程中產(chǎn)生的數(shù)據(jù)進行有效地采集、轉(zhuǎn)換、整合、存儲,同時完成包括數(shù)據(jù)質(zhì)量管理、生命周期管理、標準和規(guī)范管理等一系列數(shù)據(jù)管理工作,其目的在于保障高質(zhì)量的數(shù)據(jù)結(jié)果、協(xié)調(diào)不同數(shù)據(jù)應(yīng)用之間的可共享性、統(tǒng)一性、規(guī)范性和有效性。
(4)功能服務(wù)層。以安全規(guī)律分析系統(tǒng)的操作界面為依托,對用戶提供結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)管理、數(shù)據(jù)分析、文本分析、可視化、用戶中心等一系列功能及服務(wù)。
安全規(guī)律分析系統(tǒng)面向高鐵運營安全相關(guān)數(shù)據(jù)的管理和分析,提供結(jié)構(gòu)化數(shù)據(jù)管理、非結(jié)構(gòu)化數(shù)據(jù)管理、文本分析、可視化、數(shù)據(jù)分析、用戶中心等功能,推動開展高鐵運營安全數(shù)據(jù)治理規(guī)范化研究,支撐高鐵事故、故障各類致因的分析挖掘,探索發(fā)現(xiàn)安全規(guī)律,為健全完善我國高鐵安全風險管控提供決策依據(jù)。高鐵運營安全規(guī)律分析系統(tǒng)功能架構(gòu)見圖2。
圖2 高鐵運營安全規(guī)律分析系統(tǒng)功能架構(gòu)
其中,結(jié)構(gòu)化數(shù)據(jù)管理功能提供對移動裝備、工務(wù)、電務(wù)、供電、事故和故障的結(jié)構(gòu)化數(shù)據(jù)進行管理的功能,提供數(shù)據(jù)的增、刪、改、查。非結(jié)構(gòu)化數(shù)據(jù)管理針對移動裝備、工務(wù)、電務(wù)、供電、規(guī)章等專業(yè)的非結(jié)構(gòu)化數(shù)據(jù)進行管理,提供數(shù)據(jù)分類、標記、查詢、預(yù)覽等功能,支持文本、圖像、視頻、音頻等類型的數(shù)據(jù),滿足在線文件預(yù)覽、播放要求,相關(guān)的文本文件能夠為文本分析提供數(shù)據(jù)支撐。
文本分析模塊提供在線文本標注功能,能夠自定義標注標簽,同時針對標注的數(shù)據(jù),能夠?qū)崿F(xiàn)文本分析,將文本內(nèi)容知識化[6],針對事故、故障文本進行特征提?。?],挖掘文本相關(guān)數(shù)據(jù)的隱含規(guī)律,并通過可視化模塊進行數(shù)據(jù)展現(xiàn)。
數(shù)據(jù)可視化提供用戶自行設(shè)計可視化圖表的功能,用戶可自行配置數(shù)據(jù)源,按照需要顯示的數(shù)據(jù)配置字段或SQL語句,實現(xiàn)可視化效果。
數(shù)據(jù)分析提供自助分析和挖掘建模等功能,通過拖拽式或代碼行的方式實現(xiàn)數(shù)據(jù)分析。
用戶中心提供用戶管理和角色管理的功能。角色管理可以配置相關(guān)的基礎(chǔ)角色,并賦予相應(yīng)的菜單權(quán)限;用戶管理可以新增、刪除、修改用戶,并為用戶賦予相應(yīng)角色。
高鐵運營安全規(guī)律分析系統(tǒng)的技術(shù)架構(gòu)設(shè)計面向業(yè)務(wù)應(yīng)用需求,依托鐵路數(shù)據(jù)服務(wù)平臺的大數(shù)據(jù)處理分析能力和安全策略[8],有效支撐數(shù)據(jù)管理、分析和可視化,為業(yè)務(wù)應(yīng)用提供各類服務(wù)支撐。
鐵路數(shù)據(jù)服務(wù)平臺通過多類型(結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化)數(shù)據(jù)采集方式,實現(xiàn)業(yè)務(wù)數(shù)據(jù)采集到鐵路數(shù)據(jù)服務(wù)平臺,并且基于鐵路數(shù)據(jù)服務(wù)平臺提供的數(shù)據(jù)存儲服務(wù)接口(操作型數(shù)據(jù)存儲、非結(jié)構(gòu)化數(shù)據(jù)存儲、數(shù)據(jù)倉庫)、數(shù)據(jù)分析服務(wù)接口(圖計算框架、分布式計算框架、機器學習框架等)、數(shù)據(jù)共享接口、數(shù)據(jù)可視化接口等,為安全規(guī)律分析系統(tǒng)提供數(shù)據(jù)共享、數(shù)據(jù)分析、數(shù)據(jù)可視化服務(wù)等服務(wù)能力支撐和數(shù)據(jù)接口支持,滿足各業(yè)務(wù)應(yīng)用的數(shù)據(jù)使用和數(shù)據(jù)處理需求,支持海量數(shù)據(jù)的處理和計算,為安全數(shù)據(jù)的挖掘分析奠定技術(shù)基礎(chǔ)。高鐵運營安全規(guī)律分析系統(tǒng)技術(shù)架構(gòu)見圖3。
圖3 安全規(guī)律分析系統(tǒng)技術(shù)架構(gòu)
安全規(guī)律分析系統(tǒng)面向高鐵運營安全相關(guān)數(shù)據(jù)的管理和分析,目前已陸續(xù)接入移動裝備、工務(wù)、電務(wù)、供電等專業(yè)的各類數(shù)據(jù),并結(jié)合業(yè)務(wù)場景進行數(shù)據(jù)分析和可視化應(yīng)用,對于支撐數(shù)據(jù)分析、發(fā)現(xiàn)安全規(guī)律具有重要作用。
(1)結(jié)構(gòu)化數(shù)據(jù)管理功能。具有對移動裝備、工務(wù)、電務(wù)、供電、事故等數(shù)據(jù)進行管理的功能,提供模板下載、數(shù)據(jù)導(dǎo)入、數(shù)據(jù)維護、檢索等功能操作,實現(xiàn)結(jié)構(gòu)化數(shù)據(jù)管理。
(2)非結(jié)構(gòu)化數(shù)據(jù)管理功能。支持多種類型的非結(jié)構(gòu)化數(shù)據(jù)上傳,提供標簽化方式管理非結(jié)構(gòu)化數(shù)據(jù),能夠為上傳的數(shù)據(jù)添加標簽,支持對文件名和標簽的檢索。并且支持非結(jié)構(gòu)化數(shù)據(jù)在線預(yù)覽功能,主要數(shù)據(jù)格式包括Word、Excel、PDF 及TXT 文件,另外圖像、視頻也支持在線預(yù)覽和播放。
(3)數(shù)據(jù)分析功能。提供數(shù)據(jù)挖掘建模的功能,提供機器學習開發(fā)、統(tǒng)計建模和在線編程開發(fā)的功能,能夠?qū)崿F(xiàn)數(shù)據(jù)的在線分析和訓(xùn)練。數(shù)據(jù)分析界面見圖4。
圖4 數(shù)據(jù)分析界面
(4)文本分析功能。提供文本文件加載、標注等功能,支持從非結(jié)構(gòu)化文件管理模塊讀取文本文件并標注分析。
(5)數(shù)據(jù)可視化功能。支持用戶可自行配置數(shù)據(jù)源,通過拖拽方式構(gòu)建可視化樣式和維度,自行編寫SQL語句設(shè)計可視化效果[9]。
(6)用戶中心功能。提供組織機構(gòu)管理、用戶管理和角色管理的功能。角色管理可以配置相關(guān)的基礎(chǔ)角色,并賦予相應(yīng)的菜單權(quán)限;用戶管理可以新增、刪除、修改用戶,并為用戶賦予相應(yīng)角色。
應(yīng)用安全規(guī)律分析系統(tǒng),可以便捷地開展數(shù)據(jù)分析和可視化工作,如應(yīng)用安監(jiān)報信息進行高速鐵路電務(wù)設(shè)備故障數(shù)據(jù)分析時,可利用結(jié)構(gòu)化數(shù)據(jù)管理中的結(jié)構(gòu)化數(shù)據(jù)表快速加載電務(wù)設(shè)備故障數(shù)據(jù);結(jié)合交互式可視化工具,通過拖拽式數(shù)據(jù)報表,快速實現(xiàn)年度故障數(shù)量變化趨勢、故障類別占比等分析;結(jié)合電務(wù)專業(yè)業(yè)務(wù)理論,可得出高鐵電務(wù)設(shè)備故障率基本趨勢和分布規(guī)律。
又如,在供電故障數(shù)據(jù)分析過程中,計算斷電區(qū)間長度是一項重要工作,計算斷電區(qū)間長度需要從文本類故障數(shù)據(jù)中用人工整理的方式完成,耗費大量時間。利用安全規(guī)律分析系統(tǒng)文本分析功能,對故障數(shù)據(jù)進行分詞提取,提取特征向量,再利用數(shù)據(jù)分析模塊進行特征工程建模,結(jié)合正則表達式及模式匹配等技術(shù),建立一個有限狀態(tài)機匹配模型(見圖5),快速定位關(guān)鍵詞位置,挖掘關(guān)聯(lián)關(guān)系,自動、快速、準確地提取出故障區(qū)間起始點與結(jié)束點等關(guān)鍵特征信息,實現(xiàn)非結(jié)構(gòu)化文本轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),大幅提升工作效率。
大數(shù)據(jù)時代的到來,改變了傳統(tǒng)高鐵安全事故數(shù)據(jù)和故障數(shù)據(jù)分析的工作模式?;谙冗M的大數(shù)據(jù)處理技術(shù)和工具,構(gòu)建高鐵運營安全規(guī)律分析系統(tǒng)是一種新的解決思路。研究基于大數(shù)據(jù)技術(shù)設(shè)計與實現(xiàn)高速鐵路運營安全規(guī)律分析系統(tǒng),通過對高鐵事故、故障以及相關(guān)數(shù)據(jù)進行安全統(tǒng)一管理,為數(shù)據(jù)的長期積累提供安全、穩(wěn)定的系統(tǒng)支撐;同時系統(tǒng)支持數(shù)據(jù)分析人員進行各類數(shù)據(jù)在線處理、數(shù)據(jù)挖掘和自助交互式分析,為持續(xù)開展研究工作和成果積累提供便捷高效的工作平臺;系統(tǒng)通過對數(shù)據(jù)統(tǒng)計分析、指數(shù)和模型計算的集成,實現(xiàn)各專業(yè)數(shù)據(jù)分析結(jié)果的動態(tài)數(shù)據(jù)圖表,為安全規(guī)律分析的數(shù)據(jù)報告發(fā)布提供豐富的可視化呈現(xiàn)方式。根據(jù)高鐵運營安全管理的需要,隨著數(shù)據(jù)的持續(xù)積累、指數(shù)模型等的不斷修正完善,系統(tǒng)支持定期或隨機進行數(shù)據(jù)查詢、計算、導(dǎo)出以及數(shù)據(jù)發(fā)布,對基于大數(shù)據(jù)的安全運營決策具有重要意義,也是高鐵運營安全數(shù)字化、智能化的發(fā)展方向。
圖5 供電故障斷電區(qū)間提取數(shù)據(jù)分析實例流程圖