王喆
(中國鐵道科學(xué)研究院集團有限公司電子計算技術(shù)研究所,北京 100081)
在信息技術(shù)高速發(fā)展的今天,我國智能設(shè)備、互聯(lián)網(wǎng)、物聯(lián)網(wǎng)技術(shù)有重要突破,數(shù)據(jù)生產(chǎn)和整理能力也正逐步增加,數(shù)據(jù)規(guī)模、數(shù)據(jù)類型、數(shù)據(jù)維度有顯著提升,大數(shù)據(jù)的概念應(yīng)運而生。
大數(shù)據(jù)是一場革命,使人們的生活方式、工作模式、思維模式發(fā)生翻天覆地的改變。大數(shù)據(jù)成為國家云計算和互聯(lián)網(wǎng)之后對ICT產(chǎn)業(yè)影響最大的技術(shù)創(chuàng)新。通過大數(shù)據(jù)技術(shù)的使用,能使組織結(jié)構(gòu)、國家治理模式、企業(yè)的決策架構(gòu)、商業(yè)的業(yè)務(wù)策略以及個人的生活方式等產(chǎn)生深遠(yuǎn)的影響[1]。大數(shù)據(jù)最重要的應(yīng)用領(lǐng)域之一就是預(yù)測性分析。以大數(shù)據(jù)為中心分析數(shù)據(jù)特征,以此建立合適的模型,適當(dāng)在模型中增加數(shù)據(jù),以此檢驗數(shù)據(jù)未來的變動趨勢。經(jīng)驗主義將逐漸減少,基于數(shù)據(jù)的預(yù)測將成為決策的主要依據(jù)。
鐵路行業(yè)產(chǎn)生的數(shù)據(jù)主要有以下三個來源:
(1)設(shè)備日常監(jiān)控數(shù)據(jù)。鐵路運輸?shù)暮诵臉I(yè)務(wù)可以分為車、機、工、電、輛等幾大專業(yè),各專業(yè)都建設(shè)了較為完備的安全監(jiān)測/監(jiān)控系統(tǒng),如客貨車安全運行監(jiān)控的5T系統(tǒng),機車安全監(jiān)控的6A系統(tǒng),接觸網(wǎng)安全狀態(tài)監(jiān)測的6C系統(tǒng),監(jiān)控信號設(shè)備運行狀態(tài)的微機監(jiān)測系統(tǒng)等。監(jiān)控類數(shù)據(jù)以結(jié)構(gòu)化數(shù)據(jù)為主,數(shù)據(jù)產(chǎn)生頻率較高,累積數(shù)據(jù)量較大。對日常監(jiān)測數(shù)據(jù)開展分析有助于評估設(shè)備的實時健康狀態(tài),預(yù)測設(shè)備未來出現(xiàn)故障的概率,挖掘故障原因等。
(2)鐵路客貨運交易平臺積累的交易數(shù)據(jù)。在高速鐵路高速發(fā)展的同時,信息化進度不斷提速,12306網(wǎng)站和95306網(wǎng)站積累了大量的用戶訪問日志,訂單、支付記錄等結(jié)構(gòu)化和半結(jié)構(gòu)化信息,對這些數(shù)據(jù)的分析將有助于提高網(wǎng)站的運維水平、了解客戶的需求、預(yù)測未來銷售走勢以及通過客戶的訂單來優(yōu)化運能等。
(3)線路巡檢數(shù)據(jù)。高速鐵路開通之前需要進行線路聯(lián)調(diào)聯(lián)試,對路基、橋梁、隧道、接觸網(wǎng)、軌道、信號系統(tǒng)、通信設(shè)備、噪聲環(huán)境等狀態(tài)進行系統(tǒng)評估與檢測;線路運營期間,綜合檢測車也會對線路進行定期巡檢來評估線路整體的健康狀態(tài)。在聯(lián)調(diào)聯(lián)試和日常巡檢過程中積累了門類豐富的檢測數(shù)據(jù)。線路檢測數(shù)據(jù)以非結(jié)構(gòu)化數(shù)據(jù)(視頻、圖像)為主,每年數(shù)據(jù)增量可達(dá)PB級。這些數(shù)據(jù)是掌握線路整體健康狀態(tài),對線路進行全生命周期管理的重要資料,是鐵路開展大數(shù)據(jù)分析的重要方向之一。
上述三種數(shù)據(jù)在國鐵集團、鐵路局存儲數(shù)據(jù)規(guī)模達(dá)55 PB,并且不同類型數(shù)據(jù)增量顯著,眾多視頻和圖片僅滿足短期保存需求?,F(xiàn)階段,不管從數(shù)據(jù)資源總規(guī)模、日增數(shù)據(jù)量看,都標(biāo)志著鐵路已經(jīng)進入大數(shù)據(jù)發(fā)展時期[2]。
大數(shù)據(jù)分析往往涉及不同信息系統(tǒng)中的數(shù)據(jù)融合,除了數(shù)據(jù)量增長外,數(shù)據(jù)來源的廣泛性、多樣性是以往單系統(tǒng)數(shù)據(jù)分析所無法企及的。數(shù)據(jù)來源的廣泛性帶來了數(shù)據(jù)標(biāo)準(zhǔn)、含義不統(tǒng)一等諸多問題。為了解決上述問題,企業(yè)在開展大數(shù)據(jù)分析前必須引入數(shù)據(jù)治理體系。文獻(xiàn)[3]對大數(shù)據(jù)治理的概念、治理要素和框架以及面臨的挑戰(zhàn)進行了探討,提出了大數(shù)據(jù)治理的框架;文獻(xiàn)[4]將大數(shù)據(jù)治理體系分為協(xié)同籌劃、過程實施和監(jiān)控評估三大主要板塊,并對大數(shù)據(jù)治理的核心功能進行描述;文獻(xiàn)[5]認(rèn)為當(dāng)前各行各業(yè)對大數(shù)據(jù)治理缺乏整體認(rèn)識,體系建設(shè)不完善,并引入了行業(yè)通用的大數(shù)據(jù)治理體系框架;文獻(xiàn)[6]從數(shù)據(jù)科學(xué)技術(shù)和管理實踐問題兩個維度對大數(shù)據(jù)治理進了討論,提出了大數(shù)據(jù)治理的全景式框架,融合了數(shù)據(jù)生態(tài)、數(shù)據(jù)服務(wù)和數(shù)據(jù)基礎(chǔ);文獻(xiàn)[7]將科學(xué)技術(shù)相關(guān)文獻(xiàn)、學(xué)者動態(tài)、論壇熱點等非結(jié)構(gòu)化數(shù)據(jù)納入科技前瞻大數(shù)據(jù)分析的數(shù)據(jù)治理范疇,并構(gòu)建數(shù)據(jù)驅(qū)動的大數(shù)據(jù)治理體系,通過LDA模型實現(xiàn)技術(shù)趨勢預(yù)測;文獻(xiàn)[8]進而判斷大數(shù)據(jù)對傳統(tǒng)政府治理帶來的影響,認(rèn)為大數(shù)據(jù)治理是傳統(tǒng)政府治理走向數(shù)字化之路的關(guān)鍵,并提出了大數(shù)據(jù)時代的政府公共決策體系機制的基本結(jié)構(gòu);文獻(xiàn)[9]對大數(shù)據(jù)治理機構(gòu)職能定位及配置進行了歸納,并形成了治理機構(gòu)評價體系指標(biāo)體系;文獻(xiàn)[10]對大數(shù)據(jù)治理存在的安全問題進行了分析并提出了應(yīng)對建議;文獻(xiàn)[11]對網(wǎng)絡(luò)安全中的大數(shù)據(jù)治理給出了規(guī)劃建議,指導(dǎo)實施網(wǎng)絡(luò)安全時如何保護數(shù)據(jù)。
上述研究多側(cè)重于大數(shù)據(jù)治理的概念、范疇以及行業(yè)通用的治理體系建設(shè)。鐵路企業(yè)是具有一定行業(yè)管理職能的傳統(tǒng)國有企業(yè),其大數(shù)據(jù)治理體系的建設(shè)需要依據(jù)現(xiàn)有信息化水平分階段分步驟的建設(shè)。
雖然鐵路信息系統(tǒng)建設(shè)不斷改善,但是系統(tǒng)之間選擇各自為戰(zhàn),缺乏足夠的數(shù)據(jù)共享量,集成程度相對較差,鐵路企業(yè)需要進一步做好數(shù)據(jù)維護工作,便于進行一體化管理。目前數(shù)據(jù)管理強度落后,缺乏足夠的標(biāo)準(zhǔn)化程度,出現(xiàn)數(shù)據(jù)不一致、數(shù)據(jù)不精準(zhǔn)等問題,數(shù)據(jù)質(zhì)量需要在后期運作中不斷提升。結(jié)合上述現(xiàn)狀進行分析,本研究將提出關(guān)于鐵路大數(shù)據(jù)的治理體系,具體參考圖1。
圖1 鐵路大數(shù)據(jù)治理體系框架
該框架涵蓋了鐵路企業(yè)大數(shù)據(jù)治理從認(rèn)知、組織建設(shè)、工作推進及成果展示的相關(guān)環(huán)節(jié)。其中,成熟度評估是對當(dāng)前企業(yè)大數(shù)據(jù)治理現(xiàn)狀進行分析,從而有針對性地建設(shè)和調(diào)整治理組織,并開展大數(shù)據(jù)治理各項工作,實現(xiàn)對數(shù)據(jù)的全生命周期管理,最終通過數(shù)據(jù)資源全景視圖展現(xiàn)治理成果;根據(jù)成果的應(yīng)用反饋再修正當(dāng)前的企業(yè)大數(shù)據(jù)治理成熟度,成為下一輪治理工作的基礎(chǔ),整個迭代流程如圖2所示。
圖2 鐵路大數(shù)據(jù)治理迭代流程
企業(yè)大數(shù)據(jù)治理成熟度分析是企業(yè)大數(shù)據(jù)治理現(xiàn)狀的基礎(chǔ),也是判斷企業(yè)與最終發(fā)展目標(biāo)距離的依據(jù),可以將大數(shù)據(jù)治理模型劃分成組織、策略、能力等架構(gòu)。分析鐵路企業(yè)大數(shù)據(jù)治理成熟度分為初始階段、起步階段、發(fā)展階段、成熟階段和創(chuàng)新階段,鐵路企業(yè)大數(shù)據(jù)治理成熟度階段示意圖如圖3所示。
圖3 鐵路企業(yè)大數(shù)據(jù)治理成熟度階段示意圖
鐵路從行政架構(gòu)可分為國鐵集團本級、鐵路局兩級,各級內(nèi)部又有不同的專業(yè)劃分,不同的機構(gòu)、專業(yè)之間在人員能力、組織機構(gòu)、對數(shù)據(jù)建設(shè)的重視程度與現(xiàn)狀都是不同的。需要對不同的機構(gòu)及下屬的不同專業(yè)部門進行成熟度評估,依據(jù)部門現(xiàn)狀以及鐵路大數(shù)據(jù)發(fā)展的總體規(guī)劃,制定本部門未來1~3年數(shù)據(jù)治理的目標(biāo),并且本著急用先行的策略,找到能力和目標(biāo)之間的差距,按部就班地實施整體規(guī)劃。
組織機構(gòu)建設(shè)對數(shù)據(jù)治理過程有重要意義,這也是所有企業(yè)共識,也是數(shù)據(jù)治理的核心。因此,在鐵路企業(yè)開展數(shù)據(jù)治理需要在決策層組建由國鐵集團高層管理人員組成的數(shù)據(jù)治理委員會;在領(lǐng)導(dǎo)層,分別由國鐵集團信息管理部門以及各業(yè)務(wù)部門領(lǐng)導(dǎo)、業(yè)務(wù)專家等人員組建鐵路局?jǐn)?shù)據(jù)工作小組;在實施層,由各業(yè)務(wù)部門工作人員和信息系統(tǒng)研發(fā)維護人員組成數(shù)據(jù)治理項目實施組,具體負(fù)責(zé)數(shù)據(jù)治理工作同業(yè)務(wù)系統(tǒng)的對接和實施工作。實施組根據(jù)當(dāng)前企業(yè)數(shù)據(jù)治理成熟度,可以包括主數(shù)據(jù)工作組、數(shù)據(jù)全景視圖發(fā)布工作組、數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)工作組等。整體組織機構(gòu)如圖4所示。
圖4 鐵路大數(shù)據(jù)治理組織架構(gòu)圖
元數(shù)據(jù)可結(jié)合具體用途進行劃分:業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)。技術(shù)元數(shù)據(jù)主要用于保持系統(tǒng)技術(shù)細(xì)節(jié),可進行大數(shù)據(jù)平臺和倉庫的開發(fā)。業(yè)務(wù)元數(shù)據(jù)則站在業(yè)務(wù)的角度分析系統(tǒng)數(shù)據(jù),能為使用者、實際系統(tǒng)建立語義層。
目前,鐵路主數(shù)據(jù)中心和各鐵路局應(yīng)用中心運行的信息系統(tǒng)大約2 500個。對上述信息系統(tǒng)元數(shù)據(jù)的采集是構(gòu)建鐵路企業(yè)級數(shù)據(jù)模型,梳理數(shù)據(jù)標(biāo)準(zhǔn)的基礎(chǔ)。通過建設(shè)鐵路數(shù)據(jù)服務(wù)平臺,通過抓取數(shù)據(jù)庫結(jié)構(gòu)或者由信息系統(tǒng)定時推送兩種方式實現(xiàn)元數(shù)據(jù)的采集和更新,在統(tǒng)一平臺內(nèi)部進行匯集整理。
鐵路行業(yè)的信息系統(tǒng)建設(shè)面臨著業(yè)務(wù)和信息系統(tǒng)存在差異,出現(xiàn)適應(yīng)變革靈活性不足的問題,如站段的工務(wù)安全生產(chǎn)管理系統(tǒng)中存儲了鐵軌、道岔等基礎(chǔ)設(shè)施的日常監(jiān)測信息,聯(lián)調(diào)聯(lián)試對這些設(shè)備產(chǎn)生的檢測數(shù)據(jù)則存儲在另外的信息系統(tǒng)中,這種條塊化的IT架構(gòu)造成了信息共享困難、運營和投資成本升高等問題。建設(shè)企業(yè)級數(shù)據(jù)模型用于企業(yè)的重要業(yè)務(wù)元素以及這些元素之間的關(guān)系,能夠清楚地了解企業(yè)的數(shù)據(jù)結(jié)構(gòu)和業(yè)務(wù)規(guī)則,能為IT人員和業(yè)務(wù)人員建立互動平臺,是實現(xiàn)業(yè)務(wù)智能的重要基礎(chǔ)。
在建設(shè)鐵路公司數(shù)據(jù)模型時,需要劃分多個層次:主題域模型、概念數(shù)據(jù)模型、邏輯數(shù)據(jù)模型、物理數(shù)據(jù)模型。主題域模型主要用于判斷業(yè)務(wù)抽象多個實體的相互關(guān)系;頂級實體細(xì)分成更多子實體后形成概念數(shù)據(jù)模型;設(shè)計出每個實體的屬性定義之后形成了邏輯數(shù)據(jù)模型,通常是滿足第三范式的;邏輯數(shù)據(jù)模型同具體大數(shù)據(jù)平臺的結(jié)合形成了物理數(shù)據(jù)模型。圖5是本研究提出的鐵路企業(yè)主題域模型示例。
圖5 鐵路企業(yè)主題域模型
近年來,隨著鐵路信息化建設(shè)的逐步深入,信息系統(tǒng)已覆蓋客貨營銷、運輸組織、經(jīng)營管理等各個領(lǐng)域,基礎(chǔ)設(shè)施及設(shè)備檢測方面,鐵路的工務(wù)、電務(wù)、供電、車輛和機務(wù)等部門積累了鐵路線路、通信信號、機車車輛等各種設(shè)施設(shè)備的海量數(shù)據(jù)。這些系統(tǒng)之間存在著大量的共用信息,如車型、車號、物資編碼、車站名稱等。鐵路開展主數(shù)據(jù)管理首先需要判斷上述數(shù)據(jù)要素,并創(chuàng)建數(shù)據(jù)目錄信息;然后,判斷主數(shù)據(jù)管理模式,根據(jù)鐵路組織機構(gòu)的特點,核心系統(tǒng)主數(shù)據(jù)采用集中型管理,次要型系統(tǒng)采用協(xié)同性管理的方式更容易實施;之后,還需要確定數(shù)據(jù)所有者,創(chuàng)建完善的數(shù)據(jù)管理組織,做好主數(shù)據(jù)流程的規(guī)范工作;最后,基于以上標(biāo)準(zhǔn)和原則建設(shè)主數(shù)據(jù)管理系統(tǒng),實現(xiàn)鐵路全行業(yè)的主數(shù)據(jù)管理。
建設(shè)鐵路數(shù)據(jù)質(zhì)量管理體系,就是要創(chuàng)建企業(yè)數(shù)據(jù)管理工具,提升數(shù)據(jù)管理質(zhì)量,將鐵路相關(guān)的指標(biāo)作為切入口,客觀分析數(shù)據(jù)的成熟性,并對數(shù)據(jù)進行集中抽取,以此滿足標(biāo)準(zhǔn)化管理的需求,組織數(shù)據(jù)稽查工作,提升優(yōu)化方法的質(zhì)量,做好數(shù)據(jù)清洗、數(shù)據(jù)清除等工作,降低數(shù)據(jù)多頭管理矛盾和問題,進而建立數(shù)據(jù)資產(chǎn),通過創(chuàng)建企業(yè)數(shù)據(jù)質(zhì)量管理制度、管理規(guī)范等方式,促進價值數(shù)據(jù)屬性的提升,使業(yè)務(wù)運營和經(jīng)營分析質(zhì)量得到提升。本文基于鐵路企業(yè)現(xiàn)狀提出了數(shù)據(jù)質(zhì)量管理的全流程,如圖6所示。
圖6 鐵路企業(yè)數(shù)據(jù)質(zhì)量管理流程設(shè)計
鐵路大數(shù)據(jù)場景下,來自各業(yè)務(wù)系統(tǒng)的數(shù)據(jù)會統(tǒng)一匯集至鐵路大數(shù)據(jù)服務(wù)平臺并開展數(shù)據(jù)質(zhì)量稽核。數(shù)據(jù)質(zhì)量稽核根據(jù)定義的數(shù)據(jù)稽核規(guī)則對平臺上的數(shù)據(jù)合規(guī)性進行校驗,應(yīng)具備離線分析和內(nèi)存準(zhǔn)實時分析的能力從而處理TB級別數(shù)據(jù)量,并給出數(shù)據(jù)質(zhì)量稽核報告。
鐵路業(yè)務(wù)信息系統(tǒng)中存在著大量的個人隱私數(shù)據(jù),包括:乘車人信息、企業(yè)職工社保信息、員工履歷信息、醫(yī)療信息等;還存在著跟鐵路企業(yè)建設(shè)運營相關(guān)的涉密數(shù)據(jù),如高鐵橋梁隧道建設(shè)期參數(shù)、安全事故信息、設(shè)備故障詳情等。由于開展大數(shù)據(jù)分析業(yè)務(wù)所需的數(shù)據(jù)集中匯聚,給數(shù)據(jù)安全帶來的更大的安全風(fēng)險。
對上述敏感數(shù)據(jù)的保護需要首先建設(shè)數(shù)據(jù)的安全分級體系,包括劃定敏感數(shù)據(jù)范圍,指定隱私數(shù)據(jù)及信息安全管理委員會作為相關(guān)責(zé)任主體,制定網(wǎng)絡(luò)安全管理制度、密碼安全管理制度、數(shù)據(jù)備份安全管理制度,劃分平臺使用人員權(quán)限等;其次從技術(shù)角度,做好數(shù)據(jù)訪問權(quán)限控制,對結(jié)構(gòu)化數(shù)據(jù)應(yīng)支持粒度為單元格級的訪問控制,不同涉密等級的人員只能訪問對應(yīng)密級的數(shù)據(jù),對數(shù)據(jù)的任何操作和訪問都需要被系統(tǒng)記錄并存檔;另外,還要制定針對特權(quán)用戶(例如數(shù)據(jù)庫管理員、平臺運維人員等)的數(shù)據(jù)安全管理策略,以監(jiān)控特權(quán)用戶對敏感數(shù)據(jù)的訪問,用戶對數(shù)據(jù)的訪問記錄應(yīng)以日志的形式存儲在大數(shù)據(jù)服務(wù)平臺中作為審計依據(jù)。
實現(xiàn)鐵路數(shù)據(jù)全生命周期管理必須建立數(shù)據(jù)生命周期管理體系,應(yīng)采用數(shù)據(jù)湖的形式存儲和管理PB級別的數(shù)據(jù)。數(shù)據(jù)湖的特點是不對匯聚的數(shù)據(jù)進行加工,保留原始數(shù)據(jù)格式,在使用之前根據(jù)業(yè)務(wù)需要開展加工和處理。在大數(shù)據(jù)量場景下為了節(jié)省存儲成本,應(yīng)根據(jù)數(shù)據(jù)的產(chǎn)生時間和使用頻度將數(shù)據(jù)分為冷、溫、熱數(shù)據(jù)。冷數(shù)據(jù)可以采用低成本存儲方式,熱數(shù)據(jù)采用高速存儲,確保數(shù)據(jù)的高可用性。另外,還需要制定全路統(tǒng)一的數(shù)據(jù)生命周期管理,建立一體化的管理標(biāo)準(zhǔn),針對目前的數(shù)據(jù)進行更細(xì)化的管理,明確管理標(biāo)準(zhǔn)、管理方案、管理制度,使數(shù)據(jù)管理工作保持科學(xué)性、系統(tǒng)性、統(tǒng)一性等。規(guī)范中還要定義數(shù)據(jù)清理原則、數(shù)據(jù)清理周期以及監(jiān)督規(guī)范執(zhí)行的人員,從而保證數(shù)據(jù)全生命周期管理工作的正常運作。
建設(shè)鐵路數(shù)據(jù)資源目錄系統(tǒng),不僅可以作為數(shù)據(jù)治理成果展示的平臺,還是企業(yè)數(shù)據(jù)資源共享交換的門戶。該門戶連接大數(shù)據(jù)平臺,將納入大數(shù)據(jù)治理的數(shù)據(jù)資源以目錄的形式對外發(fā)布。通過企業(yè)級的數(shù)據(jù)資源全景視圖,可以使得企業(yè)所掌握的數(shù)據(jù)資源情況一目了然,是數(shù)據(jù)交換與共享的基礎(chǔ),也為鐵路盤活數(shù)據(jù)資源提供了有效保證。
綜上所述,大數(shù)據(jù)治理工作是一項系統(tǒng)工程,不可能一蹴而就,從企業(yè)評估自身能力開始,到組織機構(gòu)變革創(chuàng)新、政策制定、流程重建等,都是較為詳細(xì)的工作項目。從大數(shù)據(jù)分析的角度看,大數(shù)據(jù)治理缺少激動人心的業(yè)務(wù)創(chuàng)新,更多的是枯燥無味、苦練內(nèi)功的持續(xù)投入。大數(shù)據(jù)治理工作的特點決定了企業(yè)大數(shù)據(jù)業(yè)務(wù)不可能迅速見效,領(lǐng)導(dǎo)層的決心和企業(yè)上下的協(xié)調(diào)一致是實現(xiàn)數(shù)據(jù)真正治理以及挖掘大數(shù)據(jù)價值的不二法門。