劉其韜
(中國(guó)鐵路哈爾濱局集團(tuán)有限公司 數(shù)據(jù)分析中心,哈爾濱150001)
數(shù)據(jù)分析是企業(yè)生產(chǎn)經(jīng)營(yíng)活動(dòng)的重要環(huán)節(jié),隨著大數(shù)據(jù)技術(shù)不斷發(fā)展和普及,數(shù)據(jù)分析被賦予了更深刻的內(nèi)涵和更寬廣的外延。在現(xiàn)代企業(yè)中,數(shù)據(jù)挖掘正在推動(dòng)著企業(yè)資源的深度開(kāi)發(fā),使其價(jià)值更充分地得以發(fā)掘。近年來(lái),國(guó)電、中移動(dòng)、京東等大型國(guó)企和物流電商先后組建了數(shù)據(jù)分析專業(yè)機(jī)構(gòu),大數(shù)據(jù)分析技術(shù)在精準(zhǔn)營(yíng)銷定位[1]、設(shè)備運(yùn)維監(jiān)測(cè)[2]、運(yùn)輸路徑優(yōu)化[3]等方面的應(yīng)用取得明顯效益。
目前,鐵路大數(shù)據(jù)應(yīng)用已經(jīng)起步,但由于鐵路系統(tǒng)作業(yè)規(guī)律復(fù)雜,設(shè)備技術(shù)密集多樣,建立數(shù)據(jù)分析體系的難度較大。在當(dāng)前條件下,如何建立具有鐵路企業(yè)特點(diǎn)的數(shù)據(jù)分析能力體系,是現(xiàn)階段的一個(gè)重要課題。
大數(shù)據(jù)技術(shù)發(fā)展至今,無(wú)論是理論模型還是實(shí)際解決方案,基本上形成了一種數(shù)據(jù)分析體系的典型模式[4],如圖1所示。
1.2.1 數(shù)據(jù)處理能力
包括數(shù)據(jù)存儲(chǔ)、計(jì)算、傳輸所必需的硬件軟件資源,例如存儲(chǔ)設(shè)備、計(jì)算設(shè)備、網(wǎng)絡(luò)設(shè)備,以及支持大數(shù)據(jù)應(yīng)用所必需的虛擬化、云計(jì)算等相關(guān)技術(shù)。
圖1 數(shù)據(jù)分析體系典型模式
1.2.2 分析工具能力
包含兩方面內(nèi)容:(1)工具本身,如基本統(tǒng)計(jì)工具、數(shù)據(jù)處理組件、建模評(píng)估及可視化工具,應(yīng)有可靠性能和完善功能,并形成組合;(2)應(yīng)用工具的能力,主體是人,能夠根據(jù)數(shù)據(jù)或業(yè)務(wù)需要,敏銳、靈活地選擇適用的工具和方案,避免在工具選擇上走彎路。
1.2.3 業(yè)務(wù)融合能力
(1)專業(yè)與信息技術(shù)的融合:在數(shù)據(jù)分析領(lǐng)域,業(yè)務(wù)的驅(qū)動(dòng)和主導(dǎo)格外重要,數(shù)據(jù)分析的結(jié)果也一定要作用到業(yè)務(wù)事件上才有意義和價(jià)值。分析人員不僅要具備豐富的專業(yè)知識(shí)和經(jīng)驗(yàn),而且還要長(zhǎng)于數(shù)據(jù)觀察,具備運(yùn)用數(shù)據(jù)發(fā)現(xiàn)問(wèn)題、解決問(wèn)題的能力;(2)專業(yè)與專業(yè)之間的關(guān)聯(lián):在鐵路局集團(tuán)公司層面,高度垂直分工的管理機(jī)制造成專業(yè)分工過(guò)細(xì),客觀上造成專業(yè)之間數(shù)據(jù)交流融合不足,在融合不同專業(yè)數(shù)據(jù)的基礎(chǔ)上做好數(shù)據(jù)挖掘,可為鐵路生產(chǎn)經(jīng)營(yíng)管理發(fā)掘出更多價(jià)值的信息資源;(3)不同專業(yè)的目標(biāo)趨同:實(shí)現(xiàn)局部與整體的協(xié)調(diào),如何把專業(yè)間博弈轉(zhuǎn)化為合作來(lái)破除壁壘是實(shí)現(xiàn)跨專業(yè)數(shù)據(jù)分析的前提,涉及深層次問(wèn)題,也觸及環(huán)境文化氛圍[5]。
1.2.4 數(shù)據(jù)治理能力
數(shù)據(jù)治理包含數(shù)據(jù)管理運(yùn)用相關(guān)的制度、標(biāo)準(zhǔn)、管理、監(jiān)控等內(nèi)容,以及支持?jǐn)?shù)據(jù)共享的相關(guān)標(biāo)準(zhǔn)和提供共享渠道的數(shù)據(jù)服務(wù)平臺(tái),可提供完善的數(shù)據(jù)安全、隱私保護(hù)體系的數(shù)據(jù)安全保障能力,具備數(shù)據(jù)管理機(jī)制的執(zhí)行落實(shí)能力。
1.2.5 數(shù)據(jù)思維能力
數(shù)據(jù)思維的概念比較寬泛,對(duì)企業(yè)而言包括如下主要內(nèi)容:(1)對(duì)數(shù)據(jù)具敏銳的洞察能力,善于從數(shù)據(jù)變化中總結(jié)發(fā)現(xiàn)規(guī)律[6];(2)能運(yùn)用數(shù)據(jù)和邏輯來(lái)描述現(xiàn)象;(3)善于建立數(shù)據(jù)關(guān)聯(lián);(4)善于從業(yè)務(wù)需求出發(fā)來(lái)收集和使用數(shù)據(jù),或依據(jù)業(yè)務(wù)判斷進(jìn)行數(shù)據(jù)運(yùn)用。
數(shù)據(jù)思維能力是對(duì)人的素質(zhì)要求,是對(duì)從事相關(guān)工作的人員的業(yè)務(wù)素質(zhì)與數(shù)據(jù)素養(yǎng)的綜合考量。
作為人的要素,應(yīng)該把主體擴(kuò)至團(tuán)隊(duì),數(shù)據(jù)分析大多都是合作活動(dòng),團(tuán)隊(duì)素質(zhì)包括業(yè)務(wù)素質(zhì)、技術(shù)能力、創(chuàng)新能力、數(shù)據(jù)思維意識(shí)及團(tuán)隊(duì)合作能力。
(1)標(biāo)準(zhǔn)體系,作為數(shù)據(jù)分析的基礎(chǔ),決定著未來(lái)數(shù)據(jù)共享難易程度,各專業(yè)不僅要建立自身的標(biāo)準(zhǔn)體系,還要服從于企業(yè)整體的標(biāo)準(zhǔn)體系;(2)數(shù)據(jù)管理制度體系,逐步建立并不斷完善覆蓋數(shù)據(jù)生命周期的相關(guān)法規(guī)和流程;(3)數(shù)據(jù)安全保障,包括保障機(jī)制和管理及技術(shù)手段,以及網(wǎng)絡(luò)安全防控體系、應(yīng)急處理機(jī)制等;(4)數(shù)據(jù)共享機(jī)制,包括相關(guān)的規(guī)定與規(guī)范、共享渠道和特定規(guī)則,如數(shù)據(jù)共享方式和標(biāo)準(zhǔn)。
(1)業(yè)務(wù)知識(shí)及經(jīng)驗(yàn),作為數(shù)據(jù)挖掘的驅(qū)動(dòng)力,業(yè)務(wù)知識(shí)儲(chǔ)備和實(shí)踐經(jīng)驗(yàn)是尋找發(fā)現(xiàn)規(guī)律的前提條件,讓團(tuán)隊(duì)不斷地掌握運(yùn)輸現(xiàn)場(chǎng)實(shí)際情況,保持知識(shí)結(jié)構(gòu)的先進(jìn)性,以適應(yīng)鐵路生產(chǎn)需要;(2)技術(shù)工具運(yùn)用能力,靈活而有效地運(yùn)用各種工具進(jìn)行數(shù)據(jù)處理和分析,達(dá)到理想的應(yīng)用效果;(3)業(yè)務(wù)與技術(shù)的有效結(jié)合,本文中兩個(gè)分析案例將體現(xiàn)這種結(jié)合;根據(jù)選定的業(yè)務(wù)課題,選擇恰當(dāng)?shù)墓ぞ哌M(jìn)行研究,開(kāi)展初步規(guī)律探究之后,通過(guò)進(jìn)一步學(xué)習(xí)和修正,形成完整的技術(shù)路徑;(4)設(shè)備保障,除了基礎(chǔ)存儲(chǔ)、計(jì)算資源之外,應(yīng)形成企業(yè)級(jí)設(shè)備平臺(tái)保障體系,數(shù)據(jù)分析平臺(tái)只是其基礎(chǔ)與核心,隨著業(yè)務(wù)拓展,與ERP、物聯(lián)網(wǎng)、地理信息平臺(tái)、各類業(yè)務(wù)應(yīng)用系統(tǒng)的銜接都是必然選擇;此外,還必須具備保證數(shù)據(jù)安全的技術(shù)手段。
在開(kāi)展一些跨領(lǐng)域、跨專業(yè)、跨部門(mén)的數(shù)據(jù)分析時(shí),最好由一個(gè)機(jī)構(gòu)負(fù)責(zé)組織,以統(tǒng)籌數(shù)據(jù)、算力、人力等資源,有利于消除本位因素,保證客觀公正和目標(biāo)集中。此外,根據(jù)業(yè)務(wù)需要和企業(yè)管理現(xiàn)實(shí),也可對(duì)該機(jī)構(gòu)賦予數(shù)據(jù)管理職能,將其作為信息化專業(yè)管理的有機(jī)組成部分。
環(huán)境文化是軟實(shí)力的一個(gè)重要內(nèi)容,針對(duì)鐵路局?jǐn)?shù)據(jù)分析體系的建設(shè),這種文化主要有3個(gè)要點(diǎn):(1)尊重規(guī)律,避免先入為主形成結(jié)論,應(yīng)以數(shù)據(jù)分析結(jié)果為導(dǎo)向;(2)要有大局觀,企業(yè)內(nèi)部組織能夠圍繞整體目標(biāo)去組織資源、采取行動(dòng),而不是僅圍繞小團(tuán)體和局部領(lǐng)域的目標(biāo)開(kāi)展行動(dòng);(3)崇尚創(chuàng)新,在開(kāi)展數(shù)據(jù)挖掘、探索規(guī)律的初期,往往沒(méi)有既定目標(biāo),結(jié)論也多是未知的,數(shù)據(jù)挖掘活動(dòng)離不開(kāi)手段方法的創(chuàng)新,形成鼓勵(lì)創(chuàng)新、容忍失敗的氛圍十分必要。
(1)確立并遵循自下而上的基本建設(shè)路徑,做好頂層設(shè)計(jì);(2)根據(jù)現(xiàn)實(shí)需要,開(kāi)展具體項(xiàng)目進(jìn)行檢驗(yàn)和示范應(yīng)用;(3)采取遞進(jìn)方式投入配套基礎(chǔ)設(shè)施,并根據(jù)需要適度進(jìn)行超前建設(shè);(4)統(tǒng)籌推進(jìn),把各種能力和要素按各自的規(guī)律做好建設(shè)和培育,以期在特定的階段發(fā)揮作用,促進(jìn)良性發(fā)展。
中國(guó)鐵路哈爾濱局集團(tuán)有限公司(簡(jiǎn)稱:哈局)于2018年部署了鐵路數(shù)據(jù)服務(wù)平臺(tái)(RDSP),利用既有的虛擬化資源作為基礎(chǔ)軟件平臺(tái),包括應(yīng)用門(mén)戶管理、數(shù)據(jù)采集、數(shù)據(jù)資產(chǎn)、數(shù)據(jù)安全、數(shù)據(jù)治理、腳本開(kāi)發(fā)、數(shù)據(jù)分析套件、數(shù)據(jù)倉(cāng)庫(kù)、可視化套件等,具備批處理、內(nèi)存計(jì)算、流計(jì)算等多種計(jì)算引擎,提供內(nèi)置的數(shù)據(jù)挖掘組件及可視化報(bào)表,供用戶開(kāi)展自助數(shù)據(jù)分析[7]。
經(jīng)過(guò)近半年的籌備,哈局?jǐn)?shù)據(jù)分析中心于2019年4 月成立,以檢測(cè)監(jiān)測(cè)數(shù)據(jù)為切入點(diǎn),機(jī)構(gòu)組建整合了軌道、信號(hào)、接觸網(wǎng)動(dòng)態(tài)檢測(cè)業(yè)務(wù),并對(duì)機(jī)務(wù)、車輛、工務(wù)、電務(wù)、供電行車設(shè)備的數(shù)據(jù)開(kāi)展分析調(diào)研,服務(wù)安全生產(chǎn)的同時(shí),打造數(shù)據(jù)分析能力,致力于發(fā)現(xiàn)各領(lǐng)域數(shù)據(jù)的內(nèi)在規(guī)律。在開(kāi)展既有動(dòng)態(tài)檢測(cè)工作的同時(shí),在數(shù)據(jù)分析利用方面進(jìn)行了探索。目前已編制檢測(cè)月報(bào)輔助工具,開(kāi)展了一些數(shù)據(jù)分析實(shí)驗(yàn)。
以下兩個(gè)實(shí)踐案例,分別在鐵路運(yùn)輸生產(chǎn)的不同領(lǐng)域采用不同的思路和方法,其分析過(guò)程和結(jié)果體現(xiàn)鐵路系統(tǒng)的生產(chǎn)特點(diǎn),具有一定代表性。
3.3.1 鐵路固定設(shè)備動(dòng)態(tài)檢測(cè)數(shù)據(jù)的常規(guī)分析
常規(guī)分析要滿足不同視角對(duì)既有數(shù)據(jù)的觀察。鑒于鐵路系統(tǒng)業(yè)務(wù)分析需求的復(fù)雜性,二維視角無(wú)法滿足多方面需要,因此結(jié)合基本的數(shù)據(jù)分析業(yè)務(wù),運(yùn)用數(shù)據(jù)立方體來(lái)處理數(shù)據(jù),不僅適用于當(dāng)前的動(dòng)態(tài)檢測(cè),也可以在各業(yè)務(wù)領(lǐng)域應(yīng)用。簡(jiǎn)而言之,就是在數(shù)據(jù)庫(kù)上建立數(shù)據(jù)立方體的邏輯結(jié)構(gòu),用以加工和存儲(chǔ)數(shù)據(jù),不同的切片形成報(bào)表;在此基礎(chǔ)上,實(shí)現(xiàn)基本的查詢與處理平臺(tái),支持上卷和下卷,提供交互式查詢和自助報(bào)表,結(jié)合合理的安全策略設(shè)置,還可以將其推送至移動(dòng)終端。
鐵路固定設(shè)備的動(dòng)態(tài)檢測(cè)數(shù)據(jù)一般包括優(yōu)良率、缺陷數(shù)量、扣分情況、綜合評(píng)價(jià)指標(biāo)等,這些數(shù)據(jù)具有時(shí)間和空間屬性,可構(gòu)成包含時(shí)間度量、空間度量、內(nèi)容度量的三維數(shù)據(jù)立方體。在把握維度需求的基礎(chǔ)上,編寫(xiě)程序?qū)霗z測(cè)數(shù)據(jù)切片,提供圖形化分析結(jié)果。
以鐵路工務(wù)系統(tǒng)軌道檢測(cè)數(shù)據(jù)為例:(1)按照內(nèi)容度量(優(yōu)良率、缺陷數(shù)量、平均公里超限、平均扣分、TQI等),運(yùn)用工具進(jìn)行切分;(2)在每個(gè)維度下,再按空間度量(段別、線別、車間別)進(jìn)行鉆取和卷??;(3)按檢測(cè)時(shí)間排列,進(jìn)行趨勢(shì)分析和規(guī)律分析。展示界面見(jiàn)圖2及圖3,細(xì)節(jié)缺陷數(shù)據(jù)的多維度切片分析見(jiàn)圖4。
分析工具投入使用后,一次性導(dǎo)入數(shù)據(jù),在不同維度上對(duì)數(shù)據(jù)進(jìn)行切片,便于專業(yè)部門(mén)從不同維度上進(jìn)行數(shù)據(jù)分析,發(fā)現(xiàn)問(wèn)題。同時(shí),報(bào)告生成時(shí)間由過(guò)去近半個(gè)月縮短到2~3個(gè)工作日,效率和時(shí)效性明顯改善。隨著體系建設(shè)的不斷深入,此類報(bào)表最終將演化為互動(dòng)式的數(shù)據(jù)交換平臺(tái)。
圖2 工務(wù)軌道質(zhì)量檢測(cè)數(shù)據(jù)按空間及管理維度的分析切片
圖3 工務(wù)軌道質(zhì)量檢測(cè)數(shù)據(jù)按時(shí)間、空間及管理維度的分析切片
圖4 工務(wù)軌道質(zhì)量檢測(cè)細(xì)節(jié)缺陷數(shù)據(jù)多維度綜合分析
3.3.2 機(jī)車輪緣磨耗的數(shù)據(jù)挖掘探索
數(shù)據(jù)、業(yè)務(wù)需要、平臺(tái)是數(shù)據(jù)挖掘不可缺少的三個(gè)要素。模型訓(xùn)練、關(guān)聯(lián)能力是數(shù)據(jù)分析的核心能力和競(jìng)爭(zhēng)力,也最有挑戰(zhàn)性和探索性[8]。依托既有的數(shù)據(jù)資源,從業(yè)務(wù)需求入手,形成假設(shè),利用平臺(tái)計(jì)算資源,開(kāi)展建模、訓(xùn)練、糾正和驗(yàn)證,從而找出內(nèi)在規(guī)律,這也可視為一種簡(jiǎn)單的模型訓(xùn)練或者機(jī)器學(xué)習(xí),對(duì)專業(yè)化分工的企業(yè)而言,是一種很好的訓(xùn)練方式,能夠形成具有普遍適用性的工具和方法[9]。
在鐵路機(jī)務(wù)專業(yè)開(kāi)展了基于機(jī)車輪緣磨耗情況的數(shù)據(jù)挖掘?qū)嶒?yàn)。以輪對(duì)自動(dòng)檢測(cè)棚記錄的輪緣磨耗數(shù)據(jù)為對(duì)象,對(duì)輪緣磨耗的影響因素進(jìn)行分析,以期找出潛在規(guī)律,輔助機(jī)務(wù)段優(yōu)化車輪鏇修時(shí)機(jī),在確保安全的前提下,為節(jié)約成本提供依據(jù)。
從機(jī)務(wù)專業(yè)角度判斷,輪緣磨耗主要在機(jī)車通過(guò)曲線運(yùn)行時(shí)發(fā)生,一般認(rèn)為與曲線的長(zhǎng)度和半徑均有關(guān)系,但其中的內(nèi)在規(guī)律一直未能量化。為此,提取三棵樹(shù)機(jī)務(wù)段管內(nèi)哈爾濱地區(qū)機(jī)車輪對(duì)檢測(cè)棚在2019年4月10日—7月10日期間的輪緣數(shù)據(jù)作為分析對(duì)象。(1)依據(jù)輪緣力公式和LKJ 數(shù)據(jù),編寫(xiě)曲線當(dāng)量計(jì)算器,對(duì)各機(jī)車牽引區(qū)段的曲線進(jìn)行當(dāng)量化處理;(2)將各區(qū)段曲線當(dāng)量與在此期間各機(jī)車擔(dān)當(dāng)車次的走行路徑相結(jié)合,形成各車次曲線當(dāng)量;(3)將各車次曲線當(dāng)量加權(quán)平均,對(duì)統(tǒng)計(jì)期間各機(jī)車每?jī)纱稳霂?kù)之間的輪緣磨耗量進(jìn)行切分,得到各車次輪緣磨耗數(shù)據(jù)9792條,作為訓(xùn)練數(shù)據(jù);(4)運(yùn)用多元線性回歸方法,建立客運(yùn)內(nèi)燃機(jī)車輪緣水平磨耗的數(shù)學(xué)模型如下:
式中:Wf為輪緣水平磨耗量(mm),R為線路曲線半徑(m),L為曲線長(zhǎng)度(m)。
經(jīng)數(shù)學(xué)方法檢驗(yàn),檢驗(yàn)結(jié)果見(jiàn)圖5,該模型擬合優(yōu)度為0.89,具有較高的可信度。
圖5 輪緣水平磨耗預(yù)測(cè)模型擬合度檢驗(yàn)結(jié)果
為進(jìn)一步驗(yàn)證模型有效性,提取哈爾濱地區(qū)在7月11—31日期間的入庫(kù)機(jī)車輪緣數(shù)據(jù)進(jìn)行驗(yàn)證。由于統(tǒng)計(jì)時(shí)間段較短、數(shù)據(jù)量少,對(duì)檢測(cè)設(shè)備誤差影響較大。為此,選取其中5臺(tái)擔(dān)當(dāng)本務(wù)且記錄在10條以上的機(jī)車,對(duì)各機(jī)車在統(tǒng)計(jì)期間所擔(dān)當(dāng)各車次的途徑曲線進(jìn)行當(dāng)量化處理,而后代入模型,再將所得數(shù)據(jù)與實(shí)際磨耗量做對(duì)比,得到結(jié)果見(jiàn)表1。
從分析結(jié)果看,五臺(tái)機(jī)車?yán)塾?jì)磨耗值與模型預(yù)測(cè)值的差異分布在-0.07mm 至0.05mm 之間,在輪緣檢測(cè)精度按0.1mm 掌握的情況下,模型基本可滿足使用要求。以上分析雖與精準(zhǔn)分析尚有差距,并且由于數(shù)據(jù)量不足,沒(méi)有進(jìn)行模型的繼續(xù)優(yōu)化,但從實(shí)驗(yàn)角度,完成了一個(gè)典型的數(shù)據(jù)挖掘研究過(guò)程。
表1 機(jī)車實(shí)際磨耗與模型預(yù)測(cè)值的差異對(duì)比
在鐵路局集團(tuán)公司當(dāng)前條件下,對(duì)數(shù)據(jù)分析的理論和方法進(jìn)行初步探討。數(shù)據(jù)分析方法的應(yīng)用能夠?yàn)殍F路企業(yè)帶來(lái)切實(shí)的安全收益和經(jīng)濟(jì)效益;同時(shí),數(shù)據(jù)分析體系在建設(shè)過(guò)程中也面臨著一些無(wú)法回避的難題,諸如數(shù)據(jù)來(lái)源困難、數(shù)據(jù)質(zhì)量不理想、政策支持不足、跨專業(yè)融合困難、專業(yè)人員缺乏等。這些問(wèn)題的根源可能觸及鐵路企業(yè)的組織、管理、文化等深層次內(nèi)容。在大數(shù)據(jù)應(yīng)用推廣的道路上,這些問(wèn)題是必須面對(duì)的矛盾,將隨著發(fā)展的深入得到解決,解決這些問(wèn)題的理想途徑是,在推進(jìn)能力體系建設(shè)的過(guò)程中同步做好統(tǒng)籌規(guī)劃。
隨著信息技術(shù)的不斷發(fā)展,以及管理方式的不斷改進(jìn),數(shù)據(jù)分析的前景將日益廣闊,必將在科學(xué)管理與決策支持上釋放出巨大威力。