劉 婷,謝孟霞,王 婷,張 琦
(中國(guó)鐵路哈爾濱局集團(tuán)有限公司信息技術(shù)所,哈爾濱 150006)
數(shù)據(jù)是一種資產(chǎn),也是一種生產(chǎn)要素,可以提供強(qiáng)大的決策力,隨著時(shí)間的沉淀,最終會(huì)成為海量的、高增長(zhǎng)率的、多樣化的信息資產(chǎn)。在大數(shù)據(jù)的分析與應(yīng)用盛行的時(shí)代,大數(shù)據(jù)技術(shù)已經(jīng)深入到各行各業(yè)之中,其地位也在日益凸顯。在大數(shù)據(jù)戰(zhàn)略的背景下,吹響了加快發(fā)展數(shù)字經(jīng)濟(jì)、建設(shè)數(shù)字中國(guó)的號(hào)角。標(biāo)志著大數(shù)據(jù)正式成為我國(guó)戰(zhàn)略規(guī)劃的核心任務(wù)之一,研究和發(fā)展大數(shù)據(jù)技術(shù)已經(jīng)成為必然趨勢(shì)[1]。
鐵路貨運(yùn)是我國(guó)交通行業(yè)的重要組成部分。隨著貨運(yùn)組織改革的不斷推進(jìn),中國(guó)國(guó)家鐵路集團(tuán)有限公司已相繼推廣了貨運(yùn)電子商務(wù)、調(diào)度、現(xiàn)車(chē)及貨票等主干貨物運(yùn)輸支撐信息管理系統(tǒng),目前已累積大量數(shù)據(jù)。據(jù)初步統(tǒng)計(jì),國(guó)鐵集團(tuán)及各鐵路局集團(tuán)公司存儲(chǔ)的數(shù)據(jù)總量已達(dá)到10 PB的數(shù)據(jù)級(jí)[2],且各類(lèi)數(shù)據(jù)增量很快,所以中國(guó)鐵路貨運(yùn)正處于大數(shù)據(jù)時(shí)代。
1.1.1 貨運(yùn)系統(tǒng)的建設(shè)過(guò)程中,各管理系統(tǒng)比較獨(dú)立
隨著信息化的不斷建設(shè),哈爾濱局集團(tuán)公司已完成了貨運(yùn)電子商務(wù)系統(tǒng)、東北快運(yùn)系統(tǒng)、貨票系統(tǒng)及貨運(yùn)站系統(tǒng)等貨運(yùn)業(yè)務(wù)系統(tǒng)推廣工作。首先,在這些系統(tǒng)陸續(xù)推廣與使用后,每天會(huì)產(chǎn)生大量業(yè)務(wù)數(shù)據(jù),但是各系統(tǒng)之間耦合度不高,大部分?jǐn)?shù)據(jù)只在系統(tǒng)內(nèi)部進(jìn)行分析,缺少橫向綜合對(duì)比,這直接限制了系統(tǒng)發(fā)揮更大的作用,對(duì)于數(shù)據(jù)背后的價(jià)值不能進(jìn)行深入地挖掘。其次,數(shù)據(jù)共享備份不夠,如果各業(yè)務(wù)系統(tǒng)出現(xiàn)故障,將會(huì)產(chǎn)生數(shù)據(jù)二義問(wèn)題。最后,特別是數(shù)據(jù)字典需要多方提供,不能避免數(shù)據(jù)有沖突,所以需要加強(qiáng)統(tǒng)一管理維護(hù)。因此,需要將各信息系統(tǒng)的數(shù)據(jù)進(jìn)行集中整合,才能更好地服務(wù)于鐵路貨運(yùn)業(yè)務(wù)。
1.1.2 數(shù)據(jù)源錄入不夠準(zhǔn)確
數(shù)據(jù)是業(yè)務(wù)分析和指揮決策的基礎(chǔ),如果基礎(chǔ)數(shù)據(jù)不準(zhǔn)確將嚴(yán)重影響數(shù)據(jù)的分析結(jié)果,因此數(shù)據(jù)的準(zhǔn)確性對(duì)大數(shù)據(jù)平臺(tái)的應(yīng)用效果起到重要作用。目前,由于鐵路貨運(yùn)中各個(gè)系統(tǒng)的基礎(chǔ)數(shù)據(jù)均是由車(chē)站人工錄入,在錄入數(shù)據(jù)的過(guò)程中,數(shù)據(jù)標(biāo)準(zhǔn)化程度不高,影響數(shù)據(jù)質(zhì)量。同時(shí)在錄入過(guò)程中也存在數(shù)據(jù)不一致和數(shù)據(jù)不準(zhǔn)確的問(wèn)題,這會(huì)直接導(dǎo)致后續(xù)對(duì)數(shù)據(jù)的操作及得出的結(jié)論失去意義。
1.1.3 數(shù)據(jù)分析技術(shù)能力不足
數(shù)據(jù)分析是一個(gè)清理、轉(zhuǎn)換、進(jìn)行數(shù)據(jù)建模的過(guò)程,從而得出結(jié)論并支持決策。目前數(shù)據(jù)分析統(tǒng)計(jì)仍采用傳統(tǒng)的手工統(tǒng)計(jì)或數(shù)據(jù)庫(kù)技術(shù),而使用數(shù)據(jù)處理技術(shù)進(jìn)行大數(shù)據(jù)的應(yīng)用分析缺少專(zhuān)用技術(shù)與工具的支撐,數(shù)據(jù)的可用性不強(qiáng)、時(shí)效性低,對(duì)決策不能提供很好的數(shù)據(jù)支持。
1.1.4 鐵路貨運(yùn)數(shù)據(jù)共享模式不成熟
數(shù)據(jù)共享的目的是為了提高信息的利用率,減少“信息孤島”效應(yīng)。在數(shù)據(jù)采集、整合等方面也會(huì)節(jié)約一定的成本。但是由于目前各部門(mén)之間的合作模式不清晰,有些鐵路業(yè)務(wù)數(shù)據(jù)是不愿意提供的,從而加大了數(shù)據(jù)采集的難度。因此,如何達(dá)成不同部門(mén)之間的合作共贏模式成為了數(shù)據(jù)融合的先決條件。通過(guò)有效的措施促進(jìn)數(shù)據(jù)融合,從而形成覆蓋更大領(lǐng)域的數(shù)據(jù)集合,全面深化大數(shù)據(jù)的應(yīng)用范圍,真正地為各項(xiàng)決策提供數(shù)據(jù)支持。
1.2.1 做好數(shù)據(jù)質(zhì)量保障工作
數(shù)據(jù)的質(zhì)量決定著大數(shù)據(jù)平臺(tái)的效果,做好數(shù)據(jù)質(zhì)量的保障工作是發(fā)揮大數(shù)據(jù)平臺(tái)作用的前提。首先,通過(guò)考核制度提高操作人員的技術(shù)水平,盡可能保證數(shù)據(jù)在錄入階段的準(zhǔn)確性。避免因?yàn)槌跏紨?shù)據(jù)的錯(cuò)誤錄入而導(dǎo)致后續(xù)操作失效的問(wèn)題發(fā)生。其次,在數(shù)據(jù)交換過(guò)程中需要完善的制度標(biāo)準(zhǔn),明確交換機(jī)制及雙方責(zé)任,有效地執(zhí)行數(shù)據(jù)交換標(biāo)準(zhǔn)。最后,可以通過(guò)開(kāi)發(fā)適合公司的數(shù)據(jù)管理系統(tǒng),在采集數(shù)據(jù)后對(duì)數(shù)據(jù)進(jìn)行有效清洗并做到規(guī)范化,為后期數(shù)據(jù)挖掘和分析提供更高質(zhì)量的可信數(shù)據(jù)。
1.2.2 建立數(shù)據(jù)倉(cāng)庫(kù)
數(shù)據(jù)倉(cāng)庫(kù)是用于數(shù)據(jù)管理的工具,構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)可以提供一個(gè)支持決策分析的環(huán)境,從不同的數(shù)據(jù)源中獲取數(shù)據(jù)、組織數(shù)據(jù),進(jìn)而更加有效地進(jìn)行業(yè)務(wù)決策。將目前與鐵路貨運(yùn)相關(guān)的生產(chǎn)系統(tǒng)中的數(shù)據(jù)進(jìn)行提取與清洗,并存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)中,在經(jīng)過(guò)篩選處理可以提高數(shù)據(jù)的價(jià)值。
1.2.3 數(shù)據(jù)安全治理
在數(shù)據(jù)采集、處理和共享等方面都存在安全威脅,在大數(shù)據(jù)時(shí)代確保敏感數(shù)據(jù)的安全性尤為重要。鐵路貨運(yùn)大數(shù)據(jù)平臺(tái)存儲(chǔ)與處理不同安全級(jí)別的數(shù)據(jù),在數(shù)據(jù)共享的同時(shí)會(huì)帶來(lái)更多的安全隱患,所以需要建立一套完善的、覆蓋數(shù)據(jù)整個(gè)生命周期的數(shù)據(jù)安全保障體系。同時(shí)可以通過(guò)大數(shù)據(jù)平臺(tái)安全評(píng)估體系,來(lái)進(jìn)一步確保數(shù)據(jù)安全。
建立鐵路貨運(yùn)大數(shù)據(jù)平臺(tái)首先要梳理出現(xiàn)有的數(shù)據(jù)資源,明確大數(shù)據(jù)平臺(tái)的應(yīng)用主題,對(duì)于梳理好的數(shù)據(jù)經(jīng)過(guò)數(shù)據(jù)治理后加載到大數(shù)據(jù)平臺(tái),通過(guò)大數(shù)據(jù)平臺(tái)應(yīng)用層進(jìn)行分析和綜合展示,提供有效信息、支持決策[3]。建立鐵路貨運(yùn)大數(shù)據(jù)平臺(tái)主要分為建立數(shù)據(jù)采集層、數(shù)據(jù)傳輸層、數(shù)據(jù)存儲(chǔ)層、數(shù)據(jù)分析層及數(shù)據(jù)展示層5個(gè)層面,如圖1所示。
圖1 鐵路貨運(yùn)大數(shù)據(jù)平臺(tái)架構(gòu)
鐵路貨運(yùn)大數(shù)據(jù)主要分為鐵路綜合辦公網(wǎng)生產(chǎn)數(shù)據(jù)和互聯(lián)網(wǎng)類(lèi)數(shù)據(jù)2種。貨運(yùn)電子商務(wù)系統(tǒng)、東北快運(yùn)系統(tǒng)、貨運(yùn)調(diào)度系統(tǒng)、貨運(yùn)計(jì)劃系統(tǒng)、現(xiàn)車(chē)系統(tǒng)、貨運(yùn)站系統(tǒng)及貨票系統(tǒng)是鐵路內(nèi)部數(shù)據(jù)的主要數(shù)據(jù)源。鐵路是運(yùn)輸服務(wù)型企業(yè),需要時(shí)刻關(guān)注政府的發(fā)展規(guī)劃,客戶(hù)的需求與反饋意見(jiàn),以及經(jīng)濟(jì)政策和市場(chǎng)動(dòng)態(tài)等多方面信息,還需要掌握公路、水路價(jià)格及相關(guān)運(yùn)量數(shù)據(jù),這些互聯(lián)網(wǎng)類(lèi)的數(shù)據(jù)對(duì)鐵路貨運(yùn)業(yè)務(wù)拓展也起到指導(dǎo)性作用,可以為集團(tuán)公司后期的決策分析提供支持。
通過(guò)網(wǎng)絡(luò)爬蟲(chóng)技術(shù)獲取萬(wàn)維網(wǎng)數(shù)據(jù),同時(shí)為了提高抓取性能,加快抓取速度,貨運(yùn)大數(shù)據(jù)平臺(tái)采用Java多線(xiàn)程技術(shù),并行處理多個(gè)URL連接,從而實(shí)現(xiàn)快速且高效的信息采集;同時(shí)采用廣度優(yōu)先策略,以分層的方式進(jìn)行網(wǎng)頁(yè)抓取,可以大大降低服務(wù)器的內(nèi)存消耗。
數(shù)據(jù)傳輸層包括鐵路綜合辦公網(wǎng)及互聯(lián)網(wǎng)。內(nèi)網(wǎng)與外網(wǎng)間采用鐵路安全平臺(tái)進(jìn)行阻隔,確?;ヂ?lián)網(wǎng)數(shù)據(jù)安全傳輸?shù)絻?nèi)網(wǎng)進(jìn)行使用,有效保護(hù)鐵路內(nèi)部辦公網(wǎng)絡(luò)的安全。集團(tuán)公司與各貨運(yùn)站段之間數(shù)據(jù)傳輸則采用鐵路辦公網(wǎng)作為網(wǎng)絡(luò)載體。
由于鐵路貨運(yùn)業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)都是格式化數(shù)據(jù),均以關(guān)系型數(shù)據(jù)庫(kù)的方式進(jìn)行存儲(chǔ),主要數(shù)據(jù)庫(kù)產(chǎn)品為Oracle數(shù)據(jù)庫(kù)。目前鐵路貨運(yùn)業(yè)務(wù)也存在一些檢測(cè)類(lèi)的輔助系統(tǒng),其數(shù)據(jù)是以音頻或視頻等形式存儲(chǔ)的,這部分?jǐn)?shù)據(jù)量較大,且不適合存儲(chǔ)到數(shù)據(jù)庫(kù)中,因此這部分?jǐn)?shù)據(jù)需要采用分布式文件系統(tǒng)(HDFS)方式進(jìn)行存儲(chǔ)。而對(duì)于互聯(lián)網(wǎng)獲取的數(shù)據(jù)需要通過(guò)專(zhuān)業(yè)軟件產(chǎn)品(如Sqoop等),將數(shù)據(jù)轉(zhuǎn)化為文件方式進(jìn)行存儲(chǔ)。
由于大數(shù)據(jù)數(shù)據(jù)類(lèi)型分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)2種類(lèi)型,所以數(shù)據(jù)分析層分為結(jié)構(gòu)化數(shù)據(jù)分析與非結(jié)構(gòu)化數(shù)據(jù)分析。
結(jié)構(gòu)化數(shù)據(jù)是經(jīng)過(guò)處理后并加載到關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù),而結(jié)構(gòu)化數(shù)據(jù)分析已經(jīng)是一種逐漸趨于成熟的技術(shù)[4]。在鐵路貨運(yùn)業(yè)務(wù)中,結(jié)構(gòu)化數(shù)據(jù)分析可以通過(guò)各生產(chǎn)系統(tǒng)建設(shè)的數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行研究。例如分析數(shù)據(jù)量龐大的電子運(yùn)單數(shù)據(jù)時(shí),可以采用數(shù)據(jù)倉(cāng)庫(kù)的聯(lián)機(jī)分析處理(OLAP),OLAP作為一種多維查詢(xún)和分析工具,不但提高了查詢(xún)速度,使數(shù)據(jù)庫(kù)中大量數(shù)據(jù)得到有效地利用,同時(shí)也降低了服務(wù)器的性能損耗,如圖2所示。
圖2 OLAP架構(gòu)
非結(jié)構(gòu)化數(shù)據(jù)是音頻、視頻和圖片等文件,非結(jié)構(gòu)化數(shù)據(jù)是不滿(mǎn)足任何預(yù)定義模式的數(shù)據(jù),可以加載到NoSQL等非關(guān)系型數(shù)據(jù)庫(kù)中。通過(guò)傳統(tǒng)的數(shù)據(jù)分析技術(shù)是不足以處理這類(lèi)數(shù)據(jù)的。非結(jié)構(gòu)化分析基于Hadoop、Spark等框架進(jìn)行研究。其中對(duì)于分布式數(shù)據(jù)處理的抽象層次不高時(shí),采用Hadoop分布式文件系統(tǒng)對(duì)數(shù)據(jù)存儲(chǔ)并處理;Hadoop分布式文件系統(tǒng)(HDFS)是Hadoop應(yīng)用中一個(gè)最主要的分布式存儲(chǔ)系統(tǒng)。一個(gè)HDFS集群主要由1個(gè)元數(shù)據(jù)管理節(jié)點(diǎn)(NameNode)和很多個(gè)數(shù)據(jù)節(jié)點(diǎn)(DataNode)組成:NameNode管理文件系統(tǒng)的元數(shù)據(jù),而DataNode存儲(chǔ)了實(shí)際的數(shù)據(jù)。而對(duì)于需要使用機(jī)器學(xué)習(xí)及批處理等技術(shù)時(shí),則使用Spark框架。主要采用的算法包括回歸分析、統(tǒng)計(jì)分析、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)及深度學(xué)習(xí)等基礎(chǔ)算法,如圖3所示。
圖3 Hadoop分布式文件系統(tǒng)(HDFS)架構(gòu)
目前在數(shù)據(jù)展示方面應(yīng)用較多的工具是潤(rùn)乾報(bào)表,通過(guò)潤(rùn)乾報(bào)表可以根據(jù)自己的需求制定復(fù)雜的報(bào)表并進(jìn)行數(shù)據(jù)分析??梢酝ㄟ^(guò)引入ECharts等第三方圖庫(kù)進(jìn)行特色展示。基于html5 Canvas的ECharts是一個(gè)純Javascript圖表庫(kù),兼容大部分瀏覽器。ECharts可以提供更直觀、更生動(dòng)的數(shù)據(jù)可視化圖表,并且支持交互和個(gè)性化定制,滿(mǎn)足個(gè)性化需求。具有豐富的可視化類(lèi)型,通過(guò)散點(diǎn)圖、折線(xiàn)圖、柱狀圖、餅圖、雷達(dá)圖、K線(xiàn)圖、熱力圖、漏斗圖和儀表圖的形式進(jìn)行數(shù)據(jù)展示。此外ECharts提供了動(dòng)態(tài)類(lèi)型切換功能,讓用戶(hù)可以根據(jù)需要切換相應(yīng)的圖表類(lèi)型和堆疊狀態(tài)。同時(shí)也可以通過(guò)平臺(tái)本身的數(shù)據(jù)展示模塊進(jìn)行數(shù)據(jù)動(dòng)態(tài)的、實(shí)時(shí)的重繪操作。
大數(shù)據(jù)平臺(tái)的建設(shè)并不是一蹴而就的,需要不斷地探索與修正。大數(shù)據(jù)平臺(tái)的實(shí)施步驟主要分為以下幾部分。
業(yè)務(wù)分析主要包括對(duì)貨運(yùn)業(yè)務(wù)流程和需求的分析、確定數(shù)據(jù)源,通過(guò)對(duì)用戶(hù)需求的調(diào)研明確分析目標(biāo)和思路,確定要導(dǎo)入哪些數(shù)據(jù)、要得到哪些信息,從而確保數(shù)據(jù)分析有效進(jìn)行。貨物運(yùn)輸是鐵路行業(yè)的核心支柱產(chǎn)業(yè),在市場(chǎng)經(jīng)營(yíng)領(lǐng)域圍繞貨運(yùn)業(yè)務(wù),通過(guò)搜集貨票數(shù)據(jù)、貨運(yùn)電子商務(wù)系統(tǒng)計(jì)劃數(shù)據(jù)及更多貨運(yùn)系統(tǒng)的數(shù)據(jù),可以進(jìn)行貨運(yùn)業(yè)務(wù)額盈虧分析。通過(guò)對(duì)用戶(hù)行為的大數(shù)據(jù)分析可以進(jìn)一步提高市場(chǎng)營(yíng)銷(xiāo)能力。
數(shù)據(jù)規(guī)劃包括通過(guò)對(duì)業(yè)務(wù)調(diào)研進(jìn)行統(tǒng)一編碼并確認(rèn),盤(pán)點(diǎn)已有數(shù)據(jù)資產(chǎn),完善數(shù)據(jù)管理標(biāo)準(zhǔn)有效進(jìn)行數(shù)據(jù)規(guī)范等,加快數(shù)據(jù)資源的整合共享[5]。
通過(guò)對(duì)原始數(shù)據(jù)進(jìn)行分析,建立實(shí)體模型、建立數(shù)據(jù)庫(kù)邏輯模型等來(lái)完成邏輯模型的設(shè)計(jì)。集團(tuán)公司的大數(shù)據(jù)平臺(tái)仍然處于探索階段,初期應(yīng)采取全開(kāi)源架構(gòu),隨著研究的不斷深入再考慮更成熟的商業(yè)方案。在完成邏輯模型的設(shè)計(jì)后將其轉(zhuǎn)換為物理模型,并進(jìn)行壓力測(cè)試與性能測(cè)試,提出優(yōu)化方案。
圍繞著已經(jīng)明確的項(xiàng)目意圖和商業(yè)目標(biāo)讓大數(shù)據(jù)真正地應(yīng)用起來(lái),通過(guò)數(shù)據(jù)挖掘得到有商用價(jià)值的信息為鐵路貨運(yùn)業(yè)務(wù)提供數(shù)據(jù)服務(wù)與決策支持。
鐵路貨運(yùn)大數(shù)據(jù)平臺(tái)的建設(shè)是一個(gè)不斷探索的過(guò)程。不僅需要分析鐵路貨運(yùn)業(yè)務(wù)需求,形成鐵路貨運(yùn)大數(shù)據(jù)的建設(shè)規(guī)劃,也需要借鑒其他領(lǐng)域的大數(shù)據(jù)項(xiàng)目。經(jīng)歷不斷的驗(yàn)證、修正、實(shí)施,來(lái)逐漸完成大數(shù)據(jù)平臺(tái)的建設(shè)。鐵路貨運(yùn)大數(shù)據(jù)平臺(tái)將成為重要的資產(chǎn)數(shù)據(jù)、提供數(shù)據(jù)服務(wù)、通過(guò)預(yù)測(cè)分析能力支持哈爾濱局集團(tuán)公司的各項(xiàng)決策。構(gòu)建適合哈局貨運(yùn)業(yè)務(wù)發(fā)展的大數(shù)據(jù)平臺(tái),將提高挖掘貨運(yùn)數(shù)據(jù)價(jià)值的能力,成為貨運(yùn)業(yè)務(wù)增收的重要手段。鐵路貨運(yùn)大數(shù)據(jù)方面的研究成果也可以逐步延伸到集團(tuán)公司經(jīng)營(yíng)、生產(chǎn)、安全等領(lǐng)域,充分利用大數(shù)據(jù)技術(shù),發(fā)揮其在提高效率、提高效益、優(yōu)化服務(wù)、保障安全方面的作用,是集團(tuán)公司在新時(shí)期的必然選擇。