李國華 鄒丹 李海軍 孫思齊 王建強
DOI:10.19850/j.cnki.2096-4706.2024.01.011
收稿日期:2023-03-27
基金項目:中國國家鐵路集團有限公司科技研究開發(fā)計劃課題(P2021S012)
摘? 要:科學(xué)合理的數(shù)據(jù)資源分類方法和行之有效的數(shù)據(jù)湖架構(gòu)體系,可以支撐起鐵路全業(yè)務(wù)數(shù)據(jù)的高效存儲、組織和利用,并進一步支持并優(yōu)化各項運營業(yè)務(wù)。文章首先對現(xiàn)有數(shù)據(jù)湖架構(gòu)進行簡要分析,確定選用湖倉一體的概念,將鐵路數(shù)據(jù)以主題進行分類以適應(yīng)業(yè)務(wù)處理需求;其次設(shè)計了鐵路數(shù)據(jù)分布式湖倉一體架構(gòu),闡述了路局級子湖倉一體與國鐵集團總湖倉一體的架構(gòu)與功能,以及兩者之間的數(shù)據(jù)流轉(zhuǎn)過程;最后分析了所設(shè)計架構(gòu)的特性與存在的問題,為進一步構(gòu)建有效的鐵路運營數(shù)據(jù)湖提供了參考。
關(guān)鍵詞:鐵路大數(shù)據(jù);數(shù)據(jù)治理;數(shù)據(jù)湖;湖倉一體;分布式架構(gòu)
中圖分類號:TP302.1? 文獻標(biāo)識碼:A? 文章編號:2096-4706(2024)01-0054-05
Analysis and Design of Railway Data Distributed Lake Warehouse Integrated Architecture
LI Guohua1, ZOU Dan1, LI Haijun2, SUN Siqi1, WANG Jianqiang2
(1.Institute of Computing Technologies, China Academy of Railway Sciences, Beijing? 100081, China;
2.School of Traffic and Transportation, Lanzhou Jiaotong University, Lanzhou? 730070, China)
Abstract: A scientific and reasonable data resource classification method and an effective data lake architecture system can support the efficient storage, organization, and utilization of railway full business data, and further support and optimize various operational businesses. This paper first provides a brief analysis of the existing data lake architecture, determining the concept of integrated lake and warehouse, and categorizing railway data by theme to meet business processing needs; secondly, a railway data distributed lake warehouse integrated architecture is designed, elaborating on the architecture and functions of the sub lake warehouses at the railway bureau level and the overall lake warehouses of China Railway Group, as well as the data flow process between the two; finally, the characteristics and existing problems of the designed architecture are analyzed, providing a reference for further constructing an effective railway operation data lake.
Keywords: railway big data; data governance; data lake; integrated lake and warehouse; distributed architecture
0? 引 言
鐵路數(shù)據(jù)服務(wù)平臺是鐵路大數(shù)據(jù)應(yīng)用的基礎(chǔ)支撐,是鐵路行業(yè)的基礎(chǔ)性數(shù)據(jù)平臺,用于整合全路的數(shù)據(jù)資源,實現(xiàn)數(shù)據(jù)的規(guī)范存儲、管理和高效應(yīng)用。數(shù)據(jù)湖的概念誕生于2010年,是由James Dixon提出的一種大數(shù)據(jù)基礎(chǔ)設(shè)施架構(gòu),通過引入自然生態(tài)中湖的概念來描述一種數(shù)據(jù)從源頭流入,用戶或程序可以從中查詢和抽取所需數(shù)據(jù)的“數(shù)據(jù)湖”[1]。然而數(shù)據(jù)湖這一概念自誕生之初時至今日仍未在業(yè)界形成嚴(yán)格界定標(biāo)準(zhǔn),Gartner[2]認為數(shù)據(jù)湖是一種以低成本進行數(shù)據(jù)存儲的方法。
許多學(xué)者在特定領(lǐng)域的數(shù)據(jù)管理中都引入了數(shù)據(jù)湖概念。梁懌[3]等對于西氣東輸領(lǐng)域多源數(shù)據(jù)匯總過程中的安全性問題設(shè)計了基于絕對單向技術(shù)的數(shù)據(jù)湖架構(gòu)并實現(xiàn)了安全性與功能性之間的平衡;譚景信[4]等針對工商聯(lián)業(yè)務(wù)的特性構(gòu)建了虛擬化模型驅(qū)動的分布式數(shù)據(jù)湖架構(gòu),并通過測算驗證了模型在滿足業(yè)務(wù)需求的同時有效降低了數(shù)據(jù)傳輸?shù)某杀荆粚τ陔娋W(wǎng)業(yè)務(wù)數(shù)據(jù)的管理,曾飛[5]等針對數(shù)據(jù)存儲與共享設(shè)計了基于數(shù)據(jù)湖的邊緣層分布式電力數(shù)據(jù)存儲架構(gòu)并通過實驗表明了其具有應(yīng)用的潛力,謝裕清[6]等將原始數(shù)據(jù)加密存儲在數(shù)據(jù)湖中并以提出的數(shù)據(jù)訪問與共享優(yōu)化模型來實現(xiàn)數(shù)據(jù)的跨業(yè)務(wù)連通,兼顧數(shù)據(jù)流轉(zhuǎn)的安全性與高效性。我國鐵路實行模塊化管理,主要包括機務(wù)、車務(wù)、工務(wù)、電務(wù)和車輛等模塊,具有跨區(qū)域網(wǎng)絡(luò)、技術(shù)構(gòu)成復(fù)雜、部門繁多、業(yè)務(wù)應(yīng)用廣泛等特點[7],因此,構(gòu)建鐵路數(shù)據(jù)湖必須要考慮鐵路數(shù)據(jù)的特點與鐵路系統(tǒng)的結(jié)構(gòu)。
中國國家鐵路集團有限公司自2019年成立后積累了體量接近10 PB規(guī)模的各個生產(chǎn)運營領(lǐng)域的海量數(shù)據(jù),其中蘊含著巨大的分析和應(yīng)用價值,對于如何有效地管理這些數(shù)據(jù)許多學(xué)者開展了各自的研究。王喆[8]等在鐵路數(shù)據(jù)服務(wù)平臺的存儲架構(gòu)設(shè)計中引入了數(shù)據(jù)湖的概念;劉彥軍[9]等以整合成熟的開源技術(shù)與產(chǎn)品為主設(shè)計了鐵路大數(shù)據(jù)資產(chǎn)管理平臺;海洋[10]等所設(shè)計的鐵路大數(shù)據(jù)存儲管理系統(tǒng)可實現(xiàn)數(shù)據(jù)來源管理,存儲系統(tǒng)資源可視化管理,數(shù)據(jù)預(yù)測和存儲規(guī)劃以及數(shù)據(jù)的統(tǒng)一管理;王沛然[11]等針對“數(shù)據(jù)沼澤”現(xiàn)象從鐵路數(shù)據(jù)服務(wù)平臺存儲架構(gòu)層面提出了一種新的頂層設(shè)計,通過豐富的存儲組件滿足各種存儲需求并劃分數(shù)據(jù)存儲的冷熱分區(qū)。
想要將數(shù)據(jù)湖概念合理地融入鐵路數(shù)據(jù)的治理中就需要構(gòu)建適合鐵路領(lǐng)域的數(shù)據(jù)湖架構(gòu)。目前數(shù)據(jù)湖架構(gòu)主要以下幾種。最初的數(shù)據(jù)湖架構(gòu)由兩層組成:臨時數(shù)據(jù)的著陸區(qū)層級和永久存儲原始數(shù)據(jù)的層級。盡管各個學(xué)者與廠商在后來的發(fā)展中構(gòu)建了更為復(fù)雜的數(shù)據(jù)湖架構(gòu),但大多架構(gòu)都遵從了最初架構(gòu)的定義:數(shù)據(jù)在數(shù)據(jù)湖中的存儲形式應(yīng)是其原始的,不變的形式[12]。最初的兩層架構(gòu)經(jīng)過一些調(diào)整演變成了Lambda架構(gòu),Lambda架構(gòu)更多地關(guān)注數(shù)據(jù)處理和消費而非存儲,適用于主要通過特別查詢訪問的大量數(shù)據(jù)[13]。數(shù)據(jù)池架構(gòu)由五個在邏輯上相互分離的組件組成,最大缺點是缺乏原始形式的持久數(shù)據(jù)存儲,這可能最終導(dǎo)致分析數(shù)據(jù)時缺乏信息并失去數(shù)據(jù)再處理的可能性[14]。多層架構(gòu)中每一層都與相鄰的層通信,數(shù)據(jù)必須在所有四層上進行管道傳輸[15]。Zaloni分區(qū)架構(gòu)包括四個常規(guī)區(qū)域和一個沙箱區(qū)域,沙箱不受訪問限制,提供對全體數(shù)據(jù)的分析和探索[16]。另一種部分基于Zaloni分區(qū)架構(gòu)的方法包含更多分區(qū),每個分區(qū)都以特定用途建模的形式保存數(shù)據(jù)。該架構(gòu)中提出的所有區(qū)域都在存儲的數(shù)據(jù)上創(chuàng)建了組織層,并向數(shù)據(jù)湖范圍之外的用戶和系統(tǒng)提供數(shù)據(jù)湖接口[17]。
從數(shù)據(jù)倉庫到數(shù)據(jù)湖,數(shù)據(jù)治理的要求標(biāo)準(zhǔn)日漸完善,在順應(yīng)實際需求的趨勢下,湖倉一體概念誕生于2020年,實現(xiàn)了數(shù)據(jù)倉庫與數(shù)據(jù)湖的有機融合。湖倉一體融合了兩層架構(gòu)和區(qū)域架構(gòu),通過虛擬化層提供了對數(shù)據(jù)倉庫和數(shù)據(jù)湖的數(shù)據(jù)訪問[18,19]。
本文通過對湖倉一體概念的理解與對鐵路大數(shù)據(jù)特點的把握,構(gòu)建了鐵路數(shù)據(jù)分布式湖倉一體架構(gòu),詳細闡述了路局級子湖倉一體與國鐵集團總湖倉一體的架構(gòu)與功能以及兩者之間的數(shù)據(jù)流轉(zhuǎn)過程,分析此架構(gòu)理論上可支持海量多源異構(gòu)數(shù)據(jù)的處理,保證數(shù)據(jù)的原始格式儲存,具有一套完善健全的數(shù)據(jù)流轉(zhuǎn)過程,實現(xiàn)數(shù)據(jù)的冷熱分離與存算分離。
1? 鐵路數(shù)據(jù)分類
鐵路數(shù)據(jù)按照主題域分為16類,按照數(shù)據(jù)性質(zhì)劃分為主數(shù)據(jù)、事務(wù)數(shù)據(jù)和基礎(chǔ)數(shù)據(jù)[20]。按照數(shù)據(jù)生產(chǎn)過程和加工深度,鐵路數(shù)據(jù)可分為一、二、三次數(shù)據(jù);按照效用范圍可分為共享數(shù)據(jù)和專有數(shù)據(jù);按照穩(wěn)定性及時效性可分為靜態(tài)數(shù)據(jù)和動態(tài)數(shù)據(jù)[21]。鐵路主數(shù)據(jù)作為鐵路系統(tǒng)最基本的數(shù)據(jù)支撐有必要依據(jù)主題進一步往下細分到具體條目[22,23]。
考慮到數(shù)據(jù)湖與數(shù)據(jù)倉庫之間的數(shù)據(jù)流轉(zhuǎn)效率與面向業(yè)務(wù)分析的數(shù)據(jù)主題域劃分原則,數(shù)據(jù)湖中的數(shù)據(jù)應(yīng)按照主題分區(qū)存儲。本文將鐵路數(shù)據(jù)主要分為運輸對象、運輸產(chǎn)品、市場營銷、調(diào)度指揮、運輸生產(chǎn)、設(shè)備設(shè)施、物資管理、人員及機構(gòu)、建設(shè)管理、綜合協(xié)同規(guī)劃、財務(wù)管理11大類,如圖1所示。
具體介紹如下:
1)運輸對象分為客運部分與貨運部分。客運數(shù)據(jù)包含鐵路客運相關(guān)的旅客信息及其服務(wù)記錄等數(shù)據(jù);貨運數(shù)據(jù)包含鐵路貨運相關(guān)的托運人信息及其服務(wù)記錄等數(shù)據(jù)。
2)運輸產(chǎn)品分為客運部分和貨運部分,分別都包含其產(chǎn)品信息與相關(guān)服務(wù)。
3)市場營銷分為客運部分和貨運部分,分別都包含其營銷計劃與市場調(diào)研。
4)調(diào)度指揮包含運輸調(diào)度中的各項計劃和實績信息,如輪廓計劃、日(班)計劃、車站作業(yè)計劃、調(diào)度命令信息等。
5)運輸生產(chǎn)包含了運輸生產(chǎn)作業(yè)過程中列車、車輛、機車、集裝箱及客貨運輸中的事件、狀態(tài)信息,列車編組信息等。
6)設(shè)備設(shè)施分為固定設(shè)施數(shù)據(jù)和移動設(shè)備數(shù)據(jù),分別包含各自設(shè)施設(shè)備的基本信息與作業(yè)記錄,作業(yè)記錄包含使用、維修及保養(yǎng)記錄。
7)物資管理分為物料清單數(shù)據(jù)與管理記錄數(shù)據(jù),管理記錄包含物資的供應(yīng)、使用以及庫存記錄。
8)人員及機構(gòu)分為組織機構(gòu)數(shù)據(jù)與人員信息數(shù)據(jù)。所涉及的人員與組織不僅限于鐵路系統(tǒng)內(nèi)部而是所有與鐵路有關(guān)的人員與組織。
9)建設(shè)管理分為設(shè)計管理數(shù)據(jù)、建設(shè)管理數(shù)據(jù)、項目管理數(shù)據(jù)、工程監(jiān)督數(shù)據(jù)等。
10)綜合協(xié)同規(guī)劃分為綜合管理數(shù)據(jù)與戰(zhàn)略決策數(shù)據(jù)。綜合管理包含規(guī)章政策與組織協(xié)同信息等;戰(zhàn)略決策包含關(guān)鍵績效指標(biāo)和戰(zhàn)略管理信息等。
11)財務(wù)管理包含財務(wù)科目、資產(chǎn)信息、會計核算、清算信息等。
2? 分布式湖倉一體架構(gòu)
2.1? 分布式架構(gòu)
與日俱增的鐵路數(shù)據(jù)龐大的體量會使傳統(tǒng)集中式架構(gòu)會產(chǎn)生以下問題:
1)數(shù)據(jù)量的持續(xù)增長會使數(shù)據(jù)管理難度增加,而管理不善的數(shù)據(jù)湖有變?yōu)椤皵?shù)據(jù)沼澤”的風(fēng)險。
2)全量的原始數(shù)據(jù)搬運至數(shù)據(jù)湖中會占用大量帶寬資源且無法保證時效性。
3)集中式數(shù)據(jù)湖只管存儲日益增長的原始數(shù)據(jù)而忽略了數(shù)據(jù)的使用價值大小,存儲成本和管理成本會不斷攀升直至難以承受。
本文針對鐵路大數(shù)據(jù)系統(tǒng)需求的特點構(gòu)建了以國鐵集團的總湖倉一體為原點向外輻射型地連接18個路局的子湖倉一體的分布式架構(gòu)。
2.2? 子湖倉一體架構(gòu)
路局的子湖倉一體架構(gòu)分為4層:采集攝取層、湖倉存儲層、處理轉(zhuǎn)換層及應(yīng)用消費層,如圖2所示。
1)采集攝取層,其任務(wù)是通過數(shù)據(jù)傳輸、數(shù)據(jù)遷移、文件同步以及實時采集等途徑采集攝取來自不同數(shù)據(jù)源節(jié)點即路局管轄內(nèi)各個站段和系統(tǒng)的海量異構(gòu)數(shù)據(jù),包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù)等。
2)湖倉存儲層包含數(shù)據(jù)湖與數(shù)據(jù)倉庫,數(shù)據(jù)湖包含臨時著陸層與原始存儲層。數(shù)據(jù)最初到達的區(qū)域是臨時著陸層。臨時著陸層中的數(shù)據(jù)包含原始格式的臨時存儲數(shù)據(jù)。該區(qū)域會進行初步數(shù)據(jù)分析以及潛在的業(yè)務(wù)和技術(shù)合規(guī)性缺失。原始存儲層包含從臨時著陸區(qū)獲得的原始數(shù)據(jù)。在原始存儲層中,原始數(shù)據(jù)以其原始形式永久存儲,而一旦數(shù)據(jù)在原始存儲層中被確認存儲就會從臨時著陸區(qū)刪除,如此原始存儲層成為分析和進一步處理的唯一可信數(shù)據(jù)源。此外,初始數(shù)據(jù)處理是在原始區(qū)域中完成的,從而使用適當(dāng)?shù)脑獢?shù)據(jù)建立數(shù)據(jù)索引和完善記錄。
采集攝取層收集的數(shù)據(jù)先到達數(shù)據(jù)湖進行初步分析與驗證后再依據(jù)熱數(shù)據(jù)的定義標(biāo)準(zhǔn)流轉(zhuǎn)到數(shù)據(jù)倉庫里,熱數(shù)據(jù)的定義標(biāo)準(zhǔn)由數(shù)據(jù)實時性,數(shù)據(jù)價值以及數(shù)據(jù)使用頻率等因素決定。而當(dāng)數(shù)據(jù)倉庫內(nèi)的熱數(shù)據(jù)不再滿足熱數(shù)據(jù)的定義標(biāo)準(zhǔn)后就會變成冷數(shù)據(jù)流轉(zhuǎn)回到數(shù)據(jù)湖內(nèi),出于技術(shù)合規(guī)性考慮冷數(shù)據(jù)同樣要先到達臨時著陸區(qū)再前往原始存儲區(qū)。考慮到數(shù)據(jù)流轉(zhuǎn)效率與數(shù)據(jù)存儲成本,將熱數(shù)據(jù)存儲到數(shù)據(jù)倉庫里方便提取,而冷數(shù)據(jù)存儲到數(shù)據(jù)湖中可以有效降低存儲成本,同時這些移到湖里的數(shù)據(jù),仍然可以被數(shù)據(jù)倉庫查詢使用。湖倉存儲層有機融合了數(shù)據(jù)倉庫與數(shù)據(jù)湖的優(yōu)點,實現(xiàn)了數(shù)據(jù)的冷熱分離。為了使數(shù)據(jù)湖與數(shù)據(jù)倉庫之間的數(shù)據(jù)流轉(zhuǎn)更加順暢,數(shù)據(jù)湖的原始存儲層按照數(shù)據(jù)主題分為11個區(qū)域,數(shù)據(jù)倉庫也按照同樣的原則進行主題劃分。
3)處理轉(zhuǎn)換層提供了一個可挖掘鐵路海量數(shù)據(jù)價值的潛力,通過數(shù)據(jù)科學(xué)、大數(shù)據(jù)分析、機器學(xué)習(xí)以及實時計算等功能對鐵路大數(shù)據(jù)進行分析和處理,分析結(jié)果可為鐵路系統(tǒng)高層決策提供參考。
4)應(yīng)用消費層為最終用戶或應(yīng)用程序提供了所需數(shù)據(jù)的訪問入口。用戶或應(yīng)用程序可以訪問這些數(shù)據(jù),以便執(zhí)行數(shù)據(jù)探索、創(chuàng)建和應(yīng)用分析查詢,并使用各種可視化工具可視化存儲的數(shù)據(jù)。
2.3 總湖倉一體架構(gòu)
國鐵集團的總湖倉一體架構(gòu)分為三層,與路局的子湖倉一體相比沒有采集攝取層,這是因為國鐵集團總湖倉一體的數(shù)據(jù)來源就是下屬的18個路局子湖倉一體的湖倉存儲層級,數(shù)據(jù)來源安全且穩(wěn)定,因此無須設(shè)置采集存儲層??偤}一體的數(shù)據(jù)湖可分別與子湖倉一體的數(shù)據(jù)湖和數(shù)據(jù)倉庫之間進行數(shù)據(jù)傳輸。總湖倉一體與子湖倉一體組成的分布式架構(gòu)如圖3所示。
國鐵集團的總湖倉一體架構(gòu)的三層在功能屬性方面與路局的子湖倉一體一致,而在能力強弱方面前者強于后者,除了在硬件設(shè)施方面國鐵集團所部署的設(shè)備能力強于路局所部署的設(shè)備能力外,總湖倉一體還有進行數(shù)據(jù)邏輯入湖和云計算的特權(quán)。
在路局級子湖倉一體中,此路局所管轄的所有數(shù)據(jù)都需要在物理層面上進行存儲以確保成為大數(shù)據(jù)分析應(yīng)用的可靠數(shù)據(jù)源,而在國鐵集團總湖倉一體中只需物理存儲少量所需數(shù)據(jù),再邏輯存儲所有子湖倉一體的所有數(shù)據(jù)即可,這樣可以有效降低數(shù)據(jù)存儲與傳輸成本,如果總湖倉一體需要未在本地物理存儲的數(shù)據(jù)只需按照邏輯地址到物理存儲了該數(shù)據(jù)的子湖倉一體中提取即可。
如果某一子湖倉一體需要其他子湖倉一體的數(shù)據(jù)則需要向總湖倉一體申請,由總湖倉一體作為中轉(zhuǎn)實現(xiàn)子湖倉一體之間的數(shù)據(jù)流轉(zhuǎn),如此就不必在18個子湖倉一體之間兩兩建立數(shù)據(jù)傳輸通道。云計算同理,總湖倉一體可以調(diào)動子湖倉一體閑置的算力完成數(shù)據(jù)處理的任務(wù),子湖倉一體也可向總湖倉一體申請使用云計算來處理超過自身硬件能力的計算需求。
3? 架構(gòu)分析
3.1? 湖倉一體的特性
經(jīng)綜合分析,本文所提出的湖倉一體架構(gòu)在鐵路全業(yè)務(wù)數(shù)據(jù)治理上具備以下特點:
1)支持海量多源異構(gòu)數(shù)據(jù)的處理,包括結(jié)構(gòu)化與非結(jié)構(gòu)化類型,如文本、圖像、視頻、音頻,以及半結(jié)構(gòu)化數(shù)據(jù),如JSON等。
2)保證數(shù)據(jù)“原汁原味”的原始性與完整性,兼容各類數(shù)據(jù)模型的建立,具有一套完善健全的數(shù)據(jù)流轉(zhuǎn)過程。
3)實現(xiàn)數(shù)據(jù)的冷熱分離,使得數(shù)據(jù)的流動效率更高,存儲成本更低。
4)實現(xiàn)存算分離,給予了整個系統(tǒng)擴展能力與容量的潛力,符合未來對于分布式數(shù)據(jù)架構(gòu)的發(fā)展要求。
湖倉一體仍處于發(fā)展探索階段,業(yè)界尚未就定義標(biāo)準(zhǔn)與技術(shù)路線達成共識,仍需一定時間的完善才能成為成熟的大數(shù)據(jù)處理方案,但完善時間的不確定使得湖倉一體可能會被其他新誕生的大數(shù)據(jù)處理方案所替代。其次湖倉一體實際應(yīng)用案例較少,缺乏可靠的參考對照,具體工具產(chǎn)品的使用與實施部署的方案仍有待考慮,因此無法確定湖倉一體能否會實現(xiàn)預(yù)期的效果。
3.2? 未來展望
鐵路數(shù)據(jù)在湖倉一體的架構(gòu)中的流動有以下情況:從各類數(shù)據(jù)源頭流入架構(gòu),從架構(gòu)流出到用戶或應(yīng)用程序以及在整體架構(gòu)中層級與區(qū)域之間的流動。數(shù)據(jù)的數(shù)量與質(zhì)量關(guān)系著管理數(shù)據(jù)的難度,從而產(chǎn)生“數(shù)據(jù)重力”現(xiàn)象,處理不善可能導(dǎo)致“數(shù)據(jù)沼澤”現(xiàn)象的產(chǎn)生,因此湖倉一體架構(gòu)要有機結(jié)合數(shù)據(jù)湖與數(shù)據(jù)倉庫,克服“數(shù)據(jù)重力”現(xiàn)象,使數(shù)據(jù)在各個層級與區(qū)域之間的流動更有效率。
湖倉一體的實現(xiàn)需要多個產(chǎn)品與工具的配合與部屬,此架構(gòu)以結(jié)構(gòu)簡單的數(shù)據(jù)湖為核心,建立一套完整的數(shù)據(jù)處理系統(tǒng),鐵路全業(yè)務(wù)數(shù)據(jù)湖需要具備的功能是,從鐵路數(shù)據(jù)的采集與攝取到數(shù)據(jù)的入湖入倉,到湖倉之間冷熱數(shù)據(jù)的流轉(zhuǎn)與存儲,再到數(shù)據(jù)出湖從而進行轉(zhuǎn)換處理以供消費與應(yīng)用,多個層級與區(qū)域的相輔相成與緊密縫合使得鐵路數(shù)據(jù)有一個完整的流入—存儲—流出—處理—消費過程。
4? 結(jié)? 論
從數(shù)據(jù)倉庫的成熟應(yīng)用到數(shù)據(jù)湖的初步探索再到湖倉一體概念的誕生,說明現(xiàn)代社會對于日益增長的海量數(shù)據(jù)的存儲與處理的要求也隨之上升。鐵路行業(yè)作為國家基礎(chǔ)設(shè)施的支柱性行業(yè)必須迎合數(shù)據(jù)信息時代的發(fā)展趨勢,建立能夠涵蓋海量多源異構(gòu)數(shù)據(jù)全生命周期的大數(shù)據(jù)處理系統(tǒng)符合鐵路行業(yè)對于未來的期望。本文所構(gòu)建的鐵路數(shù)據(jù)分布式湖倉一體架構(gòu)分為國鐵集團總湖倉一體和路局級子湖倉一體上下兩級,理論上可支持海量多源異構(gòu)數(shù)據(jù)的處理、保證數(shù)據(jù)的原始格式儲存、具有一套完善健全的數(shù)據(jù)流轉(zhuǎn)過程,實現(xiàn)數(shù)據(jù)的冷熱分離與存算分離、可通過物理入湖與虛擬入湖進行數(shù)據(jù)分布式存儲、可通過分散的算力設(shè)備進行云計算。未來計劃研究該架構(gòu)的具體部署方案以及軟件硬件選取,以供相關(guān)研究與實踐參考。
參考文獻:
[1] DIXON J. Pentaho, Hadoop, and Data Lakes [EB/OL].[2023-05-06].https://jamesdixon.wordpress.com/2010/10/14/pentaho-hadoop-and-data-lakes/.
[2] GARTNER. Gartner says beware of the data lake fallacy [EB/OL].[2023-05-06].http://www.gartner.com/newsroom/id/2809117.
[3] 梁懌,李佳鵬,王洪鈞,等.一種基于絕對單向技術(shù)的數(shù)據(jù)湖設(shè)計方法 [J].西安石油大學(xué)學(xué)報:自然科學(xué)版,2022,37(2):138-142.
[4] 譚景信,劉玉龍,李慧娟.虛擬化模型驅(qū)動的分布式數(shù)據(jù)湖構(gòu)建方法研究 [J].計算機科學(xué)與探索,2019,13(9):1493-1503.
[5] 曾飛,楊雄,蘇偉,等.基于區(qū)塊鏈與數(shù)據(jù)湖的電力數(shù)據(jù)存儲與共享方法 [J].電力工程技術(shù),2022,41(3):48-54.
[6] 謝裕清,王淵,江櫻,等.便于數(shù)據(jù)共享的電網(wǎng)數(shù)據(jù)湖隱私保護方法 [J].計算機工程與應(yīng)用,2021,57(2):113-118.
[7] 馬麗梅,史丹,高志遠,等.大數(shù)據(jù)技術(shù)及其行業(yè)應(yīng)用:基于鐵路領(lǐng)域的概念框架研究 [J].北京交通大學(xué)學(xué)報:社會科學(xué)版,2019,18(3):58-67.
[8] 王喆,馬小寧,鄒丹,等.基于鐵路數(shù)據(jù)服務(wù)平臺的鐵路數(shù)據(jù)資產(chǎn)管理研究 [J].鐵路計算機應(yīng)用,2021,30(3):23-26.
[9] 劉彥軍,李平,馬小寧,等.鐵路大數(shù)據(jù)資產(chǎn)管理平臺的研究與設(shè)計 [C]//第十二屆中國智能交通年會大會論文集.常熟:電子工業(yè)出版社,2017:351-356.
[10] 海洋,李浩鵬,劉懺,等.鐵路大數(shù)據(jù)存儲管理系統(tǒng)設(shè)計方案 [J].鐵路計算機應(yīng)用,2021,30(8):34-37.
[11] 王沛然,馬小寧,王喆,等.鐵路數(shù)據(jù)服務(wù)平臺存儲架構(gòu)設(shè)計與應(yīng)用 [J].鐵路計算機應(yīng)用,2021,30(5):48-52.
[12] FANG H. Managing data lakes in big data era: What's a data lake and why has it became popular in data management ecosystem [C]//2015 IEEE International Conference on Cyber Technology in Automation, Control, and Intelligent Systems (CYBER). Shenyang:IEEE,2015:820-824.
[13] MUNSHI A A, Mohamed Y A R I. Data Lake Lambda Architecture for Smart Grids Big Data Analytics [J].IEEE Access,2018,6:40463-40471.
[14] INMON W H. Data Lake Architecture:Designing the Data Lake and Avoiding the Garbage Dump [J].Technics Publications.2016
[15] SAKR S,ZOMAYA A Y. Encyclopedia of Big Data Technologies [M].Springer International Publishing,2019:552-559.
[16] LAPLANTE A,SHARMA B. Architecting Data Lakes:2nd Edition [M].[S.I.]:O'Reilly Media,2018.
[17] GIEBLER C,GR?GER C,HOOS E. The Data Lake Architecture Framework: A Foundation for Building a Comprehensive Data Lake Architecture [EB/OL].[2023-04-20].https://www.researchgate.net/publication/354661265_The_Data_Lake_Architecture_Framework.
[18] ARMBRUST M,GHODSI A,XIN R. Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics [EB/OL].[2023-04-20].https://www.cidrdb.org/cidr2021/papers/cidr2021_paper17.pdf.
[19] ORESCANIN D,HLUPIC T. Data Lakehouse - a Novel Step in Analytics Architecture. 2021 44th International Convention on Information, Communication and Electronic Technology (MIPRO).Opatija:IEEE,2021:1242–1246.
[20] 馬小寧,李平,楊連報,等.鐵路信息化數(shù)據(jù)架構(gòu)研究與設(shè)計 [C]//2014第九屆中國智能交通年會大會論文集.廣州:電子工業(yè)出版社,2014:25-32.
[21] 馬小寧,史天運,鄒丹.鐵路公用基礎(chǔ)信息的特征、范疇及概念分析 [J].中國鐵路,2012(11):44-47.
[22] 楊連報,李平,馬小寧,等.鐵路主數(shù)據(jù)全生命周期管理研究 [C]//第十二屆中國智能交通年會大會論文集.常熟:電子工業(yè)出版社,2017:365-369.
[23] 馬小寧,鄒丹,吳艷華.鐵路主數(shù)據(jù)管理平臺解決方案及應(yīng)用實踐 [J].中國鐵路,2017(1):17-23.
作者簡介:李國華(1978—),男,漢族,內(nèi)蒙古突泉人,正高級工程師,碩士,研究方向:鐵路運輸、計算機軟件及計算機應(yīng)用、電信技術(shù)。