摘要:文章基于數(shù)據(jù)中臺進行企業(yè)數(shù)據(jù)采存管用研究,探索了基于數(shù)據(jù)中臺的企業(yè)數(shù)據(jù)采存管用數(shù)據(jù)架構(gòu),探討了數(shù)據(jù)采集、數(shù)據(jù)采集、數(shù)據(jù)加工、模型設(shè)計和數(shù)據(jù)服務(wù)5個環(huán)節(jié),通過數(shù)據(jù)中臺,可以實現(xiàn)對企業(yè)多源異構(gòu)數(shù)據(jù)的統(tǒng)一采集、加工和存儲,提高了數(shù)據(jù)處理的效率和準確性。文章為企業(yè)提供了一種高效的數(shù)據(jù)管理解決方案,同時也為數(shù)據(jù)中臺技術(shù)在企業(yè)實踐中的應(yīng)用提供了有益的探索和實踐經(jīng)驗。
關(guān)鍵詞:數(shù)據(jù)中臺;企業(yè)數(shù)據(jù);數(shù)據(jù)采集;數(shù)據(jù)存儲;數(shù)據(jù)管理
中圖分類號:TP391 文獻標識碼:A
文章編號:1009-3044(2024)22-0073-03
開放科學(xué)(資源服務(wù))標識碼(OSID)
0 引言
隨著信息化時代的到來,企業(yè)面臨著海量數(shù)據(jù)的處理和管理挑戰(zhàn),數(shù)據(jù)是企業(yè)數(shù)字化轉(zhuǎn)型的核心驅(qū)動力,為了更好地利用數(shù)據(jù)資源,提高數(shù)據(jù)的采集、存儲和管控效率,數(shù)據(jù)中臺應(yīng)運而生。數(shù)據(jù)中臺作為數(shù)據(jù)管理的新模式和新體系,正成為企業(yè)數(shù)字化轉(zhuǎn)型的重要支撐。目前,數(shù)據(jù)中臺已在互聯(lián)網(wǎng)、電力等多個行業(yè)廣泛應(yīng)用[1]。數(shù)據(jù)中臺將一個機構(gòu)(企業(yè)、事業(yè),或政府部門)的數(shù)據(jù)作為戰(zhàn)略資產(chǎn)進行管理,是從數(shù)據(jù)收集到處理應(yīng)用的一套管理機制,以期提高數(shù)據(jù)質(zhì)量,實現(xiàn)廣泛的數(shù)據(jù)共享,最終實現(xiàn)數(shù)據(jù)價值最大化[2]。以數(shù)據(jù)資產(chǎn)化為導(dǎo)向進行數(shù)據(jù)治理,以共享數(shù)據(jù)服務(wù)的方式實現(xiàn)數(shù)據(jù)共享,通過構(gòu)建中間平臺,打通業(yè)務(wù)和數(shù)據(jù)環(huán)節(jié),減少冗余,增加復(fù)用,快速響應(yīng)用戶需求,實現(xiàn)數(shù)據(jù)驅(qū)動業(yè)務(wù)創(chuàng)新[3]。在這樣的背景下,本論文旨在基于數(shù)據(jù)中臺進行企業(yè)數(shù)據(jù)采存管用研究,從數(shù)據(jù)采集、數(shù)據(jù)加工、數(shù)據(jù)建模及數(shù)據(jù)服務(wù)方面進行研究,企業(yè)數(shù)據(jù)服務(wù)平臺的數(shù)據(jù)采集、存儲和管控技術(shù)進行深入研究,以期為企業(yè)數(shù)據(jù)管理提供更為科學(xué)和有效的解決方案,促進企業(yè)數(shù)字化建設(shè)的發(fā)展。因此,本研究具有重要的理論和實踐意義。
1 數(shù)據(jù)架構(gòu)
數(shù)據(jù)中臺對于數(shù)據(jù)架構(gòu)的設(shè)計采用數(shù)據(jù)分層的理念,根據(jù)數(shù)據(jù)的功能和責(zé)任分離的原則進行劃分[4]。數(shù)據(jù)中臺中數(shù)據(jù)的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫,同時也決定了其對外部數(shù)據(jù)的表現(xiàn)形式?;跀?shù)據(jù)中臺的數(shù)據(jù)架構(gòu)一般包括三層:數(shù)據(jù)貼源層(Operation Data Store,ODS) 、數(shù)據(jù)倉庫層(Data Warehouse,DW) 和數(shù)據(jù)應(yīng)用層(Application Data Service,ADS) 。通過對數(shù)據(jù)架構(gòu)進行分層,每個數(shù)據(jù)層都有自己的作用域,更方便定位和使用數(shù)據(jù);每層數(shù)據(jù)之間存在邏輯關(guān)聯(lián),能夠更方便追蹤數(shù)據(jù)血緣,更快速地定位數(shù)據(jù)問題;使用數(shù)據(jù)分層架構(gòu),開發(fā)通用的中間層數(shù)據(jù),減少數(shù)據(jù)的重復(fù)開發(fā),能夠更快速地響應(yīng)業(yè)務(wù)需求。
基于數(shù)據(jù)源、數(shù)據(jù)中臺和數(shù)據(jù)應(yīng)用三部分進行基于數(shù)據(jù)中臺的企業(yè)數(shù)據(jù)采存管用架構(gòu)設(shè)計,如圖1所示。
1) 數(shù)據(jù)源:接入企業(yè)應(yīng)用中數(shù)據(jù),包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。一般通過數(shù)據(jù)中臺提供的數(shù)據(jù)庫直連、應(yīng)用程序接口對接、Excel格式文件到付等方式向數(shù)據(jù)中臺提供數(shù)據(jù)源。
2) 數(shù)據(jù)中臺:由匯聚引擎、計算引擎、數(shù)據(jù)開發(fā)、數(shù)據(jù)建模、數(shù)據(jù)服務(wù)和平臺管理組成。
通過數(shù)據(jù)匯聚將數(shù)據(jù)接入數(shù)據(jù)中臺,數(shù)據(jù)中臺本身不產(chǎn)生數(shù)據(jù),數(shù)據(jù)來自企業(yè)業(yè)務(wù)系統(tǒng)。通過數(shù)據(jù)匯聚模塊匯聚到數(shù)據(jù)中臺的數(shù)據(jù)沒有經(jīng)過處理,基本是按照數(shù)據(jù)的原始狀態(tài)堆砌在一起,業(yè)務(wù)很難直接使用。通過數(shù)據(jù)開發(fā)實現(xiàn)對數(shù)據(jù)的加工處理,形成有價值的數(shù)據(jù),提供給業(yè)務(wù)應(yīng)用使用。
3) 數(shù)據(jù)應(yīng)用:數(shù)據(jù)服務(wù)體系就是把數(shù)據(jù)變?yōu)橐环N服務(wù)能力,通過數(shù)據(jù)服務(wù)讓數(shù)據(jù)參與業(yè)務(wù),激活整個數(shù)據(jù)中臺,數(shù)據(jù)服務(wù)體系是數(shù)據(jù)中臺存在的價值所在。為企業(yè)應(yīng)用中數(shù)據(jù)展示、報表、模型、應(yīng)用等提供數(shù)據(jù)應(yīng)用服務(wù)。
2 數(shù)據(jù)采集
數(shù)據(jù)源是數(shù)據(jù)產(chǎn)生源頭,包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。主要來自企業(yè)業(yè)務(wù)應(yīng)用,通過數(shù)據(jù)中臺提供的數(shù)據(jù)接入、存儲能力,將企業(yè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)采集匯聚到數(shù)據(jù)中臺,實現(xiàn)數(shù)據(jù)分析挖掘利用。一般數(shù)據(jù)中臺提供多種數(shù)據(jù)接入工具,支持接入多樣化的數(shù)據(jù)格式,包括關(guān)系型數(shù)據(jù)庫數(shù)據(jù)、文件數(shù)據(jù)、圖片數(shù)據(jù)、日志數(shù)據(jù)等。
數(shù)據(jù)采集包括兩部分:外部數(shù)據(jù)源的數(shù)據(jù)匯聚、內(nèi)部各層數(shù)據(jù)的提取與加載。外部數(shù)據(jù)源的數(shù)據(jù)匯聚是從業(yè)務(wù)系統(tǒng)匯聚數(shù)據(jù)到數(shù)據(jù)平臺的操作型存儲層(Operational Data Store) ;內(nèi)部各層數(shù)據(jù)的提取與加載是指數(shù)據(jù)平臺各存儲層(Data Warehouse) 的數(shù)據(jù)提取、轉(zhuǎn)換、加載。通過文件加載、數(shù)據(jù)庫數(shù)據(jù)同步、消息隊列、報文接口、文件獲取/接收等方式,實現(xiàn)對數(shù)據(jù)源層中基礎(chǔ)數(shù)據(jù)、監(jiān)測數(shù)據(jù)、文件數(shù)據(jù)三種類型數(shù)據(jù)的獲取,根據(jù)不同數(shù)據(jù)類型,數(shù)據(jù)不同的時效性要求,分別展開作業(yè)調(diào)度,實時數(shù)據(jù)的自動收集、整理、清洗、轉(zhuǎn)換,并接入到數(shù)據(jù)存儲層。
3 數(shù)據(jù)存儲
數(shù)據(jù)存儲實現(xiàn)異構(gòu)數(shù)據(jù)的統(tǒng)一存儲和高效管理,分為結(jié)構(gòu)化數(shù)據(jù)存儲以及非結(jié)構(gòu)化數(shù)據(jù)存儲兩部分。
1) 結(jié)構(gòu)化數(shù)據(jù)存儲。信息能夠用數(shù)據(jù)或統(tǒng)一的結(jié)構(gòu)加以表示,我們稱之為結(jié)構(gòu)化數(shù)據(jù),如數(shù)字、符號等。對于結(jié)構(gòu)化數(shù)據(jù),可以采用Hadoop CDH的Kudu(高性能的數(shù)據(jù)庫存儲技術(shù)),實現(xiàn)海量數(shù)據(jù)的在線存儲、壓縮數(shù)據(jù),保證數(shù)據(jù)不丟失且能夠持續(xù)對外提供服務(wù)。表有預(yù)定義的帶類型的列(Columns) ,每張表有一個主鍵(Primary Key) 。主鍵帶有唯一性(Uniqueness) 限制,可作為索引用來支持快速的Random Access。類似于Big Table,表是由很多數(shù)據(jù)子集構(gòu)成的,表被水平拆分成多個Tablets,每個Tablet為一個單元來實現(xiàn)數(shù)據(jù)的durability,Tablet有多個副本,同時在多個節(jié)點上進行持久化。
Kudu存儲平臺包含兩種類型的組件,Master Server和Tablet Server。Master負責(zé)管理元數(shù)據(jù),這些元數(shù)據(jù)包括Talbet的基本信息和位置信息,Master還作為負載均衡服務(wù)器,監(jiān)聽Tablet Server的健康狀態(tài),對于副本數(shù)過低的Tablet,Master會再起Replication任務(wù)來提高其副本數(shù),Master的所有信息都在內(nèi)存中Cache,因此速度非???,每次查詢都在百毫秒級別,系統(tǒng)支持多個Master,不過只有一個Active Master,其余只是作為災(zāi)備,不提供服務(wù)。Tablet Server上存了10~100個Tablets,每個Tablet有3(或5) 個副本存放在不同的Tablet Server上,每個Tablet同時只有一個Leader副本,這個副本對用戶提供修改操作,然后將修改結(jié)果同步給Follower,F(xiàn)ollower只提供讀服務(wù),不提供修改服務(wù),副本之間使用Raft協(xié)議來實現(xiàn)High Availability,當(dāng)Leader所在的節(jié)點發(fā)生故障時,F(xiàn)ollowers會重新選舉Leader,Raft協(xié)議的另一個作用是實現(xiàn)Consistency,Client對Leader的修改操作,需要同步到N/2+1個節(jié)點上,該操作才算成功,平臺采用類似Log-structured存儲系統(tǒng)的方式,增刪改操作都放在內(nèi)存中的Buffer,然后才Merge到持久化的列式存儲中。
對于結(jié)構(gòu)化數(shù)據(jù),系統(tǒng)經(jīng)過加載、抽取、轉(zhuǎn)換、清洗、比對等處理后,按照數(shù)據(jù)分類和分層進行存儲,形成基礎(chǔ)庫。
2) 非結(jié)構(gòu)化數(shù)據(jù)存儲。非結(jié)構(gòu)化數(shù)據(jù)是指無法用數(shù)字或統(tǒng)一的結(jié)構(gòu)表示的一類信息,如文本、圖像、聲音、網(wǎng)頁等,我們稱之為非結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)格式多樣、體積大、增長速度快,隱含著巨大的價值。
非結(jié)構(gòu)化數(shù)據(jù)通過Hadoop CDH的HDFS(分布式文件系統(tǒng))存儲,分布式文件系統(tǒng)擁有良好的容錯性、可擴展性以及內(nèi)部實現(xiàn)對用戶透明等特性,物理存儲資源可以通過計算機網(wǎng)絡(luò)節(jié)點連接,不一定直接連在本地存儲上。分布式文件系統(tǒng)以標準文件系統(tǒng)接口方式向應(yīng)用系統(tǒng)提供海量非機構(gòu)化數(shù)據(jù)存儲空間,把分布在局域網(wǎng)內(nèi)各計算機上的磁盤集合成一個統(tǒng)一的存儲目錄,把整個分布式文件資源以統(tǒng)一的視圖呈現(xiàn)給用戶。它對用戶和應(yīng)用屏蔽各節(jié)點計算機底層文件系統(tǒng)的差異,提供用戶方便的管理資源的手段和統(tǒng)一的訪問接口,很好地滿足了信息不斷增長的需求,并為上層構(gòu)建實時性更高,更易使用的非結(jié)構(gòu)化數(shù)據(jù)管理支持,適合PB級別的文件存儲,可以支持各種數(shù)據(jù)類型頻繁的修改和刪除操作。
對于非結(jié)構(gòu)化數(shù)據(jù),按數(shù)據(jù)來源(如不同的系統(tǒng))和數(shù)據(jù)類型(如文檔類、圖片類、音頻類、視頻類等)進行存儲目錄規(guī)劃,并按數(shù)據(jù)分析需求進行預(yù)處理(如關(guān)鍵字標簽)后分別存入結(jié)構(gòu)化數(shù)據(jù)庫和對象存儲庫中。
4 數(shù)據(jù)加工
通過數(shù)據(jù)采集至數(shù)據(jù)中臺的數(shù)據(jù)是沒有經(jīng)過處理的,數(shù)據(jù)是按照數(shù)據(jù)的原始狀態(tài)堆砌在一起,業(yè)務(wù)難以直接使用。通過數(shù)據(jù)中臺,應(yīng)建立一套標準化、規(guī)范化的數(shù)據(jù)處理流程。規(guī)范采集內(nèi)部和外部的(結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化)數(shù)據(jù);清洗采集到的臟數(shù)據(jù)和無效數(shù)據(jù);對不同來源的數(shù)據(jù)進行數(shù)據(jù)打通,消滅數(shù)據(jù)孤島;對非結(jié)構(gòu)化的數(shù)據(jù)進行結(jié)構(gòu)化加工;在結(jié)構(gòu)化數(shù)據(jù)的基礎(chǔ)上進行數(shù)據(jù)建模和數(shù)據(jù)挖掘等分項操作。通過數(shù)據(jù)開發(fā)實現(xiàn)對數(shù)據(jù)的加工處理,形成有價值的數(shù)據(jù),提供給業(yè)務(wù)應(yīng)用使用。圖2為基于數(shù)據(jù)中臺的數(shù)據(jù)加工流向圖。
5 模型設(shè)計
5.1 數(shù)據(jù)模型設(shè)計
1) 概念模型設(shè)計。概念模型設(shè)計是在原有的應(yīng)用數(shù)據(jù)庫的基礎(chǔ)上建立一個較為穩(wěn)固的概念模型,因為數(shù)據(jù)中臺中數(shù)據(jù)是對原有數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)進行集成和重組而形成的數(shù)據(jù)集合,對原有數(shù)據(jù)庫系統(tǒng)加以分析理解,為集成來自各個面向應(yīng)用的數(shù)據(jù)庫的數(shù)據(jù)提供統(tǒng)一的概念視圖。
2) 邏輯模型設(shè)計。邏輯模型設(shè)計將概念模型具體化。實現(xiàn)概念模型所描述的東西,需要知道哪些功能和處理哪些具體的信息。以水利工程大壩安全業(yè)務(wù)為例?!皽y點”信息基本上要包括:測點名稱、測點類型、上下樁號、鑒定狀態(tài)、經(jīng)緯度、安裝日期、廠家等屬性;“工程結(jié)構(gòu)”信息基本上要包括:工程信息名稱、完整路徑、節(jié)點狀態(tài)、工程簡介等屬性;并且“測點”要與“工程結(jié)構(gòu)”明細關(guān)聯(lián)。
3) 物理模型設(shè)計。針對上述邏輯模型所說的內(nèi)容,在具體的物理介質(zhì)上實現(xiàn)出來。數(shù)據(jù)倉庫工具使用(Hive+HDFS) ,編寫具體的SQL腳本在數(shù)據(jù)中臺上將數(shù)據(jù)模型建立起來。
5.2 模型分層設(shè)計
數(shù)據(jù)分層一般包括數(shù)據(jù)貼源層、標準明細層、匯總層和服務(wù)層。數(shù)據(jù)分層設(shè)計可以清晰地梳理數(shù)據(jù)結(jié)構(gòu),每一層都有它的作用域,在使用數(shù)據(jù)表時可以方便定位和理解;在做數(shù)據(jù)血緣追蹤時可以快速準確地定位問題,并清楚危害范圍;通過規(guī)范數(shù)據(jù)分層,可以開發(fā)一些通用的中間層數(shù)據(jù),減少重復(fù)開發(fā);可以把復(fù)雜問題簡單化,將一個復(fù)雜的任務(wù)分解成多個步驟完成;可以解耦屏蔽原始數(shù)據(jù)異常對業(yè)務(wù)的影響。數(shù)據(jù)分層設(shè)計,如圖3所示。
1) ODS:原始數(shù)據(jù)層
數(shù)據(jù):與原始數(shù)據(jù)保持一致。
功能:臨時存儲采集到的原始數(shù)據(jù)。
2) DWD:明細數(shù)據(jù)層
功能:對ODS層數(shù)據(jù)進行數(shù)據(jù)清洗,保證數(shù)據(jù)質(zhì)量。
數(shù)據(jù):來自O(shè)DS層。
3) DWS:數(shù)據(jù)匯總層
功能:對DWD層實現(xiàn)輕度聚合,通過關(guān)聯(lián)構(gòu)建寬表退化維度,或者輕度聚合構(gòu)建基礎(chǔ)指標來實現(xiàn)。同時對上一層的數(shù)據(jù)按照主題需求構(gòu)建主題結(jié)果進行最終聚合,主題域?qū)挶怼?/p>
4) 數(shù)據(jù):來自DWD
ADS:數(shù)據(jù)應(yīng)用層。
功能:按照數(shù)倉主題對外提供數(shù)據(jù)的需求。
數(shù)據(jù):對DWS層的數(shù)據(jù)進行拆解,構(gòu)建每個主題的結(jié)果表。
5) DIM:維度數(shù)據(jù)層
功能:存儲所有維度數(shù)據(jù)表。
數(shù)據(jù):一般都來自DWD。
6 數(shù)據(jù)服務(wù)
數(shù)據(jù)服務(wù)是數(shù)據(jù)采存管用的最后一個環(huán)節(jié),也是數(shù)據(jù)資產(chǎn)發(fā)揮其價值的時刻。通過構(gòu)建數(shù)據(jù)服務(wù),以數(shù)據(jù)中臺沉淀的數(shù)據(jù)資產(chǎn)為基礎(chǔ)向內(nèi)部和外部用戶提供數(shù)據(jù)服務(wù)和應(yīng)用,同時以數(shù)據(jù)服務(wù)于業(yè)務(wù),實現(xiàn)數(shù)據(jù)賦能業(yè)務(wù)。
數(shù)據(jù)中臺開放統(tǒng)一存儲訪問接口服務(wù),提供基于傳統(tǒng)關(guān)系型數(shù)據(jù)庫、非關(guān)系型數(shù)據(jù)庫、數(shù)據(jù)倉庫工具等在內(nèi)的多源數(shù)據(jù)訪問接口,以O(shè)penAPI的方式為BI報表、模型分析、數(shù)據(jù)挖掘、業(yè)務(wù)應(yīng)用等提供統(tǒng)一查詢服務(wù)。數(shù)據(jù)服務(wù)層主要由數(shù)據(jù)服務(wù)總線來建設(shè),主要負責(zé)將數(shù)據(jù)中臺的能力接口注冊進去,再以標準化接口開放給業(yè)務(wù)系統(tǒng)使用,支持多種協(xié)議轉(zhuǎn)換、服務(wù)質(zhì)量管理、訪問控制、規(guī)則引擎等。數(shù)據(jù)服務(wù)層將數(shù)據(jù)中臺的數(shù)據(jù)服務(wù)能力開放出去,供業(yè)務(wù)平臺使用。
7 結(jié)束語
綜上所述,本文基于數(shù)據(jù)中臺進行企業(yè)數(shù)據(jù)采集、存儲和管理方面的研究,旨在提供更科學(xué)、有效的解決方案,推動企業(yè)數(shù)字化建設(shè)的發(fā)展。通過對數(shù)據(jù)中臺的實踐探索,文章深入探討了數(shù)據(jù)采集、數(shù)據(jù)加工、數(shù)據(jù)建模及數(shù)據(jù)服務(wù)等方面的關(guān)鍵技術(shù),并對基于數(shù)據(jù)中臺的數(shù)據(jù)采集、存儲和管控技術(shù)進行了深入研究。研究為企業(yè)數(shù)據(jù)管理提供了一定的理論和實踐參考,有助于推動企業(yè)數(shù)字化建設(shè)的進一步發(fā)展。希望本文的研究成果能夠為相關(guān)領(lǐng)域的學(xué)者和從業(yè)者提供有益的啟示,后續(xù)可以進一步完善數(shù)據(jù)中臺在企業(yè)數(shù)據(jù)管理中的應(yīng)用,探索更多創(chuàng)新性的解決方案,以滿足企業(yè)對數(shù)據(jù)管理和利用的不斷增長的需求。
參考文獻:
[1] 劉穎慧,劉楠,蔡一欣,等.數(shù)字化轉(zhuǎn)型中不同企業(yè)的中臺戰(zhàn)略及架構(gòu)設(shè)計[J].電信科學(xué),2020,36(7):126-135.
[2] 吳信東,應(yīng)澤宇,盛紹靜,等.數(shù)據(jù)中臺框架與實踐[J].大數(shù)據(jù),2023,9(6):137-159.
[3] 馮曉娜,雷會鋒,王璐.基于數(shù)據(jù)中臺視角的企業(yè)數(shù)字化轉(zhuǎn)型探析[J].航空財會,2021,3(1):41-44.
[4] 鞠剛,宋雯倩,姜蒙,等.關(guān)于財務(wù)共享數(shù)據(jù)中臺建設(shè)的實踐與思考[J].能源化工財經(jīng)與管理,2023,2(1):55-60.
【通聯(lián)編輯:朱寶貴】