張宏遠
(上海郵電設計咨詢研究院有限公司,上海 200093)
進入信息時代,隨著數(shù)據(jù)產(chǎn)業(yè)的蓬勃發(fā)展,數(shù)字化建設如火如荼?!皵?shù)字中國”“互聯(lián)網(wǎng)+”等國家戰(zhàn)略項目已在資源、可持續(xù)發(fā)展、環(huán)境以及行政辦公等領域取得了良好的效果。數(shù)據(jù)是資產(chǎn)、資源,但如何把數(shù)據(jù)資產(chǎn)、數(shù)據(jù)資源轉化為社會收益和企業(yè)利潤,還需要多方探索。當前,機構和企業(yè)不再建設從源數(shù)據(jù)采集到分析應用的煙囪式系統(tǒng),更傾向于數(shù)據(jù)集中采集、存儲,并應用分層建設。這種方式一方面有利于應用系統(tǒng)的快速部署,另一方面也保證了數(shù)據(jù)的集中管理與運營,體現(xiàn)數(shù)據(jù)的資產(chǎn)、資源屬性。數(shù)據(jù)中臺的出現(xiàn)彌補了數(shù)據(jù)開發(fā)和應用開發(fā)之間由于開發(fā)速度不匹配而出現(xiàn)的響應力不足等問題。
數(shù)據(jù)中臺是國內(nèi)學者提出的概念,起始于阿里的“大中臺、小前臺”概念。阿里的中臺是從管理的角度出發(fā),以中臺事業(yè)部集中數(shù)據(jù)搜索,技術及產(chǎn)品,數(shù)據(jù)共享等多個部門的功能。其他組織或企業(yè)建設數(shù)據(jù)中臺不一定需要成立中臺事業(yè)部,但是數(shù)據(jù)集中治理與提升數(shù)據(jù)價值轉換效率的思路是一致的。有學者提出了一種基于數(shù)據(jù)中臺的數(shù)據(jù)治理系統(tǒng),認為數(shù)據(jù)中臺是一種大數(shù)據(jù)架構,用來完成數(shù)據(jù)治理[1]。也有學者認為數(shù)據(jù)中臺并非指大數(shù)據(jù)平臺,數(shù)據(jù)中臺完成數(shù)據(jù)治理后會形成標準數(shù)據(jù),再對數(shù)據(jù)進行存儲,進而形成大數(shù)據(jù)資產(chǎn),可以為用戶提供高效的優(yōu)質(zhì)服務。
數(shù)據(jù)中臺的作用已經(jīng)在生產(chǎn)實踐中得到普遍認可。阿里的線上商城離不開數(shù)據(jù)中臺,運營商的項目投資建設、銷售品管理及用戶管理離不開數(shù)據(jù)中臺,家譜管理也用到了數(shù)據(jù)中臺[2],但迄今為止沒有一個通用的數(shù)據(jù)中臺體系架構能指導各行業(yè)的數(shù)據(jù)中臺建設。本文從數(shù)據(jù)中臺建設、管理、維護的角度出發(fā)分析數(shù)據(jù)中臺的核心要素,梳理出一個通用的數(shù)據(jù)中臺體系架構,提高數(shù)據(jù)共享能力,減少各子系統(tǒng)的功能耦合度,增加功能復用率,減少軟件功能的重復開發(fā)與投資。
數(shù)據(jù)中臺(Data Central-Platform)[3]可以用來進行數(shù)據(jù)治理,利用數(shù)據(jù)中臺實現(xiàn)業(yè)務數(shù)據(jù)的流轉、數(shù)據(jù)流向的梳理、數(shù)據(jù)質(zhì)量的清洗以及數(shù)據(jù)提供的能力。根據(jù)數(shù)據(jù)治理協(xié)會(Data Governance Institute,DGI)的定義,數(shù)據(jù)治理指的是對數(shù)據(jù)相關事宜的決策制定與權力控制。數(shù)據(jù)治理的目標是提高數(shù)據(jù)的質(zhì)量(準確性、及時性、完整性、唯一性、一致性、有效性),確保數(shù)據(jù)的安全性(保密性、完整性及可用性),實現(xiàn)數(shù)據(jù)資源在各組織機構部門的共享,推進數(shù)據(jù)資源的整合、服務和共享,從而提升企事業(yè)單位信息化水平,充分發(fā)揮數(shù)據(jù)資產(chǎn)作用[4]。技術上,數(shù)據(jù)中臺是一種大數(shù)據(jù)架構,用來完成數(shù)據(jù)治理,進而支撐線上應用系統(tǒng)建設,挖掘數(shù)據(jù)隱含價值。
本文認為數(shù)據(jù)中臺是一個物理存在的系統(tǒng),是企業(yè)或機構需要建設的位于數(shù)據(jù)源與數(shù)據(jù)應用系統(tǒng)之間的一個中間平臺。數(shù)據(jù)中臺鏈接數(shù)據(jù)后臺和數(shù)據(jù)前后,將無質(zhì)量的后臺數(shù)據(jù)匯集在一起,形成大數(shù)據(jù),通過數(shù)據(jù)治理梳理出有效的數(shù)據(jù)。數(shù)據(jù)中臺是數(shù)據(jù)三層結構中的中間層,主要負責數(shù)據(jù)匯集、數(shù)據(jù)治理和提供數(shù)據(jù)能力,為應用服務提供個性化數(shù)據(jù)服務[1]。這里的數(shù)據(jù)中臺并非指大數(shù)據(jù)平臺,而是指通過數(shù)據(jù)技術對海量的數(shù)據(jù)進行采集、計算、存儲和加工,并統(tǒng)一標準和口徑。數(shù)據(jù)中臺完成數(shù)據(jù)統(tǒng)一后會形成標準數(shù)據(jù),然后再對數(shù)據(jù)進行存儲,進而形成大數(shù)據(jù)資產(chǎn)層,為用戶提供高效的優(yōu)質(zhì) 服務[5]。
數(shù)據(jù)中臺是眾多數(shù)據(jù)應用系統(tǒng)中可集中建設與維護的一個共享數(shù)據(jù)平臺,是數(shù)據(jù)生產(chǎn)系統(tǒng)中的一環(huán)。數(shù)據(jù)中臺一定具有大數(shù)據(jù)平臺的功能,但大數(shù)據(jù)平臺不需要具備數(shù)據(jù)中臺的功能。數(shù)據(jù)治理是數(shù)據(jù)中臺及大數(shù)據(jù)平臺不可或缺的核心功能,數(shù)據(jù)中臺需要專門的數(shù)據(jù)治理子系統(tǒng)[6]。以通信運營商為例,其數(shù)據(jù)中臺定位如圖1 所示。
圖1 數(shù)據(jù)中臺的系統(tǒng)定位
不同的企業(yè)對數(shù)據(jù)有不同的需求。企業(yè)數(shù)據(jù)應用不斷更新迭代,企業(yè)的中臺系統(tǒng)也需要不斷變化。因而,有些學者認為無法創(chuàng)建統(tǒng)一、規(guī)范的數(shù)據(jù)中臺模板供其他企業(yè)借鑒與使用。企業(yè)需根據(jù)自身業(yè)務的需要,構建適合于本企業(yè)發(fā)展的數(shù)據(jù)中臺[2]。但是從數(shù)字系統(tǒng)的核心任務分析,數(shù)據(jù)中臺一方面對大量上層數(shù)據(jù)應用系統(tǒng)公共數(shù)據(jù)處理的部分功能集中建設,另一方面對數(shù)據(jù)進行治理,利用算法挖掘數(shù)據(jù)中的隱藏價值,提升數(shù)據(jù)質(zhì)量并開放給其他數(shù)據(jù)應用系統(tǒng),因此一個通用的數(shù)據(jù)中臺至少應滿足數(shù)據(jù)應用的中間處理與數(shù)據(jù)治理。從數(shù)據(jù)處理與數(shù)據(jù)治理兩個維度出發(fā),本文設計了一個解耦的數(shù)據(jù)中臺體系架構。該數(shù)據(jù)中臺體系架構具有一定的柔性,可按照企業(yè)應用需求進行組合,或者對單個模塊進行擴充,能滿足大多數(shù)企業(yè)數(shù)據(jù)中臺建設的需求。
數(shù)據(jù)中臺的通用體系架構如圖2 所示。該中臺體系架構以減少功能冗余和提高功能復用為原則,把數(shù)據(jù)中臺解耦為6 個可以分別獨立建設、演進的功能子系統(tǒng)。數(shù)據(jù)結構與數(shù)據(jù)處理子系統(tǒng)是數(shù)據(jù)中臺體系架構的核心,數(shù)據(jù)治理是提升數(shù)據(jù)價值的重要手段。該數(shù)據(jù)中臺體系架構的通用性表現(xiàn)在以下幾點。
圖2 數(shù)據(jù)中臺體系架構示例
(1)該數(shù)據(jù)中臺體系架構綜合考慮了數(shù)據(jù)中臺的各種要素,參考這個架構進行建設可以有效提升數(shù)據(jù)資產(chǎn)價值,提供數(shù)據(jù)及服務的共享。
(2)參考這個數(shù)據(jù)中臺體系架構,企業(yè)可以一次規(guī)劃、分步實施。首先建設處理子系統(tǒng)及數(shù)據(jù)存儲子系統(tǒng),然后根據(jù)業(yè)務發(fā)展需求,逐步補充數(shù)據(jù)采集、數(shù)據(jù)安全及數(shù)據(jù)治理子系統(tǒng)。
(3)該數(shù)據(jù)中臺由6 個解耦的子系統(tǒng)組成。企業(yè)在立項建設時可以靈活組合,每個子系統(tǒng)單獨招標建設,也可以把多個子系統(tǒng)合并招標建設。
數(shù)據(jù)中臺通用體系架構包含數(shù)據(jù)存儲框架、數(shù)據(jù)采集框架、數(shù)據(jù)處理框架、數(shù)據(jù)治理框架、數(shù)據(jù)安全框架及數(shù)據(jù)運營框架等6 大部分。
數(shù)據(jù)中臺的核心是數(shù)據(jù),數(shù)據(jù)通過采集系統(tǒng)獲取,然后數(shù)據(jù)經(jīng)過處理框架加工,并接受數(shù)據(jù)治理框架的管理,同時也要接受數(shù)據(jù)安全管理框架的管理,最后開放的價值數(shù)據(jù)將通過數(shù)據(jù)運營框架對外提供數(shù)據(jù)服務。數(shù)據(jù)中臺的數(shù)據(jù)架構應該獨立規(guī)劃,并采用合理的技術架構對不同類型的數(shù)據(jù)進行存儲。
數(shù)據(jù)存儲框架中,無論數(shù)據(jù)采用對象存儲、塊存儲還是數(shù)據(jù)庫存儲技術,各種中臺數(shù)據(jù)可按照上圖所示分類管理。對于不同數(shù)據(jù)的存儲技術本文不再討論。源數(shù)據(jù)主要由采集框架進行管理,數(shù)據(jù)治理框架按照數(shù)據(jù)特征把數(shù)據(jù)簡單分為結構化和非結構化數(shù)據(jù)兩大類,而規(guī)范化分域數(shù)據(jù)則是數(shù)據(jù)治理框架對全量數(shù)據(jù)的規(guī)范化分域整理。寬表數(shù)據(jù)是數(shù)據(jù)關聯(lián)的結果,利用寬表數(shù)據(jù)可以對人、事、地、物、組等對象進行完整的數(shù)據(jù)畫像,同時寬表數(shù)據(jù)也可以作為上層模型數(shù)據(jù)的中間層數(shù)據(jù)。元數(shù)據(jù)和標簽數(shù)據(jù)都是對數(shù)據(jù)的描述,其中元數(shù)據(jù)用來對數(shù)據(jù)的客觀屬性進行表示,標簽數(shù)據(jù)更傾向于管理者對數(shù)據(jù)的主觀表述及等級劃分,比如質(zhì)量等級標簽、安全標簽、屬性標簽等。主數(shù)據(jù)需要在各系統(tǒng)間頻繁更新、交換,且需要獨立的存儲空間進行維護管理。
數(shù)據(jù)中臺的采集框架應對納入數(shù)據(jù)中臺的各種源數(shù)據(jù)進行統(tǒng)一采集管理。數(shù)據(jù)采集框架中應提供多種數(shù)據(jù)采集方式,如文件傳輸協(xié)議(File Transfer Protocol,F(xiàn)TP)采集、數(shù)據(jù)庫采集、接口應用程序(Application Programming Interface,API)接入采集、流式采集及網(wǎng)絡爬蟲采集。同時采集框架應按照數(shù)據(jù)采集規(guī)范對源數(shù)據(jù)進行預處理,從而去除明顯不需要的數(shù)據(jù)及多余數(shù)據(jù),并對采集過程進行管理。雖然數(shù)據(jù)中臺的體系架構沒有統(tǒng)一模板,但各企業(yè)數(shù)據(jù)采集框架基本一致。
數(shù)據(jù)處理是每個數(shù)據(jù)應用的基本環(huán)節(jié)之一,經(jīng)典的數(shù)據(jù)抽取、轉換和加載(Extract Transform Load,ETL)處理流程在數(shù)據(jù)采集預處理、數(shù)據(jù)整合、數(shù)據(jù)建模等多個地方均要使用。單獨建設數(shù)據(jù)處理框架有利于數(shù)據(jù)處理工具組件的集中開發(fā)與管理,也有利于數(shù)據(jù)中臺數(shù)據(jù)處理任務的協(xié)調(diào)與調(diào)度。數(shù)據(jù)處理框架專門負責數(shù)據(jù)處理相關的任務,包括批處理、流處理、人工智能(Artificial Intelligence,AI)分析、數(shù)據(jù)清洗、數(shù)據(jù)交換及查詢,此外數(shù)據(jù)處理的相關工具組件可在處理框架中配置。任務調(diào)度模塊在數(shù)據(jù)處理框架中處于居中指揮的作用,并對運行的數(shù)據(jù)處理任務進行監(jiān)控及異常處理等操作。
廣義的數(shù)據(jù)治理不僅包含提升數(shù)據(jù)價值的內(nèi)容,如數(shù)據(jù)管理、數(shù)據(jù)目錄、數(shù)據(jù)質(zhì)量等,也包含數(shù)據(jù)安全管理及數(shù)據(jù)共享服務。數(shù)據(jù)安全管理與數(shù)據(jù)價值提升是一個矛盾體,如果由一個廠商或開發(fā)團隊進行數(shù)據(jù)安全管理及數(shù)據(jù)價值提升相關軟件的開發(fā),則開發(fā)者的操作難免有所偏向,而且矛盾不容易公開,少了沖突也就少了優(yōu)質(zhì)的解決方案。另外,數(shù)據(jù)共享與數(shù)據(jù)治理的其他內(nèi)容也存在相同的問題。因此,本文建議數(shù)據(jù)中臺的數(shù)據(jù)治理框架中不包含數(shù)據(jù)安全與共享的相關內(nèi)容。
數(shù)據(jù)治理框架包含數(shù)據(jù)目錄、數(shù)據(jù)管理、模型管理和數(shù)據(jù)質(zhì)量4 個模塊。數(shù)據(jù)地圖、數(shù)據(jù)資產(chǎn)目錄、知識圖譜及數(shù)據(jù)血緣的主要作用是展示數(shù)據(jù)的屬性及相互關系,因此都納入數(shù)據(jù)目錄模塊。數(shù)據(jù)模型能提高數(shù)據(jù)中臺對外部應用需求的反應能力,固化的中間模型數(shù)據(jù)需要專門管理。模型管理包括模型目錄、模型血緣及模型地圖等。數(shù)據(jù)管理又可以細分為元數(shù)據(jù)管理、主數(shù)據(jù)管理、標簽數(shù)據(jù)管理及源數(shù)據(jù)管理。數(shù)據(jù)質(zhì)量管理模塊按照制定的數(shù)據(jù)標準及數(shù)據(jù)稽核規(guī)則對數(shù)據(jù)中臺中的數(shù)據(jù)進行質(zhì) 量管理。
數(shù)據(jù)已經(jīng)成為數(shù)據(jù)資產(chǎn),數(shù)據(jù)安全框架是數(shù)據(jù)中臺必不可少的組成部分。數(shù)據(jù)安全疊加在數(shù)據(jù)中臺其他功能框架之上,數(shù)據(jù)采集、處理、交換、共享等每個環(huán)節(jié)均必須實施安全控制策略。安全框架可以分為日志管理、用戶認證、權限管理及加解密等幾個功能模塊。此外,安全全門戶也可以對外提供安全能力封裝,展示數(shù)據(jù)中臺的安全態(tài)勢及安全視圖。
數(shù)據(jù)中臺的核心功能是綜合眾多數(shù)據(jù)應用的數(shù)據(jù)處理及數(shù)據(jù)治理功能,集中建設、集中管理、減少冗余、增加復用。數(shù)據(jù)中臺的最終目的還是為其他應用或開發(fā)者提供數(shù)據(jù)服務,而對外數(shù)據(jù)服務功能將直接面向不確定的外部對象。因此單獨建設數(shù)據(jù)運營,一方面有利于針對外部用戶提供針對性功能;另一方面,數(shù)據(jù)運營模塊作為用戶與數(shù)據(jù)中臺核心數(shù)據(jù)服務之間的中間層,可以有效隔離外部用戶直接控制、接觸核心數(shù)據(jù)及應用,可保護數(shù)據(jù)中臺的安全性及內(nèi)部功能的穩(wěn)定性。綜合以上因素,數(shù)據(jù)運營應配置運營門戶、能力開放、數(shù)據(jù)開放及運營監(jiān)控等功能。
(1)運營門戶:對數(shù)據(jù)中臺管理者提供管理門戶,對開發(fā)者提供開發(fā)者門戶。對內(nèi)部應用提供內(nèi)部應用門戶,對外部應用提供外部應用門戶。運營門戶針對不同的用戶提供不同的通道并開放不同的數(shù)據(jù)中臺能力。
(2)能力開放:把數(shù)據(jù)中臺的數(shù)據(jù)處理能力、數(shù)據(jù)分析能力等經(jīng)過適當?shù)姆庋b后對用戶提供服務,可以是微服務,也可以是API 接口,或者直接提供二次開發(fā)能力。
(3)數(shù)據(jù)開放:通過數(shù)據(jù)目錄,數(shù)據(jù)/模型展示(可視化、數(shù)據(jù)視圖等)為其他數(shù)據(jù)應用系統(tǒng)提供數(shù)據(jù)服務。
(4)運營監(jiān)控:對數(shù)據(jù)中臺的總體運營情況進行監(jiān)控管理,包括硬件環(huán)境、軟件環(huán)境,并且確定監(jiān)控指標,按需求提供運營日報,處理告警 信息。
數(shù)據(jù)中臺是近年來源于國內(nèi)的技術概念,旨在利用數(shù)據(jù)技術對海量數(shù)據(jù)進行采集、存儲、計算、加工、統(tǒng)一表示,形成規(guī)范后的數(shù)據(jù)API,進而提高數(shù)據(jù)的共享能力[2]。數(shù)據(jù)中臺包含豐富的功能要求,其中數(shù)據(jù)治理、數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)安全等都可以深入研究。在數(shù)據(jù)治理方面,國內(nèi)學者[7]采用文獻調(diào)研法對數(shù)據(jù)治理的概念、體系、內(nèi)容和應用的相關研究進行述評,并指出“框架體系”“模型設計”是未來重點研究領域,而數(shù)據(jù)中臺是數(shù)據(jù)治理的前提,因此做好數(shù)據(jù)治理的前提是建設數(shù)據(jù)中臺[3]。本文從建設周期、投資與運維管理的角度出發(fā),對數(shù)據(jù)中臺的建設要素進行分析,設計了一個解耦的數(shù)據(jù)中臺通用體系架構。
建設數(shù)據(jù)中臺,實現(xiàn)企業(yè)或機構數(shù)據(jù)資產(chǎn)的高效管理和數(shù)據(jù)價值最大化,為機構帶來了數(shù)據(jù)平臺化的運營機制,有望解決應用開發(fā)與數(shù)據(jù)開發(fā)速度不匹配的問題。利用數(shù)據(jù)中臺,可以將機構的核心技術或團隊凝聚在一起,建設機構內(nèi)強大的數(shù)據(jù)開發(fā)、運營等團隊,提升機構的團隊的硬實力和軟實力[2]。雖然一個良好的架構對一個信息系統(tǒng)的后期擴容及運維有重要作用,但總體架構設計只是數(shù)據(jù)中臺建設的第一步,每一個功能模塊還有很大的細化空間,如不同類型數(shù)據(jù)的存儲技術選型、數(shù)據(jù)安全合規(guī)審計技術、數(shù)據(jù)模型設計等。在具體項目中,數(shù)據(jù)共享與安全保護的平衡點、新技術的引用等,都需要進一步細化研究。