武警警官學院訓練基地 廣東 廣州 510440
自阿里巴巴提出“大中臺,小前臺”戰(zhàn)略后,數據中臺在互聯網領域取得了快速發(fā)展,本文將為大家分享的是如何打造數據中臺的過程。數據中臺建設是以數據驅動業(yè)務創(chuàng)新為目的,具有機動快速、靈活反應的技術與組織能力體系建設。它具備三個基本要素:①最終目的:中臺的最終目的是解決業(yè)務問題;②解決訴求:快速解決業(yè)務訴求是數據中臺建設的一個重要的考量指標。說到底,中臺建設是為了使用服務;③完整的組織:沒有嚴格的組織間協調,就無法形成強大的戰(zhàn)斗力,因此多支游擊隊湊在一起成不了集團軍。關于技術體系、組織架構,需要有完整、嚴謹和深入的思考。
數據中臺通常認為由五個核心架構部分組成,包括:基礎數據層,包括數據采集平臺、計算平臺、存儲平臺,這些可以使用云計算服務,也可以自建。公共數據層,包括數據湖(數據倉庫),負責公共數據模型的研發(fā),還包括統一指標(標簽)平臺,負責把模型組織成可以對外服務的數據。應用服務層,負責將公共數據區(qū)的數據提供對外服務,包括數據分析平臺、數據接口平臺、數據可視化平臺,多維查詢平臺等。數據研發(fā)平臺,涵蓋數據開發(fā)的各類工具,如:腳本開發(fā)工具、數據管道工具、模型設計工具、數據調度工具等。數據管理平臺,針對全鏈路的數據管理,保證可以監(jiān)控數據流向、數據使用效果、數據生命周期,以衡量數據的價值與成本。除此之外,為了豐富數據中臺的組成,可以對架構進行擴展,如:構建數據資產平臺、算法平臺等。由于數據源于業(yè)務并最終服務于業(yè)務,因此在數據中臺構建過程中必須重視與業(yè)務的銜接,需要通過制定一系列的流程制度加以明確,用來保障數據的來源及輸出的質量[1]。
One ID指統一數據萃取,是一套解決數據孤島問題的思想和方法。目前我校師生的身份標識ID有學號、教工號、NetID、校園卡號和身份證號等,這些ID散落在學校的各個業(yè)務系統中,其中身份證號具有最強唯一性,同時具有較強的數據敏感性,因此,結合實際情況可以根據身份證號映射生成統一用戶uid,讓uid代行全局唯一身份標識的作用,同時將全局唯一身份標識代入到全域數據倉庫的各層數據中,通過這個統一uid,便可關聯起各個數據域的數據,實現數據通融,以確保業(yè)務分析、用戶畫像等數據應用的準確和全面。
(1)貼源數據層(operational datastore,ODS):全域數據統一存儲。主要采集校園各業(yè)務系統、日志平臺等結構化和半結構化的數據,然后匯聚到數據中臺,盡可能保留原始業(yè)務流程數據,根據數據業(yè)務需求及審計要求保存歷史數據、清洗數據,為上層提供數據服務。
(2)統一數倉層(common data model,CDM)又稱為通用數據模型層,由公共維度匯總層(dimension,DIM)、數據倉庫明細層(data warehouse detail,DWD)和數據倉庫匯總層(data warehouse summary,DWS)3部分組成。本研究使用阿里的One Data核心方法論來完成CDM層的數據構建和管理,以維度建模為理論基礎,先做業(yè)務調研和需求調研,以業(yè)務系統為單位劃分業(yè)務板塊,然后面向業(yè)務分析按照高內聚低耦合等原則,將業(yè)務過程整合成10個數據域,同時根據業(yè)務過程整理出相關原子指標、派生指標和抽象維度指標體系,最后設計出維度表、明細事實表和匯總事實表,形成統一規(guī)范的標準業(yè)務數據體系。其中,教工域和學生域依據角色在校全生命周期業(yè)務梳理,共確定原子指標241個、派生指標336個。其中,原子指標和度量含義相同,是某一業(yè)務行為的度量,是業(yè)務定義中不可再拆分的指標,如學生的學費實收金額;派生指標由原子指標、時間周期修飾詞、若干其他修飾詞組合得到,如管理學院學生一學年學費實收金額則為派生指標。
(3)應用數據層(application datastore,ADS)提供直接面向業(yè)務或應用的數據,按照業(yè)務的需要從統一數倉層抽取數據,并面向業(yè)務的特殊需要加工業(yè)務特定數據,以滿足業(yè)務及性能需求,向特定應用組裝應用數據。如無公用性或復雜性(如指數型、比值型和排名型等指標數據)的指標數據加工。同時為方便實現數據應用、數據消費的訴求,進行面向應用邏輯的數據組裝(如橫表轉縱表和趨勢指標串等)。
數據中臺把傳統數倉和大數據架構進行完全融合,利用大數據技術建立數據資產體系,提升數據共享力和服務力,為業(yè)務人員提供自助式數據服務,培養(yǎng)數據思維。校園大數據體系的架構和建設需要使用“自下而上”和“自上而下”相結合的方法?!白韵露稀敝笇θ驍祿M行面向業(yè)務域的梳理;“自上而下”指面向分析主題將相關數據整合到數據倉庫中。數據體系的實施主要包括業(yè)務調研和需求分析、數據總價架構設計、指標體系設計與實施、使用驗證與優(yōu)化4個環(huán)節(jié),業(yè)務調研和需求分析做得是否充分直接決定了數據體系建設的是否成功,數據體系的使用效能、活力和可持續(xù)性還需要通過交付使用后驗證,并不斷進行優(yōu)化迭代,從而提高數據資產所產生的綜合效益。