摘要:在數(shù)字化時代,數(shù)據(jù)治理可發(fā)揮出激發(fā)數(shù)據(jù)價值、提升工作效益的關(guān)鍵作用。文章探討了如何在數(shù)字化時代構(gòu)建計算機重要數(shù)據(jù)治理體系,根據(jù)國際數(shù)據(jù)治理研究所(DGI)和國際數(shù)據(jù)管理協(xié)會(DAMA)框架,基于Spark數(shù)據(jù)處理引擎設(shè)計了綜合數(shù)據(jù)治理流程,旨在優(yōu)化數(shù)據(jù)管理體系,提高數(shù)據(jù)透明度,統(tǒng)一數(shù)據(jù)標準,降低共享難度,增強信任,規(guī)避風險。計算機重要數(shù)據(jù)治理體系包括統(tǒng)一數(shù)據(jù)標準、元數(shù)據(jù)管理、數(shù)據(jù)建模和集成、生命周期管理、質(zhì)量保障、開放、安全及應(yīng)用優(yōu)化等核心內(nèi)容,可以為企業(yè)的數(shù)據(jù)管理和決策提供堅實支撐。
關(guān)鍵詞:數(shù)據(jù)治理;體系構(gòu)建;框架模型
中圖分類號:TP392" 文獻標志碼:A
0 引言
數(shù)字化時代的發(fā)展以計算機技術(shù)及互聯(lián)網(wǎng)平臺為依托,目前,技術(shù)創(chuàng)新及其應(yīng)用已經(jīng)發(fā)展為數(shù)字化時代的核心。在企業(yè)日常經(jīng)營與發(fā)展過程中,數(shù)據(jù)量呈現(xiàn)出不斷增加的趨勢,而應(yīng)用云計算、大數(shù)據(jù)等相關(guān)技術(shù),企業(yè)可實時、便捷化應(yīng)用各類數(shù)據(jù)資源,但數(shù)據(jù)網(wǎng)絡(luò)安全問題日益凸顯,須要采取合理技術(shù)和手段深化數(shù)據(jù)治理。基于此,學術(shù)界和業(yè)界不斷加大對數(shù)據(jù)治理及其隱私保護的研究力度,文章探討計算機重要數(shù)據(jù)治理體系的構(gòu)建,以期深化數(shù)字治理成效,在保障數(shù)字信息安全的同時,助力數(shù)字化時代實現(xiàn)更好發(fā)展。
1 典型數(shù)據(jù)治理框架
目前,學術(shù)界與業(yè)界關(guān)于數(shù)據(jù)治理的定義存在2種不同的觀點。(1)國際數(shù)據(jù)治理研究所(DGI)觀點。該觀點認為數(shù)據(jù)治理是通過一系列信息相關(guān)過程實現(xiàn)決策權(quán)和職責分工的系統(tǒng)[1],規(guī)范了企業(yè)在數(shù)據(jù)估值、創(chuàng)建、存儲、使用、歸檔及刪除等各環(huán)節(jié)的行為,是一種輔助企業(yè)制定決策和問責框架的工具[2]。(2)美國教育部隱私技術(shù)援助中心及國際數(shù)據(jù)管理協(xié)會(DAMA)觀點。該觀點認為數(shù)據(jù)治理是圍繞數(shù)據(jù)全生命周期的活動集合,主要職責是對數(shù)據(jù)信息進行管理,對數(shù)據(jù)的全生命周期進行監(jiān)控[3]。其中,DAMA更具體地指出,數(shù)據(jù)治理須要對數(shù)據(jù)和信息進行組織和管理,確保數(shù)據(jù)資產(chǎn)控制的有效性和使用權(quán)的合理性。盡管2種觀點在表述上存在差異,但都強調(diào)了數(shù)據(jù)治理在規(guī)范企業(yè)數(shù)據(jù)管理、保證數(shù)據(jù)質(zhì)量、實現(xiàn)數(shù)據(jù)價值方面的重要性。
結(jié)合DAMA與DGI兩大主流數(shù)據(jù)治理框架,本文構(gòu)建了基于Spark數(shù)據(jù)處理引擎的綜合型數(shù)據(jù)治理模型,在描繪計算機關(guān)鍵數(shù)據(jù)治理整體架構(gòu)的同時,深入剖析治理行為的各個層次,力求通過數(shù)據(jù)治理體系的優(yōu)化提升數(shù)據(jù)價值實現(xiàn)過程的透明度,解決數(shù)據(jù)格式的標準統(tǒng)一性問題,降低數(shù)據(jù)開放共享的難度,增強科研工作者的信任感,提高數(shù)據(jù)治理過程中的風險規(guī)避能力,最終為數(shù)據(jù)治理體系的進一步完善提供堅實的理論支撐和參考。
2 數(shù)據(jù)治理體系設(shè)計
根據(jù)實際需求,本研究基于Spark數(shù)據(jù)處理引擎設(shè)計數(shù)據(jù)治理體系,明確其具體功能與工作流程[4]。在此基礎(chǔ)上,針對體系方案中對各項功能實現(xiàn)所提出的要求,本文進一步設(shè)計了數(shù)據(jù)治理系統(tǒng),明確技術(shù)架構(gòu),揭示其具體的實現(xiàn)方案。
2.1 功能設(shè)計
數(shù)據(jù)治理系統(tǒng)主要有4個功能,包括元數(shù)據(jù)管理、數(shù)據(jù)采集、數(shù)據(jù)倉庫管理、實時數(shù)據(jù)處理。各功能還包括多項子功能,如圖1所示。
2.1.1 元數(shù)據(jù)管理
元數(shù)據(jù)管理具有多項關(guān)鍵功能,包括元數(shù)據(jù)信息預(yù)覽、元數(shù)據(jù)檢索以及表級和字段級血緣分析。元數(shù)據(jù)信息預(yù)覽和檢索功能能夠詳細展示元數(shù)據(jù)信息,通過特定條件進行檢索;表級和字段級血緣分析是元數(shù)據(jù)管理中用于檢查數(shù)據(jù)質(zhì)量和理清數(shù)據(jù)資產(chǎn)的重要工具,能夠幫助快速定位數(shù)據(jù)分析中的問題。
2.1.2 數(shù)據(jù)采集
數(shù)據(jù)采集具有2個主要功能:采集配置和數(shù)據(jù)預(yù)處理。采集配置允許自定義數(shù)據(jù)源信息,統(tǒng)一管理離線或?qū)崟r的數(shù)據(jù)采集任務(wù),實現(xiàn)對多源數(shù)據(jù)的統(tǒng)一歸集;數(shù)據(jù)預(yù)處理在采集日志數(shù)據(jù)時,會對日志消息進行合法性校驗,在保證數(shù)據(jù)完整性的同時,根據(jù)數(shù)據(jù)類型及其特點設(shè)計不同的采集鏈路,確保各類數(shù)據(jù)能夠準確對接到存儲框架中。
2.1.3 數(shù)據(jù)倉庫管理
數(shù)據(jù)倉庫管理包含數(shù)倉數(shù)據(jù)預(yù)覽、數(shù)據(jù)倉庫配置、自定義函數(shù)和任務(wù)調(diào)度等關(guān)鍵功能。數(shù)倉數(shù)據(jù)預(yù)覽可瀏覽數(shù)據(jù)并提供字段查詢;數(shù)據(jù)倉庫配置通過Spark SQL調(diào)整結(jié)構(gòu)并生成變更日志;自定義函數(shù)處理復(fù)雜計算需求;任務(wù)調(diào)度管理數(shù)據(jù)倉庫轉(zhuǎn)換任務(wù),支持多種腳本和精確調(diào)度,是數(shù)據(jù)治理自動化的核心。
2.1.4 實時數(shù)據(jù)處理
實時數(shù)據(jù)處理包含實時任務(wù)配置和實時指標查看2項關(guān)鍵功能。實時任務(wù)配置主要用于設(shè)置Kafka數(shù)據(jù)源、任務(wù)流(包括任務(wù)名稱、描述、計算腳本和執(zhí)行計劃),綁定數(shù)據(jù)源和任務(wù)流以完成配置;實時指標查看以圖表的形式在數(shù)據(jù)治理系統(tǒng)前端對處理后的數(shù)據(jù)進行展示,為用戶查看和使用提供便利。實時任務(wù)配置和實時指標查看2項關(guān)鍵功能共同構(gòu)成了數(shù)據(jù)處理模塊的核心流程。
2.2 工作流程設(shè)計
結(jié)合前文需求分析與功能設(shè)計,本文對數(shù)據(jù)治理系統(tǒng)運行流程進行設(shè)計。概括而言,數(shù)據(jù)治理系統(tǒng)的運行主要包括數(shù)據(jù)采集管理、數(shù)據(jù)預(yù)處理、數(shù)據(jù)平臺管理、數(shù)據(jù)加載、實時數(shù)據(jù)處理、前端接口與可視化等步驟[5]。
2.2.1 數(shù)據(jù)采集管理
數(shù)據(jù)源配置模塊主要用于定義數(shù)據(jù)采集范圍和采集策略,配置數(shù)據(jù)源信息。數(shù)據(jù)采集任務(wù)定義模塊主要根據(jù)業(yè)務(wù)需求定義采集任務(wù),包括離線采集和實時采集。采集周期和采集策略模塊主要用于設(shè)定數(shù)據(jù)采集的頻率和方式,以滿足不同數(shù)據(jù)的實時性需求。
2.2.2 數(shù)據(jù)預(yù)處理
數(shù)據(jù)清洗任務(wù)模塊主要用于定義數(shù)據(jù)清洗規(guī)則,清理數(shù)據(jù)中的異常、重復(fù)或無效值。數(shù)據(jù)清洗腳本配置模塊主要用于編寫和配置清洗腳本,自動化處理數(shù)據(jù)。
2.2.3 數(shù)據(jù)平臺管理
數(shù)據(jù)倉庫管理模塊主要用于定義和管理數(shù)據(jù)倉庫的結(jié)構(gòu)和層次。元數(shù)據(jù)管理模塊主要用于管理數(shù)據(jù)的元數(shù)據(jù)信息,如字段描述、數(shù)據(jù)來源等。數(shù)據(jù)預(yù)覽與檢索模塊主要提供數(shù)據(jù)的預(yù)覽和檢索功能,方便查看和理解數(shù)據(jù)。
2.2.4 數(shù)據(jù)加載
數(shù)據(jù)倉庫抽取模塊主要根據(jù)預(yù)設(shè)的規(guī)則,從數(shù)據(jù)源中抽取數(shù)據(jù)并加載到數(shù)據(jù)倉庫中。
2.2.5 實時數(shù)據(jù)處理
實時數(shù)據(jù)管理模塊主要用于管理和維護實時數(shù)據(jù)流,確保數(shù)據(jù)的實時性和準確性。任務(wù)調(diào)度模塊主要負責任務(wù)的調(diào)度和執(zhí)行,確保數(shù)據(jù)處理任務(wù)的高效運行。任務(wù)配置與展示模塊主要用于配置數(shù)據(jù)處理任務(wù),展示任務(wù)的狀態(tài)和執(zhí)行結(jié)果。計算任務(wù)配置模塊主要用于配置計算任務(wù),包括離線計算任務(wù)和實時計算任務(wù)。任務(wù)執(zhí)行狀態(tài)模塊主要用于實時展示任務(wù)的執(zhí)行狀態(tài)和進度。
2.2.6 前端接口與可視化
開放前端實時數(shù)據(jù)接口模塊主要為前端提供實時數(shù)據(jù)接口,支持前端應(yīng)用的實時數(shù)據(jù)需求。數(shù)據(jù)鏈路可視化模塊主要通過可視化工具展示數(shù)據(jù)的處理流程和鏈路,便于理解和分析。
通過數(shù)據(jù)處理系統(tǒng),用戶可以對數(shù)據(jù)進行全面管理、高效處理和深入分析,以此將數(shù)據(jù)轉(zhuǎn)化為有價值的業(yè)務(wù)洞察,為企業(yè)戰(zhàn)略決策和業(yè)務(wù)發(fā)展提供支持。
2.3 技術(shù)架構(gòu)設(shè)計
在對外部數(shù)據(jù)的應(yīng)用中,各數(shù)據(jù)治理系統(tǒng)層級與組件的簡要描述(技術(shù)架構(gòu))如表1所示。本文所設(shè)計的技術(shù)架構(gòu)有助于用戶更加清晰地理解整個數(shù)據(jù)處理的流程。
3 系統(tǒng)功能性測試
通過模擬真實數(shù)據(jù)源中的用戶手機短信、通話記錄、移動應(yīng)用程序等數(shù)據(jù)信息,本文對數(shù)據(jù)治理系統(tǒng)各功能模塊的運行情況進行測試,以驗證系統(tǒng)功能的完整性、可用性以及業(yè)務(wù)邏輯的正確性,判斷其是否可以滿足用戶的實際業(yè)務(wù)需求。
3.1 元數(shù)據(jù)管理模塊功能測試
數(shù)據(jù)治理系統(tǒng)元數(shù)據(jù)管理功能的測試用例、其測試內(nèi)容以及測試結(jié)果如表2所示。
3.2 數(shù)據(jù)源配置模塊功能測試
數(shù)據(jù)源配置模塊為大數(shù)據(jù)治理系統(tǒng)輸送原始數(shù)據(jù),通過數(shù)據(jù)源配置,連通第三方系統(tǒng)的數(shù)據(jù)庫信息,為數(shù)據(jù)治理和數(shù)據(jù)分析工作打下基礎(chǔ)。本文在對數(shù)據(jù)治理系統(tǒng)數(shù)據(jù)源配置模塊功能進行測試之時,主要將數(shù)據(jù)源完整性和連通性作為測試指標。測試用例、測試內(nèi)容與測試結(jié)果如表3所示。
4 結(jié)語
受到所處環(huán)境、數(shù)據(jù)治理目標和需求等不同因素的影響,數(shù)據(jù)治理具有特異性特征。本文對數(shù)據(jù)治理系統(tǒng)進行設(shè)計,分析系統(tǒng)功能需求,結(jié)合系統(tǒng)需求設(shè)計各模塊的具體功能以及各功能模塊間的工作流程,明確其整體技術(shù)架構(gòu),對于各企業(yè)進行數(shù)據(jù)治理系統(tǒng)構(gòu)建有一定的啟示作用。
參考文獻
[1]包冬梅,范穎捷,李鳴.高校圖書館數(shù)據(jù)治理及其框架[J].圖書情報工作,2015(18):134-141.
[2]MIRJANA P B,TINE B,MAJA M,et al. Big data usage in European countries[J]. Cluster Analysis Approach,2020(1):191-198.
[3]MARTHA D B. Data governance and stewardship[J]. NASN School Nurse,2019(3):149-151.
[4]范家寧.基于Spark的多數(shù)據(jù)源大數(shù)據(jù)治理平臺研究[D].北京:中國地質(zhì)大學,2020.
[5]劉謙博.基于Spark的實時數(shù)據(jù)治理系統(tǒng)的研究與實現(xiàn)[D].成都:西華大學,2023.
(編輯 王永超)
Research on construction of computer important data governance system in digital age
ZHANG" Tian, LI" Dandan, LI" Peixun
(Nanchong Vocational College of Science and Technology, Nanchong 637000, China)
Abstract: In the digital age,data governance can play a key role in stimulating the value of data and improving work efficiency. This paper discusses how to build a computer important data governance system in the digital age. Based on DGI and DAMA frameworks, a comprehensive data governance process is designed using Spark data process engine to optimize the data management system, improve data transparency, unify data standards, reduce the difficulty of sharing, enhance trust, and avoid risks. Computer important data governance system includes unified data standards, metadata management, data modeling and integration, life cycle management, quality assurance, openness, security and application optimization and other core contents, which can provide solid support for enterprise data management and decision-making.
Key words: data governance; system construction; framework model
作者簡介:張?zhí)穑?998— ),女,助教,學士;研究方向:計算機網(wǎng)絡(luò)與人工智能。