摘" "要:隨著全球數(shù)據(jù)產(chǎn)量呈現(xiàn)指數(shù)級增長,傳統(tǒng)數(shù)據(jù)管理系統(tǒng)正面臨數(shù)量龐大、多樣化和實時性要求的挑戰(zhàn)。數(shù)據(jù)湖作為大型原始數(shù)據(jù)存儲庫,已成為有效處理各種類型和規(guī)模數(shù)據(jù)的關(guān)鍵工具。為了防止數(shù)據(jù)湖演變?yōu)閿?shù)據(jù)沼澤,必須重視元數(shù)據(jù)的有效管理。文章聚焦數(shù)據(jù)湖數(shù)據(jù)生命周期,探究數(shù)據(jù)湖元數(shù)據(jù)管理需求,歸納數(shù)據(jù)湖元數(shù)據(jù)類型;綜合分析各領(lǐng)域的元數(shù)據(jù)架構(gòu),梳理數(shù)據(jù)湖元數(shù)據(jù)系統(tǒng)功能,揭示其在整個數(shù)據(jù)湖系統(tǒng)中的關(guān)鍵作用,并提出了數(shù)據(jù)湖元數(shù)據(jù)管理發(fā)展方向。探討了數(shù)據(jù)湖的運作機制以及數(shù)據(jù)湖元數(shù)據(jù)管理邏輯,為應(yīng)對不斷增長的數(shù)據(jù)挑戰(zhàn)提供了有力支持。
關(guān)鍵詞:數(shù)據(jù)湖;元數(shù)據(jù)管理;元數(shù)據(jù)系統(tǒng)
中圖分類號:TP311.3;G353.1" "文獻標(biāo)識碼:A" "DOI:10.11968/tsyqb.1003-6938.2025011
Metadata Management System for Data Lakes:Requirements Analysis, Functional Architecture, and Future Directions
Abstract As global data production grows exponentially, traditional data management systems are increasingly challenged by demands for handling massive, diverse, and real-time data. Data lakes, serving as extensive repositories for raw data, have emerged as essential tools for managing data of varying types and scales. To prevent data lakes from deteriorating into data swamps, effective metadata management is crucial. Focusing on the data lifecycle within data lakes, this paper explores metadata management requirements, categorizes types of metadata in data lakes, and provides a comprehensive analysis of metadata architectures across various fields. The study further synthesizes current metadata architectures in data lakes and outlines the core functionalities of metadata management systems, highlighting their critical role in data lake ecosystems. This discussion of data lake operation mechanisms and metadata management logic aims to support the growing data management challenges.
Key words data lake; metadata management; metadata system
隨著數(shù)字化時代的發(fā)展,數(shù)據(jù)不斷增長和多樣化,傳統(tǒng)的數(shù)據(jù)倉庫體系在滿足日益復(fù)雜的數(shù)據(jù)需求方面顯得力不從心。數(shù)據(jù)湖(Data Lake)作為一種具有高度靈活性和可擴展性的數(shù)據(jù)存儲方式,逐漸成為數(shù)據(jù)管理領(lǐng)域的熱點。數(shù)據(jù)湖是一種能夠存儲各種類型數(shù)據(jù),并通過靈活的訪問和分析工具提供全面數(shù)據(jù)管理能力的集中式存儲庫,為用戶提供更大的靈活性和自由度,以便從海量的數(shù)據(jù)中發(fā)現(xiàn)有價值的信息并進行深入的分析。在學(xué)術(shù)界和工業(yè)界,數(shù)據(jù)湖都是一種比較流行的數(shù)據(jù)存儲分析解決方案,許多公司都部署了數(shù)據(jù)湖,如亞馬遜AWS、微軟Azure、華為數(shù)據(jù)湖以及阿里巴巴數(shù)據(jù)湖等。目前,國內(nèi)外學(xué)者對數(shù)據(jù)湖的概念和定義、數(shù)據(jù)湖與數(shù)據(jù)倉庫結(jié)合方法、數(shù)據(jù)湖元數(shù)據(jù)管理以及數(shù)據(jù)湖固有問題等內(nèi)容進行了論述,對商業(yè)數(shù)據(jù)、政府?dāng)?shù)據(jù)、醫(yī)療數(shù)據(jù)、科學(xué)數(shù)據(jù)等領(lǐng)域的數(shù)據(jù)湖構(gòu)建進行了研究,并取得了一定的成果。數(shù)據(jù)湖中的數(shù)據(jù)沒有明確的模式,在沒有高效元數(shù)據(jù)系統(tǒng)的情況下,數(shù)據(jù)湖很容易變成數(shù)據(jù)沼澤。本文從數(shù)據(jù)湖元數(shù)據(jù)需求與類型、數(shù)據(jù)湖元數(shù)據(jù)系統(tǒng)功能、數(shù)據(jù)湖元數(shù)據(jù)未來發(fā)展方向三個層面分析數(shù)據(jù)湖元數(shù)據(jù)管理。
1" "研究現(xiàn)狀
數(shù)據(jù)湖的概念最初由工業(yè)界提出。2010年,Dixon提出了“數(shù)據(jù)集市就像是一家提供經(jīng)過凈化包裝水的商店,供應(yīng)經(jīng)過處理、方便消費的數(shù)據(jù)。相比之下,數(shù)據(jù)湖是一個自然狀態(tài)下的大水體,來自不同源頭的數(shù)據(jù)源不斷流入湖中,用戶可對數(shù)據(jù)進行自主檢查、分析或取樣”[1]。2011年,Woods在其發(fā)表的《Big Data Requires a Big New Architecture》一文中論述了“Data Lake”一詞,數(shù)據(jù)湖的概念開始廣為傳播。Woods指出數(shù)據(jù)倉庫存在的局限:為優(yōu)化存儲,支撐特定分析,數(shù)據(jù)倉庫的數(shù)據(jù)在集成時就會被預(yù)先分類[2]。但在大數(shù)據(jù)時代,從源系統(tǒng)抽取數(shù)據(jù)時無法明晰數(shù)據(jù)的價值,因此無法給出最優(yōu)的存儲方式。自2014年以來,學(xué)術(shù)界開始研究數(shù)據(jù)湖,認為數(shù)據(jù)湖具備以下特征:以低成本的原生形式存儲各種類型的數(shù)據(jù),僅利用時轉(zhuǎn)換數(shù)據(jù),允許識別或消除數(shù)據(jù),為用戶提供有關(guān)數(shù)據(jù)來源的信息[3]。其中,重要關(guān)鍵詞是“按需應(yīng)變”,只有在數(shù)據(jù)訪問時,才會執(zhí)行模式定義、集成或索引等。IBM紅皮書認為數(shù)據(jù)湖是一組集中式的存儲庫,包含大量的原始數(shù)據(jù),由元數(shù)據(jù)描述、組織成可識別的數(shù)據(jù)集,并可根據(jù)需要采用[4]。Gartner同樣指出數(shù)據(jù)湖由各種數(shù)據(jù)資產(chǎn)的存儲實例集合組成,以源格式存儲[5]。數(shù)據(jù)湖由元數(shù)據(jù)源索引管理,以保證數(shù)據(jù)質(zhì)量,由規(guī)則、工具和流程控制,實現(xiàn)數(shù)據(jù)治理。部分?jǐn)?shù)據(jù)僅限于數(shù)據(jù)科學(xué)家或數(shù)據(jù)統(tǒng)計學(xué)家訪問,以確保數(shù)據(jù)安全、數(shù)據(jù)隱私和合規(guī)性。Kottursamy等提出數(shù)據(jù)湖基于自我需求進行編目、索引和元數(shù)據(jù)管理,并為數(shù)據(jù)利用和計算分析提供信息[6]。數(shù)據(jù)湖是所有數(shù)據(jù)源或數(shù)據(jù)集的邏輯視圖,其原始格式可供數(shù)據(jù)科學(xué)家或統(tǒng)計學(xué)家使用,以尋找新的見解[7]。2019年,Ravat和Zhao綜合了其他人的數(shù)據(jù)湖定義,提出了一個包括數(shù)據(jù)湖的輸入、過程、輸出和治理的定義[8]。約翰和米斯拉也指出數(shù)據(jù)湖是一個存儲企業(yè)的各種各樣原始數(shù)據(jù)的大型倉庫,其中的數(shù)據(jù)可供存取、處理、分析及傳輸[9]。國內(nèi)學(xué)者林擁軍提出數(shù)據(jù)湖以“存儲一切、分析一切、創(chuàng)建所需”為目標(biāo),以“建湖、引水、水資源利用”為發(fā)展路徑[10]。
數(shù)據(jù)湖架構(gòu)描述了數(shù)據(jù)在數(shù)據(jù)湖中的概念組織方式,通過定義特定用途所需的條件(如原始數(shù)據(jù)或處理數(shù)據(jù)),可以找到數(shù)據(jù)的位置來促進數(shù)據(jù)湖的使用。分析數(shù)據(jù)湖中不同數(shù)據(jù)源的存儲方式、數(shù)據(jù)流的處理過程以及數(shù)據(jù)的組織和管理方式,能夠根據(jù)需求設(shè)計和實施適當(dāng)?shù)脑獢?shù)據(jù)管理模型和生成策略,以確保數(shù)據(jù)湖中的數(shù)據(jù)可靠、準(zhǔn)確、可發(fā)現(xiàn)和可利用?;诓煌囊暯?,學(xué)者對數(shù)據(jù)湖架構(gòu)的分類方法有所不同。Sawadogo和Darmont將數(shù)據(jù)湖架構(gòu)分為功能架構(gòu)、數(shù)據(jù)成熟度架構(gòu)、混合架構(gòu)三組[11]。功能架構(gòu)根據(jù)功能的不同來定義數(shù)據(jù)組織方式,包括用于連接到數(shù)據(jù)源的數(shù)據(jù)攝入功能、保存原始和精煉數(shù)據(jù)的數(shù)據(jù)存儲功能、數(shù)據(jù)處理功能、允許查詢原始和精煉數(shù)據(jù)的數(shù)據(jù)訪問功能。數(shù)據(jù)成熟度架構(gòu)組件根據(jù)數(shù)據(jù)細化級別定義,混合架構(gòu)的組件取決于數(shù)據(jù)湖功能和數(shù)據(jù)細化。根據(jù)數(shù)據(jù)成熟度的不同,數(shù)據(jù)湖架構(gòu)可以分為原始數(shù)據(jù)層、用于增強的每日數(shù)據(jù)層、用于第三方信息的數(shù)據(jù)層三個獨立層。此外,根據(jù)數(shù)據(jù)湖的生命周期劃分為三個分區(qū):小于6個月的數(shù)據(jù)、較久遠但仍活躍的數(shù)據(jù)、存檔不再使用但需要保留的數(shù)據(jù)。數(shù)據(jù)湖架構(gòu)又可以分為以數(shù)據(jù)存儲為中心的架構(gòu)和以數(shù)據(jù)處理為中心的架構(gòu)。以數(shù)據(jù)存儲為中心的結(jié)構(gòu),根據(jù)數(shù)據(jù)的處理深度和安全級別來組織數(shù)據(jù),其優(yōu)勢在于提供了一種在數(shù)據(jù)湖內(nèi)組織數(shù)據(jù)的方法,但預(yù)定義的數(shù)據(jù)組織方式忽略了數(shù)據(jù)處理、元數(shù)據(jù)管理等。以數(shù)據(jù)處理為中心的架構(gòu)是一個完全集成的平臺,用于收集、存儲、轉(zhuǎn)換和分析數(shù)據(jù)以進行知識提取。其中,數(shù)據(jù)湖比較常見的劃分方式包括區(qū)域架構(gòu)和池塘架構(gòu)。恩門提出的池塘架構(gòu)將數(shù)據(jù)湖分為五個不相交的池:初始數(shù)據(jù)池、模擬信號數(shù)據(jù)池、應(yīng)用程序數(shù)據(jù)池、文本數(shù)據(jù)池和歸檔數(shù)據(jù)池[12]。在任何給定時間,數(shù)據(jù)始終只能在上述池塘之一中獲得,數(shù)據(jù)在通過池塘?xí)r進行處理。池塘架構(gòu)數(shù)據(jù)經(jīng)過預(yù)處理,可以輕松分析,但當(dāng)數(shù)據(jù)離開原始數(shù)據(jù)池時,數(shù)據(jù)將發(fā)生改變并且其原始格式會丟失,與數(shù)據(jù)湖的概念相矛盾。區(qū)域架構(gòu)存在許多不同的變體,在區(qū)域數(shù)量、支持的用戶組以及側(cè)重點方面也有很大差異。每個區(qū)域定義了數(shù)據(jù)必須具有的某些特征,不同的區(qū)域包含不同處理程度的數(shù)據(jù),如原始數(shù)據(jù)或已處理數(shù)據(jù)。通常包括三區(qū)域、四區(qū)域、五區(qū)域,最多六區(qū)域。其中,Cravero等所提出的三區(qū)域模型中,第一個區(qū)域存儲原始數(shù)據(jù),第二個區(qū)域存儲來自第一個區(qū)域的已處理數(shù)據(jù),第三個區(qū)域是訪問區(qū)[13]。也有學(xué)者在此基礎(chǔ)上添加了數(shù)據(jù)治理區(qū)域[14]。與池塘架構(gòu)相比,區(qū)域架構(gòu)是有相交的,數(shù)據(jù)可以從一個區(qū)域復(fù)制到另一個區(qū)域,或者一個區(qū)域可能包含來自不同區(qū)域的數(shù)據(jù),其優(yōu)點是即使數(shù)據(jù)以轉(zhuǎn)換和預(yù)處理的格式提供,仍然可以作為原始區(qū)域中的原始數(shù)據(jù)進行訪問。然而,關(guān)于區(qū)域的數(shù)量和特點,現(xiàn)有研究觀點各不相同,也未有研究表明哪些區(qū)域是必需的,哪些區(qū)域是可選的。
在池塘和區(qū)域結(jié)構(gòu)中,數(shù)據(jù)都是經(jīng)過預(yù)處理的,能夠快速簡單地進行分析,原始數(shù)據(jù)在傳輸?shù)狡渌靥習(xí)r會被刪除,會出現(xiàn)數(shù)據(jù)丟失的問題。多區(qū)域架構(gòu)的缺點在于數(shù)據(jù)流跨多個區(qū)域,可能導(dǎo)致數(shù)據(jù)產(chǎn)生多個副本,難以控制數(shù)據(jù)沿襲。在混合架構(gòu)中,數(shù)據(jù)科學(xué)家必須根據(jù)兩種不同的邏輯進行交叉分析,數(shù)據(jù)分析總體上更加困難[15]。為了克服池塘和區(qū)域分類的矛盾,基于功能的混合架構(gòu)被廣泛使用[16]。另外一個比較典型的混合架構(gòu)是Lambda架構(gòu)[17],支持單獨的批處理和實時處理。傳入數(shù)據(jù)被復(fù)制到兩個不同的分支,在一個分支上,數(shù)據(jù)永久存儲,并定期批量處理,在另一個分支上,實時處理傳入的數(shù)據(jù)以快速提供結(jié)果。在實踐中,Lambda架構(gòu)經(jīng)常被調(diào)整,且產(chǎn)生很多變體。
總的來說,數(shù)據(jù)湖是一個大數(shù)據(jù)分析解決方案,從各種來源攝取異構(gòu)原始數(shù)據(jù),并以其原生格式集中化存儲所有數(shù)據(jù)源,提供可用數(shù)據(jù)目錄,進行數(shù)據(jù)治理以確保數(shù)據(jù)質(zhì)量和數(shù)據(jù)安全,支持不同類型的用戶不同需求類型的數(shù)據(jù)分析,從而提高數(shù)據(jù)的可重用性和價值。顯然,數(shù)據(jù)湖架構(gòu)有多種可替代的方案,其中區(qū)域架構(gòu)在文獻中被提及的頻率相對較高,但對各個區(qū)域的定義存在顯著差異。目前,關(guān)于不同數(shù)據(jù)湖架構(gòu)的評估或比較的文獻研究相對較少。
數(shù)據(jù)湖按原樣存儲結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)具有多樣性、高冗余性和復(fù)雜性,沒有良好的元數(shù)據(jù)管理支持,數(shù)據(jù)湖將會變成數(shù)據(jù)沼澤。元數(shù)據(jù)在數(shù)據(jù)整個生命周期中的數(shù)據(jù)發(fā)現(xiàn)、跟蹤(沿襲)、存儲和歸檔、組織和管理、隱私保護、查詢和檢索中扮演著非常關(guān)鍵的角色。有效的元數(shù)據(jù)管理能夠幫助用戶更好地理解數(shù)據(jù),提高數(shù)據(jù)發(fā)現(xiàn)的效率,降低數(shù)據(jù)分析的復(fù)雜性,從而增強數(shù)據(jù)應(yīng)用效能并提升決策質(zhì)量。然而,由于數(shù)據(jù)湖的開放性和靈活性,元數(shù)據(jù)管理面臨著許多挑戰(zhàn)。學(xué)者對數(shù)據(jù)湖元數(shù)據(jù)的研究包括以下幾個方面:首先是元數(shù)據(jù)的功能和類型以及元數(shù)據(jù)通用模型研究;其次是數(shù)據(jù)湖中各種類型數(shù)據(jù)和處理步驟的元數(shù)據(jù)管理研究,如數(shù)據(jù)內(nèi)容元數(shù)據(jù)管理、數(shù)據(jù)處理元數(shù)據(jù)管理、文本文件的元數(shù)據(jù)管理、面向分析的元數(shù)據(jù)管理等;最后是元數(shù)據(jù)生成與擴充方法研究,如數(shù)據(jù)湖元數(shù)據(jù)的提取與生成方法、數(shù)據(jù)湖元數(shù)據(jù)擴充機制,元數(shù)據(jù)的可視化等。
現(xiàn)有文獻多從特定問題出發(fā),提出元數(shù)據(jù)系統(tǒng)功能,構(gòu)建元數(shù)據(jù)框架,少見對元數(shù)據(jù)管理的全流程進行系統(tǒng)性的研究。
2" "數(shù)據(jù)湖中元數(shù)據(jù)管理需求分析
2.1" " 數(shù)據(jù)湖數(shù)據(jù)生命周期中元數(shù)據(jù)角色
數(shù)據(jù)多樣性是數(shù)據(jù)湖常態(tài),匹配特定存儲需求的多范式儲存系統(tǒng)較為常見?;跀?shù)據(jù)湖內(nèi)涵與架構(gòu)的分析,數(shù)據(jù)存儲在三個區(qū)域中:數(shù)據(jù)攝入的原始數(shù)據(jù)區(qū)域、數(shù)據(jù)處理的中間數(shù)據(jù)區(qū)域和數(shù)據(jù)訪問的可用數(shù)據(jù)區(qū)域。數(shù)據(jù)攝入是指將各種來源的數(shù)據(jù)導(dǎo)入到數(shù)據(jù)湖中,包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù);數(shù)據(jù)處理是指根據(jù)需求對數(shù)據(jù)湖中的數(shù)據(jù)進行各種處理操作,如數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)整合、數(shù)據(jù)加工等;數(shù)據(jù)訪問是指從數(shù)據(jù)湖中提取數(shù)據(jù)進行查詢、分析和可視化,洞察數(shù)據(jù)價值。元數(shù)據(jù)的目的是識別、評估和跟蹤資源,對信息資源的選擇、組織、互操作和集成、唯一標(biāo)識符識別、數(shù)據(jù)歸檔和保存等方面都有重要作用。
2.1.1" "數(shù)據(jù)攝入
數(shù)據(jù)攝入是數(shù)據(jù)湖中數(shù)據(jù)生命周期的第一階段,負責(zé)將來自異構(gòu)源的數(shù)據(jù)導(dǎo)入數(shù)據(jù)湖系統(tǒng)中,無論源數(shù)據(jù)的格式為何,數(shù)據(jù)以其原始格式加載并存儲在系統(tǒng)中。數(shù)據(jù)攝入包括流式處理和定期攝取,若數(shù)據(jù)源為系統(tǒng)生成,則必須使用流式處理技術(shù)進行實時引入。若數(shù)據(jù)源的信息是靜態(tài)的或者不是實時必需的,則可以進行定期數(shù)據(jù)收集[18]。數(shù)據(jù)攝入的系統(tǒng)工具包括Apache Nifi、Apache Flume以及Apache Sqoop等。數(shù)據(jù)攝入工具各有特點,可結(jié)合使用,如可利用Apache Sqoop處理各種應(yīng)用程序存儲在關(guān)系數(shù)據(jù)庫中的海量數(shù)據(jù),利用Apache Flume進行操作更頻繁但是數(shù)據(jù)量相對較小的微批處理操作。O'Leary使用不同的AI和眾包應(yīng)用程序整合不同的數(shù)據(jù)源,促進主數(shù)據(jù)管理并分析數(shù)據(jù)質(zhì)量[3]。
數(shù)據(jù)湖中有多個不同的數(shù)據(jù)源,存在數(shù)據(jù)重復(fù)、數(shù)據(jù)冗余和數(shù)據(jù)不一致等潛在風(fēng)險和問題。在數(shù)據(jù)攝入階段,應(yīng)收集所有攝入數(shù)據(jù)集的信息性和描述性元數(shù)據(jù),生成不同類型的元數(shù)據(jù),包含攝入過程的元數(shù)據(jù)、攝入數(shù)據(jù)集的元數(shù)據(jù)、數(shù)據(jù)準(zhǔn)確性的元數(shù)據(jù)、數(shù)據(jù)安全的元數(shù)據(jù)、數(shù)據(jù)集關(guān)系的元數(shù)據(jù)。大多數(shù)數(shù)據(jù)攝入工具也可用于提取數(shù)據(jù)攝入過程中的元數(shù)據(jù),如在文件路徑和名稱中嵌入元數(shù)據(jù)信息。元數(shù)據(jù)是隨著時間的推移被添加到數(shù)據(jù)源中的,攝入階段可使用自定義或預(yù)定義標(biāo)記元數(shù)據(jù)對數(shù)據(jù)進行注釋。此外,元數(shù)據(jù)能夠?qū)z入數(shù)據(jù)的內(nèi)容進行淺層數(shù)據(jù)視圖分析,基于元數(shù)據(jù)的數(shù)據(jù)視圖可用于演化過程中數(shù)據(jù)集的重復(fù)檢測和多版本控制,維護數(shù)據(jù)集的基本組織結(jié)構(gòu)。
2.1.2" nbsp;數(shù)據(jù)處理
數(shù)據(jù)處理過程中,數(shù)據(jù)管理者或用戶根據(jù)自身需求轉(zhuǎn)換、分析數(shù)據(jù),并將所有中間轉(zhuǎn)換的數(shù)據(jù)進行存儲,在此過程中數(shù)據(jù)以不同的方式進行操作,原始數(shù)據(jù)的上下文和預(yù)期用途可能會受到影響。數(shù)據(jù)處理包括批處理和實時處理,批處理的源數(shù)據(jù)集是數(shù)據(jù)湖中攝入的數(shù)據(jù)集,而實時處理的源數(shù)據(jù)集是外部數(shù)據(jù)集,元數(shù)據(jù)在批處理和實時處理中對數(shù)據(jù)進行實例化。在數(shù)據(jù)湖中,數(shù)據(jù)處理通常使用由Apache Hadoop提供的并行數(shù)據(jù)處理范式MapReduce執(zhí)行,但處理實時數(shù)據(jù)的效率較低。因此,Apache Spark成為最出名的替代處理框架,其不使用文件系統(tǒng)來存儲中間結(jié)果,適合實時處理。同樣,Apache Flink和Apache Storm也適用于實時數(shù)據(jù)處理,兩種方法可以在數(shù)據(jù)湖中同時實現(xiàn)。
為確保用戶能夠找到數(shù)據(jù)是如何處理和存儲在數(shù)據(jù)湖中的,元數(shù)據(jù)提供了描述數(shù)據(jù)處理過程的信息。元數(shù)據(jù)能夠跟蹤數(shù)據(jù)何時傳入、如何格式化,以及如何在處理的后期階段使其可用,包括誰、何時以及做了什么的流程基本信息,解釋流程的上下文、含義和目標(biāo)的流程定義,涉及源代碼和執(zhí)行信息的技術(shù)信息,讓用戶了解流程的部署方式,并能夠修改或重用流程,用戶可以更好地理解和利用數(shù)據(jù)湖中的數(shù)據(jù)。此外,為了便于數(shù)據(jù)分析,需要考慮數(shù)據(jù)定義的元數(shù)據(jù),從數(shù)據(jù)中提取可用信息,并根據(jù)該知識作出決策。定義元數(shù)據(jù)幫助用戶了解數(shù)據(jù)集的性質(zhì),查找現(xiàn)有的分析及其使用的模型,輸出和評估等,以便用戶可以選擇最合適的方法來更有效地分析數(shù)據(jù)。數(shù)據(jù)分析可確保現(xiàn)有流程的可發(fā)現(xiàn)性、可訪問性、可互操作性和可重用性,以簡化數(shù)據(jù)湖中的數(shù)據(jù)探索并使其更具交互性。
2.1.3" "數(shù)據(jù)訪問
數(shù)據(jù)訪問區(qū)存儲所有可用數(shù)據(jù)并提供數(shù)據(jù)訪問,該區(qū)域允許用戶訪問不同分析程度的數(shù)據(jù),如報告、統(tǒng)計分析、商業(yè)智能分析、機器學(xué)習(xí)算法等。Apache Spark提供了各種API和工具,如Spark SQL和Spark Streaming,可以用于查詢和處理數(shù)據(jù)湖中的數(shù)據(jù)。CKAN和Socrata提供了API來訪問開放數(shù)據(jù)和相關(guān)元數(shù)據(jù)目錄,用于數(shù)據(jù)檢索和從Web傳輸?shù)綌?shù)據(jù)湖。
為了進一步使用存儲在湖中的數(shù)據(jù),應(yīng)提取數(shù)據(jù)特征和描述性元數(shù)據(jù),以方便數(shù)據(jù)導(dǎo)航和提取利于決策的信息。通過元數(shù)據(jù),用戶能夠查詢可用的數(shù)據(jù)集、數(shù)據(jù)集的來源和更新頻率,以及數(shù)據(jù)的字段和數(shù)據(jù)類型等信息。查詢數(shù)據(jù)湖還將涉及一個探索過程,以檢測與所需的特定信息相關(guān)的數(shù)據(jù)源。此外,帶注釋的元數(shù)據(jù)不僅能夠用于查詢,還能進一步豐富關(guān)于如何在查詢中使用數(shù)據(jù)源的信息。元數(shù)據(jù)提供關(guān)于數(shù)據(jù)質(zhì)量的信息,如數(shù)據(jù)完整性、準(zhǔn)確性和一致性等,了解數(shù)據(jù)的質(zhì)量指標(biāo),評估數(shù)據(jù)的可信度和可靠性,并決定是否使用某個數(shù)據(jù)集進行分析或決策。元數(shù)據(jù)記錄數(shù)據(jù)的訪問權(quán)限和安全規(guī)則,通過元數(shù)據(jù)可以確定哪些用戶或團隊有權(quán)訪問數(shù)據(jù),并對數(shù)據(jù)進行相應(yīng)的授權(quán)控制,確保數(shù)據(jù)的安全性,并遵守適用的數(shù)據(jù)隱私法規(guī)和政策。
2.2" " 元數(shù)據(jù)類型劃分
從上述數(shù)據(jù)湖數(shù)據(jù)生命周期中可以看出元數(shù)據(jù)定義了數(shù)據(jù)、流程、應(yīng)用程序和技術(shù)之間的關(guān)系,包括數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)管理、數(shù)據(jù)集成、規(guī)范值、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全、數(shù)據(jù)訪問、內(nèi)容管理、技術(shù)架構(gòu)、技術(shù)清單等信息[19]。國際標(biāo)準(zhǔn)化組織(National Information Standards Organization,NISO)將元數(shù)據(jù)分為簡化信息檢索或發(fā)現(xiàn)的描述性元數(shù)據(jù)、描述數(shù)據(jù)模式的結(jié)構(gòu)性元數(shù)據(jù)、用于存儲與互操作的管理元數(shù)據(jù)以及允許存儲數(shù)據(jù)語義結(jié)構(gòu)的標(biāo)記語言四類[20]。有學(xué)者整合了數(shù)據(jù)生命周期中涉及的元數(shù)據(jù),對其進行了進一步的區(qū)分,將專用于數(shù)據(jù)湖的元數(shù)據(jù)分為功能元數(shù)據(jù)和結(jié)構(gòu)元數(shù)據(jù)兩種主要類型。對于功能元數(shù)據(jù),根據(jù)收集方式分為業(yè)務(wù)元數(shù)據(jù)、操作元數(shù)據(jù)以及技術(shù)元數(shù)據(jù)三類元數(shù)據(jù)[21],但有學(xué)者認為由于不同來源不同類型的數(shù)據(jù)被攝入并存儲在一個數(shù)據(jù)湖中,沒有預(yù)先定義的需求,業(yè)務(wù)元數(shù)據(jù)對于數(shù)據(jù)湖并不是必要的,且三類元數(shù)據(jù)之間存在交叉,如數(shù)據(jù)字段由業(yè)務(wù)用戶在數(shù)據(jù)模式中定義,與業(yè)務(wù)和技術(shù)元數(shù)據(jù)都相關(guān),同樣,數(shù)據(jù)格式可以被視為技術(shù)和操作元數(shù)據(jù)。對于結(jié)構(gòu)元數(shù)據(jù),結(jié)構(gòu)元數(shù)據(jù)的分類可以被視為功能元數(shù)據(jù)分類的擴展和概括,基于對象的概念分為對象內(nèi)、對象間和全局元數(shù)據(jù)三類。此外,元數(shù)據(jù)可以按元數(shù)據(jù)間和元數(shù)據(jù)內(nèi)進行分類,元數(shù)據(jù)間描述了數(shù)據(jù)之間的關(guān)系,根據(jù)數(shù)據(jù)集來源、邏輯集群和內(nèi)容相似性等進行分類[22]。元數(shù)據(jù)內(nèi)指定每個單個數(shù)據(jù)集,根據(jù)數(shù)據(jù)特征、定義、導(dǎo)航、活動、譜系等進行分類[23],此種分類不僅涉及每個數(shù)據(jù)集的信息,還包含數(shù)據(jù)集之間的關(guān)系。也有學(xué)者根據(jù)不同的數(shù)據(jù)湖分區(qū)將元數(shù)據(jù)類型分為了數(shù)據(jù)攝入過程、數(shù)據(jù)處理過程以及數(shù)據(jù)分析過程的元數(shù)據(jù)。
數(shù)據(jù)攝入是提取元數(shù)據(jù)的最先考慮階段,在數(shù)據(jù)處理過程和訪問階段產(chǎn)生的信息也有價值。正如在數(shù)據(jù)湖功能架構(gòu)的示例中可以看到的,攝取區(qū)存儲不同類型的數(shù)據(jù)集,流程區(qū)可以通過多個步驟處理不同的數(shù)據(jù)集,訪問區(qū)可以確保原始數(shù)據(jù)集以及處理過的數(shù)據(jù)集的可用性?;诖?,總結(jié)數(shù)據(jù)湖各區(qū)域中元數(shù)據(jù)需求,根據(jù)元數(shù)據(jù)的創(chuàng)建模式及其在信息系統(tǒng)管理中的作用,對其進行分類(見圖1)。
在數(shù)據(jù)湖功能架構(gòu)中,攝入?yún)^(qū)存儲不同類型的數(shù)據(jù)集,流程區(qū)可以通過多個步驟處理不同的數(shù)據(jù)集,訪問區(qū)可以確保原始數(shù)據(jù)集以及處理過的數(shù)據(jù)集的可用性。元數(shù)據(jù)類別主要分為六種類型(具體含義與元素示例見表1)。其中,特征元數(shù)據(jù)用于描述和管理數(shù)據(jù)湖中的各種特征,為數(shù)據(jù)科學(xué)家和分析師提供了清晰的數(shù)據(jù)視圖;定義元數(shù)據(jù)提供對數(shù)據(jù)湖中數(shù)據(jù)結(jié)構(gòu)和架構(gòu)的詳細描述,確保數(shù)據(jù)一致性和可理解性;譜系元數(shù)據(jù)記錄數(shù)據(jù)湖中數(shù)據(jù)的源頭和變更歷史,為數(shù)據(jù)溯源和可信度提供支持;質(zhì)量元數(shù)據(jù)用于評估和監(jiān)控數(shù)據(jù)湖中數(shù)據(jù)的質(zhì)量,維護數(shù)據(jù)可靠性和準(zhǔn)確性;安全元數(shù)據(jù)關(guān)注數(shù)據(jù)湖中數(shù)據(jù)的安全性和隱私保護,保障數(shù)據(jù)合規(guī)性和安全存儲;導(dǎo)航元數(shù)據(jù)提供對數(shù)據(jù)湖中數(shù)據(jù)的索引和檢索功能,使用戶能夠更輕松地發(fā)現(xiàn)和訪問所需的數(shù)據(jù)資源。這六種元數(shù)據(jù)共同構(gòu)建了一個完整的數(shù)據(jù)湖管理框架,促進了數(shù)據(jù)湖的有效管理、分析和利用。
每種元數(shù)據(jù)類型都有助于提高數(shù)據(jù)湖的可理解性和可發(fā)現(xiàn)性。通過維護元數(shù)據(jù),能夠更好地理解數(shù)據(jù)的含義、來源、質(zhì)量狀況以及訪問控制等關(guān)鍵信息,從而更有效地利用數(shù)據(jù)湖中的信息資源。
3" "數(shù)據(jù)湖元數(shù)據(jù)系統(tǒng)功能與架構(gòu)
3.1" " 元數(shù)據(jù)系統(tǒng)功能
元數(shù)據(jù)是現(xiàn)代數(shù)據(jù)架構(gòu)的核心,與其他數(shù)據(jù)一樣,元數(shù)據(jù)也必須進行管理,元數(shù)據(jù)管理是針對元數(shù)據(jù)的數(shù)據(jù)管理。數(shù)據(jù)湖旨在攝取各種結(jié)構(gòu)的原始數(shù)據(jù),元數(shù)據(jù)管理在數(shù)據(jù)湖信息系統(tǒng)中能夠最大限度地提高數(shù)據(jù)的價值,建立一個通用、可擴展、靈活的元數(shù)據(jù)系統(tǒng)(MetaData Management System,MDMS),對數(shù)據(jù)湖至關(guān)重要。用于數(shù)據(jù)湖的元數(shù)據(jù)系統(tǒng)應(yīng)該具備處理不同數(shù)據(jù)模型中元數(shù)據(jù)的能力,包括對數(shù)據(jù)預(yù)處理信息的記錄、采用語義方法匹配數(shù)據(jù)類型、表示元數(shù)據(jù)條目之間的映射,并支持元數(shù)據(jù)的演化??偟膩碚f,元數(shù)據(jù)系統(tǒng)支持元數(shù)據(jù)提取和維護、架構(gòu)演變處理、發(fā)現(xiàn)系統(tǒng)的全局本體與表示數(shù)據(jù)源的本地架構(gòu)的元數(shù)據(jù)之間的映射[24]。
不同的元數(shù)據(jù)系統(tǒng)來自不同的領(lǐng)域,代表不同的觀點,因此在功能方面有所不同。通用元數(shù)據(jù)模型應(yīng)該適應(yīng)任何數(shù)據(jù)湖,元數(shù)據(jù)模型支持的功能越多就越通用,學(xué)者對通用元數(shù)據(jù)系統(tǒng)的功能進行了總結(jié)。Sawadogo和Darmont確定了數(shù)據(jù)湖元數(shù)據(jù)系統(tǒng)理想情況下應(yīng)實現(xiàn)的六個功能:語義豐富、數(shù)據(jù)索引、鏈接生成、數(shù)據(jù)多態(tài)性、數(shù)據(jù)版本控制以及使用跟蹤[11]。Eichler在此基礎(chǔ)上確定了另外三個特性:元數(shù)據(jù)屬性、區(qū)域元數(shù)據(jù)和多粒度級別支持[25]??紤]到以上兩組特征都是相關(guān)的,Scholly等建議將兩者結(jié)合起來比較元數(shù)據(jù)模型的通用性,將數(shù)據(jù)多態(tài)性與區(qū)域元數(shù)據(jù)合并,將鏈接生成分為相似性鏈接和分類,并去掉了數(shù)據(jù)索引[26]。本文基于數(shù)據(jù)湖數(shù)據(jù)的生命周期,將元數(shù)據(jù)系統(tǒng)的功能總結(jié)為語義豐富、屬性定義、多粒度描述、數(shù)據(jù)分類、語義鏈接、多態(tài)數(shù)據(jù)支持、版本管理、使用跟蹤以及數(shù)據(jù)索引(見表2),統(tǒng)計了數(shù)據(jù)湖系統(tǒng)的不同元數(shù)據(jù)系統(tǒng)可用的所有功能。
在數(shù)據(jù)湖數(shù)據(jù)生命周期的早期階段,元數(shù)據(jù)系統(tǒng)通過語義豐富和屬性定義為原始數(shù)據(jù)采集提供了關(guān)鍵的上下文和理解。語義豐富通過語義注釋或語義分析已知的內(nèi)容生成對數(shù)據(jù)上下文的描述,如向數(shù)據(jù)添加標(biāo)簽以便準(zhǔn)確地理解和解釋數(shù)據(jù)的含義、結(jié)構(gòu)和關(guān)系。屬性定義表示數(shù)據(jù)源的描述性元數(shù)據(jù),元數(shù)據(jù)系統(tǒng)記錄了關(guān)于數(shù)據(jù)的各種屬性。隨著數(shù)據(jù)存儲,元數(shù)據(jù)系統(tǒng)在多個粒度級別上收集元數(shù)據(jù),從而在元數(shù)據(jù)的詳細級別和分配方面保持靈活性,為數(shù)據(jù)管理奠定了基礎(chǔ)。大多數(shù)元數(shù)據(jù)是在特定數(shù)據(jù)元素上收集的,數(shù)據(jù)元素按區(qū)域進行組織,元數(shù)據(jù)應(yīng)該可以跨區(qū)域區(qū)分,從而在分配元數(shù)據(jù)時獲得靈活性。支持各種不同的數(shù)據(jù)格式和類型,包括結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),存儲相同數(shù)據(jù)的多個表示,適應(yīng)不同數(shù)據(jù)的存儲和處理需求。
在數(shù)據(jù)處理和分析階段,數(shù)據(jù)分類和語義鏈接功能幫助用戶更好地理解和利用數(shù)據(jù)的關(guān)聯(lián)關(guān)系。語義鏈接定義兩個或多個數(shù)據(jù)源之間的關(guān)系類型,識別和集成數(shù)據(jù)湖之間的鏈接,建立不同數(shù)據(jù)源之間的關(guān)聯(lián),并生成鏈接,有助于發(fā)現(xiàn)和分析數(shù)據(jù)之間的關(guān)系,支持更全面的數(shù)據(jù)分析和洞察。數(shù)據(jù)分類用于將在不同存儲庫中的相關(guān)數(shù)據(jù)聚集在一起,對數(shù)據(jù)集進行分類描述數(shù)據(jù)和數(shù)據(jù)的位置,還可以定義如何訪問數(shù)據(jù),允許數(shù)據(jù)分析人員定位其分析所需的數(shù)據(jù)。元數(shù)據(jù)系統(tǒng)的版本管理支持用戶追蹤數(shù)據(jù)的演變過程,使用跟蹤功能記錄數(shù)據(jù)的實際使用情況,允許管理同一數(shù)據(jù)源版本,支持?jǐn)?shù)據(jù)轉(zhuǎn)換后的頻繁更改。跟蹤和記錄用戶對數(shù)據(jù)的使用情況,如創(chuàng)建、讀取和更新等操作,允許透明地跟蹤數(shù)據(jù)對象的演變,通過解釋數(shù)據(jù)不一致或通過入侵檢測來實現(xiàn)數(shù)據(jù)安全,提供審計和合規(guī)性的支持。
在數(shù)據(jù)應(yīng)用階段,數(shù)據(jù)索引構(gòu)建加速了數(shù)據(jù)的檢索和全球范圍內(nèi)的應(yīng)用。這一系列功能貫穿于整個數(shù)據(jù)湖數(shù)據(jù)生命周期,為組織提供了全面的數(shù)據(jù)管理和應(yīng)用支持,最大化了數(shù)據(jù)湖的潛力。
3.2" " 元數(shù)據(jù)系統(tǒng)架構(gòu)
元數(shù)據(jù)架構(gòu)是指構(gòu)建和組織元數(shù)據(jù)的整體結(jié)構(gòu)和框架,定義了元數(shù)據(jù)的存儲、訪問、管理和維護的策略和機制。需要根據(jù)不同的功能需求來設(shè)計和組織元數(shù)據(jù),以確保元數(shù)據(jù)能夠滿足關(guān)鍵功能的要求。
目前已經(jīng)提出了許多為數(shù)據(jù)湖量身定制的元數(shù)據(jù)模型和系統(tǒng),大多數(shù)數(shù)據(jù)湖元數(shù)據(jù)系統(tǒng)的架構(gòu)都基于圖形方法,如有向來源圖、基于相似度的無向圖以及來源和相似度結(jié)合的數(shù)據(jù)網(wǎng)絡(luò)圖等。此外,也有學(xué)者提出使用數(shù)據(jù)保管庫(Data vault)的形式對元數(shù)據(jù)進行管理。
(1)有向來源圖。遵循數(shù)據(jù)的生命周期,從功能角度創(chuàng)建一個專門用于元數(shù)據(jù)的區(qū)域,旨在成為所有元數(shù)據(jù)的保存點,允許在原始的上下文中重用這些數(shù)據(jù),包括數(shù)據(jù)攝入、處理、分析的元數(shù)據(jù)。主要管理元數(shù)據(jù)有關(guān)活動,數(shù)據(jù)對象和與特定對象交互的用戶的信息,跟蹤數(shù)據(jù)對象的譜系。該類架構(gòu)可視為一個來源圖,即有向無環(huán)圖,其中節(jié)點表示用戶、角色或?qū)ο蟮葘嶓w,邊緣用于表達和描述實體之間的交互。數(shù)據(jù)來源跟蹤記錄數(shù)據(jù)源、考慮結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)集、在數(shù)據(jù)湖中完成的所有工作、存儲每個數(shù)據(jù)集的信息、不同數(shù)據(jù)集之間的關(guān)系,以及數(shù)據(jù)集的質(zhì)量、敏感性和訪問控制[39]。因此,該類架構(gòu)可用于檢測、解釋和修復(fù)數(shù)據(jù)中的不一致之處,通過版本管理確保數(shù)據(jù)湖中流程的可重復(fù)性,通過入侵檢測保護敏感數(shù)據(jù)。
(2)基于相似度的無向圖。基于相似度的圖架構(gòu)將元數(shù)據(jù)架構(gòu)描述為無向圖,側(cè)重于檢測和表示數(shù)據(jù)集之間的相似性。其中節(jié)點是數(shù)據(jù)對象,邊表示對象之間的相似性,數(shù)據(jù)集之間相似性可以通過加權(quán)邊或非加權(quán)邊來指定[40],加權(quán)邊顯示了相似性強度。Brackenbury等以數(shù)據(jù)本質(zhì)、起源、當(dāng)前特征等維度提出了相似性比較框架,為數(shù)據(jù)相似性發(fā)現(xiàn)提供了研究基礎(chǔ)[41]。以相似度為中心的圖形設(shè)計能夠?qū)?shù)據(jù)湖進行網(wǎng)絡(luò)分析,如計算節(jié)點的中心性,從而計算數(shù)據(jù)在湖中的重要性。數(shù)據(jù)集間的元數(shù)據(jù)以圖形化的方式表示,能夠分析數(shù)據(jù)集之間的可連接性和親和性,可連接性衡量共同值的相互百分比,而親和性則根據(jù)外部知識衡量關(guān)系的語義強度。數(shù)據(jù)相似性能夠自動向用戶推薦與當(dāng)前檢索到的數(shù)據(jù)相關(guān)的數(shù)據(jù)。在相似性識別方面,收集匯總數(shù)據(jù)集內(nèi)容的整體元特征,包括有關(guān)所有屬性的總體統(tǒng)計數(shù)據(jù)、找到的屬性類型和實例總數(shù),有效地預(yù)測用于模式匹配預(yù)過濾的相關(guān)數(shù)據(jù)集,如實例數(shù)、每個屬性類型的屬性數(shù)、維度和缺失值數(shù)。對于在數(shù)據(jù)集中的每個屬性,通過計算適當(dāng)?shù)奶卣鞲鶕?jù)其類型對其進行分析[42],可以有效地預(yù)測具有相似模式和存儲信息的相關(guān)數(shù)據(jù)集。
(3)數(shù)據(jù)網(wǎng)絡(luò)圖。將每個數(shù)據(jù)對象分解為多個固有元素,幫助用戶瀏覽數(shù)據(jù),還可用作檢測對象之間連接的基礎(chǔ)。Diamantini等使用簡單的字符串度量,通過比較異構(gòu)對象各自的標(biāo)簽來檢測數(shù)據(jù)之間的聯(lián)系。將數(shù)據(jù)湖中的每個數(shù)據(jù)對象(如單個文檔)建模為RDF圖,根據(jù)數(shù)據(jù)對象之間的關(guān)系將這些較小的圖形組合成總體數(shù)據(jù)湖圖[34]。HANDLE模型根據(jù)利用率對元數(shù)據(jù)進行建模,元數(shù)據(jù)模型為元數(shù)據(jù)對象創(chuàng)建元數(shù)據(jù)屬性,以反映最多樣化的信息,模型支持?jǐn)?shù)據(jù)湖多區(qū)域描述,并且支持在各種粒度級別上收集元數(shù)據(jù)。MEDAL模型采用基于超圖、嵌套圖和屬性圖概念的邏輯元數(shù)據(jù)表示。通過包含各種元素(版本和表示、屬性等)的超節(jié)點來表示對象,超節(jié)點可以鏈接在一起(相似性、親子關(guān)系等)。也有學(xué)者利用本體來構(gòu)建元數(shù)據(jù)管理知識圖譜[43]。
(4)數(shù)據(jù)保管庫。有學(xué)者提出使用數(shù)據(jù)保管庫對數(shù)據(jù)湖中的數(shù)據(jù)進行建模[44]。數(shù)據(jù)保管庫源自數(shù)據(jù)倉庫上下文,提供了一種靈活而簡單的數(shù)據(jù)建模方法。雖然存在將半結(jié)構(gòu)化數(shù)據(jù)集成到數(shù)據(jù)保管庫中的方法,但尚未涵蓋集成非結(jié)構(gòu)化數(shù)據(jù)。將為數(shù)據(jù)倉庫中的維度數(shù)據(jù)模型實現(xiàn)星形架構(gòu)或雪花型架構(gòu)[45]。星形架構(gòu)易于理解和實現(xiàn),中間將有一個實時數(shù)據(jù)表,被多個維度表包圍。事實數(shù)據(jù)表使用主鍵和外鍵連接到各種維度表。對于雪花架構(gòu),中心仍然會有一個實時數(shù)據(jù)表,但它不僅會被維度表包圍,還會被子維度表包圍。數(shù)據(jù)保管庫允許輕松的模式演變。數(shù)據(jù)保管庫建模涉及三種類型的實體:中心表示業(yè)務(wù)概念,連接表示兩個或多個中心之間的關(guān)系,衛(wèi)星包含與集線器或鏈路關(guān)聯(lián)的描述性信息。Nogueira等提出了一種數(shù)據(jù)湖的元數(shù)據(jù)庫模型來代替多維模型[46]。在ArchaeoDAL中采用的goldMEDAL模型在概念、邏輯和物理級別建模,其中包括四個主要的元數(shù)據(jù)概念:數(shù)據(jù)實體、分組、鏈接和過程,概念完全相互作用以支持?jǐn)?shù)據(jù)湖元數(shù)據(jù)管理需求,分組的概念支持各區(qū)域的數(shù)據(jù)湖組織,允許管理多個處理的數(shù)據(jù)粒度級別。
除了上述架構(gòu)模式外,有學(xué)者也提出了其他類型的框架,如用于描述數(shù)據(jù)字典的元數(shù)據(jù)架構(gòu)(Ontology-Agnostic Metadata Schema,OIMS)以及將數(shù)據(jù)湖中的所有實體表示為FAIR數(shù)字對象等方式[47]??傮w而言,目前的元數(shù)據(jù)系統(tǒng)架構(gòu)各有優(yōu)劣,根據(jù)具體的需求和場景,可以選擇適合的元數(shù)據(jù)系統(tǒng)來優(yōu)化數(shù)據(jù)湖元數(shù)據(jù)管理的效果。
4" "數(shù)據(jù)湖元數(shù)據(jù)管理發(fā)展方向
4.1" " 構(gòu)建智能化元數(shù)據(jù)管理系統(tǒng)
在數(shù)據(jù)湖中,元數(shù)據(jù)不僅是數(shù)據(jù)的附屬信息,更是實現(xiàn)高效數(shù)據(jù)管理和價值挖掘的關(guān)鍵。數(shù)據(jù)湖元數(shù)據(jù)管理系統(tǒng)應(yīng)引入人工智能與機器學(xué)習(xí)技術(shù),構(gòu)建具有自適應(yīng)與自學(xué)習(xí)能力的元數(shù)據(jù)管理體系。利用智能化手段使元數(shù)據(jù)的自動生成、更新、分類和標(biāo)注成為可能,從而大幅減少人為干預(yù),提升數(shù)據(jù)處理的效率與準(zhǔn)確性。
傳統(tǒng)元數(shù)據(jù)管理系統(tǒng)多以靜態(tài)描述為主,難以滿足數(shù)據(jù)湖動態(tài)變化的需求。動態(tài)元數(shù)據(jù)管理意味著系統(tǒng)能夠?qū)崟r追蹤數(shù)據(jù)集變化并更新元數(shù)據(jù)。當(dāng)數(shù)據(jù)集更新或發(fā)生結(jié)構(gòu)性變化時,元數(shù)據(jù)系統(tǒng)將自動記錄并展示變化,確保元數(shù)據(jù)與實際數(shù)據(jù)保持一致性,提供更及時的元數(shù)據(jù)支持,使用戶更便捷地獲取最新數(shù)據(jù)狀態(tài),從而提升數(shù)據(jù)分析的準(zhǔn)確性與決策質(zhì)量。為此,需要建立精細化的元數(shù)據(jù)分類和索引機制,使用戶能夠快速識別、理解并利用數(shù)據(jù)湖中的數(shù)據(jù)資源。
在智能元數(shù)據(jù)生成與推薦方面,元數(shù)據(jù)系統(tǒng)應(yīng)結(jié)合數(shù)據(jù)挖掘與模式識別技術(shù),識別不同數(shù)據(jù)類型的特征并自動生成描述性、管理性與技術(shù)性元數(shù)據(jù)。通過機器學(xué)習(xí)算法分析數(shù)據(jù)集特征并提取關(guān)鍵詞和標(biāo)簽,實現(xiàn)快速分類與檢索。此外,智能元數(shù)據(jù)推薦功能將成為未來系統(tǒng)的亮點。通過分析用戶行為、數(shù)據(jù)使用歷史及相似數(shù)據(jù)集的模式,自動推薦相關(guān)數(shù)據(jù)集,輔助用戶快速篩選所需數(shù)據(jù),有效減少人工篩選時間,提高數(shù)據(jù)利用效率。
4.2" " 推動跨平臺互操作性與開放標(biāo)準(zhǔn)
在實際應(yīng)用中,數(shù)據(jù)湖系統(tǒng)往往分布在多個平臺上,因此元數(shù)據(jù)管理系統(tǒng)需要兼顧跨平臺兼容性與互操作性。數(shù)據(jù)湖應(yīng)用場景廣泛,不同行業(yè)與組織對數(shù)據(jù)湖的需求各不相同,跨平臺兼容性是實現(xiàn)數(shù)據(jù)湖價值最大化的關(guān)鍵之一。未來的研究將重點關(guān)注元數(shù)據(jù)標(biāo)準(zhǔn)化設(shè)計,通過制定并推廣開放標(biāo)準(zhǔn),增強不同數(shù)據(jù)湖平臺之間的互操作性,使數(shù)據(jù)能在不同環(huán)境中更加順暢地共享與整合。開放的元數(shù)據(jù)標(biāo)準(zhǔn)將促進各平臺間的兼容性,使數(shù)據(jù)跨平臺流動無縫銜接,從而提高多源數(shù)據(jù)整合與分析效率,同時為跨領(lǐng)域的數(shù)據(jù)協(xié)作創(chuàng)造空間?;诠蚕淼脑獢?shù)據(jù)標(biāo)準(zhǔn),實現(xiàn)數(shù)據(jù)的共同建設(shè)和共享,推動多領(lǐng)域創(chuàng)新發(fā)展,提升數(shù)據(jù)湖的靈活性與擴展性,以應(yīng)對未來業(yè)務(wù)需求的不斷變化。
跨平臺互操作性在不同組織間的數(shù)據(jù)共享中尤為重要。通過兼容性設(shè)計,企業(yè)、政府和研究機構(gòu)等多方可實現(xiàn)數(shù)據(jù)互通,擴大數(shù)據(jù)湖的應(yīng)用潛力。元數(shù)據(jù)的標(biāo)準(zhǔn)化和跨平臺兼容性是數(shù)據(jù)共享的基石,有助于數(shù)據(jù)湖在多領(lǐng)域應(yīng)用中的發(fā)展。
4.3" " "增強隱私保護和合規(guī)性支持
在大規(guī)模數(shù)據(jù)存儲中,數(shù)據(jù)安全與隱私保護始終是核心關(guān)注點。系統(tǒng)不僅需要記錄數(shù)據(jù)的訪問權(quán)限和加密狀態(tài),還應(yīng)具備自動化的合規(guī)性檢測功能,以確保數(shù)據(jù)安全使用。通過數(shù)據(jù)訪問權(quán)限元數(shù)據(jù),系統(tǒng)實時管理數(shù)據(jù)訪問權(quán)限,確保僅授權(quán)用戶能訪問特定數(shù)據(jù)集;系統(tǒng)還可記錄數(shù)據(jù)的加密狀態(tài),以確保敏感數(shù)據(jù)在傳輸和存儲過程中的安全性。此外,系統(tǒng)可依據(jù)不同隱私保護政策設(shè)置相應(yīng)合規(guī)性檢查,確保數(shù)據(jù)使用與共享符合法律法規(guī)。系統(tǒng)通過自動化檢測工具,實時監(jiān)控數(shù)據(jù)的合規(guī)狀態(tài),并在檢測到潛在違規(guī)時及時通知用戶或采取保護措施,提升數(shù)據(jù)湖系統(tǒng)的安全性,顯著降低管理成本。
在增強隱私保護背景下,數(shù)據(jù)訪問控制和權(quán)限管理是元數(shù)據(jù)管理系統(tǒng)的重要組成部分。系統(tǒng)可通過記錄數(shù)據(jù)訪問權(quán)限元數(shù)據(jù),幫助管理者掌握數(shù)據(jù)訪問權(quán)限,便于實現(xiàn)更嚴(yán)格的數(shù)據(jù)訪問控制。對包含敏感信息的數(shù)據(jù)集,系統(tǒng)可設(shè)定嚴(yán)格訪問權(quán)限,限制訪問范圍;此外,系統(tǒng)還可基于訪問記錄進行權(quán)限審計,以便管理者更好地監(jiān)控數(shù)據(jù)使用情況。在多方合作的數(shù)據(jù)共享中,數(shù)據(jù)訪問控制也十分重要。通過精細化的權(quán)限管理,數(shù)據(jù)湖系統(tǒng)可確保敏感信息僅限授權(quán)人員訪問,并支持動態(tài)權(quán)限調(diào)整以滿足項目需求。動態(tài)權(quán)限管理提升了數(shù)據(jù)共享的安全性與靈活性,使數(shù)據(jù)湖在敏感數(shù)據(jù)處理與合規(guī)性管理中更具優(yōu)勢。
5" "結(jié)語
數(shù)據(jù)湖作為一種大數(shù)據(jù)存儲和處理范式,整合多種數(shù)據(jù)源,并提供各種分析和查詢功能。在數(shù)據(jù)湖中,元數(shù)據(jù)扮演著關(guān)鍵的角色,描述數(shù)據(jù)的架構(gòu)、內(nèi)容,以及數(shù)據(jù)湖中包含的數(shù)據(jù)的屬性、結(jié)構(gòu)和上下文信息,確保數(shù)據(jù)湖的數(shù)據(jù)可發(fā)現(xiàn)、可理解、可訪問和可管理。
數(shù)據(jù)湖中的數(shù)據(jù)是異構(gòu)多樣的,如何對數(shù)據(jù)進行準(zhǔn)確的描述和分類是重要的議題,數(shù)據(jù)的分散性和去中心化特點也對元數(shù)據(jù)管理提出了新的要求和挑戰(zhàn)。本文關(guān)注數(shù)據(jù)湖中元數(shù)據(jù)管理的關(guān)鍵問題和解決方案,從數(shù)據(jù)湖的架構(gòu)與技術(shù)出發(fā),探討數(shù)據(jù)湖對元數(shù)據(jù)的需求以及元數(shù)據(jù)類型,對數(shù)據(jù)湖元數(shù)據(jù)的架構(gòu)與系統(tǒng)功能進行了論述,并提出了未來數(shù)據(jù)湖元數(shù)據(jù)系統(tǒng)的發(fā)展發(fā)現(xiàn),為數(shù)據(jù)應(yīng)用和決策提供有力支持。數(shù)據(jù)湖的數(shù)據(jù)量龐大,傳統(tǒng)的手工管理方法無法滿足其快速增長的需求,未來需要借助自動化和智能化的手段來提高元數(shù)據(jù)管理的效率和精確度。
參考文獻:
[1]" Dixon J.Pentaho,Hadoop,and data lakes[EB/OL].[2024-09-10].https://jamesdixon.wordpress.com/2010/10/14/pentaho-hadoop-and-data-lakes/.
[2]" Woods D.Big data requires a big,new architecture[EB/OL].[2024-09-10].https://www.forbes.com/ sites/ciocentral/2011/07/21/big-data-requires-a-big-new-architecture/.
[3]" O'leary D E.Embedding AI and crowd sourcing in the big data lake[J].IEEE Intelligent Systems,2014,29(5):70-73.
[4]" Chessell M,Scheepers F,Strelchuk M,et al.The journey continues from data lake to data-driven organization[EB/OL].[2023-10-13].https://www.redbooks.ibm.com/redpapers/pdfs/ redp5486.pdf.
[5]" Gartner Glossary.Data lake[EB/OL].[2024-10-13].https://www.gartner.com/en/information -technology/glossary/data-lake.
[6]" Kottursamy K,Raja G,Padmanabhan J,et al.An improved database synchronization mechanism for mobile data using software-defined networking control[J].Computers amp; Electrical Engineering,2017,57:93-103.
[7]" Hai R,Koutras C,Quix C,et al.Data lakes: a survey of functions and systems[J].IEEE Transactions on Knowledge and Data Engineering.2023,35(12):12571-12590.
[8]" Ravat F,Zhao Y.Metadata management for data lakes[C]//New Trends in Databases and Information Systems.Berlin: Springer,2019:37-44.
[9]" [印]湯姆斯·約翰(Tomcy John),潘卡·米斯拉(Pankaj Misra).企業(yè)數(shù)據(jù)湖[M].張世武,李想,張浩林,譯.北京:機械工業(yè)出版社,2019:18-35.
[10]" 林擁軍.數(shù)據(jù)湖——新時代數(shù)字經(jīng)濟基礎(chǔ)設(shè)施[M].北京:中共中央黨校出版社,2019:63-95.
[11]" Sawadogo P,Darmont J.On data lake architectures and metadata management[J].Journal of Intelligent Information Systems,2021,56(1):97-120.
[12]" [美]比爾·恩門(Bill Inmon).數(shù)據(jù)湖架構(gòu)[M].吳文磊,譯.北京:人民郵電出版社,2017:36-43.
[13]" Cravero A,Lefiguala I,Tralma R,et al.Data lake architecture proposal for the analysis directorate of a regional university[C]//2020 39th International Conference of the Chilean Computer Science Society(SCCC).Coquimbo,Chile,2020:1-5.
[14]" Zhao Y,Megdiche I,Ravat F,et al.A Zone-based data lake architecture for IoT,small and big data[C]//The 25th International Database Engineering amp;amp.New York: ACM Press,2021:94-102.
[15]" Mathis C.Data lakes[J].Datenbank-Spektrum,2017,17(3):289-293.
[16]" Ren P,Mao Z,Li S,et al.Intelligent visualization system for big multi-source medical data based on data lake[C]//Web Information Systems and Applications.Berlin:Springer,2021:706-717.
[17]" Warren J,Marz N.Big data-principles and best practices of scalable real-time data systems[M].New York:Simon and Schuster,2015:284-301.
[18]" Benayas F,Carrera ?魣,Amado M G.A semantic data lake framework for autonomous fault management in SDN environments[J].Transactions on Emerging Telecommunications Technologies,2019,30(9):1-9.
[19]" Laurent D,Laurent A.Data lakes[M].Wiley-ISTE,2020:21-39.
[20]" Riley J.Understanding metadata:What is metadata,and what is it for?[EB/OL].[2024-10-18].https://groups.niso.org/apps/group_public/download.php/17446/Understanding%20Metadata.pdf.
[21]" Oram A.Managing the data lake[M].Sebastopol:O'Reilly,2015:1-18.
[22]" Halevy A Y,Korn F,Noy N F,et al.Managing Google's data lake:an overview of the Goods system[J].IEEE Data Eng,2016,
39 (3):5-14.
[23]" Bilalli B,Abelló A,Aluja-Banet T,et al.Towards intelligent data analysis:the metadata challenge[C]//Proceedings of the International Conference on Internet of Things and Big Data (IoTBD 2016),Roma,Italy,2016:331-338.
[24]" Alrehamy H,Walker C.SemLinker:automating big data integration for casual users[J].Journal of Big Data,2018,5:1-26.
[25]" Eichler R,Giebler C,Gr?觟ger C,et al.Modeling metadata in data lakes—a generic model[J].Data amp; Knowledge Engineering,2021,136:101931.
[26]" Scholly E,Sawadogo P,Liu P,et al.Coining goldMEDAL:a new contribution to data lake generic metadata modeling[A/OL].[2023-12-29].https://arxiv.org/abs/2103.13155.
[27]" Hai R,Geisler S,Quix C.Constance:an intelligent data lake system[C]//Proceedings of International Conference on Management of Data.New York:ACM Press,2016:2097-2100.
[28]" Quix C,Hai R,Vatov I.Metadata extraction and management in data lakes with GEMMS[J].Complex Systems Informatics and Modeling Quarterly,2016(9):67-83.
[29]" Farid M,Roatis A,Ilyas I F,et al.CLAMS:Bringing quality to data lakes[C]//Proceedings of International Conference on Management of Data.New York:ACM Press,2016:2089-2092.
[30]" Singh K,Paneri K,Pandey A,et al.Visual bayesian fusion to navigate a data lake[C]//In 19th international conference on information fusion.Heidelberg,Germany,IEEE,2016:987-994.
[31]" Hellerstein J M,Sreekanti V,Gonzalez J E,et al.Ground:a data context service[C]//The 8th Biennial Conference on Innovative Data Systems Research.Chaminade,Canada,2017:1-12.
[32]" Maccioni A,Torlone R.KAYAK:a framework for just-in-time data preparation in a data lake[C]//Advanced Information Systems Engineering.Berlin:Springer,2018:474-489.
[33]" Beheshti A,Benatallah B,Nouri R,et al.CoreKG:a knowledge lake service[J].Proc.VLDB Endow,2018,11(12):1942-1945.
[34]" Diamantini C,Giudice P L,Musarella L,et al.A new metadata model to uniformly handle heterogeneous data lake sources[C]//New Trends in Databases and Information Systems.Berlin:Springer,2018:165-177.
[35]" Ravat F,Zhao Y.Data lakes:trends and perspectives[C]//Database and Expert Systems Applications.Berlin:Springer,2019:304-313.
[36]" Eichler R,Giebler C,Gr?觟ger C,et al.HANDLE-a generic metadata model for data lakes[J].Data amp; Knowledge Engineering,2021(136):73-88.
[37]" Cherradi M,El Haddadi A.DLDB-Service:An extensible data lake system[C]//International Conference on Networking,Intelligent Systems and Security.Cham:Springer International Publishing,2022:211-220.
[38]" 劉坤嶧.大氣環(huán)境監(jiān)測數(shù)據(jù)湖數(shù)據(jù)資源目錄關(guān)鍵技術(shù)研究[D].大慶:東北石油大學(xué),2023.
[39]" Latreche O,Boukraa D.Self-service,on-demand creation of OLAP cubes over big data:a metadata-driven approach[C]//2020 IEEE International Conference on Big Data.Atlanta,America,2020:2907-2914.
[40]" Huang Fang.Managing data lakes in big data era:what's a data lake and why has it became popular in data management ecosystem[C]//IEEE International Conference on Cyber Technology in Automation,Control,and Intelligent Systems.Piscataway,NJ:IEEE Press,2015:820-824.
[41]" Brackenbury W,Liu R,Mondal M,et al.Draining the data swamp:a similarity-based approach[C]//Proceedings of the Workshop on Human-In-the-Loop Data Analytics.New York:ACM Press,2018:1-7.
[42]" Alserafi A,Abello A,Romero O,et al.Keeping the data lake in form:proximity mining for pre-filtering schema matching[J].ACM Transactions on Information Systems,2020,38 (3):1-30.
[43]" Stach C,Br?覿cker J,Eichler R,et al.Demand-driven data provisioning in data lakes[C]//The 23rd International Conference on Information Integration and Web Intelligence.New York:ACM Press,2021:187-198.
[44]" Topchyan A R.Enabling data driven projects for a modern enterprise[J].Proceedings of the Institute for System Programming of RAS,2016,28(3):209-230.
[45]" Zagan E,Danubianu M.From data warehouse to a new trend in data architectures-data lake[J].IJCSNS International Journal of Computer Science and Network Security,2019,19(3):30-35.
[46]" Nogueira I D,Romdhane M,Darmont J.Modeling data lake metadata with a data vault[C]//Proceedings of the 22nd International Database Engineering amp; Applications Symposium.New York:ACM Press,2018:253-261.
[47]" Kruseman G.A flexible,extensible,machine-readable,human-intelligible,and ontology-agnostic metadata schema(oims)[J].Frontiers in Sustainable Food Systems,2022,6:767863.
作者簡介:張貴香,女,中國人民大學(xué)信息資源管理學(xué)院博士研究生;賈君枝,女,中國人民大學(xué)信息資源管理學(xué)院教授,博士生導(dǎo)師;薛鵬珍,女,中國人民大學(xué)信息資源管理學(xué)院博士研究生。