谷洪彬 楊希 魏孔鵬
摘? 要: 針對高校本身業(yè)務(wù)系統(tǒng)帶來的不同結(jié)構(gòu)海量數(shù)據(jù)的存儲管理和高效利用問題,通過比較新興的數(shù)據(jù)湖技術(shù)和傳統(tǒng)的數(shù)據(jù)倉庫的區(qū)別,構(gòu)建了基于數(shù)據(jù)湖的高校數(shù)據(jù)管理體系和數(shù)據(jù)處理機制,為高校的數(shù)據(jù)治理提供了數(shù)據(jù)層的存儲支持,為使用機器學(xué)習(xí)方法進(jìn)行大數(shù)據(jù)分析提供了非結(jié)構(gòu)化數(shù)據(jù)來源。
關(guān)鍵詞: 高校大數(shù)據(jù); 數(shù)據(jù)湖; 數(shù)據(jù)管理體系; 數(shù)據(jù)處理機制; 機器學(xué)習(xí)
Abstract: Aiming at the problems of storage management and efficient utilization of massive data of different structures brought by the university's own business system, after comparing the emerging Data Lake technology with the traditional data warehouse, this paper constructs a Data Lake based university data management system and data processing mechanism. The data management system and data processing mechanism provide university's data governance with data layer storage support, and provide unstructured data sources for big data analysis using machine learning method.
Key words: university big data; Data Lake; data management system; data processing mechanism; machine learning
0 引言
物聯(lián)網(wǎng)、大數(shù)據(jù)、云計算、移動計算、人工智能正越來越多地進(jìn)入人們的日常工作和生活中,這些技術(shù)潛移默化地影響著人們的生活和工作方式,也對高校的信息化建設(shè)提出了更高的要求。高校信息化建設(shè)過程中各種網(wǎng)絡(luò)設(shè)備和應(yīng)用系統(tǒng)產(chǎn)生了大量的數(shù)據(jù),“以數(shù)據(jù)為核心資產(chǎn)、以數(shù)據(jù)驅(qū)動業(yè)務(wù)革新”的發(fā)展方式已成為高校邁進(jìn)更高層次的必然趨勢。對于傳統(tǒng)的來自事務(wù)系統(tǒng)、運營數(shù)據(jù)庫和業(yè)務(wù)應(yīng)用的關(guān)系型數(shù)據(jù),數(shù)據(jù)倉庫可以滿足高校數(shù)據(jù)治理和存儲的要求,但是隨著信息化建設(shè)的進(jìn)展,來自物聯(lián)網(wǎng)設(shè)備、網(wǎng)站、移動應(yīng)用程序、社交媒體和企業(yè)應(yīng)用程序的非關(guān)系型數(shù)據(jù)越來越多,很難存儲在數(shù)據(jù)倉庫中,而且隨著人工智能在高校中的發(fā)展和應(yīng)用,人工智能需要處理的多數(shù)是這些非關(guān)系型數(shù)據(jù),對數(shù)據(jù)治理和存儲提出了更高的要求。近年出現(xiàn)的數(shù)據(jù)湖技術(shù)能同時滿足關(guān)系型數(shù)據(jù)和非關(guān)系型數(shù)據(jù)的存儲,同時在性價比、數(shù)據(jù)質(zhì)量、適用用戶類型、數(shù)據(jù)分析領(lǐng)域、靈活性等方面也優(yōu)于數(shù)據(jù)倉庫。本文探討了如何利用數(shù)據(jù)湖技術(shù)構(gòu)建高校數(shù)據(jù)管理機制和數(shù)據(jù)處理機制。
1 數(shù)據(jù)湖的概念
數(shù)據(jù)湖是一個集中式存儲庫,允許用戶以任意規(guī)模存儲所有結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。用戶可以按原樣存儲數(shù)據(jù)(無需先對數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理),并運行不同類型的分析-從控制面板和可視化,到大數(shù)據(jù)處理、實時分析和機器學(xué)習(xí),以輔助管理者做出更好的決策。
對于高校的應(yīng)用,對傳統(tǒng)業(yè)務(wù)系統(tǒng)之外的數(shù)據(jù),比如來自物聯(lián)網(wǎng)、移動設(shè)備、網(wǎng)絡(luò)日志、視頻監(jiān)控等的數(shù)據(jù)——多數(shù)是半結(jié)構(gòu)化或者非結(jié)構(gòu)化的,而人工智能技術(shù)所擅長處理的正是這些類型的數(shù)據(jù),機器學(xué)習(xí)和深度學(xué)習(xí)算法可以對這些數(shù)據(jù)進(jìn)行建模、訓(xùn)練和驗證,得出數(shù)據(jù)之間的關(guān)聯(lián)性或者因果推斷關(guān)系來建立模型進(jìn)行分析和預(yù)測,為高校管理和決策提供數(shù)據(jù)支持。
2 數(shù)據(jù)湖與數(shù)據(jù)倉庫
數(shù)據(jù)倉庫和數(shù)據(jù)湖可以滿足不同組織的不同需求和使用案例。
數(shù)據(jù)倉庫是一個優(yōu)化的數(shù)據(jù)庫,用于分析來自事務(wù)系統(tǒng)和業(yè)務(wù)應(yīng)用程序的關(guān)系型數(shù)據(jù)。事先定義數(shù)據(jù)結(jié)構(gòu)和Schema,以優(yōu)化快速SQL查詢,其結(jié)果通常用于報告和分析。經(jīng)過清理、豐富和轉(zhuǎn)換的數(shù)據(jù)可以充當(dāng)用戶可信任的“單一信息源”。
數(shù)據(jù)湖有所不同,它存儲來自業(yè)務(wù)應(yīng)用程序的關(guān)系型數(shù)據(jù),以及來自移動應(yīng)用程序、物聯(lián)網(wǎng)設(shè)備和社交媒體的非關(guān)系型數(shù)據(jù)。捕獲數(shù)據(jù)時,不事先定義數(shù)據(jù)結(jié)構(gòu)或Schema。這意味著用戶可以存儲所有數(shù)據(jù),而不需要精心設(shè)計也無需知道將來用戶可能的數(shù)據(jù)需求。數(shù)據(jù)湖中存儲的數(shù)據(jù)可以包括結(jié)構(gòu)化數(shù)據(jù)(關(guān)系數(shù)據(jù)庫)、半結(jié)構(gòu)化數(shù)據(jù)(CSV、XML、JSON的日志)、非結(jié)構(gòu)化數(shù)據(jù)(電子郵件、文檔、PDF)、二進(jìn)制數(shù)據(jù)(圖像、音頻、視頻)[2]。用戶可以對數(shù)據(jù)使用不同類型的操作(如 SQL 查詢、大數(shù)據(jù)分析、全文搜索、實時分析和機器學(xué)習(xí))來獲得分析結(jié)果。
用數(shù)據(jù)湖替代數(shù)據(jù)倉庫作為高校數(shù)據(jù)存儲的技術(shù)手段,是因為當(dāng)前高校所擁有的和希望分析的數(shù)據(jù)類型不再只局限于關(guān)系型數(shù)據(jù)。表1列出了數(shù)據(jù)湖和數(shù)據(jù)倉庫在數(shù)據(jù)來源、數(shù)據(jù)存儲結(jié)構(gòu)等方面的區(qū)別[1,3,4]。
組織構(gòu)建數(shù)據(jù)湖和分析平臺時,需要考慮以下的關(guān)鍵功能。
⑴ 數(shù)據(jù)移動
數(shù)據(jù)湖允許用戶導(dǎo)入任何數(shù)量的實時數(shù)據(jù)。用戶可以從多個來源收集數(shù)據(jù),并以其原始形式將其移入到數(shù)據(jù)湖中。此過程允許用戶擴展到任何規(guī)模的數(shù)據(jù),同時節(jié)省定義數(shù)據(jù)結(jié)構(gòu)、Schema和轉(zhuǎn)換的時間。
⑵ 安全地存儲和編目數(shù)據(jù)
數(shù)據(jù)湖允許用戶存儲關(guān)系數(shù)據(jù)(例如,來自業(yè)務(wù)應(yīng)用程序的運營數(shù)據(jù)庫和數(shù)據(jù))和非關(guān)系數(shù)據(jù)(例如,來自移動應(yīng)用程序、物聯(lián)網(wǎng)設(shè)備和社交媒體的運營數(shù)據(jù)庫和數(shù)據(jù))。它們還使用戶能夠通過對數(shù)據(jù)進(jìn)行爬網(wǎng)、編目和建立索引來了解湖中的數(shù)據(jù)。最后,必須保護(hù)數(shù)據(jù)以確保用戶的數(shù)據(jù)資產(chǎn)受到保護(hù)。