馬曉亭
數(shù)字圖書館大數(shù)據(jù)分布式存儲(chǔ)架構(gòu)模式與策略研究
馬曉亭
數(shù)字圖書館傳統(tǒng)的關(guān)系數(shù)據(jù)庫數(shù)據(jù)存儲(chǔ)方式已不能滿足大數(shù)據(jù)存儲(chǔ)與處理需求,為解決傳統(tǒng)關(guān)系型數(shù)據(jù)庫在海量數(shù)據(jù)存儲(chǔ)和訪問效率中的瓶頸問題,論文提出了一種數(shù)字圖書館安全、有效的大數(shù)據(jù)公布式存儲(chǔ)架構(gòu)。該存儲(chǔ)架構(gòu)具有良好的可擴(kuò)展性、容錯(cuò)性和存儲(chǔ)性能,尤其針對海量的非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù),其性能優(yōu)勢更加明顯。
數(shù)字圖書館大數(shù)據(jù)海量數(shù)據(jù)存儲(chǔ)分布式存儲(chǔ)架構(gòu)非結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)
隨著信息技術(shù)的發(fā)展與讀者閱讀需求轉(zhuǎn)變,云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)和傳感器網(wǎng)絡(luò)等技術(shù),已成為數(shù)字圖書館構(gòu)建與用戶服務(wù)保障的關(guān)鍵技術(shù)。新技術(shù)的應(yīng)用與服務(wù)模式的變革,大幅提高了圖書館服務(wù)系統(tǒng)的結(jié)構(gòu)科學(xué)性、保障力和用戶滿意度。但是,圖書館在用戶服務(wù)與系統(tǒng)管理、讀者閱讀活動(dòng)保障、自動(dòng)傳感器數(shù)據(jù)采集和移動(dòng)閱讀終端閱讀等過程中,產(chǎn)生了海量和級數(shù)遞增的大數(shù)據(jù)資源,圖書館數(shù)據(jù)環(huán)境呈現(xiàn)數(shù)據(jù)體量巨大(Volume)、類型繁多(Variety)、價(jià)值密度低(Value)、處理速度快(Velocity)的4V大數(shù)據(jù)特征。此外,非結(jié)構(gòu)化數(shù)據(jù)占據(jù)圖書館總量的85%以上,并且讀者對大數(shù)據(jù)資源的價(jià)值密度和可用性要求較高。因此,加強(qiáng)大數(shù)據(jù)存儲(chǔ)系統(tǒng)架構(gòu)的科學(xué)性、安全性、可用性和可擴(kuò)展性,確保大數(shù)據(jù)資源可以安全、高效、靈活和經(jīng)濟(jì)地被存儲(chǔ)、訪問、查詢和分析,是關(guān)系圖書館數(shù)據(jù)存儲(chǔ)與管理效率,保證大數(shù)據(jù)資源挖掘和數(shù)據(jù)價(jià)值發(fā)現(xiàn)有效的關(guān)鍵[1]。
1.1圖書館大數(shù)據(jù)資源具有海量、多源的特點(diǎn)
圖書館大數(shù)據(jù)資源通常由讀者個(gè)體特征數(shù)據(jù)、社會(huì)關(guān)系數(shù)據(jù)、系統(tǒng)運(yùn)營與管理數(shù)據(jù)、視頻監(jiān)控?cái)?shù)據(jù)、物聯(lián)網(wǎng)傳感器數(shù)據(jù)、閱讀終端日志、讀者閱讀行為數(shù)據(jù)(主要由用戶博客、微博、論壇和讀者反饋信息)等組成,具有數(shù)據(jù)海量、多源、非結(jié)構(gòu)化和數(shù)據(jù)總量級數(shù)增長的特點(diǎn)。隨著用戶閱讀模式和需求的轉(zhuǎn)變,傳統(tǒng)的存儲(chǔ)體系已不能滿足海量激增的大數(shù)據(jù)資源存儲(chǔ)需求,要求大數(shù)據(jù)資源庫具備PB級的數(shù)據(jù)存儲(chǔ)規(guī)模,并可根據(jù)未來服務(wù)需求進(jìn)行存儲(chǔ)性能升級和擴(kuò)展。此外,要求大數(shù)據(jù)存儲(chǔ)平臺(tái)應(yīng)完成對結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和對象數(shù)據(jù)的統(tǒng)一存儲(chǔ)與管理,并保證存儲(chǔ)系統(tǒng)具有高效、簡單、經(jīng)濟(jì)和高資源整合的優(yōu)點(diǎn)。存儲(chǔ)系統(tǒng)應(yīng)支持核心大數(shù)據(jù)的安全、即時(shí)備份,且備份空間應(yīng)占據(jù)總系統(tǒng)總存儲(chǔ)空間的30%以上[2]。
1.2存儲(chǔ)架構(gòu)應(yīng)實(shí)現(xiàn)從傳統(tǒng)IT環(huán)境向大數(shù)據(jù)環(huán)境的平衡過渡
首先,大數(shù)據(jù)時(shí)代,圖書館傳統(tǒng)IT環(huán)境下的集中式存儲(chǔ)架構(gòu),已不能滿足用戶對大數(shù)據(jù)存儲(chǔ)服務(wù)海量、高效的需求,管理員難以通過對存儲(chǔ)設(shè)備容量、性能的擴(kuò)展,滿足圖書館大數(shù)據(jù)服務(wù)對存儲(chǔ)系統(tǒng)的功能需求。其次,傳統(tǒng)IT環(huán)境下,圖書館通常會(huì)通過增加存儲(chǔ)系統(tǒng)模塊的方式來擴(kuò)展數(shù)據(jù)存儲(chǔ)能力,導(dǎo)致存儲(chǔ)系統(tǒng)結(jié)構(gòu)復(fù)雜、管理難度大、存儲(chǔ)負(fù)載不均衡和易產(chǎn)生數(shù)據(jù)孤島。因此,存儲(chǔ)架構(gòu)必須實(shí)現(xiàn)由傳統(tǒng)IT環(huán)境下的集中式存儲(chǔ)向大數(shù)據(jù)環(huán)境下的分布式存儲(chǔ)架構(gòu)轉(zhuǎn)變。第三,隨著讀者大數(shù)據(jù)服務(wù)需求的發(fā)展,圖書館應(yīng)將存儲(chǔ)系統(tǒng)轉(zhuǎn)變?yōu)橐宰x者大數(shù)據(jù)服務(wù)保障能力建設(shè)為中心,提高大數(shù)據(jù)存儲(chǔ)、管理、部署和遷移的安全性、效率、可用性與可控性。第四,大數(shù)據(jù)存儲(chǔ)架構(gòu)必須增強(qiáng)軟、硬件平臺(tái)的開放性,消除傳統(tǒng)存儲(chǔ)平臺(tái)不同系統(tǒng)與功能模塊之間的層次化、封閉性和隔離性,實(shí)現(xiàn)大數(shù)據(jù)資源的最優(yōu)化存儲(chǔ)與部署[3]。
1.3大數(shù)據(jù)存儲(chǔ)的可用性與成本控制問題
大數(shù)據(jù)存儲(chǔ)的可用性與成本控制問題,關(guān)系圖書館大數(shù)據(jù)資源挖掘、價(jià)值發(fā)現(xiàn)和分析決策的有效性。首先,大數(shù)據(jù)存儲(chǔ)系統(tǒng)應(yīng)具備多核并行處理和快速閃存的功能,可滿足大數(shù)據(jù)應(yīng)用對存儲(chǔ)系統(tǒng)IOPs(每秒進(jìn)行讀寫操作次數(shù))的需求。其次,大數(shù)據(jù)存儲(chǔ)平臺(tái)應(yīng)具備較高的存儲(chǔ)效率和資源利用率,可通過監(jiān)控系統(tǒng)對存儲(chǔ)工作負(fù)載、系統(tǒng)存儲(chǔ)效率、動(dòng)態(tài)資源配置與分配、存儲(chǔ)資源的優(yōu)化水平進(jìn)行實(shí)時(shí)監(jiān)控。第三,大數(shù)據(jù)存儲(chǔ)平臺(tái)應(yīng)具備較強(qiáng)的兼容性和可擴(kuò)展性,可滿足傳統(tǒng)存儲(chǔ)架構(gòu)向大數(shù)據(jù)存儲(chǔ)演進(jìn)的系統(tǒng)硬件功能需求。第四,大數(shù)據(jù)存儲(chǔ)管理算法應(yīng)適應(yīng)新的存儲(chǔ)系統(tǒng)架構(gòu)與存儲(chǔ)介質(zhì)運(yùn)營需求,堅(jiān)持以讀者需求和大數(shù)據(jù)服務(wù)驅(qū)動(dòng)原則,大幅降低大數(shù)據(jù)存儲(chǔ)的能量損耗和成本投入。
1.4大數(shù)據(jù)存儲(chǔ)系統(tǒng)應(yīng)構(gòu)建新型的指標(biāo)參數(shù)體系
根據(jù)圖書館大數(shù)據(jù)存儲(chǔ)系統(tǒng)的結(jié)構(gòu)科學(xué)性、系統(tǒng)功能性、存儲(chǔ)可用性和可控性需求,存儲(chǔ)平臺(tái)系統(tǒng)指標(biāo)體系應(yīng)重點(diǎn)關(guān)注系統(tǒng)的結(jié)構(gòu)復(fù)雜性、可擴(kuò)展性、運(yùn)行效率、靈活性、數(shù)據(jù)庫弱一致性和建設(shè)經(jīng)濟(jì)性等。涉及大數(shù)據(jù)存儲(chǔ)系統(tǒng)功能性和可控性的指標(biāo)體系,主要應(yīng)包括數(shù)據(jù)的安全性、長期可存儲(chǔ)性、數(shù)據(jù)可訪問性、數(shù)據(jù)定位與查詢的效率、存儲(chǔ)系統(tǒng)的數(shù)據(jù)吞吐量與延遲、大數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)的部署科學(xué)性等參數(shù)指標(biāo)。此外,還應(yīng)根據(jù)指標(biāo)參數(shù)對圖書館大數(shù)據(jù)存儲(chǔ)系統(tǒng)的結(jié)構(gòu)科學(xué)性與功能影響力,以及讀者大數(shù)據(jù)服務(wù)的內(nèi)容與模式轉(zhuǎn)變程度,及時(shí)對指標(biāo)的內(nèi)容、參數(shù)和影響因子進(jìn)行動(dòng)態(tài)調(diào)整[4]。
1.5云計(jì)算技術(shù)在大數(shù)據(jù)存儲(chǔ)服務(wù)中具有局限性
對于云存儲(chǔ)圖書館可通過購買云服務(wù)商公共云存儲(chǔ)服務(wù)、自建私有云平臺(tái)、構(gòu)建混合云存儲(chǔ)平臺(tái)(公有云與私有云相結(jié)合)三種方式,實(shí)現(xiàn)大數(shù)據(jù)資源的存儲(chǔ)、管理和應(yīng)用。
公共云存儲(chǔ)服務(wù)由圖書館交付云服務(wù)商來保障完成,具有服務(wù)部署快捷、存儲(chǔ)成本低廉、按需分配資源和服務(wù)連續(xù)性的優(yōu)點(diǎn)。但也存在著圖書館將所有大數(shù)據(jù)資源傳輸至公有云端,圖書館和其他用戶共享云服務(wù)商的存儲(chǔ)空間和管理服務(wù),具有安全性低、數(shù)據(jù)可控性差和QOS(用戶服務(wù)質(zhì)量)無保證的缺點(diǎn)。圖書館自建私有云存儲(chǔ)平臺(tái)的方式,雖然具備較高的安全性、存儲(chǔ)效率和數(shù)據(jù)可控性,但也存在著私有云平臺(tái)的建設(shè)、運(yùn)營成本高昂,對用戶技術(shù)水平和管理員素質(zhì)要求高的問題。混合云雖然有效解決了公共云和私有云在大數(shù)據(jù)存儲(chǔ)中存在的問題,但也存在著跨公共云和私有云分配應(yīng)用復(fù)雜,大數(shù)據(jù)資源存儲(chǔ)安全需求評估和遷移管理難度大的問題[5]。
2.1圖書館大數(shù)據(jù)分布式存儲(chǔ)架構(gòu)設(shè)計(jì)
圖書館大數(shù)據(jù)環(huán)境由于具有數(shù)據(jù)海量、級數(shù)遞增、數(shù)據(jù)結(jié)構(gòu)多樣和價(jià)值密度低,存儲(chǔ)平臺(tái)用戶服務(wù)過程呈現(xiàn)數(shù)據(jù)一次寫入和多次讀出的特點(diǎn),因而存儲(chǔ)平臺(tái)應(yīng)具備系統(tǒng)存儲(chǔ)容量可依據(jù)大數(shù)據(jù)服務(wù)需求橫向擴(kuò)展,可支持不同數(shù)據(jù)接口的數(shù)據(jù)采集設(shè)備和閱讀終端、多種數(shù)據(jù)訪問協(xié)議、全局命名空間和支持面向?qū)ο蟮臄?shù)據(jù)管理。此外,圖書館在大數(shù)據(jù)存儲(chǔ)平臺(tái)部署過程中,應(yīng)具備系統(tǒng)快速部署、高速存儲(chǔ)與讀取、大寬帶網(wǎng)絡(luò)連接、PB級海量存儲(chǔ)、多級數(shù)據(jù)冗余備份、智能的數(shù)據(jù)檢索和查詢能力。同時(shí),存儲(chǔ)系統(tǒng)應(yīng)具備較高安全性和7×24小時(shí)運(yùn)行不中斷的能力,并支持系統(tǒng)的在線容量擴(kuò)展和數(shù)據(jù)遷移。
結(jié)合圖書館大數(shù)據(jù)資源存儲(chǔ)和讀者服務(wù)需求,本文設(shè)計(jì)的圖書館大數(shù)據(jù)存儲(chǔ)平臺(tái)系統(tǒng)結(jié)構(gòu)如圖1所示。
圖1 圖書館大數(shù)據(jù)分布式存儲(chǔ)平臺(tái)系統(tǒng)結(jié)構(gòu)圖
大數(shù)據(jù)存儲(chǔ)系統(tǒng)由現(xiàn)有數(shù)據(jù)存儲(chǔ)平臺(tái)、分布式數(shù)據(jù)存儲(chǔ)層、分布式數(shù)據(jù)處理層和大數(shù)據(jù)服務(wù)接口層4部分組成?,F(xiàn)有數(shù)據(jù)存儲(chǔ)平臺(tái)主要完成所采集數(shù)據(jù)的初選和過濾,通過減少原始大數(shù)據(jù)資源的數(shù)據(jù)總量和增加其價(jià)值密度,降低大數(shù)據(jù)的存儲(chǔ)負(fù)載和縮短大數(shù)據(jù)應(yīng)用時(shí)間。分布式數(shù)據(jù)存儲(chǔ)層主要由閃存和直連存儲(chǔ)(DAS)系統(tǒng)組成。閃存作為DAS系統(tǒng)的二級緩存,具有平均無故障運(yùn)營時(shí)間長、安全性高、數(shù)據(jù)讀寫速度快、能耗低和無噪音的特點(diǎn)。DAS基于閃存的二級存儲(chǔ)服務(wù)支持,可安全、高效地通過存儲(chǔ)系統(tǒng)感知器件端、中間層和應(yīng)用層的服務(wù),安全、高效、均衡、經(jīng)濟(jì)地實(shí)現(xiàn)大數(shù)據(jù)的分布式協(xié)同存儲(chǔ)。分布式數(shù)據(jù)處理層主要由分布式并行計(jì)算框架和大數(shù)據(jù)管理、挖掘、處理、分析系統(tǒng)組成,基于分布式數(shù)據(jù)存儲(chǔ)層支持而完成大數(shù)據(jù)的價(jià)值提取和知識發(fā)現(xiàn)。大數(shù)據(jù)服務(wù)接口層是圖書館大數(shù)據(jù)服務(wù)的數(shù)據(jù)接口,可為不同的大數(shù)據(jù)應(yīng)用系統(tǒng)提供安全、高效、經(jīng)濟(jì)、可靠的數(shù)據(jù)傳輸服務(wù)[6]。
2.2圖書館大數(shù)據(jù)分布式存儲(chǔ)平臺(tái)構(gòu)建與管理策略
2.2.1存儲(chǔ)平臺(tái)構(gòu)建應(yīng)以大數(shù)據(jù)應(yīng)用保障為核心
圖書館大數(shù)據(jù)應(yīng)用呈現(xiàn)“4V”的特性。因此,在大數(shù)據(jù)存儲(chǔ)平臺(tái)構(gòu)建中,應(yīng)以大數(shù)據(jù)應(yīng)用保障能力建設(shè)和發(fā)揮大數(shù)據(jù)“4V”價(jià)值為核心,構(gòu)建安全、高效、經(jīng)濟(jì)和低碳的圖書館大數(shù)據(jù)資源存儲(chǔ)平臺(tái)。
首先,管理員應(yīng)仔細(xì)分析圖書館讀者大數(shù)據(jù)服務(wù)的內(nèi)容、模式和方法,將構(gòu)建符合用戶大數(shù)據(jù)服務(wù)需求的存儲(chǔ)與管理架構(gòu)放在首要位置,再依據(jù)大數(shù)據(jù)服務(wù)對存儲(chǔ)平臺(tái)的安全性、功能性、容量、I/O吞吐能力和硬件設(shè)施投資收益等要求,保障存儲(chǔ)平臺(tái)硬件設(shè)施在設(shè)備參數(shù)、接口協(xié)議標(biāo)準(zhǔn)和管理方式上滿足大數(shù)據(jù)服務(wù)的需求。其次,大數(shù)據(jù)存儲(chǔ)平臺(tái)構(gòu)建應(yīng)注重系統(tǒng)的可擴(kuò)展性建設(shè),應(yīng)采用Scale-Out(橫向擴(kuò)展)的系統(tǒng)架構(gòu),實(shí)現(xiàn)多存儲(chǔ)節(jié)點(diǎn)的全冗余部署,并依據(jù)圖書館大數(shù)據(jù)業(yè)務(wù)的需求變化和數(shù)據(jù)存儲(chǔ)量增長實(shí)際,對存儲(chǔ)空間、帶寬和處理能力進(jìn)行實(shí)時(shí)的動(dòng)態(tài)擴(kuò)展。第三,大數(shù)據(jù)存儲(chǔ)平臺(tái)構(gòu)建應(yīng)以大數(shù)據(jù)存儲(chǔ)服務(wù)生命周期規(guī)律為依據(jù),重點(diǎn)關(guān)注系統(tǒng)的海量并行存儲(chǔ)能力、全局命名空間、接口標(biāo)準(zhǔn)、讀寫性能、可管理性、系統(tǒng)架構(gòu)開放性、多級數(shù)據(jù)冗余和多級存儲(chǔ)備份等,實(shí)現(xiàn)大數(shù)據(jù)資源存儲(chǔ)、復(fù)制、重構(gòu)、遷移、分析和歸檔一體化的全生命周期管理[7]。
2.2.2存儲(chǔ)系統(tǒng)構(gòu)建應(yīng)以讀者服務(wù)需求為依據(jù)
圖書館大數(shù)據(jù)除呈現(xiàn)海量、級數(shù)增長、非結(jié)構(gòu)化和價(jià)值密度低的特征外,還具有數(shù)據(jù)一致性強(qiáng)弱不同、訪問冷熱度不均勻、數(shù)據(jù)讀寫操作負(fù)載波峰與波谷差異大的特點(diǎn)。因此,讀者大數(shù)據(jù)服務(wù)要求存儲(chǔ)系統(tǒng)具有高效、安全、低延遲、高并發(fā)、快流量和可擴(kuò)展的特點(diǎn)。
大數(shù)據(jù)時(shí)代,圖書館服務(wù)數(shù)據(jù)呈現(xiàn)多媒體表現(xiàn)、更新頻繁、讀寫速度高和頁面數(shù)據(jù)量龐大的特點(diǎn)。因此,管理員應(yīng)采用可預(yù)測網(wǎng)頁變化的增量式更新模型,通過將磁盤的隨機(jī)寫入轉(zhuǎn)化為批量的順序?qū)懭耄瑏泶蠓s短網(wǎng)頁數(shù)據(jù)的更新周期和提高用戶信息搜索的時(shí)效性。其次,應(yīng)根據(jù)大數(shù)據(jù)存儲(chǔ)系統(tǒng)的結(jié)構(gòu)、熱點(diǎn)數(shù)據(jù)特征和用戶數(shù)據(jù)讀寫模式,對大數(shù)據(jù)存儲(chǔ)訪問、數(shù)據(jù)索引、熱點(diǎn)數(shù)據(jù)緩存、I/O緩存等方面進(jìn)行全局優(yōu)化,并通過提高數(shù)據(jù)的讀取速率和系統(tǒng)吞吐量來降低讀者在線訪問延遲。第三,對于關(guān)系讀者服務(wù)質(zhì)量、圖書館管理與運(yùn)營效率的重要數(shù)據(jù),應(yīng)采取子數(shù)據(jù)中心備份和多副本存儲(chǔ)的模式,提高數(shù)據(jù)的安全性和可用性。第四,在圖書館大數(shù)據(jù)存儲(chǔ)平臺(tái)構(gòu)建中,應(yīng)將大數(shù)據(jù)存儲(chǔ)系統(tǒng)、存儲(chǔ)分析系統(tǒng)、大數(shù)據(jù)挖掘與過濾系統(tǒng)、計(jì)算系統(tǒng)整合到一個(gè)大的系統(tǒng)平臺(tái)之上,實(shí)現(xiàn)數(shù)據(jù)采集、數(shù)據(jù)過濾和挖掘、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析與歸檔一體化,提高大數(shù)據(jù)存儲(chǔ)的效率、安全性、可控性和可用性。
2.2.3大數(shù)據(jù)存儲(chǔ)平臺(tái)應(yīng)具備智慧管理功能
圖書館大數(shù)據(jù)存儲(chǔ)系統(tǒng)應(yīng)具備較強(qiáng)的智慧管理功能,可高效、自動(dòng)地實(shí)現(xiàn)大數(shù)據(jù)融合存儲(chǔ)、查詢、分析和歸檔的全生命周期管理。同時(shí),應(yīng)支持對多種設(shè)備接口、通信協(xié)議和數(shù)據(jù)類型的結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù),進(jìn)行統(tǒng)一存儲(chǔ)、歸檔與分析,避免數(shù)據(jù)孤島現(xiàn)象發(fā)生。其次,管理系統(tǒng)應(yīng)結(jié)構(gòu)簡單和易于控制,可對存儲(chǔ)系統(tǒng)硬件設(shè)備、軟件系統(tǒng)和存儲(chǔ)區(qū)域網(wǎng)絡(luò)進(jìn)行統(tǒng)一的管理。通過對所采集的存儲(chǔ)系統(tǒng)運(yùn)營狀態(tài)反饋數(shù)據(jù)進(jìn)行性能統(tǒng)計(jì)和智能分析,實(shí)現(xiàn)系統(tǒng)的自動(dòng)化精簡配置和存儲(chǔ)空間的動(dòng)態(tài)分配。第三,圖書館應(yīng)增強(qiáng)基于大數(shù)據(jù)存儲(chǔ)管理算法的科學(xué)性,實(shí)現(xiàn)大數(shù)據(jù)資源存儲(chǔ)的智能、虛擬化管理,解決大數(shù)據(jù)環(huán)境下圖書館大數(shù)據(jù)存儲(chǔ)系統(tǒng)所存在的存儲(chǔ)介質(zhì)異構(gòu)、數(shù)據(jù)分片和存儲(chǔ)資源分配難度大的問題。第四,大數(shù)據(jù)存儲(chǔ)平臺(tái)建設(shè)和系統(tǒng)運(yùn)營過程應(yīng)加強(qiáng)能耗管理。圖書館在存儲(chǔ)系統(tǒng)構(gòu)建中應(yīng)盡量使用閃存、PCM等低能耗的新型存儲(chǔ)介質(zhì)。同時(shí),還應(yīng)采用能耗查詢優(yōu)化、數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)負(fù)載均衡、能耗均衡的集群存儲(chǔ)分配、面向集群的高能效緩沖區(qū)置換算法等,實(shí)現(xiàn)大數(shù)據(jù)存儲(chǔ)平臺(tái)的低碳運(yùn)營和綠色存儲(chǔ)[8]。
2.2.4存儲(chǔ)平臺(tái)應(yīng)安全、可控和易于動(dòng)態(tài)擴(kuò)展
在大數(shù)據(jù)存儲(chǔ)系統(tǒng)基礎(chǔ)設(shè)施建設(shè)中,圖書館應(yīng)采用分布式存儲(chǔ)系統(tǒng)結(jié)構(gòu)來保證系統(tǒng)架構(gòu)的可擴(kuò)展性。通過對存儲(chǔ)節(jié)點(diǎn)的平均負(fù)載配置實(shí)現(xiàn)節(jié)點(diǎn)間的存儲(chǔ)負(fù)荷均衡,保證系統(tǒng)整體具有較高的安全性、存儲(chǔ)效率、可控性和可用性。其次,在大數(shù)據(jù)存儲(chǔ)平臺(tái)建設(shè)中,應(yīng)利用圖書館原有存儲(chǔ)系統(tǒng)平臺(tái)資源,對所采集的大數(shù)據(jù)資源進(jìn)行數(shù)據(jù)分析、數(shù)據(jù)過濾和降噪處理,在降低大數(shù)據(jù)平臺(tái)建設(shè)成本前提下增強(qiáng)大數(shù)據(jù)資源的價(jià)值密度,減輕大數(shù)據(jù)存儲(chǔ)平臺(tái)的計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)傳輸負(fù)荷。第三,系統(tǒng)管理員應(yīng)仔細(xì)分析圖書館的大數(shù)據(jù)存儲(chǔ)業(yè)務(wù),并購買或者開發(fā)相應(yīng)的存儲(chǔ)系統(tǒng)監(jiān)控、決策軟件,實(shí)現(xiàn)對存儲(chǔ)磁盤I/O、磁盤總?cè)萘?、磁盤占用率、CPU使用量、內(nèi)存占用和存儲(chǔ)系統(tǒng)傳輸網(wǎng)絡(luò)效率等,進(jìn)行全面、實(shí)時(shí)的運(yùn)營狀態(tài)監(jiān)控和性能分析,并依據(jù)監(jiān)控結(jié)果對存儲(chǔ)系統(tǒng)的參數(shù)與資源進(jìn)行配置和動(dòng)態(tài)分配。
2.2.5大數(shù)據(jù)存儲(chǔ)系統(tǒng)構(gòu)建應(yīng)堅(jiān)持公有云與私有云相結(jié)合的原則
利用云存儲(chǔ)技術(shù),圖書館可以保障讀者在任何時(shí)間、任何地點(diǎn),通過任何可連網(wǎng)的裝置連接到云上,方便地存取數(shù)據(jù)和進(jìn)行云閱讀活動(dòng)。但是,不科學(xué)的云基礎(chǔ)設(shè)施架構(gòu)和云應(yīng)用策略,會(huì)導(dǎo)致云系統(tǒng)的構(gòu)建與云服務(wù)成本上升,以及云存儲(chǔ)數(shù)據(jù)安全性和個(gè)人隱私受到侵犯,嚴(yán)重影響了圖書館大數(shù)據(jù)應(yīng)用與用戶服務(wù)決策的安全、有效性。圖書館大數(shù)據(jù)存儲(chǔ)具有數(shù)據(jù)安全級別、讀寫頻率、結(jié)構(gòu)特征和價(jià)值密度不統(tǒng)一的特點(diǎn)。因此,應(yīng)根據(jù)圖書館大數(shù)據(jù)存儲(chǔ)和大數(shù)據(jù)閱讀服務(wù)需求,構(gòu)建安全、高效的云存儲(chǔ)系統(tǒng)和管理策略。
結(jié)合圖書館大數(shù)據(jù)存儲(chǔ)環(huán)境特點(diǎn)和服務(wù)需求,應(yīng)采用混和云的方式對圖書館大數(shù)據(jù)資源進(jìn)行存儲(chǔ)和管理。讀者對圖書館大數(shù)據(jù)服務(wù)具有安全、高效、經(jīng)濟(jì)、便捷的需求。因此,在對海量、多類型、低安全需求的服務(wù)數(shù)據(jù)進(jìn)行數(shù)據(jù)模式統(tǒng)一轉(zhuǎn)化后,應(yīng)存儲(chǔ)于公共云平臺(tái)上,并與云服務(wù)商簽署相應(yīng)的云服務(wù)租賃協(xié)議,保證圖書館租賃的公共云資源和存儲(chǔ)空間,可隨大數(shù)據(jù)服務(wù)需求和數(shù)據(jù)量變化動(dòng)態(tài)彈性調(diào)整。此外,云服務(wù)商還應(yīng)依據(jù)讀者所處地理位置分布實(shí)際,在世界不同地域構(gòu)建若干個(gè)服務(wù)數(shù)據(jù)備份存儲(chǔ)空間,保證讀者可就近、實(shí)時(shí)、高效、經(jīng)濟(jì)和便捷地閱讀訪問。而對于高安全級別的讀者個(gè)體特征數(shù)據(jù)、社會(huì)關(guān)系數(shù)據(jù)、閱讀行為數(shù)據(jù)和圖書館系統(tǒng)運(yùn)營監(jiān)控?cái)?shù)據(jù)等,應(yīng)存放在圖書館的私有云上,并制定安全、高效的數(shù)據(jù)管理與保密措施,實(shí)現(xiàn)對保密數(shù)據(jù)的統(tǒng)一管理、擴(kuò)展、升級和集中備份與容災(zāi)[9]。
隨著讀者大數(shù)據(jù)服務(wù)的深入與發(fā)展,大數(shù)據(jù)環(huán)境的數(shù)據(jù)海量、級數(shù)遞增、類型復(fù)雜和低價(jià)值密度的矛盾將更加突出,大數(shù)據(jù)存儲(chǔ)與管理的安全性、效率、經(jīng)濟(jì)性和實(shí)時(shí)性,會(huì)直接影響圖書館讀者大數(shù)據(jù)決策與服務(wù)的科學(xué)性和可用性。因此,在大數(shù)據(jù)存儲(chǔ)平臺(tái)建設(shè)中,圖書館必須以讀者大數(shù)據(jù)服務(wù)和大數(shù)據(jù)存儲(chǔ)需求為依據(jù),堅(jiān)持大數(shù)據(jù)存儲(chǔ)技術(shù)與讀者需求相結(jié)合的原則,依靠云計(jì)算和大數(shù)據(jù)技術(shù)構(gòu)建基于分布式的大數(shù)據(jù)存儲(chǔ)系統(tǒng),才能保證圖書館大數(shù)據(jù)存儲(chǔ)與應(yīng)用安全、高效、經(jīng)濟(jì)和個(gè)性化,才能為讀者提供基于用戶需求感知和客戶關(guān)系管理的大數(shù)據(jù)智慧服務(wù)。
[1]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013(1):146-149.
[2]史英杰,孟小峰.云數(shù)據(jù)管理系統(tǒng)中查詢技術(shù)研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2013(2):209-225.
[3]金培權(quán),郝行軍,岳麗華.面向新型存儲(chǔ)的大數(shù)據(jù)存儲(chǔ)架構(gòu)與核心算法綜述[J].計(jì)算機(jī)工程與科學(xué),2013(10):12-24.
[4]黃冬梅,杜艷玲,賀琪.混合云存儲(chǔ)中海洋大數(shù)據(jù)遷移算法的研究[J].計(jì)算機(jī)研究與發(fā)展,2014(1):199-205.
[5]張?zhí)煊?,賀金鑫,王陽,等.基于NoSQL數(shù)據(jù)庫的地學(xué)大數(shù)據(jù)高效存儲(chǔ)方法[J].吉林大學(xué)學(xué)報(bào),2013(6):604-608.
[6]覃雄派,王會(huì)舉.大數(shù)據(jù)分析:RDBMS與Map Reduce的競爭與共生[J].軟件學(xué)報(bào),2012(1):32-45.
[7]Wilkipedia.Big data[EB/OL].[2014-03-15].http://en. wikipedia.org/wiki/Big_data.
[8]李國杰,程學(xué)旗.大數(shù)據(jù)研究:未來科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國科學(xué)院院刊,2012(6):647-657.
[9]王元卓,靳小龍,程學(xué)旗.網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報(bào),2013(6):1126-1136.
馬曉亭蘭州商學(xué)院信息工程學(xué)院副教授。甘肅蘭州,730020。
Study on the Big Data Distributed Storage Architecture Model and Policies of the Digital Library
Ma Xiaoting
Storing and processing big data by using ordinary relational database comes across some problems in the digital library.To solve the bottleneck problems of the traditional relationship database in big data storage and access efficiency,this paper presents a secure and efficient big data distributed storage architecture for the digital library,which has better scalability,fault tolerance and enhanced storage performance.Especially for the mass unstructured and semi-structured data,the performance advantage is more obvious.
Digital library.Big data.Mass data storage.Distributed storage architecture.Unstructured data.Semi-structured data.
G250.76
(2014-08-29編校:劉明)