• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大數(shù)據(jù)時代檔案信息資源共享平臺數(shù)據(jù)存儲系統(tǒng)的設(shè)計與實現(xiàn)

      2021-04-12 16:38:42卞咸杰
      檔案與建設(shè) 2021年2期
      關(guān)鍵詞:數(shù)據(jù)存儲檔案信息大數(shù)據(jù)

      卞咸杰

      摘 要:伴隨物聯(lián)網(wǎng)和互聯(lián)網(wǎng)技術(shù)的發(fā)展與應(yīng)用,數(shù)字化檔案信息資源呈現(xiàn)爆炸式增長,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫在海量檔案信息資源數(shù)據(jù)讀寫效率中存在著諸多的性能瓶頸,如何滿足不斷增長的檔案信息資源數(shù)據(jù)存儲需求成為共享平臺建設(shè)研究的重點。在對檔案信息資源共享平臺數(shù)據(jù)存儲需求分析的基礎(chǔ)上,對檔案信息資源存儲系統(tǒng)進行了模塊設(shè)計,提出了采用HDFS結(jié)合Redis作為共享平臺數(shù)據(jù)存儲系統(tǒng)的總體架構(gòu)的方法,并對檔案信息資源存儲的性能進行測試對比。采用HDFS作為共享平臺的存儲系統(tǒng)架構(gòu)支撐,結(jié)合Redis緩存技術(shù),能夠快速提升檔案信息資源的存儲處理性能,為檔案信息資源共享平臺的數(shù)據(jù)服務(wù)提供可靠的基礎(chǔ)保障。

      關(guān)鍵詞:大數(shù)據(jù);檔案信息;資源共享平臺;數(shù)據(jù)存儲;HDFS;Redis

      分類號:G273

      Design and Implementation of Data Storage System for Archive Information Resource Sharing Platform in the Big Data Era

      Bian Xiajie(School of History and Public Administration of Yanchen Teachers University, Library of History and Public Administration of Yanchen Teachers University, Archive History and Public Administration of Yanchen Teachers University, Yancheng, Jiangsu, 224007 )

      Abstract:With the development and application of Internet of Things and Internet technologies, digital archival information resources have shown explosive growth. Traditional relational databases are reading data from massive archival information resources. There are many performance bottlenecks in writing efficiency. How to meet the growing data storage needs of archive information resources has become the focus of research on the construction of shared platforms. Based on the analysis of the data storage requirements of the archive information resource sharing platform, a module design was carried out for the archive information resource storage system, and a method of using HDFS and Redis as the overall architecture of the shared platform data storage system was proposed Test and compare the performance of archive information resource storage. Using HDFS as the storage system architecture support of the sharing platform, and integrating the Redis cache technology can quickly improve the storage processing performance of the archive information resources, and provide a reliable basic guarantee for the data services of the archive information resource sharing platform.

      Keywords:Big Data;Archive Information;Resource Sharing Platform;Data Storage;HDFS; Redis

      隨著物聯(lián)網(wǎng)、互聯(lián)網(wǎng)、“互聯(lián)網(wǎng)+”、人工智能和5G技術(shù)的發(fā)展,檔案管理信息化、數(shù)字化、智能化建設(shè)也得到了前所未有的高度重視。檔案部門通過共享平臺進行統(tǒng)一存儲并對外提供檔案信息資源訪問數(shù)據(jù)[1],使迅速發(fā)展的檔案數(shù)據(jù)化行為越發(fā)呼應(yīng)當(dāng)前“讓數(shù)據(jù)多跑路”的政策要求。大數(shù)據(jù)時代,數(shù)據(jù)管理已成為現(xiàn)代檔案管理的一項重要內(nèi)容[2],檔案數(shù)據(jù)化也成為檔案界新的關(guān)注點。存儲方案的優(yōu)化、空間的增容、滿足用戶不斷增長的個性化需求已成為檔案信息資源共享研究的重點。為改變傳統(tǒng)的檔案信息數(shù)據(jù)存儲方式難以承受數(shù)據(jù)并發(fā)訪問的壓力,在硬件上,使用新硬件或新技術(shù)加快數(shù)據(jù)訪問,以更小的硬件設(shè)備存儲更大容量的檔案信息成為趨勢,如僅幾毫米的空間存儲能容納TB級的數(shù)據(jù)[3];軟件上,針對不同存儲方式提出相應(yīng)優(yōu)化方案以提高系統(tǒng)性能也成了重點。文章認(rèn)為,采用HDFS結(jié)合Redis構(gòu)建檔案信息資源共享平臺數(shù)據(jù)存儲系統(tǒng)具有一定優(yōu)勢。

      1檔案信息資源共享平臺數(shù)據(jù)存儲需求

      1.1檔案信息數(shù)據(jù)存儲可擴展性需求

      據(jù)中國信通院發(fā)布的《大數(shù)據(jù)白皮書(2019)》報道,全球數(shù)據(jù)量正在無限制地擴展和增加,2025年將達到163ZB[4]。數(shù)據(jù)增長的主要驅(qū)動力是移動互聯(lián)網(wǎng)技術(shù)及移動設(shè)備的運用,如移動設(shè)備不僅要收集信息資源數(shù)據(jù),還要收集與用戶活動相關(guān)的數(shù)據(jù)。檔案信息資源共享平臺的可擴展性就是指以可顯著增加存儲資源的方式支持不斷增長的檔案信息資源數(shù)據(jù)量。大數(shù)據(jù)時代,數(shù)據(jù)出現(xiàn)PB級增長,這對檔案信息資源共享平臺的存儲系統(tǒng)提出了新的要求。首先要求平臺的存儲系統(tǒng)能夠動態(tài)地支持檔案信息數(shù)據(jù)不同的容量要求,在實際利用過程中能夠按需分配資源。其次,數(shù)據(jù)存儲系統(tǒng)需要能有效管理檔案信息資源數(shù)據(jù),存儲資源需要根據(jù)當(dāng)前的檔案信息數(shù)據(jù)量級按需分配與動態(tài)增加。第三,能有效利用存儲系統(tǒng)配額管理功能,提高現(xiàn)有存儲系統(tǒng)的利用效率。

      1.2檔案信息數(shù)據(jù)存儲類別復(fù)雜性需求

      隨著信息技術(shù)的發(fā)展,一方面,傳統(tǒng)的結(jié)構(gòu)化檔案信息資源數(shù)據(jù)已不能滿足檔案信息資源共享平臺的應(yīng)用,現(xiàn)有的檔案信息資源數(shù)據(jù)出現(xiàn)了半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。新類型數(shù)據(jù)的檢索與挖掘需要新的信息化技術(shù)來支撐,這便需要對檔案信息數(shù)據(jù)進行過濾、保護和挖掘。另一方面,檔案信息數(shù)據(jù)是檔案管理者和使用者的重要數(shù)據(jù)基礎(chǔ),檔案信息數(shù)據(jù)綜合利用是檔案信息大數(shù)據(jù)建設(shè)的核心。集中存儲與處理非結(jié)構(gòu)化數(shù)據(jù)對平臺提出了更高的要求,未來的檔案信息資源數(shù)據(jù)存儲面臨的是更復(fù)雜數(shù)據(jù)類型的存儲與應(yīng)用問題,從復(fù)雜的數(shù)據(jù)類型到共享平臺數(shù)據(jù)的存儲管理是一個較大的挑戰(zhàn)[5]。

      1.3檔案信息數(shù)據(jù)存儲安全性需求

      檔案信息數(shù)據(jù)的安全性要求很高。為防止檔案信息資源數(shù)據(jù)被泄漏、竊取、濫用,需對共享平臺的檔案信息資源數(shù)據(jù)實現(xiàn)安全處置,即數(shù)據(jù)脫敏、數(shù)據(jù)加密和數(shù)據(jù)利用跟蹤[6]。

      1.4檔案信息數(shù)據(jù)存儲可靠性需求

      由于檔案信息資源共享平臺數(shù)據(jù)存儲系統(tǒng)自身硬件的原因,硬盤磁盤組件故障率較高,不經(jīng)常訪問的數(shù)據(jù)存儲在上述的物理介質(zhì)極容易丟失和損壞[7]。在實際的數(shù)據(jù)存儲系統(tǒng)利用過程中,一旦出現(xiàn)硬盤磁盤組件故障,將直接中斷系統(tǒng)服務(wù),此外,在具體的恢復(fù)工作中也存在很多不確定性。

      2檔案信息資源共享平臺數(shù)據(jù)存儲系統(tǒng)架構(gòu)設(shè)計

      大數(shù)據(jù)時代,檔案信息資源共享平臺數(shù)據(jù)存儲系統(tǒng)架構(gòu)設(shè)計需要綜合考慮未來的可靠性與可擴展性,從數(shù)據(jù)安全存儲與高效的角度可以考慮分布式異構(gòu)存儲策略模式,使數(shù)據(jù)分布在合適的存儲介質(zhì)上,從而提高檔案信息數(shù)據(jù)的訪問性能。檔案信息資源共享平臺存儲服務(wù)將采用WebAPI的方式進行處理,存儲系統(tǒng)采用可擴展的分布式文件系統(tǒng)[8]。在具體的數(shù)據(jù)存儲系統(tǒng)實現(xiàn)中,需要綜合考慮硬件和軟件在檔案信息存儲中的作用,部分存儲功能的實現(xiàn)通過硬件更易于實現(xiàn),如存儲介質(zhì)的冗余備份、海量數(shù)據(jù)存儲等。

      2.1數(shù)據(jù)存儲系統(tǒng)的總體架構(gòu)

      檔案信息資源共享平臺建設(shè)要達到檔案管理信息化和檔案安全高效化的要求,滿足包括PC、手機及平板等設(shè)備以及不同分辨率瀏覽器的使用要求[9],便必須加強三大管理中心建設(shè):一是檔案信息資源共享平臺綜合管理中心建設(shè),二是檔案信息資源共享平臺存儲服務(wù)中心建設(shè),三是檔案信息資源共享平臺數(shù)據(jù)交互管理中心建設(shè)[10]。其中存儲服務(wù)中心建設(shè)是檔案信息資源共享平臺的基礎(chǔ)建設(shè),主體架構(gòu)存儲處理的核心邏輯層采用檔案信息資源共享平臺存儲服務(wù)接口模式,該接口作為外部數(shù)據(jù)存儲操作指令的傳入與內(nèi)部存儲數(shù)據(jù)處理后返回的中間橋梁,可以避免外部應(yīng)用對數(shù)據(jù)存儲系統(tǒng)的直接操作,接口調(diào)用加上授權(quán)控制也確保了平臺存儲系統(tǒng)數(shù)據(jù)操作的安全。存儲系統(tǒng)由兩大部分組成,一部分是數(shù)據(jù)存儲服務(wù)的核心部分,由數(shù)據(jù)訪問層、數(shù)據(jù)層、數(shù)據(jù)存儲處理中心組成;另一部分是輔助系統(tǒng),負(fù)責(zé)檔案信息資源共享平臺的監(jiān)控、運維,主要由平臺運行監(jiān)控系統(tǒng)、數(shù)據(jù)備份系統(tǒng)、運行監(jiān)控系統(tǒng)組成[11]??傮w架構(gòu)圖如圖1所示。

      2.2數(shù)據(jù)存儲系統(tǒng)的技術(shù)選型

      傳統(tǒng)的大數(shù)據(jù)存儲一般采用關(guān)系型數(shù)據(jù)庫。后來大數(shù)據(jù)的存儲采用分布式文檔存儲數(shù)據(jù)庫較多,常見的有MongoDB,它是一種非關(guān)系型數(shù)據(jù)庫。在性能方面,該存儲技術(shù)利用內(nèi)存資源用作緩存來換取卓越的性能,并且會自動選擇速度最快的索引來進行查詢,從而提升檔案信息數(shù)據(jù)的讀寫性能;在可擴展性方面,MongoDB支持橫向擴展,這樣就可以方便地將數(shù)據(jù)拆分至不同的服務(wù)器中,并提供自動路由技術(shù)使數(shù)據(jù)請求自動定位到正確的服務(wù)器;在數(shù)據(jù)存儲使用方面,由于MongoDB面向文檔設(shè)計,數(shù)據(jù)的獲取方式非常靈活。MongoDB在數(shù)據(jù)存儲方面也存在一些缺點,檔案信息資源數(shù)據(jù)由于其信息一致性要求高,這就要求在數(shù)據(jù)存儲過程中支持事務(wù)處理,而MongoDB的事務(wù)支撐需要在外部軟件層面進行控制,工具支持方面需要進一步完善。當(dāng)前大數(shù)據(jù)存儲采用列式數(shù)據(jù)庫,常見的如HBase,這種類型的數(shù)據(jù)庫是面向大數(shù)據(jù)環(huán)境下數(shù)據(jù)倉庫的數(shù)據(jù)分析而產(chǎn)生的,適用于批量檔案信息資源數(shù)據(jù)處理和信息檢索。為彌補列式數(shù)據(jù)庫在數(shù)據(jù)檢索方面的不足,一般會采用鍵值數(shù)據(jù)庫作為大數(shù)據(jù)存儲系統(tǒng)的存儲方案的補充。

      檔案信息資源共享平臺數(shù)據(jù)存儲采用Hadoop分布式文件系統(tǒng)(Hadoop Disle System,HDFS), HDFS是受Google文件系統(tǒng)(GFS)啟發(fā)而開發(fā)的一個分布式、可擴展的存儲系統(tǒng),最初是作為Apache Nutch搜索引擎項目的基礎(chǔ)架構(gòu)而開發(fā)的[12]。HDFS和其他的分布式文件系統(tǒng)相比,具有高度容錯性和較低的成本[13],能夠提供實時且易于使用的大數(shù)據(jù)分析和可視化環(huán)境[14]。HDFS為存儲應(yīng)用提供了將其移動到數(shù)據(jù)附近的接口,在檔案信息資源數(shù)據(jù)達到海量級別的時候,外來的請求離操作的實際數(shù)據(jù)非??拷@樣就能有效降低網(wǎng)絡(luò)阻塞的影響,提高系統(tǒng)數(shù)據(jù)的吞吐量。

      利用緩存技術(shù)可以大幅提升存儲數(shù)據(jù)的讀取效率[15],檔案信息資源共享平臺讀取數(shù)據(jù)則采用Redis緩存技術(shù),Redis是鍵值存儲類型的數(shù)據(jù)庫,可以緩存檔案信息資源共享平臺的高頻訪問大數(shù)據(jù)信息?;趦?nèi)存存儲的特性,Redis存取速度特別快,為索引提供了有效的數(shù)據(jù)結(jié)構(gòu),以加快查詢操作和響應(yīng)的速度,為多個數(shù)據(jù)結(jié)構(gòu)提供支持,使其成為頻繁訪問檔案信息資源數(shù)據(jù)的主要選擇。

      2.3平臺數(shù)據(jù)存儲系統(tǒng)的模塊整體設(shè)計

      檔案信息資源共享平臺數(shù)據(jù)存儲系統(tǒng)在實際的構(gòu)建過程中重點關(guān)注存儲資源利用率、不間斷工作時間、低延遲性、主存性能和大數(shù)據(jù)管理算法的科學(xué)性等內(nèi)容。平臺數(shù)據(jù)存儲系統(tǒng)的模塊設(shè)計主要從保障數(shù)據(jù)可靠性、使用性及安全性三個方面考慮,數(shù)據(jù)可靠性是數(shù)據(jù)存儲的核心問題,也是數(shù)據(jù)有效的基本保障。在數(shù)據(jù)使用性方面,需要支持NAS、SAN等存儲網(wǎng)絡(luò),并提供接口供外部處理,確保系統(tǒng)具有廣泛的擴展性、適應(yīng)性和兼容性。在保障數(shù)據(jù)安全性方面,需要考慮訪問授權(quán)認(rèn)證、內(nèi)外網(wǎng)訪問隔離等管理功能。綜合以上存儲系統(tǒng)設(shè)計的基本要求,檔案信息資源共享平臺的存儲系統(tǒng)需要考慮數(shù)據(jù)接入存儲層、配置運維中心、備份監(jiān)控系統(tǒng)的設(shè)計工作。

      (1)平臺數(shù)據(jù)存儲系統(tǒng)的數(shù)據(jù)訪問與存儲層設(shè)計

      檔案信息資源共享平臺數(shù)據(jù)存儲系統(tǒng)的數(shù)據(jù)訪問與存儲層主要負(fù)責(zé)檔案信息數(shù)據(jù)的新增、修改、刪除以及查詢業(yè)務(wù)。為了保證檔案信息數(shù)據(jù)的完整性,需要對數(shù)據(jù)存儲操作提供事務(wù)管理操作,即針對每次請求產(chǎn)生的關(guān)聯(lián)操作,必須一次性完成,否則,關(guān)聯(lián)操作全部回滾并給出數(shù)據(jù)處理失敗的標(biāo)志。另外需要考慮檔案信息數(shù)據(jù)的并發(fā)問題,隨著檔案信息資源共享平臺用戶的不斷增加,對數(shù)據(jù)存儲并發(fā)處理需要制定相應(yīng)策略[16],即在修改更新時需要二次檢查當(dāng)前讀取的數(shù)據(jù)是否被更新,如果被修改則本次更新失敗。數(shù)據(jù)訪問層實現(xiàn)了兩大功能,一是對數(shù)據(jù)訪問接入層進行負(fù)載均衡;二是把訪問數(shù)據(jù)的請求轉(zhuǎn)發(fā)到數(shù)據(jù)所在的數(shù)據(jù)層設(shè)備。數(shù)據(jù)存儲層的目的就是存儲數(shù)據(jù),存儲介質(zhì)可以支持內(nèi)存或SSD。在數(shù)據(jù)存儲層的實現(xiàn)中需要提供一個同步模塊,同步模塊是為實現(xiàn)不同服務(wù)之間的數(shù)據(jù)同步;讀寫服務(wù)用來處理用戶的讀寫請求;運維工具用于切換服務(wù)器、重啟服務(wù)器、維護服務(wù)器等運維操作。該模塊的設(shè)計如圖2所示。

      (2)平臺數(shù)據(jù)存儲系統(tǒng)的配置運維中心

      檔案信息資源共享平臺數(shù)據(jù)存儲系統(tǒng)的配置運維涉及三個方面,即配置中心、配額中心和運維中心。配置中心涉及存儲系統(tǒng)模塊的全局資源配置,并負(fù)責(zé)將配置好的資源下發(fā)到指定用戶等,該中心只針對超級管理員角色開放,為了保證系統(tǒng)安全,需要對進入該模塊的用戶進行雙重驗證并實時備份與記錄操作日志,以便于后期跟蹤。配額中心則對檔案信息資源共享平臺不同業(yè)務(wù)模塊的容量、流量、CPU等資源進行配額管理,該模塊主要是針對平臺用戶所擁有的資源能力進行控制,并根據(jù)用戶及數(shù)據(jù)的變化做出及時的調(diào)整。平臺的數(shù)據(jù)日常處理工作由運維中心負(fù)責(zé),該模塊主要功能是執(zhí)行數(shù)據(jù)存儲中心運維命令,平臺運維管理系統(tǒng)的使用者是系統(tǒng)運維人員,可以方便地進行數(shù)據(jù)業(yè)務(wù)管理和運維操作,并能查看系統(tǒng)運行狀況和業(yè)務(wù)運營數(shù)據(jù)。隨著自動化與人工智能技術(shù)的發(fā)展,未來的日常運維將會由AI機器人自動完成。配置運維中心結(jié)構(gòu)如圖3所示。

      (3)平臺數(shù)據(jù)存儲系統(tǒng)的備份監(jiān)控管理系統(tǒng)

      檔案信息資源共享平臺數(shù)據(jù)存儲系統(tǒng)的備份監(jiān)控管理系統(tǒng)負(fù)責(zé)數(shù)據(jù)備份與恢復(fù),支持檔案信息數(shù)據(jù)全量備份與增量備份需求,并全面兼容不同類型的檔案信息資源數(shù)據(jù),實現(xiàn)對系統(tǒng)數(shù)據(jù)有效保護,支持同區(qū)域異地災(zāi)備。日志中心會記錄所有用戶系統(tǒng)操作日志,該中心所涉及的數(shù)據(jù)需被設(shè)置成保護模式,異常操作日志不可以刪除。任務(wù)中心通常以定期任務(wù)的方式出現(xiàn),它主要管理和調(diào)度檔案信息資源數(shù)據(jù)備份與恢復(fù)任務(wù)的執(zhí)行。監(jiān)控系統(tǒng)對平臺的關(guān)鍵信息和運行狀況進行上報和分析,對異常情況進行監(jiān)控和告警。其中,日常上報是對平臺的運行狀態(tài)進行上報;補充上報是對日常上報信息的一個修飾,可上報更多維度的信息。平臺存儲系統(tǒng)備份監(jiān)控管理模塊如圖4所示。

      3檔案信息資源共享平臺數(shù)據(jù)存儲系統(tǒng)性能測試

      3.1測試環(huán)境搭建

      性能測試硬件環(huán)境由處于同一局域網(wǎng)內(nèi)的兩臺HP DL388Gen10 HPE 2U機架式服務(wù)器構(gòu)成,操作系統(tǒng)環(huán)境則采用主流的Windows Server 2016,通過Visual Studio 2019新建一個測試項目,主要內(nèi)容包括數(shù)據(jù)存儲效率對比分析。

      3.2測試方法及關(guān)鍵代碼

      在測試服務(wù)器上開啟IIS服務(wù)并運行使用C#開發(fā)的文件讀寫WebAPI,使用另一臺配置相同的服務(wù)器在局域網(wǎng)內(nèi)遠(yuǎn)程訪問此WebAPI。為保證測試數(shù)據(jù)的準(zhǔn)確性,每種數(shù)據(jù)量級的測試采用三次重復(fù)測試,取平均值的方式作為測試結(jié)果數(shù)據(jù)。具體測試核心代碼見圖5。

      3.3測試過程

      猜你喜歡
      數(shù)據(jù)存儲檔案信息大數(shù)據(jù)
      醫(yī)院病歷檔案信息管理及應(yīng)用探析
      關(guān)于電力企業(yè)檔案信息現(xiàn)代化管理及對策的探析
      淺談電力大數(shù)據(jù)平臺關(guān)鍵技術(shù)研究與應(yīng)用
      淺談檔案信息利用過程中的知識產(chǎn)權(quán)保護問題
      開源數(shù)據(jù)庫數(shù)據(jù)存儲的實現(xiàn)路徑分析
      基于Android開發(fā)的APP數(shù)據(jù)存儲研究
      哈希算法在物聯(lián)網(wǎng)數(shù)據(jù)存儲中的應(yīng)用
      檔案信息資源開發(fā)利用及圖書、情報、檔案一體化探析
      人間(2016年24期)2016-11-23 17:54:13
      基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
      科技視界(2016年20期)2016-09-29 10:53:22
      曲麻莱县| 南充市| 水城县| 洪泽县| 平山县| 湟源县| 双柏县| 阆中市| 穆棱市| 星座| 繁昌县| 沂南县| 民勤县| 来宾市| 原阳县| 江津市| 宿州市| 磐石市| 丹巴县| 绥滨县| 定州市| 合肥市| 通渭县| 孙吴县| 红河县| 全椒县| 明星| 宁城县| 乌什县| 吉首市| 张家口市| 车险| 长岭县| 绥化市| 白朗县| 浦城县| 临朐县| 临湘市| 甘谷县| 普安县| 永寿县|