文/海南醫(yī)學(xué)院 云雅
隨著數(shù)字化檔案建設(shè)的不斷推進(jìn),大數(shù)據(jù)與云平臺(tái)技術(shù)在數(shù)字檔案體系建設(shè)中得到廣泛應(yīng)用。其中Hadoop系統(tǒng)是當(dāng)前數(shù)字化檔案建設(shè)中較為常用的一種數(shù)據(jù)存儲(chǔ)與處理技術(shù)。特別是這一系統(tǒng)技術(shù)中的云平臺(tái)技術(shù)特征,對(duì)于數(shù)字化檔案管理與應(yīng)用起到了不可忽視的作用。因此研究者在2016年海南省哲學(xué)社會(huì)科學(xué)規(guī)劃課題“基于分布式系統(tǒng)的檔案資源集成平臺(tái)模式研究”中,開展了Hadoop云平臺(tái)支持下的檔案共享體系構(gòu)建研究,并將其作為其中研究成果之一,為Hadoop數(shù)字化檔案系統(tǒng)建設(shè)提供理論支持。
在當(dāng)前的數(shù)字化檔案管理中,云平臺(tái)共享是其主要的共享模式。但是在實(shí)際的云平臺(tái)共享過程中,管理者也遇到了部分問題。為了解決這些問題,管理與技術(shù)人員采用了Hadoop技術(shù)進(jìn)行了應(yīng)對(duì)處理。
(一)檔案數(shù)量與類型龐大復(fù)雜。數(shù)字化檔案管理與共享是建立在大數(shù)據(jù)模式下的一種新型檔案管理模式。而大數(shù)據(jù)技術(shù)應(yīng)用的特點(diǎn)就是數(shù)據(jù)信息的復(fù)雜與龐大。單就數(shù)字化檔案管理而言,大數(shù)據(jù)支持下的檔案無論是數(shù)量還是種類都超過了傳統(tǒng)檔案。就數(shù)量而言,大數(shù)據(jù)檔案已經(jīng)達(dá)到了PB級(jí)別;就種類而言,數(shù)字化檔案內(nèi)部包括了文字、視頻、圖片、音頻等各種類型。因此更好地處理這些體積龐大、種類復(fù)雜的檔案文件,最終實(shí)現(xiàn)云平臺(tái)共享,就成為了檔案技術(shù)研究的重要內(nèi)容。而在這一過程中,Hadoop系統(tǒng)技術(shù)的應(yīng)用很好地解決了這一問題。主要是因?yàn)檫@一技術(shù)具有以下兩個(gè)優(yōu)勢(shì):1.龐大的數(shù)據(jù)儲(chǔ)存能力。Hadoop系統(tǒng)采用了HDFS存儲(chǔ)系統(tǒng),可以實(shí)現(xiàn)海量的數(shù)據(jù)信息存儲(chǔ);而其數(shù)據(jù)處理系統(tǒng)也是PB級(jí)別的處理模式,進(jìn)而解決了檔案數(shù)據(jù)龐大的問題。2.集成化數(shù)據(jù)庫系統(tǒng)的應(yīng)用。由于Hadoop系統(tǒng)采用的是集成化數(shù)據(jù)庫系統(tǒng),因此其數(shù)據(jù)存儲(chǔ)采用了內(nèi)部共享模式,可以實(shí)現(xiàn)檔案存儲(chǔ)中不同數(shù)據(jù)庫內(nèi)容的有效共享,避免出現(xiàn)文件格式間檢索困難的問題。
(二)需求針對(duì)性服務(wù)共享困難。針對(duì)性服務(wù)是當(dāng)前數(shù)字檔案服務(wù)的主要發(fā)展方向,也是技術(shù)支持的主要對(duì)象。但是在數(shù)字化檔案云平臺(tái)共享中,如何針對(duì)客戶需求開展針對(duì)性共享服務(wù)一直是技術(shù)發(fā)展的難題。為了解決這一問題,技術(shù)人員結(jié)合云平臺(tái)共享特征,利用Hadoop系統(tǒng)技術(shù)開展了技術(shù)應(yīng)對(duì)研究。
(三)數(shù)據(jù)資源共享問題。隨著大數(shù)據(jù)時(shí)代的來臨,檔案信息資源共享已經(jīng)不再集中于單一的檔案數(shù)據(jù)系統(tǒng),而是建立在云平臺(tái)整體環(huán)境中。在這一過程中,如何實(shí)現(xiàn)不同檔案數(shù)據(jù)系統(tǒng)資源共享,形成云平臺(tái)下的資源共享模式,就成為了檔案共享研究的重要內(nèi)容。Hadoop系統(tǒng)正是在這一技術(shù)要求下,由谷歌開發(fā)研制的一個(gè)具有較強(qiáng)伸縮性,同時(shí)運(yùn)行穩(wěn)定的數(shù)據(jù)系統(tǒng)。因此在這一系統(tǒng)運(yùn)行中,既可以通過云平臺(tái)與其他檔案系統(tǒng)形成大數(shù)據(jù)交換,同時(shí)完成高效的數(shù)據(jù)處理過程,形成穩(wěn)定的檔案資源共享。
Hadoop系統(tǒng)技術(shù)的應(yīng)用對(duì)于檔案資源的云共享平臺(tái)建設(shè)起到了重要的技術(shù)支持作用。為此技術(shù)人員以Hadoop系統(tǒng)為基礎(chǔ),開展了共享平臺(tái)設(shè)計(jì)。
(一)系統(tǒng)功能框架設(shè)置。在共享系統(tǒng)設(shè)計(jì)開始前,設(shè)計(jì)者首先需要根據(jù)共享要求設(shè)置其基本功能子系統(tǒng),形成Hadoop平臺(tái)的云服務(wù)的整體框架。在實(shí)際的檔案共享系統(tǒng)中,其基本功能系統(tǒng)包括了以下幾個(gè)組成部分:一是系統(tǒng)控制功能。二是檔案信息存儲(chǔ)系統(tǒng)。三是檔案文件資源共享系統(tǒng)。四是檔案查找與使用權(quán)限管理系統(tǒng)。五是安全以及檔案資源備份與恢復(fù)系統(tǒng)等功能系統(tǒng)。在這些功能系統(tǒng)的設(shè)置中,技術(shù)人員的主要工作包括了以下幾個(gè)內(nèi)容:1.系統(tǒng)設(shè)置中首先需要通過Hadoop系統(tǒng)對(duì)已有各數(shù)據(jù)庫內(nèi)的數(shù)字檔案信息進(jìn)行整合。2.通過MapReduce處理技術(shù)將已有的資源集中到云平臺(tái)服務(wù)架構(gòu)中進(jìn)行管理,實(shí)現(xiàn)云平臺(tái)下的檔案資源的儲(chǔ)存與分析處理。3.建立網(wǎng)絡(luò)與單機(jī)并存的控制系統(tǒng),進(jìn)而在網(wǎng)絡(luò)平臺(tái)與控制主機(jī)都可以實(shí)現(xiàn)全部檔案資源的讀寫、查詢、備份恢復(fù)等功能。4.對(duì)于具有保密性質(zhì)或涉及個(gè)人因素的檔案內(nèi)容,系統(tǒng)需要利用秘鑰與口令設(shè)置管理權(quán)限,避免檔案泄密問題的出現(xiàn)。5.根據(jù)系統(tǒng)保密等級(jí),為網(wǎng)絡(luò)云平臺(tái)系統(tǒng)設(shè)置相對(duì)應(yīng)的安全管理權(quán)限,確保云平臺(tái)中檔案安全性。
(二)設(shè)計(jì)主要流程。檔案共享平臺(tái)設(shè)計(jì)中,技術(shù)人員需要根據(jù)Hadoop系統(tǒng)中的數(shù)據(jù)與文件處理方式合理設(shè)置設(shè)計(jì)流程,進(jìn)而確保共享平臺(tái)使用的合理性。在系統(tǒng)設(shè)計(jì)中其主要的流程包括了以下幾點(diǎn):1.存儲(chǔ)功能設(shè)置。在云平臺(tái)共享系統(tǒng)中,Hadoop采用的是自身攜帶的HDFS系統(tǒng)。在實(shí)際應(yīng)用中這一系統(tǒng)使用的是抽象化的塊存儲(chǔ)結(jié)構(gòu)。這種結(jié)構(gòu)使得系統(tǒng)存儲(chǔ)不會(huì)受到云平臺(tái)中任何節(jié)點(diǎn)磁盤大小的限制,極大地提高了檔案數(shù)據(jù)信息儲(chǔ)存數(shù)量。在實(shí)際的存儲(chǔ)設(shè)置中,為了提高檔案數(shù)據(jù)管理的有序性與安全性,實(shí)現(xiàn)Hadoop高效的錯(cuò)容功能,其元數(shù)據(jù)信息與文件塊應(yīng)采用分開存儲(chǔ)模式。同時(shí)在HDFS數(shù)據(jù)儲(chǔ)存中,設(shè)置者應(yīng)建立默認(rèn)文件復(fù)制狀態(tài),并將復(fù)制文件儲(chǔ)存在儲(chǔ)存集群不同節(jié)點(diǎn)上。這種復(fù)制文件儲(chǔ)存模式可以在云平臺(tái)某個(gè)節(jié)點(diǎn)故障文件遺失的情況下,利用NameNode獲取元數(shù)據(jù)信息,進(jìn)而確保檔案元數(shù)據(jù)安全。2.檔案讀取功能設(shè)置。在檔案云平臺(tái)讀取中,Hadoop主要是通過讀取NameNode中存儲(chǔ)的編輯日志與鏡像空間內(nèi)容,獲得檔案內(nèi)容。因此在功能設(shè)置中,技術(shù)人員人員應(yīng)確保系統(tǒng)啟動(dòng)過程中,NameNode可以在動(dòng)態(tài)狀態(tài)下重建以上信息,進(jìn)而確保檔案讀取者可以可以通過NameNode得到所需的元數(shù)據(jù)信息,進(jìn)而通過節(jié)點(diǎn)獲取到檔案文件。同時(shí)在云平臺(tái)檔案數(shù)據(jù)讀取中,一般都是采用Java Api接口,利用Java.net.URL打開所需數(shù)據(jù)流,最終通過Filesystem指定路徑對(duì)象,完成檔案的讀取與重載控制。3.文件查詢功能設(shè)置。Hadoop支持下的檔案云平臺(tái)是通過HIVE數(shù)據(jù)倉庫中的Java Api接口完成所需的查詢工作。這一查詢功能主要包括了原屬信息、文件目錄結(jié)構(gòu)以及檔案目錄匹配等各種查詢功能。其主要的查詢方法設(shè)置包括了以下幾類:一是檔案元數(shù)據(jù)查詢,主要是利用Filestatus進(jìn)行操作。二是列出目錄文件信息查詢,主要是利用liststatus方法進(jìn)行操作。三是通過日志文件,利用大數(shù)據(jù)挖掘模式對(duì)云平臺(tái)海量數(shù)據(jù)進(jìn)行目錄篩選查詢。4.訪問權(quán)限功能設(shè)置。從Hadoop2.0系統(tǒng)開始,系統(tǒng)中增加了全新的安全與授權(quán)機(jī)制(Simple和Kerberos)。因此管理者可以根據(jù)檔案的安全級(jí)別,建立起相應(yīng)的安全訪問授權(quán)功能。如金融檔案等具有較高隱私性、保密性的檔案管理中,系統(tǒng)超級(jí)管理員都應(yīng)具有設(shè)置訪問權(quán)限的權(quán)利與職責(zé)。一般訪問者檔案使用權(quán)限包括了查閱、拷貝、修改等不同內(nèi)容。同時(shí)對(duì)于訪問安全要求較高的檔案內(nèi)容應(yīng)設(shè)置訪問者的專用秘鑰或授權(quán)令牌,確保云平臺(tái)下檔案的安全性能。
隨著Hadoop系統(tǒng)在檔案云平臺(tái)管理中的不斷應(yīng)用,其在檔案共享中的技術(shù)支持作用越來越明顯。因此系統(tǒng)設(shè)置研究者,結(jié)合檔案云共享平臺(tái)中的儲(chǔ)存、讀取、查詢以及安全授權(quán)四個(gè)主要功能,開展了Hadoop支持下的系統(tǒng)體系構(gòu)建研究。