文/山東省禹城市圖書館 黃婷婷
圖書館數(shù)據(jù)存儲(chǔ)中的問題及措施分析
文/山東省禹城市圖書館 黃婷婷
數(shù)字圖書館是采用數(shù)字技術(shù)構(gòu)建的圖書館,具有儲(chǔ)量豐富、查閱方便、不受環(huán)境影響等多種優(yōu)點(diǎn),但是數(shù)字化圖書館是傳統(tǒng)圖書館的信息化,在儲(chǔ)存以及運(yùn)作過程中會(huì)遇到很多問題。本文對(duì)圖書館疏浚存儲(chǔ)過程中的問題進(jìn)行分析,并且就相對(duì)應(yīng)的解決措施進(jìn)行研究討論。
圖書館;數(shù)字化;數(shù)據(jù)存儲(chǔ)
在數(shù)據(jù)圖書館構(gòu)建過程中,數(shù)據(jù)的存儲(chǔ)以及數(shù)據(jù)的保存,對(duì)于圖書館而言是關(guān)鍵的過程?,F(xiàn)在數(shù)字化圖書館越來越普遍,相對(duì)與傳統(tǒng)圖書館,數(shù)字化圖書館表現(xiàn)出數(shù)據(jù)量龐大、存儲(chǔ)周期長、數(shù)據(jù)類型多樣、高度的可靠性和安全性的特點(diǎn)。不過規(guī)模的圖書館以及用戶的特性,對(duì)于數(shù)據(jù)存儲(chǔ)的具有重要的影響,因此在圖書館數(shù)據(jù)存儲(chǔ)中,需要選用適宜的數(shù)據(jù)存儲(chǔ)方法,并且采用多種數(shù)據(jù)存儲(chǔ)技術(shù),以保障數(shù)據(jù)的高效存儲(chǔ)與管理。
目前數(shù)據(jù)圖書館的有多種存儲(chǔ)方式,主要的有以服務(wù)器結(jié)構(gòu)為主導(dǎo)的SAN方案和以專用服務(wù)器為主導(dǎo)的NAS方案:1.SAN可以使服務(wù)器與存儲(chǔ)裝置的帶寬保持高效,而且這種方式數(shù)據(jù)備份以及恢復(fù)速度快,能夠用于廣泛的資源共享,但是安裝相對(duì)復(fù)雜,而且成本較高;2. NAS防范通過SCSI與網(wǎng)絡(luò)連接,可以提升文件服務(wù)器的速度,而且成本較低,一些廠商采用大容量硬盤以增加存儲(chǔ)容量,這種方案節(jié)省空間,即插即用。兩種方案各有優(yōu)缺點(diǎn),其中SAN主要用于存儲(chǔ)量大的圖書館,而NAS用于中小型圖書館的建設(shè),為了保障圖書館數(shù)據(jù)存儲(chǔ)的效率以及成本,應(yīng)該選擇合適的額存儲(chǔ)方案用于市局存儲(chǔ)。
(一)存儲(chǔ)容量不足
現(xiàn)代圖書館的功能齊全,而且借閱量大,圖書資源豐富,隨著圖書館的發(fā)展與使用頻率增加以及組著對(duì)圖書館的要求不斷加深,會(huì)導(dǎo)致圖書館的數(shù)據(jù)數(shù)據(jù)容量增加,導(dǎo)致現(xiàn)有的存儲(chǔ)容量不足。為了解決存儲(chǔ)容量不足,可以采用多種技術(shù)以提升圖書館數(shù)據(jù)存儲(chǔ)效率。
1.利用壓縮技術(shù)提高空間利用率。圖書館數(shù)據(jù)存儲(chǔ)過程中,因?yàn)閮?nèi)部文件存在大量的相似性,通過對(duì)現(xiàn)有的數(shù)據(jù)進(jìn)行對(duì)比分析,采用壓縮技術(shù)刪除冗余數(shù)據(jù),并且對(duì)數(shù)據(jù)進(jìn)行壓縮。在相關(guān)的研究中,這種方式能夠節(jié)約大量空間,使得總數(shù)據(jù)量只有原始數(shù)據(jù)的4%。這種壓縮技術(shù)的基本原理是,通過對(duì)新文件與已經(jīng)存在的文件進(jìn)行Delta編碼,并且將這種編碼存儲(chǔ)的系統(tǒng)中,從而實(shí)現(xiàn)數(shù)據(jù)的壓縮。除了在數(shù)據(jù)存儲(chǔ)過程中采取壓縮數(shù)據(jù)之外,還能夠?qū)ΜF(xiàn)有的資源進(jìn)行ZIP壓縮,節(jié)約傳輸空間,提升用戶下載資源的速度,提升應(yīng)用程序的遠(yuǎn)程使用效率。
2.利用消重技術(shù)提高空間利用率。在圖書館數(shù)據(jù)存儲(chǔ)過程中,會(huì)因?yàn)閭浞莶僮鲗?dǎo)致大量的數(shù)據(jù)重復(fù),雖然備份是圖書館的必要操作,但是大量的數(shù)據(jù)重復(fù)會(huì)使存儲(chǔ)空間率降低,采用時(shí)間數(shù)據(jù)消重和空間數(shù)據(jù)消重技術(shù),能夠消除重復(fù)數(shù)據(jù),從而提升空間利用率。目前的圖書館數(shù)據(jù)存儲(chǔ)的特點(diǎn)是,數(shù)據(jù)相對(duì)穩(wěn)定,需要長期保存,因此可以采用時(shí)間消重技術(shù)。消重技術(shù)通過將數(shù)據(jù)文獻(xiàn)分割成數(shù)據(jù)塊,并且根據(jù)數(shù)據(jù)塊進(jìn)行Hash查找,最終通過消重而達(dá)到節(jié)省空間的目的。
(二)數(shù)據(jù)備份問題域解決措施
為了保障圖書館數(shù)據(jù)的長期保存,使圖書數(shù)據(jù)以及客戶資料能夠長期保存,因此對(duì)于存儲(chǔ)系統(tǒng)的要求較高。為了保障圖書館數(shù)據(jù)存儲(chǔ)的可靠性與恢復(fù)能力,需要采用數(shù)據(jù)備份功能,從而保證數(shù)據(jù)的恢復(fù)速度與能力。但是因?yàn)閿?shù)字圖書館的數(shù)量龐大,因此在對(duì)數(shù)據(jù)空間的存儲(chǔ)與備份中,會(huì)因?yàn)閿?shù)據(jù)量大而導(dǎo)致備份時(shí)間長。
1.RAID陣列鏡像技術(shù)。采用RAID陣列鏡像技術(shù)是保障數(shù)據(jù)備份穩(wěn)定性與速率的良好技術(shù),這種技術(shù)能夠保證當(dāng)一個(gè)硬盤出現(xiàn)問題時(shí),不會(huì)使整個(gè)系統(tǒng)陷入危機(jī),任何足見都能夠方便替換。其中冗余技術(shù)REID4是一種經(jīng)濟(jì)而且有效的方法,通過冗余盤的設(shè)置,使數(shù)據(jù)使用過程中能夠及時(shí)找到故障盤,從而實(shí)現(xiàn)換盤。
2.停機(jī)備份。通過定時(shí)的停機(jī)備份,從而進(jìn)行數(shù)據(jù)的冷備份,能夠?qū)⑾到y(tǒng)中的所有數(shù)據(jù)進(jìn)行有效的備份,而且傳輸?shù)臄?shù)據(jù)塊,不會(huì)對(duì)系統(tǒng)以及數(shù)據(jù)造成損耗。通過新建同名實(shí)例,可以將所有的數(shù)據(jù)文件進(jìn)行備份。
(三)存儲(chǔ)空間利用率低的問題域解決措施
在對(duì)現(xiàn)有的高校的數(shù)字圖書館進(jìn)行的調(diào)查中,許多的使用率不到50%,使圖書館的空間利用率能夠進(jìn)一步提升。為了保障圖書館的工作,高校圖書館管理員采用碎片整理來提升空間利用率,但是在針對(duì)圖書館的海量數(shù)據(jù)操作時(shí),會(huì)耗費(fèi)大量的時(shí)間,而且這種方法的效率較低。
1.自動(dòng)精簡配置。采用自動(dòng)精簡配置技術(shù),能夠有效的提升存儲(chǔ)空間的利用效率。相對(duì)于傳統(tǒng)配置方案,這種技術(shù)能夠保證足夠的使用效率。在相關(guān)的研究中,采用自動(dòng)精簡配置技術(shù),能夠提升100%的空間利用率,而且該方案不許手動(dòng)擴(kuò)展,采用虛擬化集成技術(shù),就能夠?qū)崿F(xiàn)現(xiàn)有資源的超量配置。
數(shù)字圖書館是未來圖書館的主要趨勢,無論數(shù)字圖書館的技術(shù)怎么變化,數(shù)據(jù)的存儲(chǔ)與管理都是圖書館的關(guān)鍵技術(shù),采用有效的存儲(chǔ)技術(shù),并且在存儲(chǔ)中,采用合理的技術(shù)提升存儲(chǔ)空間利用率、減少備份時(shí)間,是保障圖書館存儲(chǔ)效率,方便用戶使用的重要手段。對(duì)于圖書館進(jìn)行集中存儲(chǔ)與管理,是適應(yīng)未來需求,提升我國圖書館競爭力的重要保證。
[1]李雷定,馬鐵華,尤文斌.常用數(shù)據(jù)無損壓縮算法分析[J].電子設(shè)計(jì)工程,2009,17(1):49-50,53.
[2]朱立谷.重復(fù)數(shù)據(jù)刪除技術(shù)解析[N].中國計(jì)算機(jī)報(bào),2007-07-02(C07).
[3]王莉莉.基于DELTA壓縮算法的大型數(shù)據(jù)庫災(zāi)備關(guān)鍵技術(shù)研究[D].成都:電子科技大學(xué), 2011.