張 媛
(長安大學圖書館,陜西 西安 710064)
數(shù)字圖書館是一種館藏以數(shù)字化格式存儲可以利用電腦訪問的圖書館,與傳統(tǒng)圖書館相比,最大的不同之一在于存儲方式。傳統(tǒng)圖書館存儲的是紙質(zhì)資源,這一模式使它的規(guī)模必將受物理空間的束縛。數(shù)字圖書館存儲的是電子版化的紙質(zhì)資源,更便于讀者檢索瀏覽,所以越來越受到讀者的喜愛。
隨著電子圖書、期刊、論文、多媒體等各類資源的不斷豐富及海量增長,數(shù)字圖書館的存儲規(guī)模也在不斷擴大,如何更有效地管理這些資源,值得深入探討。
數(shù)字圖書館初期建設工作僅停留在對館藏資源的數(shù)字化加工及全文檢索等方面,數(shù)據(jù)容量并不是很大,一般的服務器容量就可以滿足需求,并不需要使用大容量的存儲設備。隨著讀者對信息資源需求的增長,購買現(xiàn)成的數(shù)字資源成為必然趨勢,靠單臺服務器來存儲顯然無法勝任,DAS就這樣率先登上了圖書館的歷史舞臺。
DAS(Direct Attached Storage)即直接外掛存儲,是最先被采用的網(wǎng)絡存儲系統(tǒng)。在圖1中,I/O請求直接從服務器發(fā)送到存儲設備,存儲設備通過SCSI電纜或FC光纖直接和服務器相連。這種直連方式,解決了單臺服務器的存儲空間擴展、高性能傳輸需求的問題,并且單臺外置存儲系統(tǒng)的容量已經(jīng)從不到1TB發(fā)展到了2TB,隨著大容量硬盤的推出,單臺外置存儲系統(tǒng)容量還會上升。由于早期的網(wǎng)絡比較簡單,而DAS的初始費用也比較低,所以直連式存儲很快得到了發(fā)展。
圖1 DAS系統(tǒng)架構(gòu)
目前DAS架構(gòu)在圖書館中的應用不是很多,一般用于數(shù)據(jù)量不是很大的應用中,從趨勢上看,DAS仍然會作為一種存儲模式,繼續(xù)得到應用。
隨著網(wǎng)絡及學科建設的發(fā)展,各圖書館的數(shù)字應用不斷增多,這種單服務器單存儲的DAS架構(gòu)已不能滿足多服務器設備共享的需求,而且剩余容量的再分配困難、可擴展性差、連接距離有限及無法集中管理存儲等弊端進一步凸顯,于是相繼出現(xiàn)了NAS和SAN等其他存儲技術。
NAS(Network Attached Storage)即網(wǎng)絡連接存儲,主要用于網(wǎng)絡文件共享。在圖2中,存儲部件通過RAID控制器做好RAID組并根據(jù)需求分配大小不同的邏輯卷,簡單地配置IP地址后,局域網(wǎng)中的用戶即可通過TCP/IP協(xié)議與存儲部件建立連接并通過文件存取協(xié)議如NFS、CIFS等共享存取邏輯卷中的數(shù)據(jù)。這種連接方式支持各種操作系統(tǒng),而且在不同的網(wǎng)絡環(huán)境中使用時,無需對網(wǎng)絡環(huán)境進行任何的修改,因此能滿足特定用戶的需要。
圖2 NAS系統(tǒng)架構(gòu)
目前NAS架構(gòu)在圖書館中的應用并不多見,基于其文件存儲的特性,很適合為圖書館的網(wǎng)站服務器和FTP服務器提供存儲。對那些希望降低存儲成本但又希望數(shù)據(jù)存儲具有高性能和高可靠性,同時有一定系統(tǒng)擴展要求的圖書館來說,是一個很好的選擇。
NAS系統(tǒng)成本較低,易于實現(xiàn)文件共享,但由于它采用文件請求的方式,會占用主機大量的CPU資源,文件操作的延遲相當嚴重,并且不適合那些不采用文件系統(tǒng)進行存儲管理的系統(tǒng),如某些數(shù)據(jù)庫,所以SAN技術應運而生。
圖3 SAN系統(tǒng)架構(gòu)
SAN(Storage Area Network)存儲區(qū)域網(wǎng)絡,是一種將連接設備、存儲設備和接口集成在一個高速網(wǎng)絡中的技術。在圖3中,SAN本身是一個獨立網(wǎng)絡,它與外部局域網(wǎng)的應用是分離的,存儲數(shù)據(jù)流不會占用業(yè)務網(wǎng)絡帶寬,所有的數(shù)據(jù)在高速、高帶寬的網(wǎng)絡中進行傳輸。由于SAN存儲實現(xiàn)的是直接對物理硬件的塊級存儲訪問,極大地提高了存儲的性能和升級能力,因此一面世就受到了極大追捧。
目前常用的SAN解決方案主要分為FCSAN和IPSAN兩大類,關于這兩類架構(gòu)的應用比較一直爭論不休。FCSAN一直以它的安全、穩(wěn)定、快捷著稱,而IPSAN在保護現(xiàn)有網(wǎng)絡的基礎上為用戶提供了跨廣域網(wǎng)的數(shù)據(jù)交互和存儲的能力,且有較好的兼容和擴展性,還有管理與維護方便等特性,因此也廣受關注。就圖書館的應用而言,雖然IPSAN也有一定應用,但大多仍使用FCSAN架構(gòu)。
DAS、NAS、SAN不同架構(gòu)的應用,使數(shù)字圖書館的存儲系統(tǒng)形成一個個數(shù)據(jù)孤島,如何在現(xiàn)有的環(huán)境下對現(xiàn)有設備進行整合,成為許多數(shù)據(jù)中心急于解決的問題,而存儲虛擬化技術的出現(xiàn)使這一問題迎刃而解。
圖4 SV系統(tǒng)架構(gòu)
SV(Storage Virtualization)存儲虛擬化,是通過虛擬卷映射、流數(shù)據(jù)定位、數(shù)據(jù)快照、虛擬機等技術實現(xiàn)異構(gòu)存儲設備的統(tǒng)一管理以及存儲位置無關性而提出的,目的在于屏蔽存儲管理中的一系列復雜問題而向用戶提供簡單透明統(tǒng)一的存儲訪問模式。在圖4中,存儲虛擬化將底層存儲設備如DAS、NAS、SAN等異構(gòu)的存儲系統(tǒng)虛擬化成一個大的存儲池,進行統(tǒng)一管理;根據(jù)服務器層各服務器需要按需分配存儲空間,屏蔽存儲設備硬件的特殊性,而只保留其統(tǒng)一的邏輯特性,從而實現(xiàn)了異構(gòu)存儲系統(tǒng)的集中管理。此外,存儲虛擬化技術在簡化系統(tǒng)管理及增強存儲平臺的可靠性方面也表現(xiàn)突出。
經(jīng)費緊缺使圖書館的設備淘汰更新?lián)Q代比較慢,很容易造成一個數(shù)據(jù)中心有不同品牌的服務器和不同架構(gòu)的存儲。不同品牌產(chǎn)品的兼容性問題使設備的使用效率低下。存儲虛擬化不僅可以整合異構(gòu)平臺,充分利用原有設備,解決數(shù)據(jù)容量增長擴充、硬件升級時面臨的成本限制問題,而且能實現(xiàn)按需分配存儲資源,合理利用數(shù)據(jù)存儲空間,極大地提高各種硬件系統(tǒng)資源的使用效率。同時,存儲虛擬化可以提供數(shù)據(jù)分層存儲,將不同讀寫速度的存儲介質(zhì)分為不同級別,比如,熱點數(shù)據(jù)保存在存取速度快的物理設備中,這樣就充分保障了硬件設備效率最大化,使圖書館的現(xiàn)有設備達到物盡其用的效果。
不同廠商、不同架構(gòu)的存儲設備的配置不同,不同品牌的服務器安裝不同操作系統(tǒng)連接存儲設備的配置也不同,設備越多,管理難度越大。存儲虛擬化技術使整個服務器、存儲系統(tǒng)的平臺管理變得集中、簡單;同時,設備集中化和標準化不僅使圖書館技術管理員減少不必要的麻煩,還為實際運行環(huán)境帶來更多的價值,各種設備的配置管理、數(shù)據(jù)安全管理、業(yè)務連續(xù)性管理、容量管理、運行管理、性能管理等等都可以集中化。從此,數(shù)字圖書館的設備管理人員可以從每年的設備維護、管理、擴容、系統(tǒng)升級的煩惱中解脫出來。
在圖書館的實際應用中,可能出現(xiàn)更換存儲基礎設施等情況,存儲設備必須離線,導致業(yè)務間斷。存儲虛擬化不僅提供硬件資源的集中管理,還允許故障設備在線更換,保障數(shù)據(jù)不間斷讀取,實現(xiàn)業(yè)務的不間斷運行。另外,傳統(tǒng)的數(shù)據(jù)集中管理易造成設備I/O負載過重,并存在單點故障的危險,而通過存儲虛擬化可以實現(xiàn)I/O負載均衡,提高存儲效率,降低設備性能的局限性。
目前,部分圖書館已實行了存儲虛擬化,大多仍處于調(diào)研觀望階段。隨著服務器、桌面虛擬化在圖書館的應用不斷增多,服務器集群、數(shù)據(jù)快照、模板備份等對存儲的需求隨虛擬化規(guī)模線性增長,每年中外文數(shù)據(jù)庫的數(shù)據(jù)更新量更是驚人,光CNKI期刊全文2011年的數(shù)據(jù)量就有1.6T,各館自建的特色數(shù)據(jù)庫每年的更新量也不容小覷。數(shù)據(jù)量每年呈T級別增長,加之DAS、NAS、SAN存儲架構(gòu)的異構(gòu),存儲虛擬化必將成為數(shù)字圖書館在存儲有效使用管理方面的一劑良藥,也將是大勢所趨。
存儲虛擬化有效地整合了圖書館異構(gòu)平臺下的存儲資源,極大地提高了管理和使用效率,但各館每年投入在新增數(shù)據(jù)量存儲的價格成本依然很高,從各圖書館購買的資源來看,具有較高的重復率。有效地共建共享圖書館資源才是節(jié)約成本、提高使用效率的根本方法。
云存儲的概念與云計算類似,它是指通過集群應用、網(wǎng)格技術或分布式文件系統(tǒng)等手段,將網(wǎng)絡中各種不同類型的存儲設備通過應用軟件集合起來協(xié)同工作,共同對外提供數(shù)據(jù)存儲和業(yè)務訪問功能的一個系統(tǒng)。通俗意義上講,云存儲系統(tǒng)中的所有設備對使用者都是完全透明的,任何一個經(jīng)過授權(quán)的使用者都可以通過接入網(wǎng)絡與云存儲連接,對云存儲進行數(shù)據(jù)訪問。
圖5 云存儲系統(tǒng)模型
在圖5中,云存儲系統(tǒng)整體架構(gòu)可劃分為4個層次,自底向上依次是存儲層、基礎管理層、應用接口層以及訪問層。存儲層是云存儲系統(tǒng)最為基礎的部分,而存儲虛擬化則是存儲層的核心,因此云存儲具有存儲虛擬化的所有優(yōu)勢?;A管理層是云存儲最核心的部分,也是云存儲中最難以實現(xiàn)的部分。它通過集群、分布式文件系統(tǒng)和網(wǎng)格計算等技術,實現(xiàn)云存儲中多個存儲設備之間的協(xié)同工作,使多個的存儲設備可以對外提供同一種服務,并提供更大更強更好的數(shù)據(jù)訪問性能;內(nèi)容分發(fā)系統(tǒng)、數(shù)據(jù)加密技術保證云存儲中的數(shù)據(jù)不會被未授權(quán)的用戶所訪問,同時,通過各種數(shù)據(jù)備份和容災技術和措施可以保證云存儲中的數(shù)據(jù)不會丟失,保證云存儲自身的安全和穩(wěn)定。應用接口層是云存儲最靈活多變的部分,各數(shù)字圖書館可以根據(jù)實際業(yè)務類型,開發(fā)不同的應用服務接口,提供不同的應用服務。訪問層是云存儲最終向用戶提供的服務,任何一個授權(quán)用戶都可以通過標準的公用應用接口來登錄云存儲系統(tǒng),享受云存儲服務。
云存儲與存儲虛擬化相比更強調(diào)的是服務,這與圖書館向讀者提供服務的理念一致,因此云存儲更適合未來數(shù)字圖書館的發(fā)展需求。目前寬帶網(wǎng)絡的發(fā)展更促使基于云存儲的圖書館聯(lián)盟的成立成為可能,這更有利于圖書館間共建共享數(shù)字資源。
在圖6中,數(shù)字圖書館1、數(shù)字圖書館2和數(shù)字圖書館3是位于同一城市的云圖書館,而數(shù)字圖書館4和數(shù)字圖書館5則是位于不同城市間的云圖書館。不管是居于城市A的用戶乙還是居于城市B或城市C的用戶甲都可以訪問這五所數(shù)字圖書館中的資源,實現(xiàn)不同區(qū)域圖書館間的資源共建與共享。
圖6 基于云存儲的圖書館聯(lián)盟系統(tǒng)架構(gòu)
構(gòu)建基于云存儲的圖書館聯(lián)盟不僅使同一區(qū)域資費緊缺的圖書館間可以共建共享資源,而且使不同區(qū)域的較先進的圖書館帶動落后圖書館共同發(fā)展,是不同區(qū)域圖書館間的強強聯(lián)手,最大的受益者莫過于廣大用戶。
數(shù)字圖書館的存儲經(jīng)歷DAS的建設階段,走過NAS、SAN的發(fā)展過程,開始邁向存儲虛擬化的整合時期,必將進入云存儲的共建共享時代,讓我們圖書館界的同仁們共同關注。
[1]數(shù)字圖書館[EB/OL].[2012-08 -12].http://zh.wikipedia.org/wiki/數(shù)字圖書館.
[2]唐章林.從DAS到虛擬存儲——從近十年的發(fā)展解讀數(shù)字圖書館建設的未來之路[J].新世紀圖書館,2010(3):39— 42.
[3]李 昊,張林龍.高校圖書館數(shù)字資源網(wǎng)絡存儲技術研究[J].現(xiàn)代情報,2010(5):144—147.
[4]譚生龍.存儲虛擬化技術的研究[J].微計算機應用,2010(1):33—38.
[5]張 艷,潘吳斌.基于云存儲的圖書館海量數(shù)字資源存儲研究與設計[J].圖書館學研究,2012(15):31—35.
[6]馬曉亭,陳 臣.數(shù)字圖書館云存儲應用系統(tǒng)研究與實現(xiàn)[J].圖書館理論與實踐,2012(5):8—13.
[7]杜海寧.基于云計算的圖書館海量數(shù)據(jù)存儲研究[J]. 圖書與情報,2010(3):99—101.