□文/萬向麗
數(shù)字圖書館存儲技術(shù)發(fā)展趨勢
□文/萬向麗
面對網(wǎng)絡(luò)信息數(shù)據(jù)量的大幅增加,通過對現(xiàn)有三種數(shù)字圖書館存儲系統(tǒng)的概念闡述及特點比較,對存儲技術(shù)發(fā)展趨勢的介紹,為數(shù)字圖書館存儲系統(tǒng)建設(shè)提供參考。
數(shù)字圖書館;存儲技術(shù);發(fā)展趨勢
隨著數(shù)字資源內(nèi)容的日益豐富和讀者對信息資源需求內(nèi)容的不斷提升,圖書館在數(shù)字化建設(shè)中面臨存儲空間、數(shù)據(jù)訪問速度、數(shù)據(jù)安全、數(shù)據(jù)管理等一系列問題,面對日趨豐富的網(wǎng)絡(luò)設(shè)備和復(fù)雜的需求環(huán)境,存儲系統(tǒng)和存儲技術(shù)的選擇就顯得尤為重要了。
從架構(gòu)上來分,數(shù)字圖書館網(wǎng)絡(luò)化存儲系統(tǒng)應(yīng)用主要包括DAS(直接連接存儲)、NAS(網(wǎng)絡(luò)連接存儲)和 SAN(存儲區(qū)域網(wǎng)絡(luò))。
(一)DAS。DAS是指將存儲設(shè)備通過SCSI接口或光纖通道直接連接到一臺計算機上。DAS的適用環(huán)境為:服務(wù)器在地理分布上很分散,或存儲系統(tǒng)必須被直接連接到應(yīng)用服務(wù)器上時,也適合包括許多數(shù)據(jù)庫應(yīng)用和應(yīng)用服務(wù)器在內(nèi)的應(yīng)用,它們需要直接連接到存儲器上。當服務(wù)器在地理上比較分散,很難通過遠程連接進行互聯(lián)時,直接連接存儲是比較好的解決方案,甚至可能是唯一的解決方案。
(二)NAS。NAS是將存儲設(shè)備通過標準的網(wǎng)絡(luò)拓撲結(jié)構(gòu)(例如以太網(wǎng)),連接到一群計算機上,提供給各異構(gòu)平臺(包含Unix,Windows,Linux,Netware) 的客戶端及服務(wù)端,達到文檔共享的儲存裝置。NAS是通過存儲器件(例如硬盤驅(qū)動器陣列、CD或DVD驅(qū)動器、磁帶驅(qū)動器或可移動的存儲介質(zhì))和集成在一起的簡易服務(wù)器,可用于實現(xiàn)涉及文件存取及管理的所有功能。它可做到異構(gòu)平臺之間文檔格式的轉(zhuǎn)換和資源共享。不但具有高效能傳遞,多任務(wù)效能的最佳化,而且減少工作人員安裝、管理、備份的成本,是最佳化的附加式網(wǎng)絡(luò)存儲設(shè)備。
NAS具有幾個引人注意的優(yōu)點:首先,NAS是真正即插即用的產(chǎn)品。NAS設(shè)備一般支持多計算機平臺,用戶通過網(wǎng)絡(luò)支持協(xié)議可進入相同的文檔,因而NAS設(shè)備無需改造即可用于異構(gòu)平臺的局域網(wǎng)內(nèi);其次,NAS設(shè)備的物理位置同樣是靈活的。它們可放置在工作組內(nèi),靠近數(shù)據(jù)中心的應(yīng)用服務(wù)器,也可以放在其他地點,通過物理鏈路與網(wǎng)絡(luò)連接起來。無需應(yīng)用服務(wù)器的干預(yù),NAS設(shè)備允許用戶在網(wǎng)絡(luò)上存取數(shù)據(jù),這樣既可減小CPU的開銷,也能顯著改善網(wǎng)絡(luò)的性能。
NAS適合于數(shù)字圖書館建立初期,用戶的數(shù)據(jù)規(guī)模不大,存儲需求也很簡單,只是要把相關(guān)數(shù)據(jù)存放在某一地方即可。而存放數(shù)據(jù)的最終目的不但是為了能夠安全保存,還必須保證數(shù)據(jù)可以隨時被調(diào)用。這種方法從兩方面改善了數(shù)據(jù)的可用性。第一,即使相應(yīng)的應(yīng)用服務(wù)器不再工作了,仍然可以讀出數(shù)據(jù);第二,簡易服務(wù)器本身不會崩潰,因為它避免了引起服務(wù)器崩潰的首要原因,即應(yīng)用軟件引起的問題。
(三)SAN。SAN通過光纖通道連接到一群計算機上。在該網(wǎng)絡(luò)中提供了多主機連接,是獨立于服務(wù)器網(wǎng)絡(luò)系統(tǒng)之外幾乎擁有無限存儲能力的高速存儲網(wǎng)絡(luò),這種網(wǎng)絡(luò)采用高速的光纖通道作為傳輸媒體,以FC(光通道+SCSI),小型計算機系統(tǒng)接口的應(yīng)用協(xié)議作為存儲訪問協(xié)議,將存儲子系統(tǒng)網(wǎng)絡(luò)化,實現(xiàn)了真正高速共享存儲的目標。
SAN解決方案的優(yōu)點有以下幾個方面:SAN提供了一種與現(xiàn)有LAN連接的簡易方法,并且通過同一物理通道支持廣泛使用的SCSI和IP協(xié)議。SAN不受現(xiàn)今主流的、基于SCSI存儲結(jié)構(gòu)的布局限制。特別重要的是,隨著存儲容量的快速增長,SAN允許圖書館根據(jù)需要不斷增加存儲容量。SAN的結(jié)構(gòu)允許任何服務(wù)器連接到任何存儲陣列,這樣不管數(shù)據(jù)放置在那里,服務(wù)器都可直接存取所需的數(shù)據(jù)。因為采用了光纖接口,SAN還具有更高的帶寬。光纖接口提供了10公里的連接長度,這使得實現(xiàn)物理上分離的、不在機房的存儲變得非常容易,較為適合現(xiàn)在的高校圖書館多個分館的實際環(huán)境。
(一)DAS的問題與不足。DAS依賴服務(wù)器主機操作系統(tǒng)進行數(shù)據(jù)的IO讀寫和存儲維護管理,數(shù)據(jù)備份和恢復(fù)要求占用服務(wù)器主機資源(包括CPU、系統(tǒng)IO等),數(shù)據(jù)流需要回流主機再到服務(wù)器連接著的磁帶機(庫),數(shù)據(jù)備份通常占用服務(wù)器主機資源的20%~30%,因此圖書館在做日常數(shù)據(jù)備份常常在深夜或業(yè)務(wù)系統(tǒng)不繁忙時進行,以免影響正常業(yè)務(wù)系統(tǒng)的運行。直連式存儲的數(shù)據(jù)量越大,備份和恢復(fù)的時間就越長,對服務(wù)器硬件的依賴性和影響就越大。
DAS與服務(wù)器主機之間的連接通道通常采用SCSI連接,帶寬為10MB/s、20MB/s、40MB/s、80MB/s等,隨著服務(wù)器CPU的處理能力越來越強,存儲硬盤空間越來越大,陣列的硬盤數(shù)量越來越多,SCSI通道將會成為IO瓶頸;服務(wù)器主機SCSI ID資源有限,能夠建立的SCSI通道連接有限。
對于DAS的擴展過程中,從一臺服務(wù)器擴展為多臺服務(wù)器組成的群集,或存儲陣列容量的擴展,都容易造成業(yè)務(wù)系統(tǒng)的停機,從而給廣大讀者檢索工作造成不便。
(二)NAS的問題與不足。NAS沒有解決與文件服務(wù)器相關(guān)的一個關(guān)鍵性問題,即備份過程中的帶寬消耗。與將備份數(shù)據(jù)流從LAN中轉(zhuǎn)移出去的存儲區(qū)域網(wǎng)(SAN)不同,NAS仍使用網(wǎng)絡(luò)進行備份和恢復(fù)。NAS的一個缺點是它將存儲事務(wù)由并行SCSI連接轉(zhuǎn)移到了網(wǎng)絡(luò)上。這就是說,LAN除了必須處理正常的最終用戶傳輸流外,還必須處理包括備份操作的存儲磁盤請求。
(三)NAS與SA N的不同點。NAS:用戶通過TCP/IP協(xié)議訪問數(shù)據(jù),采用業(yè)界標準文件共享協(xié)議如NFS、HTTP、CIFS實現(xiàn)共享;SAN:通過專用光纖通道交換機訪問數(shù)據(jù),采用SCSI、FC-AL接口。NAS是在RAID的基礎(chǔ)上增加了存儲操作系統(tǒng),而SAN是獨立出一個數(shù)據(jù)存儲網(wǎng)絡(luò),網(wǎng)絡(luò)內(nèi)部的數(shù)據(jù)傳輸率很快,但操作系統(tǒng)仍停留在服務(wù)器端,用戶不是在直接訪問SAN的網(wǎng)絡(luò),因此這就造成SAN在異構(gòu)環(huán)境下不能實現(xiàn)文件共享。SAN是只能獨享的數(shù)據(jù)存儲池,NAS是共享與獨享兼顧的數(shù)據(jù)存儲池。因此,NAS與SAN的關(guān)系也可以表述為:NAS是Network-attached,而SAN是Channel-attached。SAN結(jié)構(gòu)中,文件管理系統(tǒng)(FS)還是分別在每一個應(yīng)用服務(wù)器上;而NAS則是每個應(yīng)用服務(wù)器通過網(wǎng)絡(luò)共享協(xié)議(如NFS、CIFS)使用同一個文件管理系統(tǒng)。換句話說,NAS和SAN存儲系統(tǒng)的區(qū)別是NAS有自己的文件系統(tǒng)管理;NAS是將目光集中在應(yīng)用、用戶和文件以及它們共享的數(shù)據(jù)上;SAN是將目光集中在磁盤、磁帶以及聯(lián)接它們的可靠的基礎(chǔ)結(jié)構(gòu)。
(一)IP-SAN技術(shù)。IP-SAN是以IP為基礎(chǔ)的SAN存儲方案,用戶可以在任何需要的地方創(chuàng)建實際的SAN網(wǎng)絡(luò),以IP協(xié)議替代光纖通道協(xié)議,IP協(xié)議用于網(wǎng)絡(luò)中實現(xiàn)用戶和服務(wù)器連接,而不需要專門的光纖通道網(wǎng)絡(luò)在服務(wù)器和存儲設(shè)備之間傳送數(shù)據(jù)。IP-SAN不僅成本較低,而且可以解決光纖通道對傳輸距離的限制、交互操作性較差等問題。
(二)云存儲技術(shù)。云存儲已成為未來存儲發(fā)展的一種趨勢,是指通過集群應(yīng)用、網(wǎng)格技術(shù)、并行處理、分布式文件系統(tǒng)等功能,將分布于網(wǎng)絡(luò)中的大量各種不同類型的存儲設(shè)備通過相關(guān)應(yīng)用軟件集合起來協(xié)同工作,共同對外提供數(shù)據(jù)存儲和業(yè)務(wù)訪問功能的一個系統(tǒng)。確切地說,云存儲系統(tǒng)就是通過應(yīng)用軟件和廣域的存儲設(shè)備來提供數(shù)據(jù)訪問服務(wù)。
(三)主存儲去重和壓縮技術(shù)。此項技術(shù)能夠通過磁盤陣列和NAS的控制器對文件級及塊級數(shù)據(jù)進行比較并去重和壓縮,能夠使數(shù)字圖書館存儲系統(tǒng)保有盡可能多的空間以存儲更多的數(shù)字資源。
(四)虛擬分層技術(shù)。目前,虛擬分層技術(shù)能夠把存儲區(qū)分配到一個由不同效能、成本、多個存儲層組成的存儲池內(nèi)。虛擬分層或動態(tài)分層可自動把存儲區(qū)分類及把整個存儲區(qū)遷移至適當?shù)拇鎯?,用戶毋須針對存儲區(qū)進行分類及配置到指定存儲層,也不必在各存儲層內(nèi)手動遷移存儲區(qū)以配合存儲活動。
存儲技術(shù)的發(fā)展迅猛,數(shù)字圖書館在存儲系統(tǒng)的建設(shè)中要因地制宜,適當具有前瞻性,綜合考慮資金成本與效益、設(shè)備集中與分散管理、數(shù)據(jù)的訪問與安全保護等問題,加強存儲在異構(gòu)環(huán)境下的應(yīng)用與管理,促使存儲系統(tǒng)能夠較為長期的、充分有效的、安全的為數(shù)字圖書館資源建設(shè)提供服務(wù)保障。
(作者單位:新疆師范大學圖書館)
[1]李軍艷.數(shù)字圖書館存儲系統(tǒng)解決方案.現(xiàn)代情報,2005.12.
[2]舒炎祥.數(shù)字圖書館的存儲解決方案.圖書館學研究,2005.10.
[3]楊宜培.基于現(xiàn)代數(shù)據(jù)存儲技術(shù)的高校數(shù)字圖書館建設(shè).圖書館工作與研究,2005.6.
G 250.76
A