[摘要]本文針對(duì)當(dāng)前數(shù)字圖書(shū)館對(duì)于數(shù)據(jù)備份的認(rèn)識(shí)不足和技術(shù)缺陷,分析了數(shù)字圖書(shū)館對(duì)數(shù)據(jù)備份的需求,提出了數(shù)據(jù)備份系統(tǒng)的建設(shè)原則。在該原則的指導(dǎo)下分別對(duì)數(shù)據(jù)備份設(shè)備的選擇、數(shù)據(jù)備份軟件的選擇、數(shù)據(jù)備份策略的制定以及在數(shù)據(jù)備份方案實(shí)施過(guò)程中應(yīng)該注意的問(wèn)題及數(shù)字圖書(shū)館數(shù)據(jù)備份系統(tǒng)方案的規(guī)劃進(jìn)行了論述。
[關(guān)鍵詞]數(shù)字圖書(shū)館;數(shù)據(jù)備份;信息資源
[中圖分類號(hào)]G258.93 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1005-3115(2009)12-0094-03
數(shù)字圖書(shū)館在互聯(lián)網(wǎng)技術(shù)、計(jì)算機(jī)技術(shù)、現(xiàn)代存貯技術(shù)的支持下以內(nèi)容管理為核心。以海量信息處理、知識(shí)發(fā)現(xiàn)與技術(shù)加工為主要手段。以基于數(shù)據(jù)庫(kù)和信息庫(kù)的形式給大家提供了一個(gè)方便快捷的檢索平臺(tái)和信息中心。
數(shù)字圖書(shū)館作為網(wǎng)絡(luò)信息資源的先進(jìn)管理模式,核心是海量數(shù)據(jù)資源的管理和提供利用。數(shù)據(jù)資源是數(shù)字圖書(shū)館的基礎(chǔ),數(shù)據(jù)一旦破壞和丟失都將使數(shù)字圖書(shū)館的業(yè)務(wù)遭受致命性的損害。同時(shí)。計(jì)算機(jī)系統(tǒng)故障的發(fā)生也是多方面的,從計(jì)算機(jī)數(shù)據(jù)管理的角度看。小到誤操作導(dǎo)致系統(tǒng)的破壞及丟失,中到硬件的損壞、存儲(chǔ)介質(zhì)的損壞,大到自然因素導(dǎo)致的火災(zāi)、地震、水災(zāi)等其他突發(fā)事件,都使數(shù)字圖書(shū)館的數(shù)據(jù)安全受到威脅。因此,建立可靠的數(shù)據(jù)備份系統(tǒng)保護(hù)數(shù)據(jù)安全。是數(shù)字圖書(shū)館建設(shè)的一項(xiàng)重要內(nèi)容。
一、數(shù)據(jù)備份需求分析
計(jì)算機(jī)技術(shù)和通信技術(shù)作為數(shù)字圖書(shū)館的支撐技術(shù),在信息的收集、處理、存儲(chǔ)、傳輸和分發(fā)中扮演著極其重要的角色,大大提高了工作效率。但是。數(shù)字圖書(shū)館也面臨一些問(wèn)題,如系統(tǒng)失效、數(shù)據(jù)丟失或遭到破壞都時(shí)刻威脅著數(shù)字圖書(shū)館數(shù)據(jù)資源的安全。
(一)計(jì)算機(jī)硬件或軟件故障
硬件故障主要指硬盤驅(qū)動(dòng)器損壞,由于機(jī)器的物理?yè)p壞導(dǎo)致文件、數(shù)據(jù)的丟失;軟件故障指系統(tǒng)參數(shù)設(shè)置不當(dāng),或由于應(yīng)用程序沒(méi)有優(yōu)化造成運(yùn)行時(shí)系統(tǒng)資源沒(méi)有合理分配,或數(shù)據(jù)庫(kù)參數(shù)設(shè)置不當(dāng)?shù)取?/p>
(二)外部人為破壞或自然災(zāi)害的破壞
這方面的破壞主要包括計(jì)算機(jī)被盜造成數(shù)據(jù)丟失;黑客侵入計(jì)算機(jī)系統(tǒng),破壞計(jì)算機(jī)系統(tǒng),造成數(shù)據(jù)丟失;病毒使計(jì)算機(jī)系統(tǒng)感染,損壞數(shù)據(jù);自然災(zāi)害,如水災(zāi)、火災(zāi)、地震等毀滅整個(gè)計(jì)算機(jī)系統(tǒng);電源浪涌,即一個(gè)瞬間過(guò)載電功率損害計(jì)算機(jī)磁盤驅(qū)動(dòng)器上的文件;磁干擾,生活、工作中常見(jiàn)的磁場(chǎng)可能破壞磁盤中的文件。
(三)操作錯(cuò)誤或?qū)?shù)據(jù)備份認(rèn)識(shí)不足
在現(xiàn)實(shí)生活中,常見(jiàn)的操作錯(cuò)誤包括人為刪除文件或格式化磁盤等,這類問(wèn)題的比例大約為80%。另外,管理人員對(duì)數(shù)據(jù)備份重要性認(rèn)識(shí)的不足也是導(dǎo)致數(shù)字圖書(shū)館數(shù)據(jù)災(zāi)難的一個(gè)重要原因,廖利娟、楊應(yīng)全在《高校圖書(shū)館數(shù)據(jù)備份調(diào)查分析》一文中指出:“在對(duì)當(dāng)前部分高校(包括高等??茖W(xué)校、學(xué)院、大學(xué))圖書(shū)館的調(diào)查中得知備份意識(shí)淡薄的占12%,備份管理松散的占17%,存在僥幸心理的占24%。部分圖書(shū)館數(shù)據(jù)備份操作員無(wú)制度約束,對(duì)數(shù)據(jù)備份操作感到麻煩,存在僥幸心理,對(duì)備份媒體管理責(zé)任心不強(qiáng),備份手段落后,這些都是造成數(shù)字圖書(shū)館數(shù)據(jù)災(zāi)難的隱患。
(四)備份媒體管理失控
在實(shí)際工作中,有的數(shù)字圖書(shū)館的數(shù)據(jù)備份工作做得很完美,但是,由于備份媒體得不到妥善管理也會(huì)造成數(shù)據(jù)災(zāi)難。以磁帶備份設(shè)備為例。已經(jīng)寫入了備份數(shù)據(jù)的磁帶應(yīng)該歸檔存放,如果已經(jīng)寫入了數(shù)據(jù)的磁帶繼續(xù)放在磁帶機(jī)里面,下次備份時(shí)新寫入的數(shù)據(jù)就可能覆蓋原來(lái)的數(shù)據(jù),由此造成數(shù)據(jù)丟失。
二、數(shù)據(jù)備份的原則
對(duì)數(shù)據(jù)進(jìn)行備份是為了保證數(shù)據(jù)的安全性,以達(dá)到數(shù)字圖書(shū)館的容載目的,最大限度地減輕數(shù)據(jù)丟失和毀損帶來(lái)的災(zāi)難性后果,不同的應(yīng)用環(huán)境要求不同的解決方案來(lái)適應(yīng)。一般來(lái)說(shuō),數(shù)字圖書(shū)館的數(shù)據(jù)備份系統(tǒng)方案規(guī)劃要滿足以下原則。
(一)穩(wěn)定性
數(shù)據(jù)備份的主要作用是為數(shù)字圖書(shū)館提供一個(gè)數(shù)據(jù)保護(hù)的方法,穩(wěn)定性是其最重要的一個(gè)方面。數(shù)據(jù)備份一定要做到與操作系統(tǒng)的完全兼容,以達(dá)到備份系統(tǒng)的穩(wěn)定性。
(二)全面性
在復(fù)雜的計(jì)算機(jī)網(wǎng)絡(luò)環(huán)境中,可能包括了各種操作平臺(tái),如NetWare、Windows、Unix等,并安裝了各種應(yīng)用系統(tǒng),選用的備份系統(tǒng)要能支持各種操作系統(tǒng)、數(shù)據(jù)庫(kù)及各種典型應(yīng)用。
(三)自動(dòng)化
數(shù)據(jù)備份方案應(yīng)能提供定時(shí)的自動(dòng)備份,在自動(dòng)備份過(guò)程中,還要有日志記錄功能,并在出現(xiàn)異常情況時(shí)自動(dòng)報(bào)警,這樣就能減輕管理員的工作量,實(shí)現(xiàn)智能化的數(shù)據(jù)備份。
(四)安全性
計(jì)算機(jī)網(wǎng)絡(luò)是計(jì)算機(jī)病毒傳播的高速通道,給數(shù)據(jù)安全帶來(lái)極大威脅。如果在備份的時(shí)候把計(jì)算機(jī)病毒也完整地備份下來(lái),將會(huì)形成一種惡性循環(huán)。因此,在備份過(guò)程中要注意查毒、防毒、殺毒,確保無(wú)毒備份。
(五)簡(jiǎn)單性
數(shù)字圖書(shū)館的數(shù)據(jù)備份系統(tǒng)應(yīng)用于不同的領(lǐng)域和應(yīng)用程序中,進(jìn)行數(shù)據(jù)備份的操作人員也處于不同的層次,這就需要一個(gè)直觀的、操作簡(jiǎn)單的用戶界面,以縮短操作人員的學(xué)習(xí)時(shí)間,減輕操作人員的工作壓力,使備份工作得以輕松地設(shè)置和完成。同時(shí),為了適應(yīng)數(shù)字圖書(shū)館內(nèi)部局域網(wǎng)的有效擴(kuò)展,應(yīng)該以備份服務(wù)器形成備份中心,對(duì)各種平臺(tái)的應(yīng)用系統(tǒng)及其他信息數(shù)據(jù)進(jìn)行集中式的備份,系統(tǒng)管理員可以在任意一臺(tái)工作站上管理、監(jiān)控、配置備份系統(tǒng),實(shí)現(xiàn)分布式處理、集中管理的特點(diǎn)。
三、數(shù)據(jù)備份方案的制定
一套完整的數(shù)字圖書(shū)館數(shù)據(jù)備份系統(tǒng)方案的規(guī)劃包括硬件選擇、容量確定、軟件選擇、策略的制定等,下面分別來(lái)介紹這幾個(gè)方面。
(一)數(shù)據(jù)備份硬件的選擇
數(shù)字圖書(shū)館的數(shù)據(jù)備份,就是使用較低廉的存儲(chǔ)介質(zhì),定期將系統(tǒng)內(nèi)部數(shù)據(jù)備份下來(lái),以保證數(shù)據(jù)意外丟失時(shí)能盡快恢復(fù),將用戶的損失降到最低點(diǎn)。常用的存儲(chǔ)介質(zhì)有磁盤、磁帶、光盤和磁光盤等,其中磁帶的容量大,操作方便,易于保管,在大容量的數(shù)據(jù)備份方面應(yīng)用得比較普遍,適合于數(shù)字圖書(shū)館的數(shù)據(jù)備份。
目前,磁帶技術(shù)與產(chǎn)品主要分DLT和LTO幾種。8mm采用螺旋掃描技術(shù),是Exabyte公司的獨(dú)立技術(shù),但由于技術(shù)不開(kāi)放,使得產(chǎn)品的市場(chǎng)占有率較低。HDLT原為Quantum公司的專利技術(shù),現(xiàn)以O(shè)EM方式向多廠家開(kāi)放,在大容量磁帶存儲(chǔ)市場(chǎng)上DLT技術(shù)占據(jù)了主導(dǎo)地位。目前,市場(chǎng)上使用的DLT8000磁帶機(jī)是技術(shù)最成熟的磁帶設(shè)備,它的讀寫速率壓縮后可達(dá)12M/S,最新由HP,Seagate及IBM等廠商推出的ultrium磁帶機(jī)采用LTO技術(shù),這是一項(xiàng)開(kāi)放的標(biāo)準(zhǔn)磁帶技術(shù),可確保來(lái)自不同廠商的ultrium磁帶機(jī)實(shí)現(xiàn)數(shù)據(jù)的互換性。該磁帶機(jī)可在兩小時(shí)之內(nèi)。將200GB壓縮數(shù)據(jù)備份到單盤磁帶上,從而將備份性能提升到新高,高達(dá)30MB/S的傳輸速率可實(shí)現(xiàn)更快速的數(shù)據(jù)備份和恢復(fù)。因此,在選擇大容量磁帶備份設(shè)備時(shí),DLT和LTO磁帶庫(kù)應(yīng)該是首選。在數(shù)字圖書(shū)館的建設(shè)中,磁帶庫(kù)通過(guò)SANl6J(Storage Area Network一存儲(chǔ)局域網(wǎng)絡(luò))系統(tǒng)可形成網(wǎng)絡(luò)備份系統(tǒng),實(shí)現(xiàn)數(shù)據(jù)的遠(yuǎn)程備份,”達(dá)到數(shù)字圖書(shū)館數(shù)據(jù)備份系統(tǒng)簡(jiǎn)單化、智能化的要求和分布式處理、集中管理的特點(diǎn)。
(二)數(shù)據(jù)備份容量的確定
確定數(shù)據(jù)備份容量的大小通??紤]以下幾個(gè)因素:
數(shù)字圖書(shū)館內(nèi)部網(wǎng)絡(luò)中的總數(shù)據(jù)量,假定為01。
數(shù)據(jù)備份時(shí)間表(即增量備份的天數(shù)),假設(shè)用戶每天作一個(gè)增量備份,周末作一個(gè)全備份,則d=6天。
每日數(shù)據(jù)改變量,假定為Q2。
期望無(wú)人干涉的時(shí)間,假定為3個(gè)月,則m=3。
數(shù)據(jù)增長(zhǎng)量的估計(jì),假定每年以20%遞增,則i=20%。
考慮壞帶,不可預(yù)見(jiàn)因素,一般為30%,則u=30%。
通過(guò)以上各因素考慮,可以較推算出備份設(shè)備的大概容量為:c=[(Ql+Q2*d)*4*m(1+i)]。(1+u)。
根據(jù)C的大小和單盤磁帶的容量,再考慮一定容量的冗余,就可以選擇需要多少槽位的磁帶庫(kù)。
(三)數(shù)據(jù)備份軟件的選擇
目前流行的數(shù)據(jù)庫(kù)如Oracle,Sybase,MS-SQL等,均有自己的數(shù)據(jù)庫(kù)備份工具,它們不能實(shí)現(xiàn)自動(dòng)備份,只能將數(shù)據(jù)備份到磁帶或硬盤上,不能驅(qū)動(dòng)磁帶庫(kù)等自動(dòng)加載設(shè)備,因此,必須采用具有自動(dòng)加載功能的磁帶庫(kù)硬件產(chǎn)品與數(shù)據(jù)庫(kù)在線備份功能的自動(dòng)備份軟件。
目前流行的備份軟件有多種。如Legato NetWorker、CA ARCserve、HP OpenView OmnibackII、IBM ADSM及Veritas公司的NetBackup等。它們都具有自動(dòng)定時(shí)備份管理、備份介質(zhì)自動(dòng)管理。數(shù)據(jù)庫(kù)在線備份管理等功能。其中,Legato、Veritas和CA是獨(dú)立軟件開(kāi)發(fā)商,注重于對(duì)各種操作系統(tǒng)和數(shù)據(jù)庫(kù)平臺(tái)的支持,而HP和IBM等更注重于對(duì)本公司軟硬件產(chǎn)品的支持。
在小型機(jī)或工作站設(shè)備占主流的應(yīng)用環(huán)境中以及在多平臺(tái)操作系統(tǒng)和擁有多不同數(shù)據(jù)庫(kù)的環(huán)境中,HP?Omnibackll擁有絕大部分的用戶市場(chǎng)。在微軟操作系統(tǒng)平臺(tái)上,CA公司的ARCServerlT備份軟件具有一定的競(jìng)爭(zhēng)優(yōu)勢(shì),但其只適合于單一平臺(tái)下的數(shù)據(jù)在線備份。而無(wú)法實(shí)現(xiàn)異構(gòu)平臺(tái)上的數(shù)據(jù)庫(kù)在線備份。Legato和Veritas是美國(guó)專業(yè)從事企業(yè)數(shù)據(jù)安全管理軟件開(kāi)發(fā)的公司。他們均能夠提供跨平臺(tái)網(wǎng)絡(luò)數(shù)據(jù)的自動(dòng)備份管理,可實(shí)現(xiàn)備份系統(tǒng)的分布處理,集中管理,備份機(jī)器分組管理、備份介質(zhì)分組管理、備份數(shù)據(jù)分類、分組管理及備分介質(zhì)自動(dòng)重復(fù)使用等多項(xiàng)功能,備份的數(shù)據(jù)可在每個(gè)備份客戶機(jī)上按需恢復(fù),也可在同平臺(tái)上按用戶權(quán)限交叉恢復(fù),而備份操作可采用集中自動(dòng)執(zhí)行或手動(dòng)執(zhí)行。因此,對(duì)于跨多平臺(tái)多業(yè)務(wù)的數(shù)字圖書(shū)館系統(tǒng),可以考慮選擇Legato或Veritas。
(四)數(shù)據(jù)備份策略的制定
備份策略指確定需備份的內(nèi)容、備份時(shí)間及備份方式。目前被采用最多的備份策略主要有以下三種,完全備份:就是每天都進(jìn)行完全備份。這種策略的好處是:當(dāng)發(fā)生數(shù)據(jù)丟失的災(zāi)難時(shí),只要用一盤磁帶(即災(zāi)難發(fā)生前一天的備份磁帶),就可以恢復(fù)丟失的數(shù)據(jù)。然而它亦有不足之處:首先,由于每天都對(duì)整個(gè)系統(tǒng)進(jìn)行完全備份,造成備份的數(shù)據(jù)大量重復(fù),占用了大量的磁帶空間,增加成本;其次,由于需要備份的數(shù)據(jù)量較大,備份所需的時(shí)間也就較長(zhǎng)。
增量備份:就是在星期天進(jìn)行一次完全備份,然后在接下來(lái)的六天里只對(duì)當(dāng)天新的或被修改過(guò)的數(shù)據(jù)進(jìn)行備份。這種備份策略的優(yōu)點(diǎn)是:節(jié)省了磁帶空間,縮短了備份時(shí)間。但它的缺點(diǎn)是:當(dāng)災(zāi)難發(fā)生時(shí),數(shù)據(jù)的恢復(fù)比較麻煩。例如,系統(tǒng)在星期三的早晨發(fā)生故障,丟失了大量的數(shù)據(jù),就要將系統(tǒng)恢復(fù)到星期二晚上時(shí)的狀態(tài)。這時(shí)系統(tǒng)管理員首先就要找出星期天的那盤完全備份磁帶進(jìn)行系統(tǒng)恢復(fù),然后再找出星期一的磁帶來(lái)恢復(fù)星期一的數(shù)據(jù),找出星期二的磁帶來(lái)恢復(fù)星期二的數(shù)據(jù)。很明顯。這種方式很繁瑣。另外,這種備份的可靠性也很差。在這種備份方式下,各盤磁帶間的關(guān)系就像鏈子一樣,一環(huán)套一環(huán),其中任何一盤磁帶出了問(wèn)題都會(huì)導(dǎo)致整條鏈子脫節(jié)。比如在上例中,若星期二的磁帶出了故障,那么管理員最多只能將系統(tǒng)恢復(fù)到星期一晚上時(shí)的狀態(tài)。
差分備份:管理員先在星期天進(jìn)行一次系統(tǒng)完全備份,然后在接下來(lái)的幾天里,再將當(dāng)天所有與星期天不同的數(shù)據(jù)(新的或修改過(guò)的)備份到磁帶上。差分備份策略在避免了以上兩種策略的缺陷的同時(shí),又具有了它們的所有優(yōu)點(diǎn):首先。它無(wú)需每天都對(duì)系統(tǒng)做完全備份,備份所需時(shí)間短,并節(jié)省了磁帶空間;其次,它的災(zāi)難恢復(fù)也很方便,系統(tǒng)管理員只需兩盤磁帶,即星期一磁帶與災(zāi)難發(fā)生前一天的磁帶,就可以將系統(tǒng)恢復(fù)。
在實(shí)際應(yīng)用中。備份策略通常是以上三種的結(jié)合。例如每周一至周六進(jìn)行一次增量備份或差分備份。每周日、每月底、每年底進(jìn)行一次全備份。
根據(jù)以上分析。數(shù)字圖書(shū)館備份系統(tǒng)可以根據(jù)需求以及應(yīng)用環(huán)境的不同進(jìn)行靈活配置。一般來(lái)說(shuō)可以選用DLT或LTO,磁帶庫(kù)應(yīng)來(lái)組建SAN系統(tǒng),軟件選用美國(guó)CA公司的ARCservelT,以此來(lái)形成數(shù)字圖書(shū)館內(nèi)部局域網(wǎng)的網(wǎng)絡(luò)數(shù)據(jù)備份系統(tǒng),在實(shí)際過(guò)程中每天進(jìn)行增量備份或差量備份,每月進(jìn)行完全備份,確保數(shù)據(jù)的安全,這樣就可以保證數(shù)字圖書(shū)館在發(fā)生數(shù)據(jù)災(zāi)難后能最大限度地降低損失。