王小妮
[摘 要] 當(dāng)今社會(huì)數(shù)據(jù)的存儲(chǔ)備份已經(jīng)變得越來越重要。數(shù)據(jù)量的爆炸性增長、數(shù)據(jù)對(duì)支撐核心業(yè)務(wù)的重要性以及大數(shù)據(jù)的潛在商業(yè)價(jià)值都值得用戶在保護(hù)數(shù)據(jù)方面持續(xù)地大力投入。針對(duì)數(shù)據(jù)的可靠性,分析了多層次級(jí)別確保數(shù)據(jù)可靠性的方法,并通過數(shù)據(jù)進(jìn)行了可靠性分析。隨著備份技術(shù)的發(fā)展、各類存儲(chǔ)設(shè)備以及新型數(shù)據(jù)安全技術(shù)的進(jìn)步,該領(lǐng)域正在走向一個(gè)新的高度。
[關(guān)鍵詞] 數(shù)據(jù);存儲(chǔ);備份;高可靠性;多層次
[中圖分類號(hào)] C931;TP391.1 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 1673 - 0194(2014)15- 0104- 03
1 引 言
我們生活在一個(gè)數(shù)據(jù)信息的時(shí)代,隨著技術(shù)的發(fā)展、信息的海量增長以及相關(guān)法規(guī)的出臺(tái),數(shù)據(jù)備份并沒有變得簡單,相反卻是越來越復(fù)雜了。2013年IDC數(shù)據(jù)顯示,2010年全球數(shù)字信息總量將達(dá)到1.2 ZB(1ZB = 1021GB),2012年達(dá)到2.8ZB。IDC預(yù)計(jì)到2020年,全球數(shù)字信息總量將達(dá)到40ZB。全球數(shù)據(jù)的海量增長已經(jīng)達(dá)到當(dāng)前的存儲(chǔ)極限。當(dāng)前,全球數(shù)據(jù)存儲(chǔ)每年以60%的速度遞增。如此巨大的數(shù)據(jù)量,當(dāng)然需要妥善保存,有些數(shù)據(jù)也許目前的價(jià)值并不很大,而誰又能保證將來某天它不能發(fā)揮巨大作用呢?備份是各項(xiàng)存儲(chǔ)工作的基礎(chǔ),如果這個(gè)基礎(chǔ)沒有打好,那么其他各類高級(jí)的存儲(chǔ)應(yīng)用都無從談起。隨著更多備份軟件廠商在中國業(yè)務(wù)的日益壯大,中國備份用戶的選擇也變得越來越多。加上數(shù)據(jù)盜竊、系統(tǒng)入侵以及一系列技術(shù)或業(yè)務(wù)上問題的涌現(xiàn),用戶面臨的困惑越來越多。
2 數(shù)據(jù)備份概述
2.1 備份重要性
備份是存儲(chǔ)領(lǐng)域最根本的基礎(chǔ)。Gartner曾經(jīng)將整個(gè)存儲(chǔ)領(lǐng)域劃分為數(shù)據(jù)管理與數(shù)據(jù)保護(hù)兩部分,其中數(shù)據(jù)管理的部分涉及各類在線磁盤存儲(chǔ),而數(shù)據(jù)保護(hù)則包括備份與歸檔(存儲(chǔ)介質(zhì)以磁帶為主),由于歸檔所占比例較低,因此一提到數(shù)據(jù)保護(hù)大家首先想到的就是備份。隨著信息社會(huì)的不斷發(fā)展,數(shù)據(jù)丟失的風(fēng)險(xiǎn)也在發(fā)生變化,IDC的統(tǒng)計(jì)數(shù)據(jù)表明,數(shù)據(jù)丟失的主要風(fēng)險(xiǎn)存在于如下幾個(gè)方面:人為錯(cuò)誤(38%)、硬件損壞(20%)、突然斷電與電流波動(dòng)(12%)和病毒攻擊(10%),這幾項(xiàng)之和占到了所有數(shù)據(jù)丟失風(fēng)險(xiǎn)的80%。這些數(shù)字讓我們可以輕松反駁下面幾個(gè)錯(cuò)誤觀點(diǎn)。
(1)服務(wù)器存儲(chǔ)容量越來越大,沒有必要進(jìn)行備份了。服務(wù)器的主要功能是進(jìn)行事務(wù)處理,數(shù)據(jù)存放得越多,數(shù)據(jù)丟失的風(fēng)險(xiǎn)越大。
(2)集群等于備份。同樣,集群解決的仍然是事務(wù)處理的問題,另外,如果一臺(tái)服務(wù)器受到病毒攻擊,一般會(huì)遍及所有服務(wù)器。
(3)拷貝、復(fù)制等于備份。當(dāng)數(shù)據(jù)從服務(wù)器中轉(zhuǎn)移到專業(yè)的存儲(chǔ)設(shè)備中后,為了提高可用性以及災(zāi)難恢復(fù)的及時(shí)性,一般會(huì)進(jìn)行基于磁盤系統(tǒng)的拷貝復(fù)制,由于價(jià)格昂貴,一般只保存經(jīng)常應(yīng)用的數(shù)據(jù),大規(guī)模的數(shù)據(jù)保護(hù)任務(wù)則很難承擔(dān)。
(4)VTL(Virtual Tape Library,虛擬磁帶庫)可以取代傳統(tǒng)磁帶庫。VTL仍然是基于磁盤的解決方案,上述的幾項(xiàng)風(fēng)險(xiǎn)它都無法避免。此外,為了保持?jǐn)?shù)據(jù)的真實(shí)性,某些重要的行業(yè)都規(guī)定,像重復(fù)數(shù)據(jù)刪除這樣的“電子合成”的數(shù)據(jù)都是不允許的。VTL在某些情況下發(fā)揮了很好的作用,但是顯然無法取代傳統(tǒng)的磁帶庫。
2.2 備份服務(wù)價(jià)值
在存儲(chǔ)的各個(gè)細(xì)分領(lǐng)域,有的競爭力體現(xiàn)在產(chǎn)品本身,有的競爭力體現(xiàn)在解決方案的整體性,而有的競爭力則靠服務(wù)來體現(xiàn)。存儲(chǔ)是涉及多方面技能的專業(yè)領(lǐng)域,因此用戶在長期維護(hù)使用過程中需要及時(shí)、高效的服務(wù)保障[1]。因此,備份領(lǐng)域的服務(wù),成為一個(gè)價(jià)值增加點(diǎn),提供良好的備份服務(wù),成為各廠家紛紛努力的一個(gè)方向。
總體上講,備份領(lǐng)域的服務(wù)大體分為3類:設(shè)備級(jí)別服務(wù)、數(shù)據(jù)級(jí)別服務(wù)和高級(jí)數(shù)據(jù)服務(wù)。
(1)設(shè)備級(jí)別的服務(wù)是最基本的一項(xiàng),所有的產(chǎn)品在銷售時(shí)都會(huì)承諾幾年的質(zhì)保期。存儲(chǔ)設(shè)備與其他IT設(shè)備一個(gè)重要的不同在于,用戶寶貴的數(shù)據(jù)都要存放在上面,如果設(shè)備發(fā)生故障,用戶不僅擔(dān)心設(shè)備是否可以恢復(fù),更擔(dān)心數(shù)據(jù)是否會(huì)丟失,所以存儲(chǔ)用戶對(duì)于質(zhì)量保證十分關(guān)注。
(2)數(shù)據(jù)級(jí)別服務(wù)在美國已經(jīng)比較普遍,服務(wù)提供商擁有更穩(wěn)固、更安全的磁帶存放場(chǎng)所,定期從用戶那里搜集磁帶,當(dāng)用戶需要使用所備份的數(shù)據(jù)時(shí),把磁帶運(yùn)送到用戶指定地點(diǎn)。這種服務(wù)對(duì)于備份策略長時(shí)間保持固定的用戶來說相當(dāng)方便,不僅可以節(jié)約一部分開銷,更是省去了維護(hù)磁帶的諸多煩惱。
(3)采用高級(jí)備份服務(wù),用戶不需要擁有任何備份基礎(chǔ)設(shè)施,只需通過互聯(lián)網(wǎng)或?qū)S镁W(wǎng)將數(shù)據(jù)傳輸給服務(wù)提供商。這是為了向中小型企業(yè)以及遠(yuǎn)程部門和企業(yè)分部帶來更高的效率和成本效益,提供一周7天一天24小時(shí)全年無休的數(shù)據(jù)備份服務(wù),以及專業(yè)技術(shù)支持團(tuán)隊(duì)的幫助。
3 存儲(chǔ)備份軟件功能
存儲(chǔ)軟件可以分為獨(dú)立軟件和捆綁軟件(與存儲(chǔ)硬件密不可分的存儲(chǔ)應(yīng)用軟件),而獨(dú)立軟件有兩大部分:一部分是備份軟件,另一部分是和捆綁軟件類似的管理軟件。
3.1 存儲(chǔ)信息搜索功能
當(dāng)我們存儲(chǔ)的信息越來越多的時(shí)候,對(duì)迅速查找到目標(biāo)信息的需求就變得越來越迫切。當(dāng)我們查找數(shù)據(jù)信息時(shí),經(jīng)常會(huì)用一些搜索工具來幫助我們。像Google、百度這樣的搜索引擎已經(jīng)可以在浩瀚的互聯(lián)網(wǎng)中查找到大量相關(guān)信息。那么有沒有一種工具幫助用戶查找已經(jīng)存儲(chǔ)的數(shù)據(jù)信息?答案是肯定的,事實(shí)上,早在美國加強(qiáng)了法規(guī)遵從方面的約束之后,各類存儲(chǔ)管理廠商就盯住了這個(gè)新的存儲(chǔ)領(lǐng)域增長點(diǎn)——電子發(fā)現(xiàn)(e-discovery)。數(shù)據(jù)分類技術(shù)通常被認(rèn)為是實(shí)現(xiàn)電子發(fā)現(xiàn)功能的基礎(chǔ)。少數(shù)幾家初創(chuàng)公司推出了分類非結(jié)構(gòu)數(shù)據(jù)的軟件,可以管理不同存儲(chǔ)層的數(shù)據(jù)。一類分類方式是根據(jù)文件的元數(shù)據(jù)將數(shù)據(jù)分配到不同的存儲(chǔ)層,這些元數(shù)據(jù)信息包括系統(tǒng)搜集的文件的年限、大小、所有人以及最后訪問的日期等[2]。更復(fù)雜的數(shù)據(jù)分類工具通常是根據(jù)文件的內(nèi)容來實(shí)現(xiàn)更智能的管理。下面是不同廠商增加的搜索功能:
(1)在備份與歸檔領(lǐng)域,對(duì)電子發(fā)現(xiàn)的需求似乎更大。尤其新的法規(guī)要求公司管理層必須在審理前以及上訴階段就提交電子文檔,否則將面臨嚴(yán)重的懲罰。因此許多備份與歸檔軟件都紛紛加強(qiáng)了在電子發(fā)現(xiàn)與法規(guī)遵從方面的功能,使律師和調(diào)查法規(guī)遵從的官員在不必具使用過多IT應(yīng)用的情況下,就能夠更容易地對(duì)電子文檔進(jìn)行搜索。
(2)增加的Outlook擴(kuò)展程序(Add-In)功能,這將幫助用戶通過Outlook界面進(jìn)行搜索,其搜索的對(duì)象可以是保存在磁盤、磁帶或其他存儲(chǔ)介質(zhì)上的郵件或附件。
(3)基于語言(language-based)的搜索技術(shù),該技術(shù)類似于語音識(shí)別系統(tǒng),可識(shí)別特定的,如人力資源、法律條文和類似法規(guī)遵從領(lǐng)域內(nèi)的短語,進(jìn)而來發(fā)現(xiàn)適合的郵件。
3.2 存儲(chǔ)備份安全功能
是否做好了存儲(chǔ)備份就能夠確保數(shù)據(jù)安全呢?不一定,還有一些細(xì)節(jié)需要用戶格外注意?,F(xiàn)在與幾年前相比,用戶在確保數(shù)據(jù)安全方面的意識(shí)已經(jīng)得到了長足的進(jìn)步,因此才導(dǎo)致了目前存儲(chǔ)市場(chǎng)的空前繁榮。然而,需要用戶額外注意的是,在做好了基本的數(shù)據(jù)管理和數(shù)據(jù)保護(hù)工作之外,在確保數(shù)據(jù)安全方面還有一些細(xì)節(jié)經(jīng)常被大家忽略。
我們首先從數(shù)據(jù)安全的3個(gè)基本要素談起,即確保數(shù)據(jù)不丟失、不泄露以及不被篡改。為了確保數(shù)據(jù)的不丟失,用戶做了許多備份的工作;為了確保數(shù)據(jù)不被篡改,用戶采用光盤進(jìn)行備份,隨著技術(shù)的發(fā)展,磁帶產(chǎn)品中增加了WORM(寫一次,讀多次)功能,也確保了數(shù)據(jù)在生命周期內(nèi)的一致性。然而當(dāng)我們談?wù)摂?shù)據(jù)不被泄露的問題時(shí),卻很難立刻得到穩(wěn)妥的答案。如果希望徹底清除硬盤中存放的數(shù)據(jù),普通的刪除、格式化等手段都無法達(dá)到目的,專業(yè)人士仍然可以將數(shù)據(jù)恢復(fù)回來,而只有在專業(yè)技術(shù)人員通過超過10次的特殊格式化后,才能夠確保數(shù)據(jù)的徹底消失[3]。當(dāng)然,采用磁帶進(jìn)行數(shù)據(jù)保護(hù)時(shí)也會(huì)遇到類似的問題,比如,過期作廢的磁帶經(jīng)常會(huì)被用戶隨意處理,其中的數(shù)據(jù)很容易被恢復(fù)出來。加密是最近出現(xiàn)的確保數(shù)據(jù)不泄露的新方法,經(jīng)過加密后的磁帶,即使意外落入他人之手,在沒有解密方案的情況下幾乎無法得到任何數(shù)據(jù)[4]。
以下是目前市面上比較流行的其中幾種加密方法:
3.2.1 嵌入式加密設(shè)備
嵌入式加密設(shè)備放在存儲(chǔ)區(qū)域網(wǎng)(SAN)中,介于存儲(chǔ)設(shè)備和請(qǐng)求加密數(shù)據(jù)的服務(wù)器之間。這種設(shè)備可以對(duì)通過上述這些設(shè)備、網(wǎng)絡(luò)傳送到存儲(chǔ)設(shè)備的數(shù)據(jù)進(jìn)行加密,可以保護(hù)靜態(tài)數(shù)據(jù),然后對(duì)返回到應(yīng)用的數(shù)據(jù)進(jìn)行解密。
嵌入式加密設(shè)備很容易安裝成點(diǎn)對(duì)點(diǎn)解決方案,但擴(kuò)展起來難度大,或者成本高。如果部署在端口數(shù)量多的企業(yè)環(huán)境,或者多個(gè)站點(diǎn)需要加以保護(hù),就會(huì)出現(xiàn)問題。這種情況下,跨分布式存儲(chǔ)環(huán)境安裝成批硬件設(shè)備所需的成本會(huì)高得驚人。此外,每個(gè)設(shè)備必須單獨(dú)或者分成小批進(jìn)行配置及管理,這給管理增加了沉重負(fù)擔(dān)。
3.2.2 數(shù)據(jù)庫級(jí)加密
當(dāng)數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫里面時(shí),數(shù)據(jù)庫級(jí)加密就能實(shí)現(xiàn)對(duì)數(shù)據(jù)字段進(jìn)行加密。這種部署機(jī)制又叫列級(jí)加密,因?yàn)樗窃跀?shù)據(jù)庫表中的列這一級(jí)來進(jìn)行加密的。對(duì)于敏感數(shù)據(jù)全部放在數(shù)據(jù)庫中一列或者可能兩列的公司而言,數(shù)據(jù)庫級(jí)加密比較經(jīng)濟(jì)。不過,因?yàn)榧用芎徒饷芤话阌绍浖皇怯布韴?zhí)行,所以這個(gè)過程會(huì)導(dǎo)致整個(gè)系統(tǒng)的性能出現(xiàn)讓人無法承受的下降。
3.2.3 文件級(jí)加密
文件級(jí)加密可以在主機(jī)上實(shí)現(xiàn),也可以在網(wǎng)絡(luò)附加存儲(chǔ)(NAS)設(shè)備這一層以嵌入式實(shí)現(xiàn)。視具體實(shí)現(xiàn)而定,這種加密方法也會(huì)引起性能問題;在執(zhí)行數(shù)據(jù)備份操作時(shí),會(huì)帶來某些局限性,對(duì)數(shù)據(jù)庫進(jìn)行備份時(shí)更是如此。特別是,文件級(jí)加密會(huì)導(dǎo)致密鑰管理相當(dāng)困難,從而添加了另外一層管理:需要根據(jù)文件級(jí)目錄位置來識(shí)別相關(guān)密鑰,并進(jìn)行關(guān)聯(lián)。如果使用某些類型的不使用文件級(jí)方法來備份數(shù)據(jù)的數(shù)據(jù)庫備份應(yīng)用軟件,譬如Oracle RMAN,文件級(jí)加密還會(huì)帶來難題。
3.2.4 設(shè)備級(jí)加密
設(shè)備級(jí)加密是一種新出現(xiàn)的方法,它涉及對(duì)存儲(chǔ)設(shè)備(包括硬盤和磁帶)上的靜態(tài)數(shù)據(jù)進(jìn)行加密。雖然設(shè)備級(jí)加密為用戶和應(yīng)用提供了很高的透明度,但提供的保護(hù)作用非常有限:數(shù)據(jù)在傳輸過程中沒有經(jīng)過加密。只有到達(dá)了存儲(chǔ)設(shè)備,數(shù)據(jù)才進(jìn)行加密,所以設(shè)備級(jí)加密只能防范有人竊取物理存儲(chǔ)介質(zhì)。另外,要是在異構(gòu)環(huán)境使用這項(xiàng)技術(shù),可能需要使用多個(gè)密鑰管理應(yīng)用軟件,這就增加了密鑰管理過程的復(fù)雜性,從而加大了數(shù)據(jù)恢復(fù)面臨的風(fēng)險(xiǎn)。
3.3 RAID技術(shù)
RAID的采用為存儲(chǔ)系統(tǒng)(或者服務(wù)器的內(nèi)置存儲(chǔ))帶來巨大利益,其中提高傳輸速率和提供容錯(cuò)功能是最大的優(yōu)點(diǎn)。
(1)提高傳輸速率。RAID通過在多個(gè)硬盤上同時(shí)存儲(chǔ)和讀取數(shù)據(jù)來大幅提高存儲(chǔ)系統(tǒng)的數(shù)據(jù)吞吐量(Throughput)。在RAID中,可以讓很多磁盤驅(qū)動(dòng)器同時(shí)傳輸數(shù)據(jù),而這些磁盤驅(qū)動(dòng)器在邏輯上又是一個(gè)磁盤驅(qū)動(dòng)器,所以使用RAID可以達(dá)到單個(gè)磁盤驅(qū)動(dòng)器幾倍、幾十倍甚至上百倍的速率。
(2)提供容錯(cuò)功能。普通磁盤驅(qū)動(dòng)器無法提供容錯(cuò)功能,RAID容錯(cuò)是建立在每個(gè)磁盤驅(qū)動(dòng)器的硬件容錯(cuò)功能之上,所以它提供更高的安全性。在很多RAID模式中都有較為完備的相互校驗(yàn)/恢復(fù)的措施,甚至是直接相互的鏡像備份,從而大大提高了RAID系統(tǒng)的容錯(cuò)度,提高了系統(tǒng)的穩(wěn)定冗余性。
多年來,RAID的定義有許多層,多數(shù)都只是曇花一現(xiàn),轉(zhuǎn)瞬即逝。其中最著名的定義包括:RAID 0、RAID 1、RAID 3、RAID 5、RAID 10。
4 多級(jí)別RAID可靠性分析
下面假設(shè)在采用RAID技術(shù)的硬盤數(shù)分別為2、6、12的情況下,并假設(shè)硬盤的利用率為100%,1年內(nèi)使用的可靠性為95%,對(duì)RAID 0、RAID 5、RAID 10的可靠性分析如圖1所示。
RAID 0采用條帶方式,即以間隔分布的方式將數(shù)據(jù)分配到磁盤上,可提供更快的訪問速度,但并不能為數(shù)據(jù)提供更好的保護(hù)。由圖1可以看出,當(dāng)硬盤數(shù)量增大時(shí)RAID 0的可靠性明顯降低。所以RAID 0在性能滿足的情況下,盡量采用較少的硬盤陣列。
RAID 5將數(shù)據(jù)和校驗(yàn)位都以間隔分布的方式存儲(chǔ)在所有的磁盤上,從而取得更好的負(fù)荷平衡性能。該模式在提高數(shù)據(jù)讀取速度的同時(shí)還可以有效地提高數(shù)據(jù)保護(hù)性能。根據(jù)圖1,RAID 5在硬盤數(shù)量為2時(shí)和RAID 10的可靠性一樣,但隨著硬盤數(shù)量增大,其可靠性也開始下降。
RAID 10先做鏡像(即寫到某個(gè)磁盤的數(shù)據(jù)都會(huì)被復(fù)制到另一個(gè)磁盤中),再做條帶,從而提供良好的容錯(cuò)能力。根據(jù)圖1,RAID 10當(dāng)硬盤數(shù)量為2時(shí),可靠性為99.75%;當(dāng)硬盤數(shù)量為6時(shí),可靠性為99.25%;當(dāng)硬盤數(shù)量為12時(shí),可靠性為98.51%,故RAID 10的可靠性是最高的。
5 總 結(jié)
業(yè)界對(duì)高端存儲(chǔ)始終沒有一個(gè)明確的定義,但是把用戶對(duì)存儲(chǔ)產(chǎn)品的各種需求都提升為最高,則基本能夠反映其產(chǎn)品特性:最高可用性、最高可靠性、最高性能以及最高端的存儲(chǔ)應(yīng)用功能等。可用性與可靠性應(yīng)該成為高端磁盤陣列用戶最關(guān)心的特性。高端存儲(chǔ)系統(tǒng)承擔(dān)的都是企業(yè)的關(guān)鍵應(yīng)用,用戶對(duì)數(shù)據(jù)的可靠性要求極高。冗余的端口以及冗余的數(shù)據(jù)傳輸路徑可以消除單點(diǎn)故障,除了各種級(jí)別的RAID保護(hù)外,高端存儲(chǔ)系統(tǒng)大都采用陣列內(nèi)復(fù)制、快照等技術(shù)進(jìn)行數(shù)據(jù)保護(hù)。此外,大多數(shù)的高端存儲(chǔ)系統(tǒng)在使用中都采用雙機(jī)熱備的方式,兩套系統(tǒng)實(shí)現(xiàn)實(shí)時(shí)鏡像,更加保障了數(shù)據(jù)的安全性。
主要參考文獻(xiàn)
[1]周開樂,丁帥,胡小建.面向海量數(shù)據(jù)應(yīng)用的物聯(lián)網(wǎng)信息服務(wù)系統(tǒng)研究綜述[J].計(jì)算機(jī)應(yīng)用研究, 2012(1).
[2]吳廣君.海量結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)檢索系統(tǒng)[J].計(jì)算機(jī)研究與發(fā)展,2012(z1).
[3]敖莉,舒繼武,李明強(qiáng).重復(fù)數(shù)據(jù)刪除技術(shù)[J].軟件學(xué)報(bào),2010(5).
[4]何明.物聯(lián)網(wǎng)環(huán)境下云數(shù)據(jù)存儲(chǔ)安全及隱私保護(hù)策略研究[J].計(jì)算機(jī)科學(xué),2012(5).