Sandra Gittlen
數(shù)據(jù)備份和恢復(fù)有點(diǎn)像黑盒。在災(zāi)難發(fā)生之前,用戶通常不知道情況是否完全在自己的掌握之中。特別是隨著云計(jì)算和混合選項(xiàng)的增長,這些措施一直處于不斷的改進(jìn)當(dāng)中。為此,我們請了4位網(wǎng)絡(luò)專業(yè)人員來分享他們的故事。請他們講述一下自己的親身體驗(yàn),告訴我們到底是什么讓他們意識到應(yīng)該做更多措施來加強(qiáng)企業(yè)的備份和恢復(fù)流程,以及他們是如何實(shí)現(xiàn)這一目標(biāo)的。
導(dǎo)火索:2011年5月,一場龍卷風(fēng)襲擊了密蘇里州的喬普林市。附近城鎮(zhèn)的志愿消防隊(duì)長Tim Pearson被叫來幫助救援。擔(dān)任堪薩斯州匹茲堡州立大學(xué)基礎(chǔ)設(shè)施和安全主管的Pearson說:“我來到了自己曾經(jīng)熟悉的小鎮(zhèn),但是我卻什么都認(rèn)不出來了。人們只能通過在十字路口寫上街道的名字,才能幫助確定方向。”
Pearson在密蘇里州喬普林市數(shù)據(jù)中心工作的同事們確保網(wǎng)站正常運(yùn)行都非常吃力,更不用說讓他們想辦法讓網(wǎng)絡(luò)恢復(fù)在線了。這讓Pearson意識到,雖然匹茲堡州立大學(xué)采用了傳統(tǒng)的磁帶備份方法(每周備份一次),并將這些存儲了數(shù)據(jù)的磁帶放在保險庫中,但是這種方法在應(yīng)對該地區(qū)的惡劣天氣方面缺乏足夠的可靠性。他指出,“我們必須重新審視我們的漏洞。”
解決方案:最初,Pearson和他的團(tuán)隊(duì)通過將另一臺戴爾Equalogic存儲陣列和其50%的虛擬計(jì)算能力放置在大學(xué)主數(shù)據(jù)中心對面的圖書館地下室里來解決大學(xué)的地理脆弱性問題。此外,該團(tuán)隊(duì)還在威奇塔州立大學(xué)(WSU)部署了一臺戴爾MD3200存儲陣列,匹茲堡州立大學(xué)使用高速光纖通過堪薩斯研究和教育網(wǎng)絡(luò)連接到該陣列。數(shù)據(jù)每天可以通過手動方式被多次復(fù)制到輔助站點(diǎn)(庫)中。數(shù)據(jù)備份每晚會被發(fā)送到威奇塔州立大學(xué),從而消除了繁瑣的磁帶處理過程。
Pearson說:“從保險庫中檢索磁帶可能需要一周的時間,并需要一天的時間才能恢復(fù)。破壞了主站點(diǎn)和輔助站點(diǎn)的災(zāi)難將使從磁帶中恢復(fù)數(shù)據(jù)變得更加困難?!?/p>
盡管庫和WSU陣列都工作良好,但是匹茲堡州立大學(xué)的團(tuán)隊(duì)決定進(jìn)一步改進(jìn)備份和恢復(fù),使用Hedwig的分布式存儲平臺(軟件定義存儲)實(shí)現(xiàn)自動編排。Hedvig使用商定的策略來實(shí)時管理多個節(jié)點(diǎn)之間的數(shù)據(jù)復(fù)制:主數(shù)據(jù)中心、庫和WSU存儲陣列。他說:“只要3個節(jié)點(diǎn)中的兩個啟動并運(yùn)行,我們的數(shù)據(jù)就可以訪問?!?/p>
最近,由于路由器意外重啟,到威奇塔州立大學(xué)的鏈接暫時關(guān)閉,系統(tǒng)獲得了測試的機(jī)會。Pearson說:“Hedwig發(fā)現(xiàn)了一個問題并隔離了它們,在15分鐘后鏈接重新上線后立即啟動了威奇塔州立大學(xué)的存儲陣列系統(tǒng)。我們的數(shù)據(jù)中心在整個事件中保持著正常運(yùn)行狀態(tài)。”
盡管遺留系統(tǒng)仍然安裝在帶有iSCSI連接的Unix服務(wù)器上,但是Hedvig與大學(xué)的遺留系統(tǒng)配合默契。Pearson稱:“雖然大多數(shù)供應(yīng)商都不支持這種類型的傳統(tǒng)配置,但是Hedvig卻能很好地處理它們。面向客戶的代理接口(小型物理或虛擬Linux服務(wù)器)被作為多協(xié)議連接器接入到了Hedvig存儲環(huán)境的,并提供了一系列塊和面向?qū)ο蟮膮f(xié)議,包括NFS、Amazon S3甚至iSCSI?!?/p>
匹茲堡州立大學(xué)的IT團(tuán)隊(duì)在測試中將可恢復(fù)性作為了其日常維護(hù)的一部分,在減少了節(jié)點(diǎn)數(shù)量的同時還記錄下了響應(yīng)時間。所有的存儲網(wǎng)絡(luò)配置都經(jīng)過了充分記錄和更新。
Pearson 稱:“我在消防隊(duì)和喬普林?jǐn)?shù)據(jù)中心的工作經(jīng)歷讓我意識到,所有的事情都不能想當(dāng)然,我的建議是盡可能在存儲網(wǎng)絡(luò)中實(shí)現(xiàn)地理多樣性?!?h3>懲教服務(wù)(CS)團(tuán)隊(duì)修復(fù)備份漏洞
導(dǎo)火索:愛荷華州懲教服務(wù)部(DCS)為愛荷華州東北部的11個縣提供懲教服務(wù)。Dwain Caldwell在愛荷華州的DCS司法機(jī)構(gòu)工作,該部門的系統(tǒng)管理員Caldwell說,“兩起事件推動了我們對備份和恢復(fù)方式做出調(diào)整。一個是人為事件,另一個是自然災(zāi)害?!?/p>
Caldwell表示,幾年前,該機(jī)構(gòu)的一個內(nèi)部人員訪問了一個網(wǎng)站,在不知情的情況下遭到了勒索軟件的攻擊。勒索軟件侵入了主文件系統(tǒng),不過Caldwell和他的團(tuán)隊(duì)很快就進(jìn)行了處理。雖然團(tuán)隊(duì)可以通過有效的備份進(jìn)行恢復(fù),但是恢復(fù)正常操作所需的時間超過了預(yù)期。他稱:“培訓(xùn)內(nèi)部員工是有用的,但是我們無法控制社交工程。我們能夠控制的是如何更快地恢復(fù)運(yùn)行?!?/p>
第二起事件是一場自然災(zāi)害,風(fēng)暴導(dǎo)致洪水涌入了主站點(diǎn)所在的建筑物,并導(dǎo)致主站點(diǎn)建筑物斷電。Caldwell稱:“在發(fā)生這種情況以前,我想當(dāng)然地認(rèn)為不會出現(xiàn)完全停機(jī)的故障。這個事件發(fā)生之后,我認(rèn)識到,在沒有第三種替代方案的情況下,將主要站點(diǎn)和次要站點(diǎn)放在一起是一種不靠譜的策略。”
解決方案:近年來,DCS司法機(jī)構(gòu)和懲教部門一直在致力于虛擬化他們的計(jì)算環(huán)境,包括使用虛擬桌面基礎(chǔ)設(shè)施。目前DCS司法機(jī)構(gòu)的虛擬化率約為80%,這使得實(shí)施新的數(shù)據(jù)備份和恢復(fù)計(jì)劃變得更加簡單。
DCS司法機(jī)構(gòu)使用Nutanix Core超融合基礎(chǔ)設(shè)施來處理數(shù)據(jù)中心和遠(yuǎn)程站點(diǎn)中的VDI、數(shù)據(jù)保護(hù)和災(zāi)難恢復(fù)。Caldwell說,“我們能夠設(shè)置自己的備份和恢復(fù)策略,如果有人犯了錯誤,我們會在幕后做這些工作?!?/p>
Nutanix經(jīng)常生產(chǎn)和存儲生產(chǎn)環(huán)境的快照,因此如果DCS遭到了勒索軟件的攻擊,Caldwell和他的團(tuán)隊(duì)可以自動將系統(tǒng)恢復(fù)到最近的快照,通常每次只需要15分鐘。
IT團(tuán)隊(duì)已經(jīng)對恢復(fù)時間進(jìn)行了測試,包括關(guān)閉服務(wù)器機(jī)房以使節(jié)點(diǎn)脫機(jī)。Caldwell稱:“測試的目的是看看該節(jié)點(diǎn)上的虛擬機(jī)需要多長時間才能在其他節(jié)點(diǎn)上重新上線?!?/p>
恢復(fù)應(yīng)用程序與恢復(fù)數(shù)據(jù)密切相關(guān),因?yàn)榇蠖鄶?shù)應(yīng)用程序都依賴于數(shù)據(jù)。Caldwell稱:“用戶需要訪問歷史數(shù)據(jù),就像訪問應(yīng)用程序本身一樣?!?/p>
遇到Nutanix系統(tǒng)無法提供數(shù)據(jù)的情況,如遭遇洪水或風(fēng)暴等災(zāi)難,Caldwell可以利用存儲在同一城市和其他地理位置的EMC Data Domain存儲設(shè)備上的備份數(shù)據(jù),不過備份位置越近,備份的數(shù)據(jù)就會頻繁。他說:“我們的方法是將最好的備份轉(zhuǎn)移到了一個虛擬沙盒環(huán)境中,然后再將其推送到主數(shù)據(jù)中心。”
Caldwell指出,“如今的備份解決方案比以前更多。過去企業(yè)必須要確?;謴?fù)磁帶的環(huán)境與原始配置完全匹配。在我們的虛擬機(jī)管理程序環(huán)境中,我們能夠更快速高效地獲取數(shù)據(jù)。此外,虛擬化環(huán)境和自動化使得兩名IT團(tuán)隊(duì)成員就可以負(fù)責(zé)所有的存儲職責(zé),因此我們能夠更好地執(zhí)行備份和修復(fù)工作?!?h3>Microsoft Office 365的備份與恢復(fù)
導(dǎo)火索:總部位于加州溫哥華的Aquilini集團(tuán)有很多子公司,包括Vancouver Canucks和Rogers Arena體育館。該公司自身還負(fù)責(zé)運(yùn)營這些場館的食品和飲料服務(wù)等所有業(yè)務(wù),以及酒店、建筑公司,餐廳、藍(lán)莓和蔓越莓農(nóng)場。這些投資遇到的一個共同主題是保護(hù)數(shù)據(jù)的安全,無論是客戶信息、監(jiān)控?cái)z像機(jī)鏡頭還是銷售點(diǎn)交易。當(dāng)發(fā)生了第三方主導(dǎo)的SAN升級出錯并且可能丟失大量數(shù)據(jù)時,他們的存儲保護(hù)措施得到了測試。
Aquilini集團(tuán)IT主管Bryce Hollweg表示,“我們的數(shù)據(jù)如果丟失了,那么將會導(dǎo)致收入損失和客戶不滿?!毙疫\(yùn)的是,該公司內(nèi)部IT團(tuán)隊(duì)已經(jīng)備份了數(shù)據(jù),并能夠恢復(fù)所有數(shù)據(jù)。但是這一事件讓Hollweg更加積極主動地備份全部數(shù)據(jù),甚至是云端應(yīng)用程序生成的數(shù)據(jù)。
解決方案:Aquilini集團(tuán)已將約1500名員工的工作遷移到了Microsoft Office 365上。雖然微軟公司在確保應(yīng)用程序正常運(yùn)行方面做的很出色,但是與大多數(shù)SaaS(軟件即服務(wù))提供商一樣,他們并不太愿意承擔(dān)確保數(shù)據(jù)完整性的責(zé)任。Hollweg稱:“我們有一些敏感數(shù)據(jù)會使用Office 365網(wǎng)絡(luò),因此我們需要保護(hù)它們。此外,企業(yè)郵箱的數(shù)據(jù)泄露無疑會導(dǎo)致生產(chǎn)力下降。我們能夠設(shè)置的安全層數(shù)越多越好。為云計(jì)算應(yīng)用程序設(shè)置第二層和三層防護(hù)措施不失為一種好辦法?!?/p>
Aquilini集團(tuán)使用Veeam Backup for Microsoft Office 365作為輔助措施,以保護(hù)Exchange Online、SharePoint Online、Teams(聊天)和OneDrive不被意外刪除、支持快速恢復(fù)和滿足合規(guī)性要求。這些備份可以存儲在本地,也可以存儲在Microsoft Azure或亞馬遜網(wǎng)絡(luò)服務(wù)等云平臺上,亦或是存儲在第三方提供商的設(shè)施中。
Hollweg表示,他并不介意采用多種專用工具來進(jìn)行管理,甚至依靠一支精干的團(tuán)隊(duì)也可以,因?yàn)榉雷o(hù)是根據(jù)存儲的數(shù)據(jù)類型特別定制的,這樣恢復(fù)起來更快且更容易。他稱:“隔離信息是一種很好的措施,即便有人破解了代碼,他們也無法可能竊取全部的數(shù)據(jù)?!?h3>針對虛擬機(jī)的本地防護(hù)
導(dǎo)火索:當(dāng)佛羅里達(dá)州杰克遜維爾的IT咨詢機(jī)構(gòu)CSI Companies公司決定用VMware虛擬化其環(huán)境(包括SQL Server)時,作為公司IT總監(jiān)的Matt Greaves希望他們原來的恢復(fù)時間不會發(fā)生變化。
Greaves稱:“在對所有虛擬機(jī)進(jìn)行恢復(fù)測試后,我們發(fā)現(xiàn)結(jié)果很可怕。在整個網(wǎng)站的恢復(fù)測試中,我們原本認(rèn)為可能需要30個小時,但是實(shí)際上花了90多個小時。這是一個巨大的痛點(diǎn)。我們每周需要支付3000到4000人的薪水,即使薪酬系統(tǒng)宕機(jī)兩小時也會造成嚴(yán)重的問題。”
CSI公司先前使用的備份和恢復(fù)軟件需要IT團(tuán)隊(duì)手動設(shè)置執(zhí)行備份的時間,備份時段以及備份哪些應(yīng)用程序。這樣不可避免地會存在一些斷檔,導(dǎo)致數(shù)據(jù)備份不完整,或是備份不及時。如果需要進(jìn)行災(zāi)難恢復(fù),唯一的選擇是通過手動方式挖掘和恢復(fù)單個事務(wù)日志。
解決方案:Greaves決定使用虛擬化環(huán)境,并部署一個直接與VMware環(huán)境掛鉤的Rubrik獨(dú)立存儲設(shè)備。 IT可以為vCenter中列出的虛擬機(jī)制定一個專門的策略,并自動對數(shù)據(jù)進(jìn)行分級分類保護(hù)。
他說:“由于制做了由策略驅(qū)動的備份點(diǎn),因此我可以設(shè)置SQL服務(wù)器每隔幾分鐘獲取一次事務(wù)日志快照,然后每隔幾小時獲取一次完整的數(shù)據(jù)庫快照。事務(wù)日志現(xiàn)可以根據(jù)需要自動幫助執(zhí)行完全恢復(fù)?!?/p>
Greaves稱:“過去,備份和恢復(fù)是日常管理工作的一部分。如今,如果有警報(bào)并且需要調(diào)查,我們只需要管理Rubrik就可以了。關(guān)于說明書,工作人員可以通過位于公司的SharePoint網(wǎng)站上的最佳實(shí)踐表快速了解Rubrik的使用情況?!?/p>
雖然Greaves想將包括備份和恢復(fù)在內(nèi)的應(yīng)用程序和基礎(chǔ)設(shè)施轉(zhuǎn)移到云端,但是高昂的價格讓他有點(diǎn)猶豫不決。他說:“對于基礎(chǔ)設(shè)施而言,遷移到云端并開始使用很容易,不過所有工具的使用都要按每小時付費(fèi)用。當(dāng)我們進(jìn)行成本分析時,我們發(fā)現(xiàn)將所有內(nèi)容保存在本地?cái)?shù)據(jù)中心在費(fèi)用方面要便宜很多?!?h3>專家推薦SaaS備份
許多IT經(jīng)理對他們從本地或從輔助數(shù)據(jù)中心備份和恢復(fù)數(shù)據(jù)的能力充滿信心。不過,當(dāng)他們引入基于云計(jì)算的服務(wù)時,這些事情就變得不那么明朗了。
市場研究機(jī)構(gòu)Nemertes Research的首席信息官兼首席研究分析師John Burke稱:“我們看到許多企業(yè)在沒有真正搞清楚如何處理備份和恢復(fù)問題的情況下就開始用云服務(wù)替代用于CRM等應(yīng)用程序的本地服務(wù)。”
客戶往往過度關(guān)注故障轉(zhuǎn)移功能和業(yè)務(wù)連續(xù)性,而沒有考慮到數(shù)據(jù)損壞問題或回滾到前一周數(shù)據(jù)所需要的時間。Burke指出,“這并不是一種默認(rèn)功能?!?/p>
Enterprise Strategy集團(tuán)的高級IT驗(yàn)證分析師Vinny Choinski對此表示認(rèn)同。他強(qiáng)調(diào)說:“對于SaaS來說,數(shù)據(jù)恢復(fù)是你自己的責(zé)任。如果有人刪除數(shù)據(jù)怎么辦?謹(jǐn)慎的做法是確保自己了解應(yīng)用程序的恢復(fù)環(huán)境?!?/p>
關(guān)于如何篩選備份和恢復(fù)服務(wù)提供商,一個辦法是詢問SaaS提供商他們選擇哪家。另一個辦法是選擇SaaS提供商的合作伙伴,因?yàn)樗麄兡軌蚋鼮檩p松地實(shí)現(xiàn)備份服務(wù)與SaaS的整合。
雖然簽約針對SaaS的備份和恢復(fù)服務(wù)可能會增加應(yīng)用程序成本,但是Burke和Choinski都表示,這樣做可強(qiáng)化對數(shù)據(jù)的保護(hù)。
本文作者Sandra Gittlen為IDG的特約撰稿人,同時還是大波士頓地區(qū)自由撰稿人兼編輯。她的文章涉足技術(shù)、商業(yè)、醫(yī)療保健、金融和生活方式等眾多主題。
原文網(wǎng)址
https://www.networkworld.com/article/3432128/real-world-backup-woes-and-how-to-fix-them.html