楊大為,肖安洪,張 娜,馮云嬌,彭 輝
(中國核動力研究設(shè)計院核反應(yīng)堆系統(tǒng)設(shè)計技術(shù)重點實驗室,四川 成都 610041)
數(shù)據(jù)中心應(yīng)急關(guān)機(jī)處置方案研究
楊大為,肖安洪,張 娜,馮云嬌,彭 輝
(中國核動力研究設(shè)計院核反應(yīng)堆系統(tǒng)設(shè)計技術(shù)重點實驗室,四川 成都 610041)
介紹了數(shù)據(jù)中心在遇到突發(fā)情況時,為確保信息系統(tǒng)在短時間內(nèi)安全、高效地完成停機(jī)操作,如何通過制定應(yīng)急關(guān)機(jī)計劃,以此避免由于次生災(zāi)害對數(shù)據(jù)中心帶來的進(jìn)一步損失,為系統(tǒng)的運行安全和數(shù)據(jù)的存儲安全提供技術(shù)保證。
數(shù)據(jù)中心;容災(zāi)處理;緊急關(guān)機(jī)
隨著數(shù)字化設(shè)計技術(shù)的迅猛發(fā)展,種類繁多的信息系統(tǒng)已成為各單位日常工作開展的必要條件。目前,具備大數(shù)據(jù)處理、多應(yīng)用集成等特點的數(shù)據(jù)中心,已經(jīng)成為眾多單位信息化建設(shè)的主要目標(biāo)[1]??紤]到由于信息系統(tǒng)自身存在的缺陷、脆弱性以及可能面臨的外界威脅,使信息系統(tǒng)容易受到各種已知或未知的威脅而導(dǎo)致信息安全事件的發(fā)生,那么就應(yīng)該制定應(yīng)急響應(yīng)預(yù)案,將可能的損害降至最低[2]。
應(yīng)急關(guān)機(jī)作為應(yīng)急響應(yīng)過程的處置手段之一,是每個數(shù)據(jù)中心都必須考慮的問題,尤其是面對地震、電力中斷等極端環(huán)境時,但是應(yīng)急關(guān)機(jī)和恢復(fù)絕不是關(guān)閉/開啟電源這么簡單。
隨著信息化技術(shù)的不斷提高,數(shù)據(jù)中心的規(guī)模和復(fù)雜程度也逐步增大。以某單位數(shù)據(jù)中心為例,目前中心機(jī)房部署的服務(wù)器、小型機(jī)、工作站、網(wǎng)絡(luò)設(shè)備、安全防護(hù)設(shè)備等共計百余套,其上承載的軟件除與日常業(yè)務(wù)處理相關(guān)的辦公軟件外,還包括科研工程所需的超算平臺、知識管理和協(xié)同研發(fā)等多套應(yīng)用系統(tǒng);同時,考慮到緊急關(guān)機(jī)情況下,可能還有大量事務(wù)在數(shù)據(jù)中心執(zhí)行,如何及時地取消未執(zhí)行作業(yè),并將正在執(zhí)行作業(yè)產(chǎn)生的數(shù)據(jù)結(jié)果最大化地進(jìn)行持久化保存,這都是需要仔細(xì)考慮的方面。
本文針對上述問題,從實際工作出發(fā),對應(yīng)急關(guān)機(jī)所面臨的策略制定、活動執(zhí)行和系統(tǒng)恢復(fù)等行動項進(jìn)行逐一闡述,為處置方案提供合理的技術(shù)解決思路。
為確保應(yīng)急關(guān)機(jī)要求的正確實施,其活動劃分應(yīng)包含以下幾方面內(nèi)容。
1.1人員職責(zé)
數(shù)據(jù)中心應(yīng)組建應(yīng)急響應(yīng)小組,由1名總指揮和若干操作員構(gòu)成??傊笓]負(fù)責(zé)緊急關(guān)機(jī)時小組成員的召集和突發(fā)情況下工作的協(xié)調(diào)。各操作員按照應(yīng)用系統(tǒng)、服務(wù)器設(shè)備、網(wǎng)絡(luò)設(shè)備和數(shù)據(jù)存儲等實際情況進(jìn)行責(zé)任劃分,落實所有關(guān)機(jī)操作的全覆蓋。
考慮到緊急關(guān)機(jī)時,受操作時間、場地空間和機(jī)房KVM接入授權(quán)的多方面限制,在人員配置上,操作員人數(shù)不宜過多。因此,這需要操作員專業(yè)技術(shù)過硬,能完成對同類型或多類型系統(tǒng)及設(shè)備的應(yīng)急操作。同時,在應(yīng)急響應(yīng)小組組建時,應(yīng)保證各職責(zé)崗位滿足A、B角色設(shè)定,防止因為人員休假、出差等情況發(fā)生時,應(yīng)急關(guān)機(jī)操作無法正常執(zhí)行的情況出現(xiàn)。
當(dāng)人員職責(zé)劃分完畢后,應(yīng)將上述信息以文件的方式進(jìn)行記錄并予以發(fā)布,使其制度化、規(guī)范化,確保每個責(zé)任人知曉其職責(zé)范圍。
1.2策略制定
一個切實可行的關(guān)機(jī)策略是保障緊急情況下迅速完成關(guān)機(jī)操作的基礎(chǔ)指導(dǎo),但是沒有一個策略可以滿足所有數(shù)據(jù)中心的操作需求,只有具體問題具體分析,結(jié)合實際運行情況,制定與其匹配的關(guān)機(jī)策略。
因此本文僅對關(guān)機(jī)策略制定過程中具備共通性的要點及環(huán)節(jié)進(jìn)行描述。
1.2.1關(guān)機(jī)流程制定
在數(shù)據(jù)中心,應(yīng)用與應(yīng)用、應(yīng)用與設(shè)備、設(shè)備與設(shè)備之間普遍存在著依賴關(guān)系。違反依賴關(guān)系的關(guān)機(jī)流程很可能造成運行數(shù)據(jù)的遺失和破壞。最典型的例子即為數(shù)據(jù)庫服務(wù),一旦非正常終止,所有依賴該服務(wù)的應(yīng)用系統(tǒng)其運行數(shù)據(jù)將無法進(jìn)行持久化保存。所以梳理數(shù)據(jù)中心各業(yè)務(wù)的依賴關(guān)系,按次序關(guān)機(jī)是流程制定的關(guān)鍵。
同時,為盡量縮短關(guān)機(jī)時間,應(yīng)將彼此相對獨立的系統(tǒng)并行實施操作。如該單位的超算平臺與日常辦公系統(tǒng)兩者關(guān)聯(lián)不大,完全可以獨立并行操作,如圖1所示。
除此之外,應(yīng)根據(jù)每個關(guān)機(jī)步驟預(yù)估其耗時,細(xì)化各節(jié)點的里程碑時間。通過上述操作,可以為緊急關(guān)機(jī)操作提供明確的量化指標(biāo):一方面,通過各操作節(jié)點時間的累加,可以確定該關(guān)機(jī)策略的總耗時是否超過UPS、柴油發(fā)電機(jī)等應(yīng)急設(shè)備提供的最長保障時間,以此檢驗該策略的技術(shù)可行性;另一方面,在關(guān)機(jī)過程中,難免出現(xiàn)執(zhí)行異?,F(xiàn)象,此時應(yīng)急小組總指揮需要根據(jù)該數(shù)據(jù),為繼續(xù)排除該技術(shù)故障,或忽略故障直接跳轉(zhuǎn)至下個操作節(jié)點而做出決策。
1.2.2關(guān)鍵數(shù)據(jù)劃分
沒有一個應(yīng)急響應(yīng)計劃可以滿足所有場景的需求,特別是面對地震等顛覆性的自然災(zāi)害時。當(dāng)數(shù)據(jù)中心出現(xiàn)無法避免的損失的情況下,需以關(guān)鍵數(shù)據(jù)的劃分結(jié)果為依據(jù)進(jìn)行取舍。
關(guān)鍵數(shù)據(jù)需根據(jù)單位實際業(yè)務(wù)進(jìn)行劃分,沒有一成不變的規(guī)則。以該單位情況為例,個人郵件、計算結(jié)果等作為過程性文件,雖然有存儲價值,但是若出現(xiàn)損壞,其影響面僅局限于少部分使用者,故定義為一般數(shù)據(jù);而對于數(shù)據(jù)庫存儲的事務(wù)型數(shù)據(jù)和文件服務(wù)器存儲的存檔文件,其數(shù)據(jù)的完整性必須得到保證,故定義為關(guān)鍵數(shù)據(jù)。
當(dāng)出現(xiàn)應(yīng)急關(guān)機(jī)情況時,對關(guān)鍵數(shù)據(jù)存放的設(shè)備和應(yīng)用系統(tǒng)應(yīng)優(yōu)先考慮,這樣的處置策略才能保證數(shù)據(jù)中心存儲安全的最大化。
1.3關(guān)機(jī)完結(jié)確認(rèn)
考慮到現(xiàn)在各單位的數(shù)據(jù)中心規(guī)模愈發(fā)龐大,當(dāng)完成緊急關(guān)機(jī)操作后,必須對數(shù)據(jù)中心內(nèi)部署的硬件、軟件系統(tǒng)進(jìn)行復(fù)核工作,以保證所有系統(tǒng)均按照關(guān)機(jī)要求關(guān)閉,防止因為人為疏忽或技術(shù)故障,導(dǎo)致某系統(tǒng)未正常關(guān)閉,由此帶來數(shù)據(jù)損失。
在該單位實施時,采用技術(shù)手段與管理手段相結(jié)合的方式,確保該行動項的執(zhí)行。在技術(shù)手段方面,采用ICINGA[3]網(wǎng)絡(luò)管理軟件,將數(shù)據(jù)中心內(nèi)的設(shè)備進(jìn)行集成,其運行狀態(tài)信息均在此平臺上進(jìn)行實時顯示。當(dāng)完成除基礎(chǔ)網(wǎng)絡(luò)設(shè)備以外的所有系統(tǒng)的關(guān)機(jī)操作后,通過ICINGA管理軟件進(jìn)行檢查,確定受監(jiān)控的系統(tǒng)和設(shè)備已處于關(guān)機(jī)狀態(tài)。同時,通過關(guān)機(jī)操作員A、B角色的劃分,保證應(yīng)急小組的操作員進(jìn)行交叉檢查,確保關(guān)機(jī)操作的準(zhǔn)確到位。
1.4演練與評估
當(dāng)應(yīng)急關(guān)機(jī)策略制訂完成后,應(yīng)定期組織應(yīng)急小組培訓(xùn)與演練[4],確保應(yīng)急響應(yīng)人員熟悉處置過程、累積處理經(jīng)驗。應(yīng)急演練有兩種基本方式:課堂演練和功能演練。課堂演練的參與人員在桌面上對規(guī)程進(jìn)行排演,而不實際進(jìn)行操作,其目的是使人員初步熟悉處置過程;而功能演練相當(dāng)于實戰(zhàn)演習(xí),作用是驗證預(yù)案的完備性、正確性和有效性。
每次培訓(xùn)均應(yīng)做好完備的記錄,以備對執(zhí)行策劃進(jìn)行評估。評估應(yīng)著重以下方面:1) 策略是否合理;2) 技術(shù)措施是否有效;3) 工作流程是否合理,可否優(yōu)化;4) 所有軟硬件資源是否充分;5) 人力資源是否足夠;6) 人員技能是否滿足要求。
預(yù)案策略的建立并不意味其內(nèi)容和存在方式都是一成不變的,應(yīng)隨著時間的推移和技術(shù)的發(fā)展而不斷變化。應(yīng)急演練為這個更新的過程提供了良好的實驗基礎(chǔ)。通過對演練過程的重復(fù)操作,從而對處理流程進(jìn)行不斷迭代,達(dá)到過程優(yōu)化的目的。
鑒于每個單位數(shù)據(jù)中心應(yīng)用環(huán)境、設(shè)備部署和運行方式均有明顯的差異,因此沒有一種解決方案可滿足所有場景需求。本文結(jié)合實際情況,從應(yīng)急關(guān)機(jī)操作出發(fā),對具備共通性的要點進(jìn)行總結(jié)歸納。
2.1自動化關(guān)機(jī)應(yīng)用
當(dāng)突發(fā)事件發(fā)生時,數(shù)據(jù)中心必須在規(guī)定的時間內(nèi)緊急關(guān)閉。由于依賴人工手動的方式完成關(guān)機(jī)操作已經(jīng)無法滿足實際要求,因此如何借助新技術(shù)手段,逐步實現(xiàn)自動化關(guān)機(jī),將是數(shù)據(jù)中心應(yīng)急響應(yīng)手段發(fā)展的主要目標(biāo)之一。
在該單位實際操作中,現(xiàn)已在機(jī)房內(nèi)部署了一臺管理控制機(jī),作為開/關(guān)機(jī)的操作臺。通過集成,使用網(wǎng)絡(luò)遠(yuǎn)程操作的方式,以批處理文件完成大量設(shè)備和關(guān)鍵應(yīng)用的關(guān)機(jī)操作。實現(xiàn)自動化關(guān)機(jī)后,關(guān)機(jī)人員的工作量大大減少,而關(guān)機(jī)執(zhí)行的可靠性和效率大大提高。后期,還打算與網(wǎng)絡(luò)管理系統(tǒng)進(jìn)行集成,完成關(guān)機(jī)、校驗等多流程的一鍵化操作。
2.2群集系統(tǒng)的應(yīng)急關(guān)機(jī)
為提高數(shù)據(jù)中心運行的穩(wěn)定性,在數(shù)據(jù)中心大量采用群集技術(shù),如主從冗余、雙機(jī)熱備等,實現(xiàn)應(yīng)用服務(wù)的高可靠運行。但是上述技術(shù)手段的應(yīng)用,對數(shù)據(jù)中心的應(yīng)急關(guān)機(jī)操作也提出了更高的要求。防止出現(xiàn)應(yīng)急關(guān)機(jī)操作被系統(tǒng)誤認(rèn)為是運行故障的情況,而給正常關(guān)機(jī)帶來阻礙。
該單位在關(guān)閉群集系統(tǒng)時,曾經(jīng)出現(xiàn)過關(guān)閉數(shù)據(jù)庫系統(tǒng)前,由于未停止故障偵聽服務(wù),數(shù)據(jù)庫系統(tǒng)誤認(rèn)為運行故障發(fā)生,導(dǎo)致觸發(fā)主從數(shù)據(jù)庫的角色切換。上述的誤操作行為,極大延長了關(guān)機(jī)時間,為數(shù)據(jù)中心帶來了運行隱患。
2.3備件提供
每次應(yīng)急關(guān)機(jī)操作執(zhí)行后,數(shù)據(jù)中心的硬件設(shè)備均有可能出現(xiàn)損壞的現(xiàn)象。根據(jù)該單位實際運行經(jīng)驗,電源、硬盤為故障發(fā)生的主要集中部位。數(shù)據(jù)中心必須提前采購和準(zhǔn)備少量部件,當(dāng)數(shù)據(jù)中心恢復(fù)運行時,一旦遇到上述故障,可以及時更換,以備不時之需。
為確保數(shù)據(jù)中心的運行安全,必須針對單位信息系統(tǒng)的特點,有的放矢地建立應(yīng)急響應(yīng)計劃并做好相關(guān)管理工作。只有這樣才能做到有備無患,防范于未然。該單位數(shù)據(jù)中心經(jīng)歷了2008年5·12汶川地震和2013年4·20蘆山地震,為防止次生災(zāi)害,均采取了應(yīng)急關(guān)機(jī)操作,由于處置及時,未發(fā)生大規(guī)模的數(shù)據(jù)丟失和設(shè)備損壞事件,為運行數(shù)據(jù)的完整性和可靠性提供了有力保證。
[1] 馮智圣.區(qū)域數(shù)據(jù)中心信息安全防護(hù)技術(shù)探討[J]. 華南金融電腦,2009(1):7-10.
[2] 石國忠,龐景瑞,張文華. 省域數(shù)據(jù)中心災(zāi)難應(yīng)急方案[J]. 中國金融電腦,2004(9):81-83.
[3] Icinga, Inc. Icinga Documentation[EB/OL]. [2014-11-14]. http:// docs.icinga.org/latest/en/
[4] 姚剛. 試論信息系統(tǒng)應(yīng)急預(yù)案編制及演練[J]. 信息系統(tǒng)工程,2013(2):17-19.
Research on emergency shutdown plan for data center
YANG Dawei, XIAO Anhong, ZHANG Na, FENG Yunjiao, , PENG Hui
(State Key Laboratory of Reactor System Design Technology,Nuclear Power Institute of China, Sichuan Chengdu, 610041, China)
It introduces how to ensure the information system to shut down in a short period of time and avoid the data losses due to the secondary disasters when emergency issues happen. This method provides the technical guarantee for the system running safely and securely.
data center; disaster recovery processing; emergency shutdown
10.3969/j.issn.2095-509X.2015.05.012
2015-02-02
楊大為(1983—),男,四川宜賓人,中國核動力研究設(shè)計院工程師,碩士,主要從事核動力裝置軟件研發(fā)及高性能計算技術(shù)應(yīng)用工作。
TP311.5
A
2095-509X(2015)05-0052-03