郭德瑞
[摘 ? ?要] 結合企業(yè)信息化建設實際,撤銷子公司服務器機房,整合在用服務資源,應用云計算技術部署了統(tǒng)一的服務平臺,建立了云化遠程管理體系。通過兩地雙中心云化建設,對提高服務資源管理水平,降低生產經營成本效果十分明顯。
[關鍵詞] 兩地雙中心;整合;遷移;云計算
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2020. 07. 077
[中圖分類號] TP311 ? ?[文獻標識碼] ?A ? ? ?[文章編號] ?1673 - 0194(2020)07- 0186- 03
1 ? ? ?實施背景
信息化已經成為國際石油石化行業(yè)和石油企業(yè)調整優(yōu)化結構、提高管理水平、提升核心競爭力的重要方式和途徑。然而,隨著油田信息化助力管理提升實現(xiàn)高質量發(fā)展以及生產經營環(huán)境的變化,原有的服務資源分散管理帶來的問題日益突出。
本文通過開展信息服務資源整合,并應用云計算技術對服務資源實行遠程統(tǒng)一管理,以確保服務器資源穩(wěn)定運行,數(shù)據(jù)資源格式統(tǒng)一、數(shù)據(jù)源唯一,讀取數(shù)據(jù)便捷,保證應用系統(tǒng)安全可靠運行。
2 ? ? ?系統(tǒng)設計
2.1 ? 兩地雙中心框架設計
“兩地雙中心”是指同城加異地災備中心的災備模式,具高可用性和數(shù)據(jù)備份的能力。
異地災備中心是指在異地的城市建立一個備份的災備中心,用于主數(shù)據(jù)中心的數(shù)據(jù)備份,當主數(shù)據(jù)中心由于遭受自然災害等原因而發(fā)生故障時,異地災備中心可以用備份數(shù)據(jù)進行業(yè)務的恢復。
在網(wǎng)絡層,兩中心采用萬兆專網(wǎng)互連,保證雙中心之間較大的帶寬,響應實時的業(yè)務數(shù)據(jù)需求,為所有不同的業(yè)務提供支持和連接。
在數(shù)據(jù)存儲層,部署存儲陣列,通過流復制技術將數(shù)據(jù)實時同步到災備中心,保證數(shù)據(jù)的完整性和可用性。確保生產中心和災備中心的數(shù)據(jù)完全一致。異地站點的作用主要是在遭受自然災難,主數(shù)據(jù)中心網(wǎng)絡故障時可以確保在異地有一份完整的數(shù)據(jù)拷貝,用于后續(xù)業(yè)務的恢復。
2.2 ? 災難恢復能力等級需求
根據(jù)國家標準《信息系統(tǒng)災難恢復規(guī)范》(GB/T 20988-2007) 的定義:災難是指由于人為或自然的原因,造成信息系統(tǒng)嚴重故障或癱瘓,使信息系統(tǒng)支持的業(yè)務功能停頓或服務水平不可接受、達到特定的時間的突發(fā)性事件。
災難備份是指為了災難恢復而對數(shù)據(jù)、數(shù)據(jù)處理系統(tǒng)、網(wǎng)絡系統(tǒng)、基礎設施、專業(yè)技術支持能力和運行管理能力進行備份的過程;而災難恢復是指為了將信息系統(tǒng)從災難造成的故障或癱瘓狀態(tài)恢復到可正常運行狀態(tài)、并將其支持的業(yè)務功能從災難造成的不正常狀態(tài)恢復到可接受狀態(tài),而設計的活動和流程。災備系統(tǒng)的建設包含七要素:數(shù)據(jù)備份系統(tǒng)、備用數(shù)據(jù)處理系統(tǒng)、備用網(wǎng)絡系統(tǒng)、備用基礎設施、專業(yè)技術支持能力、運行維護管理能力、災難恢復預案。
《信息系統(tǒng)災難恢復規(guī)范》將災難恢復能力劃分為6級,災難恢復能力等級越高,對信息系統(tǒng)的保護效果越好,但同時成本也會迅速上升。災備等級主要從RTO(恢復時間目標) 和RPO(恢復點目標) 來考慮。RPO(恢復時間目標) 是指發(fā)生災難前最后一次備份的時間點距離當前時間差(數(shù)據(jù)丟失時間);RTO(恢復時間目標) 是指發(fā)生災難后恢復物理系統(tǒng)環(huán)境的時間。大部分的用戶關注的是數(shù)據(jù)安全性,即RPO值(RPO越小,數(shù)據(jù)丟失越少),但是用戶往往談的更多的是RTO(RTO越小,恢復生產越快)。
RTO/RPO災難恢復能力等級的關系見表1。
結合油田信息生產的實際需求和信息系統(tǒng)災難恢復目標的最低要求,以及《信息系統(tǒng)災難恢復規(guī)范》將災難恢復能力劃分為6級的要求,將兩地雙中心恢復能力定為5級。
2.3 ? 兩地雙中心建設策略
依照中國石油行業(yè)IT戰(zhàn)略規(guī)劃和架構的要求,筆者認為“兩地雙中心”的建設應按照如下策略進行:
兩地雙中心建設要滿足業(yè)務的需求。建設資金投入、功能、處理能力、管理方式等必須滿足目前的業(yè)務需求,同時還要兼顧未來發(fā)展的要求。
兩地雙中心需要建立高可用性的架構。其中災備中心啟用后,就開始為生產中心提供服務。因此災備中心也應該與生產中心一樣,對關鍵業(yè)務應用采用高可用性架構,以防止由于單點故障而引起宕機。
兩地雙中心設備應該得到充分利用。系統(tǒng)建設不僅要考慮到緊急情況下的使用情況,還要考慮日常如何利用。例如,為了在平時提供災備中心設備的利用率,可以利用災備中心的設備進行應用的開發(fā)和測試。
兩地雙中心建設以用先進、成熟的方法論作為指導,分階段進行。成熟的方法論為災備中心建設的成功提供了保障。
災備中心與生產中心使用結構相同的基礎架構和管理流程。這樣可以大大降低管理與運行維護的復雜度。災備中心的處理能力可以與生產中心不同,但是要滿足業(yè)務需要。建設的內容包括面向數(shù)據(jù)中心提供網(wǎng)絡通訊設備、通訊線路、存儲網(wǎng)絡設備的全面容錯和異地容災;面向數(shù)據(jù)中心提供部分關鍵業(yè)務系統(tǒng)的容錯和異地容。
3 ? ? ?兩地雙中心方案的實現(xiàn)
3.1 ? 實施應用系統(tǒng)和數(shù)據(jù)資源遷移
一是統(tǒng)計可遷移應用系統(tǒng)與用戶數(shù)據(jù)。對企業(yè)現(xiàn)有應用系統(tǒng)與相關數(shù)據(jù)進行統(tǒng)計,制作遷移計劃表。計劃8月底完成遷移工作,9-12月進行系統(tǒng)優(yōu)化,解決遷移過程中發(fā)現(xiàn)的問題,同時要做好規(guī)劃和分步實施。
二是組織開展數(shù)據(jù)和應用整合。分析數(shù)據(jù)庫和應用系統(tǒng)的邏輯結構和對應關系,逐步把油藏、采油等專業(yè)數(shù)據(jù)遷移到異地數(shù)據(jù)中心主數(shù)據(jù)庫系統(tǒng)中,梳理數(shù)據(jù)庫之間視圖關聯(lián)信息、數(shù)據(jù)維護軟件配置信息及數(shù)據(jù)分析應用軟件數(shù)據(jù)調用情況,建立統(tǒng)一的用戶訪問試圖,確保各項數(shù)據(jù)的唯一性,提高數(shù)據(jù)服務質量。
三是完成服務器物理整合。組織技術人員認真討論、分析各單位服務器性能,確定服務器整合、報廢原則,詳單見表2。將32位機器中運行的應用系統(tǒng)通過P2V的形式轉換到虛擬化集群當中,不改變數(shù)據(jù)庫和應用系統(tǒng)部署的邏輯結構,保證原有應用的穩(wěn)定運行,實現(xiàn)系統(tǒng)集中管理。對這些性能落后、無升級利用價值的硬件設備由原單位直接報廢。
3.2 ? 實施云計算遠程運行管理
堅持統(tǒng)一性原則建設一體化平臺,借助云計算技術通過集中式管理系統(tǒng)建立完善的數(shù)據(jù)體系和信息共享機制,其中集中式管理系統(tǒng)集中安裝在云計算平臺上,通過嚴密的權限管理和安全機制來實現(xiàn)平臺對數(shù)據(jù)和信息管理系統(tǒng)的把控和安全保障,實現(xiàn)了云管理。
通過開發(fā)統(tǒng)一、開放、包容、安全、穩(wěn)定的管理平臺。滿足了技術研究、生產管理、信息管理等各級人員的需求。實現(xiàn)了服務資源申請與分配業(yè)務的自動化、信息化管理。制定了服務器管理流程、應用系統(tǒng)管理流程、擴展業(yè)務管理流程和外網(wǎng)管理流程。通過在線設計、審批、實施、跟蹤流程,為業(yè)務和人員搭建了高效、共享的工作平臺,通過各項關鍵指標,掌握油田生產運行狀況,為決策管理層提供了有力工具。
3.3 ? 建立異地災備系統(tǒng),確保數(shù)據(jù)安全
3.3.1 ? 數(shù)據(jù)備份
一是建立同步數(shù)據(jù)備份機制。應用流復制技術建立異地數(shù)據(jù)中心主數(shù)據(jù)庫到本地數(shù)據(jù)中心的數(shù)據(jù)備份系統(tǒng),當有數(shù)據(jù)寫入數(shù)據(jù)庫時,數(shù)據(jù)庫間的同步機制會將數(shù)據(jù)復制一份到災備中心,實現(xiàn)數(shù)據(jù)庫實時備份。這種備份機制支持增量備份方式,可以節(jié)省數(shù)據(jù)備份的帶寬占用,縮短數(shù)據(jù)備份時間;二是建立異步數(shù)據(jù)備份機制。應用系統(tǒng)任務計劃與Oracle EXP/IMP機制,定期將數(shù)據(jù)復制備份,實現(xiàn)了數(shù)據(jù)日備份。通過這兩種方式,提高了數(shù)據(jù)的安全性和服務的可靠性。
3.3.2 ? 業(yè)務應用備份與恢復實現(xiàn)
應用環(huán)境備份的目的是確保災備中心能夠快速重建數(shù)據(jù)中心應用系統(tǒng)環(huán)境,并實現(xiàn)備份業(yè)務系統(tǒng)對生產系統(tǒng)有效替代。對應用環(huán)境備份的設計要點包括:
通過配置實現(xiàn)數(shù)據(jù)中心應用環(huán)境的一致性。災備中心的應用環(huán)境在技術路線、設備部署方面應盡量保證與數(shù)據(jù)中心應用環(huán)境一致。這樣有利于提高災備應用環(huán)境與生產應用環(huán)境之間手工切換的效率,也有利于日常檢驗災備應用環(huán)境的可用性。一般可通過災備應用環(huán)境定期向生產應用環(huán)境讀取配置文件、參數(shù)等方式,實現(xiàn)兩者配置的同步。
災備中心業(yè)務系統(tǒng)實現(xiàn)集群間自動切換模式。數(shù)據(jù)中心應用服務器一般通過HA等技術建立高可用性集群,保證本地應用服務的高可靠性,滿足RTO一小時以內的災備恢復需求。對于數(shù)據(jù)通過手工方式進行主備數(shù)據(jù)庫切換,恢復信息運行。
采用虛擬化技術對備份環(huán)境進行整合。災備中心應用環(huán)境備份資源畢竟有限,充分利用備份應用資源對數(shù)據(jù)中心應用環(huán)境保護十分重要。虛擬化技術可實現(xiàn)一臺物理應用服務器對多臺邏輯服務器的虛擬。這樣在數(shù)據(jù)中心里,大量性能要求不苛刻、RTO要求在數(shù)小時以上的應用系統(tǒng)災備環(huán)境就可以集中部署在少數(shù)的硬件服務器資源中,有利于災備中心盡可能提高對數(shù)據(jù)中心應用系統(tǒng)的災備范圍。保障本單位生產的持續(xù)性和穩(wěn)定性,提高安全性與可靠性。
3.4 ? 完善運維體系,確保服務質量
實行服務器資源云遷移后,應用系統(tǒng)和數(shù)據(jù)全部集中在異地數(shù)據(jù)中心,服務器資源的申請與運維對企業(yè)生產經營管理的順利開展具有決定性影響,因此開展了制度與崗位職責的重新修訂。運維管理范圍涵蓋本地數(shù)據(jù)中心運維和異地數(shù)據(jù)中心資源運維管理兩部分。依據(jù)上級公司數(shù)據(jù)中心相關管理規(guī)范,修訂了《數(shù)據(jù)中心運維管理制度》進一步加強了機房門禁卡發(fā)放、機房出入、設備巡檢、故障處理流程等管理內容。同時,修改了中心值班管理內容,增加了非工作時間值班人員機房狀態(tài)檢查記錄與處理流程。將異地數(shù)據(jù)中心云資源聯(lián)系人由一人增至兩人,確保聯(lián)系暢通,有效保證了本地機房與云資源安全穩(wěn)定運行。
4 ? ? ?結 ? ?論
通過兩地雙中心云化建設,對提高服務資源管理水平,減低生產經營成本效果十分明顯。一是安全性和服務可靠性進一步提升;二是成本壓力有效降低;三是提高了數(shù)據(jù)服務質量;四是提高工作效率,節(jié)省了人力和工作時間;五是完善的運維業(yè)務管理為信息生產提供巨大支持作用。