寧浩宇,李囈瑾,張 敏,陳 超
(云南電網(wǎng)有限責(zé)任公司,云南 昆明 650000)
(1)IT運維人員成本高。高效的運維是數(shù)據(jù)中心成功運行的基礎(chǔ)。數(shù)據(jù)中心網(wǎng)絡(luò)設(shè)備和IT資源具有設(shè)備數(shù)量多、業(yè)務(wù)應(yīng)用復(fù)雜、新舊技術(shù)架構(gòu)多樣等特點。如何簡化企業(yè)數(shù)據(jù)中心的運維管理,降低人力和人工運維成本,是企業(yè)數(shù)據(jù)中心發(fā)展面臨的重要挑戰(zhàn)[1]。
(2)“救火式”IT運維模式。IT操作人員往往會花很多時間和精力在一些簡單且重復(fù)的問題的,本身在提高質(zhì)量上就存在一定難度,加上早期對故障預(yù)警機(jī)制并不是很完美的情況下,往往是發(fā)生故障后報警才處理,不僅產(chǎn)生一個惡性連鎖反應(yīng)而且還經(jīng)常徒勞和失敗,IT部門和業(yè)務(wù)部門對此都不滿意。
(3)簡單的自動化程度起“反作用”。近幾年來,隨著IF運維管理技術(shù)的提升,能有效提前預(yù)知解決問題,但實際上自動化程度還是偏低。即使技術(shù)能夠提取出設(shè)備、服務(wù)器、數(shù)據(jù)庫等的預(yù)警信息,但當(dāng)成千上萬的數(shù)據(jù)堆積在一起時,運維人員仍然難以判斷出主要問題發(fā)生的位置。
(4)業(yè)務(wù)需求增多。隨著行業(yè)業(yè)務(wù)驅(qū)動的需求增多,存儲、交換機(jī)、云存儲等IT基礎(chǔ)設(shè)備種類越來越多,對運維管理人員的知識和技能提出了更高的要求。如何通過多品牌的IT環(huán)境,實現(xiàn)對IT運維的可預(yù)見性,充分發(fā)揮數(shù)據(jù)中心設(shè)備的可用性,是當(dāng)前形勢所趨。
IT設(shè)施的運行能力主要在于單個IT組件實用性和整個IT設(shè)施的靈活性。通常指在一定時間內(nèi)其執(zhí)行功能的能力,以確保所提供的所有服務(wù)的可用性水平,并滿足或超過當(dāng)前和未來業(yè)務(wù)可用性要求的能力。
負(fù)責(zé)將版本轉(zhuǎn)移到測試和現(xiàn)場環(huán)境,包括計劃和控制;確?,F(xiàn)場環(huán)境的版本以及發(fā)布的組件版本;負(fù)責(zé)將新的或者變更的硬性、軟件、文檔、流程等移動到生產(chǎn)環(huán)境的活動。
定期進(jìn)行業(yè)務(wù)應(yīng)用系統(tǒng)備份與恢復(fù)。
2.3.1 應(yīng)用系統(tǒng)備份
按照要求定期核查應(yīng)用系統(tǒng)備份情況。
2.3.2 應(yīng)用系統(tǒng)恢復(fù)
按照要求參與應(yīng)用系統(tǒng)恢復(fù)和演練工作,包括應(yīng)用系統(tǒng)恢復(fù)操作后,驗證恢復(fù)結(jié)果;應(yīng)用系統(tǒng)恢復(fù)后的性能與功能檢查;其他必要的操作,如年度應(yīng)急恢復(fù)演練。
2.3.3 數(shù)據(jù)庫備份操作
由于備份要求納入到備份軟件的統(tǒng)一管理之下。故DM數(shù)據(jù)庫會定期進(jìn)行全量備份、增量備份與刪除過期備份的操作(本地文件系統(tǒng)最少保留一個周期的備份文件),中心備份軟件定期從指定的備份目錄下讀取備份文件并傳送到磁帶庫歸檔。
(1)數(shù)據(jù)庫備份工作流程為:數(shù)據(jù)庫定期做全量和增量備份,備份文件存放到本地文件系統(tǒng)中; 中心備份軟件從備份文件路徑下獲取備份文件,拷貝或轉(zhuǎn)移到磁帶庫進(jìn)行統(tǒng)一管理;達(dá)夢數(shù)據(jù)庫定期清理過期備份數(shù)據(jù),防止占用太多磁盤空間。
(2)達(dá)夢數(shù)據(jù)庫開啟歸檔備份功能,備份策略:每周日3點全庫備份,每天2時進(jìn)行一次增量備份。每天5時刪除超過30天之前的備份。備份文件從生成起到被刪除的30天之內(nèi),備份軟件可將其歸檔到磁帶庫。
2.3.4 數(shù)據(jù)庫備份操作
DM7提供了脫機(jī)方式和聯(lián)機(jī)方式執(zhí)行備份操作。脫機(jī)方式,即數(shù)據(jù)庫服務(wù)器關(guān)閉以后所進(jìn)行的備份,聯(lián)機(jī)方式則是指數(shù)據(jù)庫服務(wù)器正常運行過程中進(jìn)行的備份。脫機(jī)備份方式需要對數(shù)據(jù)庫進(jìn)行關(guān)閉,期間用戶如需訪問則會產(chǎn)生一定影響,而且需要重要數(shù)據(jù)都是全天候訪問形式,所以一般采用聯(lián)機(jī)備份方式。
2.3.5 手動備份
數(shù)據(jù)庫的備份還原是系統(tǒng)容災(zāi)的重要方法,為保證數(shù)據(jù)的安全穩(wěn)定,通常采用配置異地容災(zāi),使用磁盤陣列,備份與還原等方法。備份主要是通過復(fù)制將重要的數(shù)據(jù)復(fù)制到安全的存儲戒指上,同時在必要時將以前備份的數(shù)據(jù)復(fù)制到原始位置,以確保用戶可以訪問這些數(shù)據(jù)。達(dá)夢數(shù)據(jù)庫常用備份恢復(fù)命令舉例:
(1)對名為test數(shù)據(jù)庫執(zhí)行一個完全備份。
DMBAC-UPTYPE=FULLINI_PATH=c:dmdatadamengdm.iniNAME=test
增量備份需要指定基備份,然后類型FULL改為INCREMENT。
(2)聯(lián)機(jī)備份數(shù)據(jù)庫,并對備份數(shù)據(jù)壓縮,備份文件存放路徑為C:database_cpr.bak。
BACKUPDATABASE-FULLTOcpr_ bakBAKFILE'C: database_cpr.bak'COMPRESSED;
(3)利用備份文件c:dmdataackup est.bak 還原數(shù)據(jù)庫。
DMRESTORE-NI_PATH=c:dmdatadamengdm.iniFILE=c:dmdataackup est.bak
(4)利用指定歸檔目錄下歸檔日志還原數(shù)據(jù)庫test。
DMRESTOREI-NI_PATH=c:dmdatadamengdm.iniFILE=c:dmdataackup est.bak
ARCHIVE_DIR=c:dmdatadamengarch
2.3.6 開啟歸檔
聯(lián)機(jī)備份,除了備份物理數(shù)據(jù)文件還需要備份物理日志文件。備份日志文件的目的是保證數(shù)據(jù)庫的完整性,這里提到的物理日志文件是歸檔日志文件。歸檔文件主要是備份所有用戶對數(shù)據(jù)庫進(jìn)行的操作,在還原時,可以通過歸檔日志文件內(nèi)容將數(shù)據(jù)庫恢復(fù)到備份狀態(tài)。
聯(lián)機(jī)備份時系統(tǒng)需處于歸檔模式下,需要配置data/DAMENG下配置dm.ini和dmarch.ini 2個文件,相關(guān)配置如下。
(1)打開dm.ini中的歸檔開關(guān):
ARCH_INI=1
(2)配置dmarch.ini,例如:
[ARCHIVE_LOCAL1]
ARCH_TYPE=LOCAL#歸檔類型LOCAL/REALTIME
ARCH_DEST=#歸檔目標(biāo)路徑
ARCH_FILE_SIZE=128#單個REDO日志歸檔文件大小,單位Mb,缺省128M。
ARCH_SPACE_LIMIT=具體按照你那邊的磁盤空間和注釋限制設(shè)置#REDO日志歸檔空間限制, 單位為Mb,0表示無空間限制,取值范圍(1 024 M ~4 294 967 294 M)。
以上2個修改,需要重啟數(shù)據(jù)庫服務(wù)器或者數(shù)據(jù)庫處于mount狀態(tài)設(shè)置后才能生效。
2.3.7 定時備份
DM的作業(yè)與調(diào)度系統(tǒng)可以對作業(yè)調(diào)度進(jìn)行相應(yīng)的管理,用戶可以通過DM的作業(yè)與調(diào)度系統(tǒng)進(jìn)行創(chuàng)建作業(yè),還可以實現(xiàn)對數(shù)據(jù)庫的操作,將作業(yè)執(zhí)行結(jié)果通知反饋給操作員。
(1)創(chuàng)建代理環(huán)境。右擊代理,選擇創(chuàng)建代理環(huán)境。如圖1所示。
圖1 創(chuàng)建代理環(huán)境
(2)新建備份作業(yè)。右擊作業(yè),新建作業(yè)。如圖2所示。
圖2 新建作業(yè)
(3)設(shè)置作業(yè)步驟。添加作業(yè),步驟類型選擇備份數(shù)據(jù)庫,設(shè)置備份路徑,備份方式選擇全量備份,其他默認(rèn)即可。如圖3所示。
圖3 新建作業(yè)步驟
(4)設(shè)置作業(yè)調(diào)度。添加作業(yè)調(diào)度,調(diào)度類型選擇反復(fù)執(zhí)行,根據(jù)需求選擇調(diào)度頻率,如每周一凌晨1點執(zhí)行。最后點擊確定創(chuàng)建成功。如圖4所示。
圖4 新建作業(yè)調(diào)度
2.3.8 定時刪除過期備份
(1)創(chuàng)建刪除過期備份文件的函數(shù)SF_DEL_ DB_BAK_EXPIRED。
(2)新建作業(yè)。右鍵點擊“代理”,創(chuàng)建代理環(huán)境;右鍵點擊“作業(yè)”→“新建作業(yè)”,在根據(jù)頁面提示輸入作業(yè)名、作業(yè)描述等信息。如圖5所示。
圖5 新建刪除作業(yè)
(3)設(shè)置作業(yè)。點擊“選擇項”→“作業(yè)步驟”→新建,在彈出的頁面中輸入步驟名稱、步驟類型(SQL腳本)、腳本語句(Ca l l"SF_DEL_DB_ BAK_EXPIRED"('DAMENG','路徑',' ',7);這里'DAMENG'指的是數(shù)據(jù)庫名,7代表刪除7天之前的備份文件),點擊“確定”按鈕。如圖6所示。
圖6 設(shè)置作業(yè)步驟
(4 )設(shè)置調(diào)度。點擊“ 選擇項”→ “作業(yè)調(diào)度”→“新建”,根據(jù)彈出的頁面信息輸入名稱、調(diào)度類型(反復(fù)執(zhí)行)、發(fā)生頻率的類型(根據(jù)實際需求,可以選擇周或天)、每日頻率執(zhí)行一次(根據(jù)實際情況設(shè)置時間),再點擊“確定”按鈕。如圖7所示。
圖7 設(shè)置作業(yè)調(diào)度
點擊“確定”按鈕,自動定時刪除過期備份的作業(yè)就設(shè)置成功了。
信息安全管理是指對數(shù)據(jù)系統(tǒng)的安全管理。保證不因意外或惡意原因破壞計算機(jī)硬件、軟件,保護(hù)組織資產(chǎn)、信息、數(shù)據(jù)和IT服務(wù)的保密性、完整性和可用性。信息安全管理過程應(yīng)確保信息安全控制措施能夠保護(hù)信息資產(chǎn),同時,新業(yè)務(wù)和變化業(yè)務(wù)的設(shè)計和改造應(yīng)考慮信息安全要求。
事件管理的目的是在最短的時間內(nèi)從故障中恢復(fù),最大限度地減少故障造成的損害,當(dāng)緊急故障得到解決時,它會轉(zhuǎn)移到問題管理級別,以便找到故障的原因,從而改變情況以應(yīng)對突出的事件。為保證系統(tǒng)在運維階段能夠得到有效的運行、維護(hù)和更新,在項目由實施團(tuán)隊交由運維團(tuán)隊運維的過程中,實施團(tuán)隊需要根據(jù)項目運維需要進(jìn)行有針對性的技能培訓(xùn),確保運維團(tuán)隊成員掌握項目相關(guān)知識,具備運維能力,能夠獨立解決運維過程中各種系統(tǒng)相關(guān)問題。
對于IT系統(tǒng),在維護(hù)、部署、管理等方面經(jīng)常發(fā)生故障而導(dǎo)致業(yè)務(wù)終端,嚴(yán)重影響系統(tǒng)的正常運轉(zhuǎn),只有對IT系統(tǒng)進(jìn)行相應(yīng)運維服務(wù)管理,才能根據(jù)各項業(yè)務(wù)進(jìn)行統(tǒng)籌安排,降低故障發(fā)生率減少損失。