摘要:在企業(yè)規(guī)模逐漸擴大,業(yè)務(wù)數(shù)據(jù)量逐年上升的背景下,對于各個單位數(shù)據(jù)中心的運維管理工作有了更為嚴格的要求,需要在保證數(shù)據(jù)庫高效穩(wěn)定運行的基礎(chǔ)之上,盡可能優(yōu)化數(shù)據(jù)庫服務(wù)性能。本文便結(jié)合筆者對數(shù)據(jù)中心自動化運維管理平臺的設(shè)計經(jīng)驗,以某地區(qū)數(shù)據(jù)中心自動化運維管理平臺為例,從實際功能需求入手,簡要分析其設(shè)計方案,進而達到加強數(shù)據(jù)中心管理效能的目的。
關(guān)鍵詞:數(shù)據(jù)中心;自動化運維管理平臺;功能需求;設(shè)計方案
目前各單位數(shù)據(jù)中心集群管理的自動化水平較低,管理方式較為落后,甚至部分企業(yè)還采用手動運維的維護模式,其維護管理質(zhì)量均處于一個較低水平。由此可見,各單位對于數(shù)據(jù)中心自動化運維管理的需求極為迫切,具有良好自動化水平的運維管理平臺有助于管理人員對數(shù)據(jù)中心的管理流程不斷優(yōu)化,提高數(shù)據(jù)中心的業(yè)務(wù)保障能力,進而實現(xiàn)全天候無人值守的管理理念。
一、數(shù)據(jù)中心自動化運維管理平臺功能需求
(一)基本原則
基于Web應(yīng)用的特點,數(shù)據(jù)中心自動化運維管理平臺應(yīng)當符合下述構(gòu)建原則。一是可靠性原則。該管理平臺應(yīng)當首先遵循可靠性原則,確保相關(guān)監(jiān)控軟件、設(shè)備的反饋數(shù)據(jù)真實準確。并在對數(shù)據(jù)中心進行自動化維護管理過程中通過校驗以及數(shù)據(jù)提取確定監(jiān)控所獲取數(shù)據(jù)的準確性,確保監(jiān)控數(shù)據(jù)能夠為自動運維管理平臺運行提供數(shù)據(jù)支持。二是安全性原則。多數(shù)數(shù)據(jù)中心所存儲的數(shù)據(jù)均是企業(yè)、單位的核心數(shù)據(jù),與企業(yè)、單位的核心業(yè)務(wù)存在直接聯(lián)系,其重要性不言而喻。因此,自動化運維管理平臺應(yīng)當提高對監(jiān)測數(shù)據(jù)安全性的重視程度,必要時刻需要對管理人員的口令進行驗證,以此保證數(shù)據(jù)中心的數(shù)據(jù)安全[1]。三是規(guī)范性原則。數(shù)據(jù)中心的運維管理工作較為復雜,包括但不限于數(shù)據(jù)庫擴容、同步處理數(shù)據(jù)等。因此該運維管理平臺需要在企業(yè)、單位原有運維模式的基礎(chǔ)上對與數(shù)據(jù)中心運維相關(guān)的工作進行規(guī)范化,進而實現(xiàn)自動化、規(guī)范化運維。四是對接性原則。對接性指的是管理人員與管理平臺之間、管理平臺與其他同類平臺的對接能力。該管理平臺需要在特定條件下切換至數(shù)據(jù)庫的管理端,對相應(yīng)設(shè)置、功能進行修改。五是高性能原則?;赪eb本身,數(shù)據(jù)中心在龐大數(shù)據(jù)流的影響下,很容易出現(xiàn)業(yè)務(wù)響應(yīng)遲緩的現(xiàn)象。因此,運維管理平臺必須具備高性能,確保能夠及時完成業(yè)務(wù)響應(yīng),對于數(shù)據(jù)的存儲以及監(jiān)測結(jié)果的數(shù)據(jù)反饋必須在2s以內(nèi)。除此之外,運維管理平臺在日常運行過程中,其處理器最大占用率應(yīng)當在50%以下,為特殊情況下的超頻運行做準備,最后對于內(nèi)容部署、IP訪問、業(yè)務(wù)執(zhí)行等功能響應(yīng)時長應(yīng)當在1.5s以內(nèi)。
(二)功能需求
1.腳本需求
在開發(fā)自動化腳本時,應(yīng)當從下列幾方面入手[2]。一是對數(shù)據(jù)庫表層空間的監(jiān)控功能。此部分功能需要在表空間生成SQL以及Shell等腳本,利用此兩種腳本對數(shù)據(jù)庫中的空閑信息、掛載空間進行監(jiān)控。并執(zhí)行Check-Oracle-DB.SQL程序,對當前增長值與可用空間信息進行監(jiān)控。二是實現(xiàn)自動化添加數(shù)據(jù)文件。能夠在每日收集表空間數(shù)據(jù)任務(wù)完成后創(chuàng)建日志,并在對應(yīng)的腳本中對相應(yīng)管理人員進行授權(quán),進而達到確定系統(tǒng)部署的目的。三是數(shù)據(jù)庫登錄授權(quán)。為保證數(shù)據(jù)中心的安全性,應(yīng)當在數(shù)據(jù)庫的登錄過程中對用戶的IP、基本信息進行查詢,自動判斷其是否處于合法網(wǎng)段。
2.管理業(yè)務(wù)需求
數(shù)據(jù)中心運維中的業(yè)務(wù)需求具體如下。一是權(quán)限管理。管理人員可以在此層面對相關(guān)賬號進行賦權(quán),設(shè)定該賬號在數(shù)據(jù)中心的權(quán)限以及時間長度,權(quán)限內(nèi)容包括但不限于增加數(shù)據(jù)、修改數(shù)據(jù)、刪除數(shù)據(jù)等。二是IP管理。此部分指的是對數(shù)據(jù)中心的訪問IP進行管理,在設(shè)定IP過程中需要對客戶端的IP等級以及具體IP進行設(shè)定,確定IP的訪問等級。管理人員需要在管理端對IP等級、內(nèi)容進行調(diào)整、修改。三是自動部署。該管理平臺需要在腳本內(nèi)容的基礎(chǔ)上對數(shù)據(jù)庫目標進行確定,并按照預先設(shè)定的部署要素進行執(zhí)行,及時向管理人員反饋執(zhí)行結(jié)果。四是后臺管理。該管理平臺需要實現(xiàn)遠程管理功能,在確定權(quán)限后,具有權(quán)限的賬號能夠?qū)υ摍?quán)限組下所連接的信息進行修改。
3.監(jiān)控業(yè)務(wù)需求
監(jiān)控業(yè)務(wù)需求較為簡單,只需要對數(shù)據(jù)中心的表空間與存儲過程進行監(jiān)控維護,具體如下。一是對表空間進行維護。此部分功能指的是以數(shù)據(jù)庫所存儲的表單信息、名稱以及文件名為基礎(chǔ),對數(shù)據(jù)中心表空間的大小、空間、各項參數(shù)、空閑空間、空間占比進行監(jiān)控,并對數(shù)據(jù)表的運行狀態(tài)進行監(jiān)測。二是對存儲過程進行監(jiān)控。此部分功能同樣需要以數(shù)據(jù)庫運行為基礎(chǔ),對其存儲過程的名稱、大小進行監(jiān)控。若出現(xiàn)錯誤代號以及時間,需要對具體描述進行記錄。
二、數(shù)據(jù)中心自動化運維管理平臺設(shè)計方案
為說明數(shù)據(jù)中心自動化運維管理平臺的建設(shè)策略,本文以本市某三甲醫(yī)院的信息化建設(shè)項目為例進行說明。下文便對該項目中自動化運維管理平臺的整體架構(gòu)、功能架構(gòu)、腳本設(shè)計、管理業(yè)務(wù)設(shè)計、監(jiān)控業(yè)務(wù)設(shè)計進行詳細闡述[3]。
(一)整體架構(gòu)設(shè)計
該運維管理平臺整體結(jié)構(gòu)應(yīng)當包括管理自動化、操作審計、監(jiān)控自動化以及操作平臺等,具體如圖1。該管理平臺的自動化應(yīng)當體現(xiàn)在配置管理、日常維護、信息發(fā)布等方面。用配置管理功能對企業(yè)、單位的現(xiàn)有IP進行分配,實現(xiàn)全過程自動化運維,從而達到提高運維工作效率的目的。運維工作的結(jié)果反饋需要發(fā)布在管理平臺中,以此為管理人員提供分析工作的數(shù)據(jù)依據(jù)。操作審計則是體現(xiàn)在審計日志以及級別授權(quán)方面。監(jiān)控方面的自動化表現(xiàn)則是表現(xiàn)在集中監(jiān)控以及自動巡檢方面,管理人員可以通過操作平臺對監(jiān)控所反饋的數(shù)據(jù)進行集中處理,最大限度提高巡檢工作的工作效率。該系統(tǒng)內(nèi)部所存在的作業(yè)、數(shù)據(jù)、管理、配置等功能則由各類操作平臺負責,以此完成對數(shù)據(jù)庫集群的規(guī)范化管控。除此之外,該系統(tǒng)還需要支持Oracle主流數(shù)據(jù)庫的運維。
(二)功能架構(gòu)設(shè)計
該管理平臺是由兩大部分組成,分別為自動化腳本、自動化管理端組成,其中管理業(yè)務(wù)與監(jiān)控業(yè)務(wù)均屬于自動化管理端。并在自動化腳本中設(shè)置表空間監(jiān)控功能、增加刪除數(shù)據(jù)文件功能、登錄限制功能、授權(quán)功能等。其自動化管理功能則具體包括權(quán)限管理、自動部署管理、IP管理、后臺管理等。管理人員可以通過權(quán)限管理對相應(yīng)賬號進行賦權(quán),并在IP管理中設(shè)置增加用戶及訪問IP的功能。具體功能架構(gòu)如圖2。
(三)運維腳本設(shè)計
該自動化管理平臺的核心功能便是對數(shù)據(jù)中心的表空間進行監(jiān)控,當其整體利用率達到一定數(shù)值后,便可提出擴容申請。而人工監(jiān)控的方法較為落后,所需時間較長,也很難對表空間以往的歷史變化進行記錄。因此,需要在其中加入自動監(jiān)控腳本以及添加數(shù)據(jù)腳本,以此實現(xiàn)自動監(jiān)控[4]。
監(jiān)控腳本的具體流程如圖3。在自動添加數(shù)據(jù)腳本過程中,首先需要對數(shù)據(jù)庫設(shè)置定時任務(wù)調(diào)用,并明確存儲過程,其次對該文件進行判斷,判斷其是否需要添加數(shù)據(jù),若結(jié)果為是則開始在數(shù)據(jù)庫表空間中添加相應(yīng)數(shù)據(jù)文件,若結(jié)構(gòu)為否則直接結(jié)束。在上述過程中,對任務(wù)的定時調(diào)用需要使用Shell腳本,通過調(diào)動SQL的形式實現(xiàn)此功能。在SQL腳本內(nèi),需要對Data視圖進行查詢來確定表空間的實際利用情況,并用Free-Space對剩余空間進行計算。進而估算出剩余表空間的可用天數(shù),最后匯總成表格,發(fā)送至管理人員的郵箱中。由于該項目中數(shù)據(jù)庫類型為Oracle,若單純使用上述腳本對表空間進行查詢極有可能出現(xiàn)查詢結(jié)果為負數(shù)的情況,為防止此類情況出現(xiàn),當查詢結(jié)果為負數(shù)時,則將其增長值強制賦予為1MB。
(四)管理業(yè)務(wù)設(shè)計
在該管理平臺的管理業(yè)務(wù)端設(shè)計了邏輯類、控制類、權(quán)限管理類、部署控制類、IP管理類、后臺管理類、權(quán)限數(shù)據(jù)類、用戶數(shù)據(jù)類、部署內(nèi)容類、數(shù)據(jù)庫連接類,實現(xiàn)代碼如圖4。
權(quán)限管理控制是通過addAuthorization實現(xiàn)權(quán)限增加功能,通過modify實現(xiàn)權(quán)限修改功能,query實現(xiàn)權(quán)限查詢功能,view、del實現(xiàn)查看、刪除功能。若需要對數(shù)據(jù)進行重新獲取則需要利用getRetrieval代碼。
IP管理功能則是通過addAccessIP實現(xiàn)新增,modify實現(xiàn)IP修改,query實現(xiàn)對訪問IP的查詢,del實現(xiàn)對訪問IP的刪除。并利用add(modify、query、del)AccessUser對訪問用戶進行修改、查詢、刪除。
部署控制類則是利用add(modify、view、query、del、execute)DeploymentContent實現(xiàn)對部署內(nèi)容的添加、修改、查看、查詢、刪除以及執(zhí)行。
后臺管理類則是利用add(del、modify)Connection實現(xiàn)對數(shù)據(jù)庫的連接新增、連接刪除以及連接修改。
權(quán)限數(shù)據(jù)類型中則需要使用PricilegeBeans執(zhí)行授權(quán),并利用調(diào)用控制類代碼實現(xiàn)返回申請,確定授權(quán)的增加后調(diào)用邏輯類代碼為管理人員提供查看功能,上述增加授權(quán)的具體時序如圖5。
(五)監(jiān)控業(yè)務(wù)設(shè)計
此部分業(yè)務(wù)同樣包括邏輯類與控制類。具體有存儲過程控制類、表空間控制類、存儲過程數(shù)據(jù)類、表空間數(shù)據(jù)類型。具體如圖6。
表空間查詢則需要使用控制類代碼,若存在準確的查詢要素則需要調(diào)用MonitoringService邏輯類代碼。當管理平臺接收到具體查詢條件后則調(diào)用TableSpaceBeans返回至數(shù)據(jù)庫表空間,并將查詢結(jié)果發(fā)送至運維管理人員進行接收。對于監(jiān)控存儲空間控制類則需要使用到query(view、monitor)SroredProcedure實現(xiàn)對存儲過程的查詢、查看、監(jiān)控功能。對于監(jiān)控表空間控制類則需要使用到query(view、monitor)TableSpace實現(xiàn)表空間的查詢、查看、監(jiān)控功能。運維管理人員對數(shù)據(jù)庫存儲情況進行查詢過程中,管理平臺接收到申請后則調(diào)用MonitoringRule(Service)、StoredProcedureBeans實現(xiàn)查詢、調(diào)用數(shù)據(jù)以及返回查詢結(jié)果功能。
三、結(jié)束語
綜上所述,基于筆者實際項目經(jīng)驗,本文從數(shù)據(jù)中心自動化運維管理平臺的功能需求入手,將該管理平臺分為了腳本與管理業(yè)務(wù)兩大方面,在Web框架下說明了各項功能需求的具體設(shè)計方案及實現(xiàn)方法,相關(guān)人員可從上述管理業(yè)務(wù)、監(jiān)控業(yè)務(wù)、腳本設(shè)計這三大方面入手建立數(shù)據(jù)中心運維管理平臺,從而實現(xiàn)對數(shù)據(jù)中心的自動化管理。
作者單位:許麗瑪 萬達信息股份有限公司
參" 考" 文" 獻
[1]李晶,劉莉莉. 數(shù)據(jù)中心自動化運維的建設(shè)方法思考[J]. 電子世界,2021(20):208-209.
[2]張乾尊,劉鵬程,吳皓彥.打造運維中臺基座 賦能運維新動能——農(nóng)業(yè)銀行數(shù)據(jù)中心運維自動化與智能化實踐[J]. 金融電子化,2021(04):65-66.
[3]沈德仁,章昆,張翰文. 基于虛擬化技術(shù)的云數(shù)據(jù)中心構(gòu)建及自動化運維管理探討[J]. 中國新通信,2021,23(07):40-41.
[4]陳峰,李文彪. 關(guān)于商業(yè)銀行數(shù)據(jù)中心運維自動化建設(shè)和重構(gòu)的最新思考[J]. 電子元器件與信息技術(shù),2021,5(02):199-200.
許麗瑪(1979.04.16-),女,漢族,上海,研究方向:數(shù)據(jù)中心自動化運維管理。