范江波
摘 要:數(shù)據(jù)中心云服務(wù)的監(jiān)控與管理技術(shù)的研究成為云計算相關(guān)領(lǐng)域內(nèi)的重點。該環(huán)境下的監(jiān)控平臺具有其自身的特殊性,數(shù)量龐大的集群設(shè)備、動態(tài)增長的管理規(guī)模、多樣化的監(jiān)控對象、高可靠性的性能要求,這些應(yīng)用需求都對數(shù)據(jù)中心監(jiān)控系統(tǒng)的設(shè)計開發(fā)提出了嚴峻挑戰(zhàn)。本文將以O(shè)racle EM為基礎(chǔ)構(gòu)建智慧校園云數(shù)據(jù)中心監(jiān)控體系提出研究實踐和探討。
關(guān)鍵詞:智慧校園;數(shù)據(jù)中心;云服務(wù);自助服務(wù);監(jiān)控與管理
中圖分類號:TP315 文獻標志碼:B 文章編號:1673-8454(2016)15-0063-04
智慧校園的建設(shè)是教育信息化的重要組成部分,也是衡量教育現(xiàn)代化程度的重要標志,近年來智慧校園建設(shè)已經(jīng)得到了人們的極大關(guān)注,同時隨著云計算技術(shù)的快速發(fā)展,智慧校園各項應(yīng)用對基礎(chǔ)信息服務(wù)的依賴程度更加緊密,資源共享程度要求更高,數(shù)據(jù)中心作為云計算技術(shù)的基礎(chǔ)設(shè)施,受到越來越多的重視,數(shù)據(jù)中心監(jiān)控技術(shù)的研究也成為云計算相關(guān)領(lǐng)域內(nèi)的重點。該環(huán)境下的監(jiān)控平臺具有其自身的特殊性,數(shù)量龐大的集群設(shè)備,動態(tài)增長的管理規(guī)模,多樣化的監(jiān)控對象,高可靠性的性能要求,這些應(yīng)用需求都對數(shù)據(jù)中心監(jiān)控系統(tǒng)的設(shè)計開發(fā)提出了嚴峻挑戰(zhàn)。因而對數(shù)據(jù)中心的各類資源如何有效實時監(jiān)控(服務(wù)器運行狀態(tài)、異構(gòu)數(shù)據(jù)庫的健康以及各類應(yīng)用服務(wù)的狀態(tài)監(jiān)控)成為云平臺非常重要的工作。高效實時的云監(jiān)控可以保障智慧校園數(shù)據(jù)中心各項服務(wù)的穩(wěn)定,提高服務(wù)的可用性。保證監(jiān)控的實時性和高效性。本文將以O(shè)racle EM為基礎(chǔ)構(gòu)建智慧校園云數(shù)據(jù)中心監(jiān)控體系提出研究實踐和探討。
一、云計算發(fā)展現(xiàn)狀與數(shù)據(jù)中心的需求
1.云計算現(xiàn)狀
云計算的本質(zhì)到底是什么,目前還沒有一個公認的權(quán)威的定義,各家公司和研究機構(gòu)也都有著自己的認知。IBM公司認為,云計算就是“未來的服務(wù)器”,虛擬服務(wù)器將是最主要的賣點;AMAZON公司也有IBM著同相似的觀點,他們認為云計算就是以通過互聯(lián)網(wǎng)為媒介,租售虛擬服務(wù)器即基礎(chǔ)架構(gòu);Google公司則更關(guān)注通過云端為終端用戶提供在線文檔編輯、個人資料存儲等服務(wù)。
可見對于云計算的討論和思考可以稱得上百家爭鳴。各家都從不同的角度發(fā)現(xiàn)了云計算應(yīng)用的廣闊前景。但是本質(zhì)上講,云就是用戶可以隨時訪問和處理云端信息,便捷地使用在云端上大量資源的資源管理和分配模式。這己經(jīng)在業(yè)界形成廣泛共識。根據(jù)美國國家標準和技術(shù)研究院的研宄結(jié)果,全世界己經(jīng)公認云計算具有三種服務(wù)模式:
(1)IaaS基礎(chǔ)架構(gòu)即服務(wù)。用戶可以定制和使用“基礎(chǔ)硬件資源”,掌握“虛擬服務(wù)器”的操作系統(tǒng)和存儲空間,部署定制化的應(yīng)用程序和軟件系統(tǒng),而不需要關(guān)注云基礎(chǔ)架構(gòu)。在今天眾多的案例中、是典型的商業(yè)實現(xiàn)。
(2)PaaS平臺即服務(wù)。這種服務(wù)模式起源于搜索引擎系統(tǒng)采用的平臺架構(gòu),用戶享有完整的軟件開發(fā)運行環(huán)境,可在此基礎(chǔ)上開發(fā)和托管用戶代碼,發(fā)布和運行軟件系統(tǒng)。這個過程中,用戶無需完全掌控操作系統(tǒng)、硬件平臺以及網(wǎng)絡(luò)部署架構(gòu)。
(3)SaaS軟件即服務(wù)。在此服務(wù)模式中,用戶完全不需要了解操作系統(tǒng)、硬件設(shè)備和基礎(chǔ)網(wǎng)絡(luò)架構(gòu),通過互聯(lián)網(wǎng)即可直接操作和使用某項軟件服務(wù),最大限度、最方便地構(gòu)建IT信息化平臺。
2.云計算對數(shù)據(jù)中心現(xiàn)實需求
云計算本身的優(yōu)勢是顯而易見的,云服務(wù)提供商通過在特定的地區(qū)建立超大規(guī)模的商業(yè)數(shù)據(jù)中心,綜合運用虛擬化、分布式計算、網(wǎng)格計算等前沿計算機技術(shù),集中部署大量的計算和存儲資源,對外提供高性能、高可用的服務(wù),實現(xiàn)相對低成本的信息系統(tǒng)管理、分配和計費。這種商業(yè)模式可以帶來巨大的規(guī)模效應(yīng),強大的資源分配能力,高可伸縮性、高可靠性、高通用性、廉價的IT服務(wù)產(chǎn)品?;A(chǔ)設(shè)施是云計算最重要的物理載體,而基礎(chǔ)設(shè)施最終是通過云數(shù)據(jù)中心數(shù)以萬計的服務(wù)器、交換機以及配套設(shè)備實現(xiàn)的。然而數(shù)據(jù)中心業(yè)務(wù)數(shù)據(jù)迅速增長,應(yīng)用系統(tǒng)正變得日益龐大與復(fù)雜,由此面臨一系列運維管理方面的挑戰(zhàn):
(1)服務(wù)器、存儲、網(wǎng)絡(luò)設(shè)備、軟件規(guī)模增長迅速,尤其隨著Oracle數(shù)據(jù)庫一體機的引入,對于軟硬件及網(wǎng)絡(luò)設(shè)備集中、統(tǒng)一、一致的IT運維管理成為必需;
(2)IT基礎(chǔ)架構(gòu)設(shè)備及技術(shù)的頻繁升級和更新對人員的層次要求越來越高,也造成了人力成本上升并帶來了管理風(fēng)險;
(3)應(yīng)用架構(gòu)(包括關(guān)聯(lián)性)越來越復(fù)雜,出現(xiàn)應(yīng)用群的概念,多個應(yīng)用之間協(xié)調(diào)完成復(fù)雜交易。從而,對交易的追蹤與管理變得越來越困難;
(4)應(yīng)用的復(fù)雜帶來基礎(chǔ)架構(gòu)性能保障的風(fēng)險,IT運維部門面臨持續(xù)優(yōu)化提高基礎(chǔ)架構(gòu)性能、保障業(yè)務(wù)高可用性的壓力;
(5)新應(yīng)用低下的測試效率和應(yīng)用質(zhì)量會將企業(yè)投資置于風(fēng)險之中,保障應(yīng)用質(zhì)量對維持業(yè)務(wù)敏捷性、保證服務(wù)質(zhì)量、降低總體成本與風(fēng)險變得異常重要,成為IT部門的新命題;
(6)云數(shù)據(jù)中心是IT基礎(chǔ)架構(gòu)的發(fā)展方向,大多數(shù)IT組織開始在企業(yè)內(nèi)部數(shù)據(jù)中心應(yīng)用云計算,無論是更快地供應(yīng)、按需訪問、基于策略的靈活資源調(diào)度,還是按規(guī)則收費以保證商務(wù)結(jié)算和對環(huán)境的更好控制,IT部門都必須從被動式反應(yīng)轉(zhuǎn)型到主動和預(yù)防式管理上來。
面對以上挑戰(zhàn),通過使用Oracle基礎(chǔ)架構(gòu)運維管理技術(shù)軟件和其在IT運維管理領(lǐng)域的豐富項目經(jīng)驗,結(jié)合現(xiàn)有的IT運維體系流程,建立一體化的運維管理框架,實行業(yè)務(wù)和技術(shù)管理創(chuàng)新,對于降低IT運維管理風(fēng)險,提高業(yè)務(wù)用戶的滿意度,保障基礎(chǔ)架構(gòu)高可用性等方面有著緊迫和重要的戰(zhàn)略意義。
由于我校在十二五期間進行了基于Oracle項目的人事系統(tǒng)和校園一體化建設(shè),作為基礎(chǔ),結(jié)合OracleEM,使之成為我們建設(shè)和管理成為可能和高效的手段。
二、Oracle EM的特點與安裝部署
1.Oracle EM的特點
Oracle Enterprise Manager (Oracle企業(yè)管理器,簡稱OEM)是Oracle公司的集成企業(yè)信息技術(shù)管理產(chǎn)品線,它提供了業(yè)界唯一的完整、集成和企業(yè)的云管理解決方案。OEM通過利用內(nèi)置的管理功能,為傳統(tǒng)和云環(huán)境,實現(xiàn)前所未有的效率收益,同時大幅提高服務(wù)水平,創(chuàng)造價值。
OEM是通過一組Oracle程序,為管理分布式環(huán)境提供了管理服務(wù)。OEM包括了一組DBA工具,一個repository,以及一個圖形化顯示的控制臺。OEM控制臺與每一個服務(wù)器上的智能化代理(IntelligentAgent)相對應(yīng)。
智能化代理能夠監(jiān)控系統(tǒng)的特定事件并且執(zhí)行任務(wù)(作業(yè))就像你在系統(tǒng)本地一樣。事件和作業(yè)的結(jié)果會被送回控制臺,這樣可以在一個地方管理所有的系統(tǒng)。Oracle的Oracle Enterprise Manager Cloud Control 13c應(yīng)用技術(shù)。Oracle的企業(yè)管理器在經(jīng)歷了多個版本的發(fā)展后,企業(yè)管理器的功能更加完善、穩(wěn)定,支持更多的平臺和版本,配置越來越健全,主流瀏覽器基本通過認證。在EM13c中,Oracle提供了更加完善的一體化云管理解決方案??梢灶A(yù)見,Oracle的企業(yè)管理器必然會在數(shù)據(jù)庫管理和監(jiān)控方面成為優(yōu)先選擇。該系統(tǒng)架構(gòu)如圖1所示。
2.Oracle EM的部署
本文的建設(shè)是基于REDHAT AS6.4操作系統(tǒng),采用雙機備份的模式,數(shù)據(jù)庫采用的Oracle12C12.1.0.2.0,EM為Oracle Enterprise Manager Cloud Control 13c Release 1(13.1.0.0)。具體安裝部署可以參看Oracle官方的標準文檔。部署完成后的結(jié)果如圖2所示。
安裝完成后對系統(tǒng)進行初始參數(shù)配置后即可開始正常服務(wù),系統(tǒng)參數(shù)配置圖如圖3所示。
三、Oracle EM實時監(jiān)控與管理
OEM涉及框架和基礎(chǔ)設(shè)施,企業(yè)監(jiān)控和事件管理功能、數(shù)據(jù)庫管理、中間件管理、硬件和虛擬化管理、異構(gòu)(非Oracle產(chǎn)品)管理、云管理、混合云管理、生命周期管理、配置管理、大數(shù)據(jù)設(shè)備管理、信息服務(wù)交互測試和查詢、應(yīng)用績效管理,應(yīng)用質(zhì)量管理等功能服務(wù)。下面主要從如下幾個主要功能應(yīng)用做出介紹。
1.對數(shù)據(jù)庫的云監(jiān)控與管理
Oracle EM實現(xiàn)了無人值守式監(jiān)控IT環(huán)境。通過一系列有關(guān)性能與健康指標監(jiān)控IT關(guān)鍵組件,例如應(yīng)用、應(yīng)用服務(wù)器、數(shù)據(jù)庫,以及他們所依賴的后臺組件。另外OEM與ServerManagerMotif相比,有以下優(yōu)點:
(1)從適用范圍看:OEM可以同時監(jiān)控管理多個系統(tǒng)上的多個數(shù)據(jù)庫,因而特別適合分布式環(huán)境;而ServerManager只能監(jiān)控管理一個數(shù)據(jù)庫。
(2)從管理對象看:OEM可以監(jiān)控管理節(jié)點,數(shù)據(jù)庫和監(jiān)聽進程(listener),而ServerManager只能監(jiān)控數(shù)據(jù)庫。
(3)從適用版本看:OEM可以同時監(jiān)控管理Oracle7.x和8.x,而從8版開始,ServerManager已不存在。
OEM數(shù)據(jù)庫工具組是一組使DBA能夠通過GUI界面管理Oracle數(shù)據(jù)庫的工具。包括以下工具:
DataManager(數(shù)據(jù)管理器):這工具使你能夠象加載數(shù)據(jù)一樣執(zhí)行數(shù)據(jù)的export/import。
SchemaManager:這工具使你能夠在數(shù)據(jù)庫中管理對象??梢杂糜趧?chuàng)建,修改,和刪除tables,indexes,views,snapshots,sequences等。
SecurityManager(安全性管理器):這工具使你能夠管理用戶、角色、權(quán)限及profiles。
StorageManager(存儲管理器):這工具允許你創(chuàng)建和修改表空間、數(shù)據(jù)文件和回滾段。
InstanceManager(實例管理器):這工具允許你關(guān)閉、啟動實例并且存儲和管理數(shù)據(jù)庫參數(shù)。
SQL*Worksheet:這工具使你能夠運行或創(chuàng)造SQL腳本并且存儲在硬盤上。你能使用這工具重現(xiàn)最后執(zhí)行的語句;同時,檢查顯示到屏幕上的執(zhí)行結(jié)果。
BackupManager(備份管理器):這工具允許你管理備份和恢復(fù)為Oracle7和Oracle8數(shù)據(jù)庫。在Oracle7此工具支持EnterpriseBackupUtility(EBU),在Oracle8此工具支持恢復(fù)管理器RecoveryManager。
SoftwareManager(軟件管理器):這允許你將遠程軟件安裝到支持這一特性的遠程服務(wù)器。
監(jiān)控數(shù)據(jù)集中存放在存儲庫中,管理員可以利用豐富的圖表診斷故障并分析趨勢。一旦檢測到告警,將發(fā)送各種通知給管理員以快速解決問題。
缺省地,EM提供以下能力:
1)符合Oralce最佳實踐的監(jiān)控指標與閥值設(shè)置,包括客戶化指標;同時支持監(jiān)控模版。
2)基線設(shè)置與更正行動。
3)監(jiān)控所有IT基礎(chǔ)(Oracle的或非Oracle的),包括應(yīng)用與服務(wù)。
4)實時訪問各種性能圖表。
5)收集、保存、匯總各種指標數(shù)據(jù)。這使得你可以執(zhí)行戰(zhàn)略性分析,例如趨勢分析與報表。
6)對檢測到的緊急事件提供各種通知能力。
2.意外事件處理機制
Oracle EM利用集中式直觀的“意外事件管理器”簡化故障管理復(fù)雜性。EM將所有通過指標閥值等觸發(fā)的事件稱之為“事件”。EM的事件類型包括:目標可用性、基于指標閥值的告警、作業(yè)狀態(tài)的變化、合規(guī)性沖突、高可用檢測、服務(wù)等級告警等等。
在此基礎(chǔ)上,將有意義的“事件”或重大的“事件”整合為“意外事件”或“故障”。一般地,管理員只需要專注于“意外事件”,而避免陷入大量無意義的“事件”中,從而大幅降低工作復(fù)雜度與工作量。意外事件管理器使你可以查找、查看、管理、并解決故障,同時提供了指導(dǎo)解決方案,加速問題處理。意外事件管理器:意外事件的觸發(fā)條件由規(guī)則/規(guī)則集控制。規(guī)則定義了什么情況下、什么時候、向誰發(fā)送通知。規(guī)則集則是規(guī)則的集合,可以為一組目標(例如主機、數(shù)據(jù)庫、組等)采取合適的行動以自動化事件的流程處理。Oracle EM具有整套的意外事件處理機制,可以跟蹤它的完整生命周期:
1)分派異常事件的所有者;
2)跟蹤異常事件處理狀態(tài);
3)設(shè)置異常事件優(yōu)先級;
4)設(shè)置異常事件的升級;
5)提供定制的匯總視圖;
6)提供注釋;
7)提供壓縮和解壓能力;
8)提供手動清除異常事件能力;
9)提供創(chuàng)建ticket能力。
四、OracleEM云資源管理監(jiān)控
OracleEM云服務(wù)如圖4所示
云的概念中有兩條重要的標準:按需獲得服務(wù);自助服務(wù)。在云服務(wù)里最終服務(wù)的都是我們的最終用戶。OracleEM13c最顯著的好處就是可以讓標準的數(shù)據(jù)庫平臺部署和中間件平臺部署,從管理員驅(qū)動的形式向最終用戶驅(qū)動的形式轉(zhuǎn)變。OracleEM13c可以讓我們完成以下工作。
(1)池化資源;
(2)標準化和自動化部署流程;
(3)發(fā)布模板和服務(wù)目錄;
(4)設(shè)置基于角色的訪問控制和授權(quán);
(5)設(shè)置限制過度消費資源的配額;
(6)建立升級、降級和回收的策略;
(7)建立測量手段,使按資源消耗收費成為可能;
(8)通過BI進行報表分析和數(shù)據(jù)挖掘。
配置好云端的參數(shù)和路徑如圖5所示。
每個云服務(wù)資源均按如圖6所示的進行配置,即可提供給用戶進行自助服務(wù)。
五、結(jié)束語
從目前來看,智慧校園的建設(shè)管理對教育信息化的發(fā)展具有相當(dāng)重要的作用,要根據(jù)學(xué)校的總體發(fā)展,統(tǒng)籌規(guī)劃、逐步實施、通力合作,使智慧校園的建設(shè)日趨完善。
通過對云服務(wù)管理和監(jiān)控平臺的建設(shè),初步達到了高可用性原則、由于該系統(tǒng)承擔(dān)著對整個系統(tǒng)的統(tǒng)一管理和監(jiān)控,一旦出現(xiàn)系統(tǒng)崩潰造成數(shù)據(jù)丟失或者暫停服務(wù),都會給學(xué)校帶來不可估量的損失,因此,在建設(shè)該云管理和監(jiān)控平臺的同時,一定要考慮管理和監(jiān)控系統(tǒng)本身的高可用性原則、一體化管理原則和易用性和管理原則,監(jiān)控系統(tǒng)一定要支持雙機備份能力,當(dāng)主管理機器出現(xiàn)故障,備份機器能及時接管,確保云資源數(shù)據(jù)不被丟失,同時也不會造成暫停服務(wù)的狀況。所有的管理和監(jiān)控在統(tǒng)一的監(jiān)控平臺上進行管理和監(jiān)控,操作人員在該平臺,可以直觀地管理被管理目標,集中監(jiān)控各管理單元的各項指標,系統(tǒng)應(yīng)能提供統(tǒng)一視圖,讓操作人員可以從上而下,到相應(yīng)的管理單元進行細化管理。同時通過統(tǒng)一視圖,可以直觀展現(xiàn)各個管理單元之間的邏輯關(guān)系,便于管理者有序地對各管理單元進行管理。監(jiān)控管理平臺管理終端要求采用中文圖示化管理界面,最好能提供多國語言支持,可以提供滿足需求的不同時間尺度的分析圖表,并能夠提供各個角色的訪問權(quán)限管理,為不同角色的操作人員提供不同的管理視圖。
通過上述對數(shù)據(jù)中心資源的云服務(wù)監(jiān)控與主動管理的摸索與實踐,為高校智慧校園的建設(shè)和管理打下堅實的基礎(chǔ)。
參考文獻:
[1]饒冰,裴征峰,高文博.Oracle云管理平臺企業(yè)管理器12c實戰(zhàn)指南[M].北京:清華大學(xué)出版社,2013.
[2][OL].https://docs.oracle.com/cd/E63000_01/.
[3][OL].http://www.oracle.com/technetwork/indexes/downloads/index.html#em.
(編輯:楊馥紅)