文/李力強孟慶利
高校計算機機房中的問題及解決方法
文/李力強1孟慶利2
隨著信息技術(shù)的快速發(fā)展,計算機的應(yīng)用越來越廣泛,高校計算機網(wǎng)絡(luò)的規(guī)模逐漸增大。高校計算機實驗室管理與維護是高校教學(xué)與科研得以保障的重要條件。本文提出了一種基于云計算數(shù)據(jù)中心的新型高校計算機機房管理與維護策略。為了確保云計算戰(zhàn)略的成功,云計算的運行和維護管理應(yīng)從日常監(jiān)控,安全管理和自動化處理等方面入手,涵蓋戰(zhàn)略、設(shè)計、運營和持續(xù)改進的各個階段。
云計算 管理維護 機房
隨著信息技術(shù)(IT)的不斷發(fā)展,計算機系統(tǒng)和計算機網(wǎng)絡(luò)已經(jīng)深入到高校教育的各個領(lǐng)域,在日常的教學(xué)管理中計算機的使用已經(jīng)必不可少。隨著高校辦學(xué)規(guī)模的日益擴大,面對計算機技術(shù)的迅猛發(fā)展,許多高校都已經(jīng)建設(shè)了計算機公共機房。隨著網(wǎng)絡(luò)規(guī)模的逐漸增大,機房管理與維護工作也面臨著越來越大的壓力。
無論工作的細節(jié)如何,任何IT部門的主要目標,都是按照預(yù)先規(guī)定的服務(wù)質(zhì)量水平提供IT服務(wù)。在服務(wù)量和服務(wù)質(zhì)量都要求較小的情況下,即使沒有復(fù)雜信息系統(tǒng),使用少量員工的也可以解決服務(wù)管理是這個簡單的問題。但是,在信息部門是一個計算機中心的情況下,這時計算機中心服務(wù)的對象是一個大單位(比如高校),而不是特定的科學(xué)實驗室。因此,計算機中心提供的服務(wù)范圍需要得到擴大,以盡可能廣泛地覆蓋用戶的需求。高校計算機機房服務(wù)的對象是大量的IT用戶,資源有限,特別是人力資源,不允許針對每個用戶使用單獨的方法,僅針對具有最高計算活動的頂級研究小組才有例外。
由于用戶需求非常廣泛的IT服務(wù),計算機中心的硬件和軟件數(shù)量也很大。此外,硬件、技術(shù)和程序是非常多樣化的,基礎(chǔ)設(shè)施管理的普遍方法是很難找到的。除上述之外,大學(xué)計算機中心還擁有與信息系統(tǒng)和虛擬化相關(guān)的的基礎(chǔ)設(shè)施??紤]到大學(xué)計算機中心的所有活動,可以得出結(jié)論,其基礎(chǔ)設(shè)施中的IT組件數(shù)量非常多。所有這一切使基礎(chǔ)設(shè)施的控制變得非常困難,維護有關(guān)每個組件的最新信息并不是一個非常簡單的任務(wù)。困難在于使用強大的工業(yè)基礎(chǔ)設(shè)施虛擬化解決方案,IT部門被迫使用特殊的虛擬化管理系統(tǒng),這也是控制服務(wù)器、網(wǎng)絡(luò)和存儲系統(tǒng)。一般來說,所有這些形成了一個緊密集成的硬件和軟件系統(tǒng),其中每個組件影響許多其他組件,并且在許多情況下會隱含地相互影響。對服務(wù)支持維護中的問題和變化的影響的分析大大復(fù)雜化。
隨著大學(xué)計算機中心的發(fā)展,從僅向有限數(shù)量的研究小組到提供高性能計算機服務(wù)的單位,到集體使用中心,事件管理和問題管理的過程逐漸發(fā)展起來。然而,這些過程是孤立的,在獲得關(guān)于問題發(fā)生的基礎(chǔ)設(shè)施的組成部分的數(shù)據(jù)方面遇到了很多困難,幾乎沒有機會快速分析事件并找到“有罪”的IT組件。部分以網(wǎng)站的形式部分存在于部分以共享目錄中的文本文件形式存在的IT組件數(shù)據(jù),其關(guān)系和設(shè)置部分存儲在多個數(shù)據(jù)庫中的部分文檔、部分內(nèi)容僅供參考。即使在提供服務(wù)和服務(wù)支持過程中,許多IT部件缺乏信息也帶來了以下困難:
由于缺乏關(guān)于基礎(chǔ)設(shè)施的授權(quán)信息,不可能確定組件的狀態(tài)符合要求,并且未受到未經(jīng)授權(quán)的更改的影響。此外,沒有關(guān)于IT組件的配置更改時間和時間的數(shù)據(jù)。
沒有關(guān)于基礎(chǔ)設(shè)施組成部分之間關(guān)系的信息,無法充分評估哪些組件,以及最終影響服務(wù)實施或修改的服務(wù)。
缺少導(dǎo)致他們的問題和組件的文檔關(guān)系,意味著沒有痕跡哪些組件導(dǎo)致已知錯誤以及受這些錯誤影響的組件和服務(wù)。這對計劃去除已知的錯誤是非常嚴重的傷害,特別是改變的優(yōu)先級是非常困難的。
大多數(shù)事件與違反用于提供服務(wù)的組件的參考配置相關(guān)聯(lián)。在沒有統(tǒng)一數(shù)據(jù)庫的情況下,它存儲IT組件的授權(quán)參考配置的描述,尋找關(guān)于什么參考配置的信息需要相當長的時間。
由于缺乏對所有基礎(chǔ)架構(gòu)組件的信息的統(tǒng)一存儲庫,因為需要從多個來源收集信息,因此創(chuàng)建匯總報告變得困難和耗時。在這種情況下,信息的有效性和相關(guān)性不總是可以保證。
某些組件可能是無文檔的,或者有關(guān)它們的信息已經(jīng)丟失,這尤其需要恢復(fù)或重新創(chuàng)建描述的時間。
收集關(guān)于哪些組件被使用的信息,在數(shù)據(jù)存儲在多個數(shù)據(jù)庫中的情況下,在它們之間無關(guān)的情況下,哪些組件被使用多少以及在多大程度上依賴于其在規(guī)劃容量時的可靠性變得相當挑戰(zhàn)。
每位員工分別負責(zé)基礎(chǔ)設(shè)施部分的筆記;不同人士收集的資料可能有冗余或矛盾。解決需要花費時間和額外時間來創(chuàng)建冗余數(shù)據(jù)副本所需的矛盾。
本研究的目的可能如下:開發(fā)計算機中心的配置管理系統(tǒng),并與其他信息系統(tǒng)集成,提供IT服務(wù)管理。有必要考慮大學(xué)計算機中心的以下具體屬性:
(1)使用虛擬化提供商業(yè)服務(wù),以及提供運營服務(wù);
(2)計算機中心提供的廣泛和多樣化的服務(wù):高性能計算和教育;
(3)各種硬件用于提供服務(wù);
(4)集體用途:用戶數(shù)數(shù)千人。
確保配置管理系統(tǒng)和變更管理之間最大程度的相互作用尤其重要,因為這些更改對數(shù)據(jù)的組成有直接影響,而數(shù)據(jù)的組成又用于執(zhí)行更改。配置管理系統(tǒng)必須配備有與其他信息系統(tǒng)交互的界面。該接口必須具有足夠的可靠性,可以靈活地盡可能快地重新配置,以便在增長和發(fā)展過程中改變組成和通信系統(tǒng)。由于該界面更方便使用Web服務(wù),除了靈活性之外,還能夠在某些條件下保持可靠性。此外,只配置管理信息系統(tǒng)不足以解決IT基礎(chǔ)設(shè)施的控制問題,配置管理過程包括起草過程的規(guī)則也需要構(gòu)建。
數(shù)據(jù)中心運營平臺是確保計算機系統(tǒng)正常運行的重要組成部分,可以作為維護,管理和應(yīng)用資源的分配運行平臺。云計算環(huán)境涵蓋了運維管理的范圍非常廣泛,包括了服務(wù)點播、基礎(chǔ)設(shè)施管理、物理設(shè)備、系統(tǒng)管理、數(shù)據(jù)管理、管理工具和人員管理等服務(wù)。為了實現(xiàn)上述目標的良好管理,必須實現(xiàn)云計算的日常監(jiān)控、標準化操作維護管理和云自動處理維護。
監(jiān)控云計算的日常運營管理應(yīng)該從基礎(chǔ)設(shè)施建設(shè)、網(wǎng)絡(luò)環(huán)境、設(shè)備性能、事件管理、變更管理和應(yīng)急預(yù)案管理等方面全方位進行。通過運行良好的云計算監(jiān)控,可以實現(xiàn)各系統(tǒng)的統(tǒng)一管理服務(wù),統(tǒng)一收集所有業(yè)務(wù)操作系統(tǒng)和應(yīng)用信息,實現(xiàn)對不同層次信息的綜合分析、歸納和匯總。對系統(tǒng)進行有效的運行監(jiān)控,可以向系統(tǒng)管理員發(fā)出預(yù)警,避免系統(tǒng)故障,使企業(yè)蒙受巨大的經(jīng)濟和信譽損失。
安全管理是云計算運維管理中的關(guān)鍵問題。云計算安全重點領(lǐng)域有信息生命周期管理、風(fēng)險管理、法規(guī)和審計、加密和密鑰管理等。規(guī)范云計算安全操作與管理,結(jié)合安全技術(shù)、級別保護、虛擬化、虛擬機、操作安全管理系統(tǒng)的安全管理策略,可以有效實現(xiàn)企業(yè)IT資產(chǎn)管理。
云計算系統(tǒng)需要實現(xiàn)按需服務(wù),這使得自動化系統(tǒng)的運行是不可避免的。在云計算環(huán)境下,自動化場所的需求非常多; 主要是提供以客戶為導(dǎo)向的虛擬共享系統(tǒng)和資源優(yōu)化系統(tǒng)。監(jiān)控系統(tǒng)和自動運行機制完善將對提高生產(chǎn)力起決定性的作用。
為了促進云計算運營管理的優(yōu)化和完善,有必要建立集成運營管理模式。以業(yè)務(wù)為導(dǎo)向,構(gòu)建完善、成熟的IT運營服務(wù)體系。云計算運行維護管理的改進應(yīng)從日常監(jiān)控,安全管理,平臺維護,故障處理,配置管理,服務(wù)驗收等方面入手。利用自動化和維護工具可以實現(xiàn)物理資源和虛擬資源的統(tǒng)一管理。通過提供資源管理、統(tǒng)計、監(jiān)控、調(diào)度和服務(wù)管理等端到端的管理功能,實現(xiàn)云數(shù)據(jù)中心高效、便捷、智能、統(tǒng)一和集成的運維管理。
云計算數(shù)據(jù)中心操作系統(tǒng)應(yīng)建立統(tǒng)一的事件管理中心,以收集每個系統(tǒng)的故障和事件聚合,處理所有故障、過濾、轉(zhuǎn)發(fā)、自動響應(yīng)和報警處理。事件管理中心連接各種系統(tǒng)故障和事件,完成事件級集成,完成應(yīng)用程序事務(wù)監(jiān)控級別的實現(xiàn)。同時,監(jiān)控基礎(chǔ)架構(gòu)和IT基礎(chǔ)架構(gòu)的運行狀態(tài),實現(xiàn)對失敗和異常的實時發(fā)現(xiàn)和通知; 收集和安排監(jiān)測數(shù)據(jù)可為能力管理、事件管理、問題管理、合規(guī)管理分析提供依據(jù),最終實現(xiàn)數(shù)據(jù)中心高可用性的目標。
信息技術(shù)基礎(chǔ)設(shè)施圖書館(ITIL)是由CCTA在20世紀80年代末開發(fā)的一套IT服務(wù)管理標準庫。ITIL為IT服務(wù)管理實踐提供了客觀、嚴格和定量的標準和規(guī)范。ITIL可以指導(dǎo)相關(guān)組織有效利用技術(shù),使現(xiàn)有資源發(fā)揮更大的作用。
ITIL V3主要基于服務(wù)于生命周期管理的最佳實踐。通過構(gòu)建全面統(tǒng)一的工作流管理子系統(tǒng),可以通過過程自動化、自動調(diào)度工作流引擎和自動化流程實現(xiàn)人員、技術(shù)和流程的有機結(jié)合,從而方便操作人員完成,通過使用相關(guān)管理流程的日常運營,以提高IT質(zhì)量服務(wù)和部門生產(chǎn)力的維護。
ITIL運維管理系統(tǒng)在云計算領(lǐng)域得到廣泛應(yīng)用,在這種背景下,ITIL V3系統(tǒng)的實施策略可參考以下實施策略:服務(wù)策略、服務(wù)設(shè)計、服務(wù)轉(zhuǎn)換、服務(wù)運營和持續(xù)服務(wù)改進等。IT服務(wù)管理的實施是一個持續(xù)的服務(wù)改進過程。作為IT服務(wù)管理的國際標準,ITIL明確地嚴格界定了每個流程之間的邏輯關(guān)系,為我們提供了“最佳實踐”指導(dǎo)。
IT服務(wù)管理可以根據(jù)負載變化自動調(diào)整所需資源,為了應(yīng)對及時性和節(jié)省成本的平衡:同時,計算能力規(guī)模越來越大,人為管理資源越來越不實用。這些新功能對IT自動化管理能力提出了更高的要求,企業(yè)往往希望在不失敗活動的前提下獲得更高的自動化程度。
云計算數(shù)據(jù)中心需要部署自動化管理平臺,然后集中管理虛擬化和云計算平臺,為自定義規(guī)則定制功能提供自動化解決方案,用戶通過使用事件觸發(fā)器,數(shù)據(jù)監(jiān)控觸發(fā)方式自動管理,以節(jié)省 人力和提高響應(yīng)速度。
以上對高校計算機機房的管理與維護策略做了了簡要分析。本文提出云計算數(shù)據(jù)中心的運營管理應(yīng)著重從綜合監(jiān)控運行管理,全方位的安全管理,自動化運行機制三個方面進行擴大,以有效實現(xiàn)提供服務(wù)的要求,基礎(chǔ)設(shè)施管理, 物理設(shè)備管理,系統(tǒng)和數(shù)據(jù)管理等方面的管理,云計算數(shù)據(jù)中心結(jié)合ITIL V3在云計算環(huán)境下形成運營管理實踐,最終得到IT資源管理,IT的全面有效的運營管理響應(yīng) 業(yè)務(wù)管理,IT運營管理。目前,基于云計算技術(shù)的計算機機房管理和維護策略仍處于發(fā)展階段,需要繼續(xù)研究以便于技術(shù)實施。
[1]袁溪.計算機信息技術(shù)的應(yīng)用探析[J].科研,2017(02):00193-00193.
[2]王強,何才輝,陳曉輝.高校計算機中心機房建設(shè)中應(yīng)考慮的兩個問題[J].實驗技術(shù)與管理,2006,23(02):109-111.
[3]朱明.高校機房管理存在的問題與對策研究[J].青年時代,2016(09):197-197.
[4]廖仕東,湯敏.淺談高校計算機中心的建設(shè)與管理[J].重慶科技學(xué)院學(xué)報:自然科學(xué)版,2004,6(02):51-51.
[5]Degtyarev A,Bogdanov A,Gankevich I,et al.Virtual workspace as basis of supercomputer center[C]// International Conference Distributed Computing and Grid-Technology in Science and Education.2012.
[6]謝維平.高校計算中心設(shè)備配置的探討[J].實驗室研究與探索,1989(01):40-43.
[7]符旭東.基于虛擬化技術(shù)的某職業(yè)學(xué)院計算機機房數(shù)據(jù)中心設(shè)計與工程實踐[D].南華大學(xué),2016.
[8]王美麗.云計算在高校機房中的應(yīng)用[J].電子技術(shù)與軟件工程,2017(01):143-143.
[9]魏晉.基于ITIL的IT服務(wù)運營事件管理流程的研究與設(shè)計[J].中國科技論文在線,2011.
作者單位
1.山東農(nóng)業(yè)大學(xué)信息學(xué)院 山東省泰安市271018
2.山東農(nóng)業(yè)大學(xué)體育與藝術(shù)學(xué)院 山東省泰安市 271018