魏冠華
摘 ?要:高校圖書館數(shù)據(jù)中心機房管理是高校圖書館信息化工作的重點之一,也是一項涉及范圍廣、管理任務(wù)重的工作。該文主要從選定管理模式、建立管理制度、做好日常運行維護等多個層面討論了高校數(shù)據(jù)中心機房的規(guī)范管理,同時還分析了機房管理方面的重點內(nèi)容,并對未來數(shù)據(jù)中心機房的管理進行了展望。
關(guān)鍵詞:高校圖書館 ?數(shù)據(jù)中心 ?中心機房管理
中圖分類號:TP308 ? 文獻標(biāo)識碼:A 文章編號:1672-3791(2020)06(c)-0199-02
在信息時代,數(shù)據(jù)中心機房是高校圖書館信息化建設(shè)的核心之一,是服務(wù)器、存儲、核心網(wǎng)絡(luò)設(shè)備等重要設(shè)備的承載地。數(shù)據(jù)中心機房的管理與它的建設(shè)相比更為重要[1]。因此,圖書館的管理者應(yīng)重視此項工作,一方面要參照國家住建部2018年發(fā)布的《數(shù)據(jù)中心基礎(chǔ)設(shè)施運行維護標(biāo)準(zhǔn)》(GB/T 51314—2018)以及行業(yè)發(fā)布的其他相關(guān)標(biāo)準(zhǔn),如《數(shù)據(jù)中心運行維護管理規(guī)范》《數(shù)據(jù)中心場地基礎(chǔ)設(shè)施運維管理標(biāo)準(zhǔn)》《數(shù)據(jù)中心運維管理技術(shù)白皮書》等,踐行相關(guān)標(biāo)準(zhǔn)細則,另一方面要注重從選定管理模式、建立管理制度、做好日常運維等多個層面對機房進行規(guī)范管理。
1 ?確定管理模式
數(shù)據(jù)中心機房的管理工作范圍廣、任務(wù)重,因此圖書館應(yīng)在機房建設(shè)前就考慮選定合適的管理模式。高校圖書館往往缺乏足夠的專業(yè)技術(shù)人員專門維護機房設(shè)施,所以不同的院校應(yīng)根據(jù)自身條件采取不同的管理模式。
當(dāng)前,普遍存在3種管理模式:第一,自主管理模式。采用此種模式的圖書館需要具備較為充足的技術(shù)人員,能擔(dān)負起大部分的設(shè)施設(shè)備日常維護,其優(yōu)點是花費較少、管理者責(zé)任意識較強,缺點是需要消耗大量的人力和精力且對技術(shù)水平要求較高。第二,外包管理模式。采用此種模式的圖書館把機房的日常管理和維護全部外包給服務(wù)商,其優(yōu)點是節(jié)省本館的人力資源、外包服務(wù)人員專業(yè)技術(shù)較強,缺點是花費較高。第三,混合管理模式。采用此種模式的圖書館把部分專業(yè)性較強、難度較大的管理維護業(yè)務(wù)外包給服務(wù)商,其余業(yè)務(wù)由自己來做,其優(yōu)點是既保證了管理維護的專業(yè)需求,又能兼顧節(jié)省人力和財力。因此如果條件允許,采用第三種管理模式將更有利于高校圖書館的運行和發(fā)展。
2 ?建立管理制度
自中心機房進入試運行階段開始,機房管理人員就要著手接管機房,除學(xué)習(xí)并熟悉各設(shè)備設(shè)施的使用操作以外,還要探索建立科學(xué)完備的機房管理制度。
在中心機房管理制度的制定中,除了參照國家和行業(yè)相關(guān)標(biāo)準(zhǔn)外,更重要的是要從該館的實際入手,不斷修正、逐步完善,直至形成相對穩(wěn)定的制度。一般而言,中心機房的管理制度主要包含以下6個部分:一是IT類設(shè)備管理制度。此類設(shè)備管理制度是所有管理制度中的重點,在制訂該制度時,要根據(jù)各設(shè)備的功能特點,從性能管理、配置管理、故障管理、安全管理、質(zhì)量管理等多角度、全方位考慮。二是環(huán)境設(shè)施管理制度。環(huán)境設(shè)施是保證機房基本運轉(zhuǎn)的重要保證,其管理制度應(yīng)特別注重故障管理部分,尤其對故障報警的處理方面要做到及時、有效。三是電氣管理制度。中心機房內(nèi)各類用電設(shè)施繁多、強弱電線路復(fù)雜,尤其是強電用電的安全管理一定要特別注意。四是消防設(shè)施管理制度。消防設(shè)施的管理重在日常的巡查。因此其制度的制訂應(yīng)一方面考慮結(jié)合設(shè)備特點檢查其狀態(tài)和有效性,另一方面考慮根據(jù)可能發(fā)生的問題后果做出合理的處理措施。五是門禁管理制度。門禁涉及設(shè)備安全、數(shù)據(jù)安全和人員安全,其制度的制訂需要從各類人員特別是外來人員的出入授權(quán)、出入記錄、出入監(jiān)控、入侵報警等多個方面考慮,同時還要特別考慮在出現(xiàn)特殊狀態(tài)下的人員安全疏散問題。六是人員管理制度。中心機房設(shè)備設(shè)施復(fù)雜,需要由內(nèi)外各類人員參與管理維護。因此,在人員管理的制定上需要考慮內(nèi)部工作人員的職責(zé)、考勤、培訓(xùn)、獎懲等多個方面,還要考慮外來運維人員的相關(guān)管理等。
總之,無論采用哪種管理模式,管理人員都要把管理制度落實到工作中去。對于制度的落實,圖書館的主管負責(zé)人應(yīng)該做好督促,發(fā)現(xiàn)問題及時問責(zé)并糾正。
3 主要管理工作
3.1 巡檢
機房內(nèi)部的多數(shù)設(shè)備都需要24h運轉(zhuǎn),如服務(wù)器、存儲、交換機、UPS等。這些設(shè)備雖然不易損壞,但出現(xiàn)性能下降、器件老化、設(shè)備故障等問題在所難免。為此,管理維護人員必須按照管理制度做好各類設(shè)備的日常巡檢。近年來,隨著設(shè)備自動化、智能化程度的提高,越來越多的設(shè)備實現(xiàn)了故障自動報警,為管理者減輕了不少負擔(dān),例如環(huán)境監(jiān)測、消防、安全防范等系統(tǒng)。一些數(shù)據(jù)中心機房,已經(jīng)引入了具備智能監(jiān)控、智能監(jiān)測配置變更、智能提示等功能的智能運維管理平臺,大幅度提高了管理效率[2]。
3.2 維護
除了做好巡檢工作外,對設(shè)備設(shè)施的維護也是機房管理的主要工作內(nèi)容之一。按維護的時間周期劃分,維護可分為不定期維護和定期維護。
不定期維護一般包括反應(yīng)性維護和前攝性維護,這些維護往往是因為在日常巡檢中發(fā)現(xiàn)問題而做出的。例如,在巡檢中,發(fā)現(xiàn)磁盤出現(xiàn)物理故障及時更換、發(fā)現(xiàn)新系統(tǒng)補丁及時更新等事先無法預(yù)見的問題,就屬于反應(yīng)性維護。而通過優(yōu)化設(shè)備配置、改善設(shè)備狀態(tài)進而提升設(shè)備性能等維護工作,則屬于前攝性維護,如修改配置以提升虛擬機計算能力或為減輕主機負擔(dān)而遷移虛擬機等。
定期維護一般都是按照預(yù)先計劃做的維護,因此它們多數(shù)都屬于預(yù)防性維護,如空調(diào)濾網(wǎng)按期更換、操作系統(tǒng)定期查毒、消防設(shè)施的定期檢查等。這些維護是為避免故障發(fā)生而做的,同樣不可忽視。
4 ?管理重點
4.1 服務(wù)器管理
服務(wù)器是圖書館提供各項信息服務(wù)的計算核心,具備高速的運算能力和I/O數(shù)據(jù)處理能力,主要有塔式服務(wù)器、機架式服務(wù)器、刀片服務(wù)器等類型[3]。對于服務(wù)器的管理主要包括故障處理和性能管理兩個方面。
4.1.1 故障處理
從實踐經(jīng)驗看,由于服務(wù)器的可靠性較強,其出現(xiàn)故障的概率并不高。當(dāng)服務(wù)器出現(xiàn)故障時,往往是因為外部環(huán)境較差或者設(shè)備老化引起的。因此,管理者要在解決故障的同時,明確引起故障的原因,進而避免以后發(fā)生類似問題。例如,當(dāng)外界環(huán)境溫度過高時,可能會引起服務(wù)器散熱差,造成磁盤故障。因此,在更換磁盤的同時,還要降低環(huán)境溫度,從而解決根本問題。除磁盤故障外,服務(wù)器的內(nèi)存、主板、電源等也是易損部件,同樣需要管理者在巡檢中發(fā)現(xiàn)、分析問題并予以解決。一般而言,管理者可以通過兩個方面了解服務(wù)器部件是否有故障,一是服務(wù)器的外部指示燈,管理員可以通過實地觀察指示燈狀態(tài)初步判定故障情況;二是服務(wù)器管理功能,很多服務(wù)器都具有專用的管理功能,如HP服務(wù)器中的iLO(Intergrated Light-Out)。管理者可以通過此類管理功能遠程查看和管理服務(wù)器的主要硬件。在發(fā)現(xiàn)故障后,管理者需要盡快解決故障以保證業(yè)務(wù)不受影響。
4.1.2 性能管理
服務(wù)器的性能好壞決定著業(yè)務(wù)是否順利開展。當(dāng)服務(wù)器出現(xiàn)性能下降時,管理者需要及時判斷原因并采取應(yīng)對措施。對于物理服務(wù)器而言,服務(wù)器性能下降主要包括CPU、內(nèi)存或者I/O等負載過大,以及設(shè)備老化造成的總體性能下降等多個方面。對于負載過大引起的性能問題,需要仔細排查具體原因,例如,服務(wù)器受到網(wǎng)絡(luò)攻擊、業(yè)務(wù)量突增、軟件故障等。在解決此類問題時,需要根據(jù)它的主要原因?qū)ΠY解決,如堵系統(tǒng)漏洞、擴充硬件、軟件修復(fù)等。對于設(shè)備老化造成的性能問題,只能采取更換設(shè)備的方式解決。對于虛擬服務(wù)器而言,它的性能問題的解決相對要簡單得多。例如,當(dāng)它因業(yè)務(wù)突增而負載過大時,可以很方便地通過虛擬化管理軟件增加其CPU數(shù)量、內(nèi)存容量以及磁盤容量等硬件配置,從而保證業(yè)務(wù)順利實施。
4.2 存儲管理
近年來,雖然在高校圖書館購買的數(shù)字資源中,鏡像資源有減少趨勢,但自建特色資源、需要長期保存的鏡像資源(尤其是多媒體資源)、業(yè)務(wù)數(shù)據(jù)仍然占用不少存儲空間。因此,磁盤陣列、磁帶庫等存儲設(shè)備仍然是高校圖書館數(shù)據(jù)中心的常用設(shè)備。存儲設(shè)備的管理重點是它的數(shù)據(jù)安全性。因此圍繞這一重點,管理者需要做好以下幾點:一是做好硬件維護。主要包括故障磁盤的及時更換,磁帶驅(qū)動器及時清洗等,以保證數(shù)據(jù)不丟失、業(yè)務(wù)不中斷。為此,管理者應(yīng)及時通過預(yù)警提示或查看日志發(fā)現(xiàn)故障信息,并嚴(yán)格根據(jù)規(guī)定予以解決。二是做好日常巡檢。主要包括設(shè)備基本狀態(tài)巡檢、日志查看、任務(wù)管理等,如根據(jù)業(yè)務(wù)情況及時調(diào)整磁盤空間大小。三是做好數(shù)據(jù)備份。一方面,應(yīng)充分利用磁帶庫大容量、低成本等存儲優(yōu)勢,采用合適的備份策略及時備份重要信息;另一方面,有條件的圖書館可以采取異地容災(zāi)備份,保證極端情況下的數(shù)據(jù)安全。
4.3 環(huán)境設(shè)施管理
由于服務(wù)器、存儲、交換機等業(yè)務(wù)設(shè)備高度依賴穩(wěn)定的外部環(huán)境,因此,根據(jù)實踐經(jīng)驗,環(huán)境設(shè)施的管理也是重點管理內(nèi)容之一[4]。環(huán)境設(shè)施主要包括精密空調(diào)、溫濕度傳感器等。管理者可借助環(huán)境監(jiān)控系統(tǒng)定期查看各個節(jié)點的環(huán)境狀況,如溫度、濕度、空氣質(zhì)量是否達標(biāo)等。當(dāng)系統(tǒng)因設(shè)定參數(shù)超過閾值或出現(xiàn)故障而報警后,管理者需要及時處理。同時,還需定期實地查看主要設(shè)施的運轉(zhuǎn)狀況。環(huán)境設(shè)施的正常運轉(zhuǎn)離不開定期維護,主要包括空調(diào)濾網(wǎng)的更換、空調(diào)室外機的散熱器的清洗等。如果不及時做維護,輕則影響環(huán)境質(zhì)量、加重設(shè)備運轉(zhuǎn)負荷,重則造成設(shè)備故障、影響業(yè)務(wù)正常開展。因此,管理者應(yīng)根據(jù)制度做好定期維護。
5 ?結(jié)語
高校圖書館數(shù)據(jù)中心機房的規(guī)范管理需要從選定管理模式、建立管理制度、做好日常運維等多個方面入手。在管理過程中,建立完善的管理制度是數(shù)據(jù)中心機房規(guī)范化管理的前提,而合適的管理模式則是數(shù)據(jù)中心機房管理專業(yè)化的保障。在此基礎(chǔ)上,管理者需要做好巡檢和維護工作,并重點做好服務(wù)器管理、存儲管理等。除此之外,隨著技術(shù)的不斷革新,數(shù)據(jù)中心機房的管理也正隨之演進。例如,在近年的市場上,一體化機房、智能機房[6]等新機房模式已得到一定范圍的應(yīng)用??梢灶A(yù)見,這些新變化必將為未來高校圖書館數(shù)據(jù)中心機房的管理工作提供新的思路和機遇。
參考文獻
[1] 李本強,劉紅.《數(shù)據(jù)中心基礎(chǔ)設(shè)施運行維護標(biāo)準(zhǔn)》(GB/T 51314—2018)解讀[J].建筑技藝,2019(10):14-17.
[2] 程少良.數(shù)據(jù)中心智能運維管理平臺的建設(shè)研究[J].計算機產(chǎn)品與流通,2019(10):127.
[3] 宋帥.數(shù)據(jù)中心IT硬件設(shè)施的一體化設(shè)計與實現(xiàn)[D].上海交通大學(xué),2014.
[4] 王群.高校圖書館核心機房環(huán)境設(shè)備及環(huán)境監(jiān)測分析[J].內(nèi)蒙古科技與經(jīng)濟,2017(11):96-98.
[5] 劉偉.淺談一體化機房系統(tǒng)[J].中國交通信息化,2018(1):133-135.
[6] 李莉.節(jié)能環(huán)保型智能機房研究與設(shè)計[J].山東工業(yè)技術(shù),2019(7):115-116.