南車資陽機(jī)車有限公司綜合技術(shù)部 林 武
?
信息系統(tǒng)運(yùn)維服務(wù)管理探討
南車資陽機(jī)車有限公司綜合技術(shù)部林武
【摘要】本文通過對南車資陽機(jī)車有限公司(以下簡稱公司)現(xiàn)有IT信息系統(tǒng)運(yùn)維管理現(xiàn)狀的研究,結(jié)合ISO2000①《IT信息技術(shù)服務(wù)管理體系標(biāo)準(zhǔn)》以及ITIL②基礎(chǔ)框架結(jié)構(gòu),從事件管理、問題管理、變更管理、服務(wù)臺(tái)等方面探討公司信息系統(tǒng)運(yùn)維服務(wù)管理的解決方法和思路,并提出公司信息系統(tǒng)運(yùn)維管理解決方案。
【關(guān)鍵詞】ITIL;信息系統(tǒng);運(yùn)維服務(wù)
近年來隨著IT信息技術(shù)的發(fā)展,信息系統(tǒng)在軟硬件上的投入越來越大,信息系統(tǒng)相互間的集中統(tǒng)一需求也越來越明顯,同時(shí)信息系統(tǒng)集中統(tǒng)一給傳統(tǒng)模式的運(yùn)維工作帶來了巨大的挑戰(zhàn)。在信息系統(tǒng)生命周期中,時(shí)間和成本中相對小的一部分是屬于系統(tǒng)建設(shè),而占整個(gè)時(shí)間和成本的主要部分反而是系統(tǒng)運(yùn)行維護(hù)階段,因此三分建設(shè)、七分運(yùn)維是IT信息系統(tǒng)的一大特點(diǎn),同時(shí)目前大多數(shù)企業(yè)的信息化工作已從以前的IT系統(tǒng)建設(shè)為主逐步進(jìn)入當(dāng)下建設(shè)和運(yùn)維并重的新階段,所以IT信息技術(shù)服務(wù)管理的重要性逐步凸顯。
隨著公司信息化建設(shè)的推進(jìn),支撐信息系統(tǒng)的各種IT基礎(chǔ)設(shè)備和軟件系統(tǒng)增多,由于缺乏IT服務(wù)規(guī)范管理而暴露了較多問題,其中主要表現(xiàn)在以下幾方面:
?公司目前針對所有IT服務(wù)請求,采用電話、業(yè)聯(lián)方式單點(diǎn)聯(lián)系,人工評估服務(wù)內(nèi)容然后分配傳達(dá)到IT技術(shù)人員,無法做到IT服務(wù)請求的記錄、識(shí)別、分類及任務(wù)分配,服務(wù)完成記錄、服務(wù)工作評價(jià),也不能對IT服務(wù)請求進(jìn)行匯總分析,形成解決方案。
?公司信息系統(tǒng)運(yùn)維管理目前局限于就某一單獨(dú)事件進(jìn)行處理解決,缺乏對運(yùn)營支撐系統(tǒng)的IT基礎(chǔ)架構(gòu)資源中的各類故障、事件進(jìn)行收集,同時(shí)對事件根源性進(jìn)行分析,包括事件內(nèi)部因素與外部因素間的關(guān)聯(lián)分析;缺乏各種事件的故障定位及排除,從而導(dǎo)致事件中的故障不能及時(shí)發(fā)現(xiàn)、定位。
?缺乏對信息系統(tǒng)所涉及的問題所處的區(qū)域和類別來對其進(jìn)行分類,以及對問題的嚴(yán)重程度及其對服務(wù)器的影響程度進(jìn)行歸類和預(yù)防,沒有對問題進(jìn)行系統(tǒng)性的匯總管理和分析,所以難以消除引起事件的問題深層次根源,無法防止事件的再次發(fā)生。
?公司目前對信息系統(tǒng)變更缺乏對業(yè)務(wù)影響的綜合評估分析、對變更流程的系統(tǒng)管理、對變更行為的系統(tǒng)追蹤,因此在變更過程中存在影響IT環(huán)境的穩(wěn)定性風(fēng)險(xiǎn)。
針對公司信息系統(tǒng)運(yùn)維現(xiàn)狀的分析,結(jié)合IT信息技術(shù)服務(wù)管理體系標(biāo)準(zhǔn)以及基于ITIL框架,可以通過構(gòu)建信息系統(tǒng)運(yùn)維管理平臺(tái),進(jìn)行包括服務(wù)臺(tái)、事件管理、變更管理、問題管理等基于流程的運(yùn)維管理方式(如圖1運(yùn)維管理框架)來解決目前公司信息系統(tǒng)運(yùn)維現(xiàn)狀中遇到的問題。
圖1 運(yùn)維管理框架
3.1服務(wù)臺(tái)
根據(jù)公司的實(shí)際情況,綜合技術(shù)部負(fù)責(zé)提供各類信息系統(tǒng)IT技術(shù)服務(wù)支持,所有公司服務(wù)臺(tái)應(yīng)該是在采用集中式服務(wù)臺(tái)為用戶的單一聯(lián)系點(diǎn)的方式上進(jìn)行。
3.1.1服務(wù)請求響應(yīng)
服務(wù)請求是指各系統(tǒng)用戶與服務(wù)臺(tái)進(jìn)行的聯(lián)系。服務(wù)臺(tái)對服務(wù)請求進(jìn)行記錄,并對進(jìn)度進(jìn)行監(jiān)控以及為流程控制提供量化指標(biāo)。有兩種服務(wù)請求主要包括事件和請求兩類:
?事件:ITIL將錯(cuò)誤報(bào)告和服務(wù)申請都稱為“事件”。
?變更:需要遵循標(biāo)準(zhǔn)變更流程的變更,需要提出正式的變更請求。
3.1.2發(fā)布信息
服務(wù)臺(tái)通在用戶受到影響之前,發(fā)布信息通知用戶當(dāng)前或預(yù)期發(fā)生的事件。比如系統(tǒng)升級、病毒庫更新等。
3.1.3監(jiān)控基礎(chǔ)設(shè)施
各種工具系統(tǒng)都允許服務(wù)臺(tái)進(jìn)入,并通過其來評估影響關(guān)鍵設(shè)備故障發(fā)生的可能性,如路由器、網(wǎng)關(guān)、服務(wù)器、應(yīng)用系統(tǒng)及數(shù)據(jù)庫等。服務(wù)臺(tái)能通過這些工具在某個(gè)故障正對基礎(chǔ)設(shè)施產(chǎn)生威脅或故障出現(xiàn)時(shí)自動(dòng)的進(jìn)行故障警告并通知事件管理。
3.1.4服務(wù)臺(tái)報(bào)告管理
服務(wù)臺(tái)定期對其運(yùn)作是否達(dá)到了預(yù)定的標(biāo)準(zhǔn)進(jìn)行核實(shí)。包括:
?公司內(nèi)部獨(dú)立解決事件的百分比。
?單位(部門)以及具體用戶被處理的請求數(shù),以及整個(gè)服務(wù)臺(tái)該處理的總數(shù)。
?事件解決的平均時(shí)間,服務(wù)請求處理完成前造成的影響和經(jīng)歷的時(shí)間。
?事件答復(fù)的平均時(shí)間、被用戶停止的請求數(shù)、請求持續(xù)的平均時(shí)間。
3.1.5服務(wù)臺(tái)效果
用戶的滿意度是反應(yīng)服務(wù)臺(tái)運(yùn)作效果的主要指標(biāo),主要包括:
?服務(wù)請求的響應(yīng)速度
?服務(wù)請求處理的時(shí)間段是否在可接受范圍
?針對當(dāng)下或即將進(jìn)行的變更,用戶是否得到了及時(shí)的建議
3.2事件管理
事件管理其目的在于記錄、解決并跟蹤IT服務(wù)運(yùn)作過程中發(fā)生的各類事件,并讓用戶盡快恢復(fù)自己的正常業(yè)務(wù)工作,避免或減少業(yè)務(wù)中斷,將事件對業(yè)務(wù)的影響降至最低。服務(wù)臺(tái)作為連接最終用戶與IT部門處理事故進(jìn)展情況的連接平臺(tái),記錄下事件以及事件解決方案的有效信息,以備其他流程(例如問題管理)參考。
3.2.1事件管理活動(dòng)
圖2 事件管理活動(dòng)與其他流程之間的關(guān)系
事件管理中的服務(wù)請求輸入主要來自監(jiān)控自動(dòng)發(fā)現(xiàn)的警告和用戶通過服務(wù)臺(tái)提出的申請這兩個(gè)方面;事件管理的輸出主要包括服務(wù)請求的應(yīng)急措施或最終解決方案。
事件服務(wù)請求按照不同的來源進(jìn)入服務(wù)臺(tái)的請求池中,同時(shí)處于“未受理”狀態(tài)。請求池中“未受理”的服務(wù)請求會(huì)按照設(shè)置的分發(fā)策略以三種方式進(jìn)行分派。三種分派方式分別為:
?自動(dòng)分發(fā):按照已定義好的資源類型對應(yīng)關(guān)系自動(dòng)分派給相應(yīng)的系統(tǒng)支持人員,分派后請求狀態(tài)為“已受理”;
?手動(dòng)分派:由服務(wù)臺(tái)相關(guān)負(fù)責(zé)人手動(dòng)分派給對應(yīng)的支持人員,分派后請求狀態(tài)為“已受理”;
?主動(dòng)獲?。褐С秩藛T主動(dòng)獲取能夠處理的服務(wù)請求,已經(jīng)被支持人員獲取的請求狀態(tài)為“已受理”。
3.2.2事件管理指標(biāo)
可以通過事件管理指標(biāo)來獲得相關(guān)數(shù)據(jù)并依據(jù)此數(shù)據(jù)判斷事件發(fā)展趨勢,同時(shí)為IT運(yùn)維管理部門提供相關(guān)績效量化的數(shù)據(jù)。事件管理中的關(guān)鍵指標(biāo)包括:事件的總數(shù),各部門(單位)/人員事件的總數(shù),事件平均解決的時(shí)間,由支持人員獨(dú)立解決的事件所占百分比,由系統(tǒng)供應(yīng)商解決的事件所占百分比,不需要現(xiàn)場就能解決的事件數(shù),能進(jìn)行正確分類的事件數(shù)(或所占百分比),正確轉(zhuǎn)交的事件數(shù)量(或所占百分比)。
3.3問題管理
問題管理是負(fù)責(zé)解決信息系統(tǒng)運(yùn)維服務(wù)管理中遇到的所有潛在的或已經(jīng)發(fā)生的問題,目的是找到這些問題的根源,并提供臨時(shí)措施與解決方案,防止問題的再次發(fā)生或減少問題發(fā)生的數(shù)量。圖3為問題管理與事件管理、變更管理之間的關(guān)系。
圖3 問題管理與事件管理、變更管理之間的關(guān)系
3.3.1問題管理活動(dòng)
問題管理的輸入主要包括服務(wù)請求與事件管理轉(zhuǎn)入、主動(dòng)發(fā)現(xiàn)并新起草這兩方面的問題。問題管理的輸出包括:已知錯(cuò)誤、變更請求、最新問題記錄、問題的應(yīng)急措施或最終解決方案。
問題管理活動(dòng)分為問題控制、錯(cuò)誤控制、主動(dòng)問題三大塊。
3.3.1.1問題控制
問題控制是問題管理的第一項(xiàng)活動(dòng),主要負(fù)責(zé)找出問題并調(diào)查其根源,并通過問題根源采取相關(guān)應(yīng)急措施來把問題轉(zhuǎn)化成已知錯(cuò)誤。包括以下內(nèi)容:
?確認(rèn)和記錄問題
?問題的歸類和分配
按照問題所處的區(qū)域和類別對其進(jìn)行分類,然后對問題的影響度進(jìn)行分析,確認(rèn)問題的嚴(yán)重程度以及其對服務(wù)的影響程度,進(jìn)而對問題設(shè)定相關(guān)的優(yōu)先級;同時(shí)根據(jù)問題的分類情況來將其分配給對應(yīng)技術(shù)人員和提供相關(guān)資源,并安排處理問題的時(shí)間。
?調(diào)查和診斷
調(diào)查和診斷是一個(gè)反復(fù)的過程,其最終目的在于通過每一次的重復(fù)調(diào)查和診斷能更加接近問題想要的解決方案。
?臨時(shí)修復(fù)
3.3.1.2錯(cuò)誤控制
錯(cuò)誤控制是指對已知錯(cuò)誤的監(jiān)控和管理,直到其盡可能地得到適當(dāng)?shù)奶幚?。錯(cuò)誤控制對已知錯(cuò)誤從被確認(rèn)到被解決的整個(gè)生命周期進(jìn)行監(jiān)控。其內(nèi)容包括:
?錯(cuò)誤確認(rèn)和記錄
?錯(cuò)誤評估和解決方案評估
問題管理的人員對解決問題或已知錯(cuò)誤時(shí)所需的資源進(jìn)行評估。
?確認(rèn)解決方案和記錄解決方案
問題管理將最終確認(rèn)針對相關(guān)問題的最適合的解決方案,包括確定是否需要臨時(shí)性修復(fù)措施還是需要確定永久性的解決方案,抑或是兩者都需要。需要詳細(xì)記錄解決問題或已知錯(cuò)誤的所有活動(dòng)內(nèi)容,以便對其進(jìn)行監(jiān)控和確認(rèn)其處于不同時(shí)期的狀態(tài)。
?實(shí)施后評審
用于對已經(jīng)實(shí)施后的已知錯(cuò)誤變更或問題,在終止相關(guān)記錄工作之前對變更進(jìn)行實(shí)施后的評審。只有當(dāng)變更過程成功實(shí)施后,對已知錯(cuò)誤和所有問題及相關(guān)事件的記錄工作才能終止。
?跟蹤和監(jiān)控
負(fù)責(zé)對已知錯(cuò)誤和問題的整個(gè)生命周期內(nèi)的發(fā)展情況進(jìn)行監(jiān)控和跟蹤,通過跟蹤和監(jiān)控確定變更的緊急度和影響度,并在必要的時(shí)候調(diào)整優(yōu)先級。
3.3.1.3主動(dòng)問題
主動(dòng)問題管理主要關(guān)注的是運(yùn)維服務(wù)以及相關(guān)基礎(chǔ)設(shè)施的質(zhì)量,注重對基礎(chǔ)設(shè)施運(yùn)行趨勢的分析并根據(jù)分析結(jié)果找出潛在事件以防止其發(fā)生。
3.4變更管理
“不是每一次變更都能帶來進(jìn)步,但是每一次進(jìn)步均由變更引起”變更管理在于對變更過程的管理,以及相應(yīng)的減少因變更帶來的事件或問題數(shù)量。圖4為變更管理與其他管理的關(guān)系。
圖4 變更管理與其他管理的關(guān)系
3.4.1變更管理與其它主要管理的關(guān)系
3.4.1.1事件管理
與事件管理存在兩方面的關(guān)系,一方面變更管理在通過處理事件請求的變更來抵消事件造成的影響,而另一方面變更管理的實(shí)現(xiàn)過程可能可能會(huì)導(dǎo)致新事件。3.4.1.2配置管理
變更管理與配置管理緊密相關(guān):通過配置管理,變更及變更影響都會(huì)被同時(shí)記錄下來;變更正在處理的配置項(xiàng)和其他配置項(xiàng)之間的關(guān)系都能通過配置管理進(jìn)行確定,從而顯示變更將會(huì)影響到什么。
3.4.1.3問題管理
與問題管理存在兩方面的關(guān)系:一方面變更管理通常會(huì)被要求去糾正錯(cuò)誤、解決問題;而另一方面變更管理的實(shí)現(xiàn)過程如果沒有得到很好的控制,變更會(huì)導(dǎo)致新的錯(cuò)誤,引發(fā)新的問題。
3.4.2變更管理活動(dòng)
變更管理主要包括變更請求記錄、變更請求審查、變更請求分類、變更規(guī)劃和批準(zhǔn)、變更請求協(xié)調(diào)以及變更管理評價(jià)六大塊。
3.4.2.1變更管理記錄
變更管理將記錄下所有的變更請求,同時(shí)當(dāng)變更請求已經(jīng)提交或?qū)ψ兏呀?jīng)進(jìn)行處理時(shí),需要記錄下已知錯(cuò)誤的數(shù)量。
3.4.2.2變更管理審查
變更管理將會(huì)對已經(jīng)記錄的變更請求做出一個(gè)初步評估,以檢查是否有不清楚、不合理、不可行或不必要的變更請求。當(dāng)拒絕某項(xiàng)變更請求時(shí),需要將相關(guān)原因反饋給提交變更請求的用戶。
3.4.2.3變更管理分類
變更請求一旦被接受,就需要被指定該變更的優(yōu)先級和類別。優(yōu)先級體現(xiàn)的是該項(xiàng)變更相對于其他變更請求的重要程度,優(yōu)先級主要取決于該項(xiàng)變更的時(shí)間緊急度和變更業(yè)務(wù)的需求度。
3.4.2.4變更管理規(guī)劃和批準(zhǔn)
變更管理通過變更進(jìn)度計(jì)劃表或者變更日歷來對整個(gè)變更管理進(jìn)行規(guī)劃,包括所有批準(zhǔn)的變更和變更的計(jì)劃實(shí)施中的數(shù)據(jù)細(xì)節(jié)等內(nèi)容。批準(zhǔn)由三方面組成,分別為財(cái)務(wù)批準(zhǔn)(成本/優(yōu)勢分析和預(yù)算)、技術(shù)批準(zhǔn)(影響、必要性、可行性)、業(yè)務(wù)批準(zhǔn)(由受變更影響的業(yè)務(wù)系統(tǒng)批準(zhǔn))。
3.4.2.5變更管理協(xié)調(diào)
變更經(jīng)過批準(zhǔn)后,將分配給相關(guān)的專業(yè)技術(shù)人員,專業(yè)技術(shù)人員他們可以根據(jù)情況創(chuàng)建和整合變更請求。批準(zhǔn)的變更過程中涉及到的創(chuàng)建、測試、實(shí)施在發(fā)布管理中進(jìn)行,同時(shí)需要關(guān)注批準(zhǔn)的變更計(jì)劃執(zhí)行情況。
3.4.2.6變更管理評價(jià)
變更過程可能會(huì)出現(xiàn)各種列外事件,所以需要對已實(shí)施的變更管理進(jìn)行評價(jià)。評價(jià)內(nèi)容包括:變更活動(dòng)是否達(dá)到了預(yù)定目的?系統(tǒng)用戶對變更的結(jié)果是否滿意?變更過程是否引了發(fā)其他額外事件的發(fā)生?整個(gè)變更活動(dòng)是否超過預(yù)估的成本和預(yù)算?
本文通過對IT信息技術(shù)服務(wù)管理系統(tǒng)應(yīng)用研究,參照ISO20000《IT信息技術(shù)服務(wù)管理體系標(biāo)準(zhǔn)》,圍繞ITIL基礎(chǔ)框架結(jié)構(gòu)開展以服務(wù)臺(tái)、事件管理、問題管理、變更管理等方面的探討,結(jié)合公司目前運(yùn)維管理中面臨的問題提出信息系統(tǒng)運(yùn)維管理解決方案,讓公司IT運(yùn)維規(guī)范管理以及符合IT服務(wù)標(biāo)準(zhǔn),同時(shí)為今后ITIL認(rèn)證做好準(zhǔn)備。
注釋:
①ISO20000《IT信息技術(shù)服務(wù)管理體系標(biāo)準(zhǔn)》著重于通過“IT服務(wù)標(biāo)準(zhǔn)化”來管理IT問題,即將IT問題歸類,識(shí)別問題的內(nèi)在聯(lián)系,然后依據(jù)服務(wù)水準(zhǔn)協(xié)議進(jìn)行計(jì)劃、推行和監(jiān)控,并強(qiáng)調(diào)與客戶的溝通.
②ITIL即IT基礎(chǔ)架構(gòu)庫(Information Technology Infrastructure Library),主要適用于IT服務(wù)管理(ITSM),以及為企業(yè)的IT服務(wù)管理實(shí)踐提供一個(gè)客觀、嚴(yán)謹(jǐn)、可量化的標(biāo)準(zhǔn)和規(guī)范.
參考文獻(xiàn)
[1]中國IT服務(wù)管理指南.
[2]基于ITIL?的IT服務(wù)管理.
林武 (1980—),男,四川內(nèi)江人,中共黨員,大學(xué)本科,工程師,南車資陽機(jī)車有限公司綜合技術(shù)部應(yīng)用開發(fā)室主管,研究方向:信息技術(shù)。
作者簡介: