摘要:通過對(duì)三一集團(tuán)實(shí)施IT服務(wù)級(jí)別管理的過程進(jìn)行了分析,提出了大型企業(yè)建立IT服務(wù)級(jí)別管理體系的實(shí)施方案,并從服務(wù)目錄制定,簽訂服務(wù)級(jí)別協(xié)議、服務(wù)監(jiān)控、服務(wù)報(bào)告、服務(wù)優(yōu)化等5個(gè)方面就具體實(shí)施策略進(jìn)行深入討論,最后結(jié)合實(shí)施后的結(jié)果數(shù)據(jù)驗(yàn)證了該方案的合理性與可行性。
關(guān)鍵詞:ITIL;IT服務(wù)級(jí)別管理;SLM;SLA;ITSM
中圖分類號(hào):TP311.5文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2009)14-3790-02
The Best Practice of SLM in Large-scale Enterprise
WU Yun-feng, CHEN Chang-Gen, LIU Yu-bo
(IT Department of Sany Heavy Industry Company, Changsha 410100, China)
Abstract: Give a solution on how to implement SLM by analyzing the implementation process of SLM in a large-scale enterprise (Sany Company). Explain the five steps of the solution in detail—Service Catalog, Service Agreement, service monitor, service report, service optimizing. Use the outcome data proves the feasibility of the solution.
Key words: ITIL; ITSM; SLM; SLA
1 引言
IT服務(wù)級(jí)別管理(SLM:Service Level Management)是 ITIL的核心流程之一, ITIL對(duì)其的定義為:企業(yè)在可接受的成本條件下,就IT服務(wù)質(zhì)量所做出的包括談判、定義、評(píng)估、管理、改進(jìn)等一系列的管理活動(dòng)。SLM的主要作用是確保企業(yè)能夠獲得符合服務(wù)級(jí)別協(xié)議(SLA:Service Level Agreement)中定義的質(zhì)量要求的IT服務(wù),同時(shí)實(shí)現(xiàn)在成本可控的前提下持續(xù)提高IT服務(wù)質(zhì)量的目的(幾者之間的關(guān)系如圖1所示)。對(duì)于企業(yè)內(nèi)部的IT組織來說SLM可以幫助其在 IT服務(wù)質(zhì)量、客戶關(guān)系、以及IT服務(wù)成本三者之間的博弈中找到最佳平衡點(diǎn)。SLM的實(shí)施需要IT組織充分了解自身所能提供的IT服務(wù),以及相關(guān)的優(yōu)先權(quán)和業(yè)務(wù)重要程度,在有效性、響應(yīng)性、完整性、安全性的約束下將服務(wù)價(jià)值傳遞給客戶。
2 SLM實(shí)施方案分析
ITIL對(duì)于SLM的實(shí)施給出了建議,實(shí)施過程大致分為:確定服務(wù)目錄,制定服務(wù)級(jí)別協(xié)議,服務(wù)監(jiān)控,服務(wù)報(bào)告,服務(wù)持續(xù)改進(jìn)5個(gè)步驟。對(duì)于“服務(wù)級(jí)別協(xié)議如何簽訂?”、“SLM何時(shí)實(shí)施?”、“服務(wù)如何量化?”等這些具體的問題ITIL并沒有給出標(biāo)準(zhǔn)答案。本文以三一集團(tuán)實(shí)施SLM的實(shí)際經(jīng)驗(yàn)為依據(jù),對(duì)“如何具體實(shí)施SLM?”這個(gè)問題做出了解答。
2.1 定制IT服務(wù)目錄
在ITIL v3的定義中,“服務(wù)”是指能為客戶帶來價(jià)值的一項(xiàng)活動(dòng)或一系列活動(dòng)的組合。定義IT服務(wù)是實(shí)施SLM的第一步。
三一集團(tuán)的信息化建設(shè)一直處于行業(yè)領(lǐng)先水平,在其IT部門的多年努力下已經(jīng)建立了以ERP、PDM、ECC為核心的龐大信息平臺(tái)。定制服務(wù)目錄的第一步就是從業(yè)務(wù)流程的角度對(duì)信息平臺(tái)的各個(gè)組成單元進(jìn)行分析并定義IT服務(wù),這些服務(wù)將組成IT服務(wù)目錄。能夠提供完整業(yè)務(wù)流程的一個(gè)或多個(gè)信息系統(tǒng)的組合即可視為一項(xiàng)IT服務(wù)。例如:“查詢生產(chǎn)訂單”不能作為一項(xiàng)服務(wù),物流管理模塊不能視為一項(xiàng)服務(wù),能夠支持整個(gè)企業(yè)資源管理業(yè)務(wù)流程的ERP系統(tǒng)才能算是一項(xiàng)完整的IT服務(wù);另外IT部門內(nèi)部的一些職能組織如果屬于對(duì)外服務(wù)型組織,其工作職能亦可對(duì)應(yīng)一項(xiàng)IT服務(wù),例如PC維護(hù)組對(duì)應(yīng)PC維護(hù)服務(wù);由IT部門引進(jìn)的外部IT組織所提供的服務(wù)也應(yīng)納入服務(wù)目錄。在進(jìn)入簽署SLA階段之前,IT部門明確哪些服務(wù)有條件簽署SLA,如果服務(wù)近期存在重大變更,例如系統(tǒng)升級(jí)、改造、退役等,應(yīng)暫緩納入SLM。
2.2 簽訂服務(wù)級(jí)別協(xié)議
服務(wù)級(jí)別協(xié)議(SLA)是服務(wù)提供商與客戶之間就服務(wù)質(zhì)量達(dá)成的共識(shí),SLA是SLM的核心內(nèi)容,其主要記載了IT服務(wù)的質(zhì)量考核指標(biāo)以及針對(duì)這些指標(biāo)的考核辦法。
2.2.1 確定質(zhì)量考核指標(biāo)
確定服務(wù)質(zhì)量考核指標(biāo)應(yīng)從服務(wù)的有效性、響應(yīng)性、完整性、安全性4個(gè)方面來分析。
有效性:服務(wù)有效即服務(wù)可用,“服務(wù)可用性”可作為服務(wù)有效性的考核指標(biāo)。對(duì)于由應(yīng)用系統(tǒng)構(gòu)成的服務(wù),服務(wù)的可用性即為系統(tǒng)的可用性:
P=系統(tǒng)實(shí)際提供服務(wù)時(shí)間/系統(tǒng)應(yīng)該提供服務(wù)的時(shí)間×100%
如果一個(gè)服務(wù)由多個(gè)相互依賴的系統(tǒng)組成時(shí),該服務(wù)的可用性:
P=P0P1…Pn×100%
對(duì)于由人工形式提供的服務(wù),其可用性可轉(zhuǎn)化為在服務(wù)提供時(shí)間內(nèi)的用戶請(qǐng)求服務(wù)的成功率。例如幫助臺(tái)的可用性為:
P=電話實(shí)際接通次數(shù)/電話撥入次數(shù)×100%
響應(yīng)性:響應(yīng)性關(guān)注客戶能否在預(yù)期時(shí)間內(nèi)享受到服務(wù)帶來的價(jià)值,強(qiáng)調(diào)的是服務(wù)的效率問題。對(duì)于應(yīng)用系統(tǒng)來說響應(yīng)性即為系統(tǒng)的響應(yīng)時(shí)間。一個(gè)應(yīng)用系統(tǒng)通常涵蓋復(fù)雜的業(yè)務(wù)流程,包含了數(shù)百個(gè)業(yè)務(wù)操作,IT部門應(yīng)該和業(yè)務(wù)部門一起,遵循2/8原則,挑選出能反映系統(tǒng)整體性能的關(guān)鍵功能點(diǎn)以及業(yè)務(wù)部門較為關(guān)注的核心業(yè)務(wù)操作。例如系統(tǒng)登錄、具有代表性的數(shù)據(jù)提交、查詢、報(bào)表生成等可作為服務(wù)的響應(yīng)性指標(biāo)。對(duì)于人工提供的服務(wù)則關(guān)注服務(wù)提供的時(shí)效,例如在2小時(shí)內(nèi)解決客戶PC故障的成功率。
完整性:根據(jù)ITIL V3的定義,服務(wù)是一個(gè)或者一系列的動(dòng)作的組合,只有能完成與服務(wù)有關(guān)的所有動(dòng)作才能視為有能力提供完整的服務(wù)。以應(yīng)用系統(tǒng)為例,除了系統(tǒng)可用、關(guān)鍵功能響應(yīng)時(shí)間之外,比如帳號(hào)創(chuàng)建、權(quán)限變更、用戶咨詢解答等關(guān)系到客戶能否正常享用服務(wù)的動(dòng)作都屬于該服務(wù)的范疇,均應(yīng)包含在服務(wù)質(zhì)量的考核范圍內(nèi)。
安全性:安全性是指服務(wù)交付的過程中客戶資產(chǎn)的安全,強(qiáng)調(diào)客戶在享受服務(wù)的同時(shí)盡量避免承擔(dān)風(fēng)險(xiǎn)。對(duì)于IT服務(wù)來說,其安全性應(yīng)該由ITIL中的業(yè)務(wù)連續(xù)性管理來保障。IT部門應(yīng)建立完備的災(zāi)難(故障)恢復(fù)機(jī)制,并針對(duì)程序、數(shù)據(jù)、配置等制定合理的備份策略。系統(tǒng)崩潰后的恢復(fù)時(shí)間以及備份計(jì)劃的完整性,準(zhǔn)確性,及時(shí)性的是衡量服務(wù)安全性的質(zhì)量指標(biāo)。
2.2.2 確定質(zhì)量考核指標(biāo)的閾值
質(zhì)量指標(biāo)確定后,需要進(jìn)一步確定考核基線,即這些考核指標(biāo)的標(biāo)準(zhǔn)值或閾值。閾值的確定必須得當(dāng):閾值過高,明顯超出實(shí)際能力SLA將成為不切實(shí)際的空談;閾值過低,明顯低于當(dāng)前水平則對(duì)提升IT服務(wù)質(zhì)量無益,且違背了SLM的最終目的。質(zhì)量指標(biāo)閾值的確定需從以下三個(gè)方面考慮:
業(yè)務(wù)需求:滿足業(yè)務(wù)部門的需求是對(duì)IT服務(wù)質(zhì)量的最根本要求。各種服務(wù)因其服務(wù)的業(yè)務(wù)部門的工作性質(zhì)的不同其服務(wù)要求也不同:與生產(chǎn)線有關(guān)的業(yè)務(wù)系統(tǒng)可能要求7×24運(yùn)轉(zhuǎn),人力資源管理系統(tǒng)可能只需要5×8運(yùn)轉(zhuǎn)。工控方面的實(shí)時(shí)控制系統(tǒng)可能要求毫秒級(jí)別的響應(yīng)速度,而OA系統(tǒng)則只需保證每個(gè)頁面在3秒內(nèi)打開即可。制定閾值應(yīng)該第一考慮客戶即業(yè)務(wù)部門的需求。
IT基礎(chǔ)設(shè)施現(xiàn)狀:如果將IT服務(wù)進(jìn)行分解,最底層的將是具體的IT設(shè)備,例如存儲(chǔ)、服務(wù)器、交換機(jī)等。雖然這些底層的IT基礎(chǔ)設(shè)施不會(huì)直接面對(duì)用戶,但這些設(shè)備的運(yùn)行狀況直接到影響服務(wù)的質(zhì)量,因此在確定服務(wù)的各個(gè)質(zhì)量指標(biāo)的閾值前,必須要先了解IT基礎(chǔ)設(shè)施當(dāng)前的運(yùn)行狀況以及歷史性能數(shù)據(jù),這些數(shù)據(jù)是確定服務(wù)質(zhì)量指標(biāo)閾值的重要依據(jù)。例如只有主干網(wǎng)絡(luò)的可用性高于98%,應(yīng)用系統(tǒng)的可用性才有可能高于98%。負(fù)責(zé)維護(hù)這些基礎(chǔ)設(shè)施的IT組織有責(zé)任保障這些IT基礎(chǔ)設(shè)施按期望的性能運(yùn)行,必要時(shí)可與這些基礎(chǔ)設(shè)施的維護(hù)組織簽訂IT內(nèi)部的SLA,在ITIL中稱之為OLA (Operation Level Agreement)。
外部資源:以PC維護(hù)為例,其硬件保修一般由外部供應(yīng)商負(fù)責(zé),如果IT部門需要確定“PC故障的修復(fù)時(shí)間”的閾值,則需要考慮外部供應(yīng)商提供服務(wù)的能力。
從以上三個(gè)方面與業(yè)務(wù)部門就閾值進(jìn)行討論,在成本和效益方面進(jìn)行權(quán)衡,最后確定的閾值應(yīng)該高于當(dāng)前服務(wù)實(shí)際質(zhì)量的平均水平但低于歷史最高水平。如果業(yè)務(wù)部門對(duì)IT服務(wù)的期望確實(shí)超出目前IT現(xiàn)有水平,可以考慮向公司建議增加IT投入,例如購買服務(wù)器,招聘更多的IT工程師。
2.2.3 例外情況的處理
IT系統(tǒng)、設(shè)備不可避免的要進(jìn)行一些例如升級(jí)、patch、調(diào)優(yōu)、停機(jī)備份等正常的維護(hù)保養(yǎng)動(dòng)作;可與業(yè)務(wù)部門協(xié)商將這些例行的維護(hù)放到用戶可接受的固定時(shí)間段內(nèi)(例如每個(gè)周末的午夜),并在SLA中注明在此期間將不對(duì)服務(wù)質(zhì)量進(jìn)行考核。
2.2.4 SLA的編撰與發(fā)布
完成服務(wù)質(zhì)量考核指標(biāo)及其指標(biāo)值的制定后,由IT部門主導(dǎo)進(jìn)行SLA的編寫,除了將上述內(nèi)容寫入SLA,SLA中還需記錄每項(xiàng)服務(wù)的IT負(fù)責(zé)人以及服務(wù)團(tuán)隊(duì),并說明用戶在享用IT服務(wù)時(shí)需遵循的行為準(zhǔn)則(例如信息安全行為規(guī)范),將相關(guān)內(nèi)容匯編成冊(cè)后,由IT與業(yè)務(wù)部門雙方簽字后在企業(yè)內(nèi)部進(jìn)行公示。作為企業(yè)內(nèi)部的服務(wù)級(jí)別協(xié)議,SLA一般不需以合同形式發(fā)布。
2.3 服務(wù)監(jiān)控
對(duì)服務(wù)進(jìn)行監(jiān)控目的是為了監(jiān)測當(dāng)前服務(wù)質(zhì)量是否達(dá)到了SLA的要求,在提出IT服務(wù)這個(gè)概念以前,IT領(lǐng)域的監(jiān)控主要針對(duì)獨(dú)立的IT設(shè)備、IT系統(tǒng),并沒有形成對(duì)IT服務(wù)整體監(jiān)控的概念。SLA簽署以后,為了及時(shí)掌握當(dāng)前服務(wù)的質(zhì)量情況,需要對(duì)目前的監(jiān)控思路進(jìn)行調(diào)整,監(jiān)控點(diǎn)需覆蓋所有SLA中定義的質(zhì)量考核指標(biāo),當(dāng)出現(xiàn)監(jiān)控告警時(shí)IT人員要能迅速的判讀該異常將影響哪些IT服務(wù),影響程度是什么。
為實(shí)現(xiàn)這一目的,三一集團(tuán)IT總部對(duì)原有監(jiān)控系統(tǒng)進(jìn)行了改造和整合,提出了面向服務(wù)的監(jiān)控系統(tǒng)架構(gòu)(見圖3)。首先自行開發(fā)了大量監(jiān)控工具全面覆蓋了SLA中定義各類指標(biāo),同時(shí)將各類監(jiān)控?cái)?shù)據(jù)(應(yīng)用、服務(wù)器,網(wǎng)絡(luò),平臺(tái)軟件)匯集到SLM管理平臺(tái)(SanySLM)進(jìn)行分析,分析結(jié)果按服務(wù)分類后展示(見圖4)。
IT工程師通過SLM管理平臺(tái)的監(jiān)控面板能夠?qū)崟r(shí)的觀測各IT服務(wù)的健康狀況,并能直觀的查看每個(gè)監(jiān)控點(diǎn)的實(shí)時(shí)數(shù)據(jù)以及歷史趨勢(shì)。通過監(jiān)控面板,管理人員還能調(diào)整各個(gè)指標(biāo)的閾值以及監(jiān)控頻率。在IT總部維護(hù)的信息系統(tǒng)中,很多都是面向全集團(tuán)提供服務(wù)的,針對(duì)這些有異地用戶使用的系統(tǒng), IT總部專門制定了針對(duì)“異地使用的IT服務(wù)”的質(zhì)量考核指標(biāo),并在異地部署了監(jiān)控程序,從而及時(shí)掌握了異地用戶使用IT服務(wù)的體驗(yàn),真正做到在在集團(tuán)范圍內(nèi)全面實(shí)施SLM。
2.4 服務(wù)報(bào)告
定期對(duì)服務(wù)質(zhì)量進(jìn)行總結(jié)有利于適時(shí)調(diào)整服務(wù)維護(hù)策略,提升服務(wù)質(zhì)量。三一集團(tuán)由其IT總部每月對(duì)服務(wù)運(yùn)行情況進(jìn)行總結(jié)評(píng)分,其結(jié)果在企業(yè)內(nèi)部網(wǎng)進(jìn)行公示。對(duì)于服務(wù)質(zhì)量的評(píng)分IT總部制定了詳細(xì)的評(píng)分規(guī)則,評(píng)分低于60,意味著當(dāng)月該服務(wù)未能達(dá)到SLA要求,該服務(wù)的維護(hù)團(tuán)隊(duì)需要對(duì)服務(wù)現(xiàn)狀進(jìn)行分析并制定服務(wù)質(zhì)量提升措施。為了將SLA切實(shí)貫徹到IT日常工作中,服務(wù)的評(píng)分結(jié)果同時(shí)作為服務(wù)團(tuán)隊(duì)績效考核指標(biāo),將SLA與個(gè)人績效相結(jié)合有助在整個(gè)IT部門形成一致的工作目標(biāo)——“保證IT服務(wù)質(zhì)量達(dá)到SLA的要求”。
2.5 服務(wù)優(yōu)化
SLA實(shí)際上是評(píng)估當(dāng)前服務(wù)質(zhì)量的一條基線。由于紛繁復(fù)雜的IT環(huán)境是時(shí)刻變化的,很多情況都會(huì)促使IT部門或業(yè)務(wù)部門對(duì)SLA進(jìn)行修改。例如增加了服務(wù)器后,系統(tǒng)的性能有了顯著的提升,原來的SLA將不再適用,需要提高相關(guān)考核指標(biāo)的達(dá)標(biāo)值;當(dāng)業(yè)務(wù)部快速擴(kuò)張后會(huì)導(dǎo)致用戶數(shù)量急劇增長,系統(tǒng)的負(fù)載加重,性能、穩(wěn)定性都開始降低,這種情況下也需要對(duì)原來的SLA進(jìn)行調(diào)整。因此,對(duì)于SLA應(yīng)該采用PDCA的修訂方式。
三一集團(tuán)IT總部針對(duì)SLA的修訂執(zhí)行制定相應(yīng)的管理流程(如圖5所示),IT總部每季度以季度內(nèi)的SLA監(jiān)測數(shù)據(jù)為基礎(chǔ)與業(yè)務(wù)部門一起討論SLA的修訂,修訂后的草案提交公司信息化委員會(huì)進(jìn)行審議后發(fā)布。對(duì)SLA的定期修訂,可將IT服務(wù)的質(zhì)量考核基線始終保持在一個(gè)合適位置,從而推動(dòng)IT服務(wù)質(zhì)量不斷地向更高品質(zhì)發(fā)展。
3 結(jié)論
本文總結(jié)了三一集團(tuán)實(shí)施SLM的實(shí)踐經(jīng)驗(yàn),對(duì)建立SLM管理體系提出了一套解決方案。目前三一集團(tuán)已有十二項(xiàng)IT服務(wù)制定了SLA,經(jīng)過4個(gè)月的試運(yùn)行,在以“SLA驅(qū)動(dòng),持續(xù)優(yōu)化,考核掛鉤”的指導(dǎo)原則下,整個(gè)集團(tuán)的IT服務(wù)質(zhì)量有了全面的提升:例如ERP的可用性自SLM實(shí)施以來一直保持在100%,其MRP查看等關(guān)鍵業(yè)務(wù)操作響應(yīng)效率提高了1倍;一直困擾PDM系統(tǒng)的“50M三維模型的檢入”操作從先前的平均100s下降到目前的平均35s。
理論上SLM是可以獨(dú)立實(shí)施,但其與ITIL的其他流程的聯(lián)系是十分緊密的(例如變更管理、事件管理、可用性管理等),這些流程是達(dá)成SLA目標(biāo)的重要手段。根據(jù)三一集團(tuán)實(shí)施ITIL的經(jīng)驗(yàn) ,SLM可與變更管理、事件管理、問題管理等服務(wù)支持流程同時(shí)實(shí)施,服務(wù)支持流程是達(dá)成SLA要求的有力保障,SLM則是檢驗(yàn)這些流程實(shí)施的成效的重要手段。
參考文獻(xiàn):
[1] The key to managing IT services[EB/OL].[2009-03-08].http://www.ogc.gov.uk/guidance_itil.asp.
[2] ITIL官方網(wǎng)站[EB/OL ]. [2009-03-08].http://www.itil.co.uk/.
[3] 孫強(qiáng), 劉小寧實(shí)施IT服務(wù)管理——路在腳下[EB/OL].[2009-03-08]. http://www.cc idoom.com/weekly/news/39/200483114920.htm.
[4] 陳宏峰. 翰緯ITILv3白皮書[M]. 2007.
[5] 左天祖, 劉偉.中國IT服務(wù)管理指南[M].北京:北京大學(xué)出版社,2004.