曹逸峰,尚鴻斌,陳 杰,包妍蘋,沈 璟,劉 旭,陳曉偉
(中國(guó)農(nóng)業(yè)銀行股份有限公司數(shù)據(jù)中心,上海 200131)
隨著信息化的快速普及與發(fā)展,現(xiàn)代企業(yè)對(duì)信息系統(tǒng)依賴程度逐漸提高,對(duì)運(yùn)維管理的投入也不斷加大。目前,國(guó)內(nèi)很多企業(yè)通過(guò)了ISO20000 IT 服務(wù)管理體系認(rèn)證,同時(shí)也建立了自己信息系統(tǒng)運(yùn)維管理方面的案例庫(kù),但這些案例基本都停留在案例展示階段,尚未涉及基于已有案例的風(fēng)險(xiǎn)預(yù)測(cè)、應(yīng)急決策等分析功能,也沒(méi)有形成有效的案例教學(xué)模式進(jìn)行經(jīng)驗(yàn)交流與共享[1]。ISO20000 服務(wù)體系強(qiáng)調(diào)事件和問(wèn)題等13 個(gè)流程的日常管理,但對(duì)于主動(dòng)性運(yùn)維方式缺乏足夠的延伸。面對(duì)現(xiàn)代企業(yè)信息系統(tǒng)生產(chǎn)運(yùn)維壓力的急劇增加,以及類似故障重復(fù)發(fā)生、處置差異較大的嚴(yán)峻形勢(shì),迫切需要開(kāi)展新的生產(chǎn)運(yùn)行案例建設(shè)研究。
盡管運(yùn)維自動(dòng)化程度在不斷提高,但在案例自動(dòng)生成方面,還沒(méi)有十分有效的智能處理方式自動(dòng)生成運(yùn)維人員需要的案例。同時(shí),在故障預(yù)測(cè)方面,基本全靠運(yùn)維經(jīng)驗(yàn)和被動(dòng)應(yīng)付,缺乏有效的預(yù)測(cè)方法。另外,在事中決策支持領(lǐng)域,缺乏實(shí)際可行的方案,基于案例的推理(Case Based Reasoning,CBR)是一種新興的機(jī)器學(xué)習(xí)和推理方法,其核心思想是重用過(guò)去人們解決問(wèn)題的經(jīng)驗(yàn)解決新問(wèn)題[2],目前,國(guó)外已有很多成功的應(yīng)用,但國(guó)內(nèi)在實(shí)際系統(tǒng)中應(yīng)用CBR 的成功例子還較少,有待進(jìn)一步發(fā)展。
針對(duì)以上情況,本文提出一種主動(dòng)運(yùn)維案例體系建設(shè)思路:一方面研究采用智能化方式構(gòu)建生產(chǎn)運(yùn)維案例庫(kù);另一方面探索基于該案例庫(kù)的多個(gè)相關(guān)應(yīng)用,如預(yù)測(cè)預(yù)警、輔助決策和案例教學(xué),最終利用統(tǒng)一的工具平臺(tái)實(shí)現(xiàn)并整合各模塊,以達(dá)到有效降低事件重復(fù)發(fā)生頻率,提高事中定位與處置能力,充分共享經(jīng)驗(yàn)教訓(xùn)的效果。首先,案例庫(kù)建設(shè)采用向量化解析和改進(jìn)的KNN 文本分類技術(shù)[3],實(shí)現(xiàn)運(yùn)維服務(wù)臺(tái)事件單信息中案例知識(shí)素材的自動(dòng)獲取。其次,采用密度預(yù)測(cè)和關(guān)系預(yù)測(cè)的方法[4],實(shí)現(xiàn)事件事前預(yù)警預(yù)測(cè)。同時(shí),在現(xiàn)有案例推理“4R”模型[5]的基礎(chǔ)上,通過(guò)增加案例的重新劃分形成一種“5R”案例推理模型,實(shí)現(xiàn)事中處置的輔助決策機(jī)制。另外,在經(jīng)驗(yàn)共享方面,提出一種改進(jìn)“4S”運(yùn)維案例教學(xué)模式[6],收錄異常案例,為事后共享經(jīng)驗(yàn)教訓(xùn)提供手段。
本文針對(duì)傳統(tǒng)案例建設(shè)存在的弊端,提出一種可行且高效的主動(dòng)生產(chǎn)運(yùn)維案例體系。該體系采用了向量化解析和知識(shí)分層提取的方式構(gòu)建案例分析金字塔模型,同時(shí)基于此模型研究多個(gè)相關(guān)應(yīng)用,如事件的趨勢(shì)及預(yù)測(cè)預(yù)警分析、基于CBR 的輔助決策機(jī)制和“4S”案例教學(xué)模式,最終利用統(tǒng)一的工具平臺(tái)實(shí)現(xiàn)以上所有功能。整體結(jié)構(gòu)如圖1 所示,體系主要由案例庫(kù)建設(shè)、相關(guān)應(yīng)用和工具平臺(tái)建設(shè)3 個(gè)部分組成。
圖1 生產(chǎn)運(yùn)維案例體系整體結(jié)構(gòu)圖
案例庫(kù)建設(shè)模塊由三層結(jié)構(gòu)的金字塔模型構(gòu)成,金字塔結(jié)構(gòu)的最底層是生產(chǎn)運(yùn)維操作標(biāo)準(zhǔn)庫(kù)和生產(chǎn)運(yùn)行異常事件庫(kù),操作標(biāo)準(zhǔn)庫(kù)來(lái)源于日常的操作指南與手冊(cè)以及主動(dòng)運(yùn)維典型經(jīng)驗(yàn),異常事件庫(kù)則是信息系統(tǒng)運(yùn)維服務(wù)臺(tái)上的異常事件信息收錄匯總。第二層是案例素材庫(kù),主要包括組成案例的素材元素、零散知識(shí)點(diǎn)等,并通過(guò)向量化解析和知識(shí)分層提取,起到承接上下層的作用。最頂層是案例教學(xué)庫(kù),是由案例素材和知識(shí)模塊組成的精華案例,可以用于案例宣講與教學(xué)、事中處置參考、在線學(xué)習(xí)等。
相關(guān)應(yīng)用主要包括輔助決策、預(yù)警預(yù)測(cè)和案例教學(xué)。運(yùn)維人員通過(guò)關(guān)鍵字檢索或建立事件單時(shí),系統(tǒng)就會(huì)將輸入信息與現(xiàn)有案例進(jìn)行相似度計(jì)算匹配,將最相近的案例(包括故障原因和最佳處置方案)推薦給工作人員。系統(tǒng)通過(guò)對(duì)運(yùn)維服務(wù)臺(tái)大量已有事件按照不同維度進(jìn)行統(tǒng)計(jì)分析,得到事件集中領(lǐng)域分布情況和未來(lái)可能性趨勢(shì),從而實(shí)現(xiàn)預(yù)警預(yù)測(cè)的功能。利用改進(jìn)的“4S”模型完善企業(yè)的運(yùn)維團(tuán)隊(duì)、管理流程和質(zhì)量標(biāo)準(zhǔn)實(shí)現(xiàn)線上線下的案例教學(xué)與經(jīng)驗(yàn)共享機(jī)制。
最后就是電子化工具平臺(tái)建設(shè),將案例庫(kù)建設(shè)及相關(guān)應(yīng)用與現(xiàn)有運(yùn)維操作管理平臺(tái)進(jìn)行功能整合及改造,實(shí)現(xiàn)對(duì)運(yùn)維案例的電子化管理與操作。
案例分析金字塔模型是整個(gè)主動(dòng)運(yùn)維案例體系建設(shè)的基礎(chǔ)與核心。本文在現(xiàn)有案例研究的基礎(chǔ)上,結(jié)合運(yùn)維管理中事件、問(wèn)題處理的特點(diǎn)提出了一種三層結(jié)構(gòu)的案例分析金字塔模型,如圖2 所示:最底層通過(guò)制定統(tǒng)一、易操作的異常事件分類以及運(yùn)維操作標(biāo)準(zhǔn),將生產(chǎn)運(yùn)行事件及運(yùn)維操作從響應(yīng)、定位、處置、動(dòng)作、方法等方面進(jìn)行結(jié)構(gòu)化拆分,形成異?,F(xiàn)象、原因、處置方案、標(biāo)準(zhǔn)動(dòng)作以及操作方法等結(jié)構(gòu)化要素,建立生產(chǎn)運(yùn)行事件庫(kù)以及運(yùn)維操作標(biāo)準(zhǔn)庫(kù)。中間層通過(guò)機(jī)器學(xué)習(xí)和文本處理技術(shù),將結(jié)構(gòu)化后的大量事件數(shù)據(jù)信息進(jìn)行原子化的拆分與標(biāo)準(zhǔn)化歸置,并對(duì)元數(shù)據(jù)進(jìn)行了分類比較,篩選出適用于案例分析的典型事件素材信息。最頂層遵循案例編制科學(xué)流程,結(jié)合案例研究團(tuán)隊(duì)專家組織對(duì)篩選出的典型事件素材進(jìn)行案例分析,形成案例教學(xué)與宣講相關(guān)材料。
圖2 案例分析金字塔模型
2.1.1 生產(chǎn)運(yùn)維操作標(biāo)準(zhǔn)庫(kù)和生產(chǎn)運(yùn)行事件庫(kù)
生產(chǎn)運(yùn)維操作標(biāo)準(zhǔn)庫(kù)和生產(chǎn)運(yùn)行事件庫(kù)位于案例分析金字塔模型的最底層,是案例分析的基礎(chǔ)。其中,生產(chǎn)運(yùn)維操作方法標(biāo)準(zhǔn)庫(kù)是通過(guò)日常運(yùn)維經(jīng)驗(yàn)和知識(shí)的累積并在反復(fù)實(shí)踐的基礎(chǔ)上形成的運(yùn)維操作基本規(guī)范。生產(chǎn)運(yùn)行異常事件庫(kù)則是收錄信息系統(tǒng)異常事件信息,一般的事件信息主要記錄于運(yùn)維服務(wù)臺(tái)事件工單中。
在生產(chǎn)運(yùn)維操作標(biāo)準(zhǔn)庫(kù)中按照硬件設(shè)施(環(huán)境)、系統(tǒng)、應(yīng)用、網(wǎng)絡(luò)等分類將各個(gè)領(lǐng)域異常處置動(dòng)作標(biāo)準(zhǔn)化形成操作規(guī)范匯總,并通過(guò)索引實(shí)現(xiàn)快速檢索。以EMC NAS 存儲(chǔ)異常斷電故障處置為例,其最佳處置標(biāo)準(zhǔn)如表1 所示,整個(gè)處置流程由一系列標(biāo)準(zhǔn)動(dòng)作及其索引組成。
表1 EMC NAS 存儲(chǔ)故障處置標(biāo)準(zhǔn)操作方法
生產(chǎn)運(yùn)行異常事件庫(kù)中每件事件信息都可以拆分成“問(wèn)題現(xiàn)象”、“原因分析”、“處置過(guò)程”3 個(gè)短文本要素。其中,問(wèn)題短文本包括異常描述、事件編號(hào)、發(fā)生日期、事發(fā)單位、監(jiān)控渠道等信息;原因短文本包括原因分析、所屬領(lǐng)域、故障類型、故障設(shè)施/部件、供應(yīng)方等信息;處置短文本包括處置措施、后續(xù)計(jì)劃、故障持續(xù)時(shí)間、業(yè)務(wù)影響時(shí)間、影響范圍等信息。
2.1.2 案例素材庫(kù)
案例素材庫(kù)作為案例分析金字塔模型的中間層起到承上啟下的作用,它需要從底層的異常事件信息中獲取各種知識(shí)素材,同時(shí)為頂層的案例教學(xué)庫(kù)提供組成案例和分析案例的支撐信息。本文在案例素材生成方面,提出了一種面向非結(jié)構(gòu)化事件短文本信息的自動(dòng)分層提取模型,改變了傳統(tǒng)案例庫(kù)單純依靠人工收錄整理的方式。在生產(chǎn)運(yùn)維操作標(biāo)準(zhǔn)庫(kù)的基礎(chǔ)上通過(guò)該模型實(shí)現(xiàn)對(duì)生產(chǎn)運(yùn)行異常事件庫(kù)中的生產(chǎn)運(yùn)維相關(guān)知識(shí)素材的自動(dòng)提取,模型結(jié)構(gòu)如圖3 所示。
分層提取模型由4 層構(gòu)成,從下往上依次為原始數(shù)據(jù)層、向量空間層、領(lǐng)域規(guī)則層和知識(shí)實(shí)體層。其中,最底層是原始數(shù)據(jù)層,主要指生產(chǎn)運(yùn)維相關(guān)的異常事件信息,包括服務(wù)臺(tái)事件工單和異常事件庫(kù)等;第二層是向量空間層,是將原始數(shù)據(jù)層經(jīng)過(guò)一系列向量化處理得到的向量空間集,以便于機(jī)器識(shí)別和處理;第三層是領(lǐng)域規(guī)則層,主要功能是將向量空間集進(jìn)行分類處理并按主題規(guī)則保存處理后的數(shù)據(jù),包括分類器[7]、主題類別、訓(xùn)練集等;最頂層則是知識(shí)實(shí)體層,它是按照領(lǐng)域規(guī)則提取得到的知識(shí)模塊并對(duì)各個(gè)模塊打上屬性標(biāo)簽便于知識(shí)的快速檢索。當(dāng)新的生產(chǎn)運(yùn)維事件發(fā)生時(shí),事件信息經(jīng)過(guò)分層模型處理,便可自動(dòng)提取得到有價(jià)值的案例知識(shí)素材。
圖3 案例素材分層構(gòu)建模型
整個(gè)分層模型的核心是向量化和文本分類,向量化的作用是便于自動(dòng)化處理,文本分類是為了結(jié)果篩選和知識(shí)發(fā)現(xiàn)。
生產(chǎn)運(yùn)行異常事件庫(kù)中的信息都是以短文本形式保存的非結(jié)構(gòu)化數(shù)據(jù),為了能進(jìn)行機(jī)器自動(dòng)分類處理,必須對(duì)其進(jìn)行預(yù)處理以便計(jì)算機(jī)能識(shí)別。利用基于向量空間模型[8]的文本表示方法,對(duì)事件文本進(jìn)行分詞[9]、去禁用詞[10]、特征向量表示和特征擴(kuò)展處理,便可形成異常事件的向量化空間集。
文本分類的思想是按照預(yù)先定義的主題類別,為文檔集合中每個(gè)文檔確定一個(gè)類別,事件短文本的分類與傳統(tǒng)的文本分類類似,也包括訓(xùn)練和分類2 個(gè)過(guò)程。采用KNN 算法構(gòu)造分類器并對(duì)已有事件短文本進(jìn)行分類訓(xùn)練形成若干訓(xùn)練集類別,若有新事件文本加入,分類器按照算法規(guī)則自動(dòng)將其歸類。分類后的信息按照預(yù)先設(shè)定的規(guī)則進(jìn)行篩選從而達(dá)到知識(shí)發(fā)現(xiàn)的目的,同時(shí)根據(jù)知識(shí)特點(diǎn)給短文本信息打上不同的屬性標(biāo)簽,方便知識(shí)的檢索。
向量化表示中的特征詞擴(kuò)展和事件短文本分類的主題類別都可以依據(jù)現(xiàn)有的生產(chǎn)運(yùn)維操作標(biāo)準(zhǔn)庫(kù)進(jìn)行擴(kuò)展和預(yù)先定義。
2.1.3 案例教學(xué)庫(kù)
案例教學(xué)庫(kù)包括系統(tǒng)自動(dòng)生成組裝的最佳處置案例和人工運(yùn)維經(jīng)驗(yàn)總結(jié)提煉的案例。
系統(tǒng)生成的案例,是經(jīng)過(guò)分類統(tǒng)計(jì)并按照一定篩選規(guī)則得到同一類事件可能原因分布、處置耗時(shí)等,然后根據(jù)這些要素組裝成一個(gè)完整的最優(yōu)案例。其中篩選規(guī)則的設(shè)定可以根據(jù)生產(chǎn)運(yùn)維的需要進(jìn)行靈活設(shè)置,例如事件短文本中針對(duì)異常現(xiàn)象相近的“問(wèn)題現(xiàn)象”短文本,對(duì)其相應(yīng)的“原因分析”短文本進(jìn)行分類,并按次數(shù)多少進(jìn)行排序,排在前面的就是最可能的故障原因。同理對(duì)原因相近的“處置過(guò)程”短文本,分類后按處置時(shí)間長(zhǎng)短排序即可得到效率最高的處置方案。
人工總結(jié)案例又可以分為主動(dòng)運(yùn)維案例和異常處置案例。主動(dòng)運(yùn)維案例是對(duì)生產(chǎn)運(yùn)行中以預(yù)防風(fēng)險(xiǎn)、提升運(yùn)維質(zhì)量為目的,實(shí)施并取得良好效果的主動(dòng)運(yùn)維工作成果和經(jīng)驗(yàn)的歸納提煉。包括微碼升級(jí)案例、機(jī)房搬遷案例、應(yīng)急演練案例等。異常處置案例則是對(duì)生產(chǎn)運(yùn)行中發(fā)生的典型事件的基本信息、處置過(guò)程的回顧總結(jié)和處置經(jīng)驗(yàn)或教訓(xùn)的歸納。
2.2.1 分布規(guī)律
在信息系統(tǒng)運(yùn)維過(guò)程中發(fā)生的異常事件信息,短期看似乎無(wú)規(guī)律可循,但是從長(zhǎng)期統(tǒng)計(jì)的數(shù)據(jù)分析發(fā)現(xiàn)里面蘊(yùn)藏很多有價(jià)值的信息,能夠清晰地反映目前的運(yùn)維狀況并指導(dǎo)以后的運(yùn)維工作。尤其是故障原因分布、處置時(shí)間分布、發(fā)生趨勢(shì)等都呈現(xiàn)明顯的規(guī)律。以小型機(jī)設(shè)備故障為例,統(tǒng)計(jì)其近2 年設(shè)備故障處置時(shí)間,并利用SPSS 統(tǒng)計(jì)軟件分析發(fā)現(xiàn)小型機(jī)設(shè)備故障處置時(shí)間近似呈正態(tài)分布(落點(diǎn)與斜線吻合),如圖4 所示。類似分析其他類型故障處置時(shí)間也大致呈正態(tài)分布、偏態(tài)分布、指數(shù)分布等規(guī)律。
圖4 小型機(jī)故障處置時(shí)間SPSS 正態(tài)分布Q-Q 圖
通過(guò)這些分布規(guī)律,可以對(duì)某類事件進(jìn)行初步的預(yù)測(cè),判斷其大概處置時(shí)間(峰值附近)。同樣還可以分析得到某一類異常事件常見(jiàn)原因、趨勢(shì)特點(diǎn)等特性,從而分析發(fā)現(xiàn)故障異常的根本原因所在,以及發(fā)生的常見(jiàn)時(shí)點(diǎn)和概率,以便提前做好事前防御保障等工作。
2.2.2 事件分析與預(yù)測(cè)方法
分布規(guī)律只能做初步預(yù)測(cè),具體還需要采用一定的預(yù)測(cè)方法來(lái)完善預(yù)測(cè)模型。常用的預(yù)測(cè)分析方法有密度預(yù)測(cè)和關(guān)系預(yù)測(cè)。預(yù)測(cè)模塊首先需要從事件庫(kù)中提取事件信息,標(biāo)準(zhǔn)的事件信息以如下形式表達(dá)(類型,區(qū)域,時(shí)間,特征1,特征2,……),其中類型、區(qū)域、時(shí)間及特征向量等要素可以通過(guò)正則表達(dá)式匹配獲得。密度預(yù)測(cè),用來(lái)預(yù)測(cè)設(shè)定區(qū)間內(nèi)的事件密集程度,應(yīng)用于發(fā)生時(shí)間、地域規(guī)律、類型等規(guī)律。關(guān)系預(yù)測(cè)用來(lái)分析區(qū)間內(nèi)事件點(diǎn)的“緊密程度”,應(yīng)用于事件次生規(guī)律、輔助判斷事件根本原因定位。相關(guān)公式如下:
1)密度預(yù)測(cè)公式。
利用查找聚集和基于距離的規(guī)則,采用修改過(guò)的BIRCH 聚集算法[11],該算法是基于已知規(guī)則的預(yù)測(cè)方法:
該算法基本實(shí)現(xiàn)方法為:
假設(shè)已知d 是影響Cx(某一類事件)的已知規(guī)則(如溫度)或規(guī)則合集(如溫度和濕度):①將大范圍內(nèi)已發(fā)生的C 類事件以d 特征向量(或合集)進(jìn)行收縮投影,形成以d 為x 軸、以時(shí)間(或區(qū)域等其他特征向量)為y 軸的二維點(diǎn)狀圖形,其中的每個(gè)點(diǎn)代表一個(gè)真實(shí)的C 類事件;②設(shè)定初始計(jì)算閾值為do,在圖形中計(jì)算以do 為邊長(zhǎng)的矩形中點(diǎn)(真實(shí)事件)的個(gè)數(shù),并逐步將do 進(jìn)行縮減計(jì)算;③對(duì)以do 為邊長(zhǎng)的矩形進(jìn)行點(diǎn)數(shù)統(tǒng)計(jì)排序,當(dāng)某一塊或某幾塊相同面積的矩形中點(diǎn)數(shù)較其他矩形點(diǎn)數(shù)超過(guò)一定比例時(shí),判斷此類矩形的x、y 的特征集合為C 類事件的高發(fā)特性;④當(dāng)出現(xiàn)或預(yù)計(jì)出現(xiàn)x、y 的特征集合現(xiàn)象時(shí),預(yù)測(cè)出現(xiàn)C 類事件的概率較大(可量化)。
實(shí)際預(yù)測(cè)中,可對(duì)以d 為x 軸、以時(shí)間為y 軸、以區(qū)域?yàn)閦 軸的三維(甚至多維)點(diǎn)狀圖形,實(shí)現(xiàn)更精細(xì)、精準(zhǔn)的多維度密度預(yù)測(cè)[12]。
2)關(guān)系預(yù)測(cè)公式。
利用多維空間內(nèi)距離量度的規(guī)則,采用歐幾里得距離或Manhattan 算法[13],是對(duì)看似無(wú)規(guī)則事件之間關(guān)聯(lián)關(guān)系的發(fā)掘與預(yù)測(cè)的方法:
記S[X]為N 個(gè)元組t1,t2,..,tN在屬性集X 上的投影,則S[X]的直徑:
該算法的基本實(shí)現(xiàn)方法為:
①計(jì)算X 屬性集中各類屬性之間的t1,t2,..,tN事件之間的距離;②將t1,t2,..,tN事件以X 屬性集的S[X]直徑進(jìn)行全量投影,形成一個(gè)事件的多維分布圖[14];③利用改進(jìn)為多維的密度預(yù)測(cè)方法,對(duì)分布圖內(nèi)固定容積空間(或多維空間)內(nèi)具體屬性T 的S[X]距離進(jìn)行正態(tài)分布投影計(jì)算;④當(dāng)出現(xiàn)某類T 屬性的S[X]距離的投影分布密度較大時(shí),則認(rèn)為T 屬性是影響t1,t2,..,tN事件的重要因素,可再利用密度預(yù)測(cè)方法基于T 屬性進(jìn)行預(yù)測(cè)。
基于案例的推理一般包括4 個(gè)主要步驟即傳統(tǒng)的“4R”模型,具體如下。1)檢索(Retrieve):采用一定的相似度算法,當(dāng)用戶檢索時(shí),計(jì)算當(dāng)前案例與案例庫(kù)中案例的相似度值,比較并找出與當(dāng)前問(wèn)題最相似的案例。2)重用(Reuse):直接采用最相似案例的處置方案,或部分采用相似案例的處置方案。3)修正(Revise):實(shí)際情況下,檢索得到的案例處置方案不一定符合當(dāng)時(shí)的工作需求。因此,需要采用一定的修正方法,根據(jù)具體的操作環(huán)境,對(duì)案例處置方案進(jìn)行調(diào)整優(yōu)化,才能重用到目標(biāo)案例上。4)保持(Retain):修正后的案例作為一個(gè)新的案例保存到案例庫(kù)中,若碰到類似問(wèn)題以便重用。這樣案例庫(kù)的覆蓋面越來(lái)越廣,檢索到相似案例的幾率也隨之提高。
圖5 案例推理“5R”模型
從以上流程不難發(fā)現(xiàn),傳統(tǒng)的案例推理從案例庫(kù)中檢索得到的案例的解往往只是建議解[15],通常不能直接用到當(dāng)前問(wèn)題中。因此,必須對(duì)現(xiàn)有案例進(jìn)行修正,然而案例修正也是案例推理的難點(diǎn),人工修訂和機(jī)器學(xué)習(xí)效果都不理想。本文在現(xiàn)有案例推理研究的基礎(chǔ)上利用案例分解的思路提出了一種基于案例推理的“5R”模型,如圖5 所示。改進(jìn)后的“5R”模型在原有的流程基礎(chǔ)上增加了案例分解Resolve 部分,將案例按照問(wèn)題向量和解答向量劃分,以提高檢索的效率和修正的準(zhǔn)確性,保證案例的高可用性。
案例庫(kù)中每一個(gè)案例都可以向量化拆分成“問(wèn)題向量”和“解答向量”,而每一個(gè)事件信息則是由“現(xiàn)象”、“原因”、“處置”3 個(gè)基本向量構(gòu)成的向量集。在異常事件發(fā)生時(shí)需要用最短的時(shí)間處置恢復(fù)服務(wù),此時(shí)往往只知道異常現(xiàn)象,原因未知,也可能現(xiàn)象、原因都已知。在這里系統(tǒng)可以將事件向量集的現(xiàn)象向量與原因向量合并,然后對(duì)新向量與案例庫(kù)中案例的問(wèn)題向量進(jìn)行相似度計(jì)算,找出最相近的幾個(gè)案例并將處置方案推薦給運(yùn)維人員,輔助處置正在發(fā)生的異常事件。其中相似度公式可以采用常用的向量夾角余弦值[16]計(jì)算即可。
當(dāng)運(yùn)維人員接到故障報(bào)警后,“5R”模型會(huì)自動(dòng)分析提交事件的標(biāo)題,在案例庫(kù)中查找統(tǒng)計(jì),并通過(guò)相似度計(jì)算分析,將最可能貼近的處置方案推薦給支持人員,從而達(dá)到事中輔助決策的目的。新的問(wèn)題與原有分解的案例組合并通過(guò)修正形成新的案例供后續(xù)學(xué)習(xí),依次循環(huán),不斷提升案例庫(kù)的豐富性和實(shí)用性,從而保證主動(dòng)運(yùn)維輔助決策機(jī)制的順利運(yùn)行。
日常的運(yùn)維實(shí)踐中,在處理突發(fā)事件或例行維護(hù)時(shí)形成的成功處置經(jīng)驗(yàn)或者失誤教訓(xùn)都可以形成經(jīng)典案例供運(yùn)維人員參考學(xué)習(xí),但往往由于缺乏有效的共享機(jī)制,導(dǎo)致教學(xué)效果并不理想。本文在管理案例庫(kù)建設(shè)“4S”模式的基礎(chǔ)上探索出適合信息系統(tǒng)生產(chǎn)運(yùn)維的“4S”案例教學(xué)模式,如圖6 所示。此模式由4部分組成:研究團(tuán)隊(duì)、科學(xué)流程、質(zhì)量標(biāo)準(zhǔn)和成果共享[17],即組織研究團(tuán)隊(duì)(Study Team),通過(guò)科學(xué)的流程(Scientific Processes),建設(shè)符合質(zhì)量標(biāo)準(zhǔn)(Standard Qualities)的生產(chǎn)運(yùn)維案例庫(kù),并實(shí)現(xiàn)成果共享(Sharing Productions)。
圖6 案例教學(xué)“4S”模型
研究團(tuán)隊(duì)包括管理部門、建設(shè)工作小組、技術(shù)專家、案例撰寫人員、維護(hù)和推廣人員。管理部門負(fù)責(zé)制定案例管理的制度、規(guī)范,建立健全案例管理工作機(jī)制,統(tǒng)一組織、協(xié)調(diào)、指導(dǎo)生產(chǎn)運(yùn)行案例管理工作。建設(shè)工作小組負(fù)責(zé)案例模板的編制,案例的初步審核及組織專家后續(xù)評(píng)審。技術(shù)專家負(fù)責(zé)案例內(nèi)容的把關(guān)、技術(shù)指導(dǎo)及案例的評(píng)審。案例撰寫人員主要指一線、二線運(yùn)維人員及技術(shù)骨干,負(fù)責(zé)生產(chǎn)運(yùn)維案例的撰寫。推廣和維護(hù)人員主要負(fù)責(zé)案例宣講的組織及案例庫(kù)的維護(hù)。
科學(xué)流程包括案例撰寫、審核申報(bào)、受理評(píng)審和案例發(fā)布。一般在主動(dòng)運(yùn)維工作實(shí)施完畢和異常事件處置完畢后實(shí)施效果良好,處置得當(dāng),值得借鑒學(xué)習(xí)和共享,或者生產(chǎn)運(yùn)行突發(fā)事件的現(xiàn)象或原因?yàn)槭状伟l(fā)生或尚未納入案例庫(kù)的就可以開(kāi)展案例撰寫工作。案例撰寫完畢提交案例建設(shè)工作小組進(jìn)行審核與申報(bào),相關(guān)的案例審核員對(duì)生產(chǎn)運(yùn)行案例內(nèi)容的準(zhǔn)確性、完整性及合規(guī)性進(jìn)行審核。審核通過(guò)的案例申報(bào)給技術(shù)專家進(jìn)行受理評(píng)審,相關(guān)領(lǐng)域IT 專家對(duì)案例的適用性、可借鑒性等方面進(jìn)行評(píng)審,并提出評(píng)審意見(jiàn)。審核通過(guò)的案例及專家評(píng)審?fù)ㄟ^(guò)的案例將納入案例庫(kù)統(tǒng)一管理,并通過(guò)在線案例平臺(tái)進(jìn)行發(fā)布。發(fā)布范圍方面,審核通過(guò)的案例允許在部門內(nèi)部發(fā)布,而由專家評(píng)審?fù)ㄟ^(guò)的案例則整個(gè)企業(yè)內(nèi)部可見(jiàn)。
質(zhì)量標(biāo)準(zhǔn)包括單個(gè)案例的標(biāo)準(zhǔn)和整個(gè)案例庫(kù)的標(biāo)準(zhǔn)。對(duì)于單個(gè)案例要保證其真實(shí)性、目的性、深刻性、典型性和完整性。主動(dòng)運(yùn)維案例的內(nèi)容應(yīng)包括案例實(shí)施背景,案例實(shí)施方案、經(jīng)驗(yàn)與收獲以及案例有效期等;異常處置案例的內(nèi)容應(yīng)包括異常事件的異?,F(xiàn)象、處置過(guò)程、原因分析、系統(tǒng)版本與架構(gòu)等案例背景、相關(guān)處置或管理上存在的問(wèn)題、改進(jìn)措施以及案例有效期等。對(duì)于整個(gè)案例則要保證數(shù)量充足、類別齊全、及時(shí)更新和符合實(shí)際。數(shù)量充足以保證教學(xué)的需要,類別齊全以覆蓋到所有運(yùn)維領(lǐng)域,及時(shí)更新保證了案例的時(shí)效性可用性,符合實(shí)際保證了案例內(nèi)容的合理高效。
案例成果共享通過(guò)3 個(gè)途徑實(shí)現(xiàn):案例匯編、案例宣講和在線案例庫(kù)。案例匯編是將生產(chǎn)運(yùn)維經(jīng)典案例匯編成書(shū),分發(fā)給各類運(yùn)維人員學(xué)習(xí)。案例宣講是組織各個(gè)領(lǐng)域的IT 專家對(duì)本領(lǐng)域常見(jiàn)典型案例按年度進(jìn)行現(xiàn)場(chǎng)授課交流。在線案例庫(kù)是通過(guò)電子化工具平臺(tái)建立共享機(jī)制,將案例信息在運(yùn)維服務(wù)臺(tái)展示發(fā)布,運(yùn)維人員登錄系統(tǒng)便可查閱各種案例信息,進(jìn)行在線學(xué)習(xí)。通過(guò)以上3 種方式深入企業(yè)員工內(nèi)部,實(shí)現(xiàn)案例的線上線下共享學(xué)習(xí),使案例庫(kù)的建設(shè)不再流于形式,真正實(shí)現(xiàn)運(yùn)維案例應(yīng)有的價(jià)值。
中國(guó)農(nóng)業(yè)銀行數(shù)據(jù)中心從2011 年開(kāi)始啟動(dòng)主動(dòng)運(yùn)維案例庫(kù)體系建設(shè)研究,整個(gè)體系在總分行層面得到推廣應(yīng)用。通過(guò)3 年多的實(shí)踐,整個(gè)農(nóng)行的生產(chǎn)運(yùn)行質(zhì)量和效率都較以前有較大改善,尤其是事件問(wèn)題管理成效顯著提升。相關(guān)指標(biāo)包括同類事件占比(所有事件中,屬于同一類型反復(fù)發(fā)生的事件占總數(shù)的比重)、事件按時(shí)響應(yīng)率(按時(shí)響應(yīng)的事件數(shù)量/事件總數(shù))、事件按時(shí)解決率(按時(shí)解決的事件數(shù)量/事件總數(shù)),近3 年數(shù)據(jù)如表2 所示。從表中數(shù)據(jù)分析發(fā)現(xiàn)2011-2014 年上半年全行同類事件發(fā)生比率逐年降低,事件響應(yīng)時(shí)間和處置時(shí)間都明顯縮短。
表2 2011-2014 年上半年數(shù)據(jù)中心事件各項(xiàng)指標(biāo)對(duì)比
在同類事件處置方面,以存儲(chǔ)類故障為例,將近3 年的存儲(chǔ)故障類事件按處置時(shí)間的長(zhǎng)短進(jìn)行統(tǒng)計(jì)分析如圖7 所示。橫軸代表時(shí)間段,豎軸表示事件處置時(shí)間落在不同時(shí)間段區(qū)間內(nèi)的事件數(shù)占比。通過(guò)分析發(fā)現(xiàn)該類事件處置時(shí)間向左偏移并集中于T4 附近時(shí)間段內(nèi),即同類事件處置時(shí)間呈現(xiàn)縮短趨同趨勢(shì)。
圖7 存儲(chǔ)故障類事件處置時(shí)間趨勢(shì)圖
另外,通過(guò)“4S”案例教學(xué)模式,在農(nóng)銀大學(xué)對(duì)全行科技人員展開(kāi)集中培訓(xùn)。對(duì)涉及近年較典型的全行異常事件案例,以綜合案例的全員宣講和專業(yè)案例的分班培訓(xùn)的形式進(jìn)行推廣學(xué)習(xí)?!?S”教學(xué)模式的推廣不僅提高了運(yùn)維人員的技能,而且增加了大家互相交流溝通的機(jī)會(huì)。生產(chǎn)運(yùn)行案例教學(xué)模式的建立,為特大型商業(yè)銀行著力提升信息系統(tǒng)安全運(yùn)行保障能力,做了良好的研究與探索。
本文提出了以事件和問(wèn)題管理為核心的主動(dòng)性生產(chǎn)運(yùn)維案例管理理念,建立了生產(chǎn)運(yùn)行事件事前主動(dòng)防御、事中決策參考、事后經(jīng)驗(yàn)共享的運(yùn)行機(jī)制。通過(guò)主動(dòng)運(yùn)維案例體系在企業(yè)IT 運(yùn)維部門的推廣,同類事件發(fā)生比率降低,同類事件解決時(shí)間縮短趨同,事件響應(yīng)時(shí)間和處置時(shí)間都明顯縮短,同時(shí)運(yùn)維人員的技能水平得到顯著提高,提升了信息系統(tǒng)安全運(yùn)行保障能力,生產(chǎn)運(yùn)維服務(wù)質(zhì)量大幅提升。另一方面,本文的相關(guān)研究也是對(duì)智能化運(yùn)維領(lǐng)域的積極探索和嘗試,對(duì)其他企業(yè)的信息系統(tǒng)運(yùn)維案例庫(kù)管理,運(yùn)行風(fēng)險(xiǎn)主動(dòng)防控具有很好的示范作用和借鑒意義,應(yīng)用前景廣闊。但值得注意的是,在案例生產(chǎn)方面,利用知識(shí)分層提取模型自動(dòng)從異常事件庫(kù)中抽取案例素材后采用的是分類歸納的方法得到最優(yōu)案例,還不是嚴(yán)格意義上的案例自動(dòng)化組裝,教學(xué)案例大部分還依賴人工篩選整理。另外,基于案例的推理目前只是用于輔助決策參考,真正實(shí)現(xiàn)智能化決策還有待進(jìn)一步研究。相信,隨著科技的快速發(fā)展,運(yùn)維自動(dòng)化水平和智能化程度的不斷提高,以上問(wèn)題將會(huì)迎刃而解。
[1]謝新洲,夏晨曦.網(wǎng)絡(luò)事件案例庫(kù)建設(shè)與案例數(shù)據(jù)分析[J].情報(bào)學(xué)報(bào),2012,31(1):72-81.
[2]楊健,趙秦怡.基于案例的推理技術(shù)研究進(jìn)展及應(yīng)用[J].計(jì)算機(jī)工程與設(shè)計(jì),2008,29(3):710-712.
[3]王偉.基于粗糙集的Web 文本KNN 分類方法及在金融中的應(yīng)用研究[D].重慶:西南大學(xué),2013.
[4]李廣川,劉善存,邱菀華.交易量持續(xù)期的模型選擇:密度預(yù)測(cè)方法[J].中國(guó)管理科學(xué),2008,16(1):131-141.
[5]張賢坤.基于案例推理的應(yīng)急決策方法研究[D].天津:天津大學(xué),2012.
[6]徐擁軍,宋揚(yáng).管理案例庫(kù)建設(shè)的“4S”模式研究[J].東北農(nóng)業(yè)大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2009,7(2):7-11.
[7]石國(guó)強(qiáng).基于規(guī)則的組合分類器的研究[D].鄭州:鄭州大學(xué),2010.
[8]唐明偉,卞藝杰,陶飛飛.基于領(lǐng)域本體的語(yǔ)義向量空間模型[J].情報(bào)學(xué)報(bào),2011,30(9):951-955.
[9]陳亞峰,郭一帆,王崢.基于主題詞語(yǔ)義分詞與距離的去重算法[J].中國(guó)科技縱橫,2014(15):28,30.
[10]朱靖波,王會(huì)珍,張希娟.面向文本分類的混淆類判別技術(shù)[J].軟件學(xué)報(bào),2008,19(3):630-639.
[11]韋相.基于密度的改進(jìn)BIRCH 聚類算法[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(10):201-205.
[12]張玉鵬,王茜.基于數(shù)據(jù)驅(qū)動(dòng)平滑檢驗(yàn)的密度預(yù)測(cè)評(píng)估方法——以香港恒生指數(shù)、上證綜指和臺(tái)灣加權(quán)指數(shù)為例[J].中國(guó)管理科學(xué),2014,22(3):130-140.
[13]杜家杰,段會(huì)川.混合值差度量在MDS 算法中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(34):152-154.
[14]王晉疆,陳陽(yáng),田慶國(guó),等.一種基于點(diǎn)簽名的散亂點(diǎn)云特征點(diǎn)檢測(cè)方法[J].計(jì)算機(jī)工程,2014,40(7):174-178.
[15]董磊,任章,李清東.基于模型和案例推理的混合故障診斷方法[J].系統(tǒng)工程與電子技術(shù),2012,34(11):2339-2343.
[16]黃承慧,印鑒,侯昉.一種結(jié)合詞項(xiàng)語(yǔ)義信息和TF-IDF方法的文本相似度量方法[J].計(jì)算機(jī)學(xué)報(bào),2011,34(5):856-864.
[17]徐衛(wèi)紅.運(yùn)用4S 模式建設(shè)地方文獻(xiàn)數(shù)據(jù)庫(kù)芻議——以天津市南開(kāi)區(qū)圖書(shū)館為例[J].圖書(shū)館工作與研究,2010(5):91-95.