魏明月 凌琦鳴
(上海市兒童醫(yī)院信息部 上海200062)
龐朝富
(上海衛(wèi)盾信息科技有限公司 上海200092)
目前醫(yī)院信息系統(tǒng)應(yīng)用已深入到醫(yī)療各業(yè)務(wù)場(chǎng)景中,保障信息系統(tǒng)高可靠性和良好性能成為醫(yī)院信息化運(yùn)維工作重中之重。在當(dāng)前大規(guī)模數(shù)據(jù)存儲(chǔ)和通信復(fù)雜的環(huán)境下,傳統(tǒng)面向簡(jiǎn)單架構(gòu)的信息技術(shù)(Information Technology,IT)運(yùn)維模式無(wú)法實(shí)現(xiàn)高效、端到端的用戶(hù)體驗(yàn)和應(yīng)用管理[1]。面對(duì)規(guī)模龐大和結(jié)構(gòu)復(fù)雜的醫(yī)療應(yīng)用系統(tǒng)運(yùn)維環(huán)境,以提升IT服務(wù)質(zhì)量為目標(biāo)、用戶(hù)體驗(yàn)為核心衡量標(biāo)準(zhǔn)的應(yīng)用性能管理(Application Performance Management, APM)理念應(yīng)運(yùn)而出,從用戶(hù)到底層架構(gòu)、從應(yīng)用到服務(wù)、從 IT 運(yùn)維到業(yè)務(wù)監(jiān)測(cè),實(shí)現(xiàn)應(yīng)用業(yè)務(wù)服務(wù)高效管理,提升信息化運(yùn)維能力。
20世紀(jì)90年代由IBM、CA Technologies和HP等IT廠(chǎng)商首次提出,指通過(guò)即時(shí)監(jiān)控以實(shí)現(xiàn)對(duì)企業(yè)信息系統(tǒng)應(yīng)用程序性能和故障的系統(tǒng)化管理方式,對(duì)企業(yè)信息系統(tǒng)的關(guān)鍵業(yè)務(wù)應(yīng)用進(jìn)行監(jiān)測(cè)、優(yōu)化,以提高企業(yè)應(yīng)用的可靠性和質(zhì)量,保證用戶(hù)得到良好服務(wù),降低成本[2]。從促進(jìn)組織模式轉(zhuǎn)變、提升用戶(hù)體驗(yàn)感、降低企業(yè)信息運(yùn)營(yíng)成本和增強(qiáng)企業(yè)管理功能等方面推動(dòng)企業(yè)信息化管理創(chuàng)新[3]。
隨著互聯(lián)網(wǎng)應(yīng)用架構(gòu)日益復(fù)雜化與企業(yè)業(yè)務(wù)需求更加多樣化,APM不斷演進(jìn)發(fā)展,基本可以分為3個(gè)階段[4]:第1階段主要圍繞網(wǎng)絡(luò)進(jìn)行監(jiān)測(cè),提出應(yīng)用響應(yīng)管理概念,這一階段是以保障信息鏈路可用性為主要目的;第2階段應(yīng)用性能管理需求逐步成型,圍繞網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)、中間件、操作系統(tǒng)等多個(gè)應(yīng)用組件監(jiān)測(cè)系統(tǒng)可用性和健康狀態(tài),這一階段APM監(jiān)測(cè)指標(biāo)之間缺乏關(guān)聯(lián)度,交互體驗(yàn)度較差;第3階段是隨著企業(yè)業(yè)務(wù)需求和應(yīng)用復(fù)雜度增加,尤其互聯(lián)網(wǎng)應(yīng)用環(huán)境高速發(fā)展,業(yè)務(wù)系統(tǒng)開(kāi)始從組件化向?qū)哟位D(zhuǎn)變,APM回歸以應(yīng)用核心和業(yè)務(wù)交易為中心,注重用戶(hù)體驗(yàn)度。
2.3.1 概述 國(guó)際知名信息技術(shù)研究和分析機(jī)構(gòu) Gartner 從5個(gè)維度對(duì) APM 核心內(nèi)容和承載功能進(jìn)行明確規(guī)范,逐步發(fā)展成為應(yīng)用性能管理系統(tǒng)建設(shè)標(biāo)準(zhǔn)。這5個(gè)維度包括:最終用戶(hù)體驗(yàn)監(jiān)控、交易事務(wù)追蹤、應(yīng)用架構(gòu)發(fā)現(xiàn)和建模、應(yīng)用組件深入監(jiān)控、應(yīng)用性能數(shù)據(jù)庫(kù)功能。2018年Gartner 發(fā)布“應(yīng)用性能管理魔力象限報(bào)告”,在原有基礎(chǔ)上提出新的3個(gè)APM功能維度[5]。
2.3.2 數(shù)字化體驗(yàn)監(jiān)視(DEM) 一種可用性和性能監(jiān)控體系,支持與企業(yè)應(yīng)用軟件或服務(wù)進(jìn)行交互時(shí)對(duì)數(shù)字化代理、人員或機(jī)器的運(yùn)維體驗(yàn)和行為進(jìn)行優(yōu)化。最終用戶(hù)體驗(yàn)監(jiān)測(cè)始終是APM最重要的維度。
2.3.3 應(yīng)用程序發(fā)現(xiàn)、跟蹤和診斷(ADTD) 一套流程,目的是了解業(yè)務(wù)系統(tǒng)各服務(wù)之間的關(guān)系。將應(yīng)用拓?fù)浣Y(jié)構(gòu)的發(fā)現(xiàn)及可視化、用戶(hù)定義的事務(wù)剖析和應(yīng)用組件的深入分析3方面進(jìn)行統(tǒng)一管理,主要圍繞業(yè)務(wù)系統(tǒng)故障的關(guān)聯(lián)和修復(fù)。
2.3.4 面向應(yīng)用程序的IT運(yùn)維人工智能(AIOps) 將機(jī)器學(xué)習(xí)、統(tǒng)計(jì)模式發(fā)現(xiàn)、多維數(shù)據(jù)分析等人工智能技術(shù)應(yīng)用于IT運(yùn)維中,實(shí)現(xiàn)各維度性能數(shù)據(jù)的實(shí)時(shí)運(yùn)算和處理,自動(dòng)發(fā)現(xiàn)性能和事件模式,從而對(duì)應(yīng)用的運(yùn)維和優(yōu)化起到智能輔助決策和驅(qū)動(dòng)作用。
醫(yī)療信息系統(tǒng)運(yùn)維工作的本質(zhì)是維持業(yè)務(wù)流程正常運(yùn)轉(zhuǎn),保證醫(yī)生、護(hù)士、患者等業(yè)務(wù)用戶(hù)在7×24 小時(shí)都能得到良好的應(yīng)用服務(wù)體驗(yàn)。傳統(tǒng)的以保障基礎(chǔ)架構(gòu)運(yùn)行為重點(diǎn)的醫(yī)院信息化運(yùn)維模式存在諸多局限,主要有以下4點(diǎn):一是信息運(yùn)維更多是關(guān)注基礎(chǔ)架構(gòu),缺乏對(duì)業(yè)務(wù)應(yīng)用程序的監(jiān)測(cè);二是信息運(yùn)維僅關(guān)注于網(wǎng)絡(luò)、服務(wù)器、數(shù)據(jù)庫(kù)等局部組件,缺乏完整的業(yè)務(wù)應(yīng)用視圖;三是缺乏對(duì)終端用戶(hù)體驗(yàn)、業(yè)務(wù)系統(tǒng)健康狀態(tài)可視化監(jiān)測(cè)和量化評(píng)估;四是信息運(yùn)維未與業(yè)務(wù)流程結(jié)合,無(wú)法提供端到端的性能分析和故障定位。隨著醫(yī)院信息網(wǎng)絡(luò)基礎(chǔ)架構(gòu)越來(lái)越透明化,醫(yī)院信息運(yùn)維管理工作的重點(diǎn)從原有對(duì)應(yīng)用系統(tǒng)、基礎(chǔ)架構(gòu)等管理運(yùn)維逐步轉(zhuǎn)向以業(yè)務(wù)為核心的應(yīng)用性能管理,實(shí)現(xiàn)信息運(yùn)維與業(yè)務(wù)相融合,從業(yè)務(wù)角度開(kāi)展信息技術(shù)運(yùn)維并持續(xù)優(yōu)化。
3.2.1 概述 基于Gartner應(yīng)用性能管理功能模型,將APM技術(shù)與醫(yī)療核心業(yè)務(wù)應(yīng)用相融合,設(shè)計(jì)以監(jiān)測(cè)終端用戶(hù)體驗(yàn)為核心,跨越端到端復(fù)雜基礎(chǔ)架構(gòu)并覆蓋業(yè)務(wù)全鏈路的醫(yī)療核心業(yè)務(wù)性能分析優(yōu)化系統(tǒng)(Healthcare Business Performance Center,HBPC),構(gòu)建醫(yī)療信息化運(yùn)維新模式,運(yùn)用智能分析手段,實(shí)現(xiàn)業(yè)務(wù)系統(tǒng)快速定位瓶頸、發(fā)現(xiàn)故障、優(yōu)化性能,提升IT服務(wù)質(zhì)量,優(yōu)化醫(yī)療業(yè)務(wù)流程。系統(tǒng)架構(gòu),見(jiàn)圖1。
圖1 醫(yī)療核心業(yè)務(wù)性能分析優(yōu)化系統(tǒng)架構(gòu)
3.2.2 業(yè)務(wù)監(jiān)控層 主要實(shí)現(xiàn)對(duì)業(yè)務(wù)系統(tǒng)整體基礎(chǔ)架構(gòu)監(jiān)控,進(jìn)而對(duì)業(yè)務(wù)系統(tǒng)各組件性能指標(biāo)進(jìn)行采集與監(jiān)視。
3.2.3 業(yè)務(wù)分析層 對(duì)業(yè)務(wù)監(jiān)控層采集的各組件性能指標(biāo)以及業(yè)務(wù)歷史運(yùn)行數(shù)據(jù)進(jìn)行加工處理和可視化展現(xiàn),對(duì)業(yè)務(wù)系統(tǒng)存在的性能風(fēng)險(xiǎn)提供預(yù)警。
3.2.4 應(yīng)用層 圍繞業(yè)務(wù)系統(tǒng)性能分析全生命周期管理,從業(yè)務(wù)健康度評(píng)估、業(yè)務(wù)訪(fǎng)問(wèn)視圖管理、業(yè)務(wù)性能實(shí)時(shí)分析、性能問(wèn)題預(yù)警、性能故障快速定位、業(yè)務(wù)性能綜合報(bào)告等層面進(jìn)行統(tǒng)一管理。
3.3.1 應(yīng)用拓?fù)渎窂阶詣?dòng)發(fā)現(xiàn) 復(fù)雜業(yè)務(wù)應(yīng)用不僅有終端對(duì)應(yīng)用的訪(fǎng)問(wèn),還有應(yīng)用之間的依賴(lài)和調(diào)用。HBPC采用端到端的應(yīng)用拓?fù)渎窂阶詣?dòng)發(fā)現(xiàn)技術(shù),基于應(yīng)用運(yùn)維模型,展示統(tǒng)一的應(yīng)用性能拓?fù)?客戶(hù)體驗(yàn)、基礎(chǔ)架構(gòu)、應(yīng)用、后臺(tái)),根據(jù)拓?fù)渎窂胶托袨槟J椒治鲂阅軘?shù)據(jù)和告警事件之間的依賴(lài)關(guān)系。HBPC通過(guò)部署網(wǎng)絡(luò)探測(cè)器,采用反向波測(cè)技術(shù)自動(dòng)識(shí)別業(yè)務(wù)系統(tǒng)中的IP資源,建立業(yè)務(wù)系統(tǒng)資源目錄。將資源目錄中的IP設(shè)備作為管理對(duì)象,識(shí)別設(shè)備的開(kāi)放端口、開(kāi)啟的服務(wù)和進(jìn)程,自動(dòng)發(fā)現(xiàn)和識(shí)別設(shè)備上運(yùn)行的業(yè)務(wù)應(yīng)用程序以及相互依賴(lài)關(guān)系。同時(shí)根據(jù)終端和應(yīng)用之間的連接和調(diào)用進(jìn)行關(guān)系映射,通過(guò)交互式圖表展現(xiàn)整個(gè)業(yè)務(wù)應(yīng)用路徑拓?fù)?。溯源?yīng)用路徑還原業(yè)務(wù)故障發(fā)生場(chǎng)景,找出請(qǐng)求的參數(shù)異常與特定事務(wù)緩慢之間的關(guān)系。最后HBPC進(jìn)行堆棧分析發(fā)現(xiàn)不同方法調(diào)用執(zhí)行響應(yīng)時(shí)間占比,并通過(guò)超文本傳輸協(xié)議(Hyper Text Transfer Protocol,HTTP)請(qǐng)求或結(jié)構(gòu)化查詢(xún)語(yǔ)言(Structured Query Language,SQL)訪(fǎng)問(wèn)的參數(shù)進(jìn)行堆棧追蹤,根據(jù)不同拓?fù)渎窂綄?duì)慢統(tǒng)一資源定位器(Uniform Resource Locator,URL)或慢SQL追蹤來(lái)定位和修復(fù)問(wèn)題,進(jìn)而對(duì)單一事務(wù)的下游服務(wù)性能進(jìn)行診斷。
利用波動(dòng)幅度找出性能數(shù)據(jù)中與日常性能數(shù)據(jù)均值差距大或波動(dòng)大的范圍數(shù)據(jù),這些數(shù)據(jù)往往會(huì)對(duì)業(yè)務(wù)性能產(chǎn)生異常。通過(guò)這種技術(shù)實(shí)現(xiàn)自動(dòng)異常監(jiān)測(cè)和趨勢(shì)分析,自動(dòng)生成基線(xiàn)和行為模式,實(shí)現(xiàn)智能化、提高準(zhǔn)確率。
3.3.3 用戶(hù)性能滿(mǎn)意度量化 最終用戶(hù)體驗(yàn)感和滿(mǎn)意度監(jiān)測(cè)是應(yīng)用性能管理的核心維度,如何將用戶(hù)主觀體驗(yàn)轉(zhuǎn)化為客觀量化指標(biāo)(系統(tǒng)健康度)成為APM系統(tǒng)建設(shè)的關(guān)鍵點(diǎn)?;趹?yīng)用服務(wù)響應(yīng)時(shí)間決定用戶(hù)體驗(yàn)或滿(mǎn)意度這一原則,HBPC采用Apdex指標(biāo)[6]對(duì)用戶(hù)應(yīng)用性能滿(mǎn)意度進(jìn)行量化。Apdex定義Satisfied(滿(mǎn)意)、Tolerate(可容忍)、Disappointed(失望)3種性能區(qū)間:Apdex = (滿(mǎn)意次數(shù)+可容忍次數(shù)/ 2) /樣本總數(shù)。HBPC不是簡(jiǎn)單使用Apdex作為用戶(hù)滿(mǎn)意度指標(biāo),其通過(guò)挖掘歷史應(yīng)用性能響應(yīng)指標(biāo)得出當(dāng)前響應(yīng)偏離度π,再結(jié)合Apdex指數(shù),計(jì)算公式為:HApdex=(Apdex+π/2),其結(jié)果既保持通用性又能適應(yīng)不同業(yè)務(wù)應(yīng)用環(huán)境的特殊性。
上海市兒童醫(yī)院已在醫(yī)院核心業(yè)務(wù)系統(tǒng)應(yīng)用服務(wù)器架構(gòu)中全面部署HBPC系統(tǒng),主要功能包括性能監(jiān)測(cè)、業(yè)務(wù)性能分析、網(wǎng)絡(luò)流量分析、業(yè)務(wù)性能瓶頸分析、組件節(jié)點(diǎn)分析、業(yè)務(wù)保障報(bào)告、系統(tǒng)管理等,以醫(yī)院信息系統(tǒng)性能分析為例,重點(diǎn)從業(yè)務(wù)性能故障定位(突發(fā)問(wèn)題)、業(yè)務(wù)性能瓶頸分析(常規(guī)分析)、業(yè)務(wù)保障報(bào)告(日常運(yùn)維)3個(gè)視角進(jìn)行展示。
當(dāng)業(yè)務(wù)系統(tǒng)出現(xiàn)故障或性能預(yù)警時(shí)將該事件定位到業(yè)務(wù)路徑圖上,直觀顯示事件發(fā)生位置。同時(shí)通過(guò)該事件發(fā)生時(shí)間,檢查其他故障事件、性能預(yù)警及配置變更情況,判斷事件發(fā)生原因。
根據(jù)網(wǎng)絡(luò)流量、主機(jī)性能、應(yīng)用參數(shù)、終端訪(fǎng)問(wèn)、業(yè)務(wù)交互等性能指標(biāo)確定業(yè)務(wù)瓶頸關(guān)鍵位置。通過(guò)分析當(dāng)前及歷史數(shù)據(jù)發(fā)現(xiàn)異常運(yùn)行狀態(tài),提供預(yù)警響應(yīng)。
實(shí)時(shí)監(jiān)控和預(yù)警業(yè)務(wù)系統(tǒng)日常運(yùn)維重點(diǎn)指標(biāo),主要包括數(shù)據(jù)備份狀態(tài)、數(shù)據(jù)庫(kù)計(jì)劃任務(wù)狀態(tài)、數(shù)據(jù)庫(kù)及網(wǎng)絡(luò)變更操作行為等。定期總結(jié)業(yè)務(wù)系統(tǒng)運(yùn)行狀況,提供分析報(bào)告。
通過(guò)將應(yīng)用性能管理技術(shù)與醫(yī)療核心業(yè)務(wù)應(yīng)用相融合而設(shè)計(jì)開(kāi)發(fā)的醫(yī)療核心業(yè)務(wù)性能分析優(yōu)化系統(tǒng),實(shí)現(xiàn)對(duì)業(yè)務(wù)終端用戶(hù)感知體驗(yàn)(滿(mǎn)意度)的全鏈路監(jiān)測(cè)與管理,使業(yè)務(wù)應(yīng)用系統(tǒng)運(yùn)行健康值和體驗(yàn)度可視化,幫助信息中心運(yùn)維人員快速發(fā)現(xiàn)并解決問(wèn)題,有效提升用戶(hù)業(yè)務(wù)應(yīng)用體驗(yàn)和系統(tǒng)服務(wù)質(zhì)量。隨著醫(yī)療信息化運(yùn)維環(huán)境日益復(fù)雜,業(yè)務(wù)全鏈路組件的實(shí)時(shí)性能數(shù)據(jù)將逐步納入大數(shù)據(jù),下一步將探索醫(yī)療業(yè)務(wù)應(yīng)用系統(tǒng)性能管理與人工智能、機(jī)器學(xué)習(xí)、高性能運(yùn)算、大數(shù)據(jù)分析等新興技術(shù)融合,實(shí)現(xiàn)復(fù)雜業(yè)務(wù)系統(tǒng)環(huán)境下業(yè)務(wù)應(yīng)用之間關(guān)系的智能識(shí)別以及性能問(wèn)題精準(zhǔn)定位,建立智能化、自動(dòng)化性能管理新模式。