葛炎明,張 磊,王志勇
(海軍軍醫(yī)大學(xué)附屬長海醫(yī)院信息科,上海 200433)
隨著新時期對醫(yī)院運行與建設(shè)要求的變化,醫(yī)院信息化建設(shè)得到越來越多的重視,臨床業(yè)務(wù)的信息化工作快速發(fā)展[1]。截至2017年,本院在用業(yè)務(wù)系統(tǒng)共82個,涉及服務(wù)器數(shù)量217個,主干業(yè)務(wù)均已初步實現(xiàn)信息化,大幅度提升業(yè)務(wù)開展與管理的效率。但是隨著信息化步伐的邁進(jìn),醫(yī)院整體信息環(huán)境的規(guī)模不斷擴(kuò)大,在規(guī)?;癁獒t(yī)院發(fā)展帶來便利的同時,其規(guī)?;a(chǎn)生的短板也逐漸暴露[2]。在大量系統(tǒng)與硬件的維護(hù)工作中,常規(guī)的信息化管理模式顯現(xiàn)出分散、被動、低效的特征,尤其在問題的發(fā)現(xiàn)、查找與解決上有著較為明顯的滯后,無法有效滿足全院信息化工作運行需求,難以應(yīng)對信息化建設(shè)的進(jìn)一步推進(jìn)與未來發(fā)展可能面臨的問題[3]。對醫(yī)院信息資源進(jìn)行有效監(jiān)控與管理,是醫(yī)院當(dāng)前信息化發(fā)展的瓶頸。
為了在信息資源的監(jiān)控與管理上尋找突破,本院于2013年啟動系統(tǒng)運行自動監(jiān)控項目。集中監(jiān)控系統(tǒng)利用通用的API與系統(tǒng)、硬件的對接,涵蓋長海醫(yī)院整個IT基礎(chǔ)架構(gòu)的監(jiān)控和管理,實現(xiàn)對IT基礎(chǔ)設(shè)施運行情況的實時監(jiān)控和采集數(shù)據(jù),并根據(jù)集中監(jiān)控系統(tǒng)的事件處理機(jī)制,判斷IT基礎(chǔ)設(shè)施中潛在的問題和故障,通過短信推送的方式及時向相關(guān)責(zé)任人提交報告,達(dá)到對信息問題及時響應(yīng)與快速處理的目的[4-5]。集中監(jiān)控系統(tǒng)的落實,有效提高運維人員對信息系統(tǒng)的管理效率,推動信息管理模式向集中、主動和高效的方向轉(zhuǎn)變,為醫(yī)院信息化建設(shè)的下一步工作奠定基礎(chǔ)。
1.1架構(gòu)布局集中監(jiān)控系統(tǒng)主要包括三個部分:監(jiān)控對象、監(jiān)控平臺、短信平臺(圖1)。監(jiān)控對象指被監(jiān)控的軟件、硬件,主要分為操作系統(tǒng)、數(shù)據(jù)庫、網(wǎng)絡(luò)、服務(wù)器存儲及其他定制化監(jiān)控對象,兼容性好,基本可覆蓋數(shù)據(jù)中心所有信息系統(tǒng);監(jiān)控平臺由數(shù)據(jù)采集、數(shù)據(jù)入庫、數(shù)據(jù)處理、事件告警、報表生成等五大模塊構(gòu)成,實現(xiàn)從數(shù)據(jù)采集到事件告警的快速處理;短信平臺根據(jù)發(fā)送人員清單及時發(fā)送短信通知管理人員,及時解決告警故障,保障業(yè)務(wù)的穩(wěn)定運行。
圖1 系統(tǒng)架構(gòu)
1.2監(jiān)控指標(biāo)監(jiān)控對象通過與監(jiān)控平臺的網(wǎng)絡(luò)連接,實現(xiàn)操作系統(tǒng)、數(shù)據(jù)庫、網(wǎng)絡(luò)、服務(wù)器存儲和其他定制化對象的監(jiān)控??紤]到告警事件的正確性和重要性,監(jiān)控對象KPI的設(shè)定尤其重要。其間,專業(yè)公司根據(jù)本院信息系統(tǒng)實際情況就每項KPI進(jìn)行多次的討論、測試和設(shè)定,分為Warning和Critical兩類,滿足Critical類KPI的事件由短信平臺發(fā)送告警信息,及時通知管理人員處理告警事件。網(wǎng)絡(luò)、服務(wù)器存儲等硬件主要是通過設(shè)定Trap方式,主動推送告警信息到監(jiān)控平臺。其他定制類的監(jiān)控通過編寫腳本,實現(xiàn)對其定時監(jiān)控進(jìn)行告警,如后臺任務(wù)、定制SQL執(zhí)行等。操作系統(tǒng)監(jiān)控KPI(表1)。
2.1系統(tǒng)搭建監(jiān)控對象主要分為操作系統(tǒng)、數(shù)據(jù)庫等對象,每個監(jiān)控對象通過安裝代理軟件或配置SNMP的方式,主動推送相關(guān)數(shù)據(jù)至集中監(jiān)控平臺。集中監(jiān)控平臺由性能監(jiān)控、數(shù)據(jù)庫、事件告警3臺服務(wù)器構(gòu)成,主要實現(xiàn)接收監(jiān)控對象的推送數(shù)據(jù)、分析處理后根據(jù)配置的監(jiān)控KPI生成事件,并發(fā)送Critical事件給短信平臺。短信平臺由1臺服務(wù)器構(gòu)建,配置監(jiān)控對象的短信發(fā)送人員清單,在事件平臺傳輸事件過來后按清單發(fā)送給各管理人員。
2.2功能實現(xiàn)集中監(jiān)控系統(tǒng)監(jiān)控平臺采用B/S架構(gòu),操作系統(tǒng)使用Redhat6.6,數(shù)據(jù)庫采用DB2,Web服務(wù)采用WAS。通過監(jiān)控平臺,管理人員可根據(jù)實際情況進(jìn)行監(jiān)控對象的新增、刪除、更新和KPI的調(diào)整,保障告警事件的正確性和合理性。監(jiān)控事件平臺(圖2)。
短信發(fā)送,通過在Windows操作系統(tǒng)上部署MySQL數(shù)據(jù)庫和Apache應(yīng)用,實現(xiàn)管理相關(guān)事件發(fā)送給指定人員的功能,且發(fā)送延時小于1分鐘,保障處理告警事件的及時性(圖3)。
表1 操作系統(tǒng)監(jiān)控KPI
圖2 告警事件平臺
圖3 短信平臺
集中監(jiān)控系統(tǒng)自2014年正式上線以來,本院信息部門共計收到300例告警信息并及時處理,平均處理時間不超過30分鐘。四年間未發(fā)生一起重大信息事故,為醫(yī)院信息化工作良好有序地開展提供巨大幫助,尤其是在操作系統(tǒng)、數(shù)據(jù)庫、服務(wù)器存儲等硬件設(shè)備和定制化上。
3.1操作系統(tǒng)由于監(jiān)控的操作系統(tǒng)越來越多,不可能做到每個操作系統(tǒng)都關(guān)注。尤其是磁盤空間使用率,在超出警戒線后,可能導(dǎo)致業(yè)務(wù)系統(tǒng)性能下降,甚至宕機(jī),需要及時處理。在醫(yī)院臨床數(shù)據(jù)中心建設(shè)過程中,因為數(shù)據(jù)量的龐大,經(jīng)常報磁盤不足,需要及時處理,不然影響數(shù)據(jù)的展示、醫(yī)師的體驗。另外還有CPU、內(nèi)存的監(jiān)控告警,通過結(jié)合業(yè)務(wù)分析,可以及時發(fā)現(xiàn)業(yè)務(wù)潛在的問題。在本院HIS系統(tǒng)使用超過6年后,服務(wù)器的性能難以滿足業(yè)務(wù)的增長使用,尤其是各科的統(tǒng)計類查詢,經(jīng)常引起業(yè)務(wù)的卡頓、死鎖。所以在系統(tǒng)正式割接前期,本院信息部門通過CPU、內(nèi)存的告警,做到全天候及時處理該類故障,保障本院業(yè)務(wù)的正常穩(wěn)定運行。
3.2數(shù)據(jù)庫根據(jù)對數(shù)據(jù)庫監(jiān)控KPI的設(shè)定,實現(xiàn)對數(shù)據(jù)庫重要指標(biāo)的監(jiān)控,保障諸多數(shù)據(jù)庫的正常運行。2017年9月,隨著某Oracle數(shù)據(jù)庫業(yè)務(wù)新增一批客戶端,導(dǎo)致其數(shù)據(jù)庫的會話數(shù)增加,高峰期超過告警線,達(dá)到會話總數(shù)。在收到告警短信前,業(yè)務(wù)部門告知數(shù)據(jù)庫訪問卡頓,管理人員還在分析是何原因?qū)е聵I(yè)務(wù)卡頓。一接收到告警短信,立刻懷疑會話數(shù)限制,把原先默認(rèn)的會話數(shù)150,調(diào)整至300,業(yè)務(wù)立即可正常訪問。另建議業(yè)務(wù)開發(fā)及時斷開數(shù)據(jù)庫連接,減少性能的消耗,也及時調(diào)整會話數(shù)KPI的設(shè)定。
3.3服務(wù)器及存儲隨著業(yè)務(wù)的快速發(fā)展,服務(wù)器存儲的數(shù)量也越來越多,設(shè)備的故障率也相應(yīng)提升。尤其是一些老舊的設(shè)備,一方面努力遷移至虛擬化環(huán)境中,一方面通過服務(wù)器存儲的監(jiān)控,及時處理告警故障,努力保障設(shè)備的穩(wěn)定運行。
通過集中監(jiān)控系統(tǒng)在本院的使用,達(dá)到預(yù)期設(shè)計的目標(biāo),有效地將醫(yī)院信息系統(tǒng)涉及的相關(guān)對象整合起來,統(tǒng)一監(jiān)控和管理,使整個醫(yī)院信息系統(tǒng)的可監(jiān)控行和可預(yù)測性大為提高,大幅度縮短系統(tǒng)故障的判斷及處理時間,保障信息系統(tǒng)的安全穩(wěn)定運行[4]。但也存在一些不足:①機(jī)房環(huán)境類的硬件設(shè)備暫時沿用原自帶監(jiān)控系統(tǒng),待網(wǎng)絡(luò)整合之后納入到集中監(jiān)控系統(tǒng)中進(jìn)行監(jiān)控;②針對所有的監(jiān)控結(jié)果目前就展示方面只有事件平臺和短信平臺,管理人員才能看到,后期打算對監(jiān)控的數(shù)據(jù)進(jìn)行分析、過濾,通過圖像化界面的效果展示;③考慮到業(yè)務(wù)的調(diào)整,對于監(jiān)控KPI的調(diào)整,一直在持續(xù)進(jìn)行。希望本研究在基礎(chǔ)設(shè)施集中監(jiān)控項目落實推進(jìn)上的做法能夠為其他醫(yī)院信息資源的監(jiān)控管理提供參考。