郭慧
摘要:隨著醫(yī)療信息化的推進(jìn),數(shù)據(jù)中心成為醫(yī)院信息系統(tǒng)中的主要組成部分,起著至關(guān)重要的作用。但是數(shù)據(jù)中心系統(tǒng)龐大、專(zhuān)業(yè)性強(qiáng)及技術(shù)要求高,在運(yùn)維過(guò)程中一直存在耗時(shí)長(zhǎng)、效率低的問(wèn)題。文章首先分析了數(shù)據(jù)中心須維護(hù)的內(nèi)容及影響數(shù)據(jù)中心運(yùn)維效率的因素,其次詳細(xì)闡述了數(shù)據(jù)中心監(jiān)控管理平臺(tái)實(shí)現(xiàn)主動(dòng)告警、詳細(xì)定位及協(xié)助運(yùn)維的策略。該監(jiān)控管理平臺(tái)的部署提升了運(yùn)維人員的工作效率,對(duì)保障醫(yī)院業(yè)務(wù)系統(tǒng)連續(xù)運(yùn)行起到了重要作用。
關(guān)鍵詞:醫(yī)院信息系統(tǒng);監(jiān)控管理平臺(tái);醫(yī)院數(shù)據(jù)中心運(yùn)維
中圖分類(lèi)號(hào):TP393文獻(xiàn)標(biāo)志碼:A0引言在醫(yī)院信息化管理中,醫(yī)院各種信息數(shù)據(jù)管理都依靠信息系統(tǒng)進(jìn)行收集、管理與保存。醫(yī)院數(shù)據(jù)中心作為信息系統(tǒng)的核心架構(gòu),其穩(wěn)定性是保障信息系統(tǒng)業(yè)務(wù)不間斷的關(guān)鍵因素,也是全面優(yōu)化醫(yī)院的信息服務(wù)水平的關(guān)鍵點(diǎn)。因此,提升工作人員運(yùn)維的效率,保障數(shù)據(jù)中心的穩(wěn)定性至關(guān)重要。然而隨著醫(yī)療信息化的推進(jìn),數(shù)據(jù)中心的IT設(shè)備規(guī)模越來(lái)越大,子系統(tǒng)數(shù)量越來(lái)越多,導(dǎo)致數(shù)據(jù)中心運(yùn)維工作量劇增,出現(xiàn)的設(shè)備故障不能得到及時(shí)修復(fù)?;诖?,如何運(yùn)維才能更好地保障數(shù)據(jù)中心的穩(wěn)定就成為首要問(wèn)題。
1數(shù)據(jù)中心維護(hù)內(nèi)容與存在的問(wèn)題1.1維護(hù)內(nèi)容1.1.1機(jī)房環(huán)境數(shù)據(jù)中心機(jī)房是醫(yī)院信息系統(tǒng)數(shù)據(jù)處理的中心,對(duì)工作環(huán)境有著嚴(yán)格的要求[1]:溫度要控制在24℃左右,相對(duì)濕度要控制在65%左右,并在機(jī)房放置溫濕度計(jì)。
1.1.2UPS電源機(jī)房維護(hù)人員需定期對(duì)UPS電池進(jìn)行放電操作,激活電池性能,并做好記錄。保證在受控的情況下,盡早發(fā)現(xiàn)并替換有問(wèn)題的電池。
1.1.3IT設(shè)備管理IT設(shè)備管理主要是對(duì)服務(wù)器、存儲(chǔ)設(shè)備、網(wǎng)絡(luò)設(shè)備和安全設(shè)備等進(jìn)行的管理維護(hù),以保證設(shè)備穩(wěn)定、高效運(yùn)行。維護(hù)過(guò)程中,重點(diǎn)檢查并記錄設(shè)備的運(yùn)行狀態(tài),包括:CPU使用率、內(nèi)存使用率、磁盤(pán)使用率、網(wǎng)卡狀態(tài)、接口流量、電源狀態(tài)等。除此之外,管理人員還要查看數(shù)據(jù)庫(kù)讀寫(xiě)性能是否完好、表空間是否存在死鎖等問(wèn)題。
1.2存在的問(wèn)題1.2.1運(yùn)維經(jīng)驗(yàn)缺乏整理形成知識(shí)庫(kù)由于缺乏有效的運(yùn)維管理策略,數(shù)據(jù)中心運(yùn)維人員在運(yùn)維工作過(guò)程中積累了眾多有價(jià)值的經(jīng)驗(yàn),如問(wèn)題的判定、分析和處理,只能通過(guò)經(jīng)驗(yàn)判斷;對(duì)于常見(jiàn)故障如網(wǎng)絡(luò)故障、數(shù)據(jù)庫(kù)故障、存儲(chǔ)設(shè)備故障等處理方法未形成書(shū)面工作文件,未被整理、分類(lèi)形成知識(shí)庫(kù)。這些經(jīng)驗(yàn)只能在小范圍內(nèi)得到傳播和繼承,而不能在更大的范圍內(nèi)體現(xiàn)其價(jià)值。這樣就容易導(dǎo)致運(yùn)維過(guò)程中出現(xiàn)的事件性質(zhì)的識(shí)別、優(yōu)先級(jí)的界定以及疑難問(wèn)題的分析診斷等問(wèn)題只能由少數(shù)核心人員進(jìn)行處理[2],從而增加了少數(shù)核心人員的工作量,也容易產(chǎn)生工作流程的“瓶頸”,降低運(yùn)維團(tuán)隊(duì)整體的問(wèn)題處理效率。
1.2.2缺乏有效的配置管理數(shù)據(jù)庫(kù)盡管數(shù)據(jù)中心在IT設(shè)備設(shè)施運(yùn)維的過(guò)程中收集了一些配置項(xiàng)信息,但是僅僅局限于關(guān)鍵業(yè)務(wù),如門(mén)診系統(tǒng)、住院系統(tǒng)、PACS等相關(guān)的信息系統(tǒng)。而配置管理數(shù)據(jù)庫(kù)(Configuration Management Database,CMDB)的建設(shè)需要一個(gè)長(zhǎng)期的過(guò)程,完善的CMDB包含IT設(shè)備使用的信息系統(tǒng)組件所有相關(guān)信息及組件間關(guān)系,如不同系統(tǒng)間數(shù)據(jù)庫(kù)視圖和表關(guān)系、使用的存儲(chǔ)設(shè)備、網(wǎng)絡(luò)配置等,同時(shí)需要科學(xué)有效地配置管理模式。當(dāng)前缺乏工具支撐的簡(jiǎn)單CMDB,后續(xù)很難滿(mǎn)足大數(shù)據(jù)時(shí)代高處理能力和處理速度的需求[3]。
1.2.3缺少面向用戶(hù)的IT服務(wù)報(bào)告數(shù)據(jù)中心在運(yùn)行維護(hù)過(guò)程中會(huì)生成多種報(bào)告,如系統(tǒng)運(yùn)行方面的報(bào)告、機(jī)房環(huán)境方面的報(bào)告、備份報(bào)告、網(wǎng)絡(luò)設(shè)備運(yùn)行報(bào)告等。此類(lèi)報(bào)告內(nèi)容專(zhuān)業(yè)性強(qiáng),技術(shù)要求高,僅科室內(nèi)部人員和科室外少數(shù)的領(lǐng)導(dǎo)可以查閱,其他科室人員受限于權(quán)限和專(zhuān)業(yè)性,對(duì)報(bào)告內(nèi)容難以理解,因此無(wú)法充分發(fā)揮這些報(bào)告的使用價(jià)值[4]。
1.2.4存在運(yùn)維管理漏洞數(shù)據(jù)中心在運(yùn)行維護(hù)過(guò)程中缺少科學(xué)有效的運(yùn)維管理制度、操作規(guī)范和明確的具有可執(zhí)行性的運(yùn)維流程,運(yùn)維人員對(duì)問(wèn)題的處理流程不一致,就有可能導(dǎo)致優(yōu)先級(jí)高的問(wèn)題被滯后處理,影響系統(tǒng)穩(wěn)定性。
1.2.5缺少集中管理的運(yùn)維措施隨著醫(yī)院數(shù)據(jù)中心各個(gè)子系統(tǒng)的信息化規(guī)模逐漸擴(kuò)大,網(wǎng)絡(luò)架構(gòu)和IT設(shè)備組成也越來(lái)越復(fù)雜。單憑幾個(gè)獨(dú)立的監(jiān)控軟件,通過(guò)人工讀取、分析監(jiān)控的IT設(shè)備運(yùn)行數(shù)據(jù)的方式根本不能正確判斷數(shù)據(jù)中心IT設(shè)備的具體使用情況、性能瓶頸等。另外,管理人員也不能及時(shí)發(fā)現(xiàn)IT設(shè)備存在的隱患,網(wǎng)絡(luò)穩(wěn)定、信息系統(tǒng)安全也無(wú)法得到有效的保證。
2基于監(jiān)控管理平臺(tái)的運(yùn)維針對(duì)以上數(shù)據(jù)中心運(yùn)維過(guò)程中遇到的問(wèn)題,醫(yī)院引入數(shù)據(jù)中心監(jiān)控管理平臺(tái),旨在通過(guò)該平臺(tái)全面規(guī)劃、集中統(tǒng)一的運(yùn)維方式,對(duì)網(wǎng)絡(luò)系統(tǒng)、服務(wù)器等進(jìn)行管理、監(jiān)控,在系統(tǒng)出現(xiàn)問(wèn)題的時(shí)候可以自動(dòng)發(fā)出告警信息,從而提升工作人員的運(yùn)維效率,保障系統(tǒng)穩(wěn)定性。此外,利用監(jiān)控管理平臺(tái)的自動(dòng)化、智能化方式實(shí)現(xiàn)對(duì)數(shù)據(jù)中心IT設(shè)備的監(jiān)控,還可以減少人力物力的投入。
2.1監(jiān)控管理平臺(tái)功能數(shù)據(jù)中心監(jiān)控管理平臺(tái)是依托人工智能,利用集成技術(shù)所構(gòu)建的一個(gè)綜合性平臺(tái)。該平臺(tái)不僅可以全方位分析機(jī)房設(shè)備的運(yùn)行狀況,還可以自動(dòng)定位部分小型故障。
2.1.1網(wǎng)絡(luò)拓?fù)涔芾肀O(jiān)控管理平臺(tái)可以自動(dòng)發(fā)現(xiàn)網(wǎng)絡(luò)設(shè)備,采用3D可視化頁(yè)面,從全局視角提供業(yè)務(wù)及網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)圖。拓?fù)鋱D可以實(shí)現(xiàn)報(bào)警定位,工作人員通過(guò)告警顏色和定位確定問(wèn)題級(jí)別,及時(shí)了解數(shù)據(jù)流向,以輕松掌握設(shè)備運(yùn)行狀態(tài)。
2.1.2業(yè)務(wù)監(jiān)控監(jiān)控對(duì)象主要有兩類(lèi),一類(lèi)是軟件業(yè)務(wù),包括:業(yè)務(wù)系統(tǒng)、數(shù)據(jù)庫(kù)、虛擬化、軟件服務(wù)等;另一類(lèi)是基礎(chǔ)設(shè)備,包括:服務(wù)器、交換機(jī)、存儲(chǔ)、防火墻、路由器等。平臺(tái)統(tǒng)一監(jiān)控所有設(shè)備,集中分析信息,向管理人員實(shí)時(shí)提供性能分析數(shù)據(jù),遇到故障及時(shí)發(fā)出告警。
2.1.3設(shè)備運(yùn)維監(jiān)控管理平臺(tái)支持全天候自動(dòng)化巡檢,定期自動(dòng)檢查設(shè)備運(yùn)行狀態(tài),可實(shí)時(shí)向移動(dòng)端發(fā)送故障告警,同時(shí)可以快速定位設(shè)備故障,準(zhǔn)確定位問(wèn)題根源。
2.1.4資產(chǎn)管理監(jiān)控管理平臺(tái)可以實(shí)時(shí)更新及查看主機(jī)資產(chǎn)明細(xì),如設(shè)備IP、系統(tǒng)版本和設(shè)備型號(hào)等信息。
2.2監(jiān)控管理平臺(tái)結(jié)構(gòu)數(shù)據(jù)中心監(jiān)控管理平臺(tái)主要由數(shù)據(jù)采集層、數(shù)據(jù)處理層和數(shù)據(jù)展示層組成,如圖1所示。數(shù)據(jù)采集層主要負(fù)責(zé)監(jiān)控并定期采集被監(jiān)控對(duì)象的數(shù)據(jù),然后將采集到的數(shù)據(jù)向下發(fā)送給數(shù)據(jù)處理層。數(shù)據(jù)處理層采用CMDB技術(shù),對(duì)采集到的監(jiān)控?cái)?shù)據(jù)進(jìn)行分析與數(shù)據(jù)處理,并將結(jié)果發(fā)送到數(shù)據(jù)展示層。數(shù)據(jù)展示層支持多種展示方式,通過(guò)表格、大盤(pán)頁(yè)面等方式,按要求展示全局性信息或指定內(nèi)容的具體信息。
2.3監(jiān)控管理平臺(tái)運(yùn)維2.3.1運(yùn)維配置數(shù)據(jù)中心監(jiān)控管理平臺(tái)支持對(duì)所有硬件資源的統(tǒng)一配置和監(jiān)控,主要監(jiān)控范圍包括服務(wù)器主機(jī)、網(wǎng)絡(luò)安全設(shè)備、存儲(chǔ)設(shè)備、數(shù)據(jù)庫(kù)和業(yè)務(wù)系統(tǒng)等,還可以預(yù)警數(shù)據(jù)庫(kù)死鎖、表空間占用情況及網(wǎng)絡(luò)安全攻擊等,如圖2—3所示。
2.3.2運(yùn)維展示通過(guò)數(shù)據(jù)中心監(jiān)控管理平臺(tái),每個(gè)運(yùn)維人員都可以隨時(shí)通過(guò)瀏覽器查看某個(gè)或所有硬件設(shè)備的運(yùn)行狀態(tài)及性能監(jiān)控信息。設(shè)備出現(xiàn)故障時(shí),監(jiān)控平臺(tái)根據(jù)平臺(tái)中設(shè)置的人員權(quán)限,第一時(shí)間將告警信息通過(guò)微信和郵箱推送給運(yùn)維工程師,如圖4—8所示。
數(shù)據(jù)中心監(jiān)控管理平臺(tái)主動(dòng)告警功能可以彌補(bǔ)運(yùn)維人員處理關(guān)鍵問(wèn)題時(shí)的差錯(cuò),從而保證問(wèn)題得到及時(shí)處理。此外,平臺(tái)從多個(gè)層面、多個(gè)維度展示監(jiān)控項(xiàng)目信息,尤其是對(duì)影響信息系統(tǒng)穩(wěn)定的數(shù)據(jù)庫(kù)死鎖、網(wǎng)絡(luò)故障和存儲(chǔ)問(wèn)題,即使是運(yùn)維經(jīng)驗(yàn)欠缺的工作人員也能在平臺(tái)指引下及時(shí)處理問(wèn)題,極大地降低了核心運(yùn)維人員的壓力,有效提升了運(yùn)維人員整體工作能力和效率。
3結(jié)語(yǔ)數(shù)據(jù)中心監(jiān)控管理平臺(tái)利用其主動(dòng)運(yùn)維、自動(dòng)操作和及時(shí)告警的強(qiáng)大功能,有效地解決了數(shù)據(jù)中心運(yùn)維難、效率低的問(wèn)題,為保障醫(yī)院信息系統(tǒng)穩(wěn)定運(yùn)行起到了重要作用。但是運(yùn)維人員在享受監(jiān)控管理平臺(tái)帶來(lái)的便利同時(shí),也要充分地利用好平臺(tái),在實(shí)際的工作中不斷摸索,根據(jù)具體情況實(shí)時(shí)改進(jìn)平臺(tái)中的監(jiān)控和告警配置策略,爭(zhēng)取把平臺(tái)的有效性發(fā)揮到最大,避免因無(wú)效信息而淹沒(méi)重要的告警信息,錯(cuò)過(guò)修復(fù)系統(tǒng)的最佳時(shí)間。
參考文獻(xiàn)
[1]高山,費(fèi)曉璐.醫(yī)院信息化主動(dòng)式運(yùn)維研究[J].中國(guó)數(shù)字醫(yī)院,2016(11):98-101.
[2]孔琳.醫(yī)院信息系統(tǒng)的安全與維護(hù)[J].醫(yī)學(xué)信息,2016(7):9-11.
[3]謝之光.大數(shù)據(jù)時(shí)代下的數(shù)據(jù)中心運(yùn)維管理研究[J].數(shù)字通信世界,2022(4):131-133.
[4]徐景日.大數(shù)據(jù)時(shí)代下的數(shù)據(jù)中心運(yùn)維管理[J].信息與電腦,2020(2):113-115.
[5]胡劍.淺析醫(yī)院信息系統(tǒng)運(yùn)維和管理[J].信息記錄材料,2021(6):27-29.
(編輯 王雪芬)
Influencing factors and countermeasures of hospital data center operation and maintenanceGuo? Hui
(Nanjing Jiangning Hospital, Nanjing 211100, China)Abstract: With the advancement of medical informatization, data centers have become the main components of hospital information systems and play a vital role. However, due to the large data center system, strong professionalism and high technical requirements, there have been problems of time-consuming and inefficient operation and maintenance process. This paper first analyzes the contents of data center maintenance and what factors affect data center O&M efficiency, and then elaborates on how the data center monitoring and management platform can achieve proactive alarms, detailed positioning, and assist O&M. Through the deployment of this monitoring and management platform, the work efficiency of operation and maintenance personnel is improved, which plays an important role in ensuring the continuous operation of hospital business systems.
Key words: 英文關(guān)鍵詞hospital information system; monitoring and management platform; hospital data center operation and maintenance