洪懷江,馬晟杰
麗水市中心醫(yī)院 信息中心,浙江麗水 320000
醫(yī)院信息系統(tǒng)應用級容災體系的建設與實施
洪懷江,馬晟杰
麗水市中心醫(yī)院 信息中心,浙江麗水 320000
本文詳細介紹了醫(yī)院信息系統(tǒng)的應用級容災體系的建設和實施過程。 為確保我院醫(yī)院信息系統(tǒng)(HIS)業(yè)務正常運行,并保證其在發(fā)生災難時也能在短時間恢復業(yè)務正常,我院在計算機房進行應用級容災系統(tǒng)建設,系統(tǒng)部署包括3部分:業(yè)務系統(tǒng)端部署、容災系統(tǒng)端部署和WEB管理端部署。
醫(yī)院信息系統(tǒng);容災系統(tǒng);數(shù)據(jù)備份;網絡安全
20世紀90年代以來,我國各大醫(yī)院紛紛建立了以醫(yī)院管理為核心的醫(yī)院信息系統(tǒng)(HIS)。2000年以后,我院先后建立了PACS(醫(yī)學影像存儲與傳輸系統(tǒng))、RIS(放射信息管理系統(tǒng))、LIS(實驗室信息管理系統(tǒng))、EMR(電子病歷)系統(tǒng)等,使醫(yī)院業(yè)務量持續(xù)增長,數(shù)據(jù)信息量也在成倍地增長。醫(yī)院業(yè)務對信息系統(tǒng)的依賴程度也在加強,一旦信息系統(tǒng)發(fā)生災難,將會導致病人無法就診,醫(yī)生無法看病,將會使醫(yī)院就診處于無序狀態(tài)。雖然國內外很多醫(yī)療機構早在大數(shù)據(jù)信息時代來臨之際就著手加強對業(yè)務連續(xù)性系統(tǒng)的建設工作。但是,直到2001年911事件發(fā)生之后,世貿大廈里的大量數(shù)據(jù)化為烏有,導致大廈里的許多公司由于數(shù)據(jù)丟失而倒閉,這時人們才真正認識到災備建設的必要性、重要性,并投入大量財力、物力保證業(yè)務系統(tǒng)的可靠性和連續(xù)性[1]。
如何確保醫(yī)院核心業(yè)務系統(tǒng)安全、可靠地運行,以及在發(fā)生服務器、存儲器、數(shù)據(jù)庫故障時仍能確保整個業(yè)務信息系統(tǒng)穩(wěn)定運行和數(shù)據(jù)安全是醫(yī)院IT人員重點思考的問題[2-3]。其次為提高業(yè)務系統(tǒng)性能,降低外圍業(yè)務對業(yè)務系統(tǒng)的壓力,將部分分析數(shù)據(jù)與統(tǒng)計業(yè)務數(shù)據(jù)分離到容災系統(tǒng),也是本文考慮解決的問題。
目前,我院HIS數(shù)據(jù)庫總數(shù)據(jù)量為127 GB左右,EMR數(shù)據(jù)庫為278G左右。為避免數(shù)據(jù)丟失造成嚴重損失,我院對核心數(shù)據(jù)庫進行了異地備份。采用IBMP720小機+SAN交換+IBM DS5020存儲以及Oracle 10g2數(shù)據(jù)庫和AIX6.1操作系統(tǒng)。利用OGG(數(shù)據(jù)復制技術)將源數(shù)據(jù)庫的在線日志或歸檔日志獲得的數(shù)據(jù)增刪改變化應用到目標數(shù)據(jù)庫,實現(xiàn)對核心數(shù)據(jù)庫的備份[4]。
HIS是醫(yī)院的核心業(yè)務系統(tǒng),醫(yī)院的業(yè)務基本上都是圍繞著HIS開展,一旦HIS出現(xiàn)故障,病人無法正常就診、交費、取藥,醫(yī)生開不了處方、醫(yī)囑、檢驗單、檢查單,相關檢查科室取不到病人的基本信息,造成病人情緒不穩(wěn)定,醫(yī)院處于全面癱瘓狀態(tài)[5]。我院目前用兩臺IBM P550小機+雙SAN交換+雙IBM DS4700存儲,雖然避免了單點故障的風險,但機房物理環(huán)境發(fā)生災難性事故,還是存在著相當大的風險;雖然有異地備份機制,但數(shù)據(jù)從備份恢復到正常需用時間周期長,并需要對客戶端進行相應配置更改。如何在短時間內恢復HIS的運行,減少信息系統(tǒng)故障對病人、醫(yī)務人員、社會造成的影響仍是迫切需解決的問題。
2.1 容災系統(tǒng)拓撲架構
為確保我院HIS業(yè)務正常運行,并保證在發(fā)生災難時也能在短時間恢復業(yè)務正常,我院在外科大樓6層計算機房進行應用級容災建設,利用原有的IBMP720小機+SAN交換+IBM DS5020存儲以及Oracle 10g2數(shù)據(jù)庫和AIX6.1操作系統(tǒng)進行應用級容災部署。應用級容災部署后可以在業(yè)務系統(tǒng)和容災系統(tǒng)之間形成相互切換、相互恢復的容災關系。當業(yè)務系統(tǒng)出現(xiàn)異?;蛴媱潈染S護時,業(yè)務系統(tǒng)可以簡單地切換至容災系統(tǒng),容災系統(tǒng)替代業(yè)務系統(tǒng)提供服務;業(yè)務系統(tǒng)硬件設備復原之后,容災系統(tǒng)可以回切至業(yè)務系統(tǒng)運行[6]。我院應用級容災的總體架構圖設計,見圖1。
圖1 應用級容災的總體架構圖
2.2 容災管理平臺的部署
Trust DBRA(災難備份系統(tǒng))的部署分為3部分:業(yè)務系統(tǒng)端部署、容災系統(tǒng)端部署和WEB管理端部署。
(1)業(yè)務系統(tǒng)端部署:Trust DBRA在業(yè)務系統(tǒng)的數(shù)據(jù)庫實例上安裝一個Trust Diaster Backup Client Agent for Oracle(Trust Log Capture Service和 Trust Log Transfer Service),用來獲取Online redo log數(shù)據(jù)和傳輸Redo log數(shù)據(jù)[7]。如果需要進行應用服務器和文件數(shù)據(jù)同步,則需要同時部署Trust Backup Client Agent for App。
(2)容災系統(tǒng)端部署:Trust DBRA在容災系統(tǒng)為每個對應的Client Agent安裝Server模塊。多對一的部署方式,只需安裝一個Server模塊;一對一的部署方式,需要安裝多個Server模塊。
(3)WEB管理端部署:WEB管理端主要用來實現(xiàn)容災系統(tǒng)的WEB管理,可以實現(xiàn)多項任務合一模式下的集中化管理,包括總體監(jiān)視、切換、容災操作、作業(yè)信息檢查、活動站點管理等功能。
3.1 數(shù)據(jù)庫復制技術
Oracle數(shù)據(jù)庫發(fā)出事務更新,日志寫入進程(LGWR),即完成Online Redo Log的寫入過程。具體過程是Trust Log Capture Service 實時讀取生產端在線日志信息,由Trust Log Service同步到災備中心端寫日志數(shù)據(jù);在災難備份中心,Trust 災備Server進程接收Trust Log Service傳送過來的數(shù)據(jù)并且生成對應的災備端的Online Redo Log數(shù)據(jù),在業(yè)務系統(tǒng)進行Log switch的時候同步在災難備份中心完成Log Switch,在災備端Trust Apply Service通過Oracle Physical Recover機制把相關Online Redo Log日志內容更新到災備中心數(shù)據(jù)庫(實時更新模式)或者直接把歸檔內容更新災難備份中心數(shù)據(jù)庫(異步模式),實現(xiàn)容災庫與生產庫的實時同步[8],見圖2。
圖2 數(shù)據(jù)庫復制技術示意圖
3.2 應用復制技術
中間件(應用)同步簡稱APP同步,主要實現(xiàn)單個文件、多個文件、目錄、文件系統(tǒng)等內容的數(shù)據(jù)同步。APP同步可以安裝在數(shù)據(jù)庫服務器上,也可以安裝在中間件服務器或文件服務器上。APP同步時間間隔以分鐘為單位計算,時間長度可以按實際需要進行調整,一般不建議間隔時間太短,如>5 min。APP同步缺省以首次全量同步,然后以增量同步的模式進行;每次增量同步時,自動檢查同步內容的文件時間和文件大小,若遇到文件時間和文件大小不一致時,會自動同步整個文件至容災服務器。APP同步支持斷點續(xù)傳功能,若遇到文件傳輸過程中出現(xiàn)意外,導致文件內容不完整等情形時,APP同步在增量掃描中會自動檢測到該文件,并實現(xiàn)斷點續(xù)傳功能。APP同步在遇到文件傳輸成功結束時,會自動校驗文件,以確認文件內容和生產端文件內容是否完全一致。
3.3 局部災難切換方式
在生產中心發(fā)生局部災難時,比如HIS本身發(fā)生災難(HIS服務器、存儲損壞等)致使HIS服務中斷,但HIS相關外圍接口系統(tǒng)及其他系統(tǒng)完好。此時可將HIS切換至災備中心,其他系統(tǒng)在生產中心運行。切換方法如下:
(1)通過Trust DBRA切換管理平臺,進行災備切換操作:① 停止生產端應用,停止生產端中間件數(shù)據(jù)庫,停止生產端數(shù)據(jù)庫(這個步驟在實際發(fā)生時,可能無需進行);② 切換IP地址(要求在二層網絡下操作);③ 啟動災備端數(shù)據(jù)庫、災備端中間件、災備端應用。
(2)由于生產中心其他應用系統(tǒng)、網絡處于正常運行狀態(tài),因此,網絡不需要切換至容災匯聚點,而是通過生產匯聚點,訪問災備中心的HIS數(shù)據(jù)庫。
(3)根據(jù)備份策略,進行HIS的系統(tǒng)數(shù)據(jù)備份。
3.4 整體性災難切換方式
當整個生產中心發(fā)生災難或機房停電、火災、地震等情況下,所有應用系統(tǒng)不可用,將其切換到災備中心運行??赏ㄟ^如下方式和步驟來進行切換:
(1)通過Trust DBRA容災切換平臺,根據(jù)預先制定的災難應急預案,進行應用級容災切換:① 停止生產端應用及數(shù)據(jù)庫;② 啟動災備端數(shù)據(jù)庫、啟動災備端中間件、啟動災備端應用;③ 啟動各業(yè)務系統(tǒng)的災備端數(shù)據(jù)庫、中間件和應用程序。
(2)通過三層網絡容災匯聚點,訪問災備中心的業(yè)務系統(tǒng)。
(3)業(yè)務系統(tǒng)在災備端運行后,根據(jù)預先制定的備份策略,進行應用系統(tǒng)備份和數(shù)據(jù)庫數(shù)據(jù)的備份。
為了減輕生產端負載,以及充分利用現(xiàn)有設備資源提高經濟效益,在容災節(jié)點通過啟動Trust DBRA站點來提供Oracle數(shù)據(jù)庫的活動數(shù)據(jù)查詢能力,分流主數(shù)據(jù)庫的壓力。在相關查詢的客戶端的tnsnames.ora文件中配置相關容災節(jié)點信息,這樣就能將相關的查詢和數(shù)據(jù)統(tǒng)計業(yè)務分擔給容災端[9]。
(1)容災端建設后,我院定期組織相關人員進行信息系統(tǒng)故障應急演練,提高臨床醫(yī)務人員處理信息系統(tǒng)故障能力,并在演練后形成書面總結報告,為以后系統(tǒng)維護提供應急方案[10-11]。
(2)實現(xiàn)院內異地災備建設,確保發(fā)生災難時信息數(shù)據(jù)的安全性和完整性。
(3)保證了醫(yī)院業(yè)務的連續(xù)性。我院IBM P550小機+IBMDS4700已運行多年,不時會出現(xiàn)一些硬件故障,在未建設容災系統(tǒng)時,進行硬件更換時需要關閉Oracle數(shù)據(jù)庫并停機,造成業(yè)務中斷。建了容災系統(tǒng)后,當業(yè)務系統(tǒng)出現(xiàn)異?;蛴媱潈染S護時,業(yè)務系統(tǒng)可以簡單的切換至容災系統(tǒng),容災系統(tǒng)替代業(yè)務系統(tǒng)提供服務;業(yè)務系統(tǒng)硬設備復原之后,容災系統(tǒng)可以回切至業(yè)務系統(tǒng),并保持業(yè)務的連續(xù)性,數(shù)據(jù)的完整性。
(4)把相關數(shù)據(jù)統(tǒng)計、數(shù)據(jù)分析等業(yè)務的客戶端指向災備端,提高了災備端設備資源利用率,減輕了生產端的運行壓力,已取得了良好的經濟效益和社會效益。
[1]翁錦陽,何萍,朱鐵兵.大型醫(yī)院信息系統(tǒng)的容災設計和應用[J].醫(yī)院數(shù)字化,2011,(1):59-61.
[2]夏旭.無線網絡在醫(yī)院信化中的應用優(yōu)勢及不足的探討[J].信息與電腦,2011,(6):124.
[3]劉傳高.淺談醫(yī)院信息系統(tǒng)的安全管理[J].中華全科醫(yī)學,2012,(9):1474-1475.
[4]武冬春.基于GoldenGate技術實現(xiàn)關鍵業(yè)務容災的解決方案[J].信息通信,2013,(7):232-233.
[5]王晨光.醫(yī)院信息系統(tǒng)(HIS)安全維護措施探討[J].中國醫(yī)學創(chuàng)新,2013,(14):77-78.
[6]劉躍,宋兵.信息系統(tǒng)異地容災技術探討[J].中國傳媒科技,2012,(12):74-77.
[7]鄒先霞,賈維嘉,潘久輝.基于數(shù)據(jù)庫日志的變化數(shù)據(jù)捕獲研究[J].小型微型計算機系統(tǒng),2012,(3):531-536.
[8]李民,曹陽.基于Oracle Data Guard構建醫(yī)院信息系統(tǒng)的容災備份方案[J].醫(yī)院數(shù)字化,2012,(8):45-47.
[9]江英琴.基于日志復制技術的容災系統(tǒng)研究與應用[J].電子技術與軟件工程,2014,(12):217-219.
[10]王玉珍,孫巍,郭建魁.醫(yī)院網絡入侵檢測系統(tǒng)聯(lián)動策略的實施[J].中國醫(yī)療設備,2015,30(8):87-89.
[11]王栩,劉佳.大型醫(yī)院HIS系統(tǒng)應急方案全流程[J].計算機軟件光盤與應用,2012,(11):143-144.
Construction and Implementation of the Application-level Disaster Tolerant System in the Hospital Information System
This paper introduced in details the implementation process of the application-level disaster tolerant system in the hospital information system.To ensure the proper function of the hospital information system (HIS),as well as to ensure the recovery of the HIS within short period of time during disaster,our hospital constructed the application-level disaster tolerant system,which includes three parts: business system end deployment,disaster tolerant system end deployment,and WEB management end deployment.
hospital information system;disaster tolerant system;data backup;network security
HONG Huai-jiang,MA Sheng-jie
Information Center,Lishui Central Hospital,Lishui Zhejiang 323000,China
TP393.08
A
10.3969/j.issn.1674-1633.2016.04.025
1674-1633(2016)04-0100-03
2015-10-26
2016-02-23
本文作者:洪懷江,醫(yī)院信息中心負責人,工程師。
作者郵箱:382912859@qq.com