◆陳博 李晨 李林
(鄭州市骨科醫(yī)院河南 450052)
隨著醫(yī)療行業(yè)信息化進程的加深,如何對患者信息進行高效有序地存儲和管理,并提供安全的信息快速訪問成為目前醫(yī)療行業(yè)數(shù)據(jù)存儲的主要發(fā)展趨勢。鄭州市骨科醫(yī)院是一所集醫(yī)療、急救、教學、科研、預防保健、康復為一體的三級甲等中西醫(yī)集合骨??漆t(yī)院。目前醫(yī)院系統(tǒng)主要有 HIS系統(tǒng)(醫(yī)院信息系統(tǒng),Hospital Information System)、LIS系統(tǒng)(實驗室信息系統(tǒng),Laboratory Information System)、PACS系統(tǒng)(醫(yī)學影像治理與通信系統(tǒng),Picture Archiving and Communication System)、EMR系統(tǒng)(電子病歷,EMR,Electronic Medical Record)等,院內(nèi)各個系統(tǒng)之間要求數(shù)據(jù)能夠互聯(lián)互通,交互共享。由于醫(yī)院業(yè)務量大,收治病人較多,因此要求業(yè)務要保證7*24小時不間斷運行,且系統(tǒng)具備容災能力。目前大多數(shù)醫(yī)院的采用傳統(tǒng)的一主一備存儲方式,當主機出現(xiàn)問題的時候,通過備機上的軟件將原先備份的數(shù)據(jù)恢復即可。這種軟件備份恢復的方式雖然目前有效,但隨著數(shù)據(jù)量的日益增多,恢復的時間周期越來越長,而且對硬件資源要求也越來越高,成本也逐步增加。因此,建設一套高效穩(wěn)定且成本較低的存儲系統(tǒng)來保障醫(yī)院關鍵業(yè)務正常運行,成為目前醫(yī)療行業(yè)信息系統(tǒng)災難恢復建設的核心任務。
醫(yī)院可根據(jù)業(yè)務的恢復時間目標(RTO,Recovery Time Objective)和恢復點目標(RPO,Recovery Point Objective)不同,選擇不同的容災方案。由于業(yè)務需求的不同,醫(yī)院會采用不同的數(shù)據(jù)備份和數(shù)據(jù)保護方式,以達到容災、容錯兩大目的,并且也可降低后期硬件上的維護成本。常用的容災備份系統(tǒng)應包括硬件級物理容錯和軟件級數(shù)據(jù)備份,并且能夠自動地跨越整個網(wǎng)絡平臺。當網(wǎng)絡出現(xiàn)故障或系統(tǒng)崩潰時,能迅速地恢復系統(tǒng)和數(shù)據(jù),保證業(yè)務正常運轉。
硬件級物理容錯是基于容錯技術原理,采用硬件全冗余的技術,在兩套同等規(guī)格設備之間做冗余,從而確保當故障來臨時能及時切換服務器設備,并自動恢復到損壞前的正常狀態(tài),確保服務器正常使用。常見的硬件容錯方式主要考慮以下幾點:
(1)采用雙機容錯機制:在醫(yī)院業(yè)務網(wǎng)絡中,最關鍵的設備是數(shù)據(jù)存儲服務器,為了保證網(wǎng)絡系統(tǒng)連續(xù)運行,必須采用文件服務器雙機熱備份容錯技術,以解決硬件的故障。從物理上保證醫(yī)療數(shù)據(jù)運行的所需環(huán)境。
(2)網(wǎng)絡故障和容災恢復:網(wǎng)絡備份的最終目的是保障網(wǎng)絡系統(tǒng)安全運行,當網(wǎng)絡系統(tǒng)出現(xiàn)邏輯錯誤時,網(wǎng)絡備份系統(tǒng)能夠根據(jù)備份的系統(tǒng)文件和各類數(shù)據(jù)庫文件在最短時間內(nèi)迅速恢復網(wǎng)絡系統(tǒng)。
(3)備份任務管理:采用定時自動備份措施,并指派專人定時巡檢,盡量避免由于人為原因造成的操作性錯誤和遺漏。
硬件的建設是醫(yī)院業(yè)務連續(xù)運行的重要保障。但對于數(shù)據(jù)量巨大、計算環(huán)境復雜的醫(yī)院而言,僅僅只有強大的硬件設施還不夠,需要硬件容錯技術與軟件容災技術結合起來,才能提供及時有效的解決方案。
軟件級數(shù)據(jù)備份可根據(jù)對系統(tǒng)的保護程度分為數(shù)據(jù)庫級容災備份和應用級容災備份。數(shù)據(jù)容災是應用容災的基礎,應用容災是數(shù)據(jù)容災的目標。在選擇容災系統(tǒng)的構造時,還要建立多層次的廣域網(wǎng)絡故障切換機制。
所謂數(shù)據(jù)容災,就是指建立一個異地的數(shù)據(jù)系統(tǒng),該系統(tǒng)是本地關鍵應用數(shù)據(jù)的一個可用復制。數(shù)據(jù)備份是數(shù)據(jù)保護的基礎,也是抵御邏輯故障、惡性操作的唯一方案。備份系統(tǒng)通過備份策略,對計算機的操作系統(tǒng)、文件系統(tǒng)、應用程序、數(shù)據(jù)庫系統(tǒng)等數(shù)據(jù)集實現(xiàn)某一時間點的完整拷貝,而拷貝的數(shù)據(jù)處于離線狀態(tài),不能被立刻訪問,必須通過相應操作才能恢復。這就要求在本地數(shù)據(jù)或者整個應用系統(tǒng)出現(xiàn)災難時,系統(tǒng)至少在異地保存有一份可用的關鍵業(yè)務的數(shù)據(jù)。該數(shù)據(jù)可以是本地生產(chǎn)數(shù)據(jù)的完全實時復制,也可以比本地數(shù)據(jù)略微落后,但一定是可用的。
應用容災是建立在數(shù)據(jù)容災的基礎上,在異地建立一套完整的與本地生成系統(tǒng)相當?shù)膫浞輵孟到y(tǒng)。在災難情況下,遠程系統(tǒng)迅速接管業(yè)務運行。數(shù)據(jù)容災是抵御災難的保障,而應用容災則是容災系統(tǒng)建設的目標。建立這樣一個系統(tǒng)是相對比較復雜的,不僅需要一份可用的數(shù)據(jù)復制,還要包括網(wǎng)絡、主機、應用甚至IP資源等之間的良好協(xié)調(diào)。在距離較遠的容災系統(tǒng)中,不僅要實現(xiàn)完整的應用容災,還要在包含本地系統(tǒng)的安全機制、遠程的數(shù)據(jù)復制機制上,具有對廣域網(wǎng)范圍的遠程故障切換能力和故障診斷能力。即一旦故障發(fā)生,系統(tǒng)要有強大的故障診斷和切換策略制訂機制,而廣域網(wǎng)范圍的高可用能力與本地系統(tǒng)的高可用能力應形成一個整體,實現(xiàn)多級的故障切換和恢復機制,確保系統(tǒng)在各范圍的可靠和安全。
參照國際容災協(xié)會DRII(Disaster Recover Institute International)建議的容災建設流程, 要求用戶業(yè)務系統(tǒng)容災備份系統(tǒng)的建設必須以業(yè)務為核心,配備相關人員、制定完善的流程、采用成熟的技術,以保證用戶容災備份系統(tǒng)的成功實施。鄭州市骨科醫(yī)院是一所中西醫(yī)結合骨??漆t(yī)院,醫(yī)院對于影像、檢驗、檢查結果要求傳輸及時,且質(zhì)量要求高。院內(nèi)中心機房采用 SAN架構集群模式,采用 6臺HPDL380服務器作為集群,兩臺宏杉存儲管理機及磁盤陣列技術,ODSP Scope+界面管理模式,同時在集群上對數(shù)據(jù)庫采用SQL Server AlwaysOn技術。該技術集中了故障轉移集群、數(shù)據(jù)庫鏡像和日志傳送三者間的優(yōu)點,當一臺服務器數(shù)據(jù)庫出現(xiàn)異常時,系統(tǒng)上的業(yè)務可以自由地切換到另一臺服務器上,從而保證業(yè)務正常運轉。如圖1所示,容災主要劃分為三個部分,即:接入平臺、應用平臺和存儲平臺。接入平臺負責集群平臺與存儲之間銜接,均采用萬兆光纖接口,提高數(shù)據(jù)流通速率。接口部分需要做好冗余,以確保當一個接口出現(xiàn)問題時,其他接口仍然能夠為業(yè)務提供高質(zhì)量的傳輸路徑;存儲平臺作為整個系統(tǒng)的基礎平臺,部署著磁盤陣列、存儲管理機、SAN交換機等硬件設備。這些設備承載著醫(yī)院的病人信息,醫(yī)療數(shù)據(jù)以及院內(nèi)數(shù)據(jù)流通,均采用萬兆光纖接口;應用平臺主要包含系統(tǒng)接口、應用軟件與中間件、數(shù)據(jù)庫、操作系統(tǒng)等,主要用于部署醫(yī)院的HIS,LIS,PACS等業(yè)務系統(tǒng),保持不同系統(tǒng)之間的數(shù)據(jù)復制和應用切換。
圖2所示是在容災系統(tǒng)模型下建設的一種對稱“雙活”災備系統(tǒng)存儲架構。存儲“雙活”是指主生產(chǎn)端數(shù)據(jù)庫和備端數(shù)據(jù)庫同時在線可運行,且處于可讀可查詢的一種存儲狀態(tài)。該方案采用在線式應用級容災方式,按照數(shù)據(jù)庫的語法組裝成數(shù)據(jù)庫能識別的數(shù)據(jù)集合,從而使用數(shù)據(jù)庫自身的增量數(shù)據(jù)保存到在線的備用數(shù)據(jù)庫中,以此來達到備用數(shù)據(jù)庫總是可見、可驗證的目的。備用數(shù)據(jù)庫要保證是實時在線的,并且能用來實現(xiàn)查詢統(tǒng)計功能,這樣就分流了主數(shù)據(jù)庫的計算壓力。
圖1 容災系統(tǒng)模型
圖2 對稱“雙活”容災架構
針對目前醫(yī)院災難備份需求,我院按照預設的時間策略,采用同步鏡像技術,將生產(chǎn)中心HIS01的LUN中的數(shù)據(jù)流量經(jīng)由交換機同步寫入HIS02副本LUN中,嚴格保證兩者數(shù)據(jù)實時一致,這樣做可以使得每個IO均要求同步寫入生產(chǎn)LUN和副本LUN, 一旦主存儲服務器停止服務,可立即使用備用存儲服務器接替主生產(chǎn)服務器上的業(yè)務系統(tǒng)并使之持續(xù)化運行,從而實現(xiàn)在存儲上的“雙活”。存儲上的雙活主要是指“數(shù)據(jù)保護+業(yè)務連續(xù)性”,是在鏡像基礎上的增強,支持鏡像的兩個LUN對前端同時提供業(yè)務。當任意一個數(shù)據(jù)中心發(fā)生災難時,業(yè)務將在另一個中心上運行,不需要人工干預。同時對重要系統(tǒng)數(shù)據(jù)做快照,雙重保護數(shù)據(jù)安全。
我院根據(jù)國際容災標準share 78定義,數(shù)據(jù)在兩個站點之間相互鏡像,由遠程異步提交來同步,因為關鍵應用使用了雙重在線存儲,所以在災難發(fā)生時,僅僅很小部分的數(shù)據(jù)被丟失,恢復的時間被降低到了分鐘級或秒級。核心業(yè)務要達到RTO到0.5小時以內(nèi),RPO小于1分鐘。同時在集群上使用VMware虛擬化平臺的硬件加速方案,保障虛擬化平臺和數(shù)據(jù)庫平臺業(yè)務可靠性,通過存儲雙活平臺設備級冗余,整體方案可靠性達到99.9999%。當HIS生產(chǎn)服務器下的主存儲出現(xiàn)故障,導致生產(chǎn)系統(tǒng)無法正常提供業(yè)務支持時,數(shù)據(jù)保護器會通過快照將數(shù)據(jù)寫入到備份存儲,從而實現(xiàn)雙活存儲機制與數(shù)據(jù)恢復機制的零切換。
結合我院目前信息化基礎設施建設狀況,不斷探索適合醫(yī)院未來發(fā)展的數(shù)據(jù)中心發(fā)展模式,雙活數(shù)據(jù)容災中心建設是其中一項重要課題。如圖3所示是參照目前醫(yī)療行業(yè)等級評審中的要求,在現(xiàn)行的規(guī)范和標準下建設方案。在容災系統(tǒng)上線后,將逐步解決遇到緊急情況下的數(shù)據(jù)災難問題。院內(nèi)采用多重防護措施,在數(shù)據(jù)庫方面使用SQL Server AlwaysOn技術來保證數(shù)據(jù)庫中業(yè)務能夠自由切換;生產(chǎn)機房和容災機房采用萬兆 FC SAN等措施在物理接口上提升接口流量傳輸速率;采用快照技術針對小范圍服務器宕機等情況進行快速處理,可以回滾0-24小時內(nèi)任意時間點數(shù)據(jù);而對稱“雙活”存儲系統(tǒng)的部署則是針對大范圍故障,能采用對集群中的卷進行恢復等功能。
圖3 容災系統(tǒng)拓撲圖
醫(yī)院信息系統(tǒng)具有信息量大、結構復雜、數(shù)據(jù)在線、可靠性要求高等特點,因此在規(guī)劃存儲方案時,要保證醫(yī)院信息系統(tǒng)具有連續(xù)工作的能力,且系統(tǒng)的可用性應大于99.999%。上文提到的容災備份方案可以很好改善數(shù)據(jù)備份中存儲不安全,恢復速度慢、容災能力低等的問題,對醫(yī)院的數(shù)據(jù)容災提供了科學有效的管理辦法。今后還會專門針對患者對醫(yī)療資源方面的需求不斷提高服務器的生產(chǎn)效率,在原有技術的基礎上不斷更新改善,以達到更快的恢復時間目標和恢復時間點目標。