劉麒麟
(湖北咸寧市中心醫(yī)院 咸寧 437100)
一種醫(yī)院數(shù)據(jù)容災備份系統(tǒng)的構(gòu)建方案?
劉麒麟
(湖北咸寧市中心醫(yī)院 咸寧 437100)
針對部分醫(yī)院信息系統(tǒng)數(shù)據(jù)保護能力不強、系統(tǒng)易中斷的問題,分析了醫(yī)院數(shù)據(jù)容災備份系統(tǒng)的需求、構(gòu)建原則和目標,提出了一種醫(yī)院數(shù)據(jù)容災備份系統(tǒng)的構(gòu)建方案。該方案利用雙機房的容災環(huán)境,實現(xiàn)各種存儲資源的統(tǒng)一集中管理與數(shù)據(jù)與業(yè)務的統(tǒng)一保護,提高了數(shù)據(jù)的高可用性和業(yè)務的連續(xù)性,建立了較為完善的容災備份體系。
容災;醫(yī)院數(shù)據(jù);存儲資源
隨著社會及公眾對醫(yī)療業(yè)務的服務要求不斷提高,管理水平和服務功能的強化及發(fā)展將對醫(yī)院辦公方式產(chǎn)生極大的推動作用,醫(yī)院的主要診療活動都依賴于信息系統(tǒng)的運行,現(xiàn)階段,國內(nèi)醫(yī)院在信息化方面正在逐步發(fā)展,并形成了一定的規(guī)模,主要的信息系統(tǒng)包括醫(yī)院信息系統(tǒng)(Hospital Information System,HIS)、實驗室信息管理系統(tǒng)(Laboratory Information Management System,LIS)、醫(yī)學影像存檔與通訊系統(tǒng)(Picture Archiving and Communication System,PACS)、放射信息管理系統(tǒng)(Radiology Information System,RIS)、電子病歷(Electronic Medical Record,EMR)等,但是部分醫(yī)院還存在信息化系統(tǒng)種類眾多且相互隔離、數(shù)據(jù)保護能力不強、系統(tǒng)易中斷的問題。由于醫(yī)療行業(yè)的特殊性,醫(yī)院信息系統(tǒng)需要不間斷運行,對于系統(tǒng)的安全、穩(wěn)定要求很高,因此為了保障醫(yī)院系統(tǒng)的高可用性,醫(yī)院迫切需要構(gòu)建數(shù)據(jù)容災備份系統(tǒng),確保發(fā)生存儲、服務器故障時能做到“業(yè)務不中斷,數(shù)據(jù)不丟失”。
容災備份系統(tǒng)可以分為數(shù)據(jù)級容災和應用級容災兩類[1~2]。其中數(shù)據(jù)級容災,是建立一個異地的數(shù)據(jù)備份系統(tǒng),對本地核心數(shù)據(jù)進行遠程備份。數(shù)據(jù)級容災,實際上就是數(shù)據(jù)復制,其實現(xiàn)方式可以分為數(shù)據(jù)同步傳輸方式和數(shù)據(jù)異步傳輸方式。應用級容災,是數(shù)據(jù)級容災的基礎上,在異地建立一套完全相同的應用系統(tǒng)。該系統(tǒng)與本地系統(tǒng)功能相同、互為備份。建立異地備份應用系統(tǒng)不僅需要備份完全相同的數(shù)據(jù),還需要構(gòu)建主機、網(wǎng)絡、應用軟件、地址等資源,應用級容災技術包括負載均衡技術和集群技術。在災難備份與恢復行業(yè)國家標準《信息系統(tǒng)災難恢復規(guī)范》[3~4]中,將信息系統(tǒng)的災難恢復能力劃分為了6級,明確了災難恢復能力等級,在最高級(第6級)中要求實現(xiàn)遠程數(shù)據(jù)實時備份,實現(xiàn)零丟失,應用軟件可以實現(xiàn)實時無縫切換。
數(shù)據(jù)容災技術綜合了存儲、備份和傳輸技術[5~9]。很多國際知名IT公司推出了自己的數(shù)據(jù)容災系統(tǒng)和數(shù)據(jù)容災方案,Veritas公司采用Volume Replicator技術將數(shù)據(jù)以異步或者同步的方式復制到遠程系統(tǒng)[10],數(shù)據(jù)不需要通過專用傳輸線路,而直接通過網(wǎng)絡傳輸;IBM基于ESS企業(yè)存儲服務器和PPRC復制技術的數(shù)據(jù)容災方案[11],實現(xiàn)以存儲為基礎的、實時的、同步的、與應用無關的數(shù)據(jù)遠程鏡像功能。華中科技大學的曹強等[12]實現(xiàn)了一個基于統(tǒng)一存儲網(wǎng)的網(wǎng)絡文件備份系統(tǒng),具備較高的數(shù)據(jù)備份傳輸率;四川大學的李濤等[13]實現(xiàn)了一種基于跨平臺、跨地域的容災系統(tǒng),具有實時、可控、能調(diào)的容錯能力;西北工業(yè)大學的李戰(zhàn)懷等[14]實現(xiàn)了一個基于平臺的數(shù)據(jù)容災系統(tǒng),通過在內(nèi)核中嵌入遠程實時復制和災難恢復機制,使系統(tǒng)達到高可靠性和高可用性;西北工業(yè)大學的劉衛(wèi)平[15]實現(xiàn)了一種網(wǎng)絡存儲中的數(shù)據(jù)容錯與容災系統(tǒng),提出了一種基于日志的遠程異步數(shù)據(jù)復制協(xié)議ARPDL,提升了數(shù)據(jù)傳輸效率。
針對醫(yī)院信息系統(tǒng)數(shù)據(jù)高可靠要求的特殊性,本文提出了一種醫(yī)院數(shù)據(jù)容災系統(tǒng)構(gòu)建方案,利用雙機房的業(yè)務級容災環(huán)境,實現(xiàn)各種存儲資源的統(tǒng)一集中管理,與數(shù)據(jù)和業(yè)務的統(tǒng)一保護,實現(xiàn)各種存儲資源的統(tǒng)一集中管理與數(shù)據(jù)和業(yè)務的統(tǒng)一保護,提高了數(shù)據(jù)的高可用性和業(yè)務的連續(xù)性,建立了較為完善的容災備份體系。
醫(yī)院的主要業(yè)務流程活動都依賴于信息系統(tǒng)的運行,針對醫(yī)療行業(yè)核心系統(tǒng)的重要性,核心信息系統(tǒng)需要不間斷運行,對于系統(tǒng)的安全、穩(wěn)定要求很高,一旦由于系統(tǒng)硬件的功能失效,存儲介質(zhì)的老化損壞,人為的錯誤操作,以及各種難以預料的外界因素導致數(shù)據(jù)意外丟失或損壞,那么將會對于醫(yī)院業(yè)務運作造成無法估量的影響。所以必須對數(shù)據(jù)存儲系統(tǒng)的完整性和可靠性給予高度重視,并提供一個完善的具有高可用性的存儲備份解決方案,以避免在各種極端情況下造成的重大損失。
現(xiàn)階段部分醫(yī)院架構(gòu)主要存在以下問題:
1)系統(tǒng)恢復能力差。當核心系統(tǒng)發(fā)生軟件故障時,無法切換,核心系統(tǒng)不能連續(xù)運行,恢復系統(tǒng)需要花費很長時間;
2)數(shù)據(jù)保護能力弱。當應用系統(tǒng)或主機出現(xiàn)故障后,沒有辦法做到盡快及時的恢復,而且保存在存儲上的數(shù)據(jù)沒有很好的集中備份環(huán)境,當需要數(shù)據(jù)恢復時,不能做到及時有效的數(shù)據(jù)恢復及良好的數(shù)據(jù)保護。
可以采用容災備份技術來防止數(shù)據(jù)的丟失,保證系統(tǒng)的正常運行。隨著業(yè)務系統(tǒng)增加,數(shù)據(jù)量的增大,系統(tǒng)管理人員很難進行手工備份操作,不僅工作量大、且容易出錯、效率降低、難以管理備份效果;如幾個簡單的管理備份介質(zhì)工作當對同一個數(shù)據(jù)庫的容量超過一盤磁帶的容量時,如果采用手動備份就變成了一個極其復雜,效率極低、風險很大的工作了。同時在系統(tǒng)中斷時能夠在最短的時間內(nèi)恢復數(shù)據(jù),最大程度減低業(yè)務中斷時間是最重要的。人工處理往往難以滿足這些要求。所以需要采用一套離線備份系統(tǒng)對業(yè)務數(shù)據(jù)進行保護,提高備份恢復的效率。
因此,需要建設一個集中統(tǒng)一的信息保護管理平臺,把分散業(yè)務系統(tǒng)整合到這個統(tǒng)一集中平臺上進行集中備份管理維護,并為相應系統(tǒng)改造打下基礎。
3.1 容災備份系統(tǒng)構(gòu)建原則和目標
容災備份系統(tǒng)構(gòu)建原則主要包括:
1)高度靈活性和可擴充性。業(yè)務系統(tǒng)直接支持日常業(yè)務的運營與開展,穩(wěn)定、高效是核心業(yè)務系統(tǒng)的基本要求;
2)高可靠性與高可用性。充分考慮到系統(tǒng)運行設備、數(shù)據(jù)存儲及應用設計,能夠為系統(tǒng)提供零數(shù)據(jù)丟失、保障業(yè)務安全、不間斷的穩(wěn)定運行,包括防范一定區(qū)域的應急風險。
容災備份構(gòu)建目標主要包括:
1)構(gòu)建業(yè)務連續(xù)性平臺。構(gòu)建應用和數(shù)據(jù)級容災系統(tǒng),實現(xiàn)各種存儲資源的統(tǒng)一集中管理,消除存儲單點故障,提高數(shù)據(jù)的高可用、支持業(yè)務連續(xù)性的實現(xiàn),建立數(shù)據(jù)容災體系。同時,實現(xiàn)關鍵應用系統(tǒng)的主機高可用性,應用系統(tǒng)站點間自動切換,減少人工干預,實現(xiàn)應用系統(tǒng)的容災體系。將來可擴充至遠程數(shù)據(jù)實時復制,支持業(yè)務連續(xù)性的實現(xiàn);
2)構(gòu)建集中備份平臺。構(gòu)建數(shù)據(jù)的統(tǒng)一備份恢復管理平臺,提供不同數(shù)據(jù)的不同保護級別,提高備份效率,提供長久數(shù)據(jù)保存與及時恢復。
3.2 容災備份系統(tǒng)構(gòu)建方案
按照基本達到容災6級要求進行容災系統(tǒng)方案設計。
1)設計并構(gòu)建系統(tǒng)容災架構(gòu)
將核心業(yè)務系統(tǒng)的服務器和存儲設施,分別放置在兩個機房環(huán)境中,形成分開運行的主、備服務器雙機房環(huán)境,兩個機房之間通過光纖鏈路、光纖交換機,構(gòu)成一個統(tǒng)一的SAN構(gòu)架。當主機房中系統(tǒng)或主機故障發(fā)生時、甚至整個機房發(fā)生故障,核心系統(tǒng)可以在幾分鐘內(nèi)無縫的切換到備用機房的服務器上,實現(xiàn)應用系統(tǒng)主服務器和備用服務器之間的快速自動切換,保障系統(tǒng)的核心應用可靠運行,提升應用的切換速度和可靠性,降低生產(chǎn)主機停機風險,滿足“業(yè)務不停頓”的要求,容災備份系統(tǒng)架構(gòu)如圖1所示。
圖1 容災系統(tǒng)架構(gòu)
2)設計并實現(xiàn)系統(tǒng)可靠存儲
容災系統(tǒng)的架構(gòu)設計存儲機制包括同步機制和異步機制。同步機制是將本地數(shù)據(jù)同時完全復制到遠程,需要同步的數(shù)據(jù)同時要放在遠程響應完成,本地才會向應用響應結(jié)束,圖2描述了同步機制的基本過程。
圖2 同步機制響應過程
同步機制雖然可以保證數(shù)據(jù)的安全可靠,但是可能影響應用系統(tǒng)的連續(xù)性,因此,本方案采用基于異步機制的存儲方案。異步機制中,本地站點完成后直接返回給應用,不需要等待遠程站點完成復制過程,圖3描述了異步機制的基本過程。
圖3 異步機制響應過程
異步機制只需要寫操作得到本地存儲設備的執(zhí)行完成確認,就可以執(zhí)行下一個指令,保證了系統(tǒng)對存儲的快速響應,但本地與遠程之間數(shù)據(jù)存儲的異步執(zhí)行,不能完全確保本地和遠程存儲設備的實時數(shù)據(jù)完全一致,因此異步機制的核心是寫操作的遠程傳播以及數(shù)據(jù)同步。
為了減少本地和遠程的通信開銷,并且保證本地和遠程的數(shù)據(jù)一致,采用一種批指令異步機制,其基本過程如圖4所示。
圖4 批指令異步機制響應過程
批指令包括控制信息區(qū)和指令信息區(qū),數(shù)據(jù)結(jié)構(gòu)如圖5所示。在本地存儲中,在一定周期T內(nèi)接收到的指令組成一個批指令,并且利用時戳Stamp標識該批指令,N為批指令所包含的指令數(shù)量,用于確保批指令能夠完整接收。
圖5 批指令數(shù)據(jù)結(jié)構(gòu)
其中,批指令形成過程如圖6所示。
圖6 批指令形成過程
遠程可根據(jù)批指令的時戳和指令數(shù)量確定是否完全接收該批指令,確保數(shù)據(jù)傳輸?shù)母呖煽啃浴T谂噶钚纬蛇^程中包含指令覆蓋判斷的過程,這是由于對同一個邏輯塊可能會存在重復寫兩個以上的指令,只需要將最后一個指令都傳遞到遠程,就可以滿足數(shù)據(jù)同步的要求,并且大量減少通信鏈路的數(shù)據(jù)傳輸量。
假設本地接收多個指令依次寫邏輯塊a1、c1、d1、e1、c2、b1、c3、f1、e2、d2、e3、b2、e4。該指令序列提交給本地主存儲執(zhí)行,對b邏輯塊覆蓋了1次,對c邏輯塊覆蓋了2次,對d邏輯塊覆蓋了1次,對e邏輯塊覆蓋了 3次,與執(zhí)行指令序列 a1、c3、d2、e4、b2、f1結(jié)果是相同的,指令信息傳遞量減少50%,指令序列的更新過程如圖7所示。
圖7 指令序列更新過程
本地和遠程存儲系統(tǒng)實行數(shù)據(jù)異步機制保持數(shù)據(jù)一致性,實現(xiàn)站點間數(shù)據(jù)的雙存儲實時存放,消除存儲單點故障,做到底層雙存儲保護,保障數(shù)據(jù)的高可靠性,避免軟件系統(tǒng)故障和硬件單獨故障,帶來的系統(tǒng)異常中斷風險,提高數(shù)據(jù)的高可用、支持業(yè)務連續(xù)性,滿足關鍵系統(tǒng)“業(yè)務不中斷,數(shù)據(jù)不丟失”的業(yè)務連續(xù)性運行需求。
本方案有如下特點:
1)優(yōu)化了管理維護工作。通過集群管理界面,借助業(yè)務級容災技術,可以快速配置、測試和實施業(yè)務關聯(lián)性的集群架構(gòu),通過直觀的圖像界面管理,簡化了整個容災環(huán)境的維護管理工作;實現(xiàn)存儲在線管理,減少對業(yè)務系統(tǒng)的影響,所有的邏輯卷和文件系統(tǒng)操作都可以在應用不停機的狀態(tài)下完成,真正實現(xiàn)存儲供應對應用的透明。
2)保障了數(shù)據(jù)的高可靠性和業(yè)務的連續(xù)性。當生產(chǎn)存儲故障時,能夠保障系統(tǒng)不中斷、數(shù)據(jù)不丟失;當生產(chǎn)主機故障時,系統(tǒng)可自動或“一鍵式”半自動進行切換,相對人工切換,降低出錯概率和整體切換時間;盡量降低業(yè)務中斷,真正實現(xiàn)業(yè)務連續(xù)性。
3)增強了數(shù)據(jù)使用的靈活性和使用效率。支持將快照、復制映射到不同品牌的存儲陣列上,提高靈活性,實現(xiàn)生產(chǎn)數(shù)據(jù)查詢、測試、邏輯性錯誤恢復等用途,提高數(shù)據(jù)處理效率提升業(yè)務用途。
4)保障了存儲的可伸縮性和容災的可擴展性。無需進行系統(tǒng)結(jié)構(gòu)的改動與調(diào)整,增加模塊即可靈活、方便實現(xiàn)容災擴展。
本文提出了一種醫(yī)院數(shù)據(jù)容災備份系統(tǒng)的構(gòu)建方案,方案利用雙機房的容災環(huán)境,實現(xiàn)各種存儲資源的統(tǒng)一集中管理與數(shù)據(jù)和業(yè)務的統(tǒng)一保護,構(gòu)建的系統(tǒng)能夠優(yōu)化管理維護工作、保障數(shù)據(jù)的高可靠性和業(yè)務的連續(xù)性、增強數(shù)據(jù)使用的靈活性和使用效率,保障存儲的可伸縮性和容災的可擴展性,具備較為完善的容災備份體系,可應用于各類醫(yī)院信息系統(tǒng)容災備份改造工程中。
[1]王德軍,王麗娜.容災系統(tǒng)研究[J].計算機工程,2005,31(6):43-45.WANG Dejun,WANG Lina.Research of Disaster Tolerance System[J].Computer Engineering,2005,31(6):43-45.
[2]楊義先,姚文斌,陳釗.信息系統(tǒng)災備技術綜論[J].北京郵電大學學報,2010,33(2):1-6.YANG Yixian,YAO Wenbin,CHEN Zhao.Review of Disaster Backup and Recovery Technology of Information System[J].Journal of Beijing University of Posts and Telecommunications,2010,33(2):1-6.
[3]GB/T20988-2007.信息安全技術信息系統(tǒng)災難恢復規(guī)范[S].北京:中國標準出版社,2007:10-13.GB/T20988-2007.Information security technologyDisaster recovery specifications for information systems[S].Beijing:China Standards Press,2007:10-13.
[4]謝長生,韓德志,李懷陽,等.容災備份的等級和技術[J].中國計算機用戶,2003(18):30.XIE Changsheng,HAN Dezhi,LI Huaiyang.The Level and Technology of Disaster Recovery Backup[J].China Computer Users,2003(18):30.
[5]L.D.Stevens.The evolution of magnetic storage[J].IBM Journal of Research and Development,1981(25) :663-675.
[6]LUO Xinguo,ZHANG Jiangling.Study on a Network Storage System[J].Proceedings of International Symposium on Multidisciplines,China,1992:151-155
[7]G A.Gilbson,R.V Meter.Network Attached Storage Architecture[J].Communications of the ACM,2000,43(11):37-45.
[8]IBM Tech report.Trends in Storage Infrastructure,2002:23-34.
[9]IBM Corporation.A Disaster Recovery very Solution Selection Methodology[M].February 2004:56-58.
[10]Paul Massiglia.VERITAS Volume Replication and Oracle Databases[M].VERITEIS Corporation,2000:79-83.
[11]IBM Corporation.Method system and program for maintaining data consistency among updates across groups of storage areas using up-date times[M].United States Patent 6463501,2002:46-50.
[12]曹強.數(shù)據(jù)存儲系統(tǒng)的關鍵理論及性能分析[D].武漢:華中科技大學,2003:21-28.CAO Qiang.The Key Theory and Performance Analysis of Data Storage System[D].Wuhan:Huazhong University of Science and Technology,2003:21-28.
[13]廖竣揩.基于Internet的容災系統(tǒng)的設計與實現(xiàn)[D].成都:四川大學,2004:1-25.LIAO Junkai.Design and Implementation of Disaster Tolerant System Based on Internet[D].Chengdu:Sichuan University.2004:1-25.
[14]王彥龍.Linux平臺數(shù)據(jù)容災系統(tǒng)的研究與實現(xiàn).[D].西安:西北工業(yè)大學,2005:10-35.WANG Yanlong.Research and Implementation of Data Disaster Tolerant System Based on Linux Platform[D].Xi'an:Northwestern Polytechnical University,2005:10-35.
[15]劉衛(wèi)平.網(wǎng)絡存儲中的數(shù)據(jù)容錯與容災技術研究[D].西安:西北工業(yè)大學,2006:12-36.LIU Weiping.Research on Data Fault Tolerance and Disaster Recovery Technology in Network Storage[D].Xi'an:Northwestern Polytechnical University,2006:12-36.
A Scheme of Buiding Hospital Data Disaster Tolerant System
LIU Qilin
(Xianning Central Hospital,Xianning 437100)
Aiming at the problem that the data protection ability of some hospital information systems is not strong and the system is easy to be interrupted,this paper analyses the demand,the construction principle and the goal of hospital data disaster tolerant system firstly,then proposes a new construction scheme of hospital data disaster tolerant system.The scheme utilizes the disaster recovery environment of the double room to realize the unified management of the various storage resources and the unified protection of the data and the business,improves the high availability of the data and the continuity of the business,establishes a relatively perfect disaster tolerance system.
disaster-tolerant,hospital data,storage resources
TP309
10.3969/j.issn.1672-9722.2017.11.033
Class Number TP309
2017年5月21日,
2017年6月19日
劉麒麟,男,工程師,研究方向:計算機網(wǎng)絡與信息安全。