陳濤
(南京醫(yī)科大學(xué)附屬南京醫(yī)院(南京市第一醫(yī)院)信息中心,江蘇 南京 210006)
醫(yī)院數(shù)字技術(shù)發(fā)展過(guò)程中,不同種類(lèi)的系統(tǒng)架構(gòu)演變迅速發(fā)展,醫(yī)院信息系統(tǒng)應(yīng)具備非??煽康臑?zāi)備能力,完善的醫(yī)院信息系統(tǒng)應(yīng)具有完善、可靠的數(shù)據(jù)備份機(jī)制和從災(zāi)難中快速恢復(fù)的能力[1]。云架構(gòu)的災(zāi)備設(shè)計(jì)是目前的流行理念,然而傳統(tǒng)的災(zāi)備架構(gòu)體系并不適用于云架構(gòu)。目前,醫(yī)院災(zāi)備系統(tǒng)架構(gòu)不斷地由分散式向集中式發(fā)展,這使得以往災(zāi)備軟件與快速擴(kuò)展的災(zāi)備體系建設(shè)格格不入。傳統(tǒng)災(zāi)備系統(tǒng)中,執(zhí)行醫(yī)院的基礎(chǔ)數(shù)據(jù)遷移業(yè)務(wù)常常比較困難。災(zāi)難發(fā)生時(shí)協(xié)調(diào)停機(jī)困難,災(zāi)備數(shù)據(jù)備份驗(yàn)證周期長(zhǎng),基礎(chǔ)數(shù)據(jù)環(huán)境重建耗時(shí)費(fèi)力等問(wèn)題,都阻礙了醫(yī)院數(shù)據(jù)災(zāi)備體系建設(shè)數(shù)字化轉(zhuǎn)型的步伐。災(zāi)難恢復(fù)是指災(zāi)難發(fā)生后,系統(tǒng)恢復(fù)正常運(yùn)行的能力,而容災(zāi)指災(zāi)難發(fā)生時(shí)保持系統(tǒng)不間斷運(yùn)行的能力[2]。醫(yī)院新的數(shù)據(jù)災(zāi)備應(yīng)急系統(tǒng)亟需應(yīng)用。
具體需求包含以下幾個(gè)方面:①根據(jù)目前的實(shí)際需求,新的醫(yī)院數(shù)據(jù)災(zāi)備系統(tǒng)設(shè)備配制應(yīng)不少于4 個(gè)千兆網(wǎng)口,包含兩個(gè)物理主機(jī)服務(wù)器進(jìn)行相關(guān)業(yè)務(wù)應(yīng)急,系統(tǒng)在客戶(hù)端上應(yīng)可用Web 管理界面進(jìn)行統(tǒng)一管理。②系統(tǒng)應(yīng)該能夠監(jiān)測(cè)被保護(hù)服務(wù)器的CPU、內(nèi)存、網(wǎng)絡(luò)等性能指標(biāo),對(duì)數(shù)據(jù)庫(kù)、中間層等其他應(yīng)用服務(wù)器數(shù)據(jù)擁有監(jiān)控其運(yùn)行情況的功能。災(zāi)備應(yīng)急系統(tǒng)應(yīng)能夠模擬不同用戶(hù)的訪問(wèn)方式,有效地對(duì)各種應(yīng)用服務(wù)提供運(yùn)行安全監(jiān)控。系統(tǒng)應(yīng)該支持用戶(hù)根據(jù)自身需要自定義數(shù)據(jù)庫(kù),并提供基于事件的統(tǒng)計(jì)報(bào)表和圖表,且能夠針對(duì)這些事件提供短信通知功能。數(shù)據(jù)災(zāi)備應(yīng)急系統(tǒng)針對(duì)所備份的所有系統(tǒng)可能出現(xiàn)的各種狀況進(jìn)行日志統(tǒng)計(jì),遇到錯(cuò)誤事件發(fā)出事件報(bào)警等。③在數(shù)據(jù)災(zāi)備應(yīng)急系統(tǒng)環(huán)境配置上,能夠?qū)⑨t(yī)院信息系統(tǒng)數(shù)據(jù)的基礎(chǔ)環(huán)境和數(shù)據(jù)存儲(chǔ)對(duì)象實(shí)現(xiàn)虛擬化隔離,災(zāi)備系統(tǒng)以虛擬機(jī)映像文件的方式進(jìn)行存儲(chǔ),保持與實(shí)際映像數(shù)據(jù)實(shí)時(shí)同步,保持業(yè)務(wù)驅(qū)動(dòng)環(huán)境實(shí)時(shí)P2V 轉(zhuǎn)換。④信息數(shù)據(jù)災(zāi)備應(yīng)急系統(tǒng)應(yīng)該支持二層、三層網(wǎng)絡(luò)的接入,支持VPN 的接入,支持NAT 和橋接組網(wǎng),支持虛擬子網(wǎng)管理等。⑤當(dāng)信息系統(tǒng)數(shù)據(jù)業(yè)務(wù)服務(wù)器發(fā)生故障時(shí),災(zāi)備應(yīng)急系統(tǒng)要能夠提供及時(shí)有效應(yīng)急接管,應(yīng)能夠在不同故障發(fā)生時(shí)提供應(yīng)急接管,比如人為原因的誤刪數(shù)據(jù)、數(shù)據(jù)服務(wù)器硬盤(pán)損壞造成的數(shù)據(jù)文件損壞丟失等。當(dāng)災(zāi)備應(yīng)急管理系統(tǒng)接管醫(yī)院信息系統(tǒng)時(shí),要能夠滿(mǎn)足災(zāi)備管理系統(tǒng)無(wú)需對(duì)醫(yī)院信息系統(tǒng)配置進(jìn)行任何修改,包括IP、MAC 地址,軟件端的配置,系統(tǒng)口令等。信息數(shù)據(jù)災(zāi)備系統(tǒng)要有快照節(jié)點(diǎn)功能,能從快照設(shè)置的任意時(shí)間點(diǎn)啟動(dòng)接管程序。⑥信息數(shù)據(jù)災(zāi)備應(yīng)急系統(tǒng)應(yīng)能夠支持多個(gè)獨(dú)立的賬號(hào)管理模式,能夠?qū)崿F(xiàn)整機(jī)業(yè)務(wù)級(jí)一體化備份且僅備份有效的數(shù)據(jù)塊。系統(tǒng)設(shè)備應(yīng)能夠模擬機(jī)房?jī)?nèi)任何信息系統(tǒng)服務(wù)器的應(yīng)用環(huán)境,在整個(gè)仿真過(guò)程中,數(shù)據(jù)災(zāi)備應(yīng)急系統(tǒng)能夠?qū)π畔⑾到y(tǒng)平臺(tái)作業(yè)和信息日常業(yè)務(wù)無(wú)任何影響。⑦數(shù)據(jù)災(zāi)備應(yīng)急系統(tǒng)要能夠支持各種單機(jī)環(huán)境以及主備集群的應(yīng)急接管,共享磁盤(pán)、本地磁盤(pán)以及多路徑軟件環(huán)境同樣要兼容適用。
數(shù)據(jù)災(zāi)備應(yīng)急系統(tǒng)底層框架應(yīng)該基于超融合架構(gòu),超融合架構(gòu)的諸多特點(diǎn)要能夠體現(xiàn)在系統(tǒng)中。比如能夠支持系統(tǒng)的橫向擴(kuò)展,用戶(hù)能夠根據(jù)實(shí)際需要進(jìn)行擴(kuò)展,以節(jié)省成本。設(shè)備資源及存儲(chǔ)的橫向擴(kuò)展也使得壓力分擔(dān)到每一個(gè)節(jié)點(diǎn)上,這就解決了單點(diǎn)性能問(wèn)題。
新的數(shù)據(jù)災(zāi)備應(yīng)急系統(tǒng)應(yīng)該具備一定的應(yīng)急接管功能和仿真測(cè)試功能,所以系統(tǒng)應(yīng)該由客戶(hù)端Web 管理功能、管控平臺(tái)、監(jiān)控預(yù)警、恢復(fù)功能、接管功能、遷移功能、仿真功能、快照管理以及存儲(chǔ)節(jié)點(diǎn)九部分組成。
構(gòu)架基于B/S,用戶(hù)在客戶(hù)端通過(guò)Web 網(wǎng)頁(yè)方式進(jìn)行整個(gè)災(zāi)備應(yīng)急系統(tǒng)的管理與操作。
數(shù)據(jù)災(zāi)備應(yīng)急系統(tǒng)具備獨(dú)立物理服務(wù)器實(shí)體,架構(gòu)于醫(yī)院信息中心機(jī)房,負(fù)責(zé)各種物理主機(jī)和虛擬主機(jī)的鏡像化復(fù)制,能夠?qū)υ葱畔⑾到y(tǒng)服務(wù)器的各項(xiàng)運(yùn)行數(shù)據(jù)進(jìn)行實(shí)時(shí)的捕捉,并存入自身虛擬化存儲(chǔ)池。
該功能作用于監(jiān)控災(zāi)備應(yīng)急系統(tǒng)的實(shí)體服務(wù)器資源情況,包括硬件資源、軟件資源以及業(yè)務(wù)的可用狀態(tài)等。當(dāng)災(zāi)備應(yīng)急系統(tǒng)出現(xiàn)問(wèn)題時(shí),監(jiān)控預(yù)警功能即可觸發(fā)告警,通過(guò)短信方式通知用戶(hù),讓用戶(hù)能及時(shí)了解掌握災(zāi)備系統(tǒng)問(wèn)題。
該功能是讓災(zāi)備應(yīng)急系統(tǒng)能通過(guò)快照掛載的方式,把備份數(shù)據(jù)卷有效地掛載給源信息系統(tǒng)數(shù)據(jù)服務(wù)器,以實(shí)現(xiàn)瞬間恢復(fù)數(shù)據(jù)的能力。
數(shù)據(jù)災(zāi)備應(yīng)急系統(tǒng)在日常的數(shù)據(jù)備份過(guò)程中,數(shù)據(jù)傳輸需要分發(fā)處理,這就需要擁有足夠的存儲(chǔ)能力和空間。存儲(chǔ)節(jié)點(diǎn)則對(duì)此提供了基礎(chǔ)保障。
接管功能用于應(yīng)急接管,當(dāng)災(zāi)備應(yīng)急系統(tǒng)檢測(cè)前端應(yīng)用服務(wù)的業(yè)務(wù)發(fā)生故障時(shí),接管系統(tǒng)則通過(guò)最近同步的業(yè)務(wù)節(jié)點(diǎn),啟動(dòng)應(yīng)急業(yè)務(wù)接管功能,并且虛擬服務(wù)器信息數(shù)據(jù)和原信息數(shù)據(jù)服務(wù)器相同。應(yīng)急接管功能除了自動(dòng)接管外,也可以手動(dòng)接管,最大限度地保證業(yè)務(wù)正常運(yùn)行。
遷移功能用于離線遷移主業(yè)務(wù)數(shù)據(jù)服務(wù)器數(shù)據(jù),平時(shí)對(duì)源數(shù)據(jù)服務(wù)器進(jìn)行在線備份,在源機(jī)離線時(shí)能恢復(fù)數(shù)據(jù)到異構(gòu)平臺(tái)上,進(jìn)行整機(jī)的數(shù)據(jù)遷移。
該功能負(fù)責(zé)系統(tǒng)環(huán)境的測(cè)試和數(shù)據(jù)的仿真模擬,這對(duì)于業(yè)務(wù)需要、業(yè)務(wù)數(shù)據(jù)開(kāi)發(fā)以及業(yè)務(wù)培訓(xùn)等都有著極大幫助。
快照管理功能可以根據(jù)系統(tǒng)所設(shè)置的數(shù)據(jù)備份策略而自動(dòng)生成數(shù)據(jù)時(shí)間節(jié)點(diǎn)快照,各個(gè)快照節(jié)點(diǎn)互相獨(dú)立,且是云鏡像。在快照系統(tǒng)下的用戶(hù)可以根據(jù)不同的時(shí)間節(jié)點(diǎn),產(chǎn)生應(yīng)急演練的虛擬機(jī),以此來(lái)測(cè)試源機(jī)服務(wù)器數(shù)據(jù),驗(yàn)證正確性。
數(shù)據(jù)災(zāi)備應(yīng)急系統(tǒng)的數(shù)據(jù)備份,應(yīng)該包括數(shù)據(jù)捕獲、數(shù)據(jù)恢復(fù)、應(yīng)急接管以及仿真測(cè)試四個(gè)環(huán)節(jié)部分。
數(shù)據(jù)災(zāi)備應(yīng)急系統(tǒng)應(yīng)該具備把源機(jī)數(shù)據(jù)服務(wù)器的操作系統(tǒng)、服務(wù)器上的各種應(yīng)用以及數(shù)據(jù)數(shù)據(jù)打包成云鏡像文件的能力,這樣系統(tǒng)可以通過(guò)全量或者增量的方式去鏡像化復(fù)制到自身的災(zāi)備系統(tǒng)中。
數(shù)據(jù)恢復(fù)應(yīng)該分為兩種方式,瞬時(shí)恢復(fù)和不間斷恢復(fù)。瞬時(shí)恢復(fù)可以基于任意不同的快照時(shí)間節(jié)點(diǎn),通過(guò)TCP 協(xié)議,進(jìn)行分區(qū)的掛載,在這個(gè)過(guò)程中,不需要去移動(dòng)原始數(shù)據(jù),相對(duì)應(yīng)的時(shí)間快照節(jié)點(diǎn)信息也不會(huì)改變。不間斷恢復(fù)是指當(dāng)源機(jī)數(shù)據(jù)服務(wù)器數(shù)據(jù)發(fā)生異常時(shí),災(zāi)備應(yīng)急系統(tǒng)先通過(guò)接管系統(tǒng)進(jìn)行及時(shí)、有效的業(yè)務(wù)接管,不間斷日常數(shù)據(jù)業(yè)務(wù)的正常運(yùn)行,當(dāng)源機(jī)數(shù)據(jù)服務(wù)器恢復(fù)正常后,災(zāi)備應(yīng)急系統(tǒng)進(jìn)行增量數(shù)據(jù)的回傳,同時(shí)應(yīng)急虛機(jī)保持在線運(yùn)行。
當(dāng)源機(jī)數(shù)據(jù)服務(wù)器發(fā)生異常時(shí)或者用戶(hù)想根據(jù)實(shí)際需要測(cè)試備份數(shù)據(jù)準(zhǔn)確性時(shí),用戶(hù)要能在數(shù)據(jù)災(zāi)備應(yīng)急系統(tǒng)中生成應(yīng)急接管虛擬化服務(wù)器,對(duì)源機(jī)的業(yè)務(wù)進(jìn)行一鍵接管,以此來(lái)保證源機(jī)數(shù)據(jù)的連續(xù)性。
數(shù)據(jù)備份的環(huán)節(jié)必須要有仿真測(cè)試這個(gè)流程部分。綜上所述,災(zāi)備應(yīng)急系統(tǒng)應(yīng)該具備與源機(jī)實(shí)時(shí)同步的時(shí)間節(jié)點(diǎn)備份策略,在這些不同的快照時(shí)間節(jié)點(diǎn)上,必須要能生成跟源機(jī)數(shù)據(jù)業(yè)務(wù)環(huán)境隔離的仿真測(cè)試環(huán)境,在這個(gè)環(huán)境下,對(duì)備份的數(shù)據(jù)進(jìn)行驗(yàn)證。驗(yàn)證完成后,可刪除仿真環(huán)境,確保數(shù)據(jù)災(zāi)備系統(tǒng)的流暢運(yùn)行。
用戶(hù)管理是每個(gè)系統(tǒng)都應(yīng)具備的功能。用戶(hù)管理權(quán)限的明確劃分,可以確保數(shù)據(jù)災(zāi)備應(yīng)急系統(tǒng)的操作安全性以及操作規(guī)范性。不同的用戶(hù)管理權(quán)限,可以相互監(jiān)督制約,以確保系統(tǒng)的安全穩(wěn)定運(yùn)行。數(shù)據(jù)災(zāi)備應(yīng)急系統(tǒng)應(yīng)該支持系統(tǒng)管理員、審查管理員、系統(tǒng)存儲(chǔ)管理員、應(yīng)急系統(tǒng)管理員四個(gè)角色:①系統(tǒng)管理員。負(fù)責(zé)數(shù)據(jù)災(zāi)備應(yīng)急系統(tǒng)的日常維護(hù)與管理工作,對(duì)整個(gè)系統(tǒng)進(jìn)行統(tǒng)籌管理,這包括數(shù)據(jù)備份查看、應(yīng)急演練功能的測(cè)試、數(shù)據(jù)的恢復(fù)、計(jì)算節(jié)點(diǎn)存儲(chǔ)節(jié)點(diǎn)的隨時(shí)監(jiān)測(cè)以及系統(tǒng)運(yùn)行日志告警查看等。②審查管理員。負(fù)責(zé)數(shù)據(jù)災(zāi)備應(yīng)急系統(tǒng)的運(yùn)行日志的審查。③系統(tǒng)存儲(chǔ)管理員。負(fù)責(zé)數(shù)據(jù)災(zāi)備應(yīng)急系統(tǒng)的存儲(chǔ)恢復(fù)等權(quán)限。④應(yīng)急系統(tǒng)管理員。負(fù)責(zé)在數(shù)據(jù)災(zāi)備應(yīng)急系統(tǒng)中進(jìn)行應(yīng)急演練等權(quán)限部分。
數(shù)據(jù)災(zāi)備應(yīng)急系統(tǒng)應(yīng)該具備詳細(xì)的系統(tǒng)的日志報(bào)表。日志報(bào)表記錄著系統(tǒng)中所有用戶(hù)的操作及系統(tǒng)運(yùn)行問(wèn)題,這能夠確保所有用戶(hù)在系統(tǒng)中操作都有記錄監(jiān)管,因人為操作原因而引起的系統(tǒng)故障,能夠根據(jù)日志報(bào)表及時(shí)查出原因,或者系統(tǒng)自身運(yùn)行出現(xiàn)的錯(cuò)誤,通過(guò)系統(tǒng)運(yùn)行日志報(bào)表可以及時(shí)修復(fù)改進(jìn)。日志類(lèi)型包括:①數(shù)據(jù)備份日志,記錄數(shù)據(jù)備份相關(guān)信息;②警告日志,記錄系統(tǒng)告警信息;③應(yīng)急數(shù)據(jù)日志,記錄系統(tǒng)中應(yīng)急接管操作信息;④存儲(chǔ)及恢復(fù)日志,記錄系統(tǒng)的數(shù)據(jù)恢復(fù)以及系統(tǒng)存儲(chǔ)的信息。
目前,人類(lèi)社會(huì)比以往任何時(shí)候都更加依賴(lài)于計(jì)算機(jī)系統(tǒng),計(jì)算機(jī)系統(tǒng)在迅猛發(fā)展提供技術(shù)基礎(chǔ)架構(gòu)的同時(shí),由于用戶(hù)業(yè)務(wù)處理的高度集中以及不可預(yù)見(jiàn)的故障和災(zāi)難,導(dǎo)致整個(gè)系統(tǒng)存在災(zāi)難性破壞的隱患,有可能成為整體系統(tǒng)中的單故障點(diǎn)[3]。信息數(shù)據(jù)災(zāi)備系統(tǒng)成為醫(yī)院信息工作中不可或缺的部分。新型、完善的信息數(shù)據(jù)災(zāi)備系統(tǒng)可使醫(yī)院在信息化的運(yùn)行中事半功倍、穩(wěn)定運(yùn)行。