袁駿毅 尤麗玨 潘常青
1(上海市胸科醫(yī)院(上海交通大學附屬胸科醫(yī)院) 上海 200030) 2(上海交通大學醫(yī)學院附屬瑞金醫(yī)院盧灣分院 上海 200020)
醫(yī)療影像是循證醫(yī)學證據(jù)鏈的關鍵環(huán)節(jié),對臨床醫(yī)生的診斷和手術方案起到了重要的影響[1]。醫(yī)生需要高效地調閱到檢查影像,確?;颊叩玫郊皶r有效的治療。隨著醫(yī)學技術的創(chuàng)新和醫(yī)技檢查的增多,影像數(shù)據(jù)日益呈現(xiàn)快速的增長趨勢,影像的讀取性能成為醫(yī)院信息管理者面臨的難點問題[2]。醫(yī)院通常在存儲上投入了較大的成本,然而很多架構規(guī)劃偏重于滿足容量的要求,使用效果未達到最佳[3]。近年來,分布式技術廣泛應用于海量數(shù)據(jù)的任務處理,Essa等[4]指出:采用智能負載分配的分布式存儲有助于實現(xiàn)大容量數(shù)據(jù)的安全管理和高效利用。
上海市胸科醫(yī)院是一家學科特色鮮明、以心肺手術為主的三級甲等專科醫(yī)院,2019年放射科、超聲科等醫(yī)技檢查41.2萬人次,隨著院內原有影像歸檔和通信系統(tǒng)(Picture Archiving and Communication Systems,PACS)中影像的不斷累積,調閱速度日趨緩慢。因此,醫(yī)院實施基于分布式存儲的PACS項目,以滿足影像調閱的性能需求。本文通過實施前后的數(shù)據(jù)對比,驗證分布式存儲的應用效果,為利用信息技術手段優(yōu)化臨床工作提供借鑒參考。
PACS的主要作用是采集、傳輸和處理醫(yī)技檢查所產(chǎn)生的醫(yī)學影像,實現(xiàn)全院的數(shù)字化存儲和共享[5]。PACS實時采集設備的影像數(shù)據(jù),在醫(yī)技工作站上進行相應處理,剔除部分無用的序列,標記關鍵幀,歸類存儲到信息機房。醫(yī)學影像采用符合國際標準ISO12052的影像通信格式(Digital Imaging and Communications in Medicine,DICOM)。醫(yī)技科室的醫(yī)生在檢查報告系統(tǒng)(Radiology Information System,RIS)書寫檢查結論時,以及臨床醫(yī)生在電子病歷系統(tǒng)(Electronic Medical Record,EMR)中查看檢查報告時,均需要從PACS里調閱相關影像資料[6]。PACS體現(xiàn)了醫(yī)院無紙化膠片的應用水平,其運轉效率直接影響到臨床診斷和后續(xù)治療措施,是保障醫(yī)療質量的基礎[7]。
醫(yī)院PACS始建于2006年,其文件容量至2015年僅有63.77 TB,至2019年底已達到245.83 TB,呈井噴式增長,如圖1和圖2所示。PACS作為大容量數(shù)據(jù)對象的信息系統(tǒng),在性能上承擔著較大的壓力,調閱成為臨床使用者不滿意的矛盾聚焦點,主要體現(xiàn)如下:① 隨著精密設備如264排CT的投入使用,以往單個患者的影像大小約250 MB,現(xiàn)已增長到近800 MB,每次調閱從以前的10~20秒上升到40~60秒,臨床感受度非常差,時有投訴;② 專科醫(yī)院專注于有限的病種,檢查報告的質量要求較高,書寫檢查結論時需對比本次及歷年的影像,由于總容量已超越單臺存儲的上限,歷年圖像存在于近線存儲設備中,應用軟件尋址效率受到架構制約[8];③ 醫(yī)院網(wǎng)絡為萬兆主干、千兆到桌面,重點科室如放射科的PC采用全閃存硬盤,網(wǎng)絡和PC的調整手段已非常有限。因此,信息中心面臨著較大的壓力,應用新技術和成熟穩(wěn)妥的方式提升PACS性能的需求相當迫切。
圖1 2009年—2019年影像文件容量
圖2 2009年—2019年影像文件數(shù)量
圍繞著快速訪問和大容量存儲的目標,PACS分為集中式和分布式兩種存儲模式[9]。集中式存儲以陣列疊加和外部軟件尋址為特征,可靠性較高但橫向擴展不易;分布式存儲是面向多節(jié)點的新興存儲技術,依賴于分布式文件系統(tǒng),數(shù)據(jù)分散在網(wǎng)絡互連的多臺獨立設備[10],每臺設備作為一個節(jié)點,多個節(jié)點構成通信和傳輸?shù)木W(wǎng)絡,集合成為整體從而對外提供存儲服務。分布式文件系統(tǒng)將數(shù)據(jù)管理任務均衡地分布到每個存儲節(jié)點上,達到各司其職和彼此協(xié)同的目的。分布式技術提升了存儲的模塊化橫向擴展能力,具有高并發(fā)訪問和大規(guī)模擴容能力,同時有效降低了升級維護硬件的成本,已成為存儲領域的應用發(fā)展方向[11]。集中式和分布式對比見表1。
表1 集中式和分布式存儲技術對比
續(xù)表1
此前,國內一般采用進口的存儲分布式文件系統(tǒng),主要有Ceph、Hdfs等,兩者均為成熟的開源代碼,具有較好的可維護性和可擴展性,屬于強容錯能力的企業(yè)級對象存儲生態(tài)環(huán)境,研發(fā)人員進行調優(yōu)及外圍功能的擴展[12]。然而,此方式也存在一些局限:① 適合高吞吐量的大文件存儲,對于數(shù)量較大的小文件的讀取優(yōu)勢并不明顯,高并發(fā)和隨機讀取的應用場景較為受限。② 國外的開源代碼具有成本低廉性,但是不可避免存在較高的黑客攻擊概率[13]。健康數(shù)據(jù)作為國家基礎性戰(zhàn)略資源,生物樣本更是信息安全的重點關注內容,若存在安全漏洞,將產(chǎn)生較大的數(shù)據(jù)泄密風險。因此,近些年部分科研機構和存儲廠商,自主研發(fā)國產(chǎn)化專用代碼的分布式文件系統(tǒng),以便更安全、可靠地保護醫(yī)療行業(yè)的數(shù)據(jù)。
由于PACS存儲容量較大,若一次性更換原有集中式存儲,則總成本(Total Cost of Ownership,TCO)十分昂貴,項目推進必須考慮投入產(chǎn)出比。IT項目的價值體現(xiàn)在無形資產(chǎn)的隱性回報,通過提高工作效率和降低勞動成本反映,需要從有效性等方面進行綜合考量[14]。本文使用廣泛應用的動態(tài)投入產(chǎn)出模型,即面臨TCO投入的線性規(guī)劃方案,存在著受擾動的非線性影響(考慮原有未到報廢期資產(chǎn)的保值),數(shù)學模型的目標函數(shù)如下:
S(x)=saAi+sbBi+scCi
(1)
式中:S(x)為產(chǎn)出量;Ai為新增資產(chǎn)的單項投入;Bi為原有資產(chǎn)的單項價值;Ci為消耗后用于擴大再生產(chǎn)的投資;sa、sb、sc分別為單位周期的原有資產(chǎn)、新增資產(chǎn)和剩余資產(chǎn)的價值產(chǎn)出系數(shù);i代表不同的檢查類型,i=1,2,…,n。
為簡單而不失同質化,假定:①S(x)形成的產(chǎn)能滿足PACS需求;② IT項目投入并不直接導致再生產(chǎn),即Ci=0;③ 不同檢查的存儲占比不同,權重值總和等于1。通常2至6個月內影像調閱頻率較高,術后隨訪等后期調閱相對較少。因此,本文使用新投資Ai的命中率來表示整體有效度,函數(shù)表達式為:
(2)
式中:Mi代表周期內新投資的使用數(shù);Ni代表原有投資的使用數(shù);λi代表不同檢查類型的權重。
命中率越大代表了投資的有效性越高,根據(jù)最佳投入產(chǎn)出模型的統(tǒng)計結果[15],當接近0.92時,性價比達到較優(yōu)狀態(tài)。
圖3 2006年—2019年PACS數(shù)據(jù)分布權重
以1個月的檢查調閱情況為基準,將2019年12月的17.71萬次調閱數(shù)據(jù)導入計算集,迭代分析命中率,結果如圖4所示。根據(jù)評估計算結果顯示,S(x)的首次投資最佳期為10個月,參考2019年的數(shù)據(jù)量,約為50 TB。
圖4 投入評估的迭代計算
基于項目投資建設評估,在保留原有350 TB集中式存儲的基礎上,醫(yī)院于2020年3月投入使用50 TB的碧海分布式存儲,放置在安全隔離區(qū)(Demilitarized Zone,DMZ)。該存儲的文件系統(tǒng)并不基于開源軟件,由上海交通大學背景的團隊自主研發(fā),具有完全的獨立知識產(chǎn)權,可在線擴展到1 024個節(jié)點。PACS整體架構如圖5所示。影像的上傳下載采用文件傳輸協(xié)議(File Transfer Protocol,FTP),在部分場景支持優(yōu)化定制的開發(fā)工具包(Software Development Kit,SDK)。檢查儀器采集的影像數(shù)據(jù),以FTP方式上傳至分布式存儲。檢查報告工作站和臨床醫(yī)生工作站調閱時,先從DMZ的RIS、EMR數(shù)據(jù)庫讀取患者資料、檢查結論等結構化數(shù)據(jù)項,然后發(fā)出影像下載請求。DICOM網(wǎng)關內置統(tǒng)一的影像尋址排序規(guī)則,先至分布式存儲下載,若找不到再被分配至集中式存儲下載。面向互聯(lián)網(wǎng)業(yè)務的微信掌上醫(yī)院等移動應用通過網(wǎng)閘、防火墻設備,以SDK接口獲取并實時生成云膠片。管理后臺設有定時任務,當分布式存儲使用量即將到達上限時,計劃任務會自動將影像以多線程流媒體方式轉儲到集中式存儲。
圖5 PACS系統(tǒng)的分布式存儲架構
選取2020年1月原有集中式存儲的影像交互情況作為對照組,2020年3月應用分布式存儲架構的影像交互情況作為觀察組。提取DICOM網(wǎng)關記錄的客戶端請求日志,交互速度=請求完成時間-請求開始時間。納入及排除標準:① 納入調用IP為醫(yī)生工作站的記錄;② 排除返回狀態(tài)為失敗的錯誤記錄;③ 排除請求起始間隔大于600 s的異常記錄。兩組樣本在交互例數(shù)、文件個數(shù)、文件容量、網(wǎng)絡基礎等方面的差異均無統(tǒng)計學意義,具有可比性,如表2所示。
表2 樣本數(shù)據(jù)統(tǒng)計
主要觀測兩方面指標:平均上傳時間(UP)和平均下載時間(DN),下標1、2分別表示對照組和觀察組。使用SPSS 23.0 軟件進行統(tǒng)計分析,分步式存儲應用后的效果見表3。
表3 應用后效果對比
由數(shù)據(jù)分析可以得出:① 上傳速度無顯著差異(P值大于0.05),表明分布式存儲并不會導致歸檔加速或延遲;② 下載速度有著顯著差異,分布式存儲有著明顯的優(yōu)勢,單次下載包含的文件多且容量大的CT、MR、PET最為顯著(P值小于0.001),提升速度106%至179%之間,包含文件不多但文件容量較大的DR、DSA則較為顯著(P值小于0.05),提升20%左右;③ 對于文件個數(shù)和容量均不大的彩超,無論是上傳還是下載,分布式與集中式存儲的差異并不明顯(P值大于0.05)。需要指出的是,由于檢查影像歸檔為后臺自動進程的異步上傳,使用者并不會體驗到上傳速度的變化,而單次調閱的下載速度,則直接影響到使用者的感受度。由此可見,分布式存儲的應用對于臨床帶來了明顯優(yōu)化的使用效果。
隨著醫(yī)療儀器精密度的提高和檢查覆蓋范圍的變寬,??漆t(yī)院普遍面臨著PACS影像容量急速增長的現(xiàn)象。分布式存儲在多并發(fā)情況下的高吞吐特性,可以更好地解決資源利用率低、調閱速度緩慢等問題。本文通過醫(yī)院PACS存儲的建設情況,進行了投入的規(guī)劃評估,對比了實施前后的影像上傳及下載速度;依托于高效穩(wěn)定的分布式存儲,顯著加快了臨床檢查影像的調閱速度,提高了醫(yī)生的工作效率。在后續(xù)工作中,醫(yī)院將逐步增加分布式存儲容量,以滿足日益增多的電子膠片調閱需求。隨著互聯(lián)網(wǎng)醫(yī)院的建設,新興信息技術和醫(yī)療業(yè)務應用的充分融合,已成為醫(yī)院信息化重點發(fā)展的方向。