張永婷,王換換,趙辰陽
(徐州醫(yī)科大學 醫(yī)學信息與工程學院,江蘇 徐州 221000)
隨著就醫(yī)人數(shù)及病患信息地不斷增加,醫(yī)院信息統(tǒng)計工作變得尤為重要。雖然互聯(lián)網(wǎng)技術(shù)的快速發(fā)展為現(xiàn)有病患信息統(tǒng)計系統(tǒng)的開發(fā)及病患信息統(tǒng)計工作提供了一定程度的技術(shù)支持,但目前的病患信息統(tǒng)計系統(tǒng)所包含的模塊功能相對單一,操作步驟也較為繁瑣,出現(xiàn)了病患信息遲交、病患情況分析不深入及病案信息共享延遲等問題[1-3]。針對上述問題,本文從門診掛號統(tǒng)計、病案統(tǒng)計、出入轉(zhuǎn)統(tǒng)計三個方面展開,設計了一種基于差分隱私保護技術(shù)的醫(yī)院信息統(tǒng)計系統(tǒng),該系統(tǒng)統(tǒng)計了病患入院掛號、治療及出院過程中所產(chǎn)生的數(shù)據(jù)信息,同時技術(shù)人員利用差分隱私保護技術(shù)[4],對傳入系統(tǒng)的數(shù)據(jù)進行加噪處理,有效提高了病患信息存儲及管理工作的效率,實現(xiàn)了對病患信息的實時統(tǒng)計及隱私保護功能。
醫(yī)院信息系統(tǒng)(Hospital Information System,HIS)是指利用計算機及電子通信設備,為醫(yī)院提供病患信息收集、存儲、處理等功能的系統(tǒng)[5]。該系統(tǒng)對醫(yī)院各科室進行了整合,能夠保證各科室間的信息共享,提高醫(yī)務人員的工作效率及醫(yī)院的管理水平。
差分隱私(Differential Privacy)這一概念最早于2006 年由微軟的C.Dwork 團隊提出,技術(shù)人員根據(jù)數(shù)據(jù)類型選擇拉普拉斯機制(Laplace mechanism)、指數(shù)機制(Exponential mechanism)及高斯機制(Gaussian mechanism)中的一種對數(shù)據(jù)進行加噪處理,實現(xiàn)保護數(shù)據(jù)隱私的目的。相對于同態(tài)加密(Homomorphic encryption)及零知識證明(Zero-knowledge proof)而言,差分隱私保護能夠抵御任何背景知識下的攻擊,是一種嚴格數(shù)學意義上定義的隱私保護框架,具有更重要的理論研究意義。
現(xiàn)有的醫(yī)療信息統(tǒng)計系統(tǒng)主要是病案統(tǒng)計系統(tǒng),而將掛號信息統(tǒng)計模塊、病案信息統(tǒng)計模塊及出入轉(zhuǎn)信息統(tǒng)計模塊整合的系統(tǒng)很少。雖然現(xiàn)有的病案信息統(tǒng)計系統(tǒng)版本多樣,但接近半數(shù)醫(yī)院因系統(tǒng)開發(fā)商技術(shù)薄弱或索價過高,導致系統(tǒng)版本無法更新,無法適應醫(yī)療信息快速增長的時代,同時多數(shù)病案統(tǒng)計系統(tǒng)仍存在信息查詢困難、存儲空間小、數(shù)據(jù)共享性差、安全性低等問題。針對以上問題,該模塊在建立查詢索引時將保存索引頁中的鍵值及指向其他索引的指針或數(shù)據(jù)頁,保證查詢速度及系統(tǒng)信息反饋速度[6];同時建立多個與醫(yī)學信息系統(tǒng)(HIS)相連的接口,在統(tǒng)計完相應模塊的數(shù)據(jù)信息后及時上傳醫(yī)學信息系統(tǒng),以此解決存儲空間小及數(shù)據(jù)共享性差的問題。病患信息上傳及共享流程圖見圖1。
圖1 病患信息上傳及共享流程圖
最后采用差分隱私保護技術(shù)(Differential Privacy)對上傳到醫(yī)學信息系統(tǒng)中的數(shù)據(jù)進行加噪處理。考慮到所統(tǒng)計的數(shù)據(jù)類型為離散型數(shù)據(jù),所以采用指數(shù)機制進行加噪處理。
設有任意函數(shù)f,敏感度Δf 的定義為:Δf=maxD,D′||f(D)-f(D′)||1,其中D 與D′是鄰近數(shù)據(jù)集,|| ||1是向量的L1 范式。在不同案例中Δf 往往是可以求出來的,此處僅需設定一個ε 表示隱私Δf=maxD,D′||f(D)-f(D′)||1保護預算即可,ε 值的大小與隱私保護水平成反比,ε=0 時,隱私保護水平最高,但加噪后的數(shù)據(jù)不能反映出數(shù)據(jù)集D 的任何特征,因此需要設定一個適當?shù)摩?值才能做到既保護了隱私安全,又使數(shù)據(jù)具有研究價值。
設隨機算法A 的輸入是數(shù)據(jù)集D,輸出結(jié)果為r∈Range,q(D,r)->R 為可用性函數(shù),其中Δq 為可用性函數(shù)的敏感度,當算法A 以正比于exp(εq(D,r)/2Δq)的概率從Range 中選擇并輸出r 時,那么算法A 提供ε-差分隱私保護。在離散型數(shù)據(jù)中,f(D)-f(D′)結(jié)果多為1,因此Δq 默認取值為1,概率密度函數(shù)為:
此處選擇某醫(yī)院一周內(nèi)所產(chǎn)生的各類掛號量總和作為示例進行加噪處理,數(shù)據(jù)加噪前后對比如圖2 所示。
圖2 醫(yī)院掛號信息加噪圖
掛號信息是眾多醫(yī)療信息中的一種,統(tǒng)計室系統(tǒng)中的掛號統(tǒng)計模塊從科室掛號工作量、醫(yī)生掛號工作量以及掛號預約報表三個方面進行統(tǒng)計,幫助統(tǒng)計科室及時準確地掌握產(chǎn)生的掛號信息。
病案作為醫(yī)療信息的一種主要載體,相對于掛號統(tǒng)計模塊及出入轉(zhuǎn)統(tǒng)計模塊而言更加重要。病案信息統(tǒng)計工作不僅是整個醫(yī)院正常運行的關(guān)鍵,還是醫(yī)院開展各項工作、執(zhí)行各種計劃的重要依據(jù)。本文設計的病案統(tǒng)計模塊主要對疾病分類(合計)、疾病分類(女)、疾病分類(男)、住院醫(yī)生工作量、30 個病種出院情況、科室出院情況、切口情況分級、手術(shù)情況分級、住院病人費用、病房工作量輔助報表、醫(yī)院工作量動態(tài)報表、損傷中毒轉(zhuǎn)歸情況及前100 位[ICD-10]順位等方面產(chǎn)生的數(shù)據(jù)信息進行統(tǒng)計,并在技術(shù)人員對原始數(shù)據(jù)進行加噪處理后,上傳到醫(yī)療信息系統(tǒng),各科室醫(yī)生可通過分析訪問系統(tǒng)后臺數(shù)據(jù)庫得來的病案信息制定相應的計劃,并根據(jù)實際情況轉(zhuǎn)移工作重點,達到更加快速、準確、有效地治療病人及解決醫(yī)院問題的目的。
出入轉(zhuǎn)信息統(tǒng)計是醫(yī)院信息統(tǒng)計工作中的重要一環(huán),主要從病區(qū)(科室)床位維護、病區(qū)(科室)出入院、病區(qū)(科室)出入院統(tǒng)計明細及出入院數(shù)據(jù)修正幾個方面進行統(tǒng)計,幫助醫(yī)護人員及時有效掌握病人出入院信息以及病床位信息,為快速準確地分配醫(yī)療資源創(chuàng)造了良好的條件。
醫(yī)院每日產(chǎn)生海量數(shù)據(jù)信息,做好醫(yī)療信息的存儲及管理工作是醫(yī)院正常運行和執(zhí)行各項計劃的基礎。國內(nèi)醫(yī)療行業(yè)現(xiàn)有的醫(yī)療信息統(tǒng)計系統(tǒng)普遍存在功能模塊單一、操作步驟繁瑣、版本更新?lián)Q代慢等問題,很難滿足醫(yī)院的實際需求。本文設計的基于差分隱私保護技術(shù)的醫(yī)院信息統(tǒng)計系統(tǒng)能夠?qū)崿F(xiàn)對各類掛號信息、病案中的疾病分類信息、手術(shù)情況信息及出入院信息的統(tǒng)計,并在統(tǒng)計室系統(tǒng)統(tǒng)計完各項信息后,使用指數(shù)機制對要上傳到醫(yī)學信息系統(tǒng)中的數(shù)據(jù)進行加噪處理,確保醫(yī)學數(shù)據(jù)信息的安全性。同時系統(tǒng)中的數(shù)據(jù)具有共享性,各科室醫(yī)生可通過訪問并分析已有數(shù)據(jù),科學地制定工作計劃,醫(yī)院可根據(jù)實際情況適當轉(zhuǎn)移工作重點,以確保病人入院治療流程的合理順暢。此外,統(tǒng)計室系統(tǒng)所統(tǒng)計的數(shù)據(jù)信息量過大,技術(shù)人員在對其進行加噪處理的過程中需要耗費較多時間,導致數(shù)據(jù)信息共享到醫(yī)學信息系統(tǒng)的時間延長,后期研究將針對因數(shù)據(jù)量大導致加噪處理時間長的不足進行改善,使整個系統(tǒng)具備更完善的統(tǒng)計和信息共享功能。