肖忠良 李默軒 李晶
摘 要:在國(guó)家政策的引導(dǎo)下和人民健康訴求的促進(jìn)下,以健康醫(yī)療大數(shù)據(jù)為基礎(chǔ)的產(chǎn)業(yè)鏈將迎來巨大的發(fā)展空間和機(jī)遇,但如影隨形的安全問題,同樣也是健康醫(yī)療大數(shù)據(jù)發(fā)展過程中的一個(gè)重要制約因素。文章分析了醫(yī)療大數(shù)據(jù)的特性,提出了分級(jí)分類安全管理模型,并從數(shù)據(jù)的存儲(chǔ)、訪問控制及數(shù)據(jù)的管理方面探討了健康醫(yī)療大數(shù)據(jù)面臨的風(fēng)險(xiǎn)及應(yīng)對(duì)策略。
關(guān)鍵詞:健康醫(yī)療大數(shù)據(jù);分級(jí)分類;存儲(chǔ)安全;訪問控制;數(shù)據(jù)管理
隨著健康醫(yī)療大數(shù)據(jù)的匯聚,以及數(shù)據(jù)挖掘、數(shù)據(jù)分析、人工智能等技術(shù)的不斷革新,利用大數(shù)據(jù)進(jìn)行分析、預(yù)測(cè)、科研的場(chǎng)景會(huì)越來越多[1]。大數(shù)據(jù)將為醫(yī)療相關(guān)行業(yè)的診療和決策提供重要的輔助依據(jù),決策的方式也會(huì)從之前的“經(jīng)驗(yàn)即決策”,到現(xiàn)在的“數(shù)據(jù)輔助決策”,至將來的“數(shù)據(jù)即決策”[2]。盡管醫(yī)療大數(shù)據(jù)可以產(chǎn)生許多有用的信息和價(jià)值,但其作為醫(yī)療領(lǐng)域產(chǎn)生的數(shù)據(jù)具有數(shù)據(jù)量大、敏感性高等特點(diǎn),要實(shí)現(xiàn)醫(yī)療大數(shù)據(jù)的融合共享,首先要警惕數(shù)據(jù)安全,因此,保證健康醫(yī)療大數(shù)據(jù)的安全是醫(yī)療行業(yè)開展大數(shù)據(jù)技術(shù)的重要前提[3]。本文提出了分級(jí)分類安全管理模型,并從存儲(chǔ)、訪問和管理3方面探討健康醫(yī)療大數(shù)據(jù)存在的安全隱患及對(duì)應(yīng)的策略。
1 健康醫(yī)療大數(shù)據(jù)的特性
不同于一般行業(yè)的數(shù)據(jù),醫(yī)療數(shù)據(jù)具有其特殊的敏感性和重要性。醫(yī)療數(shù)據(jù)的來源和范圍也非常廣泛和多樣,涵蓋醫(yī)院診療、醫(yī)療保險(xiǎn)、醫(yī)學(xué)實(shí)驗(yàn)、科研數(shù)據(jù)等[4]。這些數(shù)據(jù)不僅關(guān)系到數(shù)據(jù)主體的隱私、行業(yè)發(fā)展,甚至關(guān)系到國(guó)家安全。比如,2016年艾滋病感染者個(gè)人信息遭泄露的事件,讓詐騙集團(tuán)有機(jī)可乘,并引起了世界衛(wèi)生組織駐華代表處和聯(lián)合國(guó)艾滋病聯(lián)合規(guī)劃署駐華代表處的關(guān)注。
隨著信息化的普及和醫(yī)療數(shù)據(jù)的逐步集中,企業(yè)、研究機(jī)構(gòu)及公眾對(duì)數(shù)據(jù)訪問的需求將變得迫切,如果不提升安全防護(hù)水平,大規(guī)模數(shù)據(jù)泄露的風(fēng)險(xiǎn)將會(huì)增加[5]。警惕數(shù)據(jù)安全,保護(hù)患者隱私,才能真正實(shí)現(xiàn)數(shù)據(jù)融合共享、開放應(yīng)用。
2 健康醫(yī)療大數(shù)據(jù)面臨的挑戰(zhàn)及應(yīng)對(duì)策略
醫(yī)療行業(yè)是數(shù)據(jù)密集型行業(yè),IDC Digital預(yù)測(cè)截至2020年,醫(yī)療數(shù)據(jù)量將達(dá)到40萬億GB。由于健康和醫(yī)療數(shù)據(jù)的高度敏感性,對(duì)其進(jìn)行集中存儲(chǔ)和管理后,一方面會(huì)引起惡意人員的高度關(guān)注,另一方面,一旦發(fā)生數(shù)據(jù)泄露其影響面非常廣,對(duì)于健康醫(yī)療大數(shù)據(jù)的安全和個(gè)人相關(guān)的隱私保護(hù),必須予以高度重視。基于數(shù)據(jù)的存儲(chǔ)、訪問和管理方面,提出了3層的分級(jí)分類安全管理模型,如圖1所示。
2.1 數(shù)據(jù)存儲(chǔ)
數(shù)據(jù)存儲(chǔ)是否安全高效,關(guān)乎隱私性、醫(yī)療相關(guān)業(yè)務(wù)的連續(xù)性、醫(yī)療大數(shù)據(jù)的應(yīng)用價(jià)值,系統(tǒng)一旦出現(xiàn)故障,首先考驗(yàn)的是數(shù)據(jù)的存儲(chǔ)和恢復(fù)能力。為避免數(shù)據(jù)丟失問題,需對(duì)數(shù)據(jù)進(jìn)行定期備份,并定期進(jìn)行數(shù)據(jù)恢復(fù)驗(yàn)證測(cè)試,確保備份數(shù)據(jù)的可恢復(fù)性。
在網(wǎng)絡(luò)架構(gòu)方面,依據(jù)醫(yī)療大數(shù)據(jù)的特點(diǎn),提出分級(jí)分類存儲(chǔ)解決方案,根據(jù)數(shù)據(jù)的時(shí)效性、訪問頻率、容量、性能等指標(biāo),將數(shù)據(jù)進(jìn)行分級(jí)管理,采取不同的存儲(chǔ)方式分別存儲(chǔ)在不同性能的存儲(chǔ)設(shè)備上,以獲得更好的性價(jià)比。根據(jù)數(shù)據(jù)的隱私性為數(shù)據(jù)設(shè)置不同的安全標(biāo)識(shí),進(jìn)行安全分類,為下一步訪問控制策略提供控制依據(jù)。此外,通過相關(guān)加密算法和密鑰對(duì)數(shù)據(jù)進(jìn)行加密存儲(chǔ),可以從數(shù)據(jù)源層面保護(hù)敏感信息不被泄露。
2.2 數(shù)據(jù)訪問
由于醫(yī)療健康大數(shù)據(jù)的特殊性,將多個(gè)數(shù)據(jù)池中的數(shù)據(jù)進(jìn)行組合時(shí),隱私風(fēng)險(xiǎn)也將成倍增加,這是由于人們很難從單條數(shù)據(jù)中推斷出用戶的身份,但是當(dāng)對(duì)多條數(shù)據(jù)進(jìn)行組合分析時(shí),推斷出用戶身份特征的概率將大大增加,進(jìn)一步可能根據(jù)獲得的信息對(duì)患者進(jìn)行預(yù)測(cè)和預(yù)判,危害無可估量。
醫(yī)療大數(shù)據(jù)匯集后,需要相對(duì)開放的共享給內(nèi)部不同團(tuán)隊(duì)或外部機(jī)構(gòu)使用,才能發(fā)揮大數(shù)據(jù)的價(jià)值。在訪問過程中存在兩種威脅:一是在信息使用傳遞過程中發(fā)生的泄露,可能包括科學(xué)研究的過程,區(qū)域性平臺(tái)數(shù)據(jù)交互等;二是基于健康醫(yī)療信息的敏感性,對(duì)訪問者的訪問權(quán)限控制和對(duì)醫(yī)療信息的隱私保護(hù)。
在傳輸過程中的加密依賴于網(wǎng)絡(luò)安全協(xié)議。收集到的海量數(shù)據(jù)供個(gè)人、企業(yè)或有關(guān)機(jī)構(gòu)訪問時(shí),首先通過對(duì)稱加密的方式加密傳輸?shù)臄?shù)據(jù),然后使用非對(duì)稱加密的方式傳遞對(duì)稱加密所使用的密鑰,這樣既能保證數(shù)據(jù)傳輸?shù)男?,也能保證數(shù)據(jù)的安全。
引入Kerberos網(wǎng)絡(luò)認(rèn)證協(xié)議進(jìn)行身份認(rèn)證,可有效保證用戶身份的可靠性以及數(shù)據(jù)源的不可否認(rèn)性,用戶通過身份認(rèn)證后可獲得訪問大數(shù)據(jù)平臺(tái)的資格。然后以分級(jí)分類存儲(chǔ)的數(shù)據(jù)為基礎(chǔ),通過一個(gè)多元組對(duì)ABAC(Attribute Based Access Control)訪問控制機(jī)制的屬性進(jìn)行描述,包含用戶的實(shí)體屬性,如年齡、姓名等;數(shù)據(jù)安全屬性,如病歷文檔、B超圖片、CT影像等數(shù)據(jù)的安全標(biāo)識(shí);操作權(quán)限屬性,如對(duì)數(shù)據(jù)的讀、寫、刪除等;環(huán)境屬性,如用戶訪問的時(shí)間,網(wǎng)絡(luò)位置等,通過定義完備的屬性—權(quán)限之間的對(duì)應(yīng)關(guān)系,制定細(xì)粒度的訪問限制規(guī)則,可控制到被訪問對(duì)象的字段級(jí)別,通過Kerberos身份認(rèn)證和ABAC訪問控制來管理不同用戶對(duì)不同資源的訪問許可。
2.3 數(shù)據(jù)管理
要保證醫(yī)療大數(shù)據(jù)的安全,必須做好數(shù)據(jù)的管理工作,一是根據(jù)數(shù)據(jù)的敏感性、關(guān)聯(lián)風(fēng)險(xiǎn)和業(yè)務(wù)要求等對(duì)數(shù)據(jù)進(jìn)行分類分級(jí)管理,如姓名、證件號(hào)、聯(lián)系方式等信息應(yīng)進(jìn)行嚴(yán)格的管控和保護(hù),而對(duì)于診療過程數(shù)據(jù)、病歷信息等健康醫(yī)療數(shù)據(jù),則可以在做好訪問控制的前提下供授權(quán)者訪問。二是從大數(shù)據(jù)特性層面對(duì)數(shù)據(jù)進(jìn)行標(biāo)記(例如數(shù)據(jù)源、數(shù)據(jù)類型、訪問頻率、訪問角色、處理方式等維度),了解數(shù)據(jù)流的流向、使用方式、使用對(duì)象等,這些有助于數(shù)據(jù)發(fā)現(xiàn)的管理,并為數(shù)據(jù)訪問控制策略提供依據(jù)。此外,掌握敏感數(shù)據(jù)在大數(shù)據(jù)平臺(tái)中分布情況,并監(jiān)控其使用情況,適時(shí)地調(diào)整訪問策略,是能否做到全面保護(hù)數(shù)據(jù)安全的關(guān)鍵。
雖然通過數(shù)據(jù)保護(hù)、身份認(rèn)證、授權(quán)及訪問控制等各種方式可以一定程度保證健康醫(yī)療大數(shù)據(jù)平臺(tái)的安全。但大數(shù)據(jù)平臺(tái)仍然有可能會(huì)受到非法訪問和特權(quán)用戶的訪問,因此,我們需要根據(jù)預(yù)先定義的規(guī)則對(duì)大數(shù)據(jù)平臺(tái)的一切活動(dòng)進(jìn)行審計(jì)和監(jiān)控并生成告警信息,對(duì)其中的可疑活動(dòng)進(jìn)行記錄,分析和生成各種安全報(bào)告。如用戶登錄和身份驗(yàn)證事件、授權(quán)錯(cuò)誤、敏感數(shù)據(jù)操作等異常事件。只有全面收集在大數(shù)據(jù)平臺(tái)中的一切活動(dòng),才有機(jī)會(huì)捕捉可能會(huì)發(fā)生的安全事故及進(jìn)行事后分析時(shí)有機(jī)會(huì)進(jìn)行回溯分析,追蹤事故根源。
3 結(jié)語(yǔ)
綜上所述,隨著醫(yī)療數(shù)據(jù)的匯聚和健康產(chǎn)業(yè)的發(fā)展,醫(yī)療大數(shù)據(jù)可以產(chǎn)生許多有用的信息和價(jià)值,但其高度的隱私性和敏感性,使得數(shù)據(jù)的安全問題日益突出,一旦準(zhǔn)備和配套不足,很有可能引發(fā)全局性安全風(fēng)險(xiǎn),影響健康醫(yī)療大數(shù)據(jù)整體產(chǎn)業(yè)布局和發(fā)展。如何更好地保護(hù)敏感信息及病人隱私,成為實(shí)現(xiàn)數(shù)據(jù)融合共享、開放應(yīng)用的一大難題。本文分析了健康醫(yī)療大數(shù)據(jù)應(yīng)用中可能存在的風(fēng)險(xiǎn),建立基于數(shù)據(jù)分級(jí)分類的安全管理模型,從數(shù)據(jù)存儲(chǔ)、訪問控制和數(shù)據(jù)管理方面提出了相關(guān)的安全策略。
[參考文獻(xiàn)]
[1]李昊,張敏,馮登國(guó),等.大數(shù)據(jù)訪問控制研究[J].計(jì)算機(jī)學(xué)報(bào),2017(1):72-91.
[2]王藝,任淑霞.醫(yī)療大數(shù)據(jù)可視化研究綜述[J].計(jì)算機(jī)科學(xué)與探索,2017(5):681-699.
[3]許培海,黃匡時(shí).我國(guó)健康醫(yī)療大數(shù)據(jù)的現(xiàn)狀、問題及對(duì)策[J].中國(guó)數(shù)字醫(yī)學(xué),2017(5):24-26.
[4]馬詩(shī)詩(shī),于廣軍,崔文彬.區(qū)域衛(wèi)生信息化環(huán)境下健康醫(yī)療大數(shù)據(jù)共享應(yīng)用思考與建議[J].中國(guó)數(shù)字醫(yī)學(xué),2018(4):11-13,25.
[5]代濤.健康醫(yī)療大數(shù)據(jù)發(fā)展應(yīng)用的思考[J].醫(yī)學(xué)信息學(xué)雜志,2016(2):2-8.