346
生物醫(yī)療大數(shù)據(jù)是現(xiàn)代生物醫(yī)療研究的重要基礎(chǔ)性資源。在生物醫(yī)學信息學研究過程中,可利用生物醫(yī)療數(shù)據(jù)越來越多,如電子病歷數(shù)據(jù)、基因數(shù)據(jù)、圖像數(shù)據(jù)等。生物醫(yī)療大數(shù)據(jù)的種類多、體量大(如個人全基因組測序在幾百GB)、數(shù)據(jù)頻率高(如實時的移動醫(yī)療數(shù)據(jù)),包含大量的個人敏感信息。隨著生物醫(yī)療數(shù)據(jù)的重要性越來越被認可,其數(shù)據(jù)本身的一些特性(數(shù)據(jù)隱私和安全)也為隨之而來的廣泛醫(yī)療數(shù)據(jù)應用帶來了一定的挑戰(zhàn)。生物醫(yī)療數(shù)據(jù)包含大量敏感的個人信息,如何合理保護這些敏感信息,規(guī)避不必要的隱私泄露風險已成為廣泛推行生物醫(yī)療數(shù)據(jù)分享和聯(lián)合分析及多元醫(yī)療數(shù)據(jù)融合中的關(guān)鍵問題。
隨著大數(shù)據(jù)挖掘和人工智能在生物醫(yī)療領(lǐng)域的不斷滲透和發(fā)展,以及生物醫(yī)療科學研究的不斷深入,生物醫(yī)療數(shù)據(jù)分享和分析的需求日益增強,隨之衍生而來的醫(yī)療數(shù)據(jù)隱私和安全問題也就更加突出。其中最大的挑戰(zhàn)之一是生物醫(yī)療數(shù)據(jù)使用過程中涉及個人敏感信息的泄露風險和保護的問題。例如通過比較男性的Y染色體和公開的基因族譜數(shù)據(jù)庫恢復個體的姓氏[1],通過幾十個統(tǒng)計學上獨立的基因位點(SNPs)就可以很大程度上唯一確定一個個體[2],以及通過基因數(shù)據(jù)預測個體的體征信息(如聲音、眼鏡、膚色、身高、體重和年齡等)[3]。另外,基于生物醫(yī)療數(shù)據(jù)的各項科學研究通常需要大量樣本,單一機構(gòu)的數(shù)據(jù)量很難滿足這樣的需求(特別是在罕見病的研究中)。然而跨機構(gòu)的醫(yī)療數(shù)據(jù)共享面臨很多挑戰(zhàn),不同機構(gòu)所在的不同國家和地區(qū)可能有不同的隱私保護法律法規(guī)。此外,直接分享個人隱私數(shù)據(jù)可能造成數(shù)據(jù)的濫用和隱私的泄露。這使得各機構(gòu)并不能夠有效地在多中心合作的模式下直接和第三方分享自身數(shù)據(jù),造成醫(yī)療數(shù)據(jù)孤島問題,影響醫(yī)療研究合作的開展。
醫(yī)療數(shù)據(jù)隱私保護是指在醫(yī)療數(shù)據(jù)收集、儲存、傳播和使用過程中對數(shù)據(jù)主體敏感信息的保護。醫(yī)療數(shù)據(jù)隱私相關(guān)的研究涉及到公眾對個人隱私保護的需求和圍繞其間的法律、政策、技術(shù)等多方面的問題[4]。數(shù)據(jù)隱私的保護重點在于使用數(shù)據(jù)的過程中對患者可識別信息和隱私偏好的保護[5-6]。
目前針對生物醫(yī)療數(shù)據(jù)中個人信息隱私保護的應對策略主要分為立法規(guī)范和政策引導、對隱私保護技術(shù)的開發(fā)和應用兩種。世界上主要的國家和地區(qū)(中國、美國及歐盟等)一方面加強醫(yī)療數(shù)據(jù)隱私保護方面相關(guān)的法律建設和政策規(guī)范,另一方面也在積極鼓勵隱私保護技術(shù)的創(chuàng)新和應用。法律法規(guī)的建立為技術(shù)的發(fā)展劃定了具體的標準和方向,同時技術(shù)的不斷發(fā)展和創(chuàng)新也引導了法律法規(guī)的進一步完善。兩者相輔相成,缺一不可,是針對生物醫(yī)療數(shù)據(jù)隱私保護中各種問題的主要應對策略。
近年來,全球很多國家和組織均對個人數(shù)據(jù)的隱私保護問題進行了專項立法(表1)。
各國通過立法強調(diào)了對個人敏感信息,尤其是在采集、傳播和研究生物醫(yī)療數(shù)據(jù)過程中的隱私保護,并為管理個人信息的機構(gòu)(如醫(yī)院、保險公司、大數(shù)據(jù)公司、運營商等)的數(shù)據(jù)運營建立了法律規(guī)范。
表1 全球部分地區(qū)對數(shù)據(jù)隱私保護的法律法規(guī)概述
針對大數(shù)據(jù)潮流下數(shù)據(jù)安全共享和隱私保護的巨大市場需求,多種多樣的隱私保護技術(shù)應運而生。隱私保護技術(shù)泛指一類保護數(shù)據(jù)隱私的數(shù)據(jù)處理和計算技術(shù)[16]。目前主流研究方向和技術(shù)包括但不限于數(shù)據(jù)脫敏/消隱[8]、同態(tài)加密[17]、安全多方計算[18]、置信計算環(huán)境以及聯(lián)盟計算[19-21]等。
電子病歷數(shù)據(jù)是生物醫(yī)療數(shù)據(jù)中最重要的組成部分,各種生物醫(yī)療研究中使用的電子病歷數(shù)據(jù)中包含著大量的個人敏感信息。因此,電子病歷匿名化(數(shù)據(jù)脫敏)是一種非常重要的隱私保護手段。數(shù)據(jù)脫敏中比較常用的標準是美國《醫(yī)療電子交換法案》(HIPAA)中提到的安全港(Safe Harbor)方法, 它規(guī)定了醫(yī)療數(shù)據(jù)在脫敏后需要剔除的18種可能用來識別個人的標識符,用來指導數(shù)據(jù)脫敏標準的實施。通過HIPAA安全港方法對數(shù)據(jù)進行脫敏后,提供方可在HIPAA管轄的范圍內(nèi)免責與第三方進行數(shù)據(jù)的分享。然而研究表明[22-24],傳統(tǒng)的數(shù)據(jù)脫敏方法并不完美,即便是通過HIPAA安全港方式脫敏的數(shù)據(jù)依然存在泄露個人信息的風險,如之前的研究發(fā)現(xiàn)大概每15 000人中就有2個人可以在HIPAA安全港方式脫敏后的數(shù)據(jù)中被識別出來[23]。此外,HIPAA 并沒有明確規(guī)定基因數(shù)據(jù)如何實現(xiàn)數(shù)據(jù)脫敏,所以基因數(shù)據(jù)脫敏的法律法規(guī)是滯后的。
除了上述的數(shù)據(jù)脫敏方法外,數(shù)據(jù)消隱也是另一種被廣泛采用的數(shù)據(jù)隱私保護技術(shù),如很多早期方法包括但不限于K-匿名[25]、L-多樣性[26]以及T-親密度[27]等。近來,差分隱私作為一種更為流行的數(shù)據(jù)消隱技術(shù),被醫(yī)療領(lǐng)域廣泛采用,其優(yōu)勢在于不需假定特定攻擊者的背景知識并在數(shù)學上量化了隱私泄露的風險。差分隱私的數(shù)學定義如下[28]:
若隨機算法K對于任何一個輸出集合S和任意臨近集合D1,D2總有:
Pr[K(D1)∈S]≤exp(?)·Pr[K(D2)∈S]
則稱K滿足?差分隱私,其中Pr[] 表示概率,?為隱私預算,臨近集合指只相差一條記錄的一對數(shù)據(jù)集合。
實現(xiàn)差分隱私的數(shù)據(jù)分享,主要通過在計算過程或計算結(jié)果上加入不同類型的噪音,如拉普拉斯機制和指數(shù)機制是兩種常用的實現(xiàn)差分隱私方法[29]。大量生物醫(yī)療數(shù)據(jù)分析研究都使用差分隱私技術(shù)進行數(shù)據(jù)保護,如Johnson和Shmatikov發(fā)明了一種基于差分隱私的基因數(shù)據(jù)卡方檢驗算法[30],將差分隱私技術(shù)應用到了全基因組關(guān)聯(lián)分析等研究中[31]。
同態(tài)加密后的密文支持在加密后的數(shù)據(jù)上直接進行加密的運算得到相應的加密結(jié)果,其解密的結(jié)果和對明文數(shù)據(jù)進行同樣運算的結(jié)果一致。2009年一項研究從數(shù)學上證明了全同態(tài)加密的可行性[32]。通過同態(tài)加密,用戶可將敏感數(shù)據(jù)加密后發(fā)布到不被信任的第三方(如公有云計算中心),進行加密數(shù)據(jù)下的加密計算而不泄漏明文信息給第三方。同態(tài)加密分為3種:全同態(tài)加密(Fully homomorphic encryption),支持密文上任意次數(shù)的加法和乘法運算操作;部分同態(tài)加密(Partial homomorphic encryption),僅支持密文上加法或乘法運算中的一種;類同態(tài)加密(Somewhat homomorphic encryption),支持有限次數(shù)密文上的乘法計算[33]。
基因數(shù)據(jù)分析研究中大量應用了同態(tài)加密技術(shù),如對罕見病的研究[17]、一般基因數(shù)據(jù)分析[34-36]以及全基因組關(guān)聯(lián)分析等[37]。
安全多方計算(Secure Multiparty Computation)最初是由圖靈獎獲得者姚期智院士提出的,其主要目的是在保護各方數(shù)據(jù)隱私安全的前提下實現(xiàn)多中心數(shù)據(jù)和計算上的合作。根據(jù)計算參與方的數(shù)量不同,MPC分為安全兩方計算和安全多方計算,分別為混淆電路[38]、秘密分享[39]。MPC技術(shù)在生物醫(yī)療數(shù)據(jù)研究中被大量應用,應用中不依賴可信任的第三方,但其缺點在于節(jié)點之間的通信量很大,如多機構(gòu)醫(yī)療數(shù)據(jù)記錄匹配算法[40-41]以及全基因組關(guān)聯(lián)分析算法[42]等。
置信計算環(huán)境是指在計算芯片上的一塊被隔離的安全計算區(qū)域。該區(qū)域上運行的數(shù)據(jù)和代碼能夠保證完整性和私密性(如英特爾SGX軟件防護擴展),可有效防止底層操作系統(tǒng)或虛擬平臺被挾持后對數(shù)據(jù)和代碼的攻擊,從而可以在不授信的第三方進行高性能的安全計算,并提供對不授信第三方安全計算環(huán)境的遠程驗證。但是SGX限于安全計算內(nèi)存大小(128MB)和特定算法的旁路攻擊(side channel attack)[43-44]。
基于英特爾SGX技術(shù),Chen Feng等人設計了一種分析罕見病基因數(shù)據(jù)的系統(tǒng)[19],提出了一種安全高效的基因數(shù)據(jù)分析框架[20],發(fā)明了一種安全的基因親緣關(guān)系分析方法[21]。
聯(lián)邦學習是一種分布式的機器學習技術(shù),可保證各個計算參與方原始數(shù)據(jù)不出本地的情況下,實現(xiàn)共同建模。根據(jù)數(shù)據(jù)的分布方式,聯(lián)邦學習可分為橫向聯(lián)邦學習(樣本聯(lián)合)及縱向聯(lián)邦學習(特征聯(lián)合)兩種方式。聯(lián)邦學習也可以通過和上述安全計算技術(shù)結(jié)合,用來保證模型參數(shù)在計算過程中的私密性,二者結(jié)合可實現(xiàn)不分享原始數(shù)據(jù)情況下的聯(lián)合更新模型。很多生物醫(yī)療數(shù)據(jù)分析算法使用了聯(lián)邦學習框架,如SHI Haoyi等發(fā)明了一種基于聯(lián)邦學習的邏輯回歸算法[18],JIANG Wenchao等設計了一種基于聯(lián)邦學習的網(wǎng)格邏輯回歸算法[45],WANG Shuang提出了一種基于聯(lián)邦學習的分布式期望分布邏輯回歸訓練模型[46],LU Chia-Lun等人展示了一種基于聯(lián)邦學習的比例風險回歸模型算法[47]等。
生物醫(yī)療大數(shù)據(jù)的隱私保護是一個十分復雜的問題,涉及多個利益相關(guān)方的妥協(xié)與合作,需要法律法規(guī)和技術(shù)手段的共同支持完成一個既定目標。建立滿足各方權(quán)力和義務的法律法規(guī),研發(fā)符合法律法規(guī)的技術(shù)手段,并通過新的技術(shù)手段輔助決策者制定新的標準和規(guī)范。在復雜的醫(yī)療大數(shù)據(jù)應用場景下,綜合運用和調(diào)節(jié)不同的技術(shù)手段和法律規(guī)范是未來生物醫(yī)療數(shù)據(jù)隱私保護發(fā)展的基本方向。