辛均益 陳如梵 王 林 唐丹葉 孫 琪 沈 濤 王 爽
(杭州醫(yī)學院 杭州310059) (杭州锘崴信息科技有限公司 杭州310053) (濟南大學 濟南250022)(杭州锘崴信息科技有限公司 杭州310053 (檢科測試集團有限公司北京 100176) (1杭州锘崴信息科技有限公司 杭州310053) 2四川大學華西醫(yī)院 成都610041)
近年來隨著新技術不斷發(fā)展與深度融合應用,生命科學和醫(yī)學領域數(shù)據(jù)規(guī)模正在迅速擴增。以新一代測序技術應用為例,每臺高通量的測序儀每天可產(chǎn)生約100 GB的基因組測序數(shù)據(jù)。在此背景下,生命科學與醫(yī)學基礎研究正在從實驗科學向數(shù)據(jù)、人工智能驅(qū)動的新方向發(fā)展。生物醫(yī)學數(shù)據(jù)的分散分布與存儲為大范圍數(shù)據(jù)應用帶來全新挑戰(zhàn)。如果說大數(shù)據(jù)是生命科學和醫(yī)學研究的重要基礎,那么數(shù)據(jù)共享便是形成大數(shù)據(jù)的必要手段。醫(yī)學領域積累了海量數(shù)據(jù),但存儲相對分散,且敏感度高、類型多樣,導致較為嚴重的“數(shù)據(jù)孤島”問題。同時,不同醫(yī)院、不同機構之間存儲的數(shù)據(jù)也存在異構、非獨立同分布等問題。為了最大程度利用相對分散的數(shù)據(jù)以服務各項生物醫(yī)學應用,進行數(shù)據(jù)共享十分必要,同時需將數(shù)據(jù)資源有效且安全地連接起來。
生物醫(yī)學研究中患者信息的隱私問題是不容回避的現(xiàn)實挑戰(zhàn)。醫(yī)療數(shù)據(jù)涉及患者隱私,具有特殊性和敏感性。2021年我國頒布的《中華人民共和國個人信息保護法》[1]中將醫(yī)療健康信息視為敏感信息,醫(yī)療行業(yè)中大量患者相關信息均會進入敏感個人信息的范疇,此類信息包含診療過程中的病歷信息、不良反應報告信息、臨床試驗數(shù)據(jù)信息等。因此,在大數(shù)據(jù)應用環(huán)境中保護好個人醫(yī)療相關隱私數(shù)據(jù)至關重要。盡管有相應監(jiān)管要求,醫(yī)療數(shù)據(jù)的合規(guī)有序流通問題依然嚴峻。患者級明文數(shù)據(jù)過于敏感,不能直接共享,但生物醫(yī)學數(shù)據(jù)開放合作勢必為未來疾病防治帶來重大影響和突破,如何解決這兩者之間的沖突一直以來都是生物醫(yī)學數(shù)據(jù)開放方面的一個難點。針對這種兩難的境地,本文探討采用隱私計算安全技術對相關數(shù)據(jù)進行處理,在共享數(shù)據(jù)的可實施性和數(shù)據(jù)隱私安全之間進行平衡。
針對醫(yī)療數(shù)據(jù)合規(guī)性的監(jiān)管相對分散,缺乏統(tǒng)一標準。這一點在跨境(域)醫(yī)療數(shù)據(jù)流動上尤為明顯。我國針對醫(yī)療數(shù)據(jù)跨境(域)監(jiān)管要求分散在不同監(jiān)管部門和法律法規(guī)中,這些法律法規(guī)在不少環(huán)節(jié)上都有重疊。這意味著對于同一數(shù)據(jù)處理主體,當涉及醫(yī)療數(shù)據(jù)跨境(域)時,很可能同時受到多種法規(guī)監(jiān)管且這些法規(guī)之間各不相同,很難同時滿足所有要求。此外,國內(nèi)很多法律法規(guī)都提到當涉及醫(yī)療數(shù)據(jù)跨境(域)時,需要進行安全評估,然而針對醫(yī)療場景的跨境(域)數(shù)據(jù)安全評估的具體量化標準仍有待明確,這無疑增加了醫(yī)療數(shù)據(jù)跨境(域)流動難度。
傳統(tǒng)的隱私保護手段不夠完善,很難滿足現(xiàn)行法律對于隱私安全的要求,導致醫(yī)療數(shù)據(jù)流動困難。以往在科研過程中會利用數(shù)據(jù)脫敏手段對需要共享的數(shù)據(jù)進行處理,以保證科研過程中數(shù)據(jù)及隱私的安全性。然而數(shù)據(jù)脫敏已被證實存在一定漏洞。1997年的一項研究顯示[2],盡管通過傳統(tǒng)數(shù)據(jù)脫敏技術,剔除了可以直接識別患者身份信息的識別符,然而脫敏后的數(shù)據(jù)結合公開的數(shù)據(jù)庫仍然可以重新識別某些個體的身份信息。為證明這并非個例,Sweeney團隊進行一項范圍更廣的研究[3]。結果顯示通過郵編、生日、性別的信息求交集,63%~87%美國人可被唯一確認。此后Emam團隊的研究則進一步證實,即便依照美國《健康保險攜帶和責任法案》(Health Insurance Portability and Accountability Act, HIPAA)中安全港(Safe Harbor)脫敏方法[4],通過類似的背景信息求交集,大概每15 000名個體中就有兩名可以被重新識別[5]。類似的風險也存在于我國醫(yī)療數(shù)據(jù)中,一項有關我國患者數(shù)據(jù)隱私風險評估的研究顯示,我國患者脫敏后數(shù)據(jù)的重識別風險約為0.01%,與之前國外研究結果中的比例相當。這項研究也是目前我國最大規(guī)模的患者數(shù)據(jù)隱私風險評估。這意味著,數(shù)據(jù)脫敏不等于匿名化,盡管經(jīng)過處理的數(shù)據(jù)隱私泄露風險降低,但仍具有一定的泄露可能性。隱私泄露導致多方面的負面影響,如果所泄露的是基因數(shù)據(jù),其傷害還會蔓延至患者的血親及整個家族?!吨腥A人民共和國數(shù)據(jù)安全法》[7]《中華人民共和國個人信息保護法》[1]等法律法規(guī)嚴格規(guī)范了數(shù)據(jù)的安全流動。其中《中華人民共和國個人信息保護法》規(guī)定“匿名化”是指個人信息經(jīng)過處理無法識別特定自然人且不能復原的過程。因此數(shù)據(jù)脫敏并不等價于數(shù)據(jù)匿名化。《中華人民共和國個人信息保護法》將匿名化的信息排除在“個人信息”概念以外,以便促進數(shù)據(jù)利用與流通。此外,數(shù)據(jù)脫敏這類隱私保護手段還具有一定的使用場景局限性,無法處理特定類型數(shù)據(jù),如基因數(shù)據(jù)。基因數(shù)據(jù)具有唯一性,通過十幾個或幾十個基因位點就能夠識別出個體的身份[8],然而這些位點又有很重要的研究價值,簡單地剔除這些位點雖然能夠?qū)崿F(xiàn)隱私安全保護,但卻破壞了基因數(shù)據(jù)完整性,研究價值大幅降低。
數(shù)據(jù)脫敏是通過數(shù)據(jù)消隱、泛化、置換、擾動等方法對原數(shù)據(jù)中的隱私信息進行處理,以便降低數(shù)據(jù)中敏感信息的過程。數(shù)據(jù)脫敏的主要目的是保護個人身份信息、敏感的個人數(shù)據(jù)或業(yè)務數(shù)據(jù)。在美國HIPAA法案下,數(shù)據(jù)脫敏主要包括兩種方法,一種是專家模式,具有數(shù)學或者統(tǒng)計學背景的專業(yè)人士,通過統(tǒng)計學的方法來移除數(shù)據(jù)中的敏感信息。但這種方法無法提供明確的數(shù)據(jù)脫敏規(guī)則,在實際應用中具有很大局限性。另一種被廣泛采用的方法是安全港,其規(guī)定18種識別符,通過移除這18種識別符號來降低身份及敏感信息泄露風險。數(shù)據(jù)脫敏的難點是脫敏后既要保護數(shù)據(jù)隱私,又要保持數(shù)據(jù)可用性。數(shù)據(jù)脫敏處理過程主要包括敏感數(shù)據(jù)識別、制定脫敏策略、敏感數(shù)據(jù)處理、審計評估等階段。除之前所述的脫敏數(shù)據(jù)被重新識別風險以外,脫敏數(shù)據(jù)在共享過程中仍以明文傳輸,存在被復制后轉(zhuǎn)賣或超范圍使用甚至濫用的風險,可見脫敏數(shù)據(jù)無法滿足生命科學和醫(yī)學研究發(fā)展要求。
數(shù)據(jù)安全沙箱是一個隔離的數(shù)據(jù)處理環(huán)境,用戶在一個受控的環(huán)境內(nèi)使用數(shù)據(jù)進行分析,并在權限范圍內(nèi)獲得數(shù)據(jù)分析的相關結果,而非原始數(shù)據(jù),從而一定程度上解決數(shù)據(jù)共享過程中泄露和權限控制的問題。此外,安全沙箱提供隔離運行環(huán)境,對于惡意代碼有防護作用,可以一定程度上避免對數(shù)據(jù)源方其他系統(tǒng)的影響。但是在多中心合作過程中,沙箱也面臨著新的挑戰(zhàn),例如怎樣找到一個多中心共信的沙箱進行數(shù)據(jù)匯聚計算。
隱私計算是融合密碼學、系統(tǒng)安全、機器學習和硬件安全技術來有效解決數(shù)據(jù)共享過程中隱私安全保護的新興技術。隱私計算可以支持多個參與方在不泄露各自數(shù)據(jù)和機密信息的前提下,聯(lián)合參與計算和數(shù)據(jù)共享,以實現(xiàn)聯(lián)合建模和分析、隱私查詢、隱私求交等目的[9]。隨著人工智能和大數(shù)據(jù)的普及,隱私計算已經(jīng)成為數(shù)據(jù)安全和數(shù)據(jù)價值之間的橋梁和安全底座。利用隱私計算技術,數(shù)據(jù)變得“可用而不可見”,實現(xiàn)原始數(shù)據(jù)無需共享下的多中心合作,多主體間的數(shù)據(jù)安全合規(guī)交換,平臺內(nèi)數(shù)據(jù)分級授權使用,確保數(shù)據(jù)安全可控。
機器學習和統(tǒng)計分析模型的效果跟訓練數(shù)據(jù)集的數(shù)據(jù)量、數(shù)據(jù)特征和數(shù)據(jù)質(zhì)量有著密切關系。較大的數(shù)據(jù)樣本量、豐富的數(shù)據(jù)維度和高質(zhì)量的數(shù)據(jù)往往是生物醫(yī)學研究中的前提條件。但由于生物醫(yī)學數(shù)據(jù)存儲往往比較分散,分布在不同機構的不同系統(tǒng)中,且受限于數(shù)據(jù)共享法律和倫理限制,存在“數(shù)據(jù)孤島”問題。聯(lián)邦學習即是為了解決這個問題而提出的,其主要思想是多個數(shù)據(jù)源(如醫(yī)院、醫(yī)療研究機構等)共同參與1個全局模型的構建,每個數(shù)據(jù)源使用本地數(shù)據(jù)進行計算并生成相應的本地模型統(tǒng)計信息(如模型的本地梯度),全局節(jié)點通過收集到的各數(shù)據(jù)源本地梯度進行全局模型的更新并返回更新后的模型到各數(shù)據(jù)源,通過反復迭代直到全局模型收斂。聯(lián)邦學習使得全局模型的效果能夠與將數(shù)據(jù)共享集中起來訓練的模型效果基本一致,甚至在某些場景下具有更強的魯棒性。有學者[10]在2012年提出醫(yī)療在線安全聯(lián)邦學習構架,有效解決了多中心生物醫(yī)療數(shù)據(jù)協(xié)作過程中“數(shù)據(jù)可用不可見”和隱私保護問題。在聯(lián)邦學習執(zhí)行過程中數(shù)據(jù)仍保留在各數(shù)據(jù)源,各方僅提供梯度或模型中間結果,即便如此,該類中間信息仍可通過一定計算反推獲得部分原始數(shù)據(jù)信息,存在隱私信息泄露風險。因此有的場景會綜合利用同態(tài)加密、多方安全計算、可信執(zhí)行環(huán)境等多種隱私計算技術融合的方法來解決此類問題。
多方安全計算[11]是多個數(shù)據(jù)擁有者根據(jù)各自私有數(shù)據(jù)聯(lián)合計算,確保每方獲取聯(lián)合計算結果,且不泄露己方數(shù)據(jù)。多方安全計算為解決多中心環(huán)境下的信息安全協(xié)作共享提供一種新的計算模式,對多中心數(shù)據(jù)安全具有重要價值。但多方安全計算在執(zhí)行過程中的計算量和通信量十分龐大,對于網(wǎng)絡帶寬有限、算法復雜或數(shù)據(jù)量較大的任務場景具有一定局限性。
傳統(tǒng)數(shù)據(jù)運算需要在明文上進行,在數(shù)據(jù)擁有者需要將計算任務外包時,相應數(shù)據(jù)也需要交給任務執(zhí)行者,這帶來巨大的安全隱患。與一般關注數(shù)據(jù)存儲安全方案不同的是,同態(tài)加密主要解決的是數(shù)據(jù)處理安全問題。同態(tài)加密可以簡單概括為實現(xiàn)密文上的特定運算,且運算結果通過解密后與明文計算的結果相同。這使得許多外包或多方協(xié)作場景對數(shù)據(jù)安全有了進一步的保護,通過傳輸加密數(shù)據(jù)、在加密數(shù)據(jù)上執(zhí)行運算得到加密結果、傳輸加密結果、解密獲取結果這一流程實現(xiàn)不泄露數(shù)據(jù)隱私的協(xié)作運算。盡管這一思想非常直觀簡潔,但是目前同態(tài)加密算法只能執(zhí)行部分操作[12-13],對一些復雜的非線性計算仍需要消耗巨大的計算資源,離實際應用落地還有很長的路要走。
可信執(zhí)行環(huán)境(Trusted Execution Environment,TEE)通常指存在于計算機硬件上(如CPU)的一塊特定隔離區(qū)域(如Enclave),這塊區(qū)域可以給數(shù)據(jù)和代碼的執(zhí)行提供一個安全的空間,以保證機密性和完整性??尚艌?zhí)行環(huán)境可以在不信任操作系統(tǒng)、虛擬機、基本輸入輸出系統(tǒng)(Basic Input Output System,BIOS)等底層資源的支持下,為特定區(qū)域內(nèi)的數(shù)據(jù)和技術提供安全保證??尚艌?zhí)行環(huán)境實現(xiàn)了安全性和可用性之間較好的平衡,然而其安全性依然在一定程度上依賴硬件設計的信任。一些研究表明可信執(zhí)行環(huán)境也面臨著例如測信道攻擊等相關問題[14]。
醫(yī)療大數(shù)據(jù)包含海量個人隱私信息,在進行醫(yī)療數(shù)據(jù)合規(guī)共享時需要保證其全生命周期數(shù)據(jù)安全,需要對數(shù)據(jù)使用者和管理者操作行為進行規(guī)范[15]。目前國際上對于個人健康醫(yī)療數(shù)據(jù)跨境流動的專門標準并不多,2004年國際標準化組織發(fā)布的《健康信息學推動個人健康信息跨國流動的數(shù)據(jù)保護指南》提出,除保護數(shù)據(jù)主體切身利益所必要的傳輸之外,個人健康數(shù)據(jù)不應傳輸,除非得到數(shù)據(jù)主體明確的授權。因此在使用醫(yī)療數(shù)據(jù)過程中需理清數(shù)據(jù)種類是什么,數(shù)據(jù)在哪,誰在用,如何用,實現(xiàn)數(shù)據(jù)保護、數(shù)據(jù)形式合規(guī)與實質(zhì)合規(guī)。對我國而言,一方面,可通過完善醫(yī)療數(shù)據(jù)合規(guī)跨境的制度體系,推動面向國際的數(shù)據(jù)流動;另一方面,還可探索數(shù)據(jù)跨境試點。此外,可參考歐盟及其他國家經(jīng)驗,設立符合我國國情的多樣化合法流動機制,以及指引性的數(shù)據(jù)跨境流動協(xié)議范本。在形式合規(guī)方面,醫(yī)療數(shù)據(jù)安全合規(guī)體系的建立必須圍繞醫(yī)療數(shù)據(jù)全周期的運行開展。相關企業(yè)和機構應首先確保根據(jù)本國法律法規(guī)要求,進行數(shù)據(jù)分類分級。此外,建設完備的醫(yī)療數(shù)據(jù)跨境人員保障制度同樣必不可少,應形成由決策層、管理層、執(zhí)行層、監(jiān)督層及協(xié)同層構成的組織結構,同時加強人員培訓,通過配置檢查和旁站式驗證確保相關制度落實。在實質(zhì)合規(guī)方面,相關方必須通過采取必要的技術措施,如隱私計算技術,確保形式合規(guī)的充分落實和執(zhí)行,使跨境醫(yī)療數(shù)據(jù)在“可用不可見”模式下,實現(xiàn)可管、可控、可計量的共享。通過結合區(qū)塊鏈技術,實現(xiàn)數(shù)據(jù)使用全流程可溯源、可追蹤,確保醫(yī)療數(shù)據(jù)跨境過程中的有效保護和合法利用,并使其處于持續(xù)安全的狀態(tài),避免數(shù)據(jù)出境及再轉(zhuǎn)移后被泄露、毀損、篡改、濫用等。一個完善的醫(yī)療數(shù)據(jù)隱私保護平臺應具備3項核心功能,包括隱私合規(guī)多維的檢測、智能數(shù)據(jù)的分級分類與精細化安全管控,以及隱私計算與區(qū)塊鏈結合。
在實踐中,單一中心樣本量和樣本維度往往難以支撐一項研究的進行,因此需要多家機構、中心合作以增加樣本量、豐富數(shù)據(jù)維度。為了保護患者隱私,相關法律法規(guī)嚴格限制生物醫(yī)學數(shù)據(jù)的不安全流動,這也意味著需要將明文數(shù)據(jù)物理聚合的傳統(tǒng)集中式計算不再適用于醫(yī)療場景。聯(lián)邦學習等隱私計算技術可以在明文數(shù)據(jù)不出域的前提下,實現(xiàn)帶有隱私保護的跨中心數(shù)據(jù)協(xié)作、分析和建模,既滿足日益嚴格的隱私保護要求,又能促進多方數(shù)據(jù)協(xié)作。有研究團隊運用聯(lián)邦學習等隱私計算技術開發(fā)帶有隱私保護的多中心全基因組關聯(lián)分析技術框架——iPRIVATES,用于強直性脊柱炎的研究[16]。利用iPRIVATES,通過分布式、聯(lián)邦式計算方式,實現(xiàn)在不分享明文數(shù)據(jù)(個體級基因數(shù)據(jù))前提下,構建多中心臨床輔助診斷模型。研究結果顯示,分布式計算下算法耗時和靶點特征等價于物理聚合數(shù)據(jù)的集中式計算。同時,由于分布式計算可以觸達更多數(shù)據(jù)源,該項研究中包含跨省的多家三甲醫(yī)院、高校數(shù)據(jù),其樣本量和數(shù)據(jù)維度相比于集中式計算更高,因此研究得出的結論更可靠、準確且更具有普適性。另一個關于多中心隱私數(shù)據(jù)建模的案例則聚焦于罕見病。由于罕見病的特性,在臨床診斷中往往容易被誤診,例如該案例中研究的兒童川崎病,其早期癥狀并不典型,很容易與普通的呼吸道感染等疾病混淆,導致錯失最佳治療時機。為解決這一問題,需要聯(lián)合更多數(shù)據(jù)對疾病進行分析,找出致病的基因位點,提供更多診斷依據(jù),使醫(yī)生能夠在臨床診斷中及早發(fā)現(xiàn)。該研究團隊聯(lián)合國際川崎病聯(lián)盟,實現(xiàn)跨3國的多中心兒童川崎病數(shù)據(jù)聯(lián)合分析[17]。這項研究中仍然使用安全聯(lián)邦式計算結合可信執(zhí)行環(huán)境,在各數(shù)據(jù)源處部署本地計算節(jié)點,完成本地計算后,通過交換加密的中間統(tǒng)計信息,構建更為精確的全局模型。由于明文數(shù)據(jù)不出域,在保證患者隱私信息的同時也滿足各國不同的隱私政策要求。研究結果顯示其所使用的技術框架可以在分鐘級完成跨多個國家的聯(lián)合數(shù)據(jù)分析,且結果等價于集中式計算。
隨著醫(yī)院信息化程度的加深,臨床輔助診斷系統(tǒng)的普及率也越來越高。然而這其中存在一些隱私安全隱患。在臨床輔助診斷系統(tǒng)中,查詢條件、被查詢數(shù)據(jù)源、匹配信息、匹配結果等都是高敏感度數(shù)據(jù),不帶隱私保護的明文查詢很有可能導致患者身份及敏感信息泄露。一項由復旦大學附屬兒科醫(yī)院發(fā)起的研究項目中,將隱私計算應用到兒童罕見病查詢網(wǎng)絡中,實現(xiàn)目標條件隱私查詢。研究團隊利用TEE等多種隱私計算技術保證查詢過程中的數(shù)據(jù)隱私安全。查詢過程中,通過自然語言處理,提取出查詢條件,在兒童罕見病網(wǎng)絡中進行相似患者匹配,返回患者可能潛在存在的罕見病報告。其中,用戶輸入的查詢條件在加密狀態(tài)下與加密數(shù)據(jù)庫進行匹配,生成加密的報告,為所有敏感數(shù)據(jù)和信息提供全流程隱私安全保護。
醫(yī)療臨床數(shù)據(jù)庫或?qū)2?shù)據(jù)網(wǎng)絡的構建有助于提高科研效率,進一步挖掘臨床數(shù)據(jù)價值,為臨床醫(yī)生提供更多真實世界證據(jù)、輔助臨床決策。通過隱私計算構建帶有隱私保護的醫(yī)療臨床數(shù)據(jù)庫或?qū)2?shù)據(jù)網(wǎng)絡能夠解決其中存在的隱私安全隱患。在全球范圍內(nèi),結直腸癌 (Colorectal Cancer,CRC) 已成為僅次于肺癌和前列腺癌的男性第3大常見惡性腫瘤,也是女性中僅次于乳腺癌的第2大常見惡性腫瘤。人工智能的發(fā)展為 CTC 臨床信息預測、避免過度治療或治療不足帶來新機遇。臨床信息可以是腫瘤亞型、復發(fā)、死亡率和疾病進展。中華醫(yī)學會消化外科結直腸癌學組將隱私計算技術應用到類似醫(yī)療臨床數(shù)據(jù)庫的搭建中,實現(xiàn)全國范圍內(nèi)帶有隱私保護的結直腸癌數(shù)據(jù)共享。該項目支持每家醫(yī)院單獨管理各自數(shù)據(jù)及密鑰,但不同醫(yī)院之間能在隱私計算技術的支持下進行跨院的聯(lián)合數(shù)據(jù)統(tǒng)計、分析等,兼顧隱私保護和數(shù)據(jù)共享的雙重目標。同時,系統(tǒng)使用的TEE環(huán)境為英特爾軟件防護擴展技術(Intel SGX)。該技術是一種基于硬件的隔離和內(nèi)存加密機制,對執(zhí)行的代碼和數(shù)據(jù)提供針對軟件和物理攻擊的額外保護,其可信計算基僅包括處理器硬件和應用程序代碼本身。通過提供一組擴展指令集,可以將敏感信息及其處理邏輯放置在安全的飛地環(huán)境,防止系統(tǒng)管理員、操作系統(tǒng)等對信息的篡改和訪問。目前該數(shù)據(jù)庫已覆蓋全國24個省、60余家三甲醫(yī)院,為相關領域的科研項目提供高質(zhì)量的數(shù)據(jù)樣本支持,也進一步推動相關防治、干預措施的發(fā)展進程。
生物醫(yī)學大數(shù)據(jù)的共享和聯(lián)合分析已經(jīng)成為現(xiàn)代醫(yī)學研究中必不可少的環(huán)節(jié),隱私計算通過技術手段為醫(yī)療數(shù)據(jù)價值在安全可控前提下的共享提供有效的安全保障,推動醫(yī)療數(shù)據(jù)價值最大化利用。此外,在醫(yī)療領域廣泛推動隱私計算應用和數(shù)據(jù)安全共享,有助于提升醫(yī)療資源利用率。展望未來,隱私計算也將推動精準醫(yī)學加速發(fā)展,助力醫(yī)療健康行業(yè)邁入全新發(fā)展階段。