唐飛 何平遜 郭芷佟 唐麒淞 沈菊穎
1. 重慶郵電大學(xué) 重慶 400065;
2. 重慶育才中學(xué)校 重慶 400050
隨著數(shù)據(jù)規(guī)模的增大和數(shù)據(jù)的廣泛共享,海量醫(yī)療數(shù)據(jù)被收集、存儲、分析和共享,醫(yī)療數(shù)據(jù)的隱私保護面臨著嚴峻的挑戰(zhàn),如用戶個人隱私信息泄露問題。出于對醫(yī)療數(shù)據(jù)隱私保護的考慮,一些新興技術(shù)的出現(xiàn),如區(qū)塊鏈[1]、聯(lián)邦學(xué)習(xí)[2]、同態(tài)加密[3]等,極大地促進了對醫(yī)療數(shù)據(jù)隱私保護機制的研究。文章旨在如何利用區(qū)塊鏈、聯(lián)邦學(xué)習(xí)等隱私保護技術(shù),設(shè)計一種基于區(qū)塊鏈和聯(lián)邦學(xué)習(xí)的醫(yī)療隱私保護機制,實現(xiàn)多方醫(yī)療機構(gòu)的用戶數(shù)據(jù)安全保護,同時提高醫(yī)療服務(wù)水平。通過本文研究,可以有效緩解醫(yī)療數(shù)據(jù)隱私敏感信息泄露的問題,保證醫(yī)療用戶的數(shù)據(jù)安全與隱私,具有一定的學(xué)術(shù)和實踐意義。
在醫(yī)學(xué)研究中,由于生物醫(yī)學(xué)現(xiàn)象的變異較大,各種因素錯綜復(fù)雜,由實驗或觀察得到的結(jié)果往往會受到許多隨機因素的影響,需要利用統(tǒng)計學(xué)方法進行推斷。醫(yī)學(xué)統(tǒng)計學(xué)是關(guān)于收集數(shù)據(jù)、分析數(shù)據(jù)和由數(shù)據(jù)得出結(jié)論的一組概念、原則和方法,其重要作用在于能夠透過偶然現(xiàn)象來探測其規(guī)律性,使研究結(jié)論具有科學(xué)性。與此同時,醫(yī)療大數(shù)據(jù)時代,大量的醫(yī)療數(shù)據(jù)不斷被采集、存儲,并用于醫(yī)療診斷和傳輸共享[4],將分散在各個醫(yī)療機構(gòu)的本地醫(yī)療數(shù)據(jù)進行分析和計算,打破醫(yī)療數(shù)據(jù)的信息孤島,將會更好地推動醫(yī)療事業(yè)的發(fā)展。
由于醫(yī)療數(shù)據(jù)涉及個人的健康信息、病歷記錄、診斷結(jié)果、藥物處方等敏感信息,海量醫(yī)療數(shù)據(jù)被收集、存儲、分析和處理,不可避免地帶來個人隱私敏感信息泄露的風險,各個醫(yī)療機構(gòu)不愿意共享數(shù)據(jù),通常各家醫(yī)療機構(gòu)使用公開的統(tǒng)計分析工具進行各自所需的醫(yī)學(xué)統(tǒng)計分析,不同醫(yī)療機構(gòu)之間難以利用對方的數(shù)據(jù)進行聯(lián)邦統(tǒng)計分析和推斷。因此亟須構(gòu)建醫(yī)療數(shù)據(jù)安全共享和聯(lián)邦統(tǒng)計推斷的新模式,打消醫(yī)療機構(gòu)的安全顧慮,聯(lián)合多方數(shù)據(jù)協(xié)同分析,推動醫(yī)療數(shù)據(jù)價值的高效釋放。
區(qū)塊鏈技術(shù)是一種去中心化的分布式賬本技術(shù),它通過將數(shù)據(jù)以區(qū)塊的形式鏈接起來,并使用密碼學(xué)技術(shù)確保網(wǎng)絡(luò)中的所有參與者對數(shù)據(jù)的一致性達成共識[5-7]。它改變了傳統(tǒng)依賴中心節(jié)點進行信息驗證的模式,利用智能合約維護契約關(guān)系和規(guī)則,保證了數(shù)據(jù)在生成、存儲、傳輸、校驗和訪問全流程中的安全,實現(xiàn)數(shù)據(jù)一致存儲、不可篡改和偽造。目前,區(qū)塊鏈在醫(yī)療健康中的應(yīng)用包括電子數(shù)據(jù)授權(quán)與訪問、疾病監(jiān)測管理、電子病歷存儲和共享、傳染病防控、藥品溯源與防偽[8]、精準醫(yī)療、遠程醫(yī)療、運營管理等。
作為打破數(shù)據(jù)孤島和隱私保護的機器學(xué)習(xí)解決方案,與“模型不動,數(shù)據(jù)動”的集中式學(xué)習(xí)不同,聯(lián)邦學(xué)習(xí)是一種“數(shù)據(jù)不動,模型動”的分布式機器學(xué)習(xí)技術(shù)[9-10],各個參與方可以在不披露各方底層數(shù)據(jù)的前提下共同建模。利用聯(lián)邦學(xué)習(xí),將擁有各自醫(yī)療數(shù)據(jù)的參與方緊密聯(lián)系起來,各醫(yī)療機構(gòu)通過各自本地數(shù)據(jù)建立局部模型,并將訓(xùn)練完成的局部模型上傳到可信第三方,可信第三方將收集的各個本地模型進行安全聚合得到全局模型,并將全局模型下發(fā)至各個醫(yī)療機構(gòu)。通過上述聯(lián)合建模,各醫(yī)療機構(gòu)能夠保證各自的數(shù)據(jù)不出本地,從而保護用戶的個人隱私數(shù)據(jù),同時又能夠利用已建好的模型實現(xiàn)醫(yī)療診斷和分析處理。
同態(tài)加密是一種密碼學(xué)技術(shù),對經(jīng)過同態(tài)加密的數(shù)據(jù)依據(jù)某種方法計算得到輸出,將此輸出進行解密,可以得到與原始未加密數(shù)據(jù)經(jīng)過相同計算得到的結(jié)果相同[11-12]。同態(tài)具有加法同態(tài)性和乘法同態(tài)性,可以利用加法和乘法構(gòu)造任何計算方法對密文進行計算。隨著研究和技術(shù)的進展,同態(tài)加密有望成為醫(yī)療數(shù)據(jù)安全和隱私保護的重要工具。為保證醫(yī)療機構(gòu)本地數(shù)據(jù)的安全性和隱私性,利用快速同態(tài)加密工具,在密文狀態(tài)下實現(xiàn)醫(yī)療數(shù)據(jù)的統(tǒng)計推斷[13]等操作,從而保證醫(yī)療數(shù)據(jù)在相關(guān)操作過程中的安全性,為醫(yī)療數(shù)據(jù)提供隱私保護。
在實際的醫(yī)療場景需求中,跨醫(yī)療機構(gòu)數(shù)據(jù)共享和交換涉及不同機構(gòu)間的數(shù)據(jù)隱私、安全性和互操作性等方面的考慮,不可避免地會造成數(shù)據(jù)隱私泄露風險。針對各醫(yī)療結(jié)構(gòu)之間的互信問題,醫(yī)療數(shù)據(jù)的安全存儲,以及傳輸過程中泄露問題等,結(jié)合實際的使用需求,提出基于區(qū)塊鏈與聯(lián)邦學(xué)習(xí)的大數(shù)據(jù)安全與隱私保護機制,方案架構(gòu)圖如圖1所示。
圖1 基于區(qū)塊鏈與聯(lián)邦學(xué)習(xí)的大數(shù)據(jù)安全與隱私保護機制
區(qū)塊鏈作為整個架構(gòu)的底層技術(shù),為各醫(yī)院方提供了安全的數(shù)據(jù)存儲和溯源。一方面通過加密和分布式存儲,確保醫(yī)療數(shù)據(jù)的安全性和完整性。醫(yī)療機構(gòu)和患者可以更好地控制和管理自己的數(shù)據(jù),并通過智能合約定義數(shù)據(jù)的訪問權(quán)限,保護隱私。另一方面一旦醫(yī)院方提供的數(shù)據(jù)真實性受到質(zhì)疑,可以通過區(qū)塊鏈進行溯源。同時在聯(lián)邦學(xué)習(xí)框架下,多個醫(yī)療機構(gòu)根據(jù)實際需求進行聯(lián)合建模,用于聯(lián)邦統(tǒng)計推斷。多個醫(yī)療機構(gòu)將各自本地需要進行聯(lián)邦統(tǒng)計推斷的數(shù)據(jù),經(jīng)過同態(tài)加密形成密文數(shù)據(jù),并加密上傳到聯(lián)邦統(tǒng)計推斷模型進行推斷;聯(lián)邦統(tǒng)計推斷模型收到來自各個醫(yī)療機構(gòu)的加密數(shù)據(jù)后解密,并進行同態(tài)加密密文域上的安全聚合,并計算相應(yīng)的檢驗統(tǒng)計量;聯(lián)邦統(tǒng)計推斷模型將檢驗統(tǒng)計量下發(fā)至各個醫(yī)療機構(gòu),各醫(yī)療機構(gòu)通過解密獲取銘文統(tǒng)計推斷結(jié)果。從而輔助各個醫(yī)療機構(gòu)得出準確的推斷結(jié)論。
以獨立t檢驗聯(lián)邦統(tǒng)計推斷為例,說明本文3.1中的方案架構(gòu)的具體方案。一般來說,聯(lián)合多方進行獨立t檢驗的推斷結(jié)果要比某一機構(gòu)進行獨立t檢驗的推斷結(jié)果更準確,但是多機構(gòu)間互不信任,為保證各自本地數(shù)據(jù)的安全性和隱私性,利用聯(lián)邦統(tǒng)計推斷模型,將本地數(shù)據(jù)加密后上傳,然后進行數(shù)據(jù)聯(lián)合推斷,獲得聯(lián)邦統(tǒng)計模型的獨立t檢驗推斷。因此基于區(qū)塊鏈與聯(lián)邦學(xué)習(xí)的醫(yī)療數(shù)據(jù)隱私保護機制研究的具體設(shè)計方案——獨立t檢驗聯(lián)邦統(tǒng)計推斷模型如圖2所示。
假設(shè)僅有兩方醫(yī)療機構(gòu)A和B進行聯(lián)合建模,獨立t檢驗聯(lián)邦同態(tài)加密統(tǒng)計模型表達式如下:
其中,t是聯(lián)邦學(xué)習(xí)模型給出的最終推斷結(jié)果(t統(tǒng)計量),X1,X2分別是兩組選項,,則分別表示兩組選項的均值,是兩組選項均值的差值,是兩組選項均值差值的標準誤。
獨立t檢驗聯(lián)邦邦統(tǒng)計推斷模型推斷過程如下。
(1)數(shù)據(jù)上傳。A和B分別將各自本地數(shù)據(jù)X1,X2進行同態(tài)加密,形成醫(yī)療密文數(shù)據(jù)E(X1),E(X2),并將醫(yī)療密文數(shù)據(jù)加密上傳至獨立t檢驗聯(lián)邦統(tǒng)計推斷模型。
(2)統(tǒng)計量計算。獨立t檢驗聯(lián)邦統(tǒng)計推斷模型收到A和B的加密醫(yī)療密文數(shù)據(jù)E(X1),E(X2),將醫(yī)療密文數(shù)據(jù)E(X1),E(X2)解密,在醫(yī)療密文數(shù)據(jù)上進行基本運算操作,計算得出聯(lián)邦統(tǒng)計推斷模型所需的醫(yī)療密文數(shù)據(jù)變量
(3)安全聚合:利用聯(lián)邦學(xué)習(xí)中FedAvg[2]算法的思想,獨立t檢驗聯(lián)邦統(tǒng)計推斷模型將A和B兩方的密態(tài)數(shù)據(jù)進行聯(lián)邦安全聚合。
(4) 統(tǒng)計量下發(fā)。經(jīng)過醫(yī)療密文數(shù)據(jù)的安全聚合,分析與計算獨立t檢驗聯(lián)邦統(tǒng)計量,即獨立t檢驗統(tǒng)計量,并下發(fā)至A和B兩方醫(yī)院。
(5)明文數(shù)據(jù)獲取。A和B兩方醫(yī)院收到密文獨立t檢驗統(tǒng)計量并進行解密,然后再次經(jīng)過同態(tài)解密并獲得明文聯(lián)邦統(tǒng)計推斷結(jié)果。
綜上所述,本文通過研究背景具體分析了醫(yī)療隱私保護需求,針對醫(yī)療數(shù)據(jù)的隱私泄露問題,利用區(qū)塊鏈、聯(lián)邦學(xué)習(xí)等隱私保護技術(shù),提出一種基于區(qū)塊鏈與聯(lián)邦學(xué)習(xí)的醫(yī)療數(shù)據(jù)隱私保護機制。通過上述機制的具體方案設(shè)計,展示了方案架構(gòu)的具體實現(xiàn),結(jié)合隱私保護相關(guān)技術(shù),能夠保證用戶個人數(shù)據(jù)的安全,同時緩解醫(yī)療數(shù)據(jù)隱私泄露風險,進一步提高醫(yī)療機構(gòu)的醫(yī)療服務(wù)水平。