摘 要
信息技術(shù)的不斷發(fā)展使得醫(yī)療行業(yè)的信息化進(jìn)程不斷加速深入。網(wǎng)絡(luò)中信息的爆炸式增長(zhǎng)同樣出現(xiàn)在醫(yī)療領(lǐng)域,使之與互聯(lián)網(wǎng)數(shù)據(jù)一同邁入大數(shù)據(jù)時(shí)代。如何在利用醫(yī)療大數(shù)據(jù)的同時(shí)保護(hù)好個(gè)人的隱私安全具有重要意義。醫(yī)療大數(shù)據(jù)在內(nèi)容以及隱私層面均比網(wǎng)絡(luò)大數(shù)據(jù)更加復(fù)雜更加敏感,傳統(tǒng)匿名技術(shù)的缺陷是過(guò)度依賴背景知識(shí)的假設(shè),而差分隱私的定義則相對(duì)顯得更加完善與理想。通過(guò)差分隱私在醫(yī)療大數(shù)據(jù)的應(yīng)用,探討分析醫(yī)療大數(shù)據(jù)在實(shí)踐差分隱私保護(hù)時(shí)需要面對(duì)的挑戰(zhàn)與問(wèn)題。
【關(guān)鍵詞】差分隱私 醫(yī)療大數(shù)據(jù) 隱私保護(hù) 數(shù)據(jù)發(fā)布 數(shù)據(jù)挖掘
1 引言
醫(yī)療技術(shù)與信息技術(shù)的不斷進(jìn)步與融合使得信息化醫(yī)療數(shù)據(jù)的規(guī)模與復(fù)雜度與日俱增,各類醫(yī)療信息數(shù)據(jù)已成為各大醫(yī)療機(jī)構(gòu)與科研人員不可或缺的核心資源。數(shù)據(jù)價(jià)值的重大變革促使以用戶數(shù)據(jù)為基礎(chǔ)的數(shù)據(jù)分析、挖掘以及應(yīng)用獲得了極高的關(guān)注度。通過(guò)對(duì)數(shù)據(jù)集進(jìn)行分析可以獲取獲得大量有價(jià)值的信息(如某類統(tǒng)計(jì)結(jié)果,某些病癥現(xiàn)象),對(duì)醫(yī)學(xué)研究與實(shí)踐應(yīng)用具有極大的指導(dǎo)性意義,有助于預(yù)防和控制疾病,研發(fā)新藥以及病癥治療。因此,針對(duì)醫(yī)療數(shù)據(jù)的獲取、共享以及挖掘分析的需求迅速增長(zhǎng)。然而,數(shù)據(jù)集中通常包含許多個(gè)人的隱私信息(敏感信息),例如個(gè)人證件信息,個(gè)體偏好或是其他個(gè)體特征等等,這些信息有可能會(huì)隨著數(shù)據(jù)集的發(fā)布或共享而被他人所獲取,從而導(dǎo)致隱私泄露。面對(duì)即將到來(lái)的“醫(yī)療健康大數(shù)據(jù)”時(shí)代,醫(yī)療信息的隱私保護(hù)研究具有很強(qiáng)的現(xiàn)實(shí)意義。
2 醫(yī)療大數(shù)據(jù)與隱私保護(hù)
醫(yī)學(xué)大數(shù)據(jù)來(lái)源眾多,類型復(fù)雜,涵蓋人口統(tǒng)計(jì)信息,基因組信息,以及臨床醫(yī)學(xué)信息(包括病理診斷、藥物、醫(yī)學(xué)圖像以及實(shí)驗(yàn)結(jié)果等)。其形式以電子病歷(Electronic Medical Record,EMR)與電子健康檔案(Electronic Health Record,EHR)最為常見(jiàn)。而電子病歷與電子健康檔案所涉及的個(gè)人隱私即個(gè)體在醫(yī)療機(jī)構(gòu)接受醫(yī)療服務(wù)時(shí)表現(xiàn)出的關(guān)于自身狀態(tài),以及因診療服務(wù)需要而被醫(yī)療機(jī)構(gòu)及醫(yī)務(wù)人員合法獲悉,不愿他人知悉的個(gè)人信息,包括個(gè)人基本信息、經(jīng)濟(jì)狀況,以及健康狀況、既往病史、家族病史等有關(guān)信息等等。而此類信息由于是在特定場(chǎng)合進(jìn)行檢測(cè)并記錄,例如電子病歷(或電子健康檔案),其獲取信息的基礎(chǔ)在某種意義上來(lái)說(shuō)就是患者的隱私,患者在接受治療過(guò)程中也近乎無(wú)保留的公布某些個(gè)人情況,并且同時(shí)診療行為也會(huì)形成關(guān)于患者的新的隱私信息,例如診斷結(jié)果等。
相較于網(wǎng)絡(luò)大數(shù)據(jù),文獻(xiàn)[4]認(rèn)為互聯(lián)網(wǎng)中用戶數(shù)據(jù)是確定的,比如瀏覽行為,而在醫(yī)療信息中,誠(chéng)然在一些生理、生化等參數(shù)信息是確定的,但其診斷、臨床記錄存在著部分不確定因素,從而影響分析結(jié)果,本文則認(rèn)為不然。互聯(lián)網(wǎng)中用戶的具體行為雖然確定,但只是在相對(duì)時(shí)間內(nèi)具有穩(wěn)定性,例如用戶的偏好與會(huì)隨著時(shí)間推移而發(fā)生改變,歷史數(shù)據(jù)可能與當(dāng)前的真實(shí)情況截然不同,但仍然會(huì)影響當(dāng)前的數(shù)據(jù)分析結(jié)果,如網(wǎng)絡(luò)推薦;而醫(yī)療數(shù)據(jù)雖然在診斷、臨床記錄存在不確定性,但對(duì)個(gè)體的影響是確定的且長(zhǎng)期存在,例如用戶的疾病史,診療方案等,因此,本文認(rèn)為醫(yī)療大數(shù)據(jù)具有更高的信息確定性與目的性,具有的更高私密程度,甚至涉及患者的人格與尊嚴(yán)。面對(duì)醫(yī)療大數(shù)據(jù)極強(qiáng)的敏感性,如何在利用這些數(shù)據(jù)的同時(shí)保護(hù)個(gè)人隱私尤為重要。
傳統(tǒng)的醫(yī)療數(shù)據(jù)中常用的隱私保護(hù)方法主要采用匿名技術(shù),例如k-匿名模型及其衍生模型。通過(guò)刪除或隱匿數(shù)據(jù)集的標(biāo)識(shí)類屬性,如姓名,ID等可以在一定程度上保護(hù)個(gè)人隱私,但事實(shí)表明,這些模型并不能提供足夠的安全保障。首先,現(xiàn)有的以匿名為基礎(chǔ)的隱私保護(hù)模型對(duì)攻擊者的背景知識(shí)假設(shè)具有較強(qiáng)的依賴性,因此需要隨著新型攻擊的出現(xiàn)而不斷完善,例如為了抵制“一致性”攻擊,衍生出l-diversity、t-closeness等算法;其次這些傳統(tǒng)的隱私保護(hù)模型無(wú)法提供一種有效且嚴(yán)格的方法來(lái)證明其隱私保護(hù)水平,因此當(dāng)模型參數(shù)改變時(shí),無(wú)法對(duì)隱私保護(hù)水平進(jìn)行定量分析。
3 差分隱私
差分隱私是針對(duì)統(tǒng)計(jì)型數(shù)據(jù)庫(kù)的隱私泄露問(wèn)題提出的一種新的隱私定義,其算法思想源于一個(gè)簡(jiǎn)單的應(yīng)用場(chǎng)景,假設(shè)攻擊者想獲取數(shù)據(jù)集中的某一目標(biāo)信息,且攻擊者知道除目標(biāo)以外的所有信息(具有最大化背景知識(shí)),為了保護(hù)數(shù)據(jù)可以對(duì)目標(biāo)數(shù)據(jù)進(jìn)行噪音處理(修改或刪除),最終攻擊者對(duì)數(shù)據(jù)庫(kù)進(jìn)行的操作結(jié)果與目標(biāo)數(shù)據(jù)改動(dòng)前的真實(shí)結(jié)果近似或一致,即達(dá)到隱私保護(hù)目的。換言之,處于差分隱私保護(hù)中數(shù)據(jù)集,其計(jì)算處理結(jié)果對(duì)任意某個(gè)記錄的變化是不敏感的,單個(gè)記錄在或不在數(shù)據(jù)集中,對(duì)結(jié)果的影響微乎其微。并且,差分隱私是一種嚴(yán)格的和可證明的隱私保護(hù)方法,既不依賴于具體的背景知識(shí)假設(shè),同時(shí)也不會(huì)對(duì)數(shù)據(jù)集的可用性產(chǎn)生較大的影響。
3.3 大數(shù)據(jù)中的差分隱私保護(hù)
差分隱私在大數(shù)據(jù)中的研究領(lǐng)域大致可以分為兩個(gè)方向,即基于差分隱私的數(shù)據(jù)發(fā)布與數(shù)據(jù)挖掘。
基于差分隱私保護(hù)的數(shù)據(jù)發(fā)布目標(biāo)是在既滿足差分隱私的條件下,同時(shí)又能保證查詢結(jié)果精確性,將數(shù)據(jù)集按照一定的算法進(jìn)行變換或修正,再以某種形式發(fā)布,即研究數(shù)據(jù)的發(fā)布機(jī)制。根據(jù)具體實(shí)現(xiàn)的操作環(huán)境與方式,可以分為交互式數(shù)據(jù)發(fā)布和非交互式數(shù)據(jù)發(fā)布兩種。在交互式環(huán)境下,用戶向數(shù)據(jù)集發(fā)起查詢請(qǐng)求,由可信的數(shù)據(jù)管理者對(duì)返回的真實(shí)查詢結(jié)果進(jìn)行噪音干擾,再將干擾后的結(jié)果返回用戶;非交互式環(huán)境下,由數(shù)據(jù)管理者對(duì)原始數(shù)據(jù)集進(jìn)行噪音處理并發(fā)布一個(gè)“凈化”的數(shù)據(jù)集,原始數(shù)據(jù)集可以被銷毀(無(wú)法再次使用),用戶可以對(duì)“凈化”數(shù)據(jù)集進(jìn)行所有的查詢操作。
基于差分隱私保護(hù)的數(shù)據(jù)挖掘旨在保證隱私安全對(duì)的前提下獲取性能最優(yōu)的數(shù)據(jù)挖掘模型。與數(shù)據(jù)發(fā)布類似同樣有兩種模式,分別為接口模式與完全訪問(wèn)模式。接口模式是數(shù)據(jù)挖掘者通過(guò)給定的接口訪問(wèn)數(shù)據(jù)集,其查詢結(jié)果將在接口處被實(shí)施差分隱私,即數(shù)據(jù)挖掘者查詢的所有結(jié)果均已滿足差分隱私保護(hù),挖掘者需要設(shè)計(jì)合理的算法使挖掘模型盡可能貼近真實(shí),受到較少的噪音影響;完全訪問(wèn)模式中挖掘者被認(rèn)定是可信人員,可以接觸到原始數(shù)據(jù)集,但在構(gòu)造挖掘模型時(shí)需要進(jìn)行適當(dāng)修正以使發(fā)布的最終模型滿足差分隱私。endprint
4 醫(yī)療大數(shù)據(jù)中應(yīng)用差分隱私保護(hù)
差分隱私保護(hù)可以解決由數(shù)據(jù)集查詢所引發(fā)隱私泄露,目前研究多集中于電子健康檔案以及基因組數(shù)據(jù)。例如,保護(hù)在臨床試驗(yàn)或人口健康研究中,需要從電子健康記錄中有效查找獲取符合特定條件的特征鮮明的群組,即群組探測(cè)(cohortexploration),文獻(xiàn)[12]基于差分隱私提出了一種新的群組識(shí)別機(jī)制,以在有效的探測(cè)群組時(shí)提供更強(qiáng)的隱私保障。作者對(duì)指數(shù)機(jī)制進(jìn)行改進(jìn),將干擾噪音的大小和方向與用戶的偏好結(jié)合起來(lái),將真實(shí)計(jì)數(shù)值、用戶偏好以及隱私級(jí)別等參數(shù)別轉(zhuǎn)換為一個(gè)關(guān)于擾動(dòng)計(jì)數(shù)值概率分布,系統(tǒng)根據(jù)此分布返回?cái)_動(dòng)后的計(jì)數(shù)值,從而實(shí)現(xiàn)隱私保護(hù)。而在文獻(xiàn)[13]中,針對(duì)基因數(shù)據(jù)的群組探測(cè),提出將差分隱私保護(hù)與同態(tài)加密相結(jié)合的隱私保護(hù)方案,并在真實(shí)環(huán)境中測(cè)試成功。
雖然差分隱私是近年來(lái)的研究熱點(diǎn),理論研究日趨完善,并在多個(gè)領(lǐng)域有所應(yīng)用,但針對(duì)醫(yī)療大數(shù)據(jù)的差分隱私應(yīng)用研究還相對(duì)較少,與醫(yī)療數(shù)據(jù)本身的特殊性和復(fù)雜性不無(wú)關(guān)系。
文獻(xiàn)[10,11]從技術(shù)層面與社會(huì)層面分析并列舉了在醫(yī)療數(shù)據(jù)中實(shí)踐中應(yīng)用差分隱私可能需要面對(duì)的挑戰(zhàn)與問(wèn)題。技術(shù)上如前文所述,醫(yī)療數(shù)據(jù)同時(shí)包含分類數(shù)據(jù),即非“純”數(shù)值型數(shù)據(jù)(可能由數(shù)字代碼表示,也可能是文本數(shù)據(jù),無(wú)法以數(shù)值型進(jìn)行分析計(jì)算,需要通過(guò)歸類來(lái)進(jìn)行分析,如診斷代碼和操作規(guī)程代碼,藥物分配,地理位置等)與數(shù)值型數(shù)據(jù)(如年齡、治療時(shí)間等)兩種。對(duì)于數(shù)值型的數(shù)據(jù),為了確保隱私安全,拉普拉斯噪聲的添加有可能極大地扭曲值,而非數(shù)值型數(shù)據(jù)則需要采用另外的隱私保護(hù)機(jī)制,并且非數(shù)值型數(shù)據(jù)中的文本數(shù)據(jù)存在著大量詞義相近表述確不一致的現(xiàn)象,這是醫(yī)療數(shù)據(jù)在收集初始就可能存在的問(wèn)題,因此如何處理、以及能否同時(shí)處理兩類數(shù)據(jù)是醫(yī)療數(shù)據(jù)領(lǐng)域?qū)嵺`差分隱私保護(hù)的一大問(wèn)題。
醫(yī)療數(shù)據(jù)通常結(jié)構(gòu)凌亂,具有一定的錯(cuò)誤率,突發(fā)性的還會(huì)服從一些的非常規(guī)的數(shù)學(xué)分布,在完全模式挖掘中,數(shù)據(jù)挖掘者可以查看原始數(shù)據(jù)集并進(jìn)行適當(dāng)?shù)男拚蜃儞Q,而在接口模式中,數(shù)據(jù)挖掘者則無(wú)法得知數(shù)據(jù)集的真實(shí)狀態(tài),無(wú)法也不知如何進(jìn)行修正與調(diào)整,從而導(dǎo)致挖掘模型與真實(shí)相比偏差過(guò)大。
5 總結(jié)
在大數(shù)據(jù)的時(shí)代背景下,醫(yī)療大數(shù)據(jù)的有效利用有著不可估量的重要意義。然而醫(yī)療大數(shù)據(jù)結(jié)構(gòu)復(fù)雜,較互聯(lián)網(wǎng)大數(shù)據(jù)而言具有更高的隱私敏感度,傳統(tǒng)隱私保護(hù)技術(shù)難以滿足隱私安全要求。差分隱私是目前信息安全研究領(lǐng)域中的熱點(diǎn)之一,目前已取得一定的理論及實(shí)踐成果,其嚴(yán)格的數(shù)學(xué)定義與實(shí)現(xiàn)機(jī)制為醫(yī)療大數(shù)據(jù)隱私保護(hù)提供了一個(gè)有效并可靠的解決方案,目前已有部分成果證明差分隱私保護(hù)應(yīng)用于醫(yī)療大數(shù)據(jù)中的有效性。但從實(shí)際應(yīng)用上看,將差分隱私保護(hù)投入醫(yī)療大數(shù)據(jù)實(shí)際應(yīng)用還需要更深入的研究,部分問(wèn)題與挑戰(zhàn)迫切需要解決。
參考文獻(xiàn)
[1]洪建,李銳,徐王權(quán).醫(yī)療健康數(shù)據(jù)隱私保護(hù)技術(shù)綜述[J].中國(guó)數(shù)字醫(yī)學(xué),2015(11):83-86.
[2]Gkoulalas-DivanisA,and Grigorios L.(eds.) Medical Data Privacy Handbook.Springer,2015.
[3]關(guān)延風(fēng),馬騁宇.基于電子病歷的醫(yī)療信息隱私保護(hù)研究[J].醫(yī)學(xué)信息學(xué)雜志,2011,32(08):36-39.
[4]顏延,秦興彬,樊建平等.醫(yī)療健康大數(shù)據(jù)研究綜述[J].科研信息化技術(shù)與應(yīng)用,2014,5(06):3-16.
[5]Dwork C.Differential Privacy[C].Proceedings of 33rd International Colloquium on Automata, Language and Programming.Venice,Italy,2006.
[6]McSherry F,Talwar K.Differential privacy in mechanism design[C].IEEE Symposium on the Foundations of Computer Science (FOCS).2007.
[7]熊平,朱天清,王曉峰.差分隱私保護(hù)及其應(yīng)用[J].計(jì)算機(jī)學(xué)報(bào),2014(01):101-122.
[8]朱天清,何木青,鄒德清.基于差分隱私的大數(shù)據(jù)隱私保護(hù)[J].信息安全研究,2015,1(03):224-229.
[9]Dwork C,McSherry F,Nissim K, and A.Smith.Calibrating noise to sensitivityin private data analysis[C].In Proceedings of the 3rd Theory of CryptographyConference,2006.
[10]Dankar F K,El Emam K.The application of differential privacy to health data[C].Proceedings of the 2012 Joint EDBT/ICDT Workshops.ACM,2012.
[11]Dankar F K,El Emam K.Practicing differential privacy in health care:A review[J].Trans.Data Privacy,2013,6(01):35-67.
[12]Vinterbo S A,Sarwate A D,Boxwala A A. Protecting count queries in study design[J].Journal of the American Medical Informatics Association, 2012,19(05):750-757.
[13]Raisaro J L,Choi G,Pradervand S,et al.Protecting Privacy and Security of Genomic Data in i2b2[R].Institute of Electrical and Electronics Engineers,2017.
作者簡(jiǎn)介
白云璐(1988-),女,南京中醫(yī)藥大學(xué)信息技術(shù)學(xué)院助教。
作者單位
南京中醫(yī)藥大學(xué)信息技術(shù)學(xué)院 江蘇省南京市 210023endprint