劉業(yè)
數(shù)據(jù)匿名化處理行為的合法標(biāo)準(zhǔn)
數(shù)據(jù)處理者必須對其獲取的患者醫(yī)療數(shù)據(jù)進(jìn)行合理的形式上審查,以確保所保有的數(shù)據(jù)來源合法正當(dāng)。對存在權(quán)利瑕疵的數(shù)據(jù)為匿名化處理,將使匿名化處理行為處于非法狀態(tài)。上一部分已對數(shù)據(jù)匿名化處理行為合法性前提條件進(jìn)行了細(xì)致探討,本部分將立足數(shù)據(jù)匿名化處理行為本身,對其合法標(biāo)準(zhǔn)展開討論。
關(guān)于匿名化的法律定義,前已部分述及,美歐除稱呼上略有不同,對其概念核心含義的界定基本一致,結(jié)合日本《個人信息保護法》第2(9)條和中國《網(wǎng)絡(luò)安全法》第42條等國家對匿名化的定義,可以推定,國際上對匿名化的定義方式采結(jié)果主義,即處理行為若能達(dá)到“不可再識別至具體個人”之結(jié)果,便是法律所要求的數(shù)據(jù)匿名化。
參考GDPR前言第26條對匿名化的要求,筆者認(rèn)為,數(shù)據(jù)匿名化處理行為是否符合“不可再識別至具體個人”之法律標(biāo)準(zhǔn),具體可拆解成三個要件進(jìn)行判斷:其一,匿名化需達(dá)到無法直接或間接識別至特定個人之效果;其二,不可再識別的行為主體包括數(shù)據(jù)控制者和第三方;其三,數(shù)據(jù)控制者或第三方需用盡所有合理可能之再識別方法。
需達(dá)到無法直接或間接識別至特定個人之效果
針對直接識別:HIPAA隱私規(guī)則之安全港模式
直接識別至特定個人指依獨特的身份標(biāo)識符便具有識別個人身份的高度可能性,而無須與其他數(shù)據(jù)交叉驗證。HIPAA隱私規(guī)則去識別方式之一的安全港模式,即是通過刪除獨特的身份識別數(shù)據(jù)來達(dá)到匿名化的目的。它逐一列舉了18類必須刪除的身份識別數(shù)據(jù):姓名;住址(包括詳細(xì)住址和郵編等);與個人相關(guān)聯(lián)的所有日期元素(包括出身死亡日期、注冊日期等);電話號碼;傳真號碼;電子郵件地址;社保號碼;醫(yī)療記錄號碼;健康計劃受益號碼;賬戶號碼;駕駛證許可證號碼;車輛標(biāo)識符和序列號(包括車牌號);設(shè)備標(biāo)識符和序列號;URLs;IP地址;生物識別符(包括指紋和聲紋);全臉攝影圖像和任何可比圖像;以及任何其他唯一識別號、特征或代碼。為盡可能降低再識別的可能性,安全港模式還要求數(shù)據(jù)處理者在刪除身份識別符后應(yīng)確保其自身對去識別后的數(shù)據(jù)不可單獨或與其他數(shù)據(jù)結(jié)合后識別至數(shù)據(jù)主體這一結(jié)果持確信態(tài)度,若數(shù)據(jù)處理者依自身技術(shù)能力可輕易識別至具體個人,即便刪除了指定的18類數(shù)據(jù),仍不符合法律要求。有學(xué)者利用匈牙利建立的假名化人口醫(yī)療健康數(shù)據(jù)庫,測試了HIPAA隱私規(guī)則是否能達(dá)到其所說的“公平的匿名化”標(biāo)準(zhǔn),測試結(jié)果表明,即使在悲觀情況下,1000萬人中僅7人有被識別的風(fēng)險。
針對間接識別:專家決策模式與歐盟“三性標(biāo)準(zhǔn)”相結(jié)合
不具有直接身份標(biāo)識的數(shù)據(jù),需要與其他數(shù)據(jù)相結(jié)合才可能識別具體個人,此謂之間接識別。通過間接方式識別至特定個人的判斷,較難確定。原因在于:其一,據(jù)以識別的數(shù)據(jù)范圍不確定,有可能通過同一數(shù)據(jù)集的各項屬性值即可識別,也有可能通過多個數(shù)據(jù)集的屬性值交叉認(rèn)證得以識別,為防止數(shù)據(jù)控制者或第三方間接識別而試圖窮盡所有相關(guān)的間接識別的數(shù)據(jù),不具現(xiàn)實可行性;其二,數(shù)據(jù)控制者或獲取匿名化數(shù)據(jù)第三方的背景數(shù)據(jù)和數(shù)據(jù)分析能力未知,再高明的匿名化技術(shù),可能僅僅因為一條始料未及的關(guān)鍵性的背景數(shù)據(jù),再輔以相應(yīng)的數(shù)據(jù)分析能力,即可間接識別至具體個人,如美國AOL公司匿名化失敗的典型案例即屬此類;其三,進(jìn)行匿名化風(fēng)險評估時,難以將所有世界上所有去匿名化技術(shù)一一加以檢驗,時間成本和人力成本高昂。因此,在判斷能否通過間接方式識別至具體個人時,必須依據(jù)一個合理可行的標(biāo)準(zhǔn),最終的結(jié)論也必須容忍和接納合理范圍內(nèi)的再識別風(fēng)險。
HIPAA隱私規(guī)則去識別方式之二的專家決策模式,要求專家在設(shè)計去識別方案時必須使去識別數(shù)據(jù)接收者單獨或與其他數(shù)據(jù)結(jié)合以識別具體個人的風(fēng)險非常小,并證明其方案是合理的。為增強模式的可實施性,《去識別指南》為其設(shè)置了一套操作流程:首先,專家需對數(shù)據(jù)接收者的再識別能力進(jìn)行評估,以確定采用何種去識別技術(shù)的大致范圍;其次,專家向數(shù)據(jù)處理者提供一套去識別技術(shù)的指導(dǎo)方案;然后,與數(shù)據(jù)處理者配合實施去識別技術(shù)方案并就去識別后的數(shù)據(jù)進(jìn)行風(fēng)險評估,若風(fēng)險仍較高,需對方案進(jìn)行修正;最后,風(fēng)險降至非常小的范圍,方案可正式實施,專家需出具報告證明方案的合理性?!度プR別指南》為專家和數(shù)據(jù)處理者提供了再識別風(fēng)險評估的三項參照原則:數(shù)據(jù)可重復(fù)性(Replicability)、數(shù)據(jù)源可獲取性(Data Source Availability)、數(shù)據(jù)可區(qū)分性(Distinguishability)。可重復(fù)性或稱與個人關(guān)聯(lián)的穩(wěn)定性,根據(jù)健康信息特征與個人相關(guān)聯(lián)的穩(wěn)定性,劃分其風(fēng)險等級,如患者出生日期這類基本信息相對于患者血糖水平測試數(shù)據(jù)更加穩(wěn)定,風(fēng)險等級更高。數(shù)據(jù)源可獲取性是指有多少外部數(shù)據(jù)源包含有患者的身份標(biāo)識符數(shù)據(jù)或其他可重復(fù)性高的數(shù)據(jù),以及訪問這些數(shù)據(jù)源的難易程度。可區(qū)分性則關(guān)注患者的數(shù)據(jù)在數(shù)據(jù)庫中與其他患者數(shù)據(jù)的可區(qū)分程度,如出生年月日比只有出生年月的可區(qū)分度更高。健康信息的可重復(fù)性、可獲取性和可區(qū)分性越強,識別的風(fēng)險就越大。
歐盟《匿名化意見》對匿名化處理技術(shù)提出了三個風(fēng)險衡量標(biāo)準(zhǔn):指向性(Singling out)、關(guān)聯(lián)性(Linkability)和推斷性(Inference)。指向性關(guān)注的是數(shù)據(jù)集中能識別至特定個人的數(shù)據(jù)記錄,若數(shù)據(jù)集中存在較多具有識別性的數(shù)據(jù)記錄,則指向性風(fēng)險較高,反之則低。關(guān)聯(lián)性是指將至少兩個數(shù)據(jù)記錄與同一數(shù)據(jù)主體或一組數(shù)據(jù)主體相聯(lián)系的可能性。如果攻擊者能夠通過兩個數(shù)據(jù)記錄關(guān)聯(lián)到一群數(shù)據(jù)主體,但無法進(jìn)一步識別該數(shù)據(jù)記錄具體歸屬于哪一個數(shù)據(jù)主體,則該匿名化技術(shù)具有關(guān)聯(lián)性風(fēng)險,而不具有指向性風(fēng)險。推斷性是指從一部分屬性的屬性值推斷出另一屬性的屬性值的可能性。從這三個標(biāo)準(zhǔn)出發(fā),《匿名化意見》逐一詳細(xì)評估了主要匿名化技術(shù)的再識別風(fēng)險大?。ㄈ绫?所示)。主要匿名化技術(shù)均在一定程度上具有被再識別的技術(shù)風(fēng)險,且不同技術(shù)在不同標(biāo)準(zhǔn)下風(fēng)險大小均有差異。在合理風(fēng)險范圍內(nèi),結(jié)合數(shù)據(jù)適用的具體情境,綜合運用多種匿名化技術(shù)以實現(xiàn)不可間接識別的目的。
《去識別指南》的專家決策模式更側(cè)重于對擬匿名化數(shù)據(jù)的再識別風(fēng)險評估,而《匿名化意見》則側(cè)重于對匿名化技術(shù)的風(fēng)險評估,二者存在一定互補性。在降低間接識別風(fēng)險時,一方面可對擬匿名化處理的數(shù)據(jù)從數(shù)據(jù)可重復(fù)性、數(shù)據(jù)源可獲取性、數(shù)據(jù)可區(qū)分性三方面進(jìn)行風(fēng)險評估;另一方面在選擇匿名化技術(shù)并進(jìn)行風(fēng)險測試時,可從指向性、關(guān)聯(lián)性和推斷性三方面對擬采用的匿名化技術(shù)方案進(jìn)行再識別風(fēng)險評估。國際上已有從這三條標(biāo)準(zhǔn)出發(fā),設(shè)計出一套較為合理的量化評分的方式對匿名化技術(shù)方案的安全性以及數(shù)據(jù)可利用性進(jìn)行打分的研究[ Open GDA Score Project是一項專門對去身份化技術(shù)方案(de-identification schemes)進(jìn)行量化評價的項目,主要評估技術(shù)方案的防御(defence)和效用(utility)能力。對防御能力的評估,主要以數(shù)據(jù)敏感性(susceptibility)、信心提升(confidence improvement)、索求概率(claim probability)、先驗信息(prior knowledge)以及工作量(work)這五個為評估參考因素,通過特定軟件進(jìn)行計算自動生成該技術(shù)方案的GDA分值。隨著每次去匿名化攻擊手段的不同,GDA分值也會出現(xiàn)一定變化,詳情內(nèi)容可訪問https://www.gda-score.org/.],可資借鑒。
不可再識別的行為主體
對數(shù)據(jù)控制者而言,由于它是數(shù)據(jù)匿名化處理行為的實際掌控者,原始數(shù)據(jù)和匿名化算法均由其掌握,而數(shù)據(jù)控制者必須剝奪對匿名化數(shù)據(jù)的再識別能力,才能使其匿名化處理行為合法。為此,原始數(shù)據(jù)經(jīng)匿名化處理之后需不得留存?zhèn)浞荩也扇〉哪涿夹g(shù)必須不具備可回溯性,匿名化數(shù)據(jù)無法通過數(shù)據(jù)控制者自身具有之技術(shù)能力再回溯識別至特定個人。
對獲得匿名化數(shù)據(jù)的第三方而言,需要求其采取一般可能的措施、手段無法將匿名化數(shù)據(jù)關(guān)聯(lián)到具體個人。然實踐中獲取匿名化數(shù)據(jù)的第三方自身所具有的數(shù)據(jù)資源和數(shù)據(jù)分析處理能力千差萬別,針對第三方的數(shù)據(jù)匿名化標(biāo)準(zhǔn)如何確定是個難題,標(biāo)準(zhǔn)過低會造成再識別風(fēng)險增大隱私受威脅,標(biāo)準(zhǔn)過高又會造成數(shù)據(jù)價值的極大減損。HIPAA隱私規(guī)則中專家決策模式在進(jìn)行風(fēng)險評估時亦將第三方能力納入考量范圍,但僅適用于個案化場景。對于第三方為不特定主體時,將難以進(jìn)行。對此,英國數(shù)據(jù)保護機構(gòu)(ICO)采取“蓄意攻擊者”測試(Motivated Intruder Test)方式對第三方進(jìn)行明確,進(jìn)而確定具體的匿名化標(biāo)準(zhǔn)。根據(jù)ICO測試,第三方應(yīng)具備以下條件:(1)主觀上有去匿名化的故意,即意圖通過識別匿名化數(shù)據(jù)至特定個人,以獲取經(jīng)濟利益或其他不法利益;(2)具備獲取任何公開數(shù)據(jù)或可通過合法方式獲取數(shù)據(jù)的一般能力。這一數(shù)據(jù)獲取能力要求高于一般大眾,同時低于數(shù)據(jù)領(lǐng)域的專業(yè)人士,控制在一個較合理的范圍。
用盡所有合理可能之再識別方法
用盡所有合理可能之方法(all the means reasonably likely to be used),“所有方法”意指數(shù)據(jù)匿名化行為之時,現(xiàn)存的、公開的、可預(yù)期的去匿名化技術(shù)方法,而不包括匿名化處理之后新出現(xiàn)的去匿名化技術(shù);“合理可能”意指在具體情境中,根據(jù)匿名化數(shù)據(jù)內(nèi)容的敏感性、匿名化程度的大小、匿名化數(shù)據(jù)接收主體數(shù)據(jù)收集和數(shù)據(jù)處理能力的強弱等因素,從各種去匿名化數(shù)據(jù)中選擇出適合數(shù)據(jù)接收主體的合理去匿名化方法,以用盡篩選出的去匿名化方法為合法標(biāo)準(zhǔn)。為便于理解,筆者通過四個主要影響參數(shù)對“合理可能”作出具體判斷(如表2所示)。
現(xiàn)將低敏感的患者基本數(shù)據(jù)進(jìn)行匿名化處理,為兼顧數(shù)據(jù)有用性,將信息損失降至最低,應(yīng)選擇C類的三項技術(shù)。若此類數(shù)據(jù)面向收集和處理能力中等的數(shù)據(jù)主體開放,那么針對這類主體,a、b、c三類去匿名化技術(shù)何者為“合理可能”選擇?由于能力為中,對于a類技術(shù)無使用的能力,排除a類,故應(yīng)當(dāng)以用盡所有b類和c類的六項去匿名化技術(shù)為匿名化合法判斷標(biāo)準(zhǔn),而不能以未用盡a類去匿名化技術(shù)主張其違法,因為a類技術(shù)不屬于“合理可能”的范圍。若面向低能力者開放,則合理可能的范圍為c類的三項,高能力者則為以上全部九項。對于此類數(shù)據(jù),在兼顧隱私保護的同時,應(yīng)側(cè)重數(shù)據(jù)的有效利用,“合理可能”的技術(shù)范圍可適當(dāng)縮小,以鼓勵數(shù)據(jù)的利用。對于敏感疾病數(shù)據(jù),因與患者人格尊嚴(yán)關(guān)切甚大,法律上應(yīng)側(cè)重患者隱私保護,“合理可能”技術(shù)范圍應(yīng)適當(dāng)擴大,限制對敏感數(shù)據(jù)的處理,保護患者人格尊嚴(yán)。
事后行為——合法匿名化處理的剩余風(fēng)險管理
對于匿名化之后數(shù)據(jù)的規(guī)制態(tài)度上,美歐立法不謀而合,合法匿名化后的數(shù)據(jù)由于與個人相分離,便不再受諸如GDPR和HIPAA隱私規(guī)則之類的個人信息保護法規(guī)制?;跀?shù)據(jù)匿名化處理的相對性,不存在零再識別風(fēng)險的匿名化技術(shù),合法匿名化數(shù)據(jù)在轉(zhuǎn)移、使用和刪除等事后行為過程中被再識別風(fēng)險會因背景數(shù)據(jù)增加或技術(shù)進(jìn)步而逐漸增大,因而數(shù)據(jù)匿名化處理的合法性認(rèn)定也并非一勞永逸,加強對再識別風(fēng)險的剩余風(fēng)險(Residual Risks)管控也是對數(shù)據(jù)匿名化處理行為保持合法性的必然要求。在匿名化數(shù)據(jù)的轉(zhuǎn)移、使用和刪除過程中,雖不受個人數(shù)據(jù)保護法律的約束,但均具有剩余風(fēng)險管控的義務(wù)。
剩余風(fēng)險管理的責(zé)任主體
歐盟語境下存在數(shù)據(jù)控制者和數(shù)據(jù)處理者之分,美國HIPAA隱私規(guī)則包含專家和受規(guī)制實體。數(shù)據(jù)控制者和數(shù)據(jù)處理者可能歸屬同一主體,或數(shù)據(jù)處理者受數(shù)據(jù)控制者委托代為匿名化處理,在此情形下數(shù)據(jù)處理者應(yīng)協(xié)助數(shù)據(jù)控制者進(jìn)行剩余風(fēng)險管理,并提供必要技術(shù)支持,責(zé)任主體仍為數(shù)據(jù)控制者。專家在匿名化進(jìn)程中受雇于受規(guī)制實體,為其提供專業(yè)的匿名化方案,并定期評估可能風(fēng)險,受規(guī)制實體乃剩余風(fēng)險管理的責(zé)任主體。而接收匿名化數(shù)據(jù)的第三方,需協(xié)助責(zé)任主體為剩余風(fēng)險管控,或按照責(zé)任主體指示降低其獲取的匿名化數(shù)據(jù)的風(fēng)險,或嚴(yán)格限制對匿名化數(shù)據(jù)的再識別行為并禁止其傳播等,而這一前提要求是責(zé)任主體在數(shù)據(jù)轉(zhuǎn)移時需對數(shù)據(jù)接收方主體信息進(jìn)行備案,記錄數(shù)據(jù)的傳播鏈條。
剩余風(fēng)險的評估因素
對于剩余風(fēng)險,數(shù)據(jù)控制者應(yīng)當(dāng)定期評估其是否有擴大趨勢,并采取必要措施將剩余風(fēng)險控制在合理范圍內(nèi)。有學(xué)者認(rèn)為,至少需要從七個方面來衡量風(fēng)險大小,如匿名化數(shù)據(jù)體量大小、數(shù)據(jù)敏感程度、數(shù)據(jù)接收者能力、數(shù)據(jù)的使用方式、數(shù)據(jù)處理技術(shù)、數(shù)據(jù)訪問限制和數(shù)據(jù)主體同意或期望。綜合來看,風(fēng)險評估可進(jìn)一步從以下方面進(jìn)行:
(1)數(shù)據(jù)接收方數(shù)量,獲得數(shù)據(jù)的人數(shù)越多,可識別的背景數(shù)據(jù)就會越多;
(2)數(shù)據(jù)接收方技術(shù)能力,文化程度越高,或者與計算機數(shù)據(jù)相關(guān)的專業(yè)受眾越多,剩余風(fēng)險擴大可能性越大;
(3)去匿名化技術(shù)的進(jìn)步,若更加先進(jìn)的去匿名化技術(shù)出現(xiàn),則匿名化數(shù)據(jù)被識別的風(fēng)險將極大增加;
(4)匿名化數(shù)據(jù)的商業(yè)價值,隨著信息科技進(jìn)步以及市場需求的日益多樣,原來被視為“無用”的數(shù)據(jù)可能重新被賦予新的商業(yè)價值,引來人們競相挖掘,匿名化數(shù)據(jù)面臨更大的再識別威脅,等等。
剩余風(fēng)險的合理控制手段
合理評估之后若剩余風(fēng)險超出可控區(qū)間,需及時采取措施將剩余風(fēng)險限制在合理范圍內(nèi)??刹扇〉氖S囡L(fēng)控手段包括:
(1)匿名化數(shù)據(jù)的進(jìn)一步匿名化處理。結(jié)合現(xiàn)有新的場景模式,重新審視數(shù)據(jù)集中非匿名化部分被識別的可能性,尤其是與其匿名化部分相結(jié)合的情況,以及不同屬性之間可能的關(guān)聯(lián),再有針對性地對部分屬性值采用適當(dāng)?shù)哪涿夹g(shù)降低被識別風(fēng)險;
(2)對有能力進(jìn)行再識別的第三方進(jìn)行限制。如限制數(shù)據(jù)得使用目的、限制披露該數(shù)據(jù)、禁止任何再識別嘗試、要求制定技術(shù)和組織層面的安全措施等;
(3)有針對性地限縮匿名化數(shù)據(jù)的開放范圍。對于已獲取匿名化數(shù)據(jù)的主體應(yīng)限制其對匿名化數(shù)據(jù)的使用,對于將要可能獲取匿名化數(shù)據(jù)的主體,區(qū)別其數(shù)據(jù)收集和處理能力的強弱,采取或拒絕其訪問、或增加限制條件、或允許正常訪問等不同應(yīng)對策略。
寫在最后
人是科技進(jìn)步的目的而非工具,科技的發(fā)展應(yīng)當(dāng)讓人類過上更有尊嚴(yán)的生活?;颊哚t(yī)療數(shù)據(jù)中包含著大量敏感和隱私信息,利用大數(shù)據(jù)等信息化技術(shù)挖掘醫(yī)療數(shù)據(jù)的經(jīng)濟和社會價值的前提應(yīng)是采取嚴(yán)格法律措施保障患者數(shù)據(jù)權(quán)益和隱私尊嚴(yán)不受侵犯。針對數(shù)據(jù)匿名化處理行為,不應(yīng)僅僅局限于匿名化處理行為本身的合法性,而應(yīng)站在全局高度運籌帷幄,對擬處理數(shù)據(jù)的事前行為作形式上的合法性審查,拒絕處理權(quán)利瑕疵的數(shù)據(jù);加強對匿名化處理后的數(shù)據(jù)即事后行為的剩余風(fēng)險管控。數(shù)據(jù)匿名化作為撬動醫(yī)療大數(shù)據(jù)產(chǎn)業(yè)持續(xù)快速發(fā)展的關(guān)鍵,應(yīng)當(dāng)審慎對待。全面分析并應(yīng)對其中可能存在的法律風(fēng)險,做好充分的法律風(fēng)險評估,切忌讓患者尊嚴(yán)邊緣化、工具化,方能真正助力國家健康醫(yī)療大數(shù)據(jù)發(fā)展戰(zhàn)略的長遠(yuǎn)推進(jìn)。
( 本報第38-39期第12版刊登的《數(shù)據(jù)匿名化處理的合法性探究》為本文的節(jié)選,為展示原文全部內(nèi)容,現(xiàn)經(jīng)作者授權(quán)刊登全文,以饗讀者,本文轉(zhuǎn)載于《信息安全與通信保密》2020年第9期)