陳勇 姚燕珠
摘 ?要:本文對數(shù)據(jù)脫敏技術及數(shù)據(jù)脫敏模型進行了介紹與分析,針對電子檔案的敏感數(shù)據(jù)特征,將K-匿名和L-多樣性模型應用到電子檔案敏感數(shù)據(jù)保護中,旨在提高對電子檔案的敏感數(shù)據(jù)的保護能力。
關鍵詞:電子檔案;數(shù)據(jù)安全;數(shù)據(jù)脫敏;數(shù)據(jù)脫敏技術
Abstract: In this paper, the data masking technology and data masking model are introduced and analyzed, and the K-anonymity and L-diversity models are applied to the sensitive data protection of electronic archives to enhance the protection ability of sensitive data of electronic archives.
Keywords: ?Electronic archives; Data security; Data masking; Data masking technology
中辦、國辦印發(fā)的《“十四五”全國檔案事業(yè)發(fā)展規(guī)劃》中指出:“在檔案安全體系建設方面,貫徹總體國家安全觀,強化檔案安全保護,提升檔案數(shù)字資源安全管理能力,加大檔案資源共享力度,大力推進‘增量電子化’,促進各類電子文件應歸盡歸,電子檔案應收盡收?!盵1]如何在數(shù)據(jù)挖掘、分析、整合、傳遞、共享以及使用的過程中實現(xiàn)對電子檔案中敏感數(shù)據(jù)的有效脫敏,從而達到數(shù)據(jù)安全、可信、可控的目的,是電子檔案數(shù)據(jù)管理者亟待解決的技術性問題。
本文針對電子檔案數(shù)據(jù)的敏感屬性防護需求,在給定的規(guī)則下對電子檔案中所涉及的敏感信息進行去隱私化處理,探討其數(shù)據(jù)脫敏模式及相關技術的應用。
1 數(shù)據(jù)脫敏
1.1 數(shù)據(jù)脫敏的內(nèi)涵。數(shù)據(jù)脫敏又可稱為數(shù)據(jù)去隱私化、數(shù)據(jù)變形,是指在保留數(shù)據(jù)初始特征的條件下,按需制定脫敏策略和任務,對敏感數(shù)據(jù)進行變換、修改的技術機制,可以在很大程度上解決敏感數(shù)據(jù)在非安全環(huán)境下使用的問題[2]。數(shù)據(jù)脫敏是數(shù)據(jù)治理的重要內(nèi)容,是一項保障數(shù)據(jù)安全的基本技術[3]。
檔案數(shù)據(jù)安全治理需要嚴密有效、系統(tǒng)完備、科學適用的各種技術工具支撐[4]。目前,已有行業(yè)技術人員以保護隱私信息為導向,研究數(shù)據(jù)脫敏技術及其應用,主要在電力數(shù)據(jù)[5]、銀行數(shù)據(jù)[6]、醫(yī)療大數(shù)據(jù)[7]、高??茖W數(shù)據(jù)[8]、軍事大數(shù)據(jù)[9]等方面。在電子檔案方面,尚未有相關的電子檔案數(shù)據(jù)脫敏保護方案及應用。
1.2 數(shù)據(jù)脫敏的原則。首先是技術原則。一是有效性。有效保護敏感數(shù)據(jù)的安全性是數(shù)據(jù)脫敏的首要原則。針對不同類型的敏感信息需采用與其需求場景相適應的數(shù)據(jù)脫敏技術,在保證有效性的同時還需考慮到數(shù)據(jù)脫敏效果與所花費成本之間的平衡。二是可用性。可用性原則要求在對敏感信息進行脫敏操作的過程中需保障其在具體應用場景的數(shù)據(jù)可使用性。三是穩(wěn)定性。原始數(shù)據(jù)之間存在一定的相關性,在確保各項條件相一致的情況下對原始數(shù)據(jù)進行多次脫敏處理,須保證每次數(shù)據(jù)脫敏的結(jié)果相同。
其次是管理原則。一是自動識別敏感信息。傳統(tǒng)的脫敏規(guī)則配置方法對敏感信息進行脫敏處理效率不高,因而在處理敏感數(shù)據(jù)之前需建立起敏感信息智能分類庫,再將原始數(shù)據(jù)導入庫中,實現(xiàn)敏感信息的自動識別,進而提高數(shù)據(jù)脫敏的效率。二是安全可控。通過脫敏操作后的數(shù)據(jù),既保持了原始數(shù)據(jù)邏輯結(jié)構(gòu)也保留了原始數(shù)據(jù)的統(tǒng)計特征。因此,在特殊情況下仍有可能導致敏感數(shù)據(jù)被竊取。為應對敏感信息泄露,需要制定相關的應急預案,采取安全可控的管理方式提高敏感信息的安全系數(shù)。三是安全審計。將數(shù)據(jù)安全審計貫穿于數(shù)據(jù)脫敏處理的全過程,引入會話式全量數(shù)據(jù)審計,實時記錄數(shù)據(jù)脫敏的各類操作行為,形成定期的統(tǒng)計報告,便于后續(xù)數(shù)據(jù)溯源及追蹤,為數(shù)據(jù)安全事件提供翔實的追責依據(jù)。
2 電子檔案數(shù)據(jù)脫敏的模式
2.1 靜態(tài)數(shù)據(jù)脫敏。靜態(tài)數(shù)據(jù)脫敏一般用于非生產(chǎn)環(huán)境,將敏感數(shù)據(jù)從生產(chǎn)環(huán)境抽取并脫敏后用于非生產(chǎn)環(huán)境[10]。靜態(tài)數(shù)據(jù)脫敏操作先對目標數(shù)據(jù)識別定位,將其與預設的脫敏規(guī)則相匹配處理,并且確保脫敏結(jié)果與生產(chǎn)環(huán)境相隔離。其過程為:第一步,登錄內(nèi)部應用系統(tǒng);第二步,進入原始數(shù)據(jù)庫;第三步,靜態(tài)數(shù)據(jù)脫敏引擎處理;第四步,將脫敏后的數(shù)據(jù)輸出至受保護的鏡像庫中;第五步,外部系統(tǒng)或第三方系統(tǒng)提取數(shù)據(jù)。
2.2 動態(tài)數(shù)據(jù)脫敏。動態(tài)數(shù)據(jù)脫敏在不脫離生產(chǎn)環(huán)境的情境中對待處理的敏感數(shù)據(jù)進行脫敏操作,適用于大數(shù)據(jù)場景中處理用戶訪問數(shù)據(jù)時隱私數(shù)據(jù)的保護與共享的問題。相較于靜態(tài)數(shù)據(jù)脫敏,動態(tài)數(shù)據(jù)脫敏圍繞脫敏效果的實時性展開操作,脫敏的同時確保數(shù)據(jù)的即時可用。依據(jù)不同的數(shù)據(jù)特征,靜態(tài)數(shù)據(jù)脫敏內(nèi)置高效多樣的脫敏算法,其使用具有相同含義的數(shù)據(jù)來替換先前的敏感數(shù)據(jù),例如對姓名進行脫敏處理后,其仍然為有實質(zhì)意義的姓名;對家庭地址進行脫敏處理后,其仍然為家庭地址;對身份證號碼進行脫敏處理后,其仍然是18位數(shù)字且能夠保證地址碼、出生日期碼以及校驗碼的可識別性。
3 電子檔案數(shù)據(jù)脫敏的技術
3.1 泛化技術。泛化作為目前最常使用的數(shù)據(jù)匿名化方法中的一種,是將具有敏感屬性的原始數(shù)據(jù)值替換為一個一般形式值的過程。對于數(shù)值屬性AN,給定一個屬性值a,如果區(qū)間[b-c]包含了a,那么稱[b-c]是a一個泛化[11]。例如,將電子檔案中“年齡”的原始數(shù)值20和24,使用區(qū)間[15,25]替換;將屬性為“郵編”的原始數(shù)值200386泛化為200***。圖1是某電子檔案中以“部門”為例的泛化樹。其中原始數(shù)據(jù)為“部門”名稱,一層泛化節(jié)點為“區(qū)域”名稱,高級泛化根節(jié)點為“公司”名稱。原始數(shù)據(jù)D1={李明,市場部};支節(jié)點一層泛化D1={李明,華南區(qū)};根節(jié)點最高層泛化D1={李明,Y公司}。在泛化的遞進過程之中,數(shù)據(jù)主體的可識別性越來越模糊,一定程度上增強了對電子檔案中敏感信息的保護。
圖2是分類型屬性“疾病”所生成的分化樹,其取值為:腦卒中、帕金森病、支氣管哮喘、肺炎、氣胸、心臟病、肝囊腫、膽管結(jié)石。例如“疾病”的取值為“心臟病”,根據(jù)圖2分類樹初級泛化后“疾病”的取值為心胸外科疾病;若用戶認為“心臟病”為中級敏感信息,可以用“外科疾病”對外發(fā)布數(shù)據(jù)。
3.2 擾亂技術。擾亂技術是指在原始數(shù)據(jù)中添加噪聲,使原始數(shù)據(jù)發(fā)生變形或由隨機生成的數(shù)值所替代,干擾其直接可讀性,進而達到保護敏感信息安全的目的。電子檔案中包含著大量敏感屬性的信息,為避免這些敏感信息的泄露,通常需要采用一定的方法使其無法在授權之外的環(huán)境下被人或機器所獲取,常用的方法如表1所示。
4 電子檔案數(shù)據(jù)脫敏的模型
4.1 k-匿名模型。定義1(等價類)對于數(shù)據(jù)表T{ A1,A2,…,An }(n為屬性的個數(shù)),一個等價類是指在子集{A1,A2,…,Aj}(j為子集屬性的個數(shù))上取值相同的元組的集合[12]。
定義2(k匿名)給定數(shù)據(jù)表T{ A1,A2,…,An },QI是T的準標識符,T[QI]為T在QI上的投影(元組可重復),當且僅當在T[QI]中出現(xiàn)的每組值至少要在T[QI]中出現(xiàn)k次,則T滿足k匿名,記為T’[13]。
隱私和數(shù)據(jù)保護專業(yè)人員通常會以數(shù)據(jù)表的形式將電子檔案中尚未公開的數(shù)據(jù)對外發(fā)布。數(shù)據(jù)表中的每一組完整信息記錄著對應的個體特征。電子檔案數(shù)據(jù)表的屬性可以分為4類[14]:1)標識符屬性(I),指的是能夠直接確定個人屬性的唯一識別碼,主要包括個人姓名、身份證號碼、護照證件號碼等;2)準標識符屬性(QI),是指與個體屬性具有緊密的關聯(lián)關系的數(shù)據(jù),與其他準標識符相組合可確定目標對象的屬性,該過程也可稱之為“重新標識”,如出生日期、聯(lián)系方式、戶籍地等;3)敏感屬性(S),是指電子檔案中所涉及的個人隱私屬性,如收入、病史、信仰等;4)非敏感屬性(N),是指除上述三類屬性之外的其他屬性。
表2為某電子檔案的原始數(shù)據(jù)。其中,“姓名”為標識符,可以此直接定位個體;“性別”“工號”“年齡”均為準標識符,可通過這4個屬性來確定一個個體;“專業(yè)技術崗位等級”為敏感屬性。通常情況下,在對電子檔案中的原始數(shù)據(jù)表進行 k-匿名模型處理時刪去其標識符,保留非敏感數(shù)值。
表3是對表2進行k-匿名模型處理得到的匿名表,此時k=2。表3含有三個等價組,每一個等價組中都對應著2條及以上的數(shù)據(jù)記錄。將表2中的標識符屬性“姓名”予以剔除,以避免攻擊者能夠直接定位識別個體身份;將準標識符屬性等價組{性別,工號,年齡}的取值進行泛化處理,并且保留敏感屬性組“專業(yè)技術崗位等級”的原始值。
原始數(shù)據(jù)表通過k-匿名處理之后,能夠有效降低精準識別某條記錄的概率,進而達到保護數(shù)據(jù)隱私的目的。k-匿名模型脫敏后的數(shù)據(jù)表令竊取者通過讀取準標識符之間的關聯(lián)性從而定位出目標對象的概率僅為1/k。k-匿名模型能夠保護目標對象的身份安全,但在一定程度上未能抵御屬性泄露的風險[15]。如表3中的個體3和個體4同屬于第2個等價組之中,且個體3和個體4的敏感值都是初級,假定竊取者已知李淑珍的性別、工號和年齡信息,那么竊取者可基于已知信息推測出李淑珍落于匿名表中的第2個等價組內(nèi),從而可以確定其專業(yè)技術崗位等級為初級。因此,僅僅使用k-匿名模型對電子檔案中的敏感信息進行脫敏操作,并不能夠完全保護隱私數(shù)據(jù)的安全。
4.2 l-多樣性模型。k-匿名模型脫敏效果的進一步發(fā)展。定義3(l-多樣性)給定數(shù)據(jù)集D和等價組M,若D中的任意M的不同敏感屬性值的個數(shù)至少為l,則稱D滿足l-多樣性[16]。當某個數(shù)據(jù)表中的等價組都至少符合l-多樣性模型,則該發(fā)布的數(shù)據(jù)表符合l-多樣性。
表4是某電子檔案中的原始數(shù)據(jù)表,表5是對其進行l(wèi)-多樣性模型脫敏處理后得到的數(shù)據(jù)表。
表5滿足l-多樣性的性質(zhì),此時可知k=4,存在3個等價組,即每個等價組中最少含有4條不同的敏感屬性值。經(jīng)過l-多樣性模型操作得到的表5,l=4,既滿足了數(shù)據(jù)多樣性的要求,又降低了精準判斷出電子檔案中敏感屬性信息的概率至“1/l”,在一定程度上增強了敏感信息真值的安全性。
經(jīng)過I-多樣性模型操作得到的表5,相較于k-匿名模型的安全性更強。假設小明欲知目標對象所患疾病且掌握了目標對象個人背景信息,通過目標對象的年齡和學歷確定了目標對象所落在的等價組。此時,小明僅可定位到目標對象的組別,無法直接推斷出目標對象所患的疾病。因此,將l-多樣性模型應用到保護電子檔案敏感數(shù)據(jù)中,能夠增強敏感數(shù)據(jù)的安全性,有效降低敏感數(shù)據(jù)泄露的風險。
5 結(jié)語
切實保障電子檔案數(shù)據(jù)安全,充分釋放檔案數(shù)據(jù)活力成為熱點議題,這也對電子檔案數(shù)據(jù)脫敏提出了更高的要求。將數(shù)據(jù)脫敏技術引入到電子檔案數(shù)據(jù)安全適用之中,助力構(gòu)建檔案信息資源新生態(tài),為未來檔案工作“賦能知識社會”的總目標提供了新的思考方向。
*基金項目:國家社會科學基金項目“信息網(wǎng)絡技術驅(qū)動檔案移動服務創(chuàng)新路徑研究”(項目批準號20BTQ103)階段性研究成果。
參考文獻:
[1]國家檔案局.中辦國辦印發(fā)《“十四五”全國檔案事業(yè)發(fā)展規(guī)劃》[EB/OL}.[2021-06-08].https://www.saac.gov.cn/daj/toutiao/202106/ecca2de5bce44a0eb55c890762868683.shtml.
[2]陳天瑩,陳劍鋒.大數(shù)據(jù)環(huán)境下的智能數(shù)據(jù)脫敏系統(tǒng)[J].通信技術,2016,49(07):915-922.
[3]袁紹晚.開放共享環(huán)境下城建檔案數(shù)據(jù)脫敏系統(tǒng)研究與設計[J].檔案與建設,2021(06):52-54+63.
[4]金波,楊鵬.大數(shù)據(jù)時代檔案數(shù)據(jù)安全治理能力成熟度模型構(gòu)建[J].檔案學通訊,2022(01):29-36.DOI:10.16113/j.cnki.daxtx.2022.01.004.
[5]冉冉,李峰,王欣柳,楊立春,丁紅發(fā).一種面向隱私保護的電力大數(shù)據(jù)脫敏方案及應用研究[J].網(wǎng)絡空間安全,2018,9(01):105-113.
[6]鄭琳.大數(shù)據(jù)背景下個人數(shù)據(jù)銀行發(fā)展現(xiàn)狀分析及啟示[J].圖書館學研究,2020(05):2-9.
[7]吳文昊,李占強,席現(xiàn)國,胥婷.數(shù)據(jù)安全閉環(huán)管理在國家健康醫(yī)療大數(shù)據(jù)中心(北方)的實踐[J].中國數(shù)字醫(yī)學,2021,16(07):13-17.
[8]劉桂鋒,阮冰穎,包翔.數(shù)據(jù)生命周期視角下高??茖W數(shù)據(jù)安全內(nèi)容框架構(gòu)建[J].情報雜志,2021,40(02):146-153.
[9]周聰.軍事大數(shù)據(jù)平臺的安全機制研究[J].數(shù)字通信世界,2021(06):41+45.
[10]苗功勛,蔡力兵,周春龍.基于智能化分析的非結(jié)構(gòu)化數(shù)據(jù)脫敏技術研究[J].保密科學技術,2021(09):23-31.
[11]楊挺,薛質(zhì),施勇.基于K-匿名的隱私保護關鍵技術研究[J].信息技術,2016(12):6-9+13.
[12]TONG Yunhai,TAO Youdong,TANG Shiwei,et al.Identity-reserved Anonymity in Privacy Preserving Data Publishing[J].Journal of Software,2010,21( 4 ) :771-781.
[13]夏贊珠,韓建民,于娟,郭騰芳.用于實現(xiàn)(k,e)-匿名模型的MDAV算法[J].計算機工程,2010,36(15):159-161.
[14]SWEENWYL.k-anonymity:a model for protecting privacy[j].International Journal of Uncertainty Fuzziness and Knowledge Based Systems,2002,10(05):557-570.
[15]PRASSER F,BILD R,EICHER J,et al.Lightning:Utility-Driven Anonymization of High-Dimensional Data[J].Transactions on Data Privacy,2016,9(02):161-185.
[16]劉振鵬,孫靜薇,王爍,王文勝,尹文召,張彬.PDMP:ε_k個性化數(shù)據(jù)脫敏保護方法[J].計算機應用研究,2020,37(10):3068-3070+3082.
(作者單位:廣西民族大學管理學院,廣西數(shù)字檔案管理研究所 來稿日期:2022-08-20)