鄭 祥
(1. 中國電建集團華東勘測設(shè)計研究院有限公司,杭州 311122;2. 浙江華東工程數(shù)字技術(shù)有限公司,杭州 311122)
在今天的互聯(lián)網(wǎng)時代,人們離不開各種社交媒體平臺,但在享受各種便利的同時也往往存在個人信息泄露的風(fēng)險。而數(shù)據(jù)中臺是企業(yè)集中管理和整合數(shù)據(jù)的核心架構(gòu),它不僅涉及用戶信息,還包括各類商業(yè)敏感數(shù)據(jù)、內(nèi)部知識產(chǎn)權(quán)等重要資產(chǎn)。保護數(shù)據(jù)安全對于確保企業(yè)經(jīng)營正常運轉(zhuǎn)、維護客戶信任以及遵守法律法規(guī)具有重大意義。因此,敏感數(shù)據(jù)的安全性必須得到保障[1]。
為此,數(shù)據(jù)中臺引入了數(shù)據(jù)脫敏這一方式。通過數(shù)據(jù)脫敏,可有效防止數(shù)據(jù)的泄露以及數(shù)據(jù)的濫用,即使發(fā)生數(shù)據(jù)泄露,由于數(shù)據(jù)已經(jīng)脫敏,攻擊者無法直接獲取到真實的敏感信息。此外,數(shù)據(jù)中臺通常用于數(shù)據(jù)的共享和合作,不同部門或合作方可能需要訪問數(shù)據(jù)中臺的特定部分。通過對敏感數(shù)據(jù)進行脫敏處理,可以在保護數(shù)據(jù)隱私的前提下,實現(xiàn)數(shù)據(jù)的安全共享和合作。
綜上,數(shù)據(jù)脫敏已成為數(shù)據(jù)中臺產(chǎn)品不可或缺的一部分,在確保數(shù)據(jù)安全、滿足合規(guī)要求、降低風(fēng)險、促進數(shù)據(jù)共享與合作、維護企業(yè)聲譽與信任等方面有著不可或缺的作用。通過有效的數(shù)據(jù)脫敏措施,可以提供一個安全可靠的數(shù)據(jù)中臺環(huán)境,為企業(yè)的數(shù)據(jù)驅(qū)動決策和業(yè)務(wù)發(fā)展提供有力支持。
數(shù)據(jù)脫敏按模式可以分成靜態(tài)數(shù)據(jù)脫敏(SDM)和動態(tài)數(shù)據(jù)脫敏(DDM)。其主要區(qū)別在于是否對敏感數(shù)據(jù)信息采取實時的脫敏操作[2]。靜態(tài)數(shù)據(jù)脫敏是一種傳統(tǒng)的脫敏方式,常常用于測試環(huán)境等數(shù)據(jù)外發(fā)場景,處理非生產(chǎn)環(huán)境中的靜止數(shù)據(jù)[3]。動態(tài)數(shù)據(jù)脫敏可直接應(yīng)用在生產(chǎn)環(huán)境,比如在線上交易、客戶服務(wù)與呼叫中心、實時分析與監(jiān)控、日志記錄與審計、數(shù)據(jù)共享與合作等場景。系統(tǒng)在該模式中不存儲脫敏之后的數(shù)據(jù),而是識別用戶的身份、客戶端的IP 和訪問時間等信息實時地匹配脫敏規(guī)則和策略,讓訪問者根據(jù)不同的權(quán)限看到不同的數(shù)據(jù)信息[4]。
數(shù)據(jù)識別是數(shù)據(jù)脫敏的第一步。在數(shù)據(jù)脫敏之前,需要對數(shù)據(jù)進行分類和識別,找出其中的敏感信息。數(shù)據(jù)分類可以根據(jù)數(shù)據(jù)類型、數(shù)據(jù)格式、數(shù)據(jù)來源等多種因素進行,以確保敏感信息得到充分的識別,確保沒有因遺漏導(dǎo)致的信息泄露。在識別之后,需要建立脫敏規(guī)則管理模塊,根據(jù)不同的業(yè)務(wù)需求和安全級別,設(shè)計并選擇最合適的脫敏方式。
數(shù)據(jù)脫敏技術(shù)的實現(xiàn)離不開先進的技術(shù)手段,例如加密算法、哈希函數(shù)等,這些技術(shù)手段可以對敏感數(shù)據(jù)進行多種多樣的處理。但是,使用這些技術(shù)手段脫敏數(shù)據(jù)時也需要注意數(shù)據(jù)的完整性和可用性,確保脫敏后的數(shù)據(jù)仍然能夠滿足業(yè)務(wù)需求和分析要求。此外,在應(yīng)用數(shù)據(jù)脫敏技術(shù)時,還需要考慮該技術(shù)的成本和效益問題,并根據(jù)具體情況采取相應(yīng)的脫敏措施。
數(shù)據(jù)脫敏的首要步驟是對數(shù)據(jù)進行分類和分級,并建立識別規(guī)則以對各個分類和分級進行準(zhǔn)確定位,以確定需要脫敏的字段信息。然后,根據(jù)這些識別規(guī)則,將相應(yīng)的脫敏規(guī)則分配給每個字段,從而在動態(tài)或靜態(tài)脫敏過程中對匹配的字段進行有效的脫敏處理。整體流程如圖1所示。
圖1 數(shù)據(jù)脫敏整體流程
在數(shù)據(jù)中臺中,數(shù)據(jù)識別核心功能包括數(shù)據(jù)分類、數(shù)據(jù)分級、識別規(guī)則和識別記錄。在數(shù)據(jù)識別的過程中,首先進行數(shù)據(jù)分類,即對不同類型的數(shù)據(jù)進行劃分,以便后續(xù)的識別工作能夠有序進行。同時,數(shù)據(jù)分級也是其中重要的一環(huán),它將不同數(shù)據(jù)賦予不同的重要級別,以幫助進一步的識別和管理。
數(shù)據(jù)分類和數(shù)據(jù)分級的目的在于為后續(xù)的識別過程提供準(zhǔn)備。通過提前對數(shù)據(jù)進行分類,可以更好地理解和組織數(shù)據(jù),從而更有效地進行識別。將數(shù)據(jù)分級后,不僅可以更好地管理數(shù)據(jù),還可以實現(xiàn)對重要信息的優(yōu)先處理,提高數(shù)據(jù)治理的效率。
配置識別規(guī)則是數(shù)據(jù)識別過程中的關(guān)鍵環(huán)節(jié)之一。在數(shù)據(jù)中臺中,用戶可以根據(jù)需要配置特定的識別規(guī)則。這些規(guī)則可以利用已經(jīng)建立的數(shù)據(jù)分類和分級水平,以確保識別過程的準(zhǔn)確性和有效性。在識別規(guī)則中,存在兩種主要手段:字段掃描和數(shù)據(jù)掃描。
字段掃描通過比對字段內(nèi)的內(nèi)容來進行數(shù)據(jù)識別。借助智能算法和模式識別技術(shù),數(shù)據(jù)中臺能夠針對目標(biāo)字段的內(nèi)容進行準(zhǔn)確高效的識別。這種靈活的方法使得系統(tǒng)能夠根據(jù)預(yù)定義的模式或標(biāo)準(zhǔn)來識別數(shù)據(jù),提高了識別的靈活性和準(zhǔn)確性。另一方面,數(shù)據(jù)掃描通過應(yīng)用正則表達式或用戶自定義規(guī)則來進行數(shù)據(jù)的識別。這種方法使得用戶可以根據(jù)其具體需求和要求定制識別過程。通過指定描述所需數(shù)據(jù)模式的規(guī)則,數(shù)據(jù)中臺可以有效地識別多個字段和數(shù)據(jù)集中的數(shù)據(jù),滿足不同用戶的個性化需求。
識別成功后,數(shù)據(jù)中臺會生成一條詳細的識別記錄。這條記錄包含了字段的詳細信息以及相應(yīng)的分類和分級水平。通過識別記錄,用戶可以更好地追蹤和管理已識別的數(shù)據(jù),進一步提高數(shù)據(jù)治理的效果。
數(shù)據(jù)中臺的脫敏方式包含三種,分別為掩碼、截斷和哈希。這三種方式可以廣泛應(yīng)用于各種場景。
2.2.1 掩碼脫敏
它包括了保留前n后m、掩碼前n后m、保留自x至y和掩碼自x至y等方法。其中,保留前n后m的方式是指將敏感數(shù)據(jù)的前n位和后m位保留原樣,而其他位則進行掩碼處理;掩碼前n后m的方式則是將敏感數(shù)據(jù)的前n位和后m位進行掩碼處理,而其他位保持原貌;保留自x至y是將敏感數(shù)據(jù)的位置從第x位到第y位保留原樣,其他位進行掩碼處理;而掩碼自x至y則是將敏感數(shù)據(jù)的位置從第x位到第y位進行掩碼處理,其他位不變。
原始數(shù)據(jù):手機號碼13812345678
掩碼后:手機號碼138****5678
2.2.2 截斷脫敏
它包括了截斷前n后m和保留自x至y兩種方法。截斷前n后m的方式意味著只保留敏感數(shù)據(jù)的前n位和后m位,其他位則被丟棄;而保留自x至y的方式是將敏感數(shù)據(jù)的位置從第x位到第y位保留,其他位丟棄。
原始數(shù)據(jù):地址浙江省杭州市余杭區(qū)高教路華東勘測設(shè)計研究院
截斷后:地址浙江省杭州市
2.2.3 哈希脫敏
它通過SHA-2 算法對敏感數(shù)據(jù)進行處理,生成一串不可逆的亂碼。這樣的處理方式能夠完全遮蓋原始數(shù)據(jù),保護數(shù)據(jù)的隱私性。
原始數(shù)據(jù):身份證號碼31011019800101001X
哈希脫敏后:身份證號碼eaa4d47f7e05b4e4-a1c3f9b354d3a348
總結(jié)來說,以上三種脫敏方式,即掩碼、截斷和哈希,提供了多樣化的選擇,可以根據(jù)具體需求來進行數(shù)據(jù)脫敏,從而確保敏感數(shù)據(jù)在使用過程中的安全性和隱私保護。
數(shù)據(jù)中臺支持數(shù)據(jù)的靜態(tài)脫敏與動態(tài)脫敏,不同種類的脫敏處理方式如下。
2.3.1 靜態(tài)脫敏
靜態(tài)脫敏在數(shù)據(jù)中臺中常用于數(shù)據(jù)同步,數(shù)據(jù)中臺的數(shù)據(jù)同步實現(xiàn)基于阿里開源的DATAX,經(jīng)過優(yōu)化改造,自定義transformer,在數(shù)據(jù)同步過程中,根據(jù)是否配置脫敏規(guī)則,自動生成脫敏腳本,腳本調(diào)用對應(yīng)的transformer對同步進來的數(shù)據(jù)進行脫敏處理。腳本樣例如下,其中name 為自定義transformer 的名稱,columnIndex 為需要處理的字段位置,paras 為transformer的入?yún)?,樣例腳本的含義為將數(shù)據(jù)的前3 位和后4 位保留,其余位置掩碼處理,如:138****5678。
2.3.2 動態(tài)脫敏
動態(tài)脫敏常用于數(shù)據(jù)的實時查看,通過數(shù)據(jù)中臺的數(shù)據(jù)可視化交互平臺,用戶在操作界面查看數(shù)據(jù),或者通過執(zhí)行SQL 查看數(shù)據(jù)的時候,通過切面方法,在SQL 執(zhí)行前會校驗用戶的權(quán)限信息,在SQL 執(zhí)行后會判斷當(dāng)前用戶是否有權(quán)限查看原始數(shù)據(jù),若有直接返回原始數(shù)據(jù),若無則查詢字段是否存在于脫敏識別的字段中,如果存在則根據(jù)脫敏規(guī)則選擇對應(yīng)的脫敏方式。
基于效率及性能以及實現(xiàn)成本的考慮,掩碼通過字符替換的方式將需要掩蓋的位置替換為“*”,截斷則通過字符截取用戶需要保留的內(nèi)容,哈希則通過SHA-2 的單向加密方式,保證了數(shù)據(jù)的不可逆性,同時兼顧了加密的效率。最后將處理后的數(shù)據(jù)返回給用戶,實現(xiàn)了千人千面的動態(tài)脫敏。
在進行數(shù)據(jù)脫敏的過程中,遇到了以下問題,針對該問題給出了自己的解決方案與思考。
數(shù)據(jù)脫敏過程中,保護數(shù)據(jù)的同時需要保持其可用性(即數(shù)據(jù)特征),這是一個核心挑戰(zhàn)。解決方案之一是制定合適的脫敏策略,通過部分脫敏或模糊化技術(shù)來保護數(shù)據(jù)的隱私性,同時保留數(shù)據(jù)的可用性。
數(shù)據(jù)中臺通過內(nèi)置固定類型數(shù)據(jù)脫敏規(guī)則便于用戶快速選擇,采用動態(tài)數(shù)據(jù)脫敏技術(shù),在特定環(huán)境下實時動態(tài)地調(diào)整數(shù)據(jù)脫敏的程度,同時也保護了數(shù)據(jù)特征,以平衡數(shù)據(jù)保護與可用性之間的關(guān)系。
在大規(guī)模數(shù)據(jù)集中準(zhǔn)確發(fā)現(xiàn)和分類敏感數(shù)據(jù)是一項復(fù)雜且關(guān)鍵的任務(wù)。解決方案之一是利用自動化工具和算法進行敏感數(shù)據(jù)識別,結(jié)合領(lǐng)域?qū)I(yè)知識進行人工審核,確保準(zhǔn)確發(fā)現(xiàn)和分類敏感數(shù)據(jù)。
數(shù)據(jù)中臺基于字段識別和數(shù)據(jù)識別,可滿足大部分情況。但如果由于建表字段命名的不規(guī)范以及數(shù)據(jù)質(zhì)量的不合格導(dǎo)致未能自動識別,采用主動添加的方式,保證敏感數(shù)據(jù)不會被遺漏。
本文詳細介紹了數(shù)據(jù)脫敏技術(shù)在數(shù)據(jù)安全和隱私保護方面的重要性以及數(shù)據(jù)中臺的使用及實現(xiàn)方式。通過采用數(shù)據(jù)識別、分類和脫敏方法,如掩碼、截斷和哈希,可以有效減少敏感數(shù)據(jù)的泄露風(fēng)險。當(dāng)然,數(shù)據(jù)脫敏技術(shù)也面臨一些挑戰(zhàn)。在確定脫敏策略時,需要綜合考慮數(shù)據(jù)保護和可用性,并充分評估數(shù)據(jù)使用場景和潛在風(fēng)險。此外,確保對敏感數(shù)據(jù)的準(zhǔn)確識別和分類是至關(guān)重要的,結(jié)合自動化工具和人工審核有助于提高結(jié)果的準(zhǔn)確性和可信度。
綜上所述,數(shù)據(jù)脫敏技術(shù)在保護數(shù)據(jù)安全和隱私方面扮演著關(guān)鍵角色。為了更好地滿足實際應(yīng)用需求,我們需要不斷探索和改進。希望本文的研究成果能夠為相關(guān)領(lǐng)域提供有益啟示,促進數(shù)據(jù)安全和隱私保護水平的提升。