佟玲玲,李鵬霄,段東圣,任博雅,李揚(yáng)曦
(國家計算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,北京 100029)
近年來,大數(shù)據(jù)分析技術(shù)已經(jīng)廣泛應(yīng)用在國家治理、企業(yè)運(yùn)行、個人日常生活等方方面面,數(shù)據(jù)成為重要的生產(chǎn)要素和最熱門的基礎(chǔ)資源,但同時海量的數(shù)據(jù)資源中往往蘊(yùn)含有關(guān)用戶個人、企業(yè),甚至國家重要行業(yè)的敏感、隱私信息,一旦遭到泄露或篡改,可能會給個人、企業(yè)甚至國家造成無法挽回的損失。如何在利用自身數(shù)據(jù)資源進(jìn)行大數(shù)據(jù)研究分析的同時,避免敏感信息泄露的風(fēng)險,成為了大數(shù)據(jù)分析應(yīng)用領(lǐng)域眾多研究者關(guān)注的熱點(diǎn)問題。數(shù)據(jù)脫敏(data masking)又稱為數(shù)據(jù)漂白、數(shù)據(jù)去隱私化或數(shù)據(jù)變形,是指在保留數(shù)據(jù)初始特征的條件下,通過脫敏規(guī)則對敏感數(shù)據(jù)進(jìn)行數(shù)據(jù)的變形,避免未經(jīng)授權(quán)的用戶非法獲取,實(shí)現(xiàn)敏感數(shù)據(jù)在分享和使用過程中的安全保護(hù)。數(shù)據(jù)脫敏可以在保存數(shù)據(jù)原始特征的同時改變其真實(shí)值,在保留數(shù)據(jù)有效性的同時保持?jǐn)?shù)據(jù)的安全性,實(shí)現(xiàn)敏感隱私數(shù)據(jù)的可靠保護(hù),避免敏感數(shù)據(jù)泄露的風(fēng)險[1-6]。
目前,相關(guān)研究者已經(jīng)提出了多種方法用于解決數(shù)據(jù)脫敏相關(guān)問題,但主要集中在文本或數(shù)據(jù)庫類型的數(shù)據(jù),如k-匿名(k-anonymous)[1]、l-多樣性(l-diversity)[7]、t-保密(t-closeness)[8]等,并對傳統(tǒng)脫敏方法進(jìn)行了改進(jìn),如Sarada等[9]提出的基于最小最大歸一化算法、范圍映射脫敏算法,Gujjary和Saxena[10]提出的基于神經(jīng)網(wǎng)絡(luò)的自適應(yīng)脫敏算法,Zhou和Louis[11]提出的基于空間平滑的矩陣屏蔽算法,吳克河等[12]提出的基于敏感信息度量的t-保密改良技術(shù)等。國內(nèi)外研究主要關(guān)注具體脫敏方法并取得較多成果,但面向?qū)嶋H應(yīng)用的數(shù)據(jù)脫敏系統(tǒng)模型研究較少。Santos等[13]提出了一種針對數(shù)據(jù)庫的脫敏模型,張琦穎[14]和邵華西[15]分別提出了基于Spark分布式計算框架下數(shù)據(jù)脫敏系統(tǒng)模型,但這類數(shù)據(jù)脫敏系統(tǒng)模型,在系統(tǒng)內(nèi)置統(tǒng)一的脫敏規(guī)則實(shí)現(xiàn)數(shù)據(jù)庫脫敏,或在脫敏方法上的遷移性和普適性尚有欠缺。例如,某些脫敏方法重在數(shù)據(jù)保護(hù),但會失去一些統(tǒng)計特征,適用于社交數(shù)據(jù)等數(shù)據(jù)冗雜性高的場景;某些方法兼顧數(shù)據(jù)保護(hù)和可用性,但計算復(fù)雜度高,適用于醫(yī)療、金融等數(shù)據(jù)精度要求高的場景。
隨著信息技術(shù)的不斷發(fā)展,文本、圖片、音頻等異構(gòu)數(shù)據(jù)量日益增大,大數(shù)據(jù)分析應(yīng)用場景也日趨復(fù)雜,在實(shí)際生產(chǎn)環(huán)境或非可信環(huán)境下的數(shù)據(jù)脫敏需求也各不相同,如何在數(shù)據(jù)交換、共享及使用等過程中實(shí)現(xiàn)對敏感數(shù)據(jù)的精準(zhǔn)定向、高效脫敏,達(dá)到數(shù)據(jù)安全、可信和可用的目標(biāo),已經(jīng)成為了各行業(yè)數(shù)據(jù)產(chǎn)生者、使用者和管理者面臨的巨大挑戰(zhàn)。
針對異構(gòu)大數(shù)據(jù)環(huán)境下不同應(yīng)用場景下差異化的數(shù)據(jù)脫敏需求,本文提出了一種基于文本、音頻、圖片和數(shù)據(jù)庫等多樣化大數(shù)據(jù)的數(shù)據(jù)脫敏模型,該模型可實(shí)現(xiàn)不同應(yīng)用場景下異構(gòu)敏感數(shù)據(jù)的自動標(biāo)注和分級,并通過抽取數(shù)據(jù)預(yù)脫敏處理和脫敏效果評估,實(shí)現(xiàn)了多應(yīng)用場景下異構(gòu)數(shù)據(jù)的高效脫敏。
本文提出的數(shù)據(jù)脫敏方法基本框架主要包括4個模塊,即源數(shù)據(jù)預(yù)處理模塊、敏感數(shù)據(jù)標(biāo)注模塊、數(shù)據(jù)脫敏模塊、脫敏數(shù)據(jù)輸出及恢復(fù)模塊,具體描述如下:
1)源數(shù)據(jù)預(yù)處理模塊。用戶提交所需脫敏的源數(shù)據(jù)及應(yīng)用場景。源數(shù)據(jù)的提交形式包括txt、Word、Excel等類型的文本數(shù)據(jù),JPG、PNG等類型的圖片數(shù)據(jù),MP3、WAV等類型的音頻數(shù)據(jù),MySQL、HIVE等數(shù)據(jù)庫數(shù)據(jù);應(yīng)用場景包括金融、醫(yī)療、社交、教育、政府、零售等。該模塊將原始數(shù)據(jù)及應(yīng)用場景進(jìn)行解析,并進(jìn)行統(tǒng)一格式轉(zhuǎn)換,將數(shù)據(jù)處理成下一模塊能夠識別的形式,用于敏感數(shù)據(jù)的識別和脫敏。
2)敏感數(shù)據(jù)標(biāo)注模塊。該模塊面向異構(gòu)數(shù)據(jù)類型,采用機(jī)器學(xué)習(xí)方法和特定場景的敏感數(shù)據(jù)先驗(yàn)知識訓(xùn)練得到不同應(yīng)用場景下的敏感數(shù)據(jù)識別模型[16],實(shí)現(xiàn)敏感數(shù)據(jù)和非敏感數(shù)據(jù)的識別和標(biāo)注,并且為敏感數(shù)據(jù)分級(等級為數(shù)值1~10,等級越高,則該項數(shù)據(jù)越敏感)。
3)數(shù)據(jù)脫敏模塊。該模塊首先以10%的比例隨機(jī)抽取樣例數(shù)據(jù),判斷其類型為文本、圖片、音頻或數(shù)據(jù)庫內(nèi)容,通過內(nèi)容的不同,選擇內(nèi)置的多種脫敏方法實(shí)現(xiàn)預(yù)脫敏操作(文本脫敏包括k-匿名、l-多樣性、t-保密、差分隱私、對稱加密、非對稱加密、保形加密和全同態(tài)加密等;圖片脫敏包括人臉替換、高斯模糊等;音頻脫敏包括空白音頻替換等;數(shù)據(jù)庫包括AES加密等)。然后,系統(tǒng)根據(jù)內(nèi)置規(guī)則計算數(shù)據(jù)可用性、數(shù)據(jù)關(guān)聯(lián)性、隱私保護(hù)度、時間復(fù)雜度、空間復(fù)雜度5個方面的內(nèi)容,得到多種脫敏方法的脫敏效果評價結(jié)果,即多個5維向量,并根據(jù)綜合評測推薦最合適的脫敏方法。最后,用戶根據(jù)需求選擇合適的脫敏方法,系統(tǒng)完成所有數(shù)據(jù)的脫敏操作。
4)脫敏數(shù)據(jù)輸出及恢復(fù)模塊。將上述操作1)識別的敏感數(shù)據(jù)替換成脫敏后的數(shù)據(jù),對授權(quán)用戶可恢復(fù)成用戶提交的原始數(shù)據(jù)格式,實(shí)現(xiàn)脫敏數(shù)據(jù)的授權(quán)訪問。
圖1為本文提出的面向異構(gòu)大數(shù)據(jù)環(huán)境的數(shù)據(jù)脫敏模型,主要包括脫敏數(shù)據(jù)預(yù)處理、定制化脫敏策略、脫敏任務(wù)調(diào)度及脫敏數(shù)據(jù)恢復(fù)4部分。該模型集成了針對于文本、圖片、音頻和數(shù)據(jù)庫4種類型數(shù)據(jù)的多種脫敏方法,對于數(shù)據(jù)庫脫敏,運(yùn)用AES對稱加密算法對數(shù)據(jù)源進(jìn)行脫敏;對于文本脫敏設(shè)計8種算法,分別是k-匿名、l-多樣性、t-保密、差分隱私、對稱加密、非對稱加密、保形加密和全同態(tài)加密;對于圖片數(shù)據(jù),針對人臉數(shù)據(jù)設(shè)計替換和高斯模糊方法2種脫敏方式;對于音頻數(shù)據(jù),設(shè)計用空白音頻替換敏感音頻。此外,本文提出一種脫敏效果評估方法,針對預(yù)脫敏的結(jié)果,從數(shù)據(jù)可用性、數(shù)據(jù)關(guān)聯(lián)性、隱私保護(hù)度、時間復(fù)雜度、空間復(fù)雜度5個方面進(jìn)行量化評估,得到各種方法預(yù)脫敏的評測結(jié)果,并且通過不同的權(quán)值和影響因子進(jìn)行綜合計算,為用戶進(jìn)行推薦,根據(jù)用戶選擇確定最終的脫敏方法。
圖1 異構(gòu)大數(shù)據(jù)脫敏模型Fig.1 Data masking model for heterogeneous big data
本模塊采用靈活配置的方式,支持用戶實(shí)現(xiàn)對敏感數(shù)據(jù)的選擇功能。在智能識別敏感數(shù)據(jù)的基礎(chǔ)上,操作人員可以將敏感數(shù)據(jù)指定具體數(shù)據(jù)源、數(shù)據(jù)庫、數(shù)據(jù)表及具體的屬性字段上,以應(yīng)對不同的業(yè)務(wù)需求。后續(xù)算法會根據(jù)用戶的選擇和定義將被指定為敏感的數(shù)據(jù)進(jìn)行脫敏處理,而其他未指定的數(shù)據(jù)則保持不變。本模塊由2個子模塊構(gòu)成:
1)數(shù)據(jù)信息提取。采用人工配置或語句查詢等方式,提取需進(jìn)行脫敏的數(shù)據(jù)源名稱、數(shù)據(jù)庫名稱列表、對應(yīng)數(shù)據(jù)庫中存儲的數(shù)據(jù)庫表列表、特定數(shù)據(jù)庫表結(jié)構(gòu)對應(yīng)的數(shù)據(jù)字段及相應(yīng)屬性等信息。對于新接入及現(xiàn)有各類數(shù)據(jù)源,能夠較為方便總覽其全部數(shù)據(jù)及不同數(shù)據(jù)表之間的關(guān)聯(lián)信息,便于后續(xù)敏感數(shù)據(jù)的選擇。
2)敏感信息設(shè)置。用戶按照法律法規(guī)或標(biāo)準(zhǔn)規(guī)范等要求對敏感數(shù)據(jù)預(yù)設(shè)分類,并依據(jù)不同應(yīng)用場景需求構(gòu)建原始敏感數(shù)據(jù)知識庫和分級規(guī)則。對于待脫敏數(shù)據(jù),依據(jù)其數(shù)據(jù)類型的不同,分別采用自然語言處理和文本識別、多媒體內(nèi)容理解和識別等技術(shù),對待脫敏數(shù)據(jù)進(jìn)行準(zhǔn)實(shí)時處理,識別出敏感數(shù)據(jù),同時設(shè)計人工反饋機(jī)制,可針對敏感數(shù)據(jù)識別結(jié)果進(jìn)行修正,并逐步達(dá)到最優(yōu)識別結(jié)果。此外,需明確各類敏感數(shù)據(jù)的具體數(shù)據(jù)類型,如針對文本數(shù)據(jù)是中文字符、英文字符、特殊字符等,以便后續(xù)最優(yōu)脫敏策略的選擇。
如圖1所示,定制化脫敏策略模塊主要包括可恢復(fù)性選擇、脫敏方法選擇、脫敏參數(shù)設(shè)置等。
1)可恢復(fù)性選擇。按照脫敏后的數(shù)據(jù)能否恢復(fù)到原始數(shù)據(jù)來劃分,現(xiàn)有的脫敏方法可以分為可恢復(fù)與不可恢復(fù)兩大類,以滿足不同任務(wù)需求??苫謴?fù)方法主要以數(shù)據(jù)加密方法為主,在數(shù)據(jù)加密的過程中會同時生成相應(yīng)的解密密鑰等,加密后的數(shù)據(jù)可依據(jù)實(shí)際使用需求,通過解密密鑰還原為原始數(shù)據(jù);不可恢復(fù)數(shù)據(jù)脫敏方法在使用匿名、替換等操作后,無法還原原始數(shù)據(jù),因此在信息保留上存在一些損失。
2)脫敏方法選擇。根據(jù)用戶在上一模塊的選擇,系統(tǒng)將分別提供不同的方法,這些方法各有優(yōu)缺點(diǎn),適用于不同的應(yīng)用場景,用戶可根據(jù)需求進(jìn)行靈活選擇。其中,主流不可恢復(fù)脫敏方法包括k-匿名、l-多樣性、t-保密、差分隱私;主流可恢復(fù)脫敏方法包括對稱加密、非對稱加密、保形加密、全同態(tài)加密等。其共同基本原理為:針對待脫敏數(shù)據(jù),組合使用各類基礎(chǔ)數(shù)據(jù)脫敏操作,以達(dá)到每種方法各自的脫敏規(guī)范。
針對不同數(shù)據(jù)類型,可使用的基礎(chǔ)脫敏操作不同,具體的對應(yīng)關(guān)系如表1所示。
表1 不同數(shù)據(jù)類型的常用脫敏操作Table 1 Commonly used data masking operation for different data types
3)脫敏參數(shù)設(shè)置。一些方法具有可調(diào)節(jié)的參數(shù)。例如,k-匿名中的k可以看作是控制脫敏力度的指標(biāo)。k-匿名要求對于任意一行紀(jì)錄,其所屬的相等集內(nèi)紀(jì)錄數(shù)量不小于k,即至少有k-1條記錄半標(biāo)識列屬性值與該條記錄相同,即增大k的值,敏感數(shù)據(jù)會隱藏的更好,但相應(yīng)地需要操作的數(shù)據(jù)條數(shù)、數(shù)據(jù)長度也會增加,因此導(dǎo)致更多的信息損失。用戶可根據(jù)具體需求進(jìn)行參數(shù)的設(shè)置,以完成脫敏方法的針對性定制。
圖2為基于該脫敏策略的定制化脫敏流程,該過程中需要考慮的因素主要包括:
圖2 定制化數(shù)據(jù)脫敏流程Fig.2 Customized data masking process
1)數(shù)據(jù)可用性。即脫敏后的數(shù)據(jù)應(yīng)能滿足分析應(yīng)用需求,若脫敏后的數(shù)據(jù)無法用于目標(biāo)分析及應(yīng)用,就不具有使用價值。在特定的應(yīng)用場景中,可能需要保留部分非關(guān)鍵信息(如身份證號碼、手機(jī)號碼的部分字段、數(shù)據(jù)的統(tǒng)計分析特征等)才能滿足分析要求。
2)數(shù)據(jù)關(guān)聯(lián)性。對于結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),在同一數(shù)據(jù)表中某字段與另外字段有對應(yīng)關(guān)系,如果脫敏方法破壞了這種關(guān)系,該字段的使用價值將不復(fù)存在。
3)隱私保護(hù)度。數(shù)據(jù)中原本隱含的敏感信息在脫敏后被其他人獲取的難易程度,獲取敏感信息的難度越高,則隱私保護(hù)度越高。
4)時間復(fù)雜度。即脫敏方法對數(shù)據(jù)進(jìn)行脫敏所需要的時間,在保證敏感數(shù)據(jù)滿足保護(hù)條件的前提下,所需計算時間越短越好。
5)空間復(fù)雜度。即脫敏方法對數(shù)據(jù)進(jìn)行脫敏所需要的存儲和計算空間。
1)任務(wù)調(diào)度。由于本文模型是面向大數(shù)據(jù)應(yīng)用環(huán)境的,需要處理的數(shù)據(jù)量可能會非常大,利用大數(shù)據(jù)計算環(huán)境執(zhí)行分布式數(shù)據(jù)脫敏任務(wù)會極大提高任務(wù)的執(zhí)行效率。任務(wù)調(diào)度模塊通過對脫敏任務(wù)的數(shù)據(jù)量、各算法的執(zhí)行效率、各節(jié)點(diǎn)的計算性能進(jìn)行評估,將總體脫敏任務(wù)分解為若干個子任務(wù)并分配給對應(yīng)子節(jié)點(diǎn)執(zhí)行。
2)任務(wù)執(zhí)行。根據(jù)任務(wù)調(diào)度結(jié)果,將脫敏方法下發(fā)至各對應(yīng)子節(jié)點(diǎn),子節(jié)點(diǎn)接受方法后開始對分配的敏感數(shù)據(jù)進(jìn)行脫敏。脫敏完成后,將結(jié)果返回并整合匯總形成最終脫敏后的數(shù)據(jù)結(jié)果。
由于敏感數(shù)據(jù)的重要性,在實(shí)際應(yīng)用中對部分脫敏數(shù)據(jù)的恢復(fù)時,需要進(jìn)行嚴(yán)格的權(quán)限管理。
申請人員需要先提出申請,說明需要數(shù)據(jù)恢復(fù)的原因、需要恢復(fù)的具體數(shù)據(jù)項等信息,并進(jìn)行相應(yīng)的權(quán)限認(rèn)證。在通過權(quán)限認(rèn)證模塊審核后,可在系統(tǒng)內(nèi)執(zhí)行相應(yīng)的數(shù)據(jù)解密模塊,并將數(shù)據(jù)恢復(fù)結(jié)果返回給特定申請用戶。
本文所提異構(gòu)大數(shù)據(jù)脫敏模型中4個關(guān)鍵模塊具有較低的功能耦合度,又相互數(shù)據(jù)流關(guān)聯(lián)實(shí)現(xiàn)了完整脫敏流程,從而使用該脫敏模型無需改變原有的業(yè)務(wù)數(shù)據(jù)邏輯,可確保數(shù)據(jù)整體安全性。此外,脫敏后數(shù)據(jù)恢復(fù)則需要嚴(yán)格權(quán)限認(rèn)證才可獲得解密密鑰,滿足了用戶安全性需求。
本文提出的脫敏模型中定制化脫敏策略模塊可提供靈活的脫敏規(guī)則配置及脫敏規(guī)則擴(kuò)展,用戶可以通過靈活調(diào)整配置參數(shù),達(dá)到所設(shè)計的脫敏效果,實(shí)現(xiàn)了完全透明的、可擴(kuò)展的數(shù)據(jù)脫敏處理能力。脫敏任務(wù)調(diào)度模塊充分考慮了計算性能可擴(kuò)展能力,通過采取多節(jié)點(diǎn)協(xié)作的分布式計算來提升計算效率,結(jié)合算法執(zhí)行效率、單節(jié)點(diǎn)計算性能,將數(shù)據(jù)脫敏任務(wù)分解為若干個子任務(wù)后,分配給對應(yīng)子節(jié)點(diǎn)進(jìn)行計算,因此可方便增加子節(jié)點(diǎn)來擴(kuò)展數(shù)據(jù)處理能力。
針對數(shù)據(jù)脫敏策略選擇,通過層次分析法[17]對用戶數(shù)據(jù)脫敏需求和提供的脫敏方法匹配度進(jìn)行了形式化描述和定量化分析。該方法以脫敏數(shù)據(jù)的隱私保護(hù)度、數(shù)據(jù)可用性、數(shù)據(jù)關(guān)聯(lián)性、時間復(fù)雜度、空間復(fù)雜度5項指標(biāo)為用戶選擇脫敏方法的判斷準(zhǔn)則,主要包括4個步驟:①建立脫敏策略選擇層次結(jié)構(gòu)模型;②構(gòu)造判斷矩陣;③層次單排序及其一致性檢驗(yàn);④層次總排序及其一致性檢驗(yàn)。
以面向文本數(shù)據(jù)的8種脫敏方法為例,對本文提出的脫敏策略執(zhí)行過程進(jìn)行描述。將決策的目標(biāo)、考慮的因素(判斷準(zhǔn)則)和決策對象按相互關(guān)系分成目標(biāo)層、準(zhǔn)則層和方案層,形成層次化結(jié)構(gòu)模型,如圖3所示。
圖3 數(shù)據(jù)脫敏策略層次結(jié)構(gòu)模型Fig.3 Hierarchical model of data masking strategy
根據(jù)用戶選擇脫敏方法的5項判斷準(zhǔn)則優(yōu)先級要求,設(shè)定構(gòu)造判斷矩陣A=(aij),aij表示第i個與第j個元素相對上一層某個因素重要性的相對權(quán)重量化值,并按下述標(biāo)度進(jìn)行賦值:aij=1,元素i與元素j對上一層次因素的重要性相同;aij=3,元素i比元素j略重要;aij=5,元素i比元素j重要;aij=7,元素i比元素j重要得多;aij=9,元素i比元素j極其重要;aij=2n,n=1,2,3,4,元素i比元素j的重要性介于aij=2n-1與aij=2n+1之間。
為分析一致性,先計算描述一個成對比較矩陣A(n>1階方陣)不一致程度的指標(biāo)CI:
式中:λmax為判斷矩陣A的最大特征值;n為矩陣A的階數(shù)。
為衡量CI的大小,引入隨機(jī)一致性指標(biāo)RI,如表2所示。
表2 隨機(jī)一致性指標(biāo)RI的數(shù)值Table 2 Values of random consistency indicator RI
定義一致性比率為CR=CI/RI,且當(dāng)一致性比率CR<0.1時,判定A能夠通過一致性檢驗(yàn),否則需重新構(gòu)造對比矩陣A。計算矩陣A的特征向量得到U=(u1,u2,u3,u4,u5),ui表示每項脫敏效果評價指標(biāo)對應(yīng)最終脫敏方法選擇的權(quán)重。
在上述基礎(chǔ)上,計算方案層對最終目標(biāo)層的總排序權(quán)向量,先需根據(jù)各脫敏方法在每個準(zhǔn)則層指標(biāo)上的比較,得到每個指標(biāo)的判斷矩陣。根據(jù)候選脫敏方法每項指標(biāo)的對比,得到方案層的多個判斷矩陣Bi,對每一個判斷矩陣進(jìn)行一致性檢驗(yàn)和計算求權(quán)向量。最終將方案層與之前準(zhǔn)則層的對比矩陣進(jìn)行權(quán)向量組合,即可得到方案層對目標(biāo)層的組合權(quán)向量,取其中權(quán)重最高者對應(yīng)的脫敏方法,即為最適合用戶需求的脫敏方案。
基于以上構(gòu)建的異構(gòu)大數(shù)據(jù)脫敏模型,本文在2類大數(shù)據(jù)脫敏應(yīng)用場景中進(jìn)行了驗(yàn)證,具體脫敏驗(yàn)證流程分別描述如下。
圖4為某銀行客戶貸款信息數(shù)據(jù)脫敏過程,其主要步驟包括:
圖4 某銀行客戶貸款信息數(shù)據(jù)脫敏過程Fig.4 Data masking process for bank customer loan information
1)用戶提交某銀行客戶貸款信息,該提交信息為Excel表格,包括姓名、性別、身份證號、籍貫、貸款金額、貸款日期、聯(lián)系方式等內(nèi)容,并選擇金融行業(yè)場景。
2)根據(jù)金融行業(yè)場景標(biāo)注的非敏感數(shù)據(jù)為性別、籍貫、貸款金額、貸款日期等,敏感數(shù)據(jù)為姓名、身份證號、聯(lián)系方式。
3)以10%的比例隨機(jī)抽取樣例數(shù)據(jù),判斷其為文本數(shù)據(jù),用戶選擇4種不可恢復(fù)文本脫敏方法(k-匿名、l-多樣性、t-保密、差分隱私)實(shí)現(xiàn)預(yù)脫敏操作。通過分析用戶需求,對準(zhǔn)則層指標(biāo)的優(yōu)先級要求為:時間復(fù)雜度>空間復(fù)雜度=隱私保護(hù)度>數(shù)據(jù)可用性>數(shù)據(jù)關(guān)聯(lián)性。
4)根據(jù)用戶設(shè)定的指標(biāo)優(yōu)先級,采用層次分析法構(gòu)建判斷矩陣A如下:
計算判斷矩陣A的最大特征值λmax=5.053,CI=0.013 25,RI=1.12,CR=0.012<0.1說明對比矩陣具有良好的一致性。該矩陣對應(yīng)的特征向量U=(-0.395 1,0.508 7,0.508 7,0.707 1,-0.041 7),對該特征向量進(jìn)行標(biāo)準(zhǔn)化,得到準(zhǔn)則層對比矩陣的權(quán)向量U0=(0.182 8,0.235 4,0.235 4,0.327 1,0.019 3)。
構(gòu)建方案層每一種脫敏方法對于準(zhǔn)則層隱私保護(hù)度、數(shù)據(jù)可用性、數(shù)據(jù)關(guān)聯(lián)性、時間復(fù)雜度、空間復(fù)雜度5項指標(biāo)的判斷矩陣,分別為B1、B2、B3、B4、B5:
經(jīng)過對B1、B2、B3、B4、B5進(jìn)行一致性檢驗(yàn),其一致性比率分別為0.005 8、0.024 3、0.024 3、0.018、0,均符合一致性要求。歸一化后的特征向量分別為:U1=(0.320 6,0.339 7,0.339 7,0),U2=(-0.257 2,0.244 5,0.249 2,0.249 2),U3=(-0.257 2,0.244 5,0.249 2,0.249 2),U4=(0.496 9,-0.251 6,-0.251 6,0),U5=(0.106 8,0.225 6,-0.421 3,-0.244 9)。
隱私保護(hù)度、數(shù)據(jù)可用性、數(shù)據(jù)關(guān)聯(lián)性、時間復(fù)雜度、空間復(fù)雜度分別為Z1、Z2、Z3、Z4、Z5。差分隱私、t-保密、l-多樣性、k-匿名分別為F1、F2、F3、F4,則Z1、Z2、Z3、Z4、Z5脫敏方法的選擇權(quán)重為(0.182 8,0.235 4,0.235 4,0.327 1,0.019 3),F(xiàn)1、F2、F3、F4對Z1、Z2、Z3、Z4、Z5的權(quán)重分別為:(0.320 6,0.339 7,0.339 7,0),(-0.257 2,0.244 5,0.249 2,0.249 2),(-0.257 2,0.244 5,0.249 2,0.249 2),(0.496 9,-0.251 6,-0.251 6,0),(0.106 8,0.225 6,-0.421 3,-0.244 9)。因此,F(xiàn)1對脫敏方法選擇的權(quán)重為:0.320 6×0.182 8-0.257 2×0.235 4-0.257 2×0.235 4+0.496 9×0.327 1+0.106 8×0.019 3=0.102 1,F(xiàn)2對脫敏方法選擇的權(quán)重為:0.339 7×0.182 8+0.244 5×0.235 4+0.244 5×0.235 4-0.251 6×0.327 1+0.225 6×0.019 3=0.099 2,F(xiàn)3對脫敏方法選擇的權(quán)重為:0.339 7×0.182 8+0.249 2×0.235 4+0.249 2×0.235 4-0.251 6×0.327 1-0.421 3×0.019 3=0.089 0,F(xiàn)4對脫敏方法選擇的權(quán)重為:0×0.182 8+0.249 2×0.235 4+0.249 2×0.235 4+0×0.327 1-0.244 9×0.019 3=0.112 6。F4方法對脫敏方法選擇的權(quán)重最大,因此最終選擇的脫敏方法為k-匿名。
5)系統(tǒng)采用k-匿名方法完成數(shù)據(jù)脫敏任務(wù)。
6)系統(tǒng)導(dǎo)出脫敏結(jié)果,將姓名、身份證號、聯(lián)系方式替換成脫敏后的內(nèi)容,并恢復(fù)成用戶提交的Excel表格格式,發(fā)送給用戶。
圖5為社交網(wǎng)絡(luò)圖片數(shù)據(jù)脫敏過程,其主要步驟包括:
圖5 社交網(wǎng)絡(luò)圖片數(shù)據(jù)脫敏過程Fig.5 Data masking process for social network pictures
1)用戶提交社交網(wǎng)絡(luò)圖片集,該提交信息為包含多個JPG文件的文件夾,圖片內(nèi)容涵蓋人臉、風(fēng)景、動物、美食、汽車,并選擇社交應(yīng)用場景。
2)根據(jù)金融行業(yè)場景標(biāo)注的非敏感數(shù)據(jù)為風(fēng)景、動物、美食、汽車,敏感數(shù)據(jù)為人臉,敏感層級為9。
3)以10%的比例隨機(jī)抽取樣例數(shù)據(jù),判斷其為圖片內(nèi)容,通過預(yù)置的2種圖片脫敏方法(換臉、高斯模糊)實(shí)現(xiàn)預(yù)脫敏操作。
4)采用層次分析法,得到上述2種方法的評價結(jié)果,并根據(jù)綜合評測推薦合適的脫敏方法為換臉方法。
5)若考慮到換臉后的圖片難以滿足業(yè)務(wù)需求,用戶實(shí)際選擇的脫敏方法為高斯模糊方法,系統(tǒng)完成數(shù)據(jù)脫敏任務(wù)。
6)系統(tǒng)導(dǎo)出脫敏結(jié)果,將原人臉替換成高斯模糊后的人臉,并保存為JPG文件,發(fā)送給用戶。
本文主要針對當(dāng)前異構(gòu)大數(shù)據(jù)中敏感信息的精準(zhǔn)定向、高效脫敏等研究難點(diǎn),提出一種在異構(gòu)大數(shù)據(jù)環(huán)境下,基于文本、圖片、音頻和數(shù)據(jù)庫等異構(gòu)數(shù)據(jù)的脫敏模型,并在實(shí)際應(yīng)用場景中進(jìn)行了驗(yàn)證,得到結(jié)論如下:
1)通過脫敏數(shù)據(jù)預(yù)處理,實(shí)現(xiàn)不同應(yīng)用場景下敏感數(shù)據(jù)的自動標(biāo)注和分級,有效降低實(shí)際應(yīng)用場景脫敏處理復(fù)雜度,更有利于脫敏數(shù)據(jù)和脫敏策略的選擇。
2)數(shù)據(jù)脫敏模型實(shí)現(xiàn)定制化脫敏策略,并利用數(shù)據(jù)預(yù)脫敏處理方法,從數(shù)據(jù)可用性、數(shù)據(jù)關(guān)聯(lián)性、隱私保護(hù)度、時間和空間復(fù)雜度等5個維度進(jìn)行脫敏效果評價。
3)通過銀行客戶貸款信息數(shù)據(jù)、社交網(wǎng)絡(luò)圖片數(shù)據(jù)脫敏應(yīng)用場景進(jìn)行驗(yàn)證,表明本文提出的異構(gòu)大數(shù)據(jù)脫敏模型能夠?qū)崿F(xiàn)不同應(yīng)用場景下異構(gòu)敏感數(shù)據(jù)的高效脫敏。