張小英
(陜西學(xué)前師范學(xué)院 圖書館,陜西 西安 710100)
不斷發(fā)展的云計算、大數(shù)據(jù)以及人工智能技術(shù),使通信領(lǐng)域的數(shù)據(jù)量呈爆炸式增長,諸如財務(wù)報告、戰(zhàn)略文檔等企業(yè)類業(yè)務(wù)敏感數(shù)據(jù)以及用戶姓名、身份證號等個人隱私數(shù)據(jù)均存在著較大的安全隱患[1],敏感信息安全問題日益凸顯,數(shù)據(jù)脫敏技術(shù)應(yīng)運而生。數(shù)字圖書資源隨著信息技術(shù)的發(fā)展而逐漸豐富[2],圖書資源服務(wù)日益創(chuàng)新,對于數(shù)字圖書資源的共享程度與服務(wù)提供,該領(lǐng)域的敏感信息重要性一目了然。
智能化的日益深入使現(xiàn)代生活方式發(fā)生了翻天覆地的變化,同時也創(chuàng)新了信息資源等數(shù)據(jù)的獲取形式,作為計算機科學(xué)與人工智能的關(guān)鍵領(lǐng)域之一,國內(nèi)學(xué)者將研究發(fā)現(xiàn)機器學(xué)習(xí)[3]在信息管理方面占據(jù)著舉足輕重的地位,其不僅賦予圖書情報系統(tǒng)強烈的沖擊感,而且為信息資源的聚類分析提供了技術(shù)支撐。同時,國外學(xué)者提出了定性和定量條件下的代價敏感近似屬性約簡問題。在此框架下設(shè)計了基于刪除和基于添加的代價敏感近似約簡算法[4]。由于傳統(tǒng)脫敏技術(shù)缺乏權(quán)限判定、敏感信息識別等過程,脫敏效果較差[5-7],因此,本文面向數(shù)字圖書資源,提出一種基于機器學(xué)習(xí)的脫敏訪問系統(tǒng)。在加密脫敏策略中,構(gòu)建密鑰統(tǒng)一管理平臺,管控脫敏、加密密鑰,提升數(shù)據(jù)安全性;注冊系統(tǒng)源數(shù)據(jù)的業(yè)務(wù)子系統(tǒng)地址與端口號,保證脫敏工作時長。
基于機器學(xué)習(xí)技術(shù)與數(shù)字圖書資源脫敏訪問系統(tǒng)的應(yīng)用場景,當(dāng)用戶利用已有賬號完成系統(tǒng)登錄時,脫敏系統(tǒng)將優(yōu)先對賬號的全部使用權(quán)限展開判定,賦予其對應(yīng)的使用功能;依據(jù)需求采集結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)資源后,利用脫敏子系統(tǒng)中的相關(guān)模塊,完成源數(shù)據(jù)劃分、預(yù)處理、敏感判定、脫敏方式選??;當(dāng)脫敏任務(wù)發(fā)生改變,對于開發(fā)、檢測、遷移以及存儲等資源主要選取靜態(tài)脫敏運行模式,針對全業(yè)務(wù)統(tǒng)一數(shù)據(jù)中心等數(shù)據(jù)分析系統(tǒng),主要以代理方式執(zhí)行動態(tài)脫敏策略,最終實現(xiàn)數(shù)字圖書資源脫敏訪問。若無新的數(shù)據(jù)資源或者配置需求,則在脫敏訪問系統(tǒng)內(nèi)存儲脫敏方法與脫敏任務(wù),為后續(xù)調(diào)用與執(zhí)行做準備。整體框架如圖1所示。
圖1 數(shù)字圖書資源脫敏訪問系統(tǒng)整體框架
在數(shù)據(jù)資源脫敏子系統(tǒng)中,采集經(jīng)過分類與預(yù)處理的源數(shù)據(jù),展開脫敏判定及對應(yīng)脫敏策略選取,該子系統(tǒng)的運行流程如圖2所示。
圖2 數(shù)字圖書資源脫敏子系統(tǒng)運行流程圖
數(shù)字圖書資源脫敏子系統(tǒng)中相關(guān)模塊的具體工作內(nèi)容描述如下。
(1)源數(shù)據(jù)劃分模塊:為避免大量敏感數(shù)據(jù)影響識別精度,分別根據(jù)不同種數(shù)據(jù)資源的文件格式,劃分源數(shù)據(jù)為5種數(shù)據(jù)類型,分別是文本、圖片、語音、視頻以及結(jié)構(gòu)化數(shù)據(jù);或者根據(jù)不同的源業(yè)務(wù)系統(tǒng),劃分源數(shù)據(jù)為規(guī)劃、建設(shè)、維修、運行等非結(jié)構(gòu)化數(shù)據(jù)[8-9]。針對以上2種源數(shù)據(jù)分類形式,編寫對應(yīng)執(zhí)行代碼。
(2)源數(shù)據(jù)預(yù)處理模塊:通過匹配獲取的數(shù)字圖書資源數(shù)據(jù)特征,識別其中含有的敏感數(shù)據(jù)。一般情況下,采集到的樣本資源質(zhì)量較差,故利用預(yù)處理模塊中的預(yù)處理、迭代聚類以及資源數(shù)據(jù)泛化3個部分,濾除冗余及無效數(shù)據(jù)資源,加快后續(xù)敏感資源識別與脫敏執(zhí)行的運行速度。
輸入輸出參數(shù)與結(jié)構(gòu)等,設(shè)置預(yù)處理部分的實例初始化子模塊與標記增加子模塊,實現(xiàn)該部分各項功能。如表1所示。
表1 預(yù)處理部分相關(guān)信息統(tǒng)計表
關(guān)于迭代聚類部分的距離運算子模塊、聚類中心運算子模塊、聚類細化子模塊、聚類結(jié)果的整合子模塊及其處理子模塊,與之對應(yīng)的輸入輸出參數(shù)、功能以及數(shù)據(jù)結(jié)構(gòu)等信息如表2所示。
表2 迭代聚類部分相關(guān)信息統(tǒng)計表
針對資源數(shù)據(jù)泛化部分,利用下表中的信息,完成輸入輸出參數(shù)以及數(shù)據(jù)結(jié)構(gòu)等設(shè)置,泛化聚類后的數(shù)據(jù)標準標識符屬性[10]。如表3所示。
表3 資源數(shù)據(jù)泛化子模塊相關(guān)信息統(tǒng)計表
(3)敏感資源判定模塊:作為資源脫敏的重要前提條件,該模塊將采用不同的敏感特征提取策略,處理對應(yīng)文件格式數(shù)據(jù)資源,經(jīng)分類訓(xùn)練樣本數(shù)據(jù)與源數(shù)據(jù),構(gòu)建敏感資源數(shù)據(jù)庫。具體流程如圖3所示。
圖3 敏感資源判定模塊運行流程圖
(4)相應(yīng)脫敏方式選?。好撁舴椒ㄍǔ7譃镽P(Replacement,替換)、EC(Encryption,加密)、MK(Masking,掩蓋)、DL(Deletion,刪除)、CG(Change,轉(zhuǎn)換)以及SF(Shuffle,混淆)等[11]。將源數(shù)據(jù)的敏感資源全部替換成偽裝過的數(shù)據(jù)資源即為替換脫敏方法,偽裝數(shù)據(jù)資源通常具有不可逆性,確保圖書資源安全;在系統(tǒng)具備解密能力的特定場景中,采取加密脫敏模式[6];若只想公開部分敏感資源數(shù)據(jù)內(nèi)容,則由掩蓋脫敏策略實現(xiàn),該策略通過掩飾符號[12]來遮蓋部分敏感資源內(nèi)容;刪除脫敏法就是直接把敏感資源刪掉;在確保初始數(shù)據(jù)相關(guān)統(tǒng)計屬性的前提下偽裝指定資源時,利用轉(zhuǎn)換脫敏法可控調(diào)整源數(shù)據(jù);為瓦解當(dāng)前資源與其他資源間的關(guān)系,采用混淆脫敏策略,隨機互換敏感資源。
關(guān)于加密脫敏模式,需在脫敏訪問系統(tǒng)中添加一個脫敏密鑰管理平臺,如圖4所示。
圖4 脫敏密鑰管理平臺示意圖
管理數(shù)字圖書資源的映射、計算、密鑰以及脫敏策略,調(diào)度前端訪問代理組件。對訪問網(wǎng)關(guān)組件實施串行部署,攔截前端數(shù)據(jù)與解析申請,識別敏感資源訪問行為,實現(xiàn)數(shù)據(jù)的加解密。
根據(jù)選取的脫敏方法與相關(guān)參數(shù),編寫脫敏代碼,將使用場景作為脫敏策略的實現(xiàn)依據(jù):針對靜態(tài)脫敏,通過一系列脫敏流程,在本地緩存脫敏結(jié)果,若目標系統(tǒng)對敏感資源有所需,則注冊敏感訪問系統(tǒng)源數(shù)據(jù)的業(yè)務(wù)子系統(tǒng)地址與端口號如圖5所示。發(fā)送本地存儲的脫敏資源給目標系統(tǒng);針對動態(tài)脫敏,注冊敏感訪問系統(tǒng)源數(shù)據(jù)的業(yè)務(wù)子系統(tǒng)地址、端口號以及使用賬號后,傳輸脫敏代碼至代理服務(wù)器,經(jīng)過代理服務(wù)器的線上資源脫敏,通過系統(tǒng)處理中心發(fā)送脫敏結(jié)果給目標系統(tǒng),為目標系統(tǒng)的圖書資源申請用戶提供使用。數(shù)字圖書資源脫敏訪問子系統(tǒng)運行流程如圖6所示。
圖5 注冊敏感訪問系統(tǒng)流程圖
圖6 數(shù)字圖書資源脫敏訪問子系統(tǒng)運行流程
本文系統(tǒng)運行環(huán)境的軟硬件具體參數(shù)如表4所示。
表4 資源脫敏訪問系統(tǒng)軟硬件參數(shù)
為驗證系統(tǒng)的脫敏有效性,采用信息熵、資源多樣性以及方差3種指標進行評估,各指標具體描述如下。
(1)
(2)
經(jīng)過脫敏的熵值變化概率一般會降至1以下。
(2)資源多樣性Diversity指標(Diversity):該指標利用屬性值類型來反映資源內(nèi)容多樣性。假設(shè)結(jié)構(gòu)化數(shù)據(jù)表T(D)共有C行,資源文件T的第di列屬性值樣本共有ci類,則資源文件T多樣性DiversityT的計算式如式(3)。
(3)
(4)
(3)方差V指標(Variance):該指標主要用于衡量差分隱私脫敏前后的資源有效性損失。假定用戶感興趣屬性為結(jié)構(gòu)化數(shù)據(jù)表T(D)的前m項,其對應(yīng)笛卡爾積表達式如式(5)。
Dc=d1*d2*…*dm
(5)
利用下列各項表達式分別界定脫敏前后的笛卡爾積各元素統(tǒng)計計數(shù),為式(6)、式(7)。
H=(h1,h2,h3,…)
(6)
(7)
由式(6)、式(7)推導(dǎo)出下列初始圖書資源方差計算式為式(8)。
(8)
針對本文系統(tǒng)主要功能模塊展開檢測,整理得到下列系統(tǒng)功能檢測結(jié)果統(tǒng)計表如表5所示。
表5 資源脫敏訪問系統(tǒng)功能模塊運行結(jié)果統(tǒng)計表
根據(jù)資源脫敏訪問系統(tǒng)功能模塊運行結(jié)果可知,本文系統(tǒng)的主要功能模塊運行順利,且與預(yù)期結(jié)果相吻合,說明系統(tǒng)運行環(huán)境較為理想,降低了系統(tǒng)對后續(xù)敏感資源脫敏階段的干擾,提升了脫敏結(jié)果的可靠性。
數(shù)字圖書的脫敏資源共分為基本個人資料和行為數(shù)據(jù)兩種,該實驗階段以姓名、職業(yè)、工作單位、聯(lián)系電話等用戶個人資源的敏感信息為例,分析本文系統(tǒng)脫敏效果。脫敏前后的用戶個人資料統(tǒng)計表,分別如表6、表7所示。
表6 脫敏前用戶個人資料統(tǒng)計表
表7 脫敏后用戶個人資料統(tǒng)計表
本文系統(tǒng)各評價指標隨目標脫敏資源數(shù)量的變化情況如圖7所示。
圖7 各評估指標曲線示意圖
結(jié)合上列圖表可以看出,由于本文系統(tǒng)利用脫敏子系統(tǒng)中的源數(shù)據(jù)劃分模塊,劃分了源數(shù)據(jù)種類,有效抑制了大量敏感數(shù)據(jù)對識別精度的影響,采用預(yù)處理模塊中的預(yù)處理、迭代聚類以及資源數(shù)據(jù)泛化3個部分,濾除了冗余及無效數(shù)據(jù)資源,使敏感資源識別與脫敏速度得以提升,系統(tǒng)敏感資源判定模塊通過提取資源敏感特征,完成了圖書資源敏感程度的有效判定,經(jīng)選取的脫敏方式脫敏處理后,大幅優(yōu)化了信息熵等評估指標,具有顯著的脫敏精度與速率優(yōu)勢。
數(shù)字化技術(shù)與互聯(lián)網(wǎng)技術(shù)迅猛發(fā)展,數(shù)字圖書逐漸普及。其中含有的大量敏感信息不僅隱藏著巨大的商業(yè)價值,而且還帶來了嚴峻的數(shù)據(jù)安全問題,為此,本文以機器學(xué)習(xí)為技術(shù)支持,提出一種數(shù)字圖書資源脫敏訪問系統(tǒng)。應(yīng)依據(jù)實際應(yīng)用中的用戶端訪問并發(fā)數(shù),合理添加運行平臺帶寬、運算數(shù)據(jù),均衡系統(tǒng)負載;嘗試在系統(tǒng)中引入個性化服務(wù)功能,將潛在的興趣圖書資源按期推送至用戶郵箱中,充分利用數(shù)字資源,為用戶提供優(yōu)越的體驗感;為更有效地選取圖書資源、優(yōu)化系統(tǒng),需增加管理員聯(lián)系方式,大量采集反饋信息。該訪問系統(tǒng)為今后的信息、知識以及情報數(shù)據(jù)等脫敏訪問策略奠定了夯實的數(shù)據(jù)基礎(chǔ)與理論依據(jù)。