張 濤
(中國移動通信集團安徽有限公司網(wǎng)絡(luò)部,安徽 合肥 230088)
大數(shù)據(jù)時代,數(shù)據(jù)資產(chǎn)已成為企業(yè)的核心發(fā)展要素之一。數(shù)據(jù)共享是企業(yè)想要進一步發(fā)揮數(shù)據(jù)價值的必然選擇,只有將數(shù)據(jù)整合、分析和挖掘,才能實現(xiàn)從量變到質(zhì)變的飛躍。然而,現(xiàn)實中數(shù)據(jù)往往分散在各個應(yīng)用系統(tǒng)中,形成了“數(shù)據(jù)孤島”。數(shù)據(jù)分散較為嚴(yán)重,分散的數(shù)據(jù)無法挖掘出數(shù)據(jù)的巨大價值。數(shù)據(jù)只有開放共享,才能談如何利用數(shù)據(jù)促發(fā)展。
近年來,數(shù)據(jù)泄露事件頻發(fā)。例如,2018年3月,F(xiàn)acebook被曝有超過5 000萬名用戶資料遭“劍橋分析”公司非法用來發(fā)送政治廣告。各部門擔(dān)心數(shù)據(jù)共享開放會引起信息安全問題,擔(dān)心數(shù)據(jù)泄密和失控,不敢把自己掌握的數(shù)據(jù)資源向他人共享開放,阻礙了數(shù)據(jù)共享的進行,也讓企業(yè)網(wǎng)絡(luò)信息安全管理工作壓力倍增[1]。因此,迫切需要建立相應(yīng)的數(shù)據(jù)共享安全管理體系,同時利用技術(shù)手段完善數(shù)據(jù)共享安全管控,以打破部門間、地區(qū)間的信息保護,做到真正的數(shù)據(jù)信息共享[2]。
數(shù)據(jù)資產(chǎn)管理是數(shù)據(jù)安全治理的基礎(chǔ)。摸清數(shù)據(jù)資產(chǎn)家底首先需要制定數(shù)據(jù)分級規(guī)范,即確定數(shù)據(jù)級別與數(shù)據(jù)內(nèi)容的對應(yīng)關(guān)系。根據(jù)數(shù)據(jù)敏感級別分為關(guān)鍵級、重要級、較重要級和一般級。如原始信令碼流包含較多用戶個人隱私信息,數(shù)據(jù)級別定義為關(guān)鍵級。其次,根據(jù)數(shù)據(jù)規(guī)則定義通過數(shù)據(jù)文件掃描或數(shù)據(jù)流量采樣等技術(shù)手段實現(xiàn)數(shù)據(jù)資產(chǎn)自發(fā)現(xiàn)和數(shù)據(jù)分級。最后,按照數(shù)據(jù)分級級別,落實不同安全防護級別的數(shù)據(jù)安全管控措施。
數(shù)據(jù)共享就是讓分散在各個應(yīng)用系統(tǒng)中的數(shù)據(jù)進行各種操作、運算和分析。實現(xiàn)數(shù)據(jù)共享,可以減少數(shù)據(jù)采集等重復(fù)工作,打破系統(tǒng)間數(shù)據(jù)共享壁壘,從而把重心放在數(shù)據(jù)關(guān)聯(lián)分析、數(shù)據(jù)價值挖掘及業(yè)務(wù)增值開發(fā)等領(lǐng)域。
現(xiàn)實情況是,由于擔(dān)心數(shù)據(jù)泄露等安全事件發(fā)生,各系統(tǒng)產(chǎn)生的數(shù)據(jù)難以實現(xiàn)真正的數(shù)據(jù)共享。因此,要想發(fā)揮數(shù)據(jù)資產(chǎn)的價值,需要制定數(shù)據(jù)共享審批的審批規(guī)則。
數(shù)據(jù)共享審批內(nèi)容應(yīng)包含共享的數(shù)據(jù)類型、共享的數(shù)據(jù)級別、數(shù)據(jù)共享形式及傳輸方式,按照數(shù)據(jù)共享遵循“按需最小化共享”的原則,評審共享的數(shù)據(jù)范圍、數(shù)據(jù)字段需求、數(shù)據(jù)共享的時間粒度及數(shù)據(jù)共享的時限范圍等。依據(jù)評審結(jié)果,形成數(shù)據(jù)共享詳細(xì)方案。
數(shù)據(jù)共享審批通過后,依據(jù)數(shù)據(jù)共享審批結(jié)果制定數(shù)據(jù)共享規(guī)則庫,如表1所示。規(guī)則庫包含源地址、目的地址、數(shù)據(jù)標(biāo)簽、數(shù)據(jù)內(nèi)容、共享數(shù)據(jù)字段、創(chuàng)建時間、失效時間、數(shù)據(jù)級別、數(shù)據(jù)傳輸頻次、數(shù)據(jù)傳輸協(xié)議類型及創(chuàng)建事由等。
表1 數(shù)據(jù)共享規(guī)則庫
針對數(shù)據(jù)共享過程中數(shù)據(jù)泄露之后無法追溯的痛點,通過數(shù)據(jù)標(biāo)簽標(biāo)識合法授權(quán)數(shù)據(jù)共享信息流,依據(jù)數(shù)據(jù)共享規(guī)則庫及時發(fā)現(xiàn)非法獲取數(shù)據(jù)信息流。
數(shù)據(jù)標(biāo)簽通常是不可察的,它與數(shù)據(jù)共享數(shù)據(jù)塊緊密結(jié)合并隱藏其中,成為源數(shù)據(jù)不可分離的一部分,并經(jīng)過不破壞源數(shù)據(jù)使用價值的操作保存下來。數(shù)據(jù)標(biāo)簽需要加強保密性和可用性,確保溯源操作的100%可執(zhí)行。
通過專用密鑰對合法授權(quán)的數(shù)據(jù)共享規(guī)則加密[3],生成對應(yīng)數(shù)據(jù)共享的獨有數(shù)據(jù)標(biāo)簽,每一個數(shù)據(jù)標(biāo)簽對應(yīng)一個合法授權(quán)的數(shù)據(jù)共享。為加強數(shù)據(jù)標(biāo)簽的保密性,每生成一個數(shù)據(jù)標(biāo)簽對應(yīng)采用一個獨有的密鑰。生成數(shù)據(jù)標(biāo)簽后通過padding的方式,附著在數(shù)據(jù)共享數(shù)據(jù)塊上。對于數(shù)據(jù)敏感級別高的,可以采用在數(shù)據(jù)塊隨機位置嵌入數(shù)據(jù)標(biāo)簽,以確保數(shù)據(jù)標(biāo)簽的保密性。數(shù)據(jù)標(biāo)簽生成過程,如圖1所示。
在網(wǎng)絡(luò)環(huán)境下,在數(shù)據(jù)傳輸鏈路上部署探針實時采集數(shù)據(jù)信息流。對于合法授權(quán)的數(shù)據(jù)共享數(shù)據(jù)流,由于數(shù)據(jù)共享規(guī)則庫記錄了源、目的IP地址信息及數(shù)據(jù)標(biāo)簽,再結(jié)合數(shù)據(jù)標(biāo)簽嵌入位置信息,可以實時識別出合法授權(quán)的數(shù)據(jù)共享數(shù)據(jù)流。而對于非法的數(shù)據(jù)共享數(shù)據(jù)流,即使其偽造數(shù)據(jù)標(biāo)簽,也無法做到與數(shù)據(jù)共享規(guī)則庫及嵌入數(shù)據(jù)標(biāo)簽位置同時一致。在實際應(yīng)用中,通過模板的方式為數(shù)據(jù)共享定制數(shù)據(jù)共享規(guī)則和嵌入數(shù)據(jù)標(biāo)簽方式。數(shù)據(jù)敏感級別高的數(shù)據(jù)共享,使用保密系數(shù)高的加密算法和隨機位置嵌入數(shù)據(jù)標(biāo)簽。
圖1 數(shù)據(jù)標(biāo)簽生成過程
在實際部署時,數(shù)據(jù)共享溯源監(jiān)控范圍可能無法覆蓋所有數(shù)據(jù)傳輸鏈路及數(shù)據(jù)導(dǎo)出等應(yīng)用場景。如僅獲取到需要溯源的文件,由于無源、目的IP地址,無法直接與數(shù)據(jù)共享規(guī)則庫直接匹配。因而,采用比對密鑰信息和嵌入數(shù)據(jù)標(biāo)簽位置信息,經(jīng)過相似度匹配后,解密數(shù)據(jù)標(biāo)簽后可以實際獲得數(shù)據(jù)泄密的源頭。數(shù)據(jù)共享文件溯源過程,如圖2所示。
共享數(shù)據(jù)溯源系統(tǒng)核心系統(tǒng)為數(shù)據(jù)溯源管理系統(tǒng)和數(shù)據(jù)標(biāo)簽分發(fā)中心。數(shù)據(jù)標(biāo)簽分發(fā)中心依據(jù)數(shù)據(jù)共享審批結(jié)果,給合法授權(quán)的數(shù)據(jù)共享信息流分配數(shù)據(jù)標(biāo)簽。針對數(shù)據(jù)敏感級別高的系統(tǒng),可采用強加密算法來加密生成數(shù)據(jù)標(biāo)簽,同時采用隨機嵌入數(shù)據(jù)標(biāo)簽的方式。數(shù)據(jù)敏感級別不高的系統(tǒng),可采用普通加密算法來加密生成數(shù)據(jù)標(biāo)簽和固定位置嵌入數(shù)據(jù)標(biāo)簽的方式。數(shù)據(jù)標(biāo)簽及嵌入數(shù)據(jù)標(biāo)簽位置信息分發(fā)過程采用數(shù)字證書分發(fā),以確保數(shù)據(jù)標(biāo)簽信息分發(fā)的安全性。數(shù)據(jù)標(biāo)簽分發(fā)中心在分發(fā)給系統(tǒng)數(shù)據(jù)標(biāo)簽信息的同時,將數(shù)據(jù)標(biāo)簽信息同步發(fā)送給數(shù)據(jù)溯源管理系統(tǒng)。數(shù)據(jù)溯源管理系統(tǒng)通過部署在數(shù)據(jù)傳輸鏈路上的探針實時采集數(shù)據(jù)信息流,在剔除掉正常業(yè)務(wù)交互信息流(如信令交互等)的情況下,依據(jù)數(shù)據(jù)共享規(guī)則庫和數(shù)據(jù)標(biāo)簽位置信息實時發(fā)現(xiàn)非法的數(shù)據(jù)共享。對于僅獲取到需要溯源文件的情況,由于無源、目的IP地址信息作為參考,無法直接與數(shù)據(jù)共享規(guī)則庫直接匹配。因此,此時采用比對密鑰信息及嵌入數(shù)據(jù)標(biāo)簽位置信息,經(jīng)過相似度匹配后解密數(shù)據(jù)標(biāo)簽,以達到追蹤溯源的目的。共享數(shù)據(jù)溯源系統(tǒng)部署,如圖3所示。
圖2 數(shù)據(jù)共享文件溯源過程
圖3 共享數(shù)據(jù)溯源系統(tǒng)部署
如圖4所示,采集到數(shù)據(jù)信息流后,通過源、目的地址可以唯一索引到數(shù)據(jù)標(biāo)簽的位置信息,進而獲取到數(shù)據(jù)標(biāo)簽。之后將數(shù)據(jù)共享規(guī)則庫中源地址、目的地址、數(shù)據(jù)標(biāo)簽與采集數(shù)據(jù)信息流中的對應(yīng)信息進行匹配,如出現(xiàn)不匹配情況(正常情況下,應(yīng)完全匹配),即可判定為非法數(shù)據(jù)共享,對相應(yīng)的源系統(tǒng)和目的系統(tǒng)進行標(biāo)識并發(fā)出告警。當(dāng)上述信息完全匹配,通過一段時間的連續(xù)采集,進一步判定數(shù)據(jù)內(nèi)容、共享數(shù)據(jù)字段、傳輸頻次及傳輸協(xié)議類型等信息是否與數(shù)據(jù)共享規(guī)則庫一致,如出現(xiàn)不匹配情況,可判定為合法數(shù)據(jù)共享的違規(guī)操作,對相關(guān)情況予以記錄,并通過日志記錄違規(guī)操作行為。數(shù)據(jù)共享管理部門可據(jù)此督促源系統(tǒng)整改相關(guān)的違規(guī)操作行為,對于非法數(shù)據(jù)共享應(yīng)立即采取措施關(guān)閉數(shù)據(jù)共享,情節(jié)嚴(yán)重的可依據(jù)法律法規(guī)追究相關(guān)人員的責(zé)任。
圖4 共享數(shù)據(jù)溯源流程
本文提出了一種基于數(shù)據(jù)標(biāo)簽的共享數(shù)據(jù)溯源方法,通過數(shù)據(jù)標(biāo)簽信息來標(biāo)記合法授權(quán)的數(shù)據(jù)共享信息流,結(jié)合數(shù)據(jù)共享規(guī)則特征庫和嵌入數(shù)據(jù)標(biāo)簽位置信息來進行非法數(shù)據(jù)共享數(shù)據(jù)信息流的追蹤溯源,并可對合法授權(quán)的數(shù)據(jù)共享信息流的違規(guī)操作進行追蹤。