文|常津銘 楊新濤 周曉偉 陳青欽 付恒
隨著信息技術(shù)的快速發(fā)展,企業(yè)日常生產(chǎn)經(jīng)營(yíng)過(guò)程中產(chǎn)生的數(shù)據(jù)呈現(xiàn)出井噴式增長(zhǎng)。海量聚集的數(shù)據(jù)對(duì)國(guó)家安全、經(jīng)濟(jì)發(fā)展、社會(huì)治理以及人民生活等都造成了明顯變化,這導(dǎo)致數(shù)據(jù)安全的重要性提升到了前所未有的高度。如何保障數(shù)據(jù)安全不僅涉及到公民個(gè)人的隱私,同時(shí)還會(huì)影響企業(yè)的長(zhǎng)遠(yuǎn)發(fā)展和安全。因此,如何保障數(shù)據(jù)安全,確保數(shù)據(jù)不泄露,成為當(dāng)今社會(huì)亟待解決的問(wèn)題。
截至目前,很多科研機(jī)構(gòu)以及企業(yè)單位都針對(duì)此做了大量研究:王益豐, 李濤等提出一種基于人體免疫學(xué)的網(wǎng)絡(luò)風(fēng)險(xiǎn)檢測(cè)方法,給出了自體、非自體、抗體和抗原等的實(shí)現(xiàn)方式,建立抗體的克隆選擇,可有效的檢測(cè)當(dāng)前系統(tǒng)中存在的安全風(fēng)險(xiǎn);周沈剛等提出一種基于RABC的數(shù)據(jù)權(quán)限控制辦法,分析了用戶/功能的權(quán)限控制方法存在的問(wèn)題,提出了一種基于RBAC的B/S體系結(jié)構(gòu)的信息系統(tǒng)權(quán)限控制方式,實(shí)現(xiàn)了安全的權(quán)限控制;烏蘭、王京杰則通過(guò)LDA的數(shù)據(jù)模型有效過(guò)濾掉數(shù)據(jù)挖掘中的惡意數(shù)據(jù),實(shí)驗(yàn)結(jié)果表明該方法較其他傳統(tǒng)方法具有更好的檢測(cè)性能,可以保證數(shù)據(jù)的有效性;方軼,叢林虎為避免數(shù)據(jù)容易篡改以及難追溯的特性,將區(qū)塊鏈技術(shù)應(yīng)用到數(shù)據(jù)導(dǎo)彈業(yè)務(wù)數(shù)據(jù)的記錄和存儲(chǔ)過(guò)程中,并采用一定的加密技術(shù),有效的保障了數(shù)據(jù)的安全記錄與存儲(chǔ)。
上述方法都只是從技術(shù)手段做了一定管控,但技術(shù)手段總會(huì)存在缺陷,因此,本文創(chuàng)新地將技術(shù)手段與管理手段進(jìn)行結(jié)合,設(shè)計(jì)基于敏感信息檢測(cè)算法與分層分級(jí)審批的數(shù)據(jù)防泄漏模型。
本模型主要有兩個(gè)部分組成:敏感數(shù)據(jù)檢測(cè)算法、分層分級(jí)審批機(jī)制。模型整體架構(gòu)如下。
本方案使用常用的正則表達(dá)式作為敏感信息檢測(cè)算法,該算法由字符和特殊原字符組成的字符串,表示一種模式或規(guī)則。
正則表達(dá)式可以包含普通字符(例如字母、數(shù)字、標(biāo)點(diǎn)符號(hào))和特殊元字符(例如通配符、限定符、字符類)。常見(jiàn)的特殊元字符和含義如下:
1.’. ’:匹配除換行符外的任意單個(gè)字符。
2.’*’:匹配前面的元素零次或多次。
3.’+’:匹配前面的元素一次或多次。
4.’? ’:匹配前面的元素零次或一次。
5.’[]’:字符類,匹配方括號(hào)中的任意一個(gè)字符。
6.’()’:捕獲組,用于將匹配的內(nèi)容分組。
轉(zhuǎn)義字符:反斜線 用作轉(zhuǎn)義字符,用于匹配特殊字符本身。例如,.匹配句點(diǎn)字符’. ’。
錨點(diǎn):錨點(diǎn)用于描述字符串的邊界或特定位置。常見(jiàn)的錨點(diǎn)包括:
^:匹配字符串的開(kāi)始位置。
$:匹配字符串的結(jié)束位置。
:匹配單詞的邊界。
限定符:限定符用于限制前面的元素的匹配次數(shù)。常見(jiàn)的限定符包括:
{n}:匹配前面的元素恰好 n 次。
{n,}:匹配前面的元素至少 n 次。
{n,m}:匹配前面的元素至少 n 次且不超過(guò) m 次。
通過(guò)組合和使用這些元素,可以構(gòu)建復(fù)雜的正則表達(dá)式模式來(lái)匹配和操作文本數(shù)據(jù)。例如,正則表達(dá)式 ^d{3}-d{4}-d{4}$ 可以用來(lái)匹配格式為 “XXX-XXXX-XXXX” 的電話號(hào)碼。
綜上所述,正則表達(dá)式是一種用于描述文本模式的字符串,通過(guò)普通字符、特殊元字符、轉(zhuǎn)義字符、錨點(diǎn)和限定符等元素的組合使用,可以實(shí)現(xiàn)對(duì)文本的匹配和操作。
提前定義敏感字段包含的內(nèi)容,例如:姓名、手機(jī)號(hào)、身份證號(hào)等,根據(jù)不同類型敏感字段設(shè)置不同權(quán)重,根據(jù)權(quán)重設(shè)置不同閾值。例如,敏感層級(jí)越高的字段,權(quán)重越高,則可設(shè)置閾值較低,其余類型字段,權(quán)重較低,則可設(shè)置較高閾值,當(dāng)2.1的算法檢測(cè)出敏感字段的個(gè)數(shù)后,自動(dòng)與對(duì)應(yīng)閾值進(jìn)行關(guān)聯(lián)匹配,根據(jù)匹配出的數(shù)據(jù)個(gè)數(shù)高于閾值時(shí),觸發(fā)相應(yīng)閾值對(duì)應(yīng)的審批人層級(jí)進(jìn)行審批,當(dāng)?shù)陀陂撝岛?,則觸發(fā)普通審批人進(jìn)行審批,完成分層分級(jí),從而更加有效管控?cái)?shù)據(jù)安全。實(shí)現(xiàn)的基本思路如下:
1.優(yōu)先定義敏感字段包含的內(nèi)容:姓名,手機(jī)號(hào),身份證號(hào)……。
2.設(shè)置不同敏感字段權(quán)重:
Q姓名=A,Q手機(jī)號(hào)=B,Q身份證=C……。
3.比較A,B,C……的大小,針對(duì)大值優(yōu)先匹配設(shè)置閾值,代表權(quán)重值越大,敏感程度越高,優(yōu)先匹配權(quán)重較高的字段。
4.之后再匹配權(quán)值次之的字段,依次類推,直至將文件劃分為最后層級(jí)。
5.根據(jù)劃分的文件等級(jí),自動(dòng)匹配審批人,完成分層分級(jí)設(shè)置。
6.審批人審核通過(guò),使用人完成下載。
1.數(shù)據(jù)集準(zhǔn)備
考慮到本次實(shí)驗(yàn)僅僅驗(yàn)證模型可行性,因此并未設(shè)置太多復(fù)雜字段,僅僅定義手機(jī)號(hào)和姓名為敏感信息,據(jù)此,準(zhǔn)備如下4個(gè)數(shù)據(jù)集:
(1) 敏感數(shù)據(jù)集1:包含手機(jī)號(hào)30個(gè)和姓名50個(gè),文件總大小100KB左右;
(2) 敏感數(shù)據(jù)集2:僅包含手機(jī)號(hào)30個(gè),文件總大小100KB左右;
(3) 敏感數(shù)據(jù)集3、僅包含姓名50個(gè),文件總大小100KB左右;
(4)非敏感數(shù)據(jù)集4:為正常數(shù)據(jù)集,文件總大小100KB左右。
四個(gè)文件大小一致,避免因文件大小導(dǎo)致實(shí)驗(yàn)差異。
2.正則表達(dá)式構(gòu)建
根據(jù)不敏感信息類型,設(shè)計(jì)合適的正則表達(dá)式。例如:手機(jī)號(hào): r’^1[3456789]d{9}$’
(1)’^1’:手機(jī)號(hào)碼以1開(kāi)頭;
(2)’[3456789] ’:第二位為3,4,5,6,7,8,9中的任意一個(gè);
(3)’d{9}’:數(shù)字9表示手機(jī)號(hào)碼的剩余部分。
同樣,設(shè)置姓名或者其他格式的正則表達(dá)式。通過(guò)正則表達(dá)式檢測(cè)出不同敏感字段個(gè)數(shù)形成集合G={(手機(jī)號(hào),個(gè)數(shù)),(姓名,個(gè)數(shù))}。
3.分層分級(jí)審批模型設(shè)計(jì)
將手機(jī)號(hào)S定為權(quán)重較大信息,設(shè)置閾值為20;姓名X為權(quán)重較小信息,較低閾值10;同時(shí)將模型分為三個(gè)層級(jí)審批,最高層級(jí)為A審批,次之為B審批,最后為C審批。整體邏輯如下:
(1)檢測(cè)G中手機(jī)號(hào)S,若S>20,A審批;
(2)若S<=20,X>10,B審批;
(3)其余均由C審批。
4.數(shù)據(jù)導(dǎo)入模型進(jìn)行實(shí)際測(cè)試
實(shí)驗(yàn)最終現(xiàn)象為:數(shù)據(jù)集1,2均由A審批,數(shù)據(jù)集3由B審批,數(shù)據(jù)集4由C審批。
通過(guò)使用實(shí)際的數(shù)據(jù)集對(duì)模型進(jìn)行了實(shí)驗(yàn)和評(píng)估。實(shí)驗(yàn)結(jié)果表明,基于敏感信息檢測(cè)算法與分層分級(jí)審批的數(shù)據(jù)防泄漏模型,在準(zhǔn)確性和效率上都表現(xiàn)出了良好的性能。該模型能夠準(zhǔn)確識(shí)別下載數(shù)據(jù)中的敏感信息,精確度達(dá)95%以上,并根據(jù)實(shí)際情況智能匹配適當(dāng)?shù)膶徟鷮蛹?jí)進(jìn)行審核,從而確保敏感數(shù)據(jù)經(jīng)過(guò)領(lǐng)導(dǎo)層審核和批準(zhǔn),有效降低數(shù)據(jù)非法泄露風(fēng)險(xiǎn),提高了數(shù)據(jù)處理的安全性和效率。
本文主要提出一種基于敏感信息檢測(cè)算法與分層分級(jí)審批的數(shù)據(jù)防泄漏模型,一是通過(guò)正則表達(dá)式對(duì)敏感數(shù)據(jù)進(jìn)行檢測(cè),可有效識(shí)別敏感字段(如:姓名、手機(jī)號(hào)、身份證號(hào)、家庭住址等信息),數(shù)據(jù)識(shí)別能力高,誤判率低;二是提供分層分級(jí)審批能力,將敏感信息下載與審核人員的層級(jí)進(jìn)行結(jié)合,旨在降低敏感數(shù)據(jù)的泄露風(fēng)險(xiǎn)。測(cè)試結(jié)果表明,該模型在準(zhǔn)確性和效率上具有良好的性能,可以有效識(shí)別敏感信息并根據(jù)情況匹配適當(dāng)?shù)念I(lǐng)導(dǎo)層級(jí)進(jìn)行審核。未來(lái)的研究將致力于研究離網(wǎng)數(shù)據(jù)的保密性,防止離網(wǎng)數(shù)據(jù)隨意擴(kuò)散、傳播,以滿足不同領(lǐng)域和場(chǎng)景中的實(shí)際需求。