關(guān)鍵詞:數(shù)據(jù)安全;數(shù)據(jù)防泄露;網(wǎng)絡(luò)安全;數(shù)據(jù)識(shí)別;元數(shù)據(jù)
0 引言
鉆井?dāng)?shù)據(jù)是指鉆井企業(yè)在石油勘探和開(kāi)采過(guò)程中收集的有用數(shù)據(jù),這些數(shù)據(jù)對(duì)于評(píng)估石油儲(chǔ)藏量、設(shè)計(jì)鉆井方案和優(yōu)化工藝都有極高的利用價(jià)值。鉆井?dāng)?shù)據(jù)包含的內(nèi)容主要有以下幾類(lèi)[1]:
1) 地質(zhì)數(shù)據(jù):包括鉆井的地理位置坐標(biāo)、所屬地塊,以及鉆井區(qū)域的巖石類(lèi)型、各類(lèi)巖層厚度、組成、孔隙率、滲透性和巖心取樣數(shù)據(jù),以及聲波測(cè)井、伽馬射線(xiàn)測(cè)井等數(shù)據(jù)。這些數(shù)據(jù)有助于設(shè)計(jì)適合的鉆井方案,調(diào)配適當(dāng)?shù)你@具,采用適合的技術(shù)。
2) 生產(chǎn)測(cè)試數(shù)據(jù):包括產(chǎn)量測(cè)試、壓力測(cè)試和樣本分析等,這些數(shù)據(jù)對(duì)于評(píng)估油井的生產(chǎn)潛力和產(chǎn)出價(jià)值有很高的參考價(jià)值。
3) 鉆井參數(shù):包括鉆具選擇,以及設(shè)定并記錄的鉆井速度、鉆壓、泵速等操作參數(shù)。這些數(shù)據(jù)對(duì)于監(jiān)測(cè)鉆井過(guò)程、保障安全生產(chǎn),改進(jìn)鉆井效率及為優(yōu)化同區(qū)域后繼鉆井作業(yè)非常重要。
4) 井身軌跡:包括鉆進(jìn)的方向、深度和井眼軌跡。這對(duì)于準(zhǔn)確地定位油藏位置是必不可少的。
這些鉆井?dāng)?shù)據(jù)的收集貫穿在勘探和開(kāi)發(fā)的各個(gè)階段,對(duì)于提高鉆井效率、降低生產(chǎn)成本、保障安全生產(chǎn)、優(yōu)化鉆井方案具有極高的利用價(jià)值,是鉆井企業(yè)的核心數(shù)據(jù)資產(chǎn)。鉆井?dāng)?shù)據(jù)發(fā)生泄露,尤其是地理位置、生產(chǎn)成本和產(chǎn)量預(yù)測(cè)等數(shù)據(jù)如果被競(jìng)爭(zhēng)對(duì)手掌握,就會(huì)極大地影響企業(yè)的競(jìng)爭(zhēng)力和盈利能力[2]。
長(zhǎng)慶油田于2022年成為我國(guó)第一大油田。其勘探范圍達(dá)到37萬(wàn)平方公里,覆蓋了5個(gè)省、16個(gè)地級(jí)市和61個(gè)縣(旗)。鉆井隊(duì)遍布這片廣袤的區(qū)域。長(zhǎng)慶鉆井總公司的信息中心每天收到來(lái)自各個(gè)井隊(duì)產(chǎn)生的各類(lèi)鉆井?dāng)?shù)據(jù)。其網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)高度分散,層級(jí)多。2023年,長(zhǎng)慶鉆井公司加強(qiáng)了對(duì)鉆井?dāng)?shù)據(jù)的治理,部分開(kāi)展了分類(lèi)分級(jí)工作,制訂了鉆井?dāng)?shù)據(jù)分類(lèi)分級(jí)的模板,并進(jìn)行了小范圍試用[3]。
1 企業(yè)數(shù)據(jù)防泄露EDLP 系統(tǒng)的設(shè)計(jì)
在完成鉆井?dāng)?shù)據(jù)的分類(lèi)分級(jí)后,非常重要的一項(xiàng)工作是根據(jù)數(shù)據(jù)分類(lèi)分級(jí)的結(jié)果確定數(shù)據(jù)的合規(guī)操作,而企業(yè)數(shù)據(jù)防泄露是其中不可或缺的一環(huán)。
2022年5月31日,在中國(guó)計(jì)算機(jī)學(xué)會(huì)抗惡劣環(huán)境計(jì)算機(jī)專(zhuān)業(yè)委員會(huì)的指導(dǎo)下,由中國(guó)電子科技集團(tuán)公司第十五研究所(信息產(chǎn)業(yè)信息安全測(cè)評(píng)中心)、安全牛和谷安研究院聯(lián)合發(fā)起編制了《數(shù)據(jù)防泄露(DLP) 選型指南》報(bào)告[4]。報(bào)告中指出,企業(yè)數(shù)據(jù)防泄露(EDLP)系統(tǒng)的設(shè)計(jì)目標(biāo)是對(duì)企業(yè)重要數(shù)據(jù)進(jìn)行監(jiān)控,杜絕非法訪問(wèn)和不合規(guī)使用,協(xié)助安全管理人員降低企業(yè)數(shù)據(jù)泄露和丟失的風(fēng)險(xiǎn)。同時(shí),EDLP系統(tǒng)具有功能復(fù)雜多樣、對(duì)處理性能要求較高的特點(diǎn),既要保證數(shù)據(jù)的安全,又不能讓過(guò)于煩瑣的監(jiān)控影響數(shù)據(jù)使用的便捷性。
本文以指南為參考,開(kāi)展了企業(yè)數(shù)據(jù)防泄露(En?terprise Data Loss Prevention,EDLP) 系統(tǒng)的設(shè)計(jì)與開(kāi)發(fā)工作。EDLP系統(tǒng)不僅涉及技術(shù),還需要有配套的操作流程。解決方案包括監(jiān)控用戶(hù)行為,檢測(cè)和阻止來(lái)自?xún)?nèi)部或外部網(wǎng)絡(luò)及智能終端設(shè)備對(duì)數(shù)據(jù)存儲(chǔ)系統(tǒng)中敏感信息的不合規(guī)行為,保護(hù)數(shù)據(jù)資產(chǎn)的安全和完整。
1) 數(shù)據(jù)識(shí)別:首先需要從每天存儲(chǔ)和生成的數(shù)據(jù)中識(shí)別出敏感數(shù)據(jù)。識(shí)別的手段可以采用關(guān)鍵詞匹配、數(shù)據(jù)格式匹配、正則表達(dá)式、決策樹(shù)等機(jī)器學(xué)習(xí)方法。
2) 數(shù)據(jù)分類(lèi)分級(jí):依據(jù)數(shù)據(jù)分類(lèi)分級(jí)的模板,找出敏感數(shù)據(jù)所在的安全等級(jí),按照數(shù)據(jù)合規(guī)操作規(guī)范確認(rèn)哪些行為是受限制的,哪些行為是被允許的。
3) 數(shù)據(jù)監(jiān)控:在企業(yè)網(wǎng)絡(luò)中的各個(gè)出口安插DLP 工具,例如存儲(chǔ)設(shè)備的外部接口、網(wǎng)絡(luò)訪問(wèn)、電子郵件、智能設(shè)備的App訪問(wèn)等,對(duì)內(nèi)部和外部的通信進(jìn)行實(shí)時(shí)監(jiān)控,保障數(shù)據(jù)安全。
4) 系統(tǒng)響應(yīng):當(dāng)EDLP系統(tǒng)發(fā)現(xiàn)違規(guī)操作時(shí),可自動(dòng)采取預(yù)定義的措施進(jìn)行響應(yīng),阻止違規(guī)行為,包括自動(dòng)斷網(wǎng)阻止數(shù)據(jù)流動(dòng)、提示用戶(hù)越界、通知管理員等。
5) 報(bào)告和審計(jì):系統(tǒng)提供所有發(fā)生事件的詳細(xì)的報(bào)告和日志,幫助安全管理人員復(fù)查系統(tǒng)漏洞,改進(jìn)安全措施,并為追究肇事者的法律責(zé)任提供呈堂證供。
如圖1所示,EDLP系統(tǒng)主要包含以下3個(gè)功能模塊:
1) 網(wǎng)絡(luò)DLP(Network DLP) 模塊:主要針對(duì)在企業(yè)網(wǎng)絡(luò)中傳輸?shù)臄?shù)據(jù)進(jìn)行監(jiān)控,包括幾乎所有常見(jiàn)類(lèi)型的網(wǎng)絡(luò)通信,例如網(wǎng)頁(yè)瀏覽、FTP、電子郵件、微信及QQ等即時(shí)通信軟件、社交媒體等。網(wǎng)絡(luò)DLP能夠識(shí)別保密數(shù)據(jù),并自動(dòng)阻斷其發(fā)送或接收,從網(wǎng)絡(luò)層面防止數(shù)據(jù)泄露。在企業(yè)網(wǎng)絡(luò)中,在出入口處設(shè)置了一個(gè)DLP,用于解析和監(jiān)控流經(jīng)的網(wǎng)絡(luò)數(shù)據(jù)包。本文采用的是MYDLP,該軟件可以解析常見(jiàn)的文件格式,如Excel、PPT、Word、PDF等。本文設(shè)計(jì)了專(zhuān)用于識(shí)別鉆井?dāng)?shù)據(jù)的算法,例如基于決策樹(shù)、隨機(jī)森林的鉆井液數(shù)據(jù)識(shí)別算法等,還梳理出一些基于正則表達(dá)式的規(guī)則用于檢測(cè)數(shù)據(jù)內(nèi)容。
2) 服務(wù)器DLP(Server DLP) 模塊:主要針對(duì)存儲(chǔ)在數(shù)據(jù)庫(kù)、文獻(xiàn)庫(kù)、檔案庫(kù)的服務(wù)器或云平臺(tái)中的數(shù)據(jù),通過(guò)掃描并識(shí)別存儲(chǔ)在這些設(shè)備中的保密數(shù)據(jù)的存儲(chǔ)位置,顆粒度可以精確到數(shù)據(jù)庫(kù)中的某些表,甚至某些字段,以實(shí)施精準(zhǔn)的讀寫(xiě)控制或數(shù)據(jù)掩碼,從服務(wù)器、云平臺(tái)的層面保證數(shù)據(jù)安全。在服務(wù)器上安裝了OpenDLP,并將鉆井?dāng)?shù)據(jù)識(shí)別算法安裝到OpenDLP中,通過(guò)掃描本地存儲(chǔ),找出敏感數(shù)據(jù)的精確位置進(jìn)行保護(hù)。
3) 終端DLP(Endpoint DLP) 模塊:主要是面向用戶(hù)終端設(shè)備的數(shù)據(jù)防泄露,例如用戶(hù)工作站主機(jī)、筆記本電腦、云終端、智能移動(dòng)設(shè)備、打印機(jī)等。阻止用戶(hù)將保密數(shù)據(jù)復(fù)制或打印到外部設(shè)備,或?qū)ν鈴?fù)制打印的數(shù)據(jù)進(jìn)行數(shù)據(jù)掩碼,屏蔽真實(shí)數(shù)據(jù)的外漏。此部分可以使用成熟的商業(yè)軟件,例如綠盟或啟明星辰等,并根據(jù)廠家提供的API或規(guī)則庫(kù)接口寫(xiě)入自定義的鉆井?dāng)?shù)據(jù)識(shí)別算法。
2 面向鉆井?dāng)?shù)據(jù)的識(shí)別方法
在網(wǎng)絡(luò)DLP,服務(wù)器DLP和終端DLP模塊中都需要數(shù)據(jù)識(shí)別,判定是否為敏感數(shù)據(jù)。對(duì)于數(shù)據(jù)識(shí)別可以采用多種方法:
1) 在數(shù)據(jù)庫(kù)系統(tǒng)中可以采用讀取元數(shù)據(jù)的方法來(lái)了解數(shù)據(jù)庫(kù)表,字段的信息。通過(guò)檢索訪問(wèn)控制表(ACL)來(lái)判定是否用戶(hù)有權(quán)限訪問(wèn)數(shù)據(jù)。
2) 通過(guò)分析與特定用戶(hù)或設(shè)備關(guān)聯(lián)的數(shù)據(jù),可以識(shí)別由特定用戶(hù)創(chuàng)建或經(jīng)常訪問(wèn)的敏感數(shù)據(jù)。
3) 有的企業(yè)會(huì)在文檔和電子郵件中使用數(shù)據(jù)標(biāo)簽來(lái)標(biāo)識(shí)信息的敏感級(jí)別。DLP系統(tǒng)可以根據(jù)這些標(biāo)簽來(lái)識(shí)別敏感數(shù)據(jù)。
4) 內(nèi)容檢測(cè)方法,常見(jiàn)的包括:正則表達(dá)式、關(guān)鍵詞匹配、機(jī)器學(xué)習(xí)算法等[5]。
由于在不同企業(yè)中的數(shù)據(jù)類(lèi)型和形57f4f6adc7c68a318fbbab27b543b228d0d108d8a94f7669ddcc20a4f8121e12式都千差萬(wàn)別,除了像身份證、電子郵件、門(mén)牌地址等數(shù)據(jù)具有統(tǒng)一格式,各個(gè)企業(yè)都有自己獨(dú)有的數(shù)據(jù)類(lèi)型,所以在目前各種商業(yè)或開(kāi)源的企業(yè)數(shù)據(jù)防泄露EDLP系統(tǒng)的實(shí)現(xiàn)方案中,都會(huì)預(yù)留內(nèi)容檢測(cè)的接口,用于適配每個(gè)企業(yè)的個(gè)性化需求。鉆井企業(yè)中的數(shù)據(jù)也很有特點(diǎn),例如,一組鉆井液數(shù)據(jù)如表1所示。
對(duì)于不同的字段就要采取不同的方式來(lái)識(shí)別。對(duì)于井號(hào)、其中帶有漢字、數(shù)字及“-”,就可以按照其形式直接定義一個(gè)正則表達(dá)式進(jìn)行判斷,給出的正則表達(dá)式如下:
這個(gè)正則表達(dá)式應(yīng)該能有效地匹配跟隨漢字后面的數(shù)字、短橫線(xiàn)以及另一個(gè)數(shù)字的字符串,這對(duì)于某些命名習(xí)慣或標(biāo)識(shí)符是典型的。
工況和地層的類(lèi)型很像,它們的取值都是有限的幾個(gè)專(zhuān)業(yè)詞匯,例如工況的取值常見(jiàn)的就是“鉆進(jìn)”“電測(cè)”“二開(kāi)鉆進(jìn)”“起下鉆”等。地層的取值常見(jiàn)的就是“山西組”“本溪組”“塔里木盆地”“鄂爾多斯盆地”等,這些都可以通過(guò)簡(jiǎn)單的有限集合元素的匹配進(jìn)行識(shí)別。如密度、酸堿值等數(shù)據(jù)類(lèi)型同樣具有一些直觀的數(shù)據(jù)特征,像密度的值在1左右浮動(dòng),酸堿值為7左右的整數(shù)值,通過(guò)這樣的數(shù)據(jù)特征也可以通過(guò)設(shè)定置信區(qū)間的方法來(lái)制訂識(shí)別該類(lèi)數(shù)據(jù)的規(guī)則。比較復(fù)雜的是像鈣離子濃度和井深的數(shù)據(jù),它們的取值范圍重合度很高,井深可以是從0到7 000米,鈣離子濃度取值范圍可以是從幾十到幾千,大多數(shù)情況都在1 000以下。對(duì)于這些比較相似的數(shù)據(jù),可以通過(guò)數(shù)據(jù)變化趨勢(shì)來(lái)判斷。井深數(shù)據(jù)是遞增的,而鈣離子濃度則沒(méi)有這種變化趨勢(shì)。對(duì)于表1所示數(shù)據(jù),根據(jù)這些特點(diǎn)構(gòu)建出的用于識(shí)別鉆井液數(shù)據(jù)的分類(lèi)決策樹(shù)如圖2所示。
這些個(gè)性化定制的數(shù)據(jù)識(shí)別算法可以嵌入網(wǎng)絡(luò)DLP、主機(jī)DLP和服務(wù)器DLP模塊中,用于識(shí)別敏感數(shù)據(jù)。
3 結(jié)論
近年來(lái),國(guó)家越來(lái)越重視信息安全。2021年,《中華人民共和國(guó)數(shù)據(jù)安全法》提出,將數(shù)據(jù)安全提升到影響國(guó)家安全的高度。長(zhǎng)慶鉆井總公司作為一家大型國(guó)有企業(yè),長(zhǎng)期以來(lái)收集了大量的鉆井?dāng)?shù)據(jù)。這些數(shù)據(jù)不僅關(guān)系到企業(yè)的利益,同時(shí)也對(duì)國(guó)家安全有著重要的影響。因此,企業(yè)數(shù)據(jù)防泄露(EDLP) 系統(tǒng)成為數(shù)據(jù)安全中的重要一環(huán)。只有正確開(kāi)發(fā)和部署EDLP 系統(tǒng),根據(jù)數(shù)據(jù)特點(diǎn)設(shè)計(jì)識(shí)別算法,才能最大限度地發(fā)揮EDLP系統(tǒng)的作用,為企業(yè)的順利發(fā)展保駕護(hù)航。