侯 君
(大慶油田信息技術公司北京分公司,北京 100000)
基于信息安全考慮的數(shù)據(jù)識別分析
侯君
(大慶油田信息技術公司北京分公司,北京 100000)
數(shù)據(jù)識別技術,對于企業(yè)內(nèi)網(wǎng)數(shù)據(jù)的有效處理和安全保護等方面意義重大,在當前大數(shù)據(jù)的環(huán)境下,對于數(shù)據(jù)識別技術的需求尤為突出?;诖朔N考慮,本文首先針對油田工業(yè)環(huán)境中的數(shù)據(jù)特征及數(shù)據(jù)安全狀態(tài)展開了深入的分析,然后進一步在此基礎之上,對如何切實推動數(shù)據(jù)識別技術的發(fā)展予以深入討論。
信息安全;數(shù)據(jù)識別;油田企業(yè)
在工業(yè)生產(chǎn)工作環(huán)境中,數(shù)據(jù)主要來源于管理和工業(yè)生產(chǎn)兩個領域。管理領域的數(shù)據(jù)相對而言比較常規(guī)化,主要涉及人力資源等相關管理領域工作數(shù)據(jù),但是隨著科技的不斷深入發(fā)展,大量生產(chǎn)流程中的設備狀態(tài)數(shù)據(jù)納入到企業(yè)數(shù)據(jù)環(huán)境之中,而這種趨勢,在油田工業(yè)領域中更是尤為突出。油田生產(chǎn)工作過程中一貫以數(shù)據(jù)的龐大繁雜著稱,數(shù)據(jù)用以反映生產(chǎn)過程中眾多設備的狀態(tài)。通過這些數(shù)據(jù)可以判斷整個工作過程的安全水平,然后展開進一步的調整。
隨著物聯(lián)網(wǎng)相關技術的發(fā)展,更多的數(shù)據(jù)納入油田工業(yè)環(huán)境之中,實時性和海量性成為其主要特征。對于實時性而言,油田工業(yè)環(huán)境之中,生產(chǎn)過程中的數(shù)據(jù)關系到諸多設備的工作狀態(tài)及安全水平,因此,只有對其展開及時的識別才能妥善處置。而對于海量性而言,主要是考慮到油田工業(yè)領域中必然會引入的大數(shù)據(jù)技術,從客觀上要求對這些數(shù)據(jù)展開及時的深入分析,發(fā)揮其既有價值。因此從這樣的兩個方面看,對數(shù)據(jù)展開必要的識別,是有效針對不同種類來源的數(shù)據(jù)展開及時分析的必然要求。
與此同時,從安全的角度看,數(shù)據(jù)識別同樣意義重大。當前數(shù)據(jù)安全的解決方案,通常會從傳輸和存儲兩個方面展開,即在傳輸過程中通過各種類型的網(wǎng)關等來對傳輸數(shù)據(jù)實現(xiàn)過濾,或者面向存儲狀態(tài)的數(shù)據(jù)展開分析,來確定數(shù)據(jù)中是否夾雜有不安全的因素。此種安全分析工作方式在傳統(tǒng)企業(yè)環(huán)境下,當數(shù)據(jù)量以及傳輸總量相對較少的時候能夠十分有效地展開工作,但是隨著數(shù)據(jù)量的不斷增加,流媒體數(shù)據(jù)也開始涌入到工業(yè)生產(chǎn)環(huán)境之中,想要切實有效地對所有的數(shù)據(jù)展開分析,就顯得較為困難。相關安全系統(tǒng)的計算能力不斷得到挑戰(zhàn),必須采取必要的措施改善此種情況。
在這樣的背景之下,如何實現(xiàn)有效的數(shù)據(jù)識別,就顯得意義重大。良好的數(shù)據(jù)識別體系,能夠幫助安全系統(tǒng)以及相關的大數(shù)據(jù)技術依據(jù)不同的數(shù)據(jù)特征展開區(qū)分,從而來決定為不同的數(shù)據(jù)群體提供不同安全級別的保障,也便于為大數(shù)據(jù)分析系統(tǒng)優(yōu)化其數(shù)據(jù)材料,并且在最短時間內(nèi)響應不同數(shù)據(jù)消費端的查詢請求。
數(shù)據(jù)識別服務于整個油田數(shù)據(jù)系統(tǒng)。數(shù)據(jù)識別工作展開的有效性,關系到整個企業(yè)局域網(wǎng)數(shù)據(jù)的安全水平,對于其他多個方面的數(shù)據(jù)信息處理工作也有不容忽視的重要價值。從目前數(shù)據(jù)識別技術的發(fā)展狀況看,主要是基于數(shù)據(jù)特征的識別技術,但是隨著工業(yè)環(huán)境中更多數(shù)據(jù)的涌入,基于數(shù)據(jù)生命周期的識別技術同樣也是未來發(fā)展的主要特征。
對于基于特征的數(shù)據(jù)識別方法而言,具體包括兩個階段的工作,第一,元數(shù)據(jù)和樣本數(shù)據(jù)的采集;第二,敏感數(shù)據(jù)數(shù)據(jù)的識別與分類。
在第一個階段中,數(shù)據(jù)識別系統(tǒng)的主要工作任務是通過自動化的方式面向數(shù)據(jù)庫、文件系統(tǒng)及傳輸過程展開對于數(shù)據(jù)的結構化與非結構化數(shù)據(jù)樣本和元數(shù)據(jù)信息的采集。采集主要內(nèi)容包括元數(shù)據(jù)信息(數(shù)據(jù)表和字段的名稱、類型、注釋信息等)、文件類型數(shù)據(jù)(在獲取文件格式的基礎上,采用自動化分詞等相關技術將文件內(nèi)容進行切割和合并,并且建立起對應的文件特征數(shù)據(jù))。然后在這樣的采集基礎之上,對獲取到的數(shù)據(jù)進行梳理和過濾,提升樣本整體質量。
在第二階段中,展開對于敏感數(shù)據(jù)數(shù)據(jù)的識別與分類。應用數(shù)據(jù)識別技術,對不同類型的數(shù)據(jù)進行甄別,確定其中的敏感數(shù)據(jù),并對其進行甄別和分級分類,從而便于進行更具有針對性的數(shù)據(jù)安全保護工作。這一部分的工作,具體包括詞庫建立、敏感特征提取、敏感特征匹配以及敏感數(shù)據(jù)識別質量評估等幾個方面。其中詞庫建立主要是對采集到的數(shù)據(jù)進行收集和整理,剔除其中的無價值詞匯,獲取到符合識別需求的詞庫。而敏感特征提取,則是在建立起詞庫的基礎之上,對詞庫展開分析和識別,以相關人員作為主要的力量進行構建,并且隨著人工智能的發(fā)展,相關技術也在逐步引入到該環(huán)節(jié)之中。敏感特征匹配主要是對分類和識別目標展開特征提煉,將目標數(shù)據(jù)采用分詞技術進行分詞處理,然后進一步將提取到的特征與詞庫進行匹配,依據(jù)匹配情況進行排序。最后,敏感數(shù)據(jù)識別質量評估主要對識別結果進行評價,包括對錯誤分類的進一步糾正和對于未能識別的敏感詞的補充,完善詞庫。
除此以外,基于生命周期的數(shù)據(jù)識別也是未來發(fā)展的一個重要方向,同樣不容忽視。這主要是考慮到數(shù)據(jù)從誕生到消亡,不同的數(shù)據(jù)在不同的生命階段中會呈現(xiàn)出不同的安全需求,并且數(shù)據(jù)在不同環(huán)境下面對的人群不同所產(chǎn)生的功能和價值,也均會有所不同。從油田工業(yè)環(huán)境的角度看,實時性強的數(shù)據(jù)隨著時間的流逝,其安全價值呈現(xiàn)出逐步遞減的趨勢,而核心技術領域的數(shù)據(jù),通常需要自始至終的密切保護。因此,對于數(shù)據(jù)產(chǎn)生環(huán)境和來源等方面特征的識別,能夠進一步提升數(shù)據(jù)安全工作的針對性,提高數(shù)據(jù)安全體系工作整體效率。
在面臨油田大數(shù)據(jù)環(huán)境時,數(shù)據(jù)識別技術是不容忽視的重要支持。只有在實際工作中不斷深入分析和完善對應的識別規(guī)則,才能獲取良好效果,為油田的發(fā)展奠定堅實基礎。
主要參考文獻
[1]馮建云,張月琴.內(nèi)網(wǎng)安全信息防泄漏系統(tǒng)的開發(fā)與實現(xiàn)[J].電腦開發(fā)與應用,2010(7).
10.3969/j.issn.1673 - 0194.2016.14.108
G203
A
1673-0194(2016)14-0154-01
2016-06-08