徐建忠,羅準辰,張 亮
(1.杭州世平信息科技有限公司,浙江 杭州 310012;2.中國國防科技信息中心,北京 100142)
語義擴展技術(shù)在敏感數(shù)據(jù)識別中的應(yīng)用研究
徐建忠1,羅準辰2,張亮1
(1.杭州世平信息科技有限公司,浙江 杭州310012;2.中國國防科技信息中心,北京100142)
為了解決用戶在敏感內(nèi)容檢測時給定關(guān)鍵詞較少的問題,在此提出一種基于語義擴展技術(shù)識別敏感數(shù)據(jù)的方法。主要是通過對用戶給定的關(guān)鍵詞,進行基于搜索引擎、百度百科以及搜索引擎結(jié)果頁面三種模式的語義擴展,然后借助少量人工方式整體評價,得到用戶所需的擴展詞。實驗結(jié)果表明,與語義擴展之前相比,語義擴展之后敏感數(shù)據(jù)識別的準確率P、召回率R和評價值F均有所提高,說明該方法能夠有效地提高敏感數(shù)據(jù)識別結(jié)果的全面性和準確性。
語義擴展;敏感數(shù)據(jù);搜索引擎;數(shù)據(jù)安全
隨著信息技術(shù)的高速發(fā)展,國內(nèi)外信息安全形勢越來越嚴峻,多起信息安全事件(如,斯諾登事件)的發(fā)生給個人和社會帶來了嚴重的影響,尤其是敏感數(shù)據(jù)的泄露,直接影響國家的安全和社會的穩(wěn)定。
數(shù)據(jù)防泄漏技術(shù)作為信息安全的基礎(chǔ)性技術(shù),其作用無論從國家安全的高度還是從經(jīng)濟發(fā)展的角度來看都變得日益重要。目前,敏感數(shù)據(jù)防泄漏的關(guān)鍵技術(shù)包括:敏感數(shù)據(jù)識別、敏感數(shù)據(jù)標記、敏感數(shù)據(jù)阻斷、銷毀和策略管理等。其中敏感數(shù)據(jù)識別是敏感數(shù)據(jù)防泄漏解決方案中非常關(guān)鍵的一環(huán),只有準確地識別出了敏感數(shù)據(jù)才能對這些數(shù)據(jù)進行有效保護。以往的敏感數(shù)據(jù)識別方法[1?2]大都通過建立敏感數(shù)據(jù)庫,通過用戶輸入關(guān)鍵詞或者預(yù)定義相關(guān)內(nèi)容匹配敏感數(shù)據(jù)庫來檢測實現(xiàn)。這種方法忽略了很多用戶缺乏對相關(guān)領(lǐng)域知識的了解,造成提交的關(guān)鍵詞數(shù)量有限且缺乏代表性,使得提交的關(guān)鍵詞不能全面準確地表達用戶的實際查詢意圖的現(xiàn)狀。此方法容易造成檢測結(jié)果不全面或不準確?;谶@個問題本文研究了一種能夠解決用戶給定較少關(guān)鍵詞,準確高效識別敏感數(shù)據(jù)的語義擴展關(guān)鍵詞方法。
在此主要通過三種模式對用戶給定的關(guān)鍵詞進行語義擴展:基于搜索引擎的語義擴展、基于百度百科的語義擴展和基于搜索引擎結(jié)果頁面的語義擴展。對這三種模式返回的候選詞借助少量人工方式進行整體評價,得到用戶所需的擴展詞。實驗結(jié)果表明,此方法能夠有效解決有限關(guān)鍵詞意圖表示模糊的問題,并且提高了敏感數(shù)據(jù)識別的準確率。
語義擴展是指語義在原有的基礎(chǔ)上進行了延伸,其最直接也是最明顯的一個結(jié)果就是使原有詞匯使用的范圍更廣或者使表達的內(nèi)容更加深刻[3]。語義擴展技術(shù)主要應(yīng)用于文本分類、信息檢索、搜索引擎等領(lǐng)域。它是以關(guān)鍵詞匹配為技術(shù)基礎(chǔ),由于用戶對相關(guān)領(lǐng)域了解較少以及大量同義詞和多義詞的存在,用戶對查詢請求的表達形式多樣。根據(jù)有關(guān)實驗[4]統(tǒng)計,兩個人使用相同關(guān)鍵詞描述同一事物的概率小于20%。
在檢索時,用戶通常只用少量關(guān)鍵詞來表達自己的請求,導(dǎo)致檢測結(jié)果不全面和不準確。例如,F(xiàn)ranzen K等人分析了微軟公司旗下的Encarta在線百科全書網(wǎng)站[5]連續(xù)兩個月的用戶查詢記錄后發(fā)現(xiàn),49%的用戶僅用一個關(guān)鍵詞來表達自己的查詢請求,33%的用戶使用兩個單詞進行查詢,用戶平均使用1.4個單詞描述他們的查詢。查詢使用的關(guān)鍵詞越少,檢索結(jié)果命中率就越低。為了提高查詢的命中率,需要盡量增加檢索關(guān)鍵詞的數(shù)量[6]。但是由于用戶體驗的原因,在此無法強制規(guī)定用戶提交關(guān)鍵詞的數(shù)量,因此需要通過一定的技術(shù)對用戶提交的關(guān)鍵詞進行擴展,以彌補用戶給定關(guān)鍵詞數(shù)量不足的缺陷。本文主要將語義擴展技術(shù)應(yīng)用于敏感數(shù)據(jù)識別,試圖解決用戶給定較少關(guān)鍵詞難以滿足敏感內(nèi)容文本表示復(fù)雜的問題。
2.1方法概述
本文提出一種在敏感數(shù)據(jù)識別中使用語義擴展技術(shù)的方法,該方法首先使用三種擴展模式對用戶給定的關(guān)鍵詞進行擴展,然后借助少量的人工方式對擴展的候選詞進行整合評價,從而得到與用戶提交的關(guān)鍵詞內(nèi)容相關(guān)的擴展詞,如圖1所示。
圖1 方法流程
(1)語義擴展。對用戶給定關(guān)鍵詞進行三種模式的擴展:基于搜索引擎的擴展、基于百度百科的擴展、基于搜索引擎結(jié)果頁面的擴展。
(2)整合評價。利用三種擴展模式返回的擴展候選詞,借助少量人工方式進行整合評價。
2.2語義擴展
2.2.1基于搜索引擎的擴展
主要利用目前搜索引擎強大的查詢擴展功能對給定的敏感詞進行擴展。其中,搜索引擎可以選擇當前主流的,例如百度、谷歌、雅虎、必應(yīng)等,本文選取百度作為擴展的搜索引擎。具體的操作:如“財務(wù)”是一般單位認為比較敏感的信息,要想得到財務(wù)相關(guān)的擴展詞,即在百度中輸入查詢詞,見圖2和圖3,圈標注的相關(guān)搜索作為其擴展詞。
圖2 基于百度搜索推薦的語義擴展示例
圖3 基于百度相關(guān)搜索的語義擴展示例
2.2.2基于百度百科的擴展
主要利用百度百科相關(guān)詞條進行擴展,具體流程如下:
(1)首先利用搜索引擎找到相關(guān)的百度詞條,在搜索引擎中輸入“給定詞and百度百科”,如“財務(wù) and百度百科”,如圖4所示。
圖4 基于百度百科連接詞條
(2)返回的搜索結(jié)果中,存在的百度百科詞條網(wǎng)頁鏈接為相關(guān)的百科詞條(見圖4中用圈標注的),然后點擊進入百度百科相關(guān)詞條網(wǎng)頁,選取(可以寫程序采用自動化的方式)存在的鏈接詞作為擴展詞,見圖5,圈內(nèi)標注的詞認為是擴展詞。
圖5 基于百度百科詞條內(nèi)容鏈接的語義擴展示例
2.2.3基于搜索引擎結(jié)果的擴展
這種方法主要是利用搜索引擎,獲取敏感詞相關(guān)的頁面。然后抓取頁面后,利用開源的關(guān)鍵詞提取器,進行關(guān)鍵詞提取,建議抓取返回結(jié)果第一頁10條鏈接網(wǎng)頁進行提取,提取過程中可以單篇提取然后整合,也可以將所有網(wǎng)頁合成為一個文本后進行關(guān)鍵詞提取,提取數(shù)目可以任定。
2.3整合評價
以上三種方式可以產(chǎn)生一些基于給定詞擴展的候選詞,但并不是所有的候選詞都能滿足用戶的需求,因此人工的少量參與是必須的。對于每個候選詞,可以邀請3位人員進行人工評價,如果2位以上人員認為候選詞有意義,則判斷該候選詞為用戶需要的擴展詞。
3.1實驗數(shù)據(jù)以及評價方法
本文通過整理某市部分單位的一些公告和相關(guān)新聞資訊,構(gòu)建了一個包含1 500個文檔的測試集,該測試集包含了敏感信息文檔和非敏感信息文檔,其中敏感信息文檔指的是文檔中包含一般單位認為比較敏感的人事、財務(wù)相關(guān)信息,非敏感信息文檔指文檔中不包含任何敏感信息。本文中通過人工方法統(tǒng)計人事相關(guān)的文檔486個,財務(wù)相關(guān)文檔574個,其他非敏感信息文檔440個。
本文使用信息檢索領(lǐng)域的評價準則(準確率P、召回率R和評價值F)對敏感數(shù)據(jù)識別進行評價,具體定義為:
其中:A表示系統(tǒng)識別出敏感詞相關(guān)的文檔總數(shù);B表示系統(tǒng)識別出敏感詞不相關(guān)的文檔總數(shù);C表示系統(tǒng)沒有識別出敏感詞相關(guān)的文檔總數(shù)。
3.2實驗過程及結(jié)果
在實驗中,本文選取人事、財務(wù)兩個敏感詞作為用戶給定關(guān)鍵詞,并且對這兩個詞語通過三種模式的語義擴展得到相關(guān)擴展詞。例如,對于給定詞人事,通過語義擴展之后得到相關(guān)擴展詞:任命、任免、任職、提拔、擬任、擬聘、罷免、辭去;財務(wù),通過語義擴展之后得到相關(guān)擴展詞:經(jīng)營狀況、資金、資產(chǎn)、損益表、總賬、增值、負債、周轉(zhuǎn)、虧損、預(yù)算、凈利潤。最后通過對比語義擴展之前與之后敏感數(shù)據(jù)識別的準確率(P)、召回率(R)以及評價值(F)進行分析評價。結(jié)果如表1所示。
表1 語義擴展之前與之后敏感數(shù)據(jù)識別結(jié)果對比 %
分析表1中的結(jié)果可以發(fā)現(xiàn),語義擴展之后敏感數(shù)據(jù)識別的實驗結(jié)果都要好于語義擴展之前(即用戶給定關(guān)鍵詞),這是因為對給定關(guān)鍵詞擴展之后得到很多相關(guān)的擴展詞,所以在進行敏感數(shù)據(jù)識別的時候可以檢索出擴展之前不能檢索出來的文檔,并且本文中語義擴展的方法借助人工評價,這樣得到的擴展詞都是與用戶給定關(guān)鍵詞很相關(guān)的,這也是敏感數(shù)據(jù)識別準確率和查全率提高的主要原因。
為了解決用戶給定較少關(guān)鍵詞難以滿足敏感數(shù)據(jù)高準確率識別的問題,本文提出一種將語義擴展技術(shù)應(yīng)用于敏感數(shù)據(jù)識別的方法。該方法通過基于搜索引擎、百度百科以及搜索引擎結(jié)果頁面三種模式對給定的關(guān)鍵詞進行語義擴展,借助少量人工方式整體評價,得到用戶所需的擴展詞,從而解決了給定關(guān)鍵詞較少語義表示模糊的問題,提高了敏感數(shù)據(jù)識別的全面性和準確性。
[1]李偉偉,張濤,林為民,等.基于文本內(nèi)容的敏感數(shù)據(jù)識別方法研究與實現(xiàn)[J].計算機工程與設(shè)計,2013,34(4):1202?1206.
[2]林臻彪.基于數(shù)據(jù)流分析的防文件網(wǎng)絡(luò)泄露關(guān)鍵技術(shù)研究[D].鄭州:解放軍信息工程大學,2009.
[3]付義軍.語義擴展的認知機制[J].青春歲月,2013(15):121.
[4]黃名選,嚴小衛(wèi),張師超.查詢擴展技術(shù)進展與展望[J].計算機應(yīng)用與軟件,2007,24(11):1?4.
[5]FRANZEN K,KARLGREN J.Verbosity and interface design [R].Sweden:Swedish Institute of Computer Science(SICS),2000.
[6]徐建斌,施亞東.基于概念的文本自動分類研究的綜述[J].福建電腦,2005(2):2?4.
[7]汪晨,鄧松,張濤,等.智能電網(wǎng)環(huán)境下用戶行為可信數(shù)據(jù)安全交換研究[J].現(xiàn)代電子技術(shù),2014,37(1):75?79.
Application of semantic extension approach in sensitive data identification
XU Jianzhong1,LUO Zhunchen2,ZHANG Liang1
(1.Hangzhou Shiping Information&Technology Co.,Ltd.,Hangzhou 310012,China;2.China Defense Science and Technology Information Center,Beijing 100142,China)
To solve the problem of less key words given in sensitive content inspection,a sensitive data identification method based on semantic extension approach is proposed.The semantic extension based on three forms of search engine,Baidu Ency?clopedia and results page of searching is performed through the keywords given by users,by which the extension words is ob?tained through the overall evaluation in a manual way.The experimental result shows that,with the three forms of semantic ex?tension,the accuracy P,recall R and evaluation value F of sensitive data identification have all been improved,which illus?trates that the approach can effectively improve the comprehensiveness and accuracy of sensitive data identification.
semantic extension;sensitive data;search engine;data security
TN911?34
A
1004?373X(2016)12?0080?03
10.16652/j.issn.1004?373x.2016.12.021
2015?10?09
徐建忠(1980—),男,浙江杭州人。主要研究方向為網(wǎng)絡(luò)與信息安全。羅準辰(1984—),男,湖南長沙人,博士。主要研究方向為自然語言處理與信息。張亮(1983—),男,陜西西安人,碩士。主要研究方向為網(wǎng)絡(luò)與信息安全。