• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      信息安全審查中目標信息智能發(fā)現技術研究

      2015-04-16 22:19:22馮戈利韓彥軍王業(yè)璇秦現生
      機械設計與制造工程 2015年5期
      關鍵詞:文檔信息安全詞語

      馮戈利,韓彥軍,王業(yè)璇,秦現生

      (1.西北工業(yè)大學機電學院,陜西 西安 710072)

      (2.成都飛機工業(yè)(集團)有限責任公司,四川 成都 610092)

      (3.石家莊鐵道大學機械工程學院,河北 石家莊 050043)

      (4.山西職業(yè)技術學院基礎部,山西 太原 030006)

      信息安全審查中目標信息智能發(fā)現技術研究

      馮戈利1,2,韓彥軍3,王業(yè)璇4,秦現生1

      (1.西北工業(yè)大學機電學院,陜西 西安 710072)

      (2.成都飛機工業(yè)(集團)有限責任公司,四川 成都 610092)

      (3.石家莊鐵道大學機械工程學院,河北 石家莊 050043)

      (4.山西職業(yè)技術學院基礎部,山西 太原 030006)

      為了保證生產企業(yè)中設計、存儲、制造等環(huán)節(jié)的信息安全,在對企業(yè)信息分析的基礎上搭建了信息安全審查中目標信息智能發(fā)現基本框架,并針對信息審查中詞語級目標信息的獲取、目標信息與文檔的智能匹配策略進行了研究,提出了相關算法,最后通過實例驗證了算法的可行性。

      目標信息;發(fā)現技術;檢索

      信息安全是任何國家、政府、部門、行業(yè)都必須十分重視的問題,目前已經成為一個不容忽視的國家安全戰(zhàn)略問題[1]。目前國內涉密問題的安全檢查主要依靠保密審查機制,依據國家及有關安保部門法律法規(guī)來執(zhí)行,例如《中華人民共和國保守國家秘密法》、《中國人民解放軍保密條例》、《科學技術保密條例》、《中央企業(yè)商業(yè)秘密保護暫行規(guī)定》。該機制最大弱點在于:制度、法規(guī)、條例的執(zhí)行尺度基本上需要依靠人為來掌握,因此會不可避免地帶來諸如貫徹不徹底、執(zhí)行不認真、人工處理的主觀性等問題和缺陷。

      目標信息智能發(fā)現技術是指對待審查信息進行數據挖掘和分析,通過人機結合的智能化系統(tǒng)對特定的目標信息進行篩選和定位的技術。近年來隨著計算機技術的發(fā)展以及智能發(fā)現應用環(huán)境的不斷拓展,其已經在文獻查詢、信息安全監(jiān)察、內容過濾等行業(yè)中逐漸得到了廣泛的應用[2-4]。因此,可以利用該技術對政府、軍方、軍工企業(yè)等機構的保密審查系統(tǒng)作補充和升級。

      鑒于上述考慮,本文以高效、準確的詞語級目標信息審查為目標,設計了詞語級目標信息的智能匹配策略,并在此基礎上建立了智能審查系統(tǒng),以期提高目標信息審查系統(tǒng)的工作效率、準確性、客觀性和智能性,從源頭上堵截涉密信息的流傳。

      1 信息安全審查中目標信息智能發(fā)現基本框架

      信息安全檢查基本思路是:在處理資料數據過程之初,總結本單位的涉密信息;然后在文件進行導入導出等操作時對文檔進行拆分、解析;隨后對文檔進行信息識別,對待審查文檔與涉密信息進行相似比較,就可以有效地發(fā)現待審查內容中所包含的目標信息?;究蚣苋鐖D1所示。

      圖1所示的目標信息發(fā)現系統(tǒng)主要包括兩個部分:信息輸入模塊、目標信息智能發(fā)現模塊。

      1)信息輸入處理模塊。

      該模塊對目標信息發(fā)現起到基礎信息支撐作用,主要工作是在日常工作中對常用文檔分析,總結、提煉、抽取、發(fā)現本單位企業(yè)相關機密、涉密詞匯,存入相關數據庫。

      2)目標信息智能發(fā)現模塊。

      該模塊是該模型的核心,利用一些智能發(fā)現、查找算法,從傳入的待審查文檔中發(fā)現是否含有涉密信息。具體包括關鍵字審查、法規(guī)條例專家知識審查等步驟。

      2 信息安全審查中目標信息的獲取

      所謂的目標信息,一般都是在特定領域的一些涉及內部資料的核心內容或者敏感信息。為了便于研究,在本文中采用詞語級的語素來表示目標信息。為了闡述清晰,這里首先給出幾個關鍵性定義。

      定義1:目標信息。 指個人、部門或整個組織所期望找到的涉及國家軍事機密、政治秘密、商業(yè)秘密、敏感信息、核心內容、個人信息等內容。

      按照信息的具體表現形式,可將目標信息劃分為文本信息和圖像信息;按照信息的清晰程度,可將目標信息分為有參照目標信息和無參照目標信息。

      定義2:詞語級目標信息。 指能夠表征目標信息的關鍵詞或者語素。

      2.1目標信息來源

      在本研究中,詞語級目標信息具體有以下幾種來源:

      1)根據核心內容和敏感內容有預定意義的關鍵詞,包括關鍵術語、型號、數據、技術指標等,具有很強的領域特性。

      2)根據國家法律、法規(guī)和企業(yè)規(guī)定、條例預定義的關鍵詞。具體包括相關法規(guī)條例的內容,或根據審查專家具體經驗總結出的內容。

      3)根據工作人員經驗預定義的關鍵詞。

      4)通過采用自有搜索引擎,或與具有保密資質的搜索引擎商合作,發(fā)現待審查信息中存在的而互聯網上沒有出現或很少出現的“新”涉及目標內容的關鍵詞。

      在上述4種詞語級目標信息來源中,前3種屬于有參照的目標信息關鍵詞,最后一種屬于無參照的目標信息關鍵詞。

      2.2詞語級目標信息抽取方法

      為了能夠對輸入文本中的詞語級目標信息準確抽取,在本研究中對輸入的文檔信息的處理分為以下兩個步驟。

      1)文本預處理。

      在本研究中,文本的預處理過程主要包括文本中格式標記去除,非法字符去除,分詞、詞性標注,停用詞去除等幾個步驟。

      2)詞語級目標信息抽取。

      為了能夠準確反映文本中內容,需要抽取不同來源中的詞語級目標信息。結合軍工企業(yè)信息特點,借鑒文獻[5]中方法,可以利用圖譜理論中譜分割算法對文檔信息進行信息抽取,統(tǒng)計文檔中相關詞語的權重。譜分割算法主要是基于Laplace矩陣的特征值和特征向量對圖進行切割[6],主要包括以下幾個步驟。

      ①構建關系圖。

      結合軍工企業(yè)中信息安全特點,抽取詞語級目標信息構建成詞語關系圖。基本思路為:設置文檔的復現詞頻數,設置人為的目標信息;針對詞頻設置,以及人為目標信息篩選關鍵詞;以關鍵詞作為圖的點,以關鍵詞在同一句子中出現的頻率為相似度,建立文檔的詞語關系圖。上述過程中,文檔詞集與圖的對應關系如圖2所示。

      ②構建關系圖的鄰接矩陣。

      根據詞語級目標信息關系圖,構建其帶權鄰接矩陣。

      ③利用譜分割算法對關系圖進行分割。

      本研究中針對已經形成的目標信息關系圖,利用鄰接矩陣的特征值特征向量中某些特性將圖分割成若干子圖。借鑒ACNA算法[7],算法流程圖如圖3所示。

      2.3實例驗證

      為了測試目標信息抽取方法,給定圖4所示的一段文字樣本。

      1)文本預處理。

      首先,需要對示例文檔進行分詞和詞性標注。本文的研究中采用中國科學院的ICTCLAS分詞系

      統(tǒng)進行中文分詞和詞性標注,上述文檔在通過分詞之后的結果如圖5所示。

      然后,進一步去除分詞結果中的連詞、非法字符、標點符號、停用詞語,形成預處理文檔。

      2)詞語級目標信息抽取。

      對于詞語級目標的抽取,可以按照2.2節(jié)中相關步驟進行。

      ①構建詞語關系圖。

      統(tǒng)計分詞結果中出現的飛機制造行業(yè)關鍵詞,以及在該文檔中出現兩次以上的詞語,結果見表1。

      按照圖2中的對應關系,針對出現兩次以上的詞語,建立圖6所示的關系圖。

      ②構建關系圖的鄰接矩陣。

      構建圖6的帶權鄰接矩陣如下:

      ③對關系圖進行分割。

      按照圖3中所示的譜分割算法對關系圖進行分割,可以抽取得到示例文檔(圖4)的詞語級目標信息為隱形、飛機。另外,實際操作中還需要增加飛機制造行業(yè)信息安全中必須要有的幾個關鍵詞:雷達、散射、機翼、試驗機。

      這樣,示例文檔(圖4)的詞語級目標信息就被擴展為:隱形、飛機、雷達、散射、機翼、試驗機。

      3 詞語級目標信息智能匹配策略

      在文檔的詞語級目標信息獲取的基礎上,本文研究了依據詞語級目標信息的文檔智能匹配策略。其核心思想是:首先利用2.2節(jié)中的方法,抽取文檔中的詞語級目標信息;然后運用數據挖掘分析方法和計算機技術來處理和表達詞性、詞長等屬性以及詞語位置屬性之間的關聯;最后,進一步通過類區(qū)分(Data Discrimination)的對比方式,計算每個詞語級目標信息之間的相關度。

      3.1基于詞語級目標信息的文檔展示方法

      通過對飛機制造行業(yè)涉密信息文件的分析,本文認為:文檔中的詞語級目標信息大致包含詞性、詞長和詞語位置3個維度的屬性。

      1)詞性對文檔的影響。

      結合文獻[8]中的研究,本文認為詞語級目標信息的詞性主要包含名詞、動詞、名詞短語和動詞短語4種詞性,其他語氣助詞在此暫時不予考慮。

      2)詞長對文檔的影響。

      通過對大量的涉密文件分析可知,詞語級目標信息大部分是由2~6個字組成的。

      3)詞語位置對文檔的影響。

      相關文獻的研究表明:詞語出現的位置對于描述、反映文檔內容方面也起著重要的作用[9]。

      通過對大量飛機制造行業(yè)涉密文檔的研究發(fā)現,詞語級目標信息在詞長—詞語位置、詞性—詞長、詞性—詞語位置之間存在大量很強的相關性。如果建立詞性、詞長和詞語位置等屬性本體概念,就會發(fā)現每個詞都是以詞性、詞長、詞語位置為維度的三維空間中的一個數據點,如圖7所示。

      因此,文檔中的詞語級信息在擁有具體描述內容的同時,還需要包含詞性、詞長和詞語位置三維信息;進而,如果忽略一些虛詞、沒有實際意義的詞語,則文檔可以被表示為一系列詞語級信息的集合。

      3.2基于內容語義的相關度計算

      利用3.1中方法可以將不同的文檔表示為一系列詞語級信息的集合;另外,可以在對詞語級目標信息的屬性分析基礎上,構建它們的本體概念。這樣就可利用LCH算法[10]來計算不同詞語級信息與文檔中詞語之間的相關度。

      本研究中采用基于距離的LCH方法,該方法中將兩個詞語級信息之間的相似程度定義為本體分類結構中連接兩個術語的路徑長度的逆,公式表示如下:

      由于詞語級信息在分類結構中所處的深度不同,其代表的相似程度也大不相同,因此在計算中可以引入深度這一參數,用來指該節(jié)點至根節(jié)點間路徑上的節(jié)點個數。因此,LCH可以被定義為:

      log2(2d)-log2p

      統(tǒng)一量綱后,其計算公式為:

      3.3基于興趣模型的相似性計算

      為了提高詞語級目標信息的檢索質量,針對前一階段的初步篩選結果,進一步通過對比文檔與用戶(單位)興趣信息之間整體的相似度來篩選目標信息。涉密企業(yè)之間存在不同的關注點,可以利用本單位的特點及安全檢查文件的關鍵詞來構建用戶(單位)的興趣模型。因此這里需要關注以下兩點內容:文檔特征向量和用戶興趣模型特征的構建方法;相關度計算方法。

      3.3.1文檔與用戶興趣模型特征的構建

      1)構建給定文檔的特征向量。

      設文檔的關鍵詞分別為T1,T2,…,Tn,則其特征向量為T=[T1,T2,…,Tn];其對應的詞頻向量為t=[t1,t2,…,tn],詞頻ti(1≤i≤n)是在詞語Ti(1≤i≤n)出現的次數;可以設詞語Ti的權重是wi,表示其對文本主題內容的貢獻程度,則特征向量T=[T1,T2,…,Tn]對應的權重向量為w=[w1,w2,…,wn]。

      關鍵詞的權重函數可以定義為:

      式中:L表示詞語Ti的詞長;C為比例因子;α為詞語位于段首、段尾等位置時的一個權重。

      2)構建用戶興趣的特征向量。

      用戶的興趣模型是指從大量數據信息中歸納出的不同企業(yè)的關注點、關注詞、涉密詞、有關發(fā)展的核心詞匯等,可以表達為向量空間模型。

      3.3.2相關度計算方法

      根據需要設定一個過濾閾值ψ,當文檔的特征向量w與某個主題的興趣特征向量w′之間的相似度R大于ψ時,說明文檔與主題相似。

      4 結束語

      本文以軍工企業(yè)為例,探討了現代企業(yè)信息安全審查中目標信息的智能發(fā)現方法。文章以詞語級信息為主體,提出了信息安全審查中目標信息智能發(fā)現的基本框架,設計了信息安全審查中目標信息的獲取算法和詞語級目標信息智能匹配策略,實現了文檔中詞語級目標信息智能發(fā)現的精確性、及時性。

      [1] 程紅蓉,周世杰,丁熠,等. 一個信息安全綜合設計型實驗的設計[J]. 實驗科學與技術, 2013, 11(6): 208-210.

      [2] 梁愛東, 薛海波. 數字環(huán)境下的高校圖書館信息服務工作探析[J]. 信息系統(tǒng)工程, 2010(2):97-100.

      [3] 崔虹燕, 蔣念平. 一種改進的多級信息安全過濾模型[J]. 情報理論與實踐, 2006, 29(5): 615-617.

      [4] 蘇威. 基于Web不良信息過濾系統(tǒng)的研究[D].成都: 電子科技大學,2012.

      [5] 肖根勝. 改進TFIDF和譜分割的關鍵詞自動抽取方法研究[D]. 武漢: 華中師范大學, 2012.

      [6]MoharB.SomeapplicationsofLaplaceeigenvaluesofgraphs[J].NatoAsi, 1997(9):227-275.

      [7] 田娟,王崇駿,李靜,等. 一個基于譜圖分割的簡單聚類算法[J]. 復旦學報, 2004, 43(5): 810-814.

      [8] 方俊,郭雷,王曉東.基于語義的關鍵詞抽取算法[J].計算機科學,2008, 35(6):148-151.

      [9] 李靜月,李培峰,朱巧明. 一種改進的TFIDF網頁關鍵詞提出方法[J].計算機應用與軟件,2011,28(5): 25-27.

      [10]JonesKS.Astatisticalinterpretationoftermspecificityanditsapplicationinretrieval[J].JournalofDocumentation,1972, 28(1): 11-21.

      Research on the technology of the intelligent target discovery in information security review

      FENG Geli1,2,HAN Yanjun3,WANG Yexuan4,QIN Xiansheng1

      (1.School of Mechanical and Electrical Engineering, Northwestern Polytechnical University, Shaanxi Xi'an, 710072, China)

      (2. Chengdu Aircraft Industrial (group) Co., Ltd., Sichuan Chengdu, 610092, China)

      (3.School of Mechanical Engineering, Shijiazhuang Tiedao University, Hebei Shijiazhuang, 050043, China)

      (4.Department of Basic Courses, Shanxi Polytechnic College, Shanxi Taiyuan, 030006, China)

      In order to ensure the information security of the production enterprises during design, storage and manufacture process, it sets the basic framework of the intelligent target discovery in the information security review base on the analysis of enterprise information. It analyzes the acquisition of the word-level target information and the intelligent matching strategy between the target information and documents in the information security review, then puts forward the related algorithm, validates the feasibility and effectiveness of the algorithm.

      target information; discovery technology; retrieval

      10.3969/j.issn.2095-509X.2015.05.013

      2015-04-23

      馮戈利(1968—),女,四川洪雅人,成都飛機工業(yè)(集團)有限責任公司高級工程師,博士,主要研究方向為目標信息發(fā)掘與安全技術研究。

      TP301.6

      A

      2095-509X(2015)05-0055-06

      猜你喜歡
      文檔信息安全詞語
      容易混淆的詞語
      有人一聲不吭向你扔了個文檔
      找詞語
      保護信息安全要滴水不漏
      高校信息安全防護
      消費導刊(2017年20期)2018-01-03 06:26:38
      詞語欣賞
      基于RI碼計算的Word復制文檔鑒別
      保護個人信息安全刻不容緩
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      一枚詞語一門靜
      翁源县| 铜陵市| 高碑店市| 客服| 崇阳县| 浦江县| 赤壁市| 独山县| 古浪县| 乐清市| 娱乐| 莱阳市| 根河市| 视频| 囊谦县| 黑水县| 南澳县| 南康市| 琼中| 嘉兴市| 加查县| 新巴尔虎右旗| 霍城县| 民县| 成武县| 海安县| 抚远县| 福泉市| 无为县| 西藏| 沈丘县| 广平县| 大理市| 南涧| 息烽县| 辽阳县| 红原县| 乌兰浩特市| 苗栗市| 安吉县| 东阳市|