馮 喆, 侯霄昱, 陳彥霖
(1.考文垂大學 電子計算機工程學院, 英格蘭 考文垂CV15FB; 2.天津市煙草專賣局 綜合計劃處, 天津300041;3.天津師范大學 管理學院, 天津300387; 4.天津市區(qū)第一煙草專賣局 黨建工作科, 天津300050;5.廣東文理職業(yè)學院 機電工程系, 廣東 湛江524400)
公共資源網絡治理是現代公共資源治理的重要模式。 在公共資源治理過程中, 政府行為、 非政府行為、 盈利行為等多種相對獨立的資源應用行為構成一種相互依存的信息交流網絡, 并在其網絡中達到公共資源的互動。 由于在很長時間內, 公共資源網絡中的資源濫用現象一直比較嚴重, 因此是目前公共資源網絡整治的重點。 美國計算機部門, 將公共資源濫用定義為, 擁有組織網絡、 系統數據以及訪問權限的信息人員, 以營利或其他經濟政治目的造成的資源浪費[1]。 從宏觀角度上看, 公共資源網絡濫用行為是內部人員根據自己的安全平整, 進行的系統資源出賣。 早在2007 年, 法國興業(yè)銀行交易員, 依靠管理員身份, 侵入公共資源網絡進行非法交易, 導致銀行虧損數十億美元[2-3]。 由此可見, 公共資源網絡濫用具有巨大危害性。 而具有惡意的內部人員因為其具有合理合法的網絡資源應用身份和相關授權許可, 其資源濫用行為不會違反法律法規(guī)和常規(guī)安全監(jiān)管機制, 所以難以被及時察覺[4]。 因此, 對于公共資源網絡中的資源濫用行為模式檢測是現代公共資源維護的重要研究領域。 因為人類的行為具有模式定化, 即往往表現出一種常規(guī)的模式, 在進行網絡資源訪問時也不例外。 因此研究當前使用用戶訪問的系統模式, 并與其進行對比選擇其不一致性, 是一種可行的資源濫用監(jiān)督方法。 筆者基于這一理念,以隱馬爾科夫模型(HMM)為核心, 設計出一種新的公共資源網絡中資源濫用行為檢測研究方法, 并基于真實的仿真數據, 驗證檢測方法的真實有效性[5-6]。
隱馬爾科夫模型本質上是一種分析統計模型, 包含了以下數據參數:S表示系統離散狀態(tài)下的數據,則有S={s1,s2,…,sN}, 集合勢為N[7];Q表示系統狀態(tài)序列, 則有Q=q1,q2,…,qX, 其中X是序列中的狀態(tài)系數,qt∈S(1≤t≤X)是當前時刻下系統狀態(tài); π 代表網絡初始狀態(tài)下的概率分布且有: π =[πi]。A為狀態(tài)轉移矩陣,A= [aij], 其中aij= Pr(q1=O為當前觀測數據的符號集合,O={o1,o2,…,oM}M[9]。B為當前觀測符號矩陣, 則有:B= [bjk]。 其中bjk= Pr(ok sj) 且有1≤k≤M。P表示觀測符號序列, 且有:P=p1,p2,…,pY,Y表示當前序列下的觀測符號,pt∈O(1≤t≤Y)是在時刻系統下的觀測符號[10]。
因為隱馬爾科夫模型在后續(xù)檢測研究中屬于一個雙重隨機過程, 其內部包括兩部分: 馬爾科夫鏈的數據隨機過程, 如圖1 所示。
其中馬爾科夫數據鏈描寫了系統狀態(tài)轉移時的動態(tài)反應機制, 受到上述轉移矩陣A的實際影響, 初始狀態(tài)下的概率分布一般為π; 在進行數據隨機迭代過程中, 可以描述當前系統狀態(tài)和觀測符號之間的數據統計關系, 受到符號矩陣控制影響[11-12]。 在隱馬爾科夫模型中, 當前狀態(tài)和轉移過程不能直接進行觀測,外部只能通過直接序號進行正向逆推。
要保證隱馬爾科夫模型完全正常計算統計, 需要確定π、A、B等參數, 則模型用λ=(A,B,π)表示。
當前模型的觀測序號P, 可能來自于系統多類型的狀態(tài)序列或同長度狀態(tài)的觀測符號序列
圖1 HMM 示意圖Fig.1 HMM schematic diagram
根據當前模型序列Q生成序列P的實際概率為
如果當前觀測數據存在獨立數據, 則式(2)可進行擴展
因此利用參數λ 表示當前隱馬爾科夫模型觀測序列的概率為
隱馬爾科夫模型其重點可以通過數據分析, 確定當前觀測符號序列, 預算新的觀測符號實際出現概率[13]。 而在信息安全測試和行為檢測中, 因為資源浪費者或攻擊者的對應模式難以獲取, 導致無法有效提取對應特征, 而其用戶行為相對易于觀測和監(jiān)控[14]。 因此根據用戶行為作為當前隱馬爾科夫模型的觀測信號, 通過連續(xù)不間斷的收集當前公共網絡資源用戶檢測行為符號, 可以建立其行為常規(guī)模式。 通過對其可能出現的用戶行為進行預測, 可以有效降低當前惡意行為的誤報率和漏報率。 為資源濫用檢測提供可能。
設計基于上述隱馬爾科夫檢測模型, 利用Windows 操作系統信息為藍本進行行為檢測。 首先建立敏感文件信息集, 這些信息集可以集中分布在系統敏感文件夾中, 用戶需要在各類型文件中進行敏感信息相關事務的操作, 對應類型如表1 所示。
表1 敏感數據分類Tab.1 Classification of sensitive data
其中進行文件進程讀取和寫入等操作是不會出現系統安全問題, 所以在對模式進行評估檢測期間,基本忽略上述操作[15]。
根據敏感操作, 可以開始收集當前公共資源下的行為數據信息, 設計采用程序接口掛接技術, 實時截取進程當前公共資源網絡下的操作調用函數, 判定當前用戶進程下的文件初始行為路徑, 全部敏感文件數據的操作均會被記錄, 從而形成特殊操作序列。 在實際用戶行為的監(jiān)視過程中, 需要記錄用戶操作, 而操作對象的操作值不需要記錄。 例如當前公共網絡資源下A 對于敏感文件B 進行了多重操作, 則需要記錄操作行為, 而不需要對敏感文件進行記錄。 這種記錄方法收集的數據集可以生成當前用戶的操作序列, 不會涉及到信息系統的敏感信息和用戶隱私, 所以不會出現系統隱患。
在建立內部人員行為數據集的過程中, 可以觀測到的部分就是所有的操作序列, 而序列對象和操作值具有不可見性, 因此設計根據上述HMM 模型, 建立完整的序列集(見圖2)。
圖2 用戶行為下隱馬爾科夫模型Fig.2 Hidden Markov model with user behavior
在馬爾科夫模型中, 狀態(tài)可看做是敏感信息存儲的文件夾, 而觀測符號則是各文件夾下屬的執(zhí)行操作。 用戶在系統內敏感文件夾中進行事物處理操作時, 其個人行為會在HMM 模型下進行狀態(tài)轉移,其表現形式就是當前模型下的用戶操作序列。 如果系統需要執(zhí)行的文件較少, 可以敏感文件作為當前隱馬爾科夫模型檢測狀態(tài), 觀測符號作為模型操作, 從而建立對應檢測結構。
建立當前用戶行為的馬爾科夫對應檢測數據, 最重要的就是確定當前模型的實際參數值, 包括A、B和π。 在此次設計的用戶行為模型建立中, 已知該參數模型為N 和M, 根據上述行為數據集截取的觀測信號序列和模型參數初始值, 可以確定當前模型的檢測參數。 為了簡化運算, 將A、B 和π 的初始值均設為均勻分布狀態(tài)也就是當前隱馬爾科夫模型的任意狀態(tài)均為1 / N。 模型中狀態(tài)分布概率同樣為1 / N。 此時每個狀態(tài)的觀測符號出現概率最終為1 / M, 則以N 值和M 值以及對應的A、B 和π 值為基礎, 采用Baum-Wlech 算法建立訓練參數。
因為對模型參數訓練的行為需要基于當前公共資源網絡的正常行為, 然而在使用信息中, 相比較正常的用戶行為, 資源濫用行為占少數, 所以可以根據其數量比值, 進行初步估算。
經過上述模型訓練后, 當前隱馬爾科夫模型參數A、B和π 均已經確定。 設λ值在當前時刻t中的輸出長度為R, 此時符號序列概率P1的計算公式為
計算此時兩個對應序列出現的概率差值
如果當前的ΔP≤0, 說明經過訓練的隱馬爾科夫模型中, 新觀測的符號序列出現概率提高, 觀測符號OR+1為正常行為; 若ΔP>0, 說明此時的P2概率要低于P1, 此時新序列無法完全被隱馬爾科夫模型接收, 則說明OR+1可能出現少量資源濫用行為。 此時可以根據當前公共資源網絡信息安全要求, 設定實際閾值h, 則有
此時判定OR+1是資源濫用行為。
當OR+1出現濫用異常時, 會立刻報錯, 否則OR+1加入當前觀測符號序列, 并作為下一組觀測符號的基礎序列。 隨著時間的增加, 當前用戶行為模式可能會出現變更, 通過不斷改變當前觀測符合模式的初始意義, 確定其行為模式, 實現最終行為檢測。
公共資源網絡的數據傳輸頻率如圖3 所示, 該數據傳輸作為實驗環(huán)境, 在此情況下, 資源進行共享與應用。
本次實驗中, 考慮2 種公共資源濫用行為, 一是加速攻擊, 即在一定時間段內頻率加快的資源濫用手段; 二是脈沖攻擊, 該攻擊的強度和時間沖擊性均不穩(wěn)定。 以上2 種形式是資源濫用行為的宏觀體現形式, 具有較強的代表性。
對第1 種形式的公共資源濫用行為, 在進行數據訓練的仿真實驗過程中, 實驗研究人員在訓練數據的分組中, 分別替換掉觀測符號, 此次設計的檢測方法和用于對比的TP 檢測方法其準確率對比圖如圖4所示。
對第2 種形式的資源濫用行為, 在進行數據訓練過程中, 逐一分組, 每組隨機替換觀測符號, 前半部分替換符號數量為后半部分的50% ~70%, 形成替換波動和不規(guī)律性, 然后進行檢測。 其對比結果如圖5 所示。 從實驗結果可以看出, 2 種監(jiān)測方法在加速攻擊時, 整體檢測率均趨于穩(wěn)定, 而在脈沖攻擊時, 因為波動問題, 二者的檢測率均具有明顯的波動,但是從整體上看, 此次設計的檢測方法波動較小, 更具有適應性。
從準確率上看, 以往的TP 檢測其準確率基本維持在71% ~75% 左右, 僅達到合格線, 不能保證檢測率。 而此次設計的檢測方法, 其檢測率搞到95% 以上, 明顯高于以往的檢測方法, 足以證明其檢測優(yōu)勢性。
圖3 網絡數據發(fā)送頻率示意圖Fig.3 Schematic diagram of network data transmission frequency
圖5 形式1 資源濫用行為的實驗對比結果Fig.5 Experimental comparison of form 1 resource abuse behavior
圖6 形式2 資源濫用行為的實驗對比結果Fig.6 Experiment and comparison of the misuse of the two-resource in form Ⅱ
對于不同來源的資源入侵和濫用行為, 其檢測方法本質均是從內部出發(fā)進行檢測。 筆者基于隱馬爾科夫模型, 提出了一種以公共資源網絡內部人員行為檢測為核心的檢測方法, 通過敏感文件操作和行為觀測符號, 確定模型觀測參數, 用于濫用行為的檢測。 仿真結果證明該方法真實有效, 具有更好的適用性。