郭延鋒,孫 娜
(遼寧工業(yè)大學 電子與信息工程學院,遼寧 錦州121001)
傳統(tǒng)網絡管理往往是針對網絡進行操作、監(jiān)督、維護和提供網絡操作系統(tǒng)以及相關軟件[1]。這些年,隨著網絡信息化迅猛發(fā)展,網絡用戶數量呈現指數級增長,這也使得如何更好、更高效地管理網絡成為網絡管理的難點和國內外學者研究熱點。在現有的網絡管理機制中,網絡管理員起到了舉足輕重的作用,但是面對成千上萬網絡用戶時,管理員往往表現出力不從心,因為他們不僅僅要維護網絡系統(tǒng)的穩(wěn)定,還要應對各種網絡病毒和攻擊。
個人信用管理模型最早產生在美國,伴隨著世界金融的發(fā)展,目前已在金融領域廣泛使用,例如保險業(yè),銀行業(yè)等。金融機構通過分析客戶在一定時間內的消費行為,對客戶進行個人信用評估,最終建立個人信用評估系統(tǒng),并利用其用戶進行管理和分類,為金融決策提供支持。隨著信用評估技術的發(fā)展,目前已經產生了很多信用分析和管理的方法,例如,線性概率方法,人工神經網絡 (artificial neural networks,ANN)和數學規(guī)劃方法等[2-4]。其中最為流行和被行業(yè)認可的是人工神經網技術,由于其高準確率和穩(wěn)定性被廣泛使用[5-10]。支持向量機 (support vector machine,SVM)是人工神經網絡技術之一,它繼承了人工神經網絡的優(yōu)點并結合有監(jiān)督學習方法,對分類和預測問題效果明顯[11],目前多用于解決各類實際問題,例如模式匹配,生物醫(yī)學等。
本文提出一種新的網絡用戶行為管理方法。該方法利用信用模型并結合網絡用戶行為,對用戶進行信用評估,并給出相應的信用值,通過對信用值排序和分析,對網絡用戶進行管理,這樣大大減輕了網絡管理員的工作強度,提高網絡運行的穩(wěn)定性。實驗結果證明了基于信用的管理用戶模型的可行性和有效性。
服務器中的網絡日志可以看成一種高維時間序列,其中記錄著網絡中用戶的任何網絡行為,并且隨著時間而更新,考慮到日志中各個屬性之間的關系復雜性和數據的海量性。傳統(tǒng)方法,尤其是基于數學統(tǒng)計和概率的,因其自身的不可學習性和自身調節(jié)不靈活,往往顯得力不從心。
1998年Vapnik等人首次提出支持向量機模型,該模型本身是一種基于空間風險和時間風險最小化原則的機器學習算法,通過多年發(fā)展,其泛化能力和魯棒性大大增強,并且在不同領域使用反饋來看表現優(yōu)異[12]。支持向量機模型的基本思想是基于Mercer定理,通過非線性變換函數將輸入向量從低維空間映射到高維空間中,并根據結構風險最小化原則構造最優(yōu)線性回歸函數,即最優(yōu)分類超平面。最優(yōu)分類超平面必須滿足能夠盡可能多的將兩類數據點正確分開,同時使分開的兩類數據點距離分類超平面最遠[13]。
假設給定訓練樣 本:(x1,y1),(x2,y2),...,(xn,yn),其中xi∈Rn是樣本輸入向量值,yi∈R是樣本輸出 (即類別標簽),支持向量機模型的決策函數可以表示為
式中:w——權值向量,b——函數偏置常量。
由于最優(yōu)超平面必須滿足向量到超平面距離最大的原則,因此支持向量模型在高維空間求最優(yōu)分類超平面問題可以表示為
式中:‖w2‖——結構風險,代表模型的復雜程度,使函數變化曲線更為平緩,提高魯棒性能力;——經驗風險,代表模型的錯誤分類;C——懲罰系數,ξi——松弛系數。
其對偶問題采用拉格朗日方法進行求解,式 (2)變?yōu)?/p>
當樣本點無法被線性可分時,SVM模型將原始樣本集通過一個非線性映射函數φ(x),映射到高維特征空間中,在此空間中進行線性分類。在高維空間中使用核函數進行內積運算,核函數表示為K(xi,xj)=φ(xi)·φ(xj),因此高維空間的計算只需在原低維空間進行核函數運算即可,則式 (3)修改為
得到最優(yōu)解α*=(α*1,α*2,...,α*n)T。
選取的α*一個小于C的正分量α*j,計算
則SVM分類決定函數表示為
常用的SVM核函數包括,線性核函數、多項式核函數、Sigmoid核函數和高斯徑向基核函數 (RBF)[14-16]。
利用個人信用進行決策和分析,目前在金融領域已廣為應用,產生了很多方法和工具。尤其是2008年美國經濟危機爆發(fā)以后,如何更好的利用信用機制去管理客戶和為金融決策服務成為新的研究熱點。本文首次在網絡用戶管理中引入個人信用管理機制,在傳統(tǒng)網絡管理方式的基礎上有所突破,為網絡管理提供了一個新的思路。方法整體流程如圖1所示,主要包括3個部分,首先是使用網絡數據訓練集對支持向量機模型進行訓練;其次是優(yōu)化支持向量機模型內部參數以提高分類準確率;最后是根據模型的分類結果對網絡中用戶進行信用評估。
圖1 信用模型整體流程
個人信用網絡管理具體步驟如下:
(1)使用公開的網絡數據:在本文中,為了保證算法的有效性和可重復性,我們使用公開的網絡數據KDD CUP 99作為基本數據,此數據集包含了豐富的網絡用戶行為信息,并且數據是平衡的 (正常的數據數量和異常的基本相等)有利于此后對模型訓練和分析。
(2)訓練支持向量機模型:為了保證網絡數據各維度之間關系的完整性,盡可能的減少數據損失,本文中我們沒有對數據進行歸一化和降維處理,而是直接使用原始數據,通過隨機抽取的方式產生出訓練集和測試集。而支持向量機模型,我們使用比較流行的LIBSVM作為實驗工具。通過使用不同核函數,我們構成了3種不同的支持向量機模型。在訓練的過程中,將數據直接輸入到模型中,并進行訓練,建立一個粗糙的模型,并比較這3種不同內核SVM模型的分類準確率高低。
(3)參數優(yōu)化和構建信用模型:由于SVM自身的特點,因此對SVM模型參數進行尋優(yōu)是十分重要和必要的步驟。在本文中我們使用的SVM模型屬于C-SVM類型,因此更有必要對其優(yōu)化。試驗中使用網格優(yōu)化 (grid search)算法對參數 (C和g)尋優(yōu)以提高模型的分類準確率。
(4)用戶信用值計算:支持向量機模型建立并進行優(yōu)化后,將測試集輸入到SVM模型中,通過計算將網絡數據進行預測分類,分為正常 (+1)和異常 (-1)兩類,而后使用數據向量到超平面的距離作為信用度量,進行信用評估。
(5)利用信用進行網絡管理:使用步驟 (4)提供的信用評估結果進行匯總分析,進而對網絡用戶進行管理。針對低信用值用戶加強管理,甚至采取斷網等極端措施,而對信用度好的網絡用戶則減少管理或不需要管理。
使用信用機制作為管理手段,主要是從心理學角度上來控制和規(guī)范網絡用戶的行為,并且在將來可以引入類似于足球升降級制度,對網絡用戶信用值進行動態(tài)調整。
本實驗使用KDD CUP 99數據集作為原始數據集,此數據集是完全公開的,可從UCI數據庫中獲得 (http://archive.ics.uci.edu/ml/datasets/KDD+Cup+1999+Data),此數據集包含494021條記錄,每條記錄42維。試驗中我們將數據分為兩類,一類是正常網絡連接,另一類是異常連接,例如網絡攻擊等,分別用+1和-1表示。為了方便運算,本試驗中,我們從原始數據中分別隨機抽出20000條記錄作為訓練集和2000條數據作為測試集。
由于SVM模型核函數對實驗結果的重要性,因此我們首先使用不同的核函數進行比較試驗,以便從中挑選出最合適核函數,為模型所用。試驗結果如表1所示。
表1 不同核函數比較
從表1中我們可以看到,在沒有對支持向量機模型參數優(yōu)化的前提下,這4個核函數中RBF核函數準確率最高,達到了90.2%,Sigmoid核函數準確率最低僅77.6%,而Line核函數與Polynomial核函數準確率幾乎一樣,因此通過比較我們選擇RBF作為信用模型的核函數,為下一步做準備。
除了核函數外,影響SVM模型分類準確率另一個因素是模型內部的變量,因此為了進一步提高模型分類準確率我們還應該對模型參數進行尋優(yōu)操作。
本次試驗中為方便計算,我們使用網格尋優(yōu)算法對模型中懲罰系數C和RBF核函數參數g進行尋優(yōu),具體來說使用交叉驗證 (cross validation)[13]方法對進行兩次尋優(yōu)。第一次為粗尋優(yōu),C和g的變化范圍都是2-10,2-9,…,29,210,搜索結果如圖2所示,其中x和y軸分別表示C和g取以2為底的對數后的值,等高線表示取相應的C和g所得到的準確率,從圖2中可看到把C縮小到2-2到24,同時g的范圍可以縮小到2-4到24,這樣在粗選參數的基礎上可以進行二次尋優(yōu)。在第二次尋優(yōu)中我們限定C的變化 范 圍 為 2-2,2-1.5, …,24,g的 取 值 范 圍 為 2-4,2-3.5,…,24,最終尋優(yōu)結果如圖3所示。
通過兩次尋優(yōu)操作對SVM模型進行優(yōu)化,可以更為精準的獲得參數C和g的最優(yōu)值,從而保證信用模型的準確性和可靠性。
由于網絡數據是實時的、海量的,因此為了鎖定網絡用戶身份,在具體實踐中,我們使用IP地址和MAC地址捆綁方式來識別用戶,作為用戶的身份標識,并且在實際應用中發(fā)現,使用支持向量機模型分類后,距離超平面距離較遠的數據,往往是比較穩(wěn)定的,即非常好或非常壞的。因此我們可以通過計算數據向量點到超平面的距離作為信用度量標準,對同一用戶在一定時間內的信用均值作為其信用值。從整體角度,按照信用值進行排序,從中選擇信用最差的用戶 (例如選100個)加強跟蹤和管理,而對于信用好的用戶則減少或不進行管理,這樣做將大大減輕網絡管理員的工作負擔。信用排序如圖4所示。右下角表示信用差的用戶分布,從圖4可以看出,大部分用戶信用都可以,只有小部分用戶信用值低,對網絡產生危害。
圖4 網絡用戶信用值分布
除了引入信用機制外,我們還引入升降級制度,在一定時間內對網絡用戶信用值進行動態(tài)調整,信用不好的用戶若 “改過自新”,則可以成為信用度好的,同理信用好的用戶也有可能變成差的,這樣提高了網絡用戶管理的彈性和可靠性。
鑒于網絡管理的重要性和必要性,本文提出了一種新的網絡管理方法——基于個人信用機制的網絡管理方法。盡管目前,個人信用評估機制已經廣泛應用于金融領域,并取得了很好的效果,而在網絡管理中目前還沒有相關研究。本文通過實驗分析表明,基于個人信用的網絡管理方法可以在一定程度上減輕網絡管理員的工作壓力,提高網絡整體的穩(wěn)定性,并且由于針對網絡用戶行為控制,從根源上提高了網絡的穩(wěn)定性,也為未來網絡管理發(fā)展提供了一個新的思路和發(fā)展方向。
[1]WANG J L,MING C D,John C S L.Credit-based network management[C].International Conference on Communication Systems and Networks and Workshops,2009:473-482.
[2]LING G.Insurance credit evaluation incorporated qualitative and quantitative information [C].2nd International Symposium on Computational Intelligence and Design,2009:68-72.
[3]Gutierrez P A,Hervas-Martinez C,Martinez-Estudillo F J.Logistic regression by means of evolutionary radial basis function neural networks[J].IEEE Transactions on Neural Networks,2010,22(2):246-263.
[4]MIN J H,LEE Y C.A practical approach to credit scoring[J].Expery System with Applications,2008,25 (2):1762-1770.
[5]PING Y.Hybrid classifier using neighborhood rough set and SVM for credit scoring [C].International Conference on Business Intelligence and Financial Engineering,2009:138-142.
[6]WU C,XIA H.Study of personal credit evaluation under C2C environment based on support vector machines ensemble [C].International Conference on Management Science and Engineering 15th Annual Conference,2008:25-31.
[7]ZHANG D,HIFI M,CHEN Q,et al.A hybrid credit scoring model based on genetic programming and support vector machines[C].4th International Conference on Natural Computation,2008:8-12.
[8]YU L,YUE W,WANG S,et al.Support vector machine based multiagent ensemble learning for credit risk evaluation[J].Expert Systems with Applications,2010,37 (4):1351-1360.
[9]KIM H S,SOHN S Y.Support vector machines for default prediction of SMEs based on technology credit [J].European Journal of Operational Research,2010,201 (3):838-846.
[10]Hsieh N C,Hung L P.A data driven ensemble classifier for credit scoring analysis [J].Expert Systems with Applications,2010,37 (1):534-545.
[11]WANG N,NIU D X.Credit card customer churn prediction based on the RST and LS-SVM [C].Xiamen:6th International Conference on Service Systems and Service Management,2009:275-279.
[12]LUO S T,CHEN B W,HSIEH C H.Prediction model building with clustering-launched classification and support vector machines in credit scoring [J].Expert System with Application,2009,36 (4):7562-7566.
[13]HUANG C L,WANG C J.A GA-based feature selection and parameters optimization for support vector machines [J].Expert Systems with Applications,2006,30 (2):231-240.
[14]CHOU P H,WU M J,Chen K K.Integrating support vector machine and genetic algorithm to implement dynamic wafer quality prediction system [J].Expert Systems with Applications,2010,37 (6):4413-4424.
[15]HUANG C C,CHUNG R G,CHEN R C,et al.Finding an optimal combination of key training items using genetic algorithms and support vector machines [J].Information Technology Journal,2010,9 (4):652-658.
[16]GUO L,XIAO H T,FU Q.SVM model optimal multi-parameter selection method for imbalanced data target recognition[J].Journal of Infrared and Millimeter Waves,2009,28(2):141-145.