薛黎明 欒維新
摘 要: 高校網絡管理部門在運行管理過程中積累了大量用戶上網行為數據,對用戶上網行為進行整理分析將能掌握用戶上網習慣、規(guī)律,科學有效地制定上網管理策略。以一具體高校為例,通過對用戶上網數據進行預處理,抽取相應字段構建分析數據集,通過圖表形式對上網登錄時間進行統(tǒng)計展示。以上網時長為指標值,分別使用K-均值聚類與Kohonen神經網絡聚類方法對上網記錄進行聚類分析,得到聚類結果。結合用戶信息,以用戶與上網記錄的對應準則作為判斷聚類效果的準則,對兩種聚類方式得到的結果進行比較,選擇合適的結果。結合計算結果對實驗單位的上網情況進行分析,對上網管理策略提出建議。
關鍵詞: Kohonen神經網絡; 高校網絡管理; 上網行為; 上網管理策略
中圖分類號: TN911?34 文獻標識碼: A 文章編號: 1004?373X(2016)07?0029?04
Abstract: The network management departments in universities have accumulated users′ mass online behavior data in ope?ration management process, which can master users′ online habit and regular pattern by reorganizing and analyzing the users′ online behavior, and formulate the online management strategy scientifically and effectively. A specific college is taken as the example, the users′ online data is preprocessed, and corresponding field is extracted to built the analysis dataset. The online login time is showed in graphic form after statistics. By taking online time as the index value, the clustering analysis for the online record is conducted with K?means clustering and Kohonen neural network clustering methods to obtain the clustering results. In combination with the user information, the results obtained from the two clustering methods are compared by taking corresponding criterion of user and online record as the criterion to judge the clustering effect, and the suitable result is selected. The online condition of the experimental unit is analyzed with the computed results to propose some suggestions for online management strategy.
Keywords: Kohonen neural network; university network management; online behavior; online management strategy
0 引 言
信息技術的高速發(fā)展,不但對人們的生產生活產生了巨大的影響,同時也給傳統(tǒng)的學校教育帶來了很大的沖擊[1]。隨著互聯(lián)網應用的普及,網絡用戶數量快速增加。對國內高校而言,互聯(lián)網已成為學校師生學習、工作、生活的基本需求,網絡用戶幾乎覆蓋了學校100%的人員。高校用戶具有知識性強,使用互聯(lián)網積極性高,信息交互量大等特點,對聯(lián)網速率、網絡穩(wěn)定性都提出了較高要求。而由于我國高校網絡用戶連接互聯(lián)網大多通過學校統(tǒng)一網絡管理部門出口連接互聯(lián)網,對高校而言,互聯(lián)網出口帶寬是有限的,網絡管理部門在響應用戶的上網需求時,有較大壓力。為解決相關問題,各高校網絡管理部門也采取了一定措施。一方面,通過技術手段優(yōu)化學校網絡結構,升級網絡設備,提高網絡可用性;另一方面,通過出臺相應的管理措施利用經濟與行政手段對用戶上網行為進行相應引導,平衡用戶的聯(lián)網需求。
目前國內的很多高校在校園網的運營管理上都會使用一些應用服務器,主要用于認證計費、入侵檢測、流量監(jiān)控等方面。在提供服務的同時,也產生了大量的日志數據存儲于后臺數據庫中。這些數據包含著整個校園網內部用戶的使用狀況。如果能對這些數據進行科學有效的分析,并對分析結果加以合理利用,將會對整個網絡管理起到很大的推進作用[2],為網絡管理進行有效支撐,為決策科學化、管理精細化提供幫助。本文以一具體高校為案例,對用戶上網行為進行分析,找到相應規(guī)律,根據相應指標對用戶進行分類,為用戶分組,制定用戶管理決策提供幫助。
1 數據抽取與分析
D校在進行用戶鏈接互聯(lián)網管理過程中,用戶通過專用客戶端軟件登錄的方式登錄互聯(lián)網,網絡管理部門對用戶的登錄上線時間、退出下線時間,登錄總時長等都有專門數據庫進行記錄。每一次登錄在后臺都會出現(xiàn)一條記錄。由于運行數據庫相對龐大,表之間關系較為復雜,數據結構多樣,為方便分析,從運行的上網數據庫中提取與教工用戶上網時間相關的字段,構造上網時間分析表進行分析,如表1所示。
從圖1可以看出,每天大約6點鐘后開始有少量教工登錄互聯(lián)網,在早8:00—9:00間達到高峰。在中午下班前11:00—12:00間登錄人次降低。中午休息及下午上班前(12:00—14:00)登錄人次較中午休息前增加,臨近下班登錄人次降低,下班后登錄互聯(lián)網人次相對穩(wěn)定但低于上班期間數量。
2 上網時長聚類
聚類(Clustering)是數據挖掘中一種重要的挖掘方法,它是將物理或抽象對象進行分組并將相似對象歸為一類的過程[3]。
對于數據庫中的記錄,上網時長字段(TIME_LONG)是指從登陸網絡到退出網絡的時間,上網時長指標有一定規(guī)律性,為掌握用戶上網行為,科學制定用戶上網管理策略,下面對用戶每次登陸的上網時長進行分析。
K?均值算法是一種基于劃分的聚類算法,它通過不斷的迭代來進行聚類,當算法收斂到一個結束條件時就終止迭代過程,輸出聚類結果。由于其算法思想簡便,因此K?均值算法己成為一種最常用的聚類算法之一。
使用K?均值聚類算法對一學院教工上網時長記錄進行聚類,根據樣本數量,設置聚類個數為4個,經過聚類,四個類的聚類中心分別為:聚類1,中心為3.51;聚類2,中心1.19;聚類3,中心44.25;聚類4,中心72.86。
為每條記錄增加一個字段,表示該條記錄所屬的類別。按上網時長排序的聚類結果如表2所示。
Kohonen網絡是自組織競爭型神經網絡的一種,它能夠識別環(huán)境特征并自動聚類[4],該網絡為無監(jiān)督學習網絡,能夠識別環(huán)境特征并自動聚類。該方法用迭代算法優(yōu)化目標函數來獲取對數據集的分類。
聚類結果如表3所示。
3 聚類結果比較與策略分析
對照原始數據發(fā)現(xiàn),一個用戶每天可以頻繁多次登陸退出網絡,在有聯(lián)網需要的時候上網,不需要上網的時候及時退出,待有需要的時候再次聯(lián)網,在這種情況下,對于同一個用戶,在數據庫里一天可以有多條記錄。同樣,也存在這樣的情況,有的用戶每天只登陸網絡一次,待關機時自動退出網絡,對于這樣的用戶,一天只有一條登錄記錄。
對于絕大多數用戶,個人的上網行為是有一定規(guī)律的,而在上述對上網時長進行聚類的過程中并沒有考慮用戶的因素,這就出現(xiàn)了同一用戶的不同上網記錄被劃分到不同類別的情況,如果上網時長相差較大,被分在不同類別是可以理解的,而如果同一個用戶每次上網時長比較接近,且恰巧在聚類邊界點附近,但被劃分在不同類別,那么聚類結果則不能被很好的理解。
基于這種現(xiàn)象,對上述兩種聚類方法的聚類效果進行評價。
評價偏好假設:相比于類間距、類內距離而言,將同一個用戶主體距離較近而類別不同的記錄記為一類更有意義。對不同聚類算法而言,聚類邊界點附近的屬于同一個用戶但被劃分為不同類別的記錄越少越好。邊界點附近的記錄對比結果如表4所示。
在[K?]均值聚類結果中,200720x2,199610x0,200420x0,200910x9四個用戶具有在邊界點附近且被劃分為不同類別的記錄,而在Kohonen聚類的邊界點附近卻沒有類似的數據。因此,根據評價偏好,在本例中采用Kohonen聚類方法聚類效果更好,對實際數據的解釋效果更好。
策略分析:通過對用戶上網時長進行聚類,分析聚類結果,約70%的上網記錄為第一類,上網時長集中在1 h之內,說明對大部分用戶,都能根據上網需求,調整上線時間,在沒有上網需求時,主動退出互聯(lián)網,這也與大部分用戶選擇的按時上網收費策略是相關的,說明相應的策略能夠影響用戶的上網行為。
第四類上網記錄數量不多,但上網時長較長超過6 h,對比上網記錄的用戶信息,發(fā)現(xiàn)主要集中在個別用戶,結合實際工作與走訪調查,發(fā)現(xiàn)上述用戶普遍存在對上網工具使用不熟悉,不會主動退出網絡,只在關機時自動退出網絡的現(xiàn)象。針對這種情況,對此類用戶進行有針對性的上網工具培訓,同時在上網管理策略中增加規(guī)則,對上網時長超過6 h的記錄,通過消息推送對用戶進行提示,有效引導用戶使用行為。
4 結 語
本文結合具體實例,對一特定單位網絡用戶上網時間數據進行分析,根據將同一個用戶主體距離相近而類別不同的記錄記為一類更有意義的前提假設,對傳統(tǒng)[K?]均值聚類算法進行改進。在具體實例中,結合記錄中的用戶信息,通過將同一用戶在邊界點附近且屬于不同類別的記錄調整為一類,對聚類邊界點進行調整,改進后的聚類結果對樣本數據有更好的解釋效果。
參考文獻
[1] 仇心榮.淺談高校校園網管理[J].硅谷,2009(13):133?134.
[2] 丁青,周留根,朱愛兵,等.基于K?Means聚類算法的校園網用戶行為分析研究[J].微計算機應用,2010,31(6):74?80.
[3] 葉良艷.基于改進后的K?Means聚類算法的網吧用戶行為聚類[J].安徽科技學院學報,2009,23(4):27?30.
[4] 劉純平.基于Kohonen神經網絡聚類方法在遙感分類中的比較[J].計算機仿真,2006,26(7):1744?1746.
[5] 李翔,顧捷.運用聚類算法預測地區(qū)電網典型日負荷曲線[J].電力與能源,2013,34(1):47?50.
[6] 馬小惠,陽育德,龔利武.基于Kohonen聚類和SVM組合算法的電網日最大負荷預測[J].電網與清潔能源,2014,30(2):7?11.