王磊
摘要:校園網(wǎng)的用戶行為指的是在使用網(wǎng)絡(luò)的時候,用戶所表現(xiàn)出來的一種規(guī)律,在這里,可以使用一些特別的定量表示出來,校園網(wǎng)用戶行為有著比較特殊的特征,這是普通網(wǎng)絡(luò)使用群眾無法具備的。在現(xiàn)社會的校園網(wǎng)當(dāng)中,有著越來越多的挖掘技術(shù),利用這些技術(shù)來分析校園網(wǎng)的用戶行為,對寬帶進(jìn)行合理的分配,有助于提升校園網(wǎng)用戶的使用效率。本文就對應(yīng)用于校園網(wǎng)用戶行為分析的K-means聚類算法進(jìn)行敘述,供參考。
關(guān)鍵詞:校園網(wǎng)用戶行為;分析;K-means聚類算法
引言:
現(xiàn)社會,不少院校對于校園網(wǎng)的管理都比較欠缺,通常都會采用服務(wù)器來進(jìn)行管理,比如在認(rèn)證計費(fèi)和流量監(jiān)控等方面都會使用進(jìn)服務(wù)器,服務(wù)器在服務(wù)的過程當(dāng)中,會產(chǎn)生很多的數(shù)據(jù),這些數(shù)據(jù)都會自動保存在后臺數(shù)據(jù)庫里面。全部的數(shù)據(jù)里面,有一些是和校園網(wǎng)有關(guān)的,有的數(shù)據(jù)是和校園網(wǎng)的使用、運(yùn)行狀態(tài)有關(guān)的,假如把這些數(shù)據(jù)進(jìn)行分析和利用,就可能會對整個校園網(wǎng)起到很好的協(xié)助作用。使用K-means聚類算法能夠有效的對整個用戶行為進(jìn)行分析,并且描述出校園網(wǎng)用戶行為和網(wǎng)絡(luò)的運(yùn)行實時情況,K-means聚類算法在校園網(wǎng)用戶行為特征和使用情況以及校園網(wǎng)的分布等諸多方面有著非常好的作用。
1.K-means聚類算法的概括
K-means聚類算法是一種相對來說比較重要有效的挖掘方式,將物理現(xiàn)象和抽象對象進(jìn)行了分組的一個過程,相似的對象就分為一組,不同的對象再分為一類,可以把聚類算法分成很多個群體,各個群體內(nèi)部的對象都有著比較強(qiáng)的相似度,但是,這種相似度在不同的群體之間卻很低,這也是聚類算法的一大特征??梢园丫垲愃惴ǚ殖蓭追N類型:劃分方法、層次方法、基于網(wǎng)格的方法等,每一種方法雖然表面上都沒有多大的聯(lián)系,但是卻都有著自己的代表算法。K-means聚類算法就是諸多聚類算法中的一種,它屬于劃分方法的行列,K-means聚類算法有一個很顯著的特點(diǎn),就是它有著比較好的可伸度和效率,比較適合用在大文檔案的處理過程當(dāng)中。K-means聚類算法可以把物理對象或抽象對象進(jìn)行分組,相似的對象分為一組,彼此相似的一組對象組成的集合和不同聚類當(dāng)中的對象相比,相似度有著一定的差異,而給定的那個數(shù)據(jù)項之間會有一定的價值存在,這些價值都會導(dǎo)致聚類和同一聚類當(dāng)中的對象相似度極高,相反,不同劇聚類當(dāng)中的相似度反而很小。
2.校園網(wǎng)用戶行為分析的K-means聚類算法的數(shù)據(jù)準(zhǔn)備
2.1理解數(shù)據(jù)
校園網(wǎng)用戶行為產(chǎn)生的數(shù)據(jù)基本上都是來自認(rèn)證計費(fèi)數(shù)據(jù)庫當(dāng)中的,日常的數(shù)據(jù)都會保存在登錄數(shù)據(jù)庫里面。要想利用K-means聚類算法來分析出校園網(wǎng)的用戶行為,就要先建立一個用戶特征的反映系統(tǒng),日志數(shù)據(jù)表當(dāng)中所提供出來的二十三個字段就是校園網(wǎng)的基礎(chǔ),在確定了參數(shù)之后,還需要確定校園網(wǎng)用戶的特征項。比如,用戶登錄日志的時候記錄的都是第一次登錄的數(shù)據(jù),也可以理解成一個用戶有著很多條登錄的信息,這是不具有統(tǒng)一性的。因此,要想在真正意義上實現(xiàn)校園網(wǎng)用戶行為的分析,就必須要根據(jù)登錄表當(dāng)中的IP地址來進(jìn)行統(tǒng)計,并且,還要對每一個校園網(wǎng)用戶的月使用流量進(jìn)行分析和統(tǒng)計,從中將使用流量提取出來。
2.2數(shù)據(jù)處理
數(shù)據(jù)處理的這個過程需要使用到SQL2005的ETL工具,其能夠有效的對校園網(wǎng)用戶數(shù)據(jù)進(jìn)行處理,比如,在日志數(shù)據(jù)庫當(dāng)中提取到某個月的數(shù)據(jù),假如是2016年8月的數(shù)據(jù),這個月校園網(wǎng)用戶登錄日志的量高達(dá)215681條。按照數(shù)據(jù)的生成需求,只需要用到3個字段就可以了。
2.3數(shù)據(jù)處理過程
專家可以先設(shè)計一個數(shù)據(jù)流,再利用SQLSever2005的SSIS工具將其生成為K-means聚類算法需要的數(shù)據(jù),這也就逐漸形成了K-means聚類算法的初始輸入文件,假如登錄表顯示的數(shù)量是3381行,那么就證明2016年8月的IP數(shù)值達(dá)到了3381條,在登錄記錄表當(dāng)中,K-means聚類算法可以把IP地址當(dāng)成是文件的關(guān)鍵字段。整個數(shù)據(jù)流的過程都需要采用ETL工具來對數(shù)據(jù)進(jìn)行抽取,盡量抽取出一些符合要求或條件的校園網(wǎng)用戶行為數(shù)據(jù),在抽取完畢之后,才能通過數(shù)據(jù)做樣本模型。
3.調(diào)整算法參數(shù)
3.11Clustering_Method參數(shù)
Clustering-Method參數(shù)能夠明確的指出哪一種算法決定聚類的組成部分,這種參數(shù)的算法總共可以分成四種,首先是可以伸縮的EM算法,其次是較為普通的EM算法,雖然表面上都是EM算法,但是后者是不具有伸縮性的。除此以外,還有可伸縮的K-means算法以及不可伸縮的K-means算法,通常情況下,使用最多的就是可伸縮的K-means算法。
3.2Cluster_Count參數(shù)
Cluster-Count參數(shù)是K-means聚類算法當(dāng)中的k值,它能夠算出需要多少個聚類,假如把Cluster-Count參數(shù)的值暫定為0,那么K-means聚類算法就會把數(shù)據(jù)當(dāng)中的聚類個數(shù)估測出來,在經(jīng)過了對比和調(diào)整以后最終選擇K值為3,這種分類也是最具獨(dú)立性的。
結(jié)束語:
在校園網(wǎng)用戶行為的分析上,使用K-means聚類算法能夠更加有效對數(shù)據(jù)、K值進(jìn)行分析,從而更好的分析出用戶行為,并且,這也是一種新的嘗試,聚類結(jié)果給校園網(wǎng)管理人員提供了更多的用戶行為,這樣就可以制定出更多的網(wǎng)絡(luò)策略。
參考文獻(xiàn):
[1]李旭.基于聚類技術(shù)的校園網(wǎng)絡(luò)用戶行為數(shù)據(jù)分析研究[D].山東師范大學(xué),2016.
[2]楊志忠.基于Hadoop的網(wǎng)絡(luò)用戶行為分析[D].蘭州理工大學(xué),2016.
[3]馬仕玉.聚類算法及其在校園網(wǎng)用戶行為分析中的應(yīng)用[D].重慶交通大學(xué),2015.
[4]黎慧娟.校園網(wǎng)用戶行為的分析與研究[D].廣西大學(xué),2007.