于莉佳,汪 濤
(1 中國聯(lián)合網絡通信有限公司哈爾濱軟件研究院,哈爾濱 150040;2 哈爾濱商業(yè)大學,哈爾濱 150028)
隨著互聯(lián)網技術的高速發(fā)展,人們的生活已經與互聯(lián)網息息相關。在互聯(lián)網迅速普及的大背景下,互聯(lián)網用戶的行為分析現(xiàn)已成為洞察用戶偏好、用戶能力的一個有利手段。用戶網絡行為的分析給網絡平臺提供了更加多元的選擇,但與此同時也為網絡平臺提出了更加嚴苛的技術要求和規(guī)范。網絡用戶的互聯(lián)網行為被數(shù)據(jù)平臺監(jiān)控,平臺則通過數(shù)據(jù)分析來了解用戶的意圖,從而促進網絡生態(tài)環(huán)境的良性發(fā)展。
目前,認證計費、流量監(jiān)控等應用服務器已然廣泛應用在各大高校的網絡管理中。這些應用服務器在為高校提供管理便利的同時,卻還會產生大量的日志數(shù)據(jù),這些日志數(shù)據(jù)通常存儲于后臺數(shù)據(jù)庫當中。分析可知,日志數(shù)據(jù)包含大量的用戶在互聯(lián)網上的行為數(shù)據(jù)。如果能對日志中行為數(shù)據(jù)進行科學、高效分析,并且對數(shù)據(jù)隱藏的深層次的規(guī)律加以利用,將大大地提升高校的網絡管理效率,為高校網絡管理構建有效支撐,且為其決策科學化、管理精細化提供有益幫助。本文以一具體高校為實例,對用戶上網行為數(shù)據(jù)進行聚類分析,挖掘內在規(guī)律,助力高校決策順利實施。
針對高校網絡用戶行為可以歸納為不同的類別。分類類別與研究方法和研究目的密切相關。比如,根據(jù)網絡用戶網絡行為流量異常情況,可以將用戶分為流量正常用戶和流量異常用戶,流量異常用戶的計算機通常已被蠕蟲、木馬等病毒感染。針對用戶的網絡行為攻擊情況,可以分為善良網絡用戶和惡意網絡用戶。由此即可展開善良網絡行為推演,分析其訪問偏好、常用的網絡訪問模式,從而更好地引導高校網絡用戶正確使用互聯(lián)網,指導運營商為高校用戶提供更為優(yōu)質的、更有針對性的互聯(lián)網接入服務?;诒疚牡难芯繂栴}及目的,則將高校的學生的網絡行為分為4類,即:信息獲取類行為、知識獲取類行為、休閑娛樂類行為、電子商務類行為。對此擬做探討闡述如下。
(1)信息獲取類行為。是用戶通過使用超文本協(xié)議等從互聯(lián)網上查詢并獲取自身所需要的信息?;ヂ?lián)網將數(shù)以萬計、不同格式、零散的信息進行整合。信息獲取類行為最大的特點是通過搜索引擎來收集互聯(lián)網上的資源。
(2)知識獲取類行為。高校學生知識獲取類行為主要是指從不同的課程平臺獲取知識的行為。目前線上教學已經成為高校教學活動中的一個重要的組成部分。學堂在線、網易云課堂、果殼MOOC學院等一批慕課平臺陸續(xù)出現(xiàn),吸引了大量的在線學員。高校學生從在線平臺獲取知識的行為日趨頻繁,該知識獲取行為也已成為線下課堂教學的重要補充。
(3)休閑娛樂類行為。休閑娛樂類行為把互聯(lián)網視為一個開放的娛樂場所,可提供多種服務用于消遣。比如,互聯(lián)網可以為用戶提供玩游戲、看電影、看小說、聽音樂等多種服務。通常情況下,休閑娛樂行為是電子商務行為的子集。但是考慮到休閑娛樂類行為占用了互聯(lián)網用戶網絡行為的很大比例,因此就將休閑娛樂類行為作為高校學生網絡行為的一個單獨分類。
(4)電子商務類行為。電子商務類行為把互聯(lián)網當成一個開放的交易場所,可為互聯(lián)網用戶提供信息獲取功能、溝通交流功能。電子商務公司通過在互聯(lián)網上建立虛擬交易平臺,為網絡用戶提供交易場所,如亞馬遜、淘寶、易趣網、京東等。目前,高校學生消費方式已經從線下購買轉移到網上購物,并將網絡上的虛擬交易平臺作為購物的主要方式。因此,本文將電子商務類行為作為高校學生上網行為的一個重要分類。
FCM聚類算法由Dunn等人提出,Li等人對該算法進行了改進。FCM算法中不同樣本點對聚類中心有一個在[0,1]范圍內的隸屬度,根據(jù)隸屬度的大小對樣本點的類別進行劃分。
由FCM聚類算法選擇的相似度函數(shù)可知,將I聚類為個類別,其中聚類中心稱為V,1,2,,。定義I與類別的隸屬度,即模糊劃分矩陣,為[u],隸屬度應滿足下列約束條件:
其中,u表示樣本I與類別的隸屬度。
研究中又給出了FCM算法的目標函數(shù)定義如下所示:
其中,表示歐氏距離函數(shù)。
進一步地,定義聚類中心迭代更新函數(shù)如式(4)所示:
這里,將對基于FCM聚類的網絡用戶上網行為聚類算法的步驟流程做全面表述如下。
網絡用戶行為樣本
網絡用戶行為聚類結果
給定待聚類樣本聚類數(shù)目及相關參數(shù),本文中聚類數(shù)目4。
初始化隸屬度矩陣及個聚類中心。
計算待聚類樣本與聚類中心距離矩陣,并更新隸屬度矩陣。
對目標函數(shù)進行計算,如果小于給定閾值,則進入步驟5,否則返回步驟2繼續(xù)迭代。
計算全部樣本的最近距離聚類中心,更新樣本I的類別為最近距離聚類中心類別號。
目前仍然無法量化分析高校學生的網絡行為,上網行為評價的各類信息僅僅停留在主觀評價方面。高校贈予學生用于訪問學習資源的免費流量存在較難評判的客觀性。部分學生存在虛假申請免費流量問題,導致有限的資源無法分配給有需求的學生,造成網絡資源的嚴重浪費。這里通過學生網絡行為進行分析,將學生分為4種類型:學習型、學習游戲型、消費娛樂型、游戲型。
本實驗基于某高校互聯(lián)網用戶行為數(shù)據(jù)構建的數(shù)據(jù)集,從中隨機選擇1000個用戶,采集3月份第三周的網絡日志文件,統(tǒng)計這1000個學生用戶的信息獲取類行為、知識獲取類行為、休閑娛樂行為、電子商務類行為。利用均值模糊聚類算法將產生這些網絡行為的用戶分為學習型、學習游戲型、消費娛樂型以及游戲型,統(tǒng)計聚類結果見表1。
表1 網絡用戶行為聚類結果Tab.1 Clustering results of online users behavior %
由表1中該高校學生的上網行為可以看出,學習型和學習游戲型占比較高,總計占比86%。學習型用戶網絡行為的時間主要表現(xiàn)為信息獲取和使用網絡學習資源。學習游戲型用戶網絡行為主要以使用網絡學習資源和游戲為主。消費娛樂類行為的用戶主要的網絡行為集中體現(xiàn)在休閑娛樂和電子商務類行為這2個方面,而這2類行為占比達到了73%。最后一類用戶是游戲型用戶,這類用戶的主要網絡行為是休閑娛樂類,大多表現(xiàn)為網絡游戲行為。
通過本高校用戶網絡行為聚類結果分析可知,該校的大部分學生的網絡行為和學生有關,比例達86%。本文針對這部分學生給予一定的免費上網時長,這樣可以激勵其更加傾向于自主從事網絡學習行為來提升自己。即使是消費娛樂類學生的知識獲取行為占比也達到了單周上網總時長的22%。這也說明消費娛樂型學生在消費娛樂的同時,仍有一定的學時花費用于學習。最后一類游戲型學生,在休閑娛樂類的行為達到了單周上網時長的78%,就說明這些學生大部分上網選擇的都是休閑娛樂類行為。對這些學生的上網數(shù)據(jù)通過進一步分析發(fā)現(xiàn),幾乎所有的網絡行為都是網絡游戲。對于這部分學生需要引起學院的重視,并由輔導員給予這些學生重點關注。綜上可知,這樣一來,就可以更加精確地掌握學生的動態(tài)以及生活學習情況。
本文針對某高校學生上網行為的數(shù)據(jù)進行了挖掘、分析與探索。首先對高校學生上網行為分為信息獲取類行為、知識獲取類行為、休閑娛樂類行為、電子商務類行為四大類。然后利用均值模糊聚類算法對學生的上網數(shù)據(jù)進行聚類分析。根據(jù)聚類結果挖掘、分析出數(shù)據(jù)所蘊含的更深層次的信息。借助本文研究成果,高??梢愿尤?、客觀地制定出相關互聯(lián)網管理策略,同時也可以準確可靠地掌握學生狀態(tài),更有針對性地關注學生的健康成長。