丁 靜,胡俊宇,苗 鶴
(沈陽(yáng)工程學(xué)院a.網(wǎng)絡(luò)與計(jì)算中心;b.科技處;c.國(guó)際教育學(xué)院,遼寧 沈陽(yáng) 110136)
隨著數(shù)字校園建設(shè)的迅猛發(fā)展,學(xué)生行為有可能實(shí)現(xiàn)量化分析,特別是隨著網(wǎng)絡(luò)管理數(shù)據(jù)的不斷增加,充分利用這些數(shù)據(jù),從這些海量數(shù)據(jù)中利用已有的先進(jìn)技術(shù)手段發(fā)現(xiàn)重要信息并將其運(yùn)用到教學(xué)建設(shè)、學(xué)生管理中是非常必要的。如何從海量數(shù)據(jù)中挖掘出對(duì)學(xué)生行為及時(shí)干預(yù)、精細(xì)管理有用的信息,既是對(duì)學(xué)生工作者的挑戰(zhàn),也是利用新理念、新方法開展工作的新機(jī)遇。
為客觀準(zhǔn)確地描述學(xué)生網(wǎng)絡(luò)行為特征,結(jié)合沈陽(yáng)工程學(xué)院學(xué)生使用網(wǎng)絡(luò)的周期性,本研究通過(guò)數(shù)理統(tǒng)計(jì)方法構(gòu)建校園網(wǎng)絡(luò)行為指標(biāo)體系,用于下一步網(wǎng)絡(luò)行為特征的分類分析。
管理模式維度:上網(wǎng)總流量、總上網(wǎng)時(shí)長(zhǎng)、上網(wǎng)類型、學(xué)分成績(jī)作為行為管理模式的4 個(gè)維度。上網(wǎng)總量為一學(xué)期上網(wǎng)總量,由入流量、出流量決定;總上網(wǎng)時(shí)長(zhǎng)為系統(tǒng)記錄的一學(xué)期上網(wǎng)總時(shí)長(zhǎng),由每次上線時(shí)間、下線時(shí)間決定;上網(wǎng)類型為日志系統(tǒng)采集到的學(xué)生上網(wǎng)時(shí)在網(wǎng)絡(luò)上所訪問(wèn)的類型;學(xué)分成績(jī)?yōu)榻虅?wù)數(shù)據(jù)庫(kù)可以采集到的學(xué)生成績(jī)情況。
計(jì)費(fèi)周期:沈陽(yáng)工程學(xué)院網(wǎng)絡(luò)管理系統(tǒng)的計(jì)費(fèi)周期為按月計(jì)費(fèi),以每個(gè)學(xué)期月為統(tǒng)計(jì)周期,依據(jù)教學(xué)周期與校歷截取8 月份到12 月份半學(xué)期流量情況。
直接采集到的數(shù)據(jù)一般是不完整的、帶有隨機(jī)性的,并且伴有一定的噪聲,我們?cè)谑褂脭?shù)據(jù)挖掘方法之前對(duì)數(shù)據(jù)進(jìn)行了數(shù)據(jù)清洗。通過(guò)數(shù)據(jù)清洗,剔除部分無(wú)效數(shù)據(jù)和空缺數(shù)據(jù),保留研究所需有用信息,進(jìn)行下一步分析研究。
K 最近鄰(k-Nearest Neighbor,KNN)分類算法,是一個(gè)理論上比較成熟的方法。它是給定一個(gè)未知樣本,k-最鄰近分類法搜索模式空間,找出最接近未知樣本的k個(gè)訓(xùn)練樣本,然后使用k個(gè)最鄰近者中最公共的類來(lái)預(yù)測(cè)當(dāng)前樣本的類標(biāo)號(hào)。
KNN 方法的思路是:如果一個(gè)樣本在特征空間中的k個(gè)最相似的樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別。KNN 算法中,所選擇的訓(xùn)練樣本都是已經(jīng)正確分類的對(duì)象。該方法在定類決策上只依據(jù)最鄰近的一個(gè)或者幾個(gè)樣本的類別來(lái)決定待分樣本所屬的類別。本研究所使用的是KNN算法。
本研究所采集的是沈陽(yáng)工程學(xué)院自動(dòng)化學(xué)院、經(jīng)濟(jì)與管理學(xué)院、能源與動(dòng)力學(xué)院及電力學(xué)院2020 年級(jí)六個(gè)班級(jí)的180 條學(xué)生數(shù)據(jù)。這180 名同學(xué)學(xué)期內(nèi)沒有校外實(shí)習(xí)情況,網(wǎng)絡(luò)使用情況相對(duì)穩(wěn)定,代表使用人群比較廣泛,更能反映學(xué)生在校園運(yùn)用網(wǎng)絡(luò)情況。
數(shù)據(jù)采集時(shí)間為2020年8月份至2020年12月份半學(xué)期。學(xué)生網(wǎng)絡(luò)訪問(wèn)類型較多,其中校園網(wǎng)訪問(wèn)類型多為圖書館、網(wǎng)絡(luò)教學(xué)平臺(tái)、雨課堂、教務(wù)處選課系統(tǒng)等校內(nèi)資源;外網(wǎng)訪問(wèn)類型多為QQ、百度、新浪、土豆網(wǎng)、迅雷、抖音、游戲等。通過(guò)訪問(wèn)類型可以了解到,學(xué)生在用校園網(wǎng)期間以使用校園網(wǎng)資源進(jìn)行選課、查閱資料、下載應(yīng)用軟件和一些學(xué)習(xí)相關(guān)的材料為主,在利用互聯(lián)網(wǎng)期間則以上網(wǎng)聊天、瀏覽微博、看電影、游戲等娛樂(lè)為主。
(1)結(jié)合學(xué)生學(xué)分情況,對(duì)180 個(gè)抽樣數(shù)據(jù)半學(xué)期流量分析:通過(guò)對(duì)180 名抽樣學(xué)生半學(xué)期的流量監(jiān)控與統(tǒng)計(jì)和五個(gè)月上網(wǎng)時(shí)長(zhǎng)的匯總,統(tǒng)計(jì)出每個(gè)學(xué)生半學(xué)期使用流量,通過(guò)流量趨勢(shì)對(duì)學(xué)生學(xué)分合格情況進(jìn)行對(duì)比,數(shù)據(jù)中可以觀察到:學(xué)分不合格學(xué)生集中在流量20G 左右區(qū)間和40G 以上區(qū)間,特別是40G 流量以上區(qū)間內(nèi)聚集了多數(shù)的學(xué)分不合格的學(xué)生。此分析說(shuō)明流量較多的范圍對(duì)區(qū)別學(xué)分是否合格能力較強(qiáng)。圖1為180個(gè)抽樣學(xué)生半學(xué)期流量與學(xué)分對(duì)應(yīng)圖。
圖1 180個(gè)抽樣學(xué)生半學(xué)期流量與學(xué)分對(duì)應(yīng)圖
(2)結(jié)合學(xué)生學(xué)分情況,對(duì)180 個(gè)抽樣數(shù)據(jù)半學(xué)期時(shí)長(zhǎng)分析:通過(guò)對(duì)180 名抽樣學(xué)生半學(xué)期的月份時(shí)長(zhǎng)數(shù)據(jù)的監(jiān)控與統(tǒng)計(jì),對(duì)每個(gè)學(xué)生分別產(chǎn)生5個(gè)月的時(shí)長(zhǎng)信息進(jìn)行匯總,統(tǒng)計(jì)出每個(gè)學(xué)生半學(xué)期使用時(shí)長(zhǎng)。通過(guò)時(shí)長(zhǎng)趨勢(shì)與學(xué)分合格情況對(duì)比可以觀察到:學(xué)分不合格學(xué)生集中在使用時(shí)長(zhǎng)400 小時(shí)左右區(qū)間和600 小時(shí)以上區(qū)間,其中不合格的學(xué)生主要集中在600 小時(shí)以上時(shí)長(zhǎng)范圍,說(shuō)明總上網(wǎng)時(shí)長(zhǎng)對(duì)區(qū)分學(xué)分是否合格能力較強(qiáng)。圖2為180個(gè)抽樣學(xué)生半學(xué)期時(shí)長(zhǎng)與學(xué)分對(duì)應(yīng)圖。
圖2 180個(gè)抽樣學(xué)生半學(xué)期時(shí)長(zhǎng)與學(xué)分對(duì)應(yīng)圖
(3)結(jié)合學(xué)生學(xué)分情況進(jìn)行分析。在流量與學(xué)分結(jié)合時(shí),我們把學(xué)生分成合格與不合格兩組進(jìn)行統(tǒng)計(jì),可以觀察到:①不合格的學(xué)生在半學(xué)期流量值普遍高于全體學(xué)生的平均值及合格學(xué)生的半學(xué)期流量,說(shuō)明異常使用流量可能與學(xué)分有著一定的關(guān)系。②流量趨勢(shì)在整個(gè)半個(gè)學(xué)期呈現(xiàn)為不明顯的“凸”型結(jié)構(gòu),從八月份開始流量逐漸增加,到十月份達(dá)到最大值,十一月份保持平穩(wěn),在十二月份降低到最小值。這說(shuō)明學(xué)生八月開學(xué)到九月使用網(wǎng)絡(luò)流量成逐漸增加狀態(tài),十月、十一月份成為半學(xué)期網(wǎng)絡(luò)集中使用狀態(tài),而到了十二月份,由于臨近期末,面臨考試,進(jìn)入低使用狀態(tài)。圖3為180個(gè)抽樣學(xué)生半學(xué)期流量趨勢(shì)圖。
圖3 180個(gè)抽樣學(xué)生半學(xué)期流量趨勢(shì)
(4)在時(shí)長(zhǎng)與學(xué)分結(jié)合時(shí),我們也把學(xué)生分成合格與不合格兩組進(jìn)行統(tǒng)計(jì),可以觀察到:①不合格的學(xué)生在半學(xué)期月平均時(shí)長(zhǎng)高于全體學(xué)生的月平均值,說(shuō)明時(shí)長(zhǎng)使用也可能與學(xué)分有著一定的關(guān)系。②時(shí)長(zhǎng)趨勢(shì)在整個(gè)半個(gè)學(xué)期呈現(xiàn)狀態(tài)為:八月份至十一月份逐漸增加,在十二月份有所回落。圖4為180個(gè)抽樣學(xué)生半學(xué)期時(shí)長(zhǎng)趨勢(shì)圖。
圖4 180個(gè)抽樣學(xué)生半學(xué)期時(shí)長(zhǎng)趨勢(shì)
通過(guò)多方面采集,匯總出180 個(gè)樣本學(xué)生的總體數(shù)據(jù),其中有:
(1)學(xué)號(hào)。IMC 系統(tǒng)、教務(wù)數(shù)據(jù)庫(kù)系統(tǒng)及日志系統(tǒng)中都采用學(xué)生學(xué)號(hào)來(lái)標(biāo)識(shí)學(xué)生。
(2)班級(jí)。采集的六個(gè)班級(jí):測(cè)控***、保險(xiǎn)***、核工本***、建環(huán)***、建環(huán)***、電氣***。
(3)組名。記錄計(jì)算機(jī)所在位置,根據(jù)位置的不同組名有:上網(wǎng)組/學(xué)生宿舍網(wǎng)、上網(wǎng)組/教師辦公、上網(wǎng)組/多媒體、上網(wǎng)組/獨(dú)身公寓、上網(wǎng)組/其他;分別標(biāo)識(shí)應(yīng)用的位置:學(xué)生宿舍、教師辦公室、圖書館多媒體、獨(dú)身公寓宿舍、其他位置(科技園區(qū)、大學(xué)城賓館、其他經(jīng)營(yíng)類位置)等。組名在類型數(shù)據(jù)采集中起到重要作用,監(jiān)控學(xué)生時(shí),通常多數(shù)采集在宿舍應(yīng)用網(wǎng)絡(luò)組里,如顯示該用戶在辦公區(qū)域或其他區(qū)域上網(wǎng)時(shí),有可能說(shuō)明該學(xué)生正在利用網(wǎng)絡(luò)上課或其他科研活動(dòng),將不作為一次應(yīng)用類型記錄。
(4)應(yīng)用類型。學(xué)生上網(wǎng)經(jīng)常使用類型。訪問(wèn)類型主要有http 下載、游戲、瀏覽網(wǎng)站、p2p 四個(gè)類型。
(5)最常使用應(yīng)用。通過(guò)采集到的最常使用應(yīng)用決定應(yīng)用類型。這里把電影音樂(lè)網(wǎng)站、論壇、購(gòu)物網(wǎng)站歸為瀏覽網(wǎng)站類型,各種應(yīng)用游戲歸為游戲類型,應(yīng)用p2p的產(chǎn)品歸為p2p類型。
(6)上傳/下載比。上傳下載比例說(shuō)明該學(xué)生網(wǎng)絡(luò)流量的出入情況,該值比例較小時(shí),說(shuō)明學(xué)生利用網(wǎng)絡(luò)下載的較多;當(dāng)比例較大時(shí),有可能出現(xiàn)學(xué)生非正常使用網(wǎng)絡(luò)情況,特別是對(duì)于P2P 的技術(shù)播放軟件的不正常利用,會(huì)導(dǎo)致學(xué)生在某幾個(gè)月的網(wǎng)絡(luò)流量很快用盡,這一比值需要與上網(wǎng)時(shí)長(zhǎng)及總流量進(jìn)行配合分析。
(7)時(shí)長(zhǎng)。半學(xué)期的學(xué)生上網(wǎng)總時(shí)長(zhǎng)合計(jì),包括五個(gè)月的使用時(shí)長(zhǎng),以小時(shí)為單位記錄。
(8)流量。半學(xué)期總流量合計(jì),五個(gè)月流量總計(jì),以千兆為單位記錄。
(9)合格標(biāo)志。學(xué)生本學(xué)期學(xué)分情況標(biāo)識(shí),其中0為不合格,1為合格。
通過(guò)上面的字段數(shù)據(jù)采集匯總表,這里對(duì)組名進(jìn)行數(shù)字表示法,將上網(wǎng)組/教師辦公、上網(wǎng)組/學(xué)生宿舍網(wǎng)、上網(wǎng)組/多媒體、上網(wǎng)組/獨(dú)身公寓、上網(wǎng)組/其他,這五個(gè)位置分別用1|1、1|2、1|3、1|4、1|5 來(lái)表示。表1為數(shù)據(jù)采集匯總的部分?jǐn)?shù)據(jù)。
表1 數(shù)據(jù)采集匯總表(部分?jǐn)?shù)據(jù))
針對(duì)采集來(lái)的180 條數(shù)據(jù),在進(jìn)行分析之前要進(jìn)行消除或減少噪聲、填補(bǔ)空取值的數(shù)據(jù)清理工作。
(1)由于有少部分人沒有接入互聯(lián)網(wǎng),只有成績(jī)信息,并沒有網(wǎng)絡(luò)相關(guān)信息,當(dāng)對(duì)這部分?jǐn)?shù)據(jù)分析時(shí)會(huì)干擾產(chǎn)生的模型,這里將其進(jìn)行刪除,刪除沒有接入網(wǎng)絡(luò)的學(xué)號(hào)有:2020***106,2020***112,2020***121,2020***122。
(2)空缺值的處理將有助于提高數(shù)據(jù)分類和預(yù)測(cè)的準(zhǔn)確性,從而減少學(xué)習(xí)時(shí)的混亂。本文通過(guò)對(duì)采集的數(shù)據(jù)信息進(jìn)行觀察發(fā)現(xiàn),有些學(xué)生由于休假等原因,在某天或某月沒能上網(wǎng),對(duì)于數(shù)據(jù)上的這種空缺采取人工填寫的方法進(jìn)行彌補(bǔ),由于數(shù)據(jù)需要的連續(xù)性,決定填充的方法采用在該屬性上最經(jīng)常出現(xiàn)的值來(lái)填充此空缺的屬性。
(3)在常用上網(wǎng)應(yīng)用統(tǒng)計(jì)中,有些網(wǎng)址是系統(tǒng)無(wú)法識(shí)別的,做人工填寫,統(tǒng)一填寫成網(wǎng)站類型。基于距離數(shù)據(jù)挖掘中,當(dāng)數(shù)據(jù)為非連續(xù)性屬性時(shí),將不能直接確定對(duì)象之間的距離,這時(shí)需要對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換,將其他屬性類型轉(zhuǎn)換成數(shù)值類型。為計(jì)算方便將流量以字節(jié)為單位轉(zhuǎn)換為千兆為計(jì)算單位;上網(wǎng)時(shí)長(zhǎng)以小時(shí)為單位轉(zhuǎn)換成分鐘為單位。
研究采用數(shù)據(jù)挖掘中基于距離的分類算法,分類步驟如下:
(1)將180 個(gè)抽樣數(shù)據(jù)集組成訓(xùn)練集,由輔導(dǎo)員評(píng)定好、中、差三類標(biāo)號(hào),對(duì)數(shù)據(jù)加上類標(biāo)號(hào)組成訓(xùn)練集。本文將上網(wǎng)總流量、總上網(wǎng)時(shí)長(zhǎng)、上網(wǎng)類型、學(xué)分成績(jī)作為系統(tǒng)的四個(gè)屬性值。訓(xùn)練樣本集為采集的180 個(gè)學(xué)生的數(shù)據(jù),對(duì)這些數(shù)據(jù)進(jìn)行整理,首先將數(shù)據(jù)中的非數(shù)值性屬性進(jìn)行數(shù)據(jù)轉(zhuǎn)換,其中上網(wǎng)流量、上網(wǎng)時(shí)長(zhǎng)及學(xué)分標(biāo)識(shí)為數(shù)值型數(shù)據(jù);其次將上網(wǎng)類型非連續(xù)性值進(jìn)行轉(zhuǎn)換。
(2)上網(wǎng)類型分為四類,http 類型賦值為1,網(wǎng)站類型賦值為2,p2p 類型賦值為3,游戲類型賦值為4。最后得出180 個(gè)訓(xùn)練集的樣本,表2 為訓(xùn)練樣本集部分?jǐn)?shù)據(jù)。
表2 訓(xùn)練樣本集(部分?jǐn)?shù)據(jù))
分類算法過(guò)程如下:
假設(shè)某半學(xué)期內(nèi)一組學(xué)生上網(wǎng)行為個(gè)例樣本集合定義為S。其中,S由i個(gè)學(xué)生樣本組成,而每個(gè)學(xué)生樣本由n個(gè)屬性變量及1個(gè)標(biāo)志量構(gòu)成。其數(shù)學(xué)表示式為:
本文的屬性變量xij分別代表上網(wǎng)總流量、總上網(wǎng)時(shí)長(zhǎng)、上網(wǎng)類型、學(xué)分成績(jī)4 個(gè)要素,最后一個(gè)要素Li稱為標(biāo)志量(Label),文中的標(biāo)志量即為學(xué)生評(píng)定級(jí)別。利用KNN 算法進(jìn)行網(wǎng)絡(luò)行為預(yù)測(cè)可以描述為如下數(shù)學(xué)模型:假設(shè)上網(wǎng)總流量、總上網(wǎng)時(shí)長(zhǎng)、上網(wǎng)類型、學(xué)分成績(jī)4 個(gè)要素的集合為Yi={y1,y2,y3,…,yn},稱為預(yù)測(cè)樣本;預(yù)測(cè)時(shí),首先在訓(xùn)練樣本集S 集合中找到與預(yù)測(cè)樣本Yi最相似的K 個(gè)近鄰,然后找出這K 個(gè)標(biāo)志量(評(píng)定級(jí)別)集合Li={L1,L2,L3,…,Ln},最后按照投票多數(shù)原則,選取最多的標(biāo)志量Li作為預(yù)測(cè)樣本Yi預(yù)測(cè)結(jié)果。
(3)本文的K 近鄰居選取采用歐氏距離法進(jìn)行判定,利用歐式距離計(jì)算測(cè)試集中的600 個(gè)測(cè)試集數(shù)據(jù)與訓(xùn)練集的距離,選取與每個(gè)測(cè)試數(shù)據(jù)最近的k個(gè)點(diǎn),統(tǒng)計(jì)k個(gè)點(diǎn)里面所屬分類比例最大的,確定所有測(cè)試集的所屬分類,經(jīng)過(guò)反復(fù)試驗(yàn),本文選取k值為5。
(4)用測(cè)試集來(lái)預(yù)測(cè)模型準(zhǔn)確性:180 條抽樣數(shù)據(jù)全部作為訓(xùn)練集樣本數(shù),另選600 條清理后的數(shù)據(jù)作為測(cè)試集,采用通過(guò)的準(zhǔn)確率和召回率對(duì)系統(tǒng)性能進(jìn)行測(cè)試,準(zhǔn)確率和召回率反映了分類質(zhì)量的兩個(gè)不同方面,兩者要綜合考慮,不能有所偏失,使用了兩者的綜合指標(biāo)F-Score值,其數(shù)學(xué)公式為:
將β取值為1時(shí),公式如下:
p表示精確率,r表示召回率;用上面的方法和數(shù)據(jù)進(jìn)行訓(xùn)練和測(cè)試,表3為分類測(cè)試結(jié)果:
表3 分類測(cè)試結(jié)果
本文在綜合分析沈陽(yáng)工程學(xué)院網(wǎng)絡(luò)管理模式基礎(chǔ)上,將基于數(shù)據(jù)挖掘技術(shù)的KNN 算法與學(xué)生上網(wǎng)行為模式相結(jié)合,實(shí)現(xiàn)學(xué)生上網(wǎng)異常行為預(yù)測(cè)方法,得到以下結(jié)論:①上網(wǎng)行為異常預(yù)測(cè)的KNN分類器屬性特征由上網(wǎng)總流量、總上網(wǎng)時(shí)長(zhǎng)、上網(wǎng)類型、學(xué)分成績(jī)等4 個(gè)要素構(gòu)成,標(biāo)志量為評(píng)定等級(jí);②根據(jù)2020 年下半學(xué)期所獲得的數(shù)據(jù)的預(yù)測(cè)結(jié)果表明,異常預(yù)報(bào)準(zhǔn)確率與精確率及召回率分別為73.79%,76.55%,80.62%,F(xiàn)-Score 值為78.53%,所獲得結(jié)果均在可接受范圍內(nèi),能夠提供給學(xué)生管理者對(duì)異常網(wǎng)絡(luò)行為學(xué)生進(jìn)行干預(yù)。因此,科學(xué)使用數(shù)據(jù)挖掘的KNN 算法進(jìn)行挖掘探索,合理挖掘開發(fā),將有效提升學(xué)校的管理水平和科學(xué)決策能力。
沈陽(yáng)工程學(xué)院學(xué)報(bào)(社會(huì)科學(xué)版)2022年4期