趙丹 趙文廣
近年來信息技術的高速發(fā)展引發(fā)了數(shù)據(jù)規(guī)模的爆炸式增長,國家對此高度重視,教育部在近年來的《教育信息化工作要點》中也屢屢提到大數(shù)據(jù)應用?;诖说难芯吭絹碓蕉?。為順應時代發(fā)展,本文嘗試采集校園網(wǎng)用戶上網(wǎng)行為大數(shù)據(jù),對其進行分析,量化其行為規(guī)律。此類研究主要有:分析校園網(wǎng)用戶行為,用來合理分配帶寬。分析上網(wǎng)時長、上網(wǎng)內(nèi)容與學習成績之間的關系。存在的問題主要有:數(shù)據(jù)量較小,整理篩選后的樣本用戶不足萬人,分析維度單一。本文亮點在于:數(shù)據(jù)量大,采集了十幾萬人的上網(wǎng)行為數(shù)據(jù);采用多維度分類法進行了較為細致的分析,總結出了校園網(wǎng)用戶行為的某些規(guī)律。
筆者采集了基于校園網(wǎng)的用戶上網(wǎng)行為大數(shù)據(jù),并對其進行清洗、篩選,多維度分類統(tǒng)計與分析,總結出了各類校園網(wǎng)用戶的行為規(guī)律。以便相關部門依托這些數(shù)據(jù)、規(guī)律整合流程,更好的形成創(chuàng)新性的服務體驗,同時也能通過數(shù)據(jù)化的管理實現(xiàn)個性化服務的精準推送。
系統(tǒng)包括:數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)分析。采集的數(shù)據(jù)包括:上下線時間、時長、流量、IP等。
(一)系統(tǒng)總體介紹
以某校為例,校園網(wǎng)包括有線網(wǎng)與無線網(wǎng)。其中有線網(wǎng)交換機近千臺,無線網(wǎng)AP幾千個,基本覆蓋所有教學、辦公、宿舍等區(qū)域。所有用戶必須登錄計費系統(tǒng)認證之后才能訪問外網(wǎng)?;谛@網(wǎng)的用戶上網(wǎng)行為數(shù)據(jù)分析系統(tǒng)拓撲結構如圖1所示。認證網(wǎng)關位于防火墻和核心交換機之間,用于采集上網(wǎng)行為數(shù)據(jù)。
系統(tǒng)結構框圖如圖2所示,包括數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)分析三大模塊。數(shù)據(jù)采集模塊負責采集用戶上網(wǎng)行為數(shù)據(jù)。通過數(shù)據(jù)定義規(guī)則對數(shù)據(jù)進行預處理后,將非結構化數(shù)據(jù)存入日志服務器,結構化數(shù)據(jù)存儲于數(shù)據(jù)庫。數(shù)據(jù)存儲模塊負責存儲數(shù)據(jù),并對計費數(shù)據(jù)庫數(shù)據(jù)、用戶訪問日志進行進一步清理、篩選,將結果存入數(shù)據(jù)庫數(shù)據(jù)分析相關表中。數(shù)據(jù)分析模塊負責對數(shù)據(jù)進行各種分析。
(二)數(shù)據(jù)采集
1.數(shù)據(jù)采集原則
高校大數(shù)據(jù)的主要特點有:數(shù)據(jù)分散、數(shù)據(jù)類型多,數(shù)據(jù)量不算特別大,但是數(shù)據(jù)價值非常高。故在數(shù)據(jù)采集時要做到大而全、細而及時。
大:充分考慮數(shù)據(jù)規(guī)模的增長,做好大數(shù)據(jù)積累。
全:采取多種方法全量采集。
細:多維度、全面采集。
及時:及時采集數(shù)據(jù),提高時效性。
2.數(shù)據(jù)采集方案
高校數(shù)據(jù)主要有兩類:結構化數(shù)據(jù)和非結構化數(shù)據(jù)。針對此,采取不同的數(shù)據(jù)采集方案。
日志服務器負責采集非結構化數(shù)據(jù),例如:用戶IP、目標IP、MAC、下行流量、登錄時間、下線時間、使用設備、NASIP等。通過認證網(wǎng)關的內(nèi)核來采集,并采用了雙認證網(wǎng)關和負載均衡技術。
數(shù)據(jù)庫負責采集存儲結構化數(shù)據(jù),例如用戶ID、上網(wǎng)開始時間、結束時間、使用流量等。主要從原始數(shù)據(jù)中抽取出來。例如:日志服務器采集了用戶每一次認證的數(shù)據(jù),數(shù)據(jù)庫抽取部分數(shù)據(jù)存儲。然后通過觸發(fā)器、腳本等將其進行篩選、整合,形成業(yè)務數(shù)據(jù)。
(三)數(shù)據(jù)存儲
日志服務器按照每天一個文件夾來存儲非結構化數(shù)據(jù),每天增量約40G。結構化數(shù)據(jù)由Oracle大型數(shù)據(jù)庫存儲。以表1為例,是在用戶單次消費的基礎上算出的月消費情況。存儲數(shù)據(jù)有:用戶ID、時長、流量、費用等。一條記錄存儲一個用戶在某段時間(一個月)內(nèi)使用的上網(wǎng)流量、時長、網(wǎng)費。數(shù)據(jù)分析時需與用戶表進行聯(lián)合查詢。此表每月約10萬條數(shù)據(jù)。
(四)數(shù)據(jù)分析
數(shù)據(jù)分析模塊用于實現(xiàn)對用戶的流量、時長、網(wǎng)費等行為數(shù)據(jù)進行多維度的分析。
采用按不同消費月份統(tǒng)計用戶的行為,例如流量、時長、網(wǎng)費等;從類別、性別等不同維度分類統(tǒng)計比較用戶的行為;分時段統(tǒng)計用戶在線人數(shù)。
通過對這些數(shù)據(jù)的分析,生成統(tǒng)計表和統(tǒng)計圖。
本系統(tǒng)依托于校園計費系統(tǒng),注冊用戶數(shù)為十七萬余人,個人允許在線設備上限為3,系統(tǒng)最大同時在線終端數(shù)為24662。系統(tǒng)采集了歷年來的用戶上網(wǎng)數(shù)據(jù),其中存儲于oracle數(shù)據(jù)庫的數(shù)據(jù)已超20G,存儲于日志服務器的數(shù)據(jù)以日均40G的速率增長。
(一)用戶樣本集選取
系統(tǒng)用戶分為本科生、研究生、其他學生、教職工、訪客、專線用戶。用戶離校后帳號保留,其活躍度有時效性。初步選定時間范圍為某學年,目標為該學年初即9月的活躍用戶(流量>0G),共32125人。
從圖3可看出占比最大的三類用戶為:本科生、研究生和教職工。訪客與其的顯著區(qū)別是每月無贈送流量,也納入樣本集。最終選取本科生、研究生、教職工和訪客四大類用戶共30732人這個樣本集在某學年度的上網(wǎng)數(shù)據(jù)進行分析。
(二)不同類別用戶每月人均使用情況分析
將樣本集用戶在某學年內(nèi)每月的流量(單位:GB)、網(wǎng)費(單位:元)、時長(單位:小時)進行統(tǒng)計與分析,依次得出如圖4、圖5、圖6所示的比對圖。
從圖4可看出每月人均使用流量為:本科生>研究生>教職工>訪客。因本科生、研究生生活學習都在校內(nèi),在網(wǎng)時間長。教職工僅在校內(nèi)工作,在網(wǎng)時間較短。訪客在網(wǎng)時間更短,故使用流量最少。
從圖5可看出每月人均網(wǎng)費消費為:本科生>研究生>訪客>教職工。其趨勢與每月人均使用流量大體相同,但不成比例。因每月贈送本科生、研究生10G流量,教職工15G,訪客無。且收費費率呈階梯式。
從圖4、圖5可看出本科生每月人均流量、網(wǎng)費消費最多。因本科生自由時間最多,研究生需上課、科研、外出實習等。訪客無贈送流量,網(wǎng)費也不容小覷。教職工每月人均網(wǎng)費消費最少。
從圖4、圖5、圖6可看出1、2、7、8月用戶人均使用流量、網(wǎng)費、時長明顯少于其他月份。因寒假一個月跨越了1、2月,暑假為7、8兩個月。進一步分析減少比例,減少比例=(正常月份平均值-假期平均值)/正常月份平均值。假設f(i) 表示第i個月用戶流量,則假期流量減少比例計算如式(1)所示:
以此類推,計算出不同類別用戶假期用量減少比例如表2所示。寒假用量減少很大,其中本科生網(wǎng)費減少了61.4%,非常貼合我國人民春節(jié)歸家的習性。而暑假教職工網(wǎng)費、訪客流量網(wǎng)費時長均有所增加,可看出暑假仍有不少教職工在校內(nèi)堅守崗位。
統(tǒng)計各類用戶在學年度內(nèi)平均使用流量與平均使用時長的比率(簡稱:流量時長比)如表3所示。可看出本科生的流量時長比最大。說明本科生更愛訪問消耗校外流量多的網(wǎng)址。其他用戶用網(wǎng)更理性。
(三)不同性別用戶每月人均使用情況分析
按照男、女不同性別統(tǒng)計樣本集中的本科生和研究生在某學年內(nèi)每月的人均網(wǎng)費流量、時長,如圖7、圖8所示。從圖7可看出,男生每月網(wǎng)費約為女生的2倍,流量約為女生的1.3倍。從圖8可看出,男女生上網(wǎng)時長基本持平。說明男生訪問的網(wǎng)站更耗校外流量。而女生較節(jié)約,使用校外資源明顯少于男生。
(四)不同時段用戶在線人數(shù)
以9月為例,每天不同時段用戶在線人數(shù)分布如圖9所示。1時表示0-1點,2時表示1-2點,以此類推。不同線條表示不同的天,對應不同天不同時段的在線人數(shù)??煽闯鲈诰€人數(shù)峰值時段分別為:12-13時,17-18時。在線人數(shù)最少的兩個時段分別為:3-4時,5-6時。據(jù)此可避開上網(wǎng)高峰選擇在線人數(shù)較少的時段調(diào)整網(wǎng)絡、升級系統(tǒng)等。
(五)分析結果小結
用戶對網(wǎng)絡的使用量受其年級、性別、時間等多方面影響。具體表現(xiàn)為:
1.人均使用流量本科生最多,訪客最少;
2.人均網(wǎng)費消費本科生最多,教職工最少;
3.寒暑假用戶流量、網(wǎng)費、時長比平常少。其中本科生寒假網(wǎng)費減少最多,訪客暑假網(wǎng)費反而增加;
4.不同類別用戶流量時長比有所差異,本科生的流量時長比最大;
5.男生每月人均網(wǎng)費約為女生的2倍,流量約為女生的1.3倍,兩者上網(wǎng)時長基本持平;
6.12-13時,17-18時校園網(wǎng)在線人數(shù)最多,3-4時,5-6時在線人數(shù)最少。
基于校園網(wǎng)對用戶的上網(wǎng)行為數(shù)據(jù)進行分析,可總結出很多有意思的規(guī)律。管理部門可據(jù)此為師生提供便捷、高效、精準的個性化引導和服務,為學校開展精細化、智能化師生服務提供理論依據(jù)和解決方案,進而影響智慧校園決策。
本文是筆者所在高?;谛@網(wǎng)用戶上網(wǎng)行為數(shù)據(jù)分析及應用的初步嘗試,后續(xù)將引入專業(yè)大數(shù)據(jù)分析工具找出更深層次的規(guī)律。作者單位:中國人民大學信息技術中心