顏杰森
(泉州工藝美術(shù)職業(yè)學(xué)院 黨政辦信息中心,福建 泉州 362500)
在“互聯(lián)網(wǎng)+”時代下,以物聯(lián)網(wǎng)為基礎(chǔ)的智慧校園開始逐步進(jìn)入校園,智慧校園是將智慧教學(xué)的環(huán)境、資源、服務(wù)以及管理進(jìn)行充分的融合,是對以往的數(shù)字化校園進(jìn)行升級,在教育領(lǐng)域中加入云技術(shù)、大數(shù)據(jù)等物聯(lián)網(wǎng)技術(shù)[1]。目前,各大高校也逐漸開始挖掘校園網(wǎng)內(nèi)大數(shù)據(jù)下的隱藏信息,以對校園網(wǎng)內(nèi)的用戶行為進(jìn)行識別,從而進(jìn)一步提升學(xué)校在教學(xué)管理、資源分配、科研、人才培養(yǎng)上的工作水平[2]。校園網(wǎng)與其他網(wǎng)絡(luò)不同,通常結(jié)構(gòu)復(fù)雜且規(guī)模較大,其用戶主要為學(xué)生群體,所以網(wǎng)絡(luò)的管理就顯得更為復(fù)雜。通過物聯(lián)網(wǎng)數(shù)據(jù)挖掘技術(shù)進(jìn)行該類學(xué)生群體的網(wǎng)絡(luò)行為分析,以更進(jìn)一步了解學(xué)生的生活習(xí)慣,使學(xué)校能夠更好的服務(wù)于師生[3]。研究旨在對校園網(wǎng)用戶的數(shù)據(jù)進(jìn)行挖掘,構(gòu)建出基于物聯(lián)網(wǎng)的智慧校園可視化平臺。
由于校園網(wǎng)數(shù)據(jù)規(guī)模大、維度多,且數(shù)據(jù)分析的范圍較大,為有效提升用戶的響應(yīng)及系統(tǒng)分析的速度,研究應(yīng)用Hadoop大數(shù)據(jù)核心框架及開源框架Sqoop與Hive,從四個層次對用戶行為分析系統(tǒng)進(jìn)行平臺搭建,如圖1所示。
圖1 智慧校園可視化平臺系統(tǒng)整體架構(gòu)Fig.1 Overall architecture of smart campus visualization platform system
如圖1所示,采集層的工作是對不同數(shù)據(jù)源進(jìn)行數(shù)據(jù)采集,再將數(shù)據(jù)進(jìn)行預(yù)處理后,由MySQL數(shù)據(jù)庫構(gòu)建出系統(tǒng)所需的數(shù)據(jù)倉庫;存儲層的工作是應(yīng)用Sqoop在Hadoop的HDFS中導(dǎo)入MySQL中的數(shù)據(jù),用于Hadoop進(jìn)行數(shù)據(jù)的分析處理;分析層的工作是通過協(xié)調(diào)分配系統(tǒng)資源來提升MapReduce的計算能力,并在MapReduce執(zhí)行引擎的基礎(chǔ)上進(jìn)行數(shù)據(jù)的搜索、計算等操作,以實現(xiàn)對數(shù)據(jù)的分析;應(yīng)用層用于展示可視化功能與分析結(jié)果,包含數(shù)據(jù)查詢、行為分析、基于數(shù)據(jù)及分析結(jié)果的畫像應(yīng)用[4]。根據(jù)校園基礎(chǔ)平臺的數(shù)據(jù)、用戶行為分析、畫像模型及應(yīng)用等方面,構(gòu)建智慧校園可視化平臺系統(tǒng)的功能模塊,如圖2所示。
圖2 智慧校園可視化平臺系統(tǒng)的功能模塊Fig.2 Function modules of intelligent campus visualization platform system
在智慧校園可視化平臺的構(gòu)建中,需要同時實現(xiàn)有線網(wǎng)絡(luò)與無線WLAN的覆蓋,包括生活區(qū)、教學(xué)區(qū)等區(qū)域。在管理過程中,詳細(xì)記錄校內(nèi)網(wǎng)絡(luò)的各項數(shù)據(jù),以記錄校內(nèi)網(wǎng)絡(luò)用戶的上網(wǎng)與網(wǎng)絡(luò)活動情況。此次研究通過對2020年6月15日—6月22日的Dr.Com與NAT日志,以及計費(fèi)與網(wǎng)管系統(tǒng)的歷史數(shù)據(jù)進(jìn)行采集,同時將數(shù)據(jù)存儲于MySQL關(guān)系型數(shù)據(jù)庫中,最后對這些采集的數(shù)據(jù)進(jìn)行分析處理工作,將預(yù)處理后的數(shù)據(jù)存入數(shù)據(jù)倉庫,以備實驗與行為分析。由于智慧校園可視化平臺需要對大量圖表統(tǒng)計進(jìn)行可視化顯示,還要直觀展示出AP樓宇的位置與用戶的軌跡,研究應(yīng)用Highcharts與Echarts來展示數(shù)據(jù)分析界面,如圖3所示。
圖3 Highcharts與Echarts可視化圖例Fig.3 Visualization legend of highcharts and ecarts
由于可視化分為統(tǒng)計與聚類結(jié)果可視化。其中,統(tǒng)計可視化包括了曲線圖、直方圖以及表格的對比,以增強(qiáng)用戶對數(shù)據(jù)的了解程度;聚類結(jié)果可視化包括直方堆疊圖、環(huán)形圖以及餅圖等方式,以展示出聚類分布的統(tǒng)計結(jié)果。其中,直方堆疊圖最為符合聚類的結(jié)果要求,主要是由于該圖為多維度用戶上網(wǎng)特征中挖掘出來的,并且在二維展示中還增添堆疊順序與大小,以及不同的顏色,在可視化研究中具有很大的優(yōu)勢。
評價用戶上網(wǎng)的活躍度可以從上網(wǎng)的流量、時長以及次數(shù)來判斷,也就是從用戶網(wǎng)絡(luò)訪問情況、上網(wǎng)持續(xù)時間和頻率來進(jìn)行活躍度的分析,且三者存在著一定的聯(lián)系[5]。由于上網(wǎng)次數(shù)越多,持續(xù)時間也就越長,那么上網(wǎng)流量也就越多,因此可以綜合考慮對用戶平均上網(wǎng)流速進(jìn)行分析。在進(jìn)行用戶活躍度分析前,需要對活躍度低的用戶進(jìn)行過濾,以提升分析的準(zhǔn)確度。首先對用戶上網(wǎng)活躍度公式進(jìn)行設(shè)計,主要是對預(yù)處理后的數(shù)據(jù)進(jìn)行統(tǒng)計,包括上網(wǎng)流速、次數(shù)以及時長,并應(yīng)用k-means聚類算法評價分類個數(shù)在k∈[2,10]時的得分,如圖4(a)所示。同時統(tǒng)計兩類用戶群的上網(wǎng)訪問內(nèi)容,以找出兩類用戶的上網(wǎng)特征,如圖4(b)所示。
圖4 校園網(wǎng)用戶上網(wǎng)數(shù)據(jù)聚類與訪問內(nèi)容統(tǒng)計結(jié)果Fig.4 The data clustering and access content statistics of campus network users
由圖4可知,校園網(wǎng)內(nèi)兩類用戶群的主要特征為上網(wǎng)流速與時長,其中分類1主要集中在社交與游戲中,雖然在線時間段,但是期間不斷訪問網(wǎng)絡(luò),使得流量較大;分類2集中在新聞類與社交中,在線時間長,但產(chǎn)生流量小。這也較好的體現(xiàn)聚類結(jié)果的正確性。因此,上網(wǎng)活躍度不但要考慮上網(wǎng)頻率和時長,還需要對上網(wǎng)流速進(jìn)行綜合考慮,而通常上網(wǎng)頻率較高的用戶,上網(wǎng)時長也會較長,因此將上網(wǎng)流速與時長作為活躍度的度量因素。
構(gòu)建用戶活躍度公式時,需要保證上網(wǎng)流速與時長在公式中的權(quán)重相當(dāng),其次只要流速與時長中有一個值異常,則活躍度極小。用戶u在時間段T內(nèi)的活躍度Act(u),如式(1)所示
式中:T為用戶u活躍時間段,t為u在T內(nèi)上網(wǎng)的總時長,ν為u在t內(nèi)上網(wǎng)的平均流速,νmax為網(wǎng)內(nèi)流速的最大值。
對于用戶軌跡相似度的計算,研究應(yīng)用LCSS優(yōu)化算法,主要是由于該算法可以較好的表現(xiàn)出軌跡間非連續(xù)的最長公共子序列的長度,即軌跡相似程度,因此可以通過該方法判斷用戶間移動位置序列的相似度,以及位置間停留時長的相似度。位置停留時長序列相似系數(shù)c的計算方式
式中:LCSS(u,ν)表示用戶u與ν的公共子軌跡序列長度,s為用戶u與ν的公共子軌跡序列中的點序列,ti(u)和ti(ν)為用戶u與ν在點i上關(guān)聯(lián)AP站點的停留時長。接著將LCSS算法得出的公共子序列長度與c進(jìn)行綜合,得出軌跡相似的有效值。設(shè)定m,n分別為用戶u與ν的移動軌跡長度,那么公共子序列長度的相似度可以表示為和,且值為0時越不相似,值為1時越相似,再對二者取平均值得出移動位置序列的相似度。
由于在移動位置序列相似度的基礎(chǔ)上可以得出位置逗留時長序列相似度,那么為經(jīng)過LCSS計算后的公共子軌跡序列中的點序列,所以對兩個相似度進(jìn)行相乘,能夠得出用戶移動軌跡的相似度。LCSS優(yōu)化算法的用戶軌跡相似度計算,如式(3)所示
式中:SimLCSS值在區(qū)間[0,1]內(nèi),相似度越高則值越接近1。在用戶逗留時長中引入LCSS算法,不但可以增加算法的優(yōu)越性,還能夠有效提升軌跡相似度計算的準(zhǔn)確率。
用戶畫像的精確構(gòu)建能夠為用戶的有效管理及行為預(yù)測提供數(shù)據(jù)基礎(chǔ),而用戶畫像中標(biāo)簽系統(tǒng)的構(gòu)建非常關(guān)鍵[6]。標(biāo)簽庫為用戶標(biāo)簽集合,對用戶標(biāo)簽進(jìn)行集中管理,并采用多維度模式管理標(biāo)簽[7]。通過Dr.Com日志、網(wǎng)管及計費(fèi)系統(tǒng)獲取用戶數(shù)據(jù),獲取數(shù)據(jù)包括用戶訪問外網(wǎng)(上網(wǎng)情況)、無線聯(lián)網(wǎng)(上網(wǎng)軌跡)、訪問鏈接(訪問興趣)等情況。所以將通過這三個方面來對數(shù)據(jù)源進(jìn)行分析,再進(jìn)行用戶行為標(biāo)簽的設(shè)計,并將網(wǎng)絡(luò)內(nèi)用戶的基本信息作為用戶屬性標(biāo)簽。再采用離散化方法對用戶數(shù)據(jù)各個維度進(jìn)行處理,以得到用戶的行為特征與基本屬性,并綜合多個特征選擇方法,通過各種方法對特征進(jìn)行得分計算,并根據(jù)得分排序權(quán)重,得出分?jǐn)?shù)最高的n個屬性特征。該種優(yōu)化算法綜合多種算法的優(yōu)勢,能夠有效提升特征選擇的準(zhǔn)確率。特征選擇的權(quán)重設(shè)置方法分為5步,一是根據(jù)得分排序n個特征;二是根據(jù)排序設(shè)置特征權(quán)重為n,n-1,n-2,…,1;三是應(yīng)用xgboost模型對該選擇方法進(jìn)行模型訓(xùn)練與測試,并得出F1-score值;四是將特征權(quán)重與F1-score值進(jìn)行相乘,得出特征權(quán)重;五是按照特征累加各個選擇方法的特征權(quán)重,得出各特征的最終權(quán)重。
構(gòu)建用戶畫像主要包括數(shù)據(jù)挖掘與用戶畫像兩個階段,前一階段主要從多維度挖掘用戶數(shù)據(jù),并構(gòu)建標(biāo)簽體系,后一階段則通過構(gòu)建標(biāo)簽體系將用戶畫像分為用戶屬性與行為畫像兩個方面,構(gòu)建用戶畫像模型,同時輸出屬性與行為畫像,最后通過標(biāo)簽權(quán)重來對用戶畫像進(jìn)行繪制,模型框架如圖5所示。
圖5 用戶畫像模型框架Fig.5 User portrait model framework
引入機(jī)器學(xué)習(xí)算法來構(gòu)建用戶畫像模型。由于個體學(xué)習(xí)器具有一定的缺陷,將學(xué)習(xí)算法與若干學(xué)習(xí)器結(jié)合,得到一種強(qiáng)學(xué)習(xí)器。其中,Xgboost算法為優(yōu)化效果較好的一種提升樹模型,其通用性高且計算速度快,所以選擇應(yīng)用該模型來構(gòu)建二級融合模型,如圖6所示。
圖6 二級融合模型框架Fig.6 Framework of secondary fusion model
在提出的模型框架中,Stacking應(yīng)用交叉驗證來構(gòu)建訓(xùn)練集與測試集,使得訓(xùn)練后的模型更穩(wěn)定,并與多個模型相結(jié)合訓(xùn)練元模型,以得到更優(yōu)的效果。Bagging模型采用了投票法,最終分類結(jié)果以得票最多的類別為準(zhǔn),并通過隨機(jī)采樣方法對模型進(jìn)行訓(xùn)練,所以具有很強(qiáng)的泛化性能。二級融合模型的元分類器為xgboost(XGB),應(yīng)用多種算法作為Stacking的弱分類器,在訓(xùn)練Stacking后得到XGBTree模型,并將其所有特征作為第二層的輸入,同時與Bagging算法結(jié)合,進(jìn)一步提升分類的泛化力與準(zhǔn)確率。
對校園網(wǎng)內(nèi)用戶的上網(wǎng)數(shù)據(jù)進(jìn)行采集,并對用戶的平均上網(wǎng)流速與總在線時長進(jìn)行統(tǒng)計,通過式(1)計算出用戶上網(wǎng)活躍度,如圖7所示。圖7中散點的顏色深淺度表示活躍程度,顏色越深表明活躍度越高。
圖7 計算后用戶上網(wǎng)活躍度分布狀況Fig.7 Distribution of users'online activity after calculation
由圖7可知,時長與流速越遠(yuǎn)離坐標(biāo)值0的點顏色越深,越接近則顏色越淺。通常流速與時長都比較高的用戶上網(wǎng)活躍度較高,二者一高一低時,均在中等的用戶才具有較高的活躍度,這也符合上網(wǎng)活躍度的概念。
為了驗證基于LCSS的相似度算法聚類的結(jié)果是否有效,應(yīng)用相似度聚類分析方法對2020年6月15日校園網(wǎng)用戶上網(wǎng)軌跡序列進(jìn)行分析。由于優(yōu)化前簇內(nèi)最多有12個成員,并且有72個簇類的成員只有2個;而優(yōu)化后的聚類算法簇內(nèi)最多有5個成員,并且有123個簇類的成員只有1個,反映出用戶軌跡行為具有一定的復(fù)雜性。以實際用戶為例,比較用戶間的聚類結(jié)果,如圖8所示。其中橫、縱坐標(biāo)分別表示不同類別的用戶名、逗留總時長,不同顏色代表不同連網(wǎng)的地點,從下到上為用戶移動軌跡的先后地點。
圖8 基于優(yōu)化后算法的用戶聚類結(jié)果Fig.8 User clustering results based on the optimized algorithm
用戶05010的軌跡為“圖書館(80.9)→教學(xué)樓1(100.1)→體育館(62.8)”;用戶03553的軌跡為“體育館(113.7)→圖書館(2.7)→體育場(54.1)→體育館(123.7)”,用戶20170906的軌跡為“圖書館(714.4)→體育場(3.1)→體育館(38.8)”。05010從圖書館到體育館,在圖書館與教學(xué)樓1中的逗留時間較長,說明了教學(xué)樓1是其主要目的地之一,因此可以看作與用戶03413、jhw106為相同類別;而03553在圖書館停留不到3分鐘,反映出該用戶可能只是路過該地,因此可以看作與用戶01555為相同類別;其他用戶也分別找到了屬于自己的類別。因此,優(yōu)化后的用戶相似度算法更能為精確,能夠較好的度量移動軌跡相似性。
實驗數(shù)據(jù)集采用 sklearn.datasets.base下的load_breast_cancer,包括569條數(shù)據(jù)記錄與30個特征,將前400條作為實驗訓(xùn)練集,其余169條作為測試集,并選取600個用戶的上網(wǎng)數(shù)據(jù),其中用戶特征屬性包含位置偏好、社會屬性、活躍度、訪問頻率和興趣,以及上網(wǎng)的次數(shù)、流量、時長,同時將60%的數(shù)據(jù)作為訓(xùn)練集,剩下的平均分為驗證集與測試集。本次研究將應(yīng)用混淆矩陣來獲取分類評價的結(jié)果,評價標(biāo)準(zhǔn)為準(zhǔn)確率、精準(zhǔn)率、召回率、F1-score。
首先驗證特征選擇算法,分別應(yīng)用基于決策樹特征選擇模型、方差以及卡方檢驗來進(jìn)行特征選擇對比,再通過xgboost算法來分類數(shù)據(jù),通過F1-score得分來判定算法對分類的有效性。
如表1所示,對比不同特征選擇算法的實驗結(jié)果后,可以看出特征選擇算法的分類結(jié)果準(zhǔn)確度較高。再應(yīng)用特征選擇算法對畫像模型的有效性進(jìn)行驗證,主要預(yù)測用戶角色(教職工與學(xué)生)與性別這兩個標(biāo)簽,預(yù)測結(jié)果如圖9所示。
表1 對比不同特征選擇算法的實驗結(jié)果Tab.1 Comparison of the experimental results of different feature selection algorithms
圖9 對性別、角色標(biāo)簽的預(yù)測結(jié)果Fig.9 Prediction results of gender and role tags
由圖9可知,性別、角色標(biāo)簽在進(jìn)行特征選擇后的預(yù)測效果明顯優(yōu)于無特征選擇,反映出訓(xùn)練模型在訓(xùn)練前進(jìn)行特征選擇,能夠有效提升最終分類預(yù)測的準(zhǔn)確性。其中,XGB算法的分類效果優(yōu)于其他算法,因此將xgboost算法融入用戶畫像模型中,以作為Stacking的元分類器,并將XGBTree作為Bagging模型的基樹。再比較Stacking融合后的模型與單個模型的F1-score值,結(jié)果如表2所示。
表2 比較兩種集成模型預(yù)測的準(zhǔn)確率Tab.2 Compares the prediction accuracy of the two integrated models
由表2可知,對于標(biāo)簽預(yù)測的準(zhǔn)確率而言,集成模型明顯優(yōu)于簡單分類器,同時二級融合模型的準(zhǔn)確率在一級Stacking的基礎(chǔ)上又提升了3%,因此研究提出的融合模型能夠增強(qiáng)用戶標(biāo)簽的預(yù)測準(zhǔn)確率,使用戶畫像的準(zhǔn)確率進(jìn)一步提升。
此次研究應(yīng)用物聯(lián)網(wǎng)技術(shù),在智慧校園建設(shè)領(lǐng)域設(shè)計可視化平臺系統(tǒng)及優(yōu)化算法,并對提出的算法進(jìn)行了測試分析。結(jié)果顯示,優(yōu)化后的用戶相似度算法更能為精確,能夠較好的度量移動軌跡相似性;提出的特征選擇算法的分類結(jié)果準(zhǔn)確度較高,優(yōu)于其他算法;集成模型的標(biāo)簽預(yù)測準(zhǔn)確率明顯優(yōu)于簡單分類器;訓(xùn)練模型在訓(xùn)練前進(jìn)行特征選擇,能夠有效提升最終分類預(yù)測的準(zhǔn)確性;二級融合模型的準(zhǔn)確率在一級Stacking的基礎(chǔ)上又提升了3%。因此本次研究提出的融合模型能夠增強(qiáng)用戶標(biāo)簽的預(yù)測準(zhǔn)確率,使用戶畫像的準(zhǔn)確率進(jìn)一步提升。