張曉穎,榮竹青,曲 亮
(長春大學(xué) 理學(xué)院,長春 130022)
作為一種新發(fā)展起來的技術(shù),大數(shù)據(jù)技術(shù)在各個行業(yè)的應(yīng)用為我們帶來了極大的方便。大數(shù)據(jù)時代背景下教育領(lǐng)域面臨全新的挑戰(zhàn),不僅要求教育工作者能夠快速管理好學(xué)生的信息,而且還要能從中挖掘出有意義的結(jié)論。應(yīng)用數(shù)據(jù)分析技術(shù)對高校學(xué)生行為進行數(shù)據(jù)分析,用大數(shù)據(jù)挖掘和分析思想與方法科學(xué)地優(yōu)化學(xué)生管理,并通過數(shù)據(jù)可視化的方法把大數(shù)據(jù)分析結(jié)果呈現(xiàn)出來,為學(xué)生校園生活提供更加清晰、詳盡的數(shù)據(jù)服務(wù),為學(xué)校的領(lǐng)導(dǎo)、老師、學(xué)生提供更加直觀的決策及管理依據(jù),是當今高校教育教學(xué)管理所面臨的重要問題之一。
目前學(xué)術(shù)界對學(xué)生行為的分析和研究方式不盡相同。2012年,黃榮懷等提出智慧校園的五個基本特征和定義,認為智慧校園是數(shù)字校園的高端形態(tài),是數(shù)字校園發(fā)展的理想追求[1]。2014年,胡欽太等在分析了數(shù)字校園向智慧校園轉(zhuǎn)型必要性的基礎(chǔ)上,引入智慧校園的內(nèi)涵與特征,詳細闡述了當前信息化新技術(shù)與智慧校園的技術(shù)承載與應(yīng)用融合的思想[2]。2013年,賀玉珍等以運城學(xué)院在校大學(xué)生為例,對其消費情況進行了抽樣調(diào)查,并利用K-means算法對調(diào)查結(jié)果進行了聚類和分析[3]。2016年,張繼燕等以甘肅農(nóng)業(yè)大學(xué)在校大學(xué)生為研究對象,針對其消費行為應(yīng)用統(tǒng)計調(diào)查分析的方法進行了高校學(xué)生消費行為的特征分析用戶畫像[4]。2017年,劉涵從大數(shù)據(jù)的角度觀察與分析大學(xué)生的行為,以大學(xué)生在學(xué)習(xí)環(huán)境、生活環(huán)境中獲得數(shù)據(jù)為對象,應(yīng)用價值分析方法研究了大學(xué)生信息行為的影響因素[5]。2018年,董瀟瀟等以高校校園數(shù)據(jù)為基礎(chǔ),對大學(xué)生行為進行行為畫像,應(yīng)用機器學(xué)習(xí)中相關(guān)分析等技術(shù)完成用戶行為分析[6]。
本文在前人對學(xué)生行為分析研究的基礎(chǔ)上,主要研究大數(shù)據(jù)技術(shù)在教育領(lǐng)域中的應(yīng)用,結(jié)合心理學(xué)理論對學(xué)生在校的日常行為進行解釋和分類。主要針對長春大學(xué)近10年的校園基礎(chǔ)數(shù)據(jù)進行多維度的數(shù)據(jù)分析。通過設(shè)計學(xué)生行為描述指標體系,采用機器學(xué)習(xí)的相關(guān)方法,建立合理的數(shù)學(xué)模型,分析學(xué)生在校的各種行為及其內(nèi)在聯(lián)系。
文章的結(jié)構(gòu)如下:(1)通過構(gòu)建數(shù)據(jù)倉庫,整合教務(wù)系統(tǒng)、后勤管理系統(tǒng)、圖書館門禁系統(tǒng)等校園數(shù)據(jù)完成數(shù)據(jù)的收集及清洗。(2)應(yīng)用相關(guān)分析方法研究學(xué)生行為關(guān)聯(lián)分析模型,以學(xué)生圖書館借還書行為與成績的關(guān)聯(lián)為例探索學(xué)生行為的關(guān)聯(lián)特征。(3)應(yīng)用聚類分析方法完成學(xué)生的行為分類及用戶行為畫像。
實驗中用到的原始數(shù)據(jù)來自于長春大學(xué)教務(wù)處系統(tǒng)、附近超市消費記錄以及學(xué)生的調(diào)查問卷。分析了長春大學(xué)各個學(xué)院2013—2018年6年的在校學(xué)生數(shù)據(jù)(圖1),數(shù)據(jù)類型包括:教學(xué)系統(tǒng)數(shù)據(jù)、學(xué)生系統(tǒng)數(shù)據(jù)、圖書館匯文系統(tǒng)數(shù)據(jù)、就業(yè)系統(tǒng)數(shù)據(jù)、一卡通數(shù)據(jù)、各類實踐活動數(shù)據(jù)、社交數(shù)據(jù)以及獎助學(xué)金數(shù)據(jù)。不同學(xué)院之間的學(xué)生成績計算方式可能不同,即使是一個學(xué)院不同課程之間成績也會有很大區(qū)別。為了消除這種客觀差異,我們將收集到處理后的數(shù)據(jù)進行歸一化處理。
圖1 學(xué)生行為分析模型
將收集到的學(xué)生基礎(chǔ)數(shù)據(jù),進行結(jié)構(gòu)化分析,多次清洗檢查出錯誤的數(shù)據(jù),對于錯誤數(shù)據(jù)先考慮進行更正,如果不能修正數(shù)據(jù),那么考慮去除錯誤數(shù)據(jù)。
我們首先應(yīng)用相關(guān)性分析方法研究學(xué)生學(xué)習(xí)狀態(tài)數(shù)據(jù)。以長春大學(xué)近幾年6個學(xué)院的學(xué)生圖書館刷卡次數(shù)與刷卡時間數(shù)據(jù)對比學(xué)生當期學(xué)習(xí)成績(專業(yè)排名)數(shù)據(jù)進行數(shù)據(jù)的相關(guān)性分析(圖2、圖3)。
圖2 圖書館刷卡次數(shù)和學(xué)生成績的相關(guān)性分析
圖3 圖書館刷卡次數(shù)和學(xué)生成績的相關(guān)性分析
從圖2、圖3可以看到,圖書館刷卡的次數(shù)和學(xué)生成績的相關(guān)程度比較高,曲線都比較緊密且具有較強的線性相關(guān)特征。
而圖書館刷卡的時刻和學(xué)生成績的相關(guān)程度比較弱,曲線的波動都比較明顯。
其次,我們以高等學(xué)校學(xué)生的消費數(shù)據(jù)為研究對象,利用快速聚類算法對學(xué)生消費數(shù)據(jù)進行聚類分析,并結(jié)合學(xué)生行為數(shù)據(jù)進行整體學(xué)生行為畫像。
令P={p1,p2,···,pm}表示畫像的中心區(qū)域,其中,pi表示第i個數(shù)據(jù)的行為畫像指標,Ci={pi1,pi2,···,pim}表示分類中的第j個數(shù)據(jù)。當聚類分析結(jié)束的時候,各個分類需要滿足下面3個條件:
?Cm,ifCr?P,Cm≠Cr,thenCm∩Cr= Ⅱ
Min?Pi∈Cm,?Cm?P(sim(Pi,Pj))>Max?Pi∈Cm,?Cm?P(sim(Pi,Pj))Ⅲ
其中聚類的目標函數(shù)為:
其中k是參數(shù)。為保證聚類分析結(jié)果的可靠性,首先對數(shù)據(jù)進行標準化處理。
標準化處理的轉(zhuǎn)換公式為:
上式中的U和V分別是轉(zhuǎn)換之后和轉(zhuǎn)換之前的數(shù)值,Vmax、Vmin分別代表轉(zhuǎn)換值的最大值以及最小值。
圖4 快速聚類流程圖
我們根據(jù)學(xué)生的消費水平,學(xué)習(xí)狀態(tài)數(shù)據(jù)將消費行為聚類的類別定為3類,學(xué)生行為(學(xué)習(xí)狀況及消費特征)定為4類。研究在此分類下學(xué)生的行為特點。
聚類結(jié)果如圖5、圖6、圖7所示:
圖5 聚類(分組1)特征曲線
圖6 聚類(分組2)特征曲線
圖7 聚類(分組3)特征曲線
圖4中藍色曲線為消費時間特征曲線,綠色曲線為消費頻率(次數(shù))特征曲線,紅色曲線為消費金額特征曲線。從圖5、圖6、圖7可以得出以下結(jié)論:
聚類群體1:消費主要集中在前90天內(nèi),消費次數(shù)在25次以內(nèi),消費金額在3 000元以內(nèi),屬于高消費的學(xué)生分群。
聚類群體2:消費主要分布在前30天內(nèi),消費次數(shù)在15次以內(nèi),消費金額在1 500元以內(nèi),屬于一般消費水平的學(xué)生分群。
聚類群體3:消費主要分布在前30天內(nèi),消費次數(shù)在26次以內(nèi),消費金額在2 000元以內(nèi),屬于中等消費金額的學(xué)生分群。
聚類1中的多數(shù)學(xué)生的借書冊數(shù)和還書冊數(shù)都比較多,大多數(shù)學(xué)生的學(xué)習(xí)成績?yōu)閮?yōu)秀,但是這類學(xué)生的消費金額少,可能有生活問題,應(yīng)該及時對該類學(xué)生給予生活上的幫助和支持。
聚類2和聚類3學(xué)生人數(shù)比較多,他們在成績、消費金額以及圖書借閱冊數(shù)上均屬于中等水平,但由于聚類2學(xué)生借書還書比較多,成績會相對好一些,此兩類學(xué)生需要加以指導(dǎo)和提高。
表1 學(xué)生行為特征聚類
聚類4中的學(xué)生在消費水平上比較高,但借書次數(shù)很少,成績相對比較差,對于該類學(xué)生應(yīng)提醒其理性消費,而且需要增加對待學(xué)習(xí)的自主性和積極性,將目標放在提高學(xué)習(xí)成績上。
利用SPSS數(shù)學(xué)軟件將學(xué)生信息數(shù)據(jù)進行表格化處理,得到學(xué)生行為畫像表格。
表2 行為畫像表格
本文通過分析建立高校學(xué)生行為的數(shù)學(xué)模型,對學(xué)生后續(xù)可能發(fā)生的行為進行評估和預(yù)測,同時為學(xué)生個人發(fā)展提出可行性建議,也為學(xué)校制定獎助學(xué)金、管理辦法等決策提供了理論依據(jù)。