張瓊霞
( 莆田學(xué)院 信息化建設(shè)與管理中心, 福建 莆田 351100 )
隨著大數(shù)據(jù)技術(shù)的流行, 各個(gè)高校開始著手運(yùn)用人工智能和大數(shù)據(jù)等新興技術(shù)來優(yōu)化資源管理和教學(xué)管理等, 將大數(shù)據(jù)技術(shù)運(yùn)用到校園的信息化建設(shè)已經(jīng)成為一種新趨勢[1]。 校園一卡通水平是衡量高校信息化水平的標(biāo)準(zhǔn)之一。 利用大數(shù)據(jù)技術(shù)對校園一卡通積累的數(shù)據(jù)資源進(jìn)行分析和研究, 特別對學(xué)生消費(fèi)行為的分析, 可有效用于貧困認(rèn)定等工作, 提高高校學(xué)生管理水平和管理效率, 促進(jìn)高校學(xué)生管理工作創(chuàng)新。 本文闡述了在大數(shù)據(jù)時(shí)代背景下, 基于智慧校園大數(shù)據(jù)分析平臺及聚類算法在高校學(xué)生管理中的應(yīng)用。
大數(shù)據(jù)是21 世紀(jì)的一場技術(shù)和產(chǎn)業(yè)革命[2],是繼移動互聯(lián)網(wǎng)、 云計(jì)算后具有深遠(yuǎn)意義的技術(shù)變革, 它深刻影響了現(xiàn)代人的生產(chǎn)、 生活和思維。 黨的十八屆五中全會明確提出, “十三五”時(shí)期要 “實(shí)施國家大數(shù)據(jù)戰(zhàn)略, 推進(jìn)數(shù)據(jù)資源開放共享”[3]。
高校信息系統(tǒng)一直以來都是數(shù)據(jù)生產(chǎn)大戶。伴隨著大數(shù)據(jù)技術(shù)的迅猛發(fā)展以及國家產(chǎn)業(yè)政策的支持, 大數(shù)據(jù)平臺的建設(shè)已然成為高校信息化建設(shè)的重要組成部分。 運(yùn)用大數(shù)據(jù)技術(shù)對校內(nèi)產(chǎn)生的數(shù)據(jù)進(jìn)行有機(jī)整合與管理, 對有效的信息資源進(jìn)行挖掘、 整理和分析, 能夠?yàn)楦咝9芾砉ぷ魈峁Q策支撐, 大幅提升高校管理水平[4]。
當(dāng)下, 許多高校學(xué)生管理方式?jīng)]有與時(shí)俱進(jìn), 存在管理理念老套、 信息化運(yùn)用水平不高等問題。 很多高校的學(xué)生管理工作沒有利用大數(shù)據(jù)技術(shù), 管理效率低下, 這與教育管理現(xiàn)代化的發(fā)展要求相悖。
高校的管理工作是比較繁雜的, 主要以經(jīng)驗(yàn)管理為主, 管理模式比較傳統(tǒng), 管理效率相對低下, 管理方式未能與時(shí)俱進(jìn), 與信息化技術(shù)脫軌。 大數(shù)據(jù)技術(shù)是高校管理從傳統(tǒng)管理向科學(xué)管理演進(jìn)的關(guān)鍵技術(shù)力量。 隨著信息化技術(shù)在校園內(nèi)的廣泛應(yīng)用, 大數(shù)據(jù)平臺使高校的決策有了更為可靠的數(shù)據(jù)基礎(chǔ), 能夠?yàn)楹暧^決策提供技術(shù)支持, 促進(jìn)高校學(xué)生管理工作創(chuàng)新。
大數(shù)據(jù)的核心是預(yù)測規(guī)律, 高校大數(shù)據(jù)克服了傳統(tǒng)小數(shù)據(jù)的局限性和不能反映整體狀況的弊端。 通過大數(shù)據(jù)綜合分析, 可以發(fā)現(xiàn)隱藏在師生復(fù)雜混亂數(shù)據(jù)背后的行為規(guī)律, 從而提高教育管理的科學(xué)性。
教育管理信息化是 “智慧校園” 的前提,大數(shù)據(jù)技術(shù)是高校智慧管理的基礎(chǔ)。 高校教育管理大數(shù)據(jù)是具有即時(shí)、 預(yù)警特性的技術(shù)手段, 能夠?yàn)榻逃芾碚咦プ£P(guān)鍵期, 及時(shí)預(yù)防和處理危機(jī)事件, 避免或減少危機(jī)的損害。
“變” 是高校教育管理永恒不變的主題。 高校教育管理人員要及時(shí)關(guān)注管理內(nèi)外部環(huán)境和管理對象的變化, 研究各種變化的趨勢和規(guī)律。 大數(shù)據(jù)技術(shù)為高校教育管理者及時(shí)獲取各種信息提供了技術(shù)保障, 大數(shù)據(jù)的海量、 快速、 動態(tài)和便捷等特性有利于高校教育管理權(quán)變性的實(shí)現(xiàn)。
以莆田學(xué)院為例, 校園一卡通大數(shù)據(jù)平臺Hadoop 集群有3 個(gè)節(jié)點(diǎn)(其中1 個(gè)是管理節(jié)點(diǎn)),2 臺 DataNode, CPU 總核數(shù) 48 個(gè), 存儲容量 3 TB, 目錄數(shù)為 58, 文件數(shù)13 492, HDFS 利用率達(dá)69.74%。 校園一卡通大數(shù)據(jù)采用Hadoop 分布式數(shù)據(jù)處理平臺, Hadoop 主要解決海量數(shù)據(jù)的存儲、 分析計(jì)算問題。 Hadoop 生態(tài)圈的核心組件是分布式文件系統(tǒng) (HDFS) 和MapReduce。
HDFS 主要負(fù)責(zé)分布式存儲, 它將文件切割為大小固定的數(shù)據(jù)塊, 以分布式的形式存儲在指定的服務(wù)器上, 以便采用 “分而治之” 的方式對海量數(shù)據(jù)進(jìn)行運(yùn)算分析。 無論是結(jié)構(gòu)化數(shù)據(jù)抑或是非結(jié)構(gòu)化數(shù)據(jù), 要保證后期數(shù)據(jù)挖掘的準(zhǔn)確性, 對數(shù)據(jù)進(jìn)行高效存儲與管理是非常關(guān)鍵的。提高存儲效率、 使用數(shù)據(jù)分析模型、 降低數(shù)據(jù)的重讀率、 剔除無用數(shù)據(jù), 這些都需要使用可靠的HDFS。
MapReduce 用于計(jì)算海量數(shù)據(jù): 第一步Map(展開), 即將一個(gè)任務(wù)分解成多個(gè)任務(wù); 第二步Reduce, 則是匯總分解后的多任務(wù)處理結(jié)果并生成分析結(jié)果。 MapReduce 從校園一卡通、 數(shù)據(jù)中心等相關(guān)信息數(shù)據(jù)庫中采集相關(guān)數(shù)據(jù)信息,分解到分布式數(shù)據(jù)中心進(jìn)行存儲、 挖掘、 分析和展示。 分析結(jié)果可為學(xué)生消費(fèi)行為管理、 貧困生識別、 情感分析預(yù)警等行為分析提供數(shù)據(jù)服務(wù),使高校真正了解學(xué)生, 并提供個(gè)性化、 精準(zhǔn)化的服務(wù)。 借助行為分析結(jié)果, 可以有針對性地優(yōu)化高校管理方式, 提升管理服務(wù)水平, 提高服務(wù)質(zhì)量, 降低管理成本。
校園大數(shù)據(jù)平臺處理流程見圖1。
圖1 校園大數(shù)據(jù)平臺處理流程
莆田學(xué)院校園卡運(yùn)營中心管理系統(tǒng)和運(yùn)營交易中心管理系統(tǒng)分別見圖2、 圖3。
圖2 莆田學(xué)院校園卡運(yùn)營中心管理系統(tǒng)
圖3 莆田學(xué)院校園卡運(yùn)營交易中心管理系統(tǒng)
校園一卡通是高校信息化建設(shè)不可或缺的組成部分, 是提升高校管理水平的重要措施之一。校園一卡通系統(tǒng)每天都會產(chǎn)生大量的消費(fèi)數(shù)據(jù),這些數(shù)據(jù)不僅客觀真實(shí)且豐富全面。 一卡通系統(tǒng)包含全校師生的個(gè)人信息, 如姓名、 所在院部、所學(xué)專業(yè)等重要信息, 結(jié)合一卡通中的消費(fèi)金額、 消費(fèi)地點(diǎn)、 消費(fèi)時(shí)間等消費(fèi)信息, 利用大數(shù)據(jù)技術(shù), 可以了解學(xué)生的日常消費(fèi)規(guī)律和行為規(guī)律, 為創(chuàng)新高校學(xué)生管理提供依據(jù)。
利用校園一卡通產(chǎn)生的消費(fèi)數(shù)據(jù), 通過數(shù)據(jù)挖掘等技術(shù)對其進(jìn)行分析研究, 挖掘?qū)W生消費(fèi)行為背后隱藏的信息。 通過對提取的數(shù)據(jù)進(jìn)行預(yù)處理和特征工程, 分析學(xué)生的消費(fèi)能力水平和消費(fèi)習(xí)慣。 然后對學(xué)生的消費(fèi)行為進(jìn)行細(xì)分并合理歸類, 高??梢葬槍W(xué)生的特點(diǎn)為學(xué)生提供個(gè)性化的管理和服務(wù), 進(jìn)而實(shí)現(xiàn)精準(zhǔn)管理的目標(biāo)[5]。
4.1.1 聚類分析
聚類分析的思路是: 建立某種分類的辦法,將一批數(shù)據(jù)樣本, 依照特定的標(biāo)準(zhǔn), 自動進(jìn)行分類。 通過聚類分析, 提取數(shù)據(jù)的統(tǒng)計(jì)結(jié)果, 結(jié)合人工定義最終形成標(biāo)簽數(shù)據(jù)。 在使用校園大數(shù)據(jù)技術(shù)前提下, 對已經(jīng)產(chǎn)生的消費(fèi)數(shù)據(jù)進(jìn)行預(yù)處理。 基于 “月平均消費(fèi)金額” 和 “月消費(fèi)頻次”兩個(gè)指標(biāo), 使用K-medoids 算法中的圍繞中心點(diǎn)劃分(partitioning aroud medoids,PAM)算法, 對學(xué)生消費(fèi)行為進(jìn)行分類。 PAM 算法實(shí)現(xiàn)流程如下:
(1) 從數(shù)量為n 的總體樣本點(diǎn)中, 隨機(jī)無規(guī)律地抽取k 個(gè)類當(dāng)作medoids;
(2) 根據(jù)medoids 最近的判斷準(zhǔn)則, 將余下的未用的n-k 個(gè)樣本點(diǎn)分配給當(dāng)前階段性能最好的medoids 表示的類里面 (完成了最初聚類);
(3) 對除對應(yīng)medoids 點(diǎn)之外的第i 個(gè)類中的其余剩下的點(diǎn), 按序依次計(jì)算當(dāng)其為新的medoids時(shí)準(zhǔn)則函數(shù)的值, 迭代全部有可能的點(diǎn),并從中選擇出準(zhǔn)則函數(shù)最小的點(diǎn)作為下一次迭代的的medoids;
(4) 重復(fù)過程(2)、 (3)的操作, 直至全部medoids 點(diǎn)不再更改或者已經(jīng)到了最初設(shè)定的迭代次數(shù)的極限值;
(5) 最終確定出k 個(gè)類。
4.1.2 算法實(shí)例描述
以10 個(gè)數(shù)據(jù)為例進(jìn)行聚類分析, 基于 “月平均消費(fèi)金額”(M1)和“月消費(fèi)頻次”(M2)兩個(gè)指標(biāo)。 用 “1” 表示該指標(biāo)大于平均數(shù), “0” 表示小于平均數(shù)。 表1 為隨機(jī)抽取6 個(gè)學(xué)生消費(fèi)數(shù)據(jù), 表2 為比較結(jié)果, 表3 為消費(fèi)行為類別標(biāo)簽。
表1 隨機(jī)抽取6 個(gè)學(xué)生消費(fèi)數(shù)據(jù)
表2 比較結(jié)果
表3 消費(fèi)行為類別標(biāo)簽
我國相當(dāng)重視人才的培養(yǎng), 近年來對高校貧困學(xué)生的補(bǔ)貼力度也持續(xù)加大。 但貧困生識別與認(rèn)定是實(shí)際操作中的難題, 現(xiàn)在依然延用傳統(tǒng)的貧困生資助流程, 即: 學(xué)生本人按照要求提交相關(guān)申請材料, 輔導(dǎo)員上報(bào)二級學(xué)院復(fù)核, 對貧困生進(jìn)行公示, 如在有效期內(nèi)學(xué)生無異議, 則正式確認(rèn)貧困生, 助學(xué)資金將定期定額發(fā)放, 資助流程即完成[6]。 傳統(tǒng)方式有明顯漏洞, 學(xué)生主動申請, 一些不需要的學(xué)生也可能去申請, 真正的貧困學(xué)生也許會因?yàn)楹π呋蚱渌蛩夭桓疑暾?,這就會造成助學(xué)金發(fā)放不精準(zhǔn), 助學(xué)金分配不合理, 使得真正貧困的學(xué)生沒有辦法獲得助學(xué)金。也就是助學(xué)金沒有達(dá)到精準(zhǔn)發(fā)放的目的, 這樣貧困生資助就失去了意義[7]。 從現(xiàn)實(shí)情況出發(fā),相比較經(jīng)濟(jì)狀況良好的學(xué)生, 真正的貧困生日常消費(fèi)明顯比較低, 因此, 學(xué)??梢酝ㄟ^對校園一卡通消費(fèi)數(shù)據(jù)進(jìn)行挖掘, 依據(jù)不同學(xué)生的消費(fèi)特性, 同時(shí)綜合考量其他相關(guān)的影響因素, 開展貧困生認(rèn)定工作。
由于外賣的普及, 很多學(xué)生選擇點(diǎn)外賣, 所以他們的一卡通消費(fèi)數(shù)據(jù)就無法作為認(rèn)定依據(jù)。因此, 在分類過程中要引入是否連續(xù)就餐這一指標(biāo)。 運(yùn)用支持向量機(jī)(Support Vector Machine,SVM)結(jié)合學(xué)生消費(fèi)行為分類, 據(jù)此甄別貧困生和非貧困生, 更好地輔助有關(guān)部門做好貧困生認(rèn)定工作。
SVM 是一種二分類模型, 適合中小型數(shù)據(jù)樣本、 非線性、 高維的分類問題。 使用 SVM 算法判斷貧困生流程如圖4 所示, 貧困生認(rèn)定流程如圖5 所示。
圖4 SVM 算法判斷貧困生流程
圖5 貧困生認(rèn)定流程
結(jié)合表3 消費(fèi)行為類別標(biāo)簽和SVM 模型,可得:
第0 種類型學(xué)生: 月消費(fèi)水平最高并且消費(fèi)頻次也高, 判定為非貧困生;
第1、 2、 3 種類型學(xué)生: 月消費(fèi)水平和消費(fèi)頻次均善可, 判定為非貧困生;
第4 種類型學(xué)生: 此類學(xué)生月平均消費(fèi)水平較低, 且消費(fèi)頻次高, 可判定此類學(xué)生每次平均消費(fèi)金額偏低, 可以從某種程度上反映出此類學(xué)生是較為節(jié)儉的一類人, 較大概率屬于貧困生類型;
第5 種類型學(xué)生: 低消費(fèi)群體, 參照是否連續(xù)就餐這一指標(biāo), 剔除非連續(xù)就餐學(xué)生, 低消費(fèi)且連續(xù)就餐, 可判定該類學(xué)生為貧困生。 貧困生認(rèn)定結(jié)果如圖6 所示。
圖6 莆田學(xué)院貧困生認(rèn)定結(jié)果
目前多數(shù)高校由于依賴傳統(tǒng)的貧困生認(rèn)定方式, 信息化發(fā)展水平相對滯后, 無法根據(jù)學(xué)生消費(fèi)行為評定貧困生。 近年來隨著信息技術(shù)的發(fā)展, 大數(shù)據(jù)和人工智能技術(shù)在高校得到普遍應(yīng)用。 運(yùn)用信息化技術(shù)可以精準(zhǔn)地評估學(xué)生的消費(fèi)行為, 確保貧困生認(rèn)定結(jié)果更為公允精確。
通過大數(shù)據(jù)技術(shù)和聚類分析算法相結(jié)合的嶄新方式, 可以實(shí)現(xiàn)對學(xué)生消費(fèi)數(shù)據(jù)的全面收集、分析與共享。 采用大數(shù)據(jù)技術(shù)和聚類分析算法計(jì)算校園一卡通系統(tǒng)產(chǎn)生的消費(fèi)數(shù)據(jù), 細(xì)分學(xué)生消費(fèi)行為, 精準(zhǔn)地獲取學(xué)生的分類信息, 以供管理者充分利用這些數(shù)據(jù)資源, 有效挖掘數(shù)據(jù)價(jià)值,為校園智能化管理提供有力支撐。 未來的研究應(yīng)致力于搭建基于人工智能的智慧校園管理平臺,為高校管理者提供更快捷、 高效的決策依據(jù), 推動大數(shù)據(jù)及人工智能在高校的廣泛應(yīng)用。