黃泰華,張 濤*,王 磊
(1.黑龍江大學(xué)信息管理學(xué)院,哈爾濱 150080;2.黑龍江大學(xué)數(shù)據(jù)科學(xué)與技術(shù)學(xué)院,哈爾濱 150080)
隨著中國信息技術(shù)的發(fā)展,大數(shù)據(jù)技術(shù)正逐步應(yīng)用于社會的各行各業(yè),改善人們的學(xué)習(xí)、工作和生活,在此背景下,中國高校面臨的內(nèi)部結(jié)構(gòu)和外部環(huán)境正在發(fā)生前所未有的深刻變化,學(xué)生管理工作中存在許多新情況、新問題、新挑戰(zhàn)[1]。高校如何借助技術(shù)優(yōu)勢實現(xiàn)教育管理的多層面影響,已成為新時期高校教育管理研究實踐的重要課題[2]。高校智慧校園的內(nèi)生需求之一即是基于大數(shù)據(jù)分析實現(xiàn)校情研判并指引決策制定,與需求相悖的是高校內(nèi)部的學(xué)生數(shù)據(jù)通常是海量的、異構(gòu)的、復(fù)雜的,甚至是不完善的,多源數(shù)據(jù)融合為實現(xiàn)校園信息化治理提供了新的研究思路。此外,用戶畫像作為一種信息化的用戶描述工具,在用戶描述與建模上具有優(yōu)勢[3]。因此,將傳統(tǒng)的高校管理經(jīng)驗與新時代的信息化手段相結(jié)合,建構(gòu)高效能、信息化的教育管理體系,已成為新時期提升教育教學(xué)能效的關(guān)鍵基礎(chǔ),也為高校教育教學(xué)改革指明了方向。
用戶畫像的概念最早由A.Cooper 提出,意為 “真實用戶的虛擬代表”,側(cè)重于探索用戶的動機,是基于一系列真實數(shù)據(jù)的目標(biāo)用戶模型。為了更好地對學(xué)生數(shù)據(jù)進(jìn)行深度挖掘,可以應(yīng)用用戶畫像的研究方法,構(gòu)建面向大學(xué)生的學(xué)生畫像。在國外研究中,有部分學(xué)者將用戶畫像應(yīng)用于圖書館管理工作中,識別圖書館用戶的獨特性質(zhì),進(jìn)一步開發(fā)和改進(jìn)當(dāng)前服務(wù)并創(chuàng)建新服務(wù)以滿足用戶的需求[4]。有學(xué)者構(gòu)建了基于數(shù)字畫像的綜合素質(zhì)評價模型[5]。有學(xué)者提出了可視化的學(xué)習(xí)分析技術(shù),構(gòu)建了研究性學(xué)習(xí)學(xué)生畫像[6]。有學(xué)者通過提出 “精英模型”,對現(xiàn)有的學(xué)生畫像完善拓展[7]。在上述研究中,數(shù)據(jù)挖掘的角度和手段在不斷地創(chuàng)新。既有面向教學(xué)方面,實現(xiàn)學(xué)業(yè)預(yù)警;也有應(yīng)用于消費方面,通過分析消費行為識別特征群體,實現(xiàn)貧困資助工作的有效開展;也有應(yīng)用于心理評估方面,實現(xiàn)重點學(xué)生識別和關(guān)懷。
用戶畫像的構(gòu)建方法主要包括基于用戶行為、基于用戶興趣偏好、基于主題、基于人格特征與情緒4種方法,其應(yīng)用領(lǐng)域大致涉及電子商務(wù)、健康醫(yī)療、旅游業(yè)、圖書館等領(lǐng)域。在教育領(lǐng)域的用戶畫像研究中,主要集中在基礎(chǔ)教育研究,中國有關(guān)高等教育的用戶畫像研究尚處于起步階段。根據(jù)現(xiàn)有文獻(xiàn)來看,用戶畫像在高校管理中的應(yīng)用研究主要包括教育教學(xué)管理、學(xué)生工作管理和圖書館管理3 個方面。通過對國內(nèi)外有關(guān)高校學(xué)生畫像研究的內(nèi)容梳理發(fā)現(xiàn):①用戶畫像是一個新興的研究領(lǐng)域,具備堅實的理論基礎(chǔ)、成熟的研究方法和廣泛的應(yīng)用場景,但國內(nèi)有關(guān)教育領(lǐng)域的相關(guān)研究較少,存在一定的研究空白;②在高校管理中用戶畫像研究中,多集中于圖情管理領(lǐng)域,針對學(xué)生畫像的研究多停留于數(shù)據(jù)分析層面,深層次的學(xué)生畫像的構(gòu)建及應(yīng)用研究較少。
大學(xué)生基礎(chǔ)素質(zhì)和知識水平較高,思想活躍,因此,從學(xué)生行為視角入手,在智慧育人的理念下,將高校學(xué)生的數(shù)據(jù)信息作為研究對象,探索大學(xué)生精準(zhǔn)服務(wù)的新模式[8],往往是專家學(xué)者開展高校教育教學(xué)體制研究的起點。國外研究中也常常利用學(xué)生行為數(shù)據(jù)以分析個人和學(xué)校層面的社會經(jīng)濟因素[9]。高校中數(shù)據(jù)中心的數(shù)據(jù)具有來源豐富、數(shù)據(jù)形式多樣的特征,可開展如下研究:①在關(guān)于顯性數(shù)據(jù)的研究中,消費數(shù)據(jù)、學(xué)業(yè)數(shù)據(jù)等一系列具有明顯特征的數(shù)據(jù)可以更好地被觀察,或利用統(tǒng)計學(xué)方法,將兩種或多種看似不相關(guān)的變量聯(lián)結(jié)起來,發(fā)現(xiàn)其蘊含的深層相關(guān)性。②在關(guān)于隱性數(shù)據(jù)的研究中,如學(xué)生的社交行為往往不能被直接觀察,也不能通過簡單的推理直接得到,這就需要利用如機器學(xué)習(xí)等數(shù)據(jù)分析手段實現(xiàn)。在國外的研究中常常引入隱性數(shù)據(jù)或隱性知識的概念,以解決企業(yè)運營和組織創(chuàng)新等問題[10]。有學(xué)者以中國大學(xué)生為研究對象,對其社交數(shù)據(jù)挖掘進(jìn)行情感分析,深入觀察學(xué)生的情感演化過程[11]。③在多源數(shù)據(jù)的研究中,顯性數(shù)據(jù)和隱性數(shù)據(jù)可以綜合起來,舒江波等就從學(xué)生學(xué)籍信息、學(xué)習(xí)表現(xiàn)、校園生活3 個維度進(jìn)行綜合分析,構(gòu)建學(xué)生大數(shù)據(jù)行為分析模型[12]。
當(dāng)前的高校數(shù)據(jù)挖掘研究,受現(xiàn)實條件限制,開展特定場景中特定用戶研究是可行的。國外的研究中也有利用混合數(shù)據(jù)對學(xué)生畢業(yè)情況進(jìn)行專門統(tǒng)計,提出一種確定大學(xué)畢業(yè)狀態(tài)驅(qū)動因素的公正方法。在國內(nèi)研究中,由于教育體制不同,應(yīng)用場景也有所不同:①在消費行為識別研究中,通過分析校園一卡通的消費數(shù)據(jù),研究學(xué)生的消費行為,可以識別不同消費行為的群體[13]。②在貧困資助評估研究中,有學(xué)者在現(xiàn)有消費數(shù)據(jù)的基礎(chǔ)上,對學(xué)生的發(fā)展?fàn)顩r進(jìn)行調(diào)查,建立了一種貧困生資助評估模型,為識別和幫扶高校貧困生提供了新方法[14];也有學(xué)者關(guān)注消費數(shù)據(jù)和學(xué)生個體的內(nèi)在關(guān)聯(lián),提出一種用于消費強度指標(biāo),在學(xué)生家庭經(jīng)濟狀況評估上進(jìn)行了更為精準(zhǔn)的預(yù)測[15]。③在心理健康評價研究中,由于心理相關(guān)的學(xué)生數(shù)據(jù)屬于隱性數(shù)據(jù),不能通過單一數(shù)據(jù)直接觀察學(xué)生的心理狀況。因此,學(xué)者大多采用多數(shù)據(jù)融合的方式,利用深度學(xué)習(xí)算法,構(gòu)建大學(xué)生心理健康評估模型,實現(xiàn)自動準(zhǔn)確評估大學(xué)生心理健康狀態(tài)[16]。④在學(xué)生學(xué)業(yè)幫扶研究中,一方面,通過采集學(xué)習(xí)、生活過程中產(chǎn)生的校園行為數(shù)據(jù),利用大數(shù)據(jù)的手段,可以構(gòu)建面向?qū)W生的大數(shù)據(jù)分析模型,預(yù)測學(xué)生在校期間的學(xué)業(yè)表現(xiàn)[17];另一方面,數(shù)據(jù)驅(qū)動的精準(zhǔn)化學(xué)習(xí)評價可以發(fā)現(xiàn)教育教學(xué)中存在的問題,輔助課堂教學(xué)開展[18]。
這些研究既有基于顯性數(shù)據(jù)、隱性數(shù)據(jù)的挖掘,也有基于多源數(shù)據(jù)融合的挖掘,但數(shù)據(jù)挖掘的深度仍然不夠,缺乏對多源數(shù)據(jù)的深層挖掘。覆蓋了多種應(yīng)用場景,但仍然缺乏面向多場景的研究方法,雖然用戶畫像的提出可以解決場景單一的問題,但目前對學(xué)生畫像的刻畫上仍停留于框架的搭建,實踐層面的學(xué)生畫像研究成果較少,仍有一定的研究空白。因此,本文以大學(xué)生行為研究為出發(fā)點,獲取真實的大學(xué)生的校園數(shù)據(jù),通過將多源數(shù)據(jù)進(jìn)行融合,構(gòu)建多源、多維、多場景的綜合評價體系。以消費、學(xué)業(yè)、社交3個維度構(gòu)建動態(tài)和靜態(tài)的個體畫像。以消費維度研究為主,建立學(xué)生的消費活躍度和穩(wěn)定性畫像。其中,融合的優(yōu)勢在于數(shù)據(jù)、場景、深度的多元融合,最終刻畫真實的、智能的、多層次的學(xué)生畫像?;诟咝W(xué)生畫像,可以實現(xiàn)精準(zhǔn)的群體圈選和個體識別,為高校貧困助學(xué)、學(xué)業(yè)幫扶和心理干預(yù)等工作提供參考,從而為高校管理提供理性決策依據(jù)。
大學(xué)生既是具有獨立意義的個體,也是具有社會意識的群體。在諸如高校此類小型社會系統(tǒng)中[19],學(xué)生在校園學(xué)習(xí)、生活的同時,會建立以自我為核心的社交網(wǎng)絡(luò),在范圍上,既有以寢室、專業(yè)、班級為單位的自然社交網(wǎng)絡(luò),也有跨年級、跨學(xué)院、跨角色的主觀社交網(wǎng)絡(luò)。在學(xué)生進(jìn)行社交活動的過程中,根據(jù)不同粒度的用戶行為特征可以劃分出很多不同種類的用戶角色,學(xué)生既可以是 “有影響力者” “專家” 或“討論者”,也可以是 “支持者” “中立者” 或 “反對者”。但是,學(xué)生無論扮演何種角色,都會在其社交網(wǎng)絡(luò)中發(fā)揮影響。由此可見,學(xué)生的校內(nèi)行為數(shù)據(jù)具備個體和群體的雙重數(shù)據(jù)特征,反映真實的個人特征和社交關(guān)系,在研究中,既要重視學(xué)生的個體性,又不能忽視學(xué)生的群體特點。
從宏觀角度來看,學(xué)生畫像的屬性特征兼具靜態(tài)性和動態(tài)性。從行為層面來看,可以把學(xué)生的在校行為劃分為學(xué)習(xí)行為、消費行為和社交行為3 類。
(1)學(xué)業(yè)行為指標(biāo)。學(xué)業(yè)行為指標(biāo)主要包括學(xué)業(yè)成績優(yōu)秀度、學(xué)業(yè)努力程度等。在教育領(lǐng)域,對于學(xué)生的學(xué)習(xí)評價方式有很多,目前各高校普遍根據(jù)學(xué)生的培養(yǎng)方案課程,以學(xué)分作為權(quán)重計算學(xué)生學(xué)分績點,部分學(xué)者提出以專業(yè)排名作為評價學(xué)業(yè)優(yōu)秀度的評價標(biāo)準(zhǔn)[20]。在評價學(xué)習(xí)行為的過程中,要根據(jù)學(xué)生學(xué)制、學(xué)年、專業(yè)的不同分類評價,并結(jié)合如獎學(xué)金、競賽等學(xué)科競賽信息和圖書館出入信息,研究學(xué)生的學(xué)習(xí)努力程度,構(gòu)建客觀、合理、簡潔的學(xué)業(yè)評價指標(biāo)。
(2)消費行為指標(biāo)。消費行為指標(biāo)主要包括消費穩(wěn)定性、消費活躍度、消費水平等。高校為在校師生提供了基礎(chǔ)的生活需求保障,因此,通過研究校園內(nèi)學(xué)生的消費行為,包括學(xué)生的消費時間、金額、地點信息,進(jìn)一步可以形成消費時間穩(wěn)定性和消費地點偏好等指標(biāo),并在一定程度反映了學(xué)生參與校內(nèi)活動,融入校園生活的實際情況。
(3)社交行為指標(biāo)。社交行為指標(biāo)主要包括社交活躍度和社交距離度,受研究規(guī)模影響,高校屬于小型的社會系統(tǒng),在高校范圍內(nèi)開展社交距離度的研究意義不大。因此,可以將社交活躍度近似看作社交行為指標(biāo)。通過追蹤學(xué)生的消費數(shù)據(jù),建立消費 “時間-地點” 共現(xiàn)網(wǎng)絡(luò),發(fā)現(xiàn)異常離群值,甄別學(xué)生群體中的“離群者”,實現(xiàn)社交行為指標(biāo)的確定。
基于學(xué)生群體特征及畫像的屬性特征所構(gòu)建的學(xué)生畫像的數(shù)據(jù)特征具備客觀性、全面性、融合性和動態(tài)性[21]。其中,客觀性是指學(xué)生畫像基于一系列真實數(shù)據(jù)構(gòu)建,符合個體和群體層面的實際狀況,反映真實科學(xué)的屬性特征,數(shù)據(jù)來源客觀、處理手段客觀、研究目的客觀、呈現(xiàn)方式客觀;全面性是指學(xué)生畫像構(gòu)建涉及學(xué)生行為的全方面,也反映了學(xué)生特征的全方面,具體體現(xiàn)在研究角度和業(yè)務(wù)場景的全覆蓋;融合性是指各職能部門的異構(gòu)數(shù)據(jù)相互融合,實現(xiàn)數(shù)據(jù)融合時要求完整融合、按屬性融合、按業(yè)務(wù)場景融合;動態(tài)性是指用戶畫像具有動態(tài)變化的特征,個體在不同時期所表現(xiàn)的特征不同,導(dǎo)致刻畫的用戶畫像也有所差異,因此學(xué)生畫像也是一個實時變化的動態(tài)模型。
高校學(xué)生用戶畫像的數(shù)據(jù)來源為教務(wù)管理部門、學(xué)生管理部門、一卡通中心、圖書館等職能部門,整個研究大致分為3 個層級:數(shù)據(jù)層、挖掘?qū)雍捅碚鲗?,如圖1 所示。①數(shù)據(jù)層。包括基本信息數(shù)據(jù)、教務(wù)成績數(shù)據(jù)、獎助學(xué)金數(shù)據(jù)、圖書館門禁記錄和校園消費數(shù)據(jù)。獲取多源異構(gòu)數(shù)據(jù)后,進(jìn)行清洗、集成、轉(zhuǎn)換和規(guī)約,完成數(shù)據(jù)融合。②挖掘?qū)?。主要是對預(yù)處理后的數(shù)據(jù)進(jìn)行指標(biāo)分析、聚類分析、相關(guān)性分析和共現(xiàn)分析,然后建立關(guān)于學(xué)生的消費行為指標(biāo)、學(xué)業(yè)行為指標(biāo)和社交行為指標(biāo)的標(biāo)簽集,建立個體畫像和群體畫像。③表征層。利用學(xué)生個體畫像實現(xiàn)學(xué)業(yè)預(yù)警、心理預(yù)警和貧困幫扶,利用學(xué)生群體畫像實現(xiàn)重點群體識別、群體行為預(yù)測和校園資源規(guī)劃等方面的應(yīng)用表征。
圖1 高校學(xué)生用戶畫像構(gòu)建框架Fig.1 Construction framework of college student user profiles
本實驗選取黑龍江省某高校2018 級、2019 級在校生2019—2020 年的學(xué)生日常行為記錄數(shù)據(jù)作為數(shù)據(jù)集,利用MySQL 導(dǎo)出數(shù)據(jù)40 余萬條。包括基本信息數(shù)據(jù)、教務(wù)成績數(shù)據(jù)、獎助學(xué)金數(shù)據(jù)、圖書館門禁記錄和校園消費數(shù)據(jù)5 張數(shù)據(jù)表,基本情況如表1 所示。
表1 學(xué)生基本數(shù)據(jù)Table 1 Basic student data
各個部門授權(quán)的數(shù)據(jù)多為結(jié)構(gòu)化數(shù)據(jù),將授權(quán)后的數(shù)據(jù)導(dǎo)入到SPSS 進(jìn)行處理,清洗部分格式不規(guī)范或錯誤的數(shù)據(jù)后,將數(shù)據(jù)表以 “學(xué)號” 字段作為特征匹配項進(jìn)行數(shù)據(jù)融合,保留以 “學(xué)號” 為字段的研究對象593 個,時間范圍為2019 年3 月至2020 年12 月,共4 個學(xué)期。其中,受新冠肺炎疫情影響,2020 年上半年未正常開展線下教學(xué)工作,因此2020 年上半年的消費記錄不計入研究范圍。
4.3.1 學(xué)生消費行為特征
根據(jù) “消費地點” 字段,可以將消費數(shù)據(jù)按 “日常生活” “健身洗浴” “基本飲食” 和 “健康醫(yī)療”分類。根據(jù) “消費地點” 字段,結(jié)合校園內(nèi)商戶的分布情況,將消費數(shù)據(jù)的地點按 “A 區(qū)” “B 區(qū)” 和 “C區(qū)” 分類。在 “基本飲食” 分類下,結(jié)合食堂的實際開放時間和就餐高峰人數(shù)統(tǒng)計,劃分 “6:00—9:30” 為早餐時間、“10:30—14:00” 為午餐時間、“16:30—20:00” 為晚餐時間,并將同一時間段內(nèi)的多筆消費合并為一筆。
經(jīng)過征集學(xué)生的消費習(xí)慣,并結(jié)合學(xué)校實際情況。學(xué)生在校園內(nèi)的飲食與購物行為習(xí)慣基本一致,且“基本飲食” 支出比重較大,可以將就餐行為近似視作學(xué)生的消費行為。因此,本研究中學(xué)生的 “消費行為”數(shù)據(jù)按“就餐行為” 數(shù)據(jù)計算。
就餐時間穩(wěn)定系數(shù)是對學(xué)生就餐時間穩(wěn)定性的描述,記為λ,如公式(1)所示:
其中,MTsdi表示第i 個餐別就餐時間的標(biāo)準(zhǔn)差,其計算方法如公式(2)所示;Nmi表示第i 個餐別就餐總次數(shù);n 表示餐別種類,本文取值為3。
其中,N 表示某個餐別的就餐總次數(shù);Tj表示某個餐別的第j 次就餐時間;表示某個餐別的平均就餐時間。
4.3.2 學(xué)生學(xué)業(yè)行為特征
學(xué)生的學(xué)業(yè)行為特征主要由學(xué)業(yè)優(yōu)秀度評價,同一年級、同一專業(yè)的學(xué)生成績排名越高,其學(xué)業(yè)優(yōu)秀度也就越高。學(xué)業(yè)優(yōu)秀度是對學(xué)生學(xué)業(yè)成績的優(yōu)秀程度的描述,記為σ,如公式(3)所示。
G 表示學(xué)生的學(xué)分績點,如公式(4)所示;Gmax表示某學(xué)生所在專業(yè)最高成績,Gmin表示某學(xué)生所在專業(yè)最低成績。
其中,Gi表示某學(xué)生在第i 門課程中的期末成績;Fi表示某學(xué)生第i 門課程的學(xué)分值;n 表示某學(xué)生年度選修的課程總數(shù)。
此外,學(xué)生的學(xué)業(yè)行為特征包括學(xué)業(yè)努力程度評價,而學(xué)業(yè)努力程度評價可以通過獲取在學(xué)習(xí)行為上付出的時間計算得出,主要體現(xiàn)為一個學(xué)期內(nèi)學(xué)生進(jìn)出圖書館的有效次數(shù),但學(xué)生進(jìn)出圖書館次數(shù)并不與學(xué)業(yè)行為直接相關(guān),只能作為學(xué)業(yè)行為特征的輔助評價指標(biāo)。
4.3.3 學(xué)生社交行為特征
好友關(guān)系是學(xué)生社交行為的重要體現(xiàn),是學(xué)生社交網(wǎng)絡(luò)研究的主要內(nèi)容。學(xué)生往往會和同寢室與同班級的好友一起出行,如果兩個人多次在同一時間段、同一地點存在消費行為,且共現(xiàn)的概率值大于一定的閾值時,則認(rèn)為兩個人存在好友關(guān)系。在已有的關(guān)聯(lián)規(guī)則基礎(chǔ)上,借鑒已有學(xué)者的共現(xiàn)網(wǎng)絡(luò)算法,假設(shè)學(xué)生X 在某一時刻進(jìn)行食堂刷卡消費行為,在一定的時間間隔內(nèi),學(xué)生Y 也在同一消費地點出現(xiàn)刷卡消費行為,則認(rèn)為學(xué)生X 與Y 存在共現(xiàn)行為,當(dāng)關(guān)聯(lián)規(guī)則XY 滿足最小支持度和最小置信度閾值時,認(rèn)為學(xué)生X和學(xué)生Y 之間存在關(guān)聯(lián),即認(rèn)定兩人為好友關(guān)系。
在社交共現(xiàn)分析中,學(xué)生X 和學(xué)生Y 的好友關(guān)系反映到數(shù)據(jù)層面,可以理解為學(xué)生X 和學(xué)生Y 共現(xiàn)的次數(shù)足夠大,且共現(xiàn)的消費記錄占自身所有消費記錄較大比重。因此,設(shè)置最小置信度為β=0.5,最小支持度α 如公式(5)所示。
N 表示所有刷卡消費的學(xué)生數(shù),R 表示所有學(xué)生的刷卡消費記錄總數(shù)。
為計算學(xué)生X 和學(xué)生Y 好友關(guān)系的可能性,引入置信度CX→Y如公式(6)所示。
其中,SX→Y為學(xué)生X 和學(xué)生Y 的共現(xiàn)次數(shù),SX為學(xué)生X 刷卡消費的總次數(shù)。
在對學(xué)生X 和學(xué)生Y 的好友關(guān)系判定過程中,首先,計算學(xué)生X 和學(xué)生Y 的共現(xiàn)次數(shù)SX→Y,若SX→Y≥α,則說明兩人的共現(xiàn)次數(shù)足夠高;下一步,則計算學(xué)生X 和學(xué)生Y 的好友可能性置信度CX→Y,若CX→Y≥β,則說明兩人存在好友關(guān)系。
在學(xué)生個體畫像的構(gòu)建中,通過對消費、社交和學(xué)業(yè)數(shù)據(jù)的指標(biāo)進(jìn)行分類,獲取畫像標(biāo)簽,可以實現(xiàn)學(xué)生整體狀況的觀測。利用MySQL 數(shù)據(jù)庫完成數(shù)據(jù)清洗,SPSS 對數(shù)據(jù)進(jìn)行處理與分析,獲取學(xué)生有關(guān)學(xué)業(yè)行為、消費行為和社交行為的3 類指標(biāo)。本研究選取學(xué)生A 作為案例,如表2 所示。其標(biāo)簽信息加載到學(xué)生個體畫像模型,如圖2 所示。其中,“值” 內(nèi)的文本部分為畫像的分類屬性,根據(jù)學(xué)生的排名位次分類得到。
圖2 學(xué)生A 的學(xué)生個體畫像標(biāo)簽信息Fig.2 Personal profile labels of student A
表2 學(xué)生畫像標(biāo)簽信息Table 2 Student profile label information
(1)在學(xué)業(yè)畫像中,整體上看,該生學(xué)業(yè)成績優(yōu)秀,在學(xué)業(yè)成績位于同專業(yè)前列,數(shù)據(jù)表示前往圖書館的次數(shù)較多,學(xué)業(yè)努力程度和學(xué)業(yè)優(yōu)秀度都很高,且沒有任何違紀(jì)處分,可以推測該生具有較強的自主學(xué)習(xí)能力和自我約束力,同時驗證了學(xué)業(yè)努力程度與學(xué)業(yè)優(yōu)秀度存在一定的正相關(guān)關(guān)系。
(2)在消費畫像中,該生表現(xiàn)出較強的消費穩(wěn)定性和消費活躍性,總消費次數(shù)較高,常常使用在線支付的方式,初步推測平時校內(nèi)生活較為豐富。此外,在消費地點的選擇上,學(xué)生的消費記錄在A 區(qū)較多,推測該生的校內(nèi)活動受一定時空因素的限制,或受個人主觀因素影響,在校內(nèi)活動時軌跡較為集中。另一方面,該生的就餐時間集中在中午較多,在早上的就餐支出較少,消費不穩(wěn)定,就餐缺乏規(guī)律,推測缺少健康的飲食習(xí)慣。
(3)在社交畫像中,該生的社交評價為優(yōu)秀社交,初步認(rèn)定該生擁有良好的社交關(guān)系,具備一定的社交能力和團體意向,進(jìn)一步推測此學(xué)生現(xiàn)階段處于心理健康積極的狀態(tài),在生活中遇到困難時會更易得到好友的幫助。
綜上,該生呈現(xiàn)出學(xué)業(yè)優(yōu)秀、消費活躍、社交良好的應(yīng)屆畢業(yè)生形象,結(jié)合學(xué)業(yè)、消費和社交3 個維度的綜合評估,該生屬于高活躍的校園生活者,為人努力上進(jìn),心理健康向上,雖然在消費(就餐)規(guī)律上呈現(xiàn)不穩(wěn)定的狀態(tài),但是整體還是自律的學(xué)生。由于學(xué)生處于大四畢業(yè)期間卻仍有高度的學(xué)業(yè)努力度,可以初步預(yù)測學(xué)生有求學(xué)備考或求職復(fù)習(xí)的準(zhǔn)備,學(xué)校針對此類學(xué)生可以提供針對的信息推送服務(wù)或安排對應(yīng)的輔導(dǎo)課程。
5.2.1 基于消費活躍度的群體畫像
本文主要采用K-means 聚類方法對學(xué)生行為特征進(jìn)行聚類[22]。利用Python 中sklearn 工具實現(xiàn)K-means聚類算法,對學(xué)生的 “就餐天數(shù)” “就餐金額” 進(jìn)行聚類,以探究使學(xué)生用餐行為的共性群體,實驗過程中,隨著聚類數(shù)k 的增大,樣本劃分會更加精細(xì),每個簇的聚合程度會逐漸提高,因此,利用手肘法可以確定k 值的繼續(xù)增大而趨于平緩的拐點。如圖3 所示,發(fā)現(xiàn)當(dāng)k=2 時的聚類效果較好,聚類中心的各項特征數(shù)據(jù)值如表3 所示。
圖3 “就餐天數(shù)” “就餐金額” 聚類不同k 取值Fig.3 "Dining days"and"dining expenditure"clusters with different k values
表3 就餐行為聚類中心Table 3 Dining behavior cluster centers
在根據(jù)就餐行為聚類中心結(jié)果中,通過對學(xué)生的“就餐天數(shù)” “就餐金額” 進(jìn)行聚類,可以有效衡量學(xué)生的消費活躍度和校園活躍度。其中,類別1 的學(xué)生有216 人,占比為36.42%;類別2 的學(xué)生有377 人,占比為63.58%。
類別1 的學(xué)生消費天數(shù)較多,消費金額也明顯高于其他聚類中心,處于此類別的學(xué)生屬于消費活躍度高的群體,他們在學(xué)校消費的天數(shù)和金額都很高。此外,不僅在消費活躍度上,在校園生活中也表現(xiàn)出極高的活躍度,屬于校園生活的重要參與者。往往這類學(xué)生都比較關(guān)注學(xué)校相關(guān)政策和服務(wù)設(shè)施的變化,在學(xué)校開展校園意見征集時,此類學(xué)生的意見將具備一定的參考性。此外,在此類消費活躍度高的學(xué)生中,會存在消費天數(shù)高于聚類中心,且消費金額低于聚類中心的情況,此類學(xué)生的日常飲食都會在食堂進(jìn)行,而且單次消費水平較低,可以考慮是否存在貧困情況,學(xué)校也應(yīng)重點關(guān)注此類學(xué)生,為其日常生活提供必要及時的保障。
類別2 的學(xué)生消費天數(shù)和消費金額都處于中等水平,也是占全體學(xué)生較大比例的一部分群體。這些學(xué)生消費活躍度適中,無法通過就餐天數(shù)和就餐金額判斷學(xué)生的貧困情況,可以結(jié)合學(xué)生的助學(xué)金申請情況,將消費活躍度適中,但就餐天數(shù)遠(yuǎn)高于聚類中心的學(xué)生判定是否為貧困生,為學(xué)校的助學(xué)工作提供參考。
5.2.2 基于消費穩(wěn)定性的群體畫像
對學(xué)生的 “早餐就餐率” “午餐就餐率” 和 “晚餐就餐率” 進(jìn)行聚類,實驗過程中,不斷調(diào)節(jié)k 值分別進(jìn)行實驗對比,發(fā)現(xiàn)當(dāng)k=3 時的聚類效果較好,如圖4 所示,聚類中心的各項特征數(shù)據(jù)值如表4 所示。
表4 就餐規(guī)律聚類中心Table 4 Clustering centers of dining patterns
圖4 “早餐就餐率” “午餐就餐率” 和 “晚餐就餐率”聚類不同k 取值Fig.4 "Breakfast rate","lunch rate"and"dinner rate"clusters with different k values
在根據(jù)就餐行為聚類中心結(jié)果中,通過對學(xué)生的“早餐就餐率” “午餐就餐率” 和 “晚餐就餐率” 進(jìn)行聚類,可以有效衡量學(xué)生的消費穩(wěn)定性和自律性。其中,類別1 的學(xué)生有65 人,占比為10.96%;類別2的學(xué)生有209 人,占比為35.25%;類別3 的學(xué)生有319 人,占比為53.79%。
類別1 的學(xué)生三餐就餐率都很高,和其他聚類中心相比,此類別的學(xué)生一般都有著健康的飲食習(xí)慣,在生活習(xí)慣上反映出較強的自律性。類別2 的學(xué)生午餐就餐率較高,但早餐和晚餐就餐率較低,此類別的學(xué)生通常就餐不規(guī)律,早餐就餐率較低的學(xué)生通常早起率也很低,缺乏生活習(xí)慣上的自我約束;晚餐就餐率較低的學(xué)生考慮存在節(jié)食的情況,應(yīng)當(dāng)鼓勵此類學(xué)生養(yǎng)成健康的飲食習(xí)慣,形成科學(xué)規(guī)律的生活作息。類別3 的學(xué)生三餐就餐率都很低,此類學(xué)生同樣存在校內(nèi)活動少的情況,存在校外就餐和訂外賣的情況,無法通過校園消費數(shù)據(jù)準(zhǔn)確推測其生活習(xí)慣。
基于多源數(shù)據(jù)融合的高校學(xué)生畫像構(gòu)建,結(jié)合學(xué)生三維行為特征,可以分別構(gòu)建學(xué)生個體畫像和學(xué)生群體畫像。針對面向的業(yè)務(wù)場景不同,學(xué)生畫像也有著不同方面的應(yīng)用表征。
(1)學(xué)生異常識別與預(yù)警。通過對學(xué)生個體畫像的觀測,可以對學(xué)生的消費、學(xué)業(yè)和社交3 個方面進(jìn)行初步評估,發(fā)現(xiàn)在學(xué)生畫像中表現(xiàn)出的優(yōu)勢值,為評獎評優(yōu)工作提供參考,為助學(xué)助困工作提供證明。對學(xué)業(yè)努力且學(xué)業(yè)優(yōu)秀,但違紀(jì)次數(shù)異常值的發(fā)現(xiàn),方便及時安排重點關(guān)注及談心談話。此外,通過對學(xué)生畫像動態(tài)觀測,對比變化及時預(yù)警,有利于學(xué)生工作部門和輔導(dǎo)員發(fā)現(xiàn)存在的學(xué)業(yè)和心理問題,及時幫助學(xué)生應(yīng)對在思想取向、價值引領(lǐng)、學(xué)習(xí)生活、擇業(yè)交友等方面的具體問題。
(2)學(xué)生群體關(guān)注與引導(dǎo)?;诰垲愃惴ǖ膶W(xué)生群體畫像構(gòu)建,聚焦于學(xué)生的消費行為,發(fā)現(xiàn)學(xué)生的典型特征區(qū)分,在消費穩(wěn)定性和活躍度上表現(xiàn)出明顯的群體屬性。在消費活躍畫像的結(jié)果分析中,學(xué)生被分類成典型的高活躍和低活躍兩個群體,給予低活躍群體更多關(guān)注。同理,在消費穩(wěn)定性的結(jié)果分析中,學(xué)生被分類成高穩(wěn)定、中穩(wěn)定和低穩(wěn)定3 個群體。在實際的學(xué)生管理工作中,學(xué)生工作部門和輔導(dǎo)員應(yīng)當(dāng)更多關(guān)注低活躍和低穩(wěn)定群體,發(fā)現(xiàn)學(xué)生存在的潛在不良消費習(xí)慣和飲食習(xí)慣,尤其是在疫情防控管理期間,對校內(nèi)消費畫像進(jìn)行觀察,更好的預(yù)判校內(nèi)與社會面的接觸風(fēng)險,對相關(guān)學(xué)生進(jìn)行及時有效地引導(dǎo)和規(guī)勸。
(3)校園資源規(guī)劃與調(diào)節(jié)。結(jié)合學(xué)生個體畫像和群體畫像的結(jié)果,學(xué)生的早晚餐習(xí)慣狀況欠佳。為養(yǎng)成良好的消費習(xí)慣和用餐習(xí)慣,可以利用學(xué)生畫像對校內(nèi)資源規(guī)劃進(jìn)行預(yù)判和規(guī)劃,如為學(xué)生消費較多的校區(qū)開設(shè)更多的就餐座位,延長就餐時間,減輕高峰就餐壓力。在消費較少的校區(qū)開設(shè)特色餐廳,引導(dǎo)學(xué)生分布就餐,利用分流緩解就餐壓力。另外,為提高學(xué)生早晚就餐率及就餐穩(wěn)定性,學(xué)校可以推出更多種類餐品,配合開展健康飲食習(xí)慣普及宣傳活動,幫助學(xué)生養(yǎng)成良好的就餐習(xí)慣,實現(xiàn)資源的科學(xué)、合理、人性規(guī)劃,為調(diào)節(jié)學(xué)校資源分配和決策提供具體參考。
本文以高校數(shù)據(jù)化管理為研究背景,對高校數(shù)據(jù)挖掘研究進(jìn)行以下創(chuàng)新。首先,本文嘗試?yán)靡环N新的數(shù)據(jù)融合視角,通過將顯性數(shù)據(jù)與隱性數(shù)據(jù)融合,并生成有關(guān)消費行為、學(xué)業(yè)行為和社交行為三維指標(biāo)。其次,為了解決以往研究中應(yīng)用場景單一問題,現(xiàn)利用用戶畫像的手段,實現(xiàn)多場景的融合。最后,本研究基于學(xué)生的真實數(shù)據(jù),在以往學(xué)生畫像的研究基礎(chǔ)上,利用SPSS 和K-means 聚類算法等方法,圈選不同特征的學(xué)生群體,同時利用學(xué)生共現(xiàn)網(wǎng)絡(luò),研究學(xué)生的社交關(guān)系,對某高校學(xué)生數(shù)據(jù)進(jìn)行分析,進(jìn)一步進(jìn)行了實證研究,刻畫大學(xué)生的 “消費-學(xué)業(yè)-社交” 畫像。在多源數(shù)據(jù)融合視角下構(gòu)建學(xué)生畫像,可以有效為高校教務(wù)、學(xué)工等部門決策提供依據(jù),尤其是后疫情時代對大學(xué)生畫像可以及時發(fā)現(xiàn)潛在的風(fēng)險隱患。研究分析發(fā)現(xiàn):①在學(xué)生個體畫像中,通過對學(xué)生畫像標(biāo)簽信息的解讀,可以對學(xué)生消費、學(xué)業(yè)和社交3個方面的情況進(jìn)行了解,實現(xiàn)學(xué)生個體的動態(tài)監(jiān)測;②在學(xué)生群體畫像中,通過聚類分析的方法,可以圈選不同特征的學(xué)生群體,尤其是在消費行為方面,深度分析學(xué)生的活躍度和穩(wěn)定度特征,既可以為宏觀層面的學(xué)生觀測提供依據(jù),又為探尋學(xué)生不同行為要素間的相關(guān)性提供了新的思路;③在應(yīng)用表征層面,融合多場景的學(xué)生畫像可以同時實現(xiàn)高校異常識別與預(yù)警、群體關(guān)注與引導(dǎo)和資源規(guī)劃與調(diào)節(jié),大大拓寬了研究的應(yīng)用場景,提升高校教育教學(xué)管理能效。
在大數(shù)據(jù)時代下,信息化的高校管理已成為當(dāng)代的研究重點,為了更好地實現(xiàn)高效、智能、多元化管理,學(xué)生畫像提供了一種新的研究思路。但受數(shù)據(jù)、算法的局限性,學(xué)生畫像的準(zhǔn)確性和易用性還有待提高,既有現(xiàn)實條件的約束,也有研究手段的不足,在未來的研究中,應(yīng)通過更廣地調(diào)研研來完善大學(xué)生畫像構(gòu)建體系,并不斷嘗試改進(jìn)更為合適的畫像技術(shù),將高校學(xué)生畫像應(yīng)用到更多業(yè)務(wù)場景中。