摘? 要:大學(xué)生個(gè)體多樣性的增強(qiáng)使得高校的教育管理面臨前所未有的挑戰(zhàn)。在教育大數(shù)據(jù)環(huán)境下,如何利用數(shù)據(jù)挖掘技術(shù)從海量校園行為數(shù)據(jù)中挖掘出有價(jià)值的信息變得尤為重要。針對(duì)校園行為數(shù)據(jù)存在稀疏性的問(wèn)題,提出一種基于協(xié)同過(guò)濾與概率主題模型的大學(xué)生行為模式挖掘方法;采用Hawkes過(guò)程模擬產(chǎn)生事件并使用自定義指標(biāo)評(píng)估模型性能,結(jié)果表明模型能有效挖掘出大學(xué)生行為模式。最后從同伴數(shù)量與類(lèi)別選擇的角度分析了大學(xué)生行為模式。
關(guān)鍵詞:協(xié)同過(guò)濾;概率主題模型;校園行為;行為模式;Hawkes過(guò)程
中圖分類(lèi)號(hào):TP391.1;G647? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2096-4706(2023)24-0045-04
Research on College Students' Behavior Pattern Mining Based on Collaborative Filtering and Probabilistic Topic Model
LIU Tao
(School of Computer and Big Data Science, Jiujiang University, Jiujiang? 332005, China)
Abstract: The enhancement of individual diversity among college students poses unprecedented challenges to the education management of universities. In the education big data environment, it has become particularly important to use data mining technology to extract valuable information from massive campus behavior data. A method for mining college student behavior patterns based on collaborative filtering and probabilistic topic models is proposed to address the sparsity of campus behavior data; the Hawkes process is used to simulate the generation of events and custom metrics are used to evaluate the performance of the model. The results show that the model can effectively mine behavior patterns of college students. Finally, the behavioral patterns of college students are analyzed from the perspectives of peer quantity and category selection.
Keywords: collaborative filtering; probabilistic topic model; campus behavior; behavior pattern; Hawkes process
0? 引? 言
隨著云計(jì)算、大數(shù)據(jù)和互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,教育信息化已經(jīng)成為當(dāng)今高校教學(xué)管理的必要措施和手段[1]。智慧校園的建設(shè)得到了大幅提升,我國(guó)大多數(shù)高校已構(gòu)建了功能齊全的智慧校園平臺(tái)。該平臺(tái)在為廣大學(xué)生提供學(xué)習(xí)和生活便利的同時(shí),也產(chǎn)生了海量的時(shí)空行為數(shù)據(jù)。如何從校園行為數(shù)據(jù)中提取有價(jià)值的信息,為促進(jìn)學(xué)生身心的健康發(fā)展提供適時(shí)的引導(dǎo)和幫助,使高校實(shí)現(xiàn)更科學(xué)化、智能化的教學(xué)管理,是當(dāng)前教育信息化快速推進(jìn)過(guò)程中面臨的機(jī)遇與挑戰(zhàn)之一[2]。
1? 行為模式挖掘研究現(xiàn)狀
已有許多國(guó)內(nèi)外學(xué)者利用移動(dòng)數(shù)據(jù)(如手機(jī)定位數(shù)據(jù)等)來(lái)提取人類(lèi)行為模式。Song等較早發(fā)現(xiàn)人類(lèi)運(yùn)動(dòng)模式具有較高的可預(yù)測(cè)性[3]。自此以后,該領(lǐng)域的研究取得了長(zhǎng)足進(jìn)展。基于概率主題模型提取人類(lèi)行為模式是主流方法之一[4]。一些學(xué)者將活動(dòng)行為視為詞語(yǔ),將潛在行為模式視為主題,提取個(gè)人潛在的行為模式。楊翔等注重個(gè)人情感與興趣模式的挖掘,提出構(gòu)建個(gè)人潛在情感與興趣模型的方法[5]。李琰等利用時(shí)空數(shù)據(jù)提出一種基于作者主題模型(ATM)和輻射模型(RM)的用戶(hù)位置預(yù)測(cè)模型[6]。還有一些方法基于行為相似性,例如,受個(gè)人行為與他人密切相關(guān)這一事實(shí)的啟發(fā),Dao等提出基于行為相似性方法構(gòu)建行為模式[7]。
大學(xué)生是一類(lèi)活動(dòng)范圍相對(duì)集中的特殊群體。研究大學(xué)生在校行為模式已經(jīng)引起眾多領(lǐng)域?qū)W者的重視。杜長(zhǎng)沖等研究了大學(xué)生校園行為的特點(diǎn)[8];謝文武等研究了大學(xué)生消費(fèi)行為與成績(jī)的關(guān)聯(lián)性[9];姜楠等利用數(shù)據(jù)挖掘技術(shù)分析學(xué)生消費(fèi)及其學(xué)習(xí)行為的關(guān)系[10];田雨露等通過(guò)門(mén)禁、簽到和消費(fèi)等記錄,分析學(xué)生異常行為并進(jìn)行預(yù)警[11]。
以上行為模式挖掘方法雖然在分析和提取人類(lèi)行為模式上取得不同程度的成功,但是依賴(lài)較密集數(shù)據(jù)集的特點(diǎn)限制了這些方法的實(shí)際應(yīng)用。例如,文獻(xiàn)[7]中利用用戶(hù)時(shí)空上的密集位置信息推斷用戶(hù)的活動(dòng)行為,在稀疏數(shù)據(jù)集上效果不佳。校園行為數(shù)據(jù)量具有既巨大(宏觀)又稀疏(微觀)的特點(diǎn),而造成數(shù)據(jù)稀疏的主要原因有:
1)根據(jù)學(xué)生的刷卡行為記錄其位置信息,無(wú)法實(shí)時(shí)記錄學(xué)生的位置信息。
2)有些人為造成的虛假信息,例如學(xué)生出入宿舍和圖書(shū)館時(shí),跟隨前面學(xué)生出入門(mén)禁,沒(méi)有留下刷卡痕跡。為此,僅從個(gè)人的稀疏位置信息中提取學(xué)生行為模式會(huì)導(dǎo)致過(guò)擬合問(wèn)題,可能得到不完整甚至錯(cuò)誤的行為模式。針對(duì)這些問(wèn)題,需要借助一些協(xié)同提取的方法來(lái)還原整體樣本。
本文利用校園行為數(shù)據(jù),進(jìn)行如下研究:
1)針對(duì)校園行為數(shù)據(jù)存在稀疏性的問(wèn)題,提出基于協(xié)同過(guò)濾與概率主題模型的大學(xué)生行為模式挖掘方法,并評(píng)估模型的有效性。
2)從同伴數(shù)量與類(lèi)別選擇的角度分析大學(xué)生行為模式。
2? 模型構(gòu)建
模型構(gòu)建過(guò)程如下:
1)獲取校園行為數(shù)據(jù)并進(jìn)行預(yù)處理。
2)構(gòu)建基于協(xié)同過(guò)濾與概率主題模型的大學(xué)生行為模式模型并求解模型參數(shù),得到同伴關(guān)系網(wǎng)絡(luò)(Campus Social Network, CSN)。
3)采用Hawkes過(guò)程模擬產(chǎn)生學(xué)生刷卡事件,采用多重假設(shè)檢驗(yàn)方法得到統(tǒng)計(jì)驗(yàn)證網(wǎng)絡(luò)(Statistical Validation Network, SVN),利用自定義指標(biāo)和二次指派過(guò)程(Quadratic Assignment Procedure, QAP)方法評(píng)估模型性能。
4)從同伴數(shù)量與類(lèi)別選擇方面分析大學(xué)生行為模式。
2.1? 數(shù)據(jù)獲取與預(yù)處理
數(shù)據(jù)來(lái)自某綜合性大學(xué)的智慧校園平臺(tái),主要由學(xué)生基本信息和刷卡信息組成?;拘畔▽W(xué)生的學(xué)號(hào)、院系、班級(jí)、年級(jí)和性別等。刷卡信息包括學(xué)生在食堂就餐、超市消費(fèi)、校醫(yī)院就醫(yī)、圖書(shū)館看書(shū)和宿舍出入等信息。測(cè)試對(duì)象為該校計(jì)算機(jī)學(xué)院623名學(xué)生,校園行為數(shù)據(jù)由觀測(cè)周期(2021年9月1日至2022年8月30日)內(nèi)的733 396條刷卡信息組成。
為了保護(hù)隱私,本文對(duì)刷卡信息進(jìn)行學(xué)號(hào)重排、時(shí)間平移等預(yù)處理,只保留學(xué)生編號(hào)、刷卡地點(diǎn)和刷卡時(shí)間等信息。定義學(xué)生集合為S = {s1,s2,…,sN},其中N表示學(xué)生總數(shù)。根據(jù)學(xué)生刷卡地點(diǎn)獲取學(xué)生的活動(dòng)行為,定義學(xué)生在校行為集合為B = {Bcan,Bsup,Bdor,Blib,Bcla},其中5種行為分別表示學(xué)生在食堂、超市、宿舍、圖書(shū)館和教室刷卡。按等時(shí)間隔將一天劃分為M個(gè)時(shí)隙T = {t1,t2,…,tM},將刷卡時(shí)間映射到相應(yīng)的時(shí)隙。
將一條刷卡信息視為一個(gè)刷卡事件,用三元組(s(i),b(i),t(i))表示,其中s(i) ∈ S、b(i) ∈ B和t(i)∈ M分別表示第i個(gè)刷卡事件中的學(xué)生、活動(dòng)行為和時(shí)隙。所有刷卡事件構(gòu)成集合D = {(s(i),b(i),t(i))},i ∈ {0,…,H},其中H表示刷卡事件總數(shù)。
2.2? 構(gòu)建與求解模型
學(xué)生行為對(duì)(s,b)表示學(xué)生s發(fā)生活動(dòng)行為b。潛在向量Z = {z1,z2,L,zK}表示潛在的行為模式集合,其中K表示潛在行為模式的個(gè)數(shù)。將學(xué)生行為對(duì)和時(shí)隙映射至同一個(gè)潛在行為模式空間,使用概率模型計(jì)算“學(xué)生行為對(duì)—潛在行為模式—時(shí)隙”三者的關(guān)系,構(gòu)造基于協(xié)同過(guò)濾與概率主題模型的行為模式模型(記為CF-PTM),其形象化表示如圖1所示。
設(shè)隨機(jī)變量X i表示第i個(gè)刷卡事件。當(dāng)X i = 1時(shí),學(xué)生s(i)在t(i)時(shí)隙發(fā)生活動(dòng)行為b(i);當(dāng)X i = 0時(shí),學(xué)生s(i)在t(i)時(shí)隙沒(méi)有發(fā)生活動(dòng)行為b(i)。ps(i),b(i) ∈ RK和qt(i) ∈ RK分別表示學(xué)生行為對(duì)(s(i),b(i))和時(shí)隙t(i)的潛在向量。隨機(jī)變量X i的條件概率為:
其中,f (·)表示sigmoid函數(shù)。對(duì)于刷卡事件集合D中的H個(gè)事件,似然函數(shù)為:
其中,P ∈ R K×L表示所有學(xué)生行為對(duì)的潛在向量,Q ∈ R K×M表示所有時(shí)隙t的潛在向量。
設(shè)L(P,Q)表示式(2)的負(fù)對(duì)數(shù)似然函數(shù),則轉(zhuǎn)化最優(yōu)化問(wèn)題為:
為了避免過(guò)擬合問(wèn)題,需要分別對(duì)psb和qt進(jìn)行規(guī)則化。采用|| psb ||1對(duì)psb規(guī)則化,保證了psb的稀疏性。采用? 對(duì)qt規(guī)則化,保證了相鄰時(shí)隙行為模式變化緩慢。本文采用傳統(tǒng)的梯度下降法求解以上最優(yōu)化問(wèn)題。對(duì)于某學(xué)生s,其潛在的行為模式為{ psb | b ∈ B}。
3? 模型有效性評(píng)估
對(duì)模型性能的評(píng)估可分兩個(gè)階段進(jìn)行:
1)將Hawkes過(guò)程模擬產(chǎn)生的刷卡事件與真實(shí)刷卡事件進(jìn)行對(duì)比,利用自定義指標(biāo)評(píng)估模型的性能。
2)將利用模型得到的同伴關(guān)系網(wǎng)絡(luò)(CSN)與多重假設(shè)檢驗(yàn)方法得到的統(tǒng)計(jì)驗(yàn)證網(wǎng)絡(luò)(SVN)進(jìn)行對(duì)比,采用QAP方法計(jì)算CSN和SVN的相關(guān)性。
3.1? Hawkes過(guò)程模擬方法
由于缺乏大學(xué)生同伴關(guān)系的真實(shí)信息,不能直接評(píng)估模型的性能,本文通過(guò)模型的預(yù)測(cè)性能間接評(píng)估模型的性能。采用5-折交叉驗(yàn)證(5-fold Cross Validation, 5-CV)方法將原始數(shù)據(jù)按照時(shí)間觀測(cè)窗口[0,T4)平均分成5個(gè)子集,首次選擇[0,T3)內(nèi)所有學(xué)生的刷卡事件作為訓(xùn)練集,[T3,T4)內(nèi)所有學(xué)生的刷卡事件作為驗(yàn)證集,然后利用訓(xùn)練集數(shù)據(jù)估計(jì)模型的參數(shù),模擬產(chǎn)生[T3,T4)內(nèi)所有學(xué)生的刷卡事件,以此類(lèi)推進(jìn)行5-折交叉驗(yàn)證。最后采用自定義指標(biāo)求得5次驗(yàn)證結(jié)果的平均數(shù)作為此5-CV的最終性能指標(biāo),用于評(píng)估模型的預(yù)測(cè)性能,自定義指標(biāo)如下:
1)位置準(zhǔn)確率r = ei / ni,i ∈ {0,…,4},其中ni表示子集i真實(shí)刷卡事件的個(gè)數(shù),ei表示模擬產(chǎn)生的刷卡事件與真實(shí)刷卡事件的對(duì)比,時(shí)間和位置相吻合的刷卡事件個(gè)數(shù)。
2)共現(xiàn)準(zhǔn)確率γ = hi / mi,i ∈ {0,…,4},其中mi表示子集i真實(shí)刷卡事件的學(xué)生發(fā)生共現(xiàn)的次數(shù),hi表示模擬產(chǎn)生的刷卡事件與真實(shí)刷卡事件的對(duì)比,共現(xiàn)相吻合的次數(shù)。
采用5-折交叉驗(yàn)證的方式分別對(duì)733 396條真實(shí)刷卡記錄以及368 129條共現(xiàn)記錄進(jìn)行Hawkes過(guò)程模擬,然后將模擬產(chǎn)生的刷卡事件與真實(shí)的刷卡事件進(jìn)行對(duì)比。如表1所示,分別得到5次驗(yàn)證結(jié)果,計(jì)算平均位置準(zhǔn)確率和平均共現(xiàn)準(zhǔn)確率分別為0.909和0.949,這表明模型具有較高的準(zhǔn)確性。
3.2? 多重假設(shè)檢驗(yàn)方法
多重假設(shè)檢驗(yàn)是將多個(gè)單重假設(shè)檢驗(yàn)作為一個(gè)整體(稱(chēng)為一個(gè)檢驗(yàn)族),對(duì)此檢驗(yàn)族中的每個(gè)假設(shè)同時(shí)進(jìn)行檢驗(yàn)的方法。對(duì)于所有學(xué)生對(duì),多重檢驗(yàn)族{Hij}i≠j共同構(gòu)成一個(gè)檢驗(yàn)族,單個(gè)假設(shè)檢驗(yàn)Hij對(duì)應(yīng)單重假設(shè)檢驗(yàn) ,其中原假設(shè)? 表示學(xué)生i和j在[0,T)內(nèi)發(fā)生共現(xiàn)是巧合的。按等時(shí)間隔將一天劃分為M個(gè)時(shí)隙T,對(duì)每一個(gè)刷卡事件將刷卡時(shí)間映射到相應(yīng)時(shí)隙。學(xué)生刷卡事件可以用二分圖來(lái)描述,如圖2所示。
設(shè)時(shí)隙-位置集合有NLS個(gè)時(shí)隙-位置對(duì),學(xué)生i和j刷卡次數(shù)分別為Ni、Nj,共現(xiàn)次數(shù)為Nij。在原假設(shè)? 成立的條件下,學(xué)生i和j共現(xiàn)次數(shù)服從超幾何分布,共現(xiàn)次數(shù)大于等于Nij的概率為 ,其中 。利用上述方法計(jì)算所有學(xué)生對(duì)之間的p(Nij)值,采用Bonferroni校正法比較p(Nij)與顯著水平s = 0.01/N的大小,其中N表示網(wǎng)絡(luò)中的連邊數(shù)。如果p(Ni)<s,則拒絕原假設(shè),學(xué)生i和j在刷卡過(guò)程中發(fā)生共現(xiàn)是社交關(guān)系驅(qū)動(dòng)的,以此類(lèi)推,驗(yàn)證網(wǎng)絡(luò)中的所有連邊得到SVN。最后采用QAP方法計(jì)算模型得到同伴關(guān)系網(wǎng)絡(luò),統(tǒng)計(jì)驗(yàn)證網(wǎng)絡(luò)的相關(guān)性。
實(shí)驗(yàn)結(jié)果如表2所示,對(duì)于623名學(xué)生在觀測(cè)周期內(nèi)產(chǎn)生的733 396條校園行為數(shù)據(jù),通過(guò)多重假設(shè)檢驗(yàn)方法和CF-PTM模型分別挖掘得到7 635條和7 879條連邊。經(jīng)過(guò)分析可知:
1)相較于檢驗(yàn)條件過(guò)于嚴(yán)苛的SVN網(wǎng)絡(luò),CSN網(wǎng)絡(luò)成功挖掘出更多的同伴關(guān)系。
2)采用QAP方法進(jìn)行相關(guān)性分析發(fā)現(xiàn),在SVN已被證實(shí)有效的情況下[12],CSN與SVN的正相關(guān)性高達(dá)0.956(顯著性水平P<0.001)。以上兩點(diǎn)表明CSN挖掘出更多有效的同伴關(guān)系。
4? 行為模式分析
行為模式是行為活動(dòng)發(fā)生、進(jìn)行和完成的某種固有方式,展現(xiàn)了人們的行動(dòng)特點(diǎn)和行為邏輯。大學(xué)生行為模式是指大學(xué)生在校園日常生活、學(xué)習(xí)等活動(dòng)過(guò)程中所建立的一種行為內(nèi)容與方式定型化、活動(dòng)空間分布規(guī)律化的模式。同伴活動(dòng)是學(xué)生行為模式的一種直觀反映。
根據(jù)同伴數(shù)量進(jìn)行聚類(lèi)得到三個(gè)分別包含31人、136人和456人的社團(tuán)群體。從社會(huì)行為學(xué)角度出發(fā),學(xué)生被分為開(kāi)放型、謹(jǐn)慎型和封閉型三種行為模式。如圖3(a)所示,僅有4.98%的學(xué)生屬于開(kāi)放型的交友模式,有21.86%的學(xué)生在選擇交往對(duì)象時(shí)比較謹(jǐn)慎,絕大部分學(xué)生處于較封閉的狀態(tài)。這種情況被解釋為,當(dāng)今大學(xué)生更多時(shí)間處于獨(dú)處狀態(tài),交往意愿有減弱傾向,存在導(dǎo)致交友障礙的風(fēng)險(xiǎn)。
從同伴類(lèi)別的選擇中發(fā)現(xiàn),學(xué)業(yè)相似的學(xué)生更傾向于建立同伴關(guān)系;大多數(shù)學(xué)生更愿意選擇趣味相投的學(xué)生作為交往對(duì)象;情感也是影響學(xué)生選擇交往對(duì)象的重要因素。基于此,將學(xué)生分為學(xué)業(yè)型、趣緣型和情感型三種行為模式。如圖3(b)所示,三種模式占比分別為26.77%、43.52%和29.71%,這表明趣緣型學(xué)生在學(xué)生群體中占主導(dǎo)地位。
5? 結(jié)? 論
針對(duì)大學(xué)生在校行為模式挖掘過(guò)程中面臨的難題,提出基于協(xié)同過(guò)濾與概率主題模型的模型并實(shí)現(xiàn)大學(xué)生在校行為模式的有效挖掘。通過(guò)研究大學(xué)生校園行為的參與對(duì)象、參與時(shí)間和參與地點(diǎn)等諸多因素之間的聯(lián)系,探究大學(xué)生在校行為模式提取的新方法。該研究符合當(dāng)前教育信息化倡導(dǎo)的新理念。從教育管理層面來(lái)講,將挖掘出的大學(xué)生行為模式反饋給教育管理者,可以及時(shí)給予學(xué)生合理的建議和有效的幫助。對(duì)于個(gè)體而言,行為模式可以定量評(píng)價(jià)學(xué)生的交往能力、心理健康狀況等。對(duì)于“離群點(diǎn)”(孤立學(xué)生),行為模式是一個(gè)很好的判別工具,可及時(shí)發(fā)現(xiàn)此類(lèi)學(xué)生并進(jìn)行干預(yù)。對(duì)群體而言,可以分析學(xué)生的交友傾向、關(guān)系演化等。因此,該研究具有一定的現(xiàn)實(shí)意義。
參考文獻(xiàn):
[1] 翟雪松,朱雨萌,張紫徽,等.高校教育信息化治理能力評(píng)價(jià):界定、實(shí)踐與反思[J].開(kāi)放教育研究,2021,27(5):24-33.
[2] 杜婧敏,方海光,李維楊,等.教育大數(shù)據(jù)研究綜述 [J].中國(guó)教育信息化,2016(19):1-4.
[3] SONG C M,QU Z,BLUMM N,et al. Limits of predictability in human mobility [J].Science,2010,327(5968):1018-1021.
[4] 韓亞楠,劉建偉,羅雄麟.概率主題模型綜述 [J].計(jì)算機(jī)學(xué)報(bào),2021,44(6):1095-1139.
[5] 楊翔.基于概率主題模型的作者情感分析 [D].長(zhǎng)沙:湖南大學(xué),2019.
[6] 李琰,劉嘉勇.基于作者主題模型和輻射模型的用戶(hù)位置預(yù)測(cè)模型 [J].計(jì)算機(jī)應(yīng)用,2018,38(4):939-944.
[7] DAO T N,LE D V,YOON S. Predicting Human Location Using Correlated Movements [J].Electronics,2019,8(1):54.
[8] 杜長(zhǎng)沖.基于校園一卡通數(shù)據(jù)系統(tǒng)的學(xué)生行為分析研究 [J].讀與寫(xiě):教育教學(xué)刊,2019,16(6):27-28.
[9] 謝文武,胡勝,龍?jiān)从?,?高校學(xué)生餐飲消費(fèi)與學(xué)習(xí)成績(jī)的相關(guān)性分析 [J].湖南理工學(xué)院學(xué)報(bào):自然科學(xué)版,2018,31(4):27-31+82.
[10] 姜楠,許維勝.基于校園一卡通數(shù)據(jù)的學(xué)生消費(fèi)及學(xué)習(xí)行為分析 [J].微型電腦應(yīng)用,2015,31(2):35-38.
[11] 田雨露.基于校園一卡通系統(tǒng)的決策支持和數(shù)據(jù)分析研究 [D].北京:北京化工大學(xué),2019.
[12] LIU T,YANG L T,LIU S Y,et al. Inferring and Analysis of Social Networks Using RFID Check-in Data in China [J].PLoS ONE,2017,12(6):e0178492.
作者簡(jiǎn)介:劉濤(1981—),男,漢族,湖北棗陽(yáng)人,講師,博士研究生,研究方向:教育大數(shù)據(jù)、行為模式挖掘。
收稿日期:2023-05-05
基金項(xiàng)目:江西省教育科學(xué)“十三五”規(guī)劃2020年度課題(20YB206);江西省高校人文社會(huì)科學(xué)研究2021年度課題(JY21225)