張娜 劉曉丹
摘? 要: “學生畫像”技術(shù)起源于電商領域的用戶畫像技術(shù),指通過記錄學生各種在校活動的數(shù)據(jù),對其進行分析并將信息抽象成標簽的過程。文章詳細說明了通過數(shù)據(jù)采集、數(shù)據(jù)預處理、數(shù)據(jù)分析、聚類建模來完成學生個體和集體畫像的技術(shù)實現(xiàn)過程;描述了將學生畫像結(jié)果應用于教學后,對教師快速識別后進學生,督促其養(yǎng)成良好的學習習慣,制定個性化的幫扶措施,改進教學設計等都有較大的幫助。
關(guān)鍵詞: 學生畫像; 數(shù)據(jù)分析; 聚類建模; 教學應用
中圖分類號:TP391? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2021)09-70-04
Abstract: "Student portrait" technology originated from the user portrait technology in the field of e-commerce, which refers to the process of recording the data of students' activities in school, analyzing them and abstracting the information into labels. This paper describes in detail the realization process of individual and collective portrait of students through data acquisition, data preprocessing, data analysis and clustering modeling; and describes that the application of student portrait results in the teaching is helpful for teachers to quickly identify backward students, urge them to develop good learning habits, formulate personalized help measures, and improve teaching design.
Key words: student portrait; data analysis; clustering modeling; application in teaching
0 引言
“學生畫像”起源于“用戶畫像”。用戶畫像技術(shù)來源于電商領域,利用用戶大量的消費行為數(shù)據(jù)將具體信息抽象成標簽,利用這些標簽將用戶形象具體化,從而為他們提供有針對性服務的過程即為“用戶畫像”。將“用戶畫像”技術(shù)引入到教育領域中,針對學生學習行為、日常生活數(shù)據(jù)所開展的數(shù)據(jù)分析研究及標簽化的過程被稱為“學生畫像”。本文重點研究基于學生學習數(shù)據(jù)的學生個體畫像和群體畫像的技術(shù)實現(xiàn)過程,并分析探討了學生畫像技術(shù)在教學中的具體應用。
1 學生畫像技術(shù)在教學中的研究實踐
以某高職院校學生“Python數(shù)據(jù)分析”課程真實學習過程數(shù)據(jù)為基礎,從數(shù)據(jù)分析、聚類建模中得出客觀結(jié)論,勾畫出學生個體及群體畫像。研究實踐過程如圖1所示。
1.1 數(shù)據(jù)采集
數(shù)據(jù)采集又稱為數(shù)據(jù)獲取,是數(shù)據(jù)分析工作的基礎,是指根據(jù)需求分析的要求提取、收集數(shù)據(jù)的過程[1]。
首先制定采集方案以保障采集的數(shù)據(jù)維度、規(guī)模、質(zhì)量等,符合后續(xù)數(shù)據(jù)分析和聚類建模的需要。采集方案如表1。
1.2 數(shù)據(jù)預處理
數(shù)據(jù)預處理是指對數(shù)據(jù)進行數(shù)據(jù)合并、數(shù)據(jù)清洗、數(shù)據(jù)標準化和數(shù)據(jù)變換,并直接用于數(shù)據(jù)分析、建立模型的技術(shù)實現(xiàn)過程總稱[1]。
⑴ 數(shù)據(jù)合并
將多個班級、多個平臺、多位教師采集到的數(shù)據(jù)根據(jù)后續(xù)分析建模需要進行合并。
⑵ 特征構(gòu)建
通過特征構(gòu)建將分散在不同字段中的信息加以組合,從中提煉出有價值的、可用的信息以便后續(xù)分析建模的效果能更真實有效反映學生的實際情況。特征構(gòu)建目標如表2所示。
各特征構(gòu)建方法如下:
① 出勤率=學生個人出勤次數(shù)/總出勤次數(shù);
② 作業(yè)提交率=學生個人提交次數(shù)/總布置次數(shù);
③ 測驗參與率=學生個人測驗次數(shù)/總測驗次數(shù);
④ 視頻資源學習率=學生個人觀看視頻時長(秒)/視頻總時長(秒);
⑤ 非視頻資源學習率=學生個人查閱資源數(shù)量/資源總數(shù)量;
⑥ 其他活動參與率=學生個人參與次數(shù)/總次數(shù);
⑦ 作業(yè)平均成績=所有作業(yè)成績的平均值(百分制);
⑧ 作業(yè)平均提前時長=所有作業(yè)提前時長的平均值(將未提交作業(yè)的提前完成時長記為-100小時;每次作業(yè)提前時長=每次作業(yè)截止時間-每次作業(yè)提交時間。);
⑨ 測驗平均成績=所有測驗成績的平均值(百分制)。
經(jīng)過特征構(gòu)建環(huán)節(jié),整理的數(shù)據(jù)結(jié)構(gòu)為(95,14)。
⑶ 數(shù)據(jù)清洗
數(shù)據(jù)清洗主要是對缺失、重復、異常等數(shù)據(jù)進行處理,以避免這些臟數(shù)據(jù)對后續(xù)分析建模產(chǎn)生不利影響。經(jīng)過數(shù)據(jù)清洗后的數(shù)據(jù)結(jié)構(gòu)為(92,14)。
⑷ 數(shù)據(jù)標準化
實際采集的數(shù)據(jù),不同特征之間往往具有不同量綱。而數(shù)據(jù)建模時主要是對空間距離的計算或是采用梯度下降法,量綱差距較大將影響分析建模結(jié)果的準確性。數(shù)據(jù)標準化就是消除不同特征數(shù)據(jù)之間的量綱差異的過程[1]。采用離差標準化方法,將各特征數(shù)據(jù)值映射到[0,1]之間進行后續(xù)分析建模。
1.3 學生畫像
⑴ 數(shù)據(jù)分析實現(xiàn)學生個體畫像
學生個體畫像,主要從每個學生的總體表現(xiàn)、作業(yè)測驗成績趨勢、學習經(jīng)驗值累積分布、完成作業(yè)時長對比等幾個方面進行。以抽選三位同學的數(shù)據(jù)進行分析畫像為例,其雷達圖展示總體表現(xiàn)的對比情況如圖2所示。
通過數(shù)據(jù)分析及可視化的過程,客觀梳理出三位學生的特征標簽,從而實現(xiàn)其個體畫像:
l 趙某某,女,學習態(tài)度積極,自覺性高、自律性強,有一定的創(chuàng)新精神,成績優(yōu)異……
l 李某某,男,學習缺乏自覺自律性,自學能力不足,壓力轉(zhuǎn)化能力較弱,在督促下可按時完成學習任務……
l 康某某,男,學習態(tài)度不端正,自覺性、自律性較差,壓力轉(zhuǎn)化能力弱,缺乏學習韌性,外力督促效果不佳,掛科幾率高……
⑵ 聚類建模實現(xiàn)學生群體畫像
通過聚類建模劃分學生群體并分析特征,實現(xiàn)學生群體畫像。這一過程主要包括確定聚類數(shù)、聚類建模、群體畫像三個階段。
由于聚類屬于無監(jiān)督學習,原始數(shù)據(jù)中沒有已知確定的類別標簽,所以確定聚類數(shù)對聚類的結(jié)果影響很大[2]。結(jié)合拐肘[3]、輪廓系數(shù)評價[1]和Calinski-Harabasz指數(shù)[1]三種方法,判定當聚類數(shù)為2時聚類效果最佳[4]。
采用K-means方法實現(xiàn)聚類,為每一個學生進行類別標記,學生群體特征分布雷達圖如圖3,采用TSNE[5]對數(shù)據(jù)降維后繪制學生群體散點圖如圖4。
綜合各指標對學生群體畫像為:
學生群體1 后進學生群體,掛科幾率較高,占學生總?cè)藬?shù)的25%,其中男生占比87%。他們存在學習焦慮,但學習態(tài)度不積極,自覺性、自律性較差,學習能力不足,學習效果欠佳……
學生群體2 合格及優(yōu)秀學生群體,占學生總?cè)藬?shù)的75%。群體學生學習態(tài)度積極,能主動參與各項學習活動。他們有一定的學習能力,平時學習較為扎實……
2 學生畫像技術(shù)在教學中的應用
完成對學生的個體和群體畫像后,分析畫像并將結(jié)論應用于教學,可以幫助教師因材施教,更好的開展個性化教學工作。
2.1 后進學生識別
傳統(tǒng)教學中,課堂表現(xiàn)沒有“特點”,不愿主動與教師交流的學生,很難得到教師的關(guān)注,而其中隱藏著后進生。通過學生群體畫像,每一位學生都被類別標記,教師可以快速識別出后進學生,以開展針對性幫扶活動。
2.2 學習習慣養(yǎng)成
通過學生群體畫像可以看出,出勤率低,不提交作業(yè)或作業(yè)提交延遲時間較長,很少參與各項學習活動的學生,掛科風險較高。而這些行為都屬于學習習慣范疇,教師如能采取一定措施在課程學習中全程干涉他們的學習行為,改進學習習慣,將有助于逐步提高成績,在多門課程中都降低掛科風險。
2.3 幫扶措施制定
依據(jù)畫像結(jié)果,制定個性化的幫扶措施,真正達到幫扶提升學習的效果。例如對于學習態(tài)度端正但知技理解能力較弱的學生,可以安排成績優(yōu)異的同學進行“一幫一”、教師“開小灶”;對于知技學習較快但缺乏韌性的同學,可以強化督促機制,安排組成學習小組互相督促,教師也每次作業(yè)必關(guān)注,及時提醒等;對于學習習慣不好的學生,可以與其他授課教師交流并提請共同關(guān)注學生的學習行為,改進學習習慣;對于個別因為社會活動較多占用了時間而影響學習的學生,調(diào)整或減少社會活動的參與等。只有真正深入分析出每一個后進學生的后進原因,才能制定出有效幫扶措施。
2.4 教學設計改進
在學生畫像過程中,發(fā)現(xiàn)會出現(xiàn)一些共性問題,這些往往是授課計劃安排不合理、教學設計不夠完善等原因造成的。比如學生測試反饋完成時間遠遠小于規(guī)定時間,說明題目難度較低或數(shù)量不足,可以改進。又比如一次作業(yè)的提交時間普遍較晚,成績較低,說明大部分學生對所學內(nèi)容沒有掌握,需要再講。再比如在兩個基礎相似的班級中采用不同的教學模式和方法得到的教學效果有較大差異,就可以基本確定應在以后的教學中采用較優(yōu)模式進行授課等。
3 結(jié)束語
“學生畫像”技術(shù)起源于用戶畫像技術(shù),指通過在校各種活動的數(shù)據(jù)記錄對學生進行數(shù)據(jù)分析并將信息抽象成標簽的過程。學生畫像技術(shù)應用于教學主要是通過畫像技術(shù)提取的標簽準確形象的認知學生,從而為學生提供更有針對性的學習服務[6]。
實踐研究表明,按照數(shù)據(jù)采集、數(shù)據(jù)預處理、數(shù)據(jù)分析、聚類建模的流程可以較好完成學生個體和群體畫像。利用學生畫像技術(shù)對教師快速識別后進學生,督促其養(yǎng)成良好的學習習慣,制定個性化的幫扶措施,改進教學設計等方面都有較大的幫助。
學生畫像技術(shù)屬于教育大數(shù)據(jù)研究領域,學生的各種行為數(shù)據(jù)和分析建模的相關(guān)算法應用都對其有著較大影響。因此,采集更多維度、更大規(guī)模的數(shù)據(jù),構(gòu)建更符合建模需要的高質(zhì)量特征以及深入研究并選擇效果更佳的聚類算法是我們后續(xù)的工作重點。
參考文獻(References):
[1] 黃紅梅,張良均.Python數(shù)據(jù)分析與應用[M].人民郵電出版社,2018.
[2] 高揚,衛(wèi)崢,尹會生.白話大數(shù)據(jù)與機器學習[M].機械工業(yè)出版社,2016.
[3] 闌星月.肘方法確定聚類數(shù)k_機器學習07——聚類算法,https://blog.csdn.net/weixin_30349485/article/details/112458894,CSDN,2021.1.
[4] 佘本國,孫玉林,Python在機器學習中國的應用[M].中國水利水電出版社,2019.
[5] 算法與數(shù)學之美,簡述多種降維算法,https://www.sohu.com/a/255708416_701814,搜狐,2018.9.
[6] 葛曉濱.基于畫像技術(shù)對學生實現(xiàn)精準分析和服務[J].安徽建筑大學學報,2019.6.