董瀟瀟 胡 延 陳彥萍
大數(shù)據(jù)時(shí)代,高校有著豐富的數(shù)據(jù)來源。校園數(shù)據(jù)即來自于校園的學(xué)生行為數(shù)據(jù),是指學(xué)生在學(xué)校進(jìn)行學(xué)習(xí)、生活等活動(dòng)時(shí)留下的數(shù)據(jù),隨著智慧校園的興起,使得這些數(shù)據(jù)被存儲(chǔ)在各種平臺(tái)上。面對(duì)海量的校園數(shù)據(jù),以及數(shù)據(jù)挖掘技術(shù)在各方面的廣泛應(yīng)用,教育數(shù)據(jù)挖掘逐漸成為各高校研究的重點(diǎn),利用校園數(shù)據(jù)解決一些不可見問題,從中挖掘出學(xué)生的一些特征和共性,從而對(duì)推進(jìn)教務(wù)和教學(xué)管理工作提供信息支持。
在2006年ITS會(huì)議的教育數(shù)據(jù)挖掘EDM工作組會(huì)議前言中,教育數(shù)據(jù)挖掘被定義為:“將教育系統(tǒng)中的原始數(shù)據(jù)轉(zhuǎn)換成有用信息的過程,這個(gè)過程被用于提供設(shè)計(jì)決策和回答研究問題”[1]。教育數(shù)據(jù)挖掘研究從此得到開展,文獻(xiàn)[2]介紹了美國教育數(shù)據(jù)分析公司自成立以來就為大學(xué)提供數(shù)據(jù)分析云平臺(tái)和服務(wù),以幫助高校提升學(xué)生學(xué)習(xí)效果和保有率;文獻(xiàn)[3~5]詳細(xì)介紹了關(guān)聯(lián)規(guī)則挖掘算法學(xué)生成績分析中的具體應(yīng)用,得出課程設(shè)置與課程成績之間存在著一定的聯(lián)系;文獻(xiàn)[6~9]通過將數(shù)據(jù)挖掘技術(shù)應(yīng)用到大學(xué)生校園消費(fèi)數(shù)據(jù),挖掘出了對(duì)高校貧困生認(rèn)定有輔助作用的信息;文獻(xiàn)[10~11]提出了通過分析校園數(shù)據(jù),預(yù)測(cè)學(xué)生成績,發(fā)掛科預(yù)警,提高了教學(xué)質(zhì)量;鑒于以上對(duì)校園數(shù)據(jù)的分析均是對(duì)單一行為數(shù)據(jù)的分析,很少涉及利用多種校園數(shù)據(jù)對(duì)學(xué)生的綜合分析,大學(xué)生行為畫像,借助大學(xué)生的各種校園數(shù)據(jù)信息,根據(jù)學(xué)生的基本屬性、學(xué)習(xí)行為、消費(fèi)行為等信息,為每個(gè)學(xué)生打標(biāo)簽,對(duì)學(xué)生行為進(jìn)行客觀綜合的描述,抽象出一個(gè)標(biāo)簽化的學(xué)生模型。
大學(xué)生行為畫像是利用校園數(shù)據(jù)將學(xué)生行為信息標(biāo)簽化。通過收集大學(xué)生相關(guān)信息數(shù)據(jù),構(gòu)建大學(xué)生行為畫像,從而對(duì)大學(xué)生以綜合全面的角度進(jìn)行分析,進(jìn)一步準(zhǔn)確了解大學(xué)生學(xué)習(xí)和生活中存在的問題。對(duì)行為畫像進(jìn)行構(gòu)建,主要流程有基礎(chǔ)數(shù)據(jù)收集、行為數(shù)據(jù)處理、構(gòu)建行為畫像,如圖1所示。
圖1 行為畫像構(gòu)建流程
2.1.1 數(shù)據(jù)選擇
大學(xué)生行為畫像,是通過從海量大學(xué)生行為數(shù)據(jù)中挖掘隱藏信息,盡可能全面細(xì)致地勾畫出一個(gè)學(xué)生的信息全貌。對(duì)大學(xué)生進(jìn)行行為畫像,涉及到各個(gè)方面的校園行為數(shù)據(jù)。然而,并不是所有的數(shù)據(jù)都適合于大學(xué)生行為畫像,選擇相關(guān)的行為信息,剔除不必要的信息,確定進(jìn)行畫像所包含的信息數(shù)據(jù)。
2.1.2 數(shù)據(jù)的處理
由于收集來的原始數(shù)據(jù)大都是雜亂的、不完整的、重復(fù)的,在進(jìn)行畫像之前,需對(duì)數(shù)據(jù)進(jìn)行處理,大學(xué)生行為畫像的數(shù)據(jù)處理包括數(shù)據(jù)的清洗、數(shù)據(jù)的重構(gòu)、數(shù)據(jù)的整合等。
數(shù)據(jù)的清洗工作是對(duì)不符合實(shí)際情況的數(shù)據(jù)進(jìn)行調(diào)整或者剔除。一般來說,收集的數(shù)據(jù)并非來自同一個(gè)系統(tǒng),數(shù)據(jù)格式存在不一致性,需將所有數(shù)據(jù)統(tǒng)一格式并存儲(chǔ)在同一個(gè)數(shù)據(jù)庫或數(shù)據(jù)倉庫中;另外,現(xiàn)實(shí)的數(shù)據(jù)庫存儲(chǔ)的數(shù)據(jù)中,經(jīng)常存在空值,通常采用替換法,用“0”或者用該項(xiàng)的平均值進(jìn)行替換。數(shù)據(jù)的重構(gòu)工作即生成新的字段和記錄。數(shù)據(jù)的整合是對(duì)相關(guān)的數(shù)據(jù)進(jìn)行合并處理。
標(biāo)簽通常是人工定義的高度精煉的特征標(biāo)識(shí),語義化是標(biāo)簽呈現(xiàn)出的一個(gè)重要特征,它賦予標(biāo)簽一定的含義,使人們能夠容易理解這些標(biāo)簽[12]。標(biāo)簽化是大學(xué)生行為畫像的核心,標(biāo)簽化的大學(xué)生行為畫像既方便人的理解,有方便計(jì)算機(jī)的處理。
就目前來說,給大學(xué)生添加標(biāo)簽仍以人工整理方式為主,一般通過綜合整理大學(xué)生的基本信息和各種校園數(shù)據(jù)確定標(biāo)簽的定義及表示。根據(jù)大學(xué)生校園行為數(shù)據(jù)包括了學(xué)生的成績數(shù)據(jù)信息、消費(fèi)數(shù)據(jù)信息、借閱數(shù)據(jù)信息、門禁數(shù)據(jù)信息以及上課簽到數(shù)據(jù)信息等,畫像的標(biāo)簽可以基本確定,包括了大學(xué)生的基本屬性標(biāo)簽和動(dòng)態(tài)屬性標(biāo)簽,如表1所示。
表1 大學(xué)生行為畫像標(biāo)簽
在對(duì)大學(xué)生校園數(shù)據(jù)進(jìn)行分析時(shí),為了從綜合的角度多方面分析一個(gè)學(xué)生的全貌,需要對(duì)大學(xué)生進(jìn)行行為畫像,從而對(duì)分析學(xué)生的學(xué)習(xí)成績、消費(fèi)能力等信息提供數(shù)據(jù)基礎(chǔ)。行為畫像是真實(shí)學(xué)生在校園活動(dòng)中的形象勾勒,為學(xué)生打上一系列標(biāo)簽,實(shí)現(xiàn)學(xué)生校園行為信息標(biāo)簽化。
大學(xué)生行為畫像建模的核心是根據(jù)學(xué)生的基礎(chǔ)信息、成績信息、消費(fèi)流水等數(shù)據(jù)歸納出一種方便分析學(xué)生信息的模型,使學(xué)生信息標(biāo)簽化,以便后續(xù)對(duì)學(xué)生情況的分析,例如,可以使用“女,網(wǎng)絡(luò)工程班,成績優(yōu)秀等”來描述學(xué)生行為畫像。根據(jù)設(shè)計(jì)好的標(biāo)簽屬性對(duì)大學(xué)生行為進(jìn)行描述。
由于在對(duì)大學(xué)生行為畫像聚類時(shí),涉及到多個(gè)標(biāo)簽值,而不同標(biāo)簽數(shù)值的取值范圍可能存在數(shù)量級(jí)級(jí)別的差異,比如,借閱冊(cè)數(shù):5,學(xué)期總消費(fèi)額:5000,從而使得綜合聚類過程中,有的標(biāo)簽貢獻(xiàn)微乎其微。因此,在聚類錢,需將各標(biāo)簽值進(jìn)行[0,1]歸一化處理。
歸一化是物理系統(tǒng)中一種無量綱處理手段,對(duì)大學(xué)生行為畫像進(jìn)行歸一化處理旨在將不同取值范圍的標(biāo)簽數(shù)據(jù)統(tǒng)一映射到[0,1]區(qū)間。常用的歸一化處理方法有線性函數(shù)轉(zhuǎn)換、數(shù)函數(shù)轉(zhuǎn)換、反正切函數(shù)轉(zhuǎn)換等。其中線性函數(shù)轉(zhuǎn)換為
其中,U、V分別標(biāo)識(shí)轉(zhuǎn)換后、轉(zhuǎn)換前的值,Vmax、Vmin分別表示帶轉(zhuǎn)換值的最大值和最小值。
數(shù)函數(shù)轉(zhuǎn)換為
即以10為底的對(duì)數(shù)函數(shù)轉(zhuǎn)換。
反正切函數(shù)轉(zhuǎn)換為
對(duì)已經(jīng)構(gòu)建好的行為畫像進(jìn)行聚類,目的是根據(jù)大學(xué)生行為畫像間相似程度,將相似的行為畫像聚為一類,使得類別內(nèi)部的差異盡可能小,而類別之間的差異盡可能大[16]。聚類是一個(gè)無監(jiān)督的分類,沒有任何先驗(yàn)知識(shí)可以利用。行為畫像聚類的形式可以描述為
令 P={p1,p2,…,pm}表示行為畫像集合,其中pi表示第 i個(gè)行為畫像。Ci={pi1,pi2,…,pin}表示聚類后的第i個(gè)分類,其中pij表示Ci分類中的第j個(gè)元素。聚類結(jié)束后,各分類應(yīng)滿足以下三個(gè)條件:
式(4)指所有的聚類以后的畫像類別之和構(gòu)成全部的行為畫像;式(5)指聚類后的兩個(gè)不同類別之間的差異較大,幾乎不存在任何交集;式(6)中指的是兩個(gè)行為畫像pi和pj的相似度,表示的是一種距離,整個(gè)公式表達(dá)的意思是同一個(gè)聚類類別中兩個(gè)行為畫像的最大相似度距離應(yīng)小于不同聚類類別中兩個(gè)行為畫像的最小相似度距離。
通過聚類結(jié)果,可以發(fā)現(xiàn)各類行為畫像間隱含的信息,提取各類行為畫像的信息,為某一類具有相似度的大學(xué)生設(shè)計(jì)教學(xué)指導(dǎo)。以劃分式聚類算法中經(jīng)典的K-Means算法來描述群體大學(xué)生行為畫像分析。K-Means算法是一種使用較廣泛的聚類算法[17~19],實(shí)現(xiàn)過程比較直觀,預(yù)先設(shè)置K的取值,其分析大學(xué)生行為畫像的流程[20~21]如圖2所示。
圖2 基于K-Means算法的行為畫像聚類流程
4.1.1 基礎(chǔ)數(shù)據(jù)收集
確定為某高校計(jì)算機(jī)學(xué)院的全體學(xué)生構(gòu)建行為畫像,該行為畫像基于學(xué)生基礎(chǔ)信息、消費(fèi)信息和借閱信息等,選取該院學(xué)生的基本屬性數(shù)據(jù)、教務(wù)管理系統(tǒng)中的成績數(shù)據(jù)以及校園一卡通中的消費(fèi)數(shù)據(jù)和借閱數(shù)據(jù)。
4.1.2 行為數(shù)據(jù)處理
根據(jù)收集的基礎(chǔ)數(shù)據(jù)有個(gè)人信息、成績、消費(fèi)以及借閱數(shù)據(jù),可以確定大學(xué)生行為畫像的標(biāo)簽為:(學(xué)號(hào),姓名,班級(jí),平均成績,平均交易額,日均交易額,借書冊(cè)數(shù),還書冊(cè)數(shù))。到此,已經(jīng)做好了對(duì)行為畫像進(jìn)行構(gòu)建的準(zhǔn)備工作。
4.1.3 構(gòu)建行為畫像
采用統(tǒng)計(jì)等方法,將處理好的行為數(shù)據(jù)利用SQL腳本語句綜合到一個(gè)二維表中,得到該校計(jì)算機(jī)學(xué)院行為畫像的原始數(shù)據(jù)為了構(gòu)建的大學(xué)生行為畫像更語義化,將平均成績分為不及格、及格、良好、優(yōu)秀四個(gè)等級(jí);參考全校學(xué)生的學(xué)期交易金額、日均交易金額、學(xué)期借還書冊(cè)數(shù),將交易金額、日均交易金額、借書冊(cè)數(shù)、還書冊(cè)數(shù)四個(gè)行為標(biāo)簽劃分為較多、一般、較少、無四個(gè)級(jí)別。在SPSS中利用將變量重新編碼為相同變量功能進(jìn)行語義化處理[13],得到大學(xué)生行為畫像如圖3所示。
圖3 大學(xué)生行為畫像
對(duì)已經(jīng)構(gòu)建好的畫像進(jìn)行群體分析,則要對(duì)行為畫像聚類,考慮多個(gè)行為標(biāo)簽的取值范圍差異較大,避免在綜合聚類過程中有的標(biāo)簽貢獻(xiàn)度較大而有的標(biāo)簽恭喜度較小,需將原始畫像數(shù)據(jù)進(jìn)行歸一化[0,1]處理。此處,選取線性函數(shù)轉(zhuǎn)換法,借用IBM SPSSStatistics工具的計(jì)算變量功能進(jìn)行[0,1]歸一化處理。
借用數(shù)據(jù)挖掘工具IBM SPSSModeler,采用K-Means均值算法,對(duì)歸一化處理后的行為畫像進(jìn)行聚類,在此,設(shè)K=5,即將行為畫像聚為5個(gè)類別,以成績、學(xué)期交易金額、日均交易額、借書量和還書量為輸入值,以基本信息學(xué)號(hào)、姓名、班級(jí)為目標(biāo)值[14],聚類結(jié)果如圖4所示。
圖4 行為畫像聚類結(jié)果
在將該校計(jì)算機(jī)學(xué)院的學(xué)生聚為5類,以對(duì)聚類-1中大學(xué)生行為畫像的分析為例進(jìn)行詳細(xì)描述。結(jié)合圖4和聚類-1各標(biāo)簽值的單元分布圖5,容易看出該類學(xué)生包含了285名學(xué)生,占全院學(xué)生總數(shù)的25.6%,基本上所有的學(xué)生的借書冊(cè)數(shù)量和還書冊(cè)數(shù)量較多,個(gè)別學(xué)生的借書冊(cè)數(shù)量和還書冊(cè)數(shù)量一般,有一半的人交易金額較少、日均交易金額一般,從學(xué)習(xí)成績上來看,該類學(xué)生學(xué)習(xí)成績一般者較多,及格與優(yōu)秀的也占一大部分,幾乎沒有不及格的學(xué)生。從這些量的數(shù)據(jù)來看,該類學(xué)生是該院較為優(yōu)秀的學(xué)生,基本上不存在學(xué)習(xí)與生活上的困難或問題。
聚類-2中有184名學(xué)生,大多數(shù)借書冊(cè)數(shù)較少,還書冊(cè)數(shù)自然也較少,學(xué)習(xí)成績上及格的學(xué)生占據(jù)小一半,不及格的人也較多,而生活上消費(fèi)金額較少,應(yīng)考慮該類學(xué)生是否存在生活困難等問題,并且對(duì)于該類學(xué)生,應(yīng)提醒其增加學(xué)習(xí)的主動(dòng)性,多借書,從而在學(xué)習(xí)成績上也取得一定的進(jìn)步。
聚類-3中有250名學(xué)生,在學(xué)習(xí)成績、消費(fèi)以及圖書借閱上均是中等,需在各方面進(jìn)行些許提高指導(dǎo)。
聚類-4中有90名學(xué)生,該類學(xué)生在消費(fèi)水平上是中上等,在學(xué)習(xí)成績提高以及借閱量上還需提高。
聚類-5中有304名學(xué)生,該類學(xué)生在生活上不存在問題,借書量以及學(xué)習(xí)成績上有待提高。
通過聚類將大學(xué)生行為畫像分類,從而為某一類群體進(jìn)行分析,挖掘該類學(xué)生學(xué)習(xí)生活特征,進(jìn)一步制定相應(yīng)的教學(xué)指導(dǎo)[15]。
針對(duì)現(xiàn)階段高校校園數(shù)據(jù)的海量積累,而教育數(shù)據(jù)挖掘在校園數(shù)據(jù)分析方面,很少有結(jié)合不同種類的數(shù)據(jù)加以綜合分析,本文提出了大學(xué)生行為畫像概念,分別用成績、消費(fèi)水平、借閱頻率等屬性標(biāo)簽對(duì)大學(xué)生進(jìn)行行為畫像,并用聚類算法對(duì)大學(xué)生行為畫像做了分類,通過聚類結(jié)果,對(duì)學(xué)生在學(xué)習(xí)和生活上進(jìn)行監(jiān)督,使每位學(xué)生都能度過一個(gè)高質(zhì)量的學(xué)校生活。
圖5 聚類-1各標(biāo)簽值的單元分布
[1]Heiner,C.etl.Preface[C]//In:Work shop on Educational Data Mining at the 8th International Conference on Intelligent Tutoring Systems,Taiwan,2006.
[2]于娜.高校快被數(shù)據(jù)“淹死”了?快來看看大數(shù)據(jù)的正確使用姿勢(shì)[J].麥可思研究,2016.
YU Na.Does Colleges“Drown”by Data?Come and Have a Look at the Correct Position of the Using on Big Data[J].MyCOS_Research,2016.
[3]崔學(xué)文.關(guān)聯(lián)規(guī)則挖掘算法Apriori在學(xué)生成績分析中的應(yīng)用[J].河北北方學(xué)院學(xué)報(bào)(自然科學(xué)版),2011,27(1):44-47.
CUI Xuewen.Application of Association Rules for Mining Apriori Algorithm to Analysis of Students'Performance[J].Journal of Hebei North University(Natural Science Edition),2011,27(1):44-47.
[4]姚文迪.基于關(guān)聯(lián)規(guī)則算法的數(shù)據(jù)挖掘在高校成績中的研究與應(yīng)用[D].成都:西南交通大學(xué),2015.
YAO Wendi.Research of Data Mining by Association Rules and Its Application to the Analysis of Academic Achievements[D].Chengdu:Southwest Jiaotong University,2015.
[5]吳喜萍.基于關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù)的高校學(xué)生學(xué)習(xí)成績分析[D].成都:西南交通大學(xué),2010.
WU Xiping.The Analysis of College Student Achievement based on Association Rules Mining Technology[D].Chengdu:Southwest Jiaotong University,2010.
[6]王雪飛.數(shù)據(jù)挖掘在高校貧困生校園卡流水?dāng)?shù)據(jù)中的應(yīng)用研究[D].長春:東北師范大學(xué),2014.
WANG Xuefei.Application of College Students with Financial Difficulties on Campus Card Flow Data of Data Mining[D].Changchun:Northeast Normal University,2014.
[7]張冬冬,李玉龍,王玉鑫.數(shù)據(jù)挖掘技術(shù)在高校貧困生認(rèn)定中的應(yīng)用[J].西安文理學(xué)院學(xué)報(bào)(自然科學(xué)版),2013,16(4):90-94.
ZHANGDongdong,LIYulong,WANGYuxin.The Application of Data Miniing Technology in Identifying Needy College Students[J].Journal of Xi'an University of Arts&Science(Nat Sci Ed),2013,16(4):90-94.
[8]單菊芬.基于數(shù)據(jù)挖掘技術(shù)的高校貧困生管理系統(tǒng)設(shè)計(jì)和分析[D].南京:南京郵電大學(xué),2012.
SHAN Jufen.Design and Analysis Based on the Data Mining Technology of Poverty Stricken Students'Management System in Colleges[D].Nanjing:Nanjing University of Posts and Telecommunications,2012.
[9]吳喜萍.基于關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù)的高校學(xué)生學(xué)習(xí)成績分析[D].成都:西南交通大學(xué),2010.
WU Xiping.The Analysis of College Student Achievement based on Association Rules Mining Technology[D].Chengdu:Southwest Jiaotong University,2010.
[10]唐雪.“學(xué)生畫像”發(fā)掛科預(yù)警[J].大學(xué)生,2015(22):35-37.
TANG Xue.“Students Portrait”Can Predict a Failure in Subjects[J].China Campus,2015(22):35-37.
[11]呂紅胤,連德富,聶敏,等.大數(shù)據(jù)引領(lǐng)教育未來:從成績預(yù)測(cè)談起[J].大數(shù)據(jù),2015(4):118-121.
LV Hongyin,LIAN Defu,NIE Min,et al.Big Data Drives a New Epoch of Education:A Case Study of Academic Performance Prediction[J].Big Data Research,2015(4):118-121.
[12]牛溫佳,劉吉強(qiáng),石川,等.用戶網(wǎng)絡(luò)行為畫像[M].北京:電子工業(yè)出版社,2016:3-49.
NIU Wenjia,LIU Jiqiang,SHI Chuan,et al.The User's Network Behavior Portrait[M].Beijing:Publishing House of Electronics Industry,2016:3-49.
[13]謝龍漢,尚濤.SPSS統(tǒng)計(jì)分析與數(shù)據(jù)挖掘[M].北京:電子工業(yè)出版社,2012:102-157.
XIE Longhan,SHANG Tao.SPSS Statistics and Data Mining[M].Beijing:Publishing House of Electronics Industry,2012:102-157.
[14]張文彤,鐘云飛.IBM SPSS數(shù)據(jù)分析與挖掘?qū)崙?zhàn)案例精粹[M].北京:清華大學(xué)出版社,2013:358-369.
ZHANG Wentong,ZHONG Yunfei.The Mastery of Actual Cases on IBM SPSS Statistics and Mining[M].Beijing:Tsinghua University Press,2013:358-369.
[15]Kurniawan Y,Halim E.Use data warehouse and data mining to predict student academic performance in schools:A case study(perspective application and benefits)[C]//in Teaching,Assessment and Learning for Engineering(TALE),2013 IEEE International Conference on ,vol.,no.,pp.98-103,26-29 Aug.2013.
[16]柳玉巧.聚類分析和關(guān)聯(lián)規(guī)則技術(shù)在成績分析中的研究及應(yīng)用[D].武漢:華中師范大學(xué),2014.
LIU Yuqiao.The Research and Application of Clustering Analysis and Assocation Rules in the Achievement Analysis[D].Wuhan:Central China Normal University,2014.
[17]劉靈松.校園一卡通數(shù)據(jù)分析平臺(tái)研究與設(shè)計(jì)[D].濟(jì)南:山東師范大學(xué),2015.
LIU Lingsong.Design and Implementation of Campus Smart Card Data Analysis Platform[D].Jinan:Shandong Normal University,2015.
[18]陳鋒.基于校園一卡通系統(tǒng)的高校用戶就餐消費(fèi)行為分析與數(shù)據(jù)挖掘[J].中國教育信息化,2014(9):47-49.
CHEN Feng.Analysis and Data Mining on Dinner Consume Behavior of Campus Users based on Campus Smart Card System[J].The Chinese Journal of ICT in Education,2014(9):47-49.
[19]夷臻.學(xué)生事務(wù)數(shù)據(jù)分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].蘇州:蘇州大學(xué),2015.
YI Zhen.Design and Implementation of Student Affairs Data Analysis System[D].Suzhou:Soochow University,2015.
[20]孟卓,袁梅宇.教育數(shù)據(jù)挖掘發(fā)展現(xiàn)狀及研究規(guī)律的分析[J].教育導(dǎo)刊,2015(2):29-33.
MENG Zhuo,YUAN Meiyu.The Analysis on Development Situation and Research rules of Educational Data Mining[J].Journal of Educational Development,2015(2):29-33.
[21]馬月.數(shù)據(jù)挖掘技術(shù)在教育信息化中的應(yīng)用研究[D].西安:西安郵電大學(xué),2014.
MA Yue.Research on Application of Data Mining Technology in Education Informationization[D].Xi'an:Xi'an University of Posts and Telecommunications,2014.