□陳 來,張 華
(福建警察學(xué)院,福建 福州 350007)
學(xué)生的學(xué)習(xí)表現(xiàn)受到NBA(National Board of Accreditation)、NAAC(National Assessment and Accreditation Council)等各委員會(huì)的高度重視,特別是科技院校。在線學(xué)習(xí)中,教師只有通過每門課程的考試才能得知學(xué)生的學(xué)習(xí)效果,教學(xué)過程中很難獲取到每個(gè)學(xué)習(xí)者的具體學(xué)習(xí)過程,存在教學(xué)分離、監(jiān)控難、距離遠(yuǎn)的問題。[1]為了分析和挖掘出更多潛在的教育信息,研究者深入探索學(xué)習(xí)分析的理論、框架、工具及實(shí)踐。學(xué)生學(xué)業(yè)表現(xiàn)分析是教育機(jī)構(gòu)管理決策和實(shí)施素質(zhì)教育的重要內(nèi)容。有關(guān)教育機(jī)構(gòu)的數(shù)據(jù)正在迅速增加,挖掘這些大量的數(shù)據(jù)將有助于管理層做出學(xué)術(shù)決策。預(yù)測(cè)學(xué)生在課程早期的學(xué)習(xí)表現(xiàn),將有助于教育機(jī)構(gòu)識(shí)別三好學(xué)生,并將更多的精力投入到稍弱的學(xué)生及制定開發(fā)補(bǔ)救方案,以提高他們的表現(xiàn)。[2]聚類分析作為數(shù)據(jù)挖掘的一種重要方法,在識(shí)別數(shù)據(jù)的內(nèi)在結(jié)構(gòu)方面具有很大的作用,其目的是將數(shù)據(jù)集劃分成多個(gè)子集(簇),使得簇內(nèi)對(duì)象彼此相似,簇間對(duì)象彼此分離。[3]目前聚類分析已廣泛應(yīng)用在模式識(shí)別、圖像處理、關(guān)系挖掘和時(shí)空數(shù)據(jù)庫應(yīng)用(GIS等)等眾多領(lǐng)域。迄今,大多數(shù)研究者利用分類或聚類技術(shù)從教育數(shù)據(jù)中了解隱含模式。Md.Hedayetul Islam Shovon運(yùn)用k-means聚類算法對(duì)學(xué)生學(xué)業(yè)表現(xiàn)進(jìn)行預(yù)測(cè)。研究了學(xué)生的課堂測(cè)驗(yàn)、期中、期末考試作業(yè)等評(píng)價(jià)因素。建議在期末考試前將所有相關(guān)信息傳達(dá)給班主任。該研究將有助于教師將退學(xué)率降低到顯著水平,提高學(xué)生的學(xué)習(xí)表現(xiàn)。Monika Goyal和Rajan Vohra應(yīng)用數(shù)據(jù)挖掘技術(shù)可以大大提高高等教育機(jī)構(gòu)的效率。將聚類、決策樹、關(guān)聯(lián)等數(shù)據(jù)挖掘技術(shù)應(yīng)用到高等教育過程中,有助于提高學(xué)生的學(xué)習(xí)表現(xiàn)、生命周期管理、課程選擇,衡量學(xué)生的保留率,提高學(xué)校的經(jīng)費(fèi)管理水平等,因而是一種檢驗(yàn)高等教育中使用數(shù)據(jù)挖掘技術(shù)效果的方法。
Ayesha等研究者利用k-means聚類算法作為數(shù)據(jù)挖掘技術(shù),對(duì)學(xué)生數(shù)據(jù)庫中的學(xué)生學(xué)習(xí)活動(dòng)進(jìn)行預(yù)測(cè),包括課堂測(cè)驗(yàn)、期中、期末考試和作業(yè)。挖掘出的信息對(duì)教師和學(xué)生都有一定的幫助。這些相關(guān)信息將在期末考試前傳達(dá)給班主任。該研究旨在幫助教師在適當(dāng)?shù)臅r(shí)間采取適當(dāng)?shù)拇胧越档蛼炜坡?,提高學(xué)生的學(xué)習(xí)表現(xiàn)。目前國內(nèi)的學(xué)習(xí)分析預(yù)測(cè)模型還停留在理論探索與構(gòu)建的階段,因此本文利用k-means聚類算法對(duì)學(xué)生數(shù)據(jù)進(jìn)行聚類,并對(duì)結(jié)果進(jìn)行分析及預(yù)測(cè)學(xué)生學(xué)業(yè)表現(xiàn)較差、平均表現(xiàn)好和表現(xiàn)好的比例,以此可以對(duì)教育機(jī)構(gòu)提供決策幫助。
令給定的數(shù)據(jù)集DB={x1,x2,…,xi,…,xN},其中N為數(shù)據(jù)樣本總數(shù);xi=(xi1,xi2,…,xij,…,xiD)表示DB中第i個(gè)樣本點(diǎn)(i=1,2,…,N,且特征維數(shù)是D);xij為xi的第j維屬性(j=1,…,D)。傳統(tǒng)的硬劃分聚類算法是將給定的數(shù)據(jù)集DB劃分成K個(gè)子集(簇)的集合Π={π1,π2,…,πK},πk為DB的第k個(gè)簇(k=1,2,…,K),且任意兩個(gè)簇的交集是空集,K(K>1)是給定的簇?cái)?shù)目。簇πk包含的數(shù)據(jù)對(duì)象數(shù)目記為|πk|,vk是簇πk的中心,簇πk在第d維上的中心為vkd。
k-means是用于對(duì)數(shù)據(jù)對(duì)象進(jìn)行聚類的無監(jiān)督算法。k-means聚類算法將n個(gè)數(shù)據(jù)對(duì)象劃分為k個(gè)簇(group),其中每個(gè)數(shù)據(jù)對(duì)象都屬于均值最接近的簇。每一組中的數(shù)據(jù)對(duì)象具有高度的緊湊性,而另一組中的對(duì)象是不相交的。k-means算法使用平方和創(chuàng)建k組不同的元素。該算法的輸入?yún)?shù)為簇中心數(shù)。[4]然后計(jì)算出每個(gè)元素與每個(gè)簇中心的距離。將計(jì)算出的數(shù)據(jù)元素與每個(gè)簇中心的距離進(jìn)行比較,并將數(shù)據(jù)元素分配到最近的簇中心。這樣,所有數(shù)據(jù)元素都被分配到一個(gè)簇中心。最初,通過將數(shù)據(jù)元素分配到各自的簇中心來形成K集群。然后重新計(jì)算每個(gè)集群中分配的數(shù)據(jù)元素的簇中心。再次使用新的簇中心計(jì)算每個(gè)數(shù)據(jù)元素與新的簇中心之間的距離,并將數(shù)據(jù)元素重新分配到靠近的簇中心。這個(gè)過程一直持續(xù)到?jīng)]有數(shù)據(jù)元素分配給任何新的簇中心為止,這意味著第n-1次迭代的簇中心等于第n次迭代的簇中心。[5]
k-means聚類中的距離度量是歐式距離。樣本xi與xj的距離定義如下:
D(xi,xj)=(xi1-xj1)2+(xi2-xj2)2+…
(1)
利用公式(1)可以計(jì)算每個(gè)數(shù)據(jù)元素與簇中心的距離。數(shù)據(jù)元素以最小距離分配到簇中心。簇中心是該組所有數(shù)據(jù)點(diǎn)的均值,每個(gè)帶有數(shù)據(jù)元素集的簇中心都稱為集群。
在聚類分析中,定義簇為分散度最小(或緊湊度最大)的樣本集合,其中分散度以樣本到簇中心的距離來衡量。結(jié)合k-means距離度量公式,定義聚類優(yōu)化目標(biāo)函數(shù)為:
(2)
(3)
在求解k-means 型算法目標(biāo)函數(shù)的問題上,常用EM算法進(jìn)行優(yōu)化:首先給定初始簇?cái)?shù)目、簇均值(從一個(gè)初始狀態(tài)出發(fā)),通過計(jì)算數(shù)據(jù)樣本與各個(gè)簇中心的距離來將樣本劃分到相應(yīng)的簇; 根據(jù)更新后的簇重新計(jì)算簇均值;采用迭代算法結(jié)構(gòu),直到滿足停止條件,使得各個(gè)簇中數(shù)據(jù)樣本與簇中心的歐式距離和取得局部最優(yōu)值,從而滿足簇內(nèi)樣本緊湊、簇間樣本分離的聚類劃分目的。[6-8]從數(shù)據(jù)分布角度來看,簇內(nèi)樣本越緊湊代表簇內(nèi)樣本的離散程度越低。聚類算法實(shí)現(xiàn)步驟如下所示:
1.輸入:據(jù)聚類的數(shù)目K和從N個(gè)樣本數(shù)據(jù)中任意選擇K個(gè)樣本,使得X={X1,X2,X3……Xk};
2.輸出:從數(shù)據(jù)對(duì)象集合中選取將要聚類的對(duì)象作為初始的聚類中也為c1,c2,c3……ckn;
3.數(shù)據(jù)集隨機(jī)初始劃分,計(jì)算每個(gè)簇的算術(shù)平均值。
4.根據(jù)公式(1)計(jì)算樣本到每個(gè)簇中心的距離:
(4)
5.將樣本劃分到最近的簇,重新計(jì)算簇中心ck并劃分樣本,直到簇不發(fā)生變化為止。
(5)
在明確簇中心的基礎(chǔ)上,與學(xué)習(xí)者學(xué)習(xí)相關(guān)的數(shù)據(jù)實(shí)行聚類分析,詳細(xì)完成步驟是:
1.輸入學(xué)習(xí)樣本與參數(shù)
輸入m個(gè)學(xué)習(xí)數(shù)據(jù)樣本{y1,y2,…,ym},按照學(xué)習(xí)數(shù)據(jù)混沌關(guān)聯(lián)維特征,在學(xué)習(xí)數(shù)據(jù)樣本里選取M個(gè)聚類中心,[9]并設(shè)成{θ1,θ2,…,θm}。
‖y-θi‖=min(‖y-θi‖)
(6)
3.使用方式(11)獲取學(xué)習(xí)數(shù)據(jù)樣本聚類中心值θi:
(7)
4.若迭代次數(shù)屬于奇數(shù),那么直接跳至步驟(6)。反之實(shí)行后續(xù)步驟。
5.分裂
(8)
當(dāng)中,χ屬于常數(shù),若Φ>c1,并且上一次沒有實(shí)行合并處理,那么跳至步驟(6)。
6.結(jié)束
把存在同一混沌關(guān)聯(lián)特征的學(xué)習(xí)數(shù)據(jù)經(jīng)過以上聚類分析后設(shè)成一類,以此獲取學(xué)生學(xué)業(yè)表現(xiàn)分析預(yù)測(cè)模型。
Q=ckθji
(9)
為驗(yàn)證學(xué)生學(xué)業(yè)表現(xiàn)分析預(yù)測(cè)模型的可行性,選取華中師范大學(xué)云課堂平臺(tái)上一門在線課程“教育云計(jì)算”的相關(guān)學(xué)習(xí)行為記錄,針對(duì)不同的預(yù)測(cè)需求,即從高精確度到高解釋度,先后采取兩種算法對(duì)學(xué)習(xí)者成績進(jìn)行分析預(yù)測(cè)。部分學(xué)生基本信息在數(shù)據(jù)庫中的存儲(chǔ)情況如圖1所示。
依據(jù)學(xué)習(xí)者對(duì)在線課程的學(xué)習(xí)情況可以直觀而清晰的了解學(xué)習(xí)者的學(xué)習(xí)態(tài)度,為此在構(gòu)建的在線學(xué)習(xí)行為分類指標(biāo)基礎(chǔ)上,通過計(jì)算每一類別中各指標(biāo)的權(quán)重,并按照給出的在線課程忠誠度公式計(jì)算出學(xué)習(xí)者對(duì)課程的忠誠度得分,來幫助教師及平臺(tái)管理者及時(shí)采取教學(xué)策略及教學(xué)模式,提高用戶在線學(xué)習(xí)的熱度。忠誠度計(jì)算方法如下:
圖1 部分學(xué)生基本信息在數(shù)據(jù)庫中存儲(chǔ)情況圖
RFL(study)=βF′+γL′-αR′
(10)
上式中,β、γ、α分別表示指標(biāo)觀看視頻、電子筆記、互動(dòng)交流等行為的學(xué)習(xí)頻度F、在平臺(tái)中觀看課程視頻的學(xué)習(xí)長度L、登錄平臺(tái)時(shí)距離分析點(diǎn)的學(xué)習(xí)近度R的權(quán)重,F(xiàn)′、L′、R′表示每個(gè)類別中F、L、R的均值。各級(jí)別學(xué)習(xí)者忠誠度排名結(jié)果如圖2所示。
圖2 各級(jí)別學(xué)習(xí)者忠誠度排名
混淆矩陣比模型的精度的評(píng)價(jià)指標(biāo)更能夠詳細(xì)地反映出模型的“好壞”。精確率指所有真實(shí)類別為正類的記錄中,被預(yù)測(cè)為正類所占的比例,計(jì)算方法如下:
(11)
召回率指所有真實(shí)類別為父類的記錄中,被預(yù)測(cè)為負(fù)類所占的比例,計(jì)算方法如下:
(12)
為了使模型的正確率達(dá)到最大,該算法使用精確率與召回率相乘的結(jié)果作為適應(yīng)值F,此外,為確保每個(gè)預(yù)測(cè)類型的規(guī)則具有更好的可解釋性,對(duì)于同樣準(zhǔn)確的規(guī)則,以保留條件最少最簡單的規(guī)則為準(zhǔn)則。計(jì)算方法如下:
各預(yù)測(cè)模評(píng)價(jià)指標(biāo)比較結(jié)果如表1所示。
表1 各預(yù)測(cè)模評(píng)價(jià)指標(biāo)比較
由表1可以看出,該模型的精確率以及召回率均控制在90%以上,F(xiàn)值以及ROC值均大于傳統(tǒng)方法,保證了高精度的學(xué)業(yè)表現(xiàn)分析預(yù)測(cè)效果。主要原因在于本文模型利用k-means聚類算法對(duì)學(xué)生數(shù)據(jù)進(jìn)行分析,提高了預(yù)測(cè)模型的準(zhǔn)確率與召回率,保障了預(yù)測(cè)精度。
采用上述介紹的k-means聚類算法進(jìn)行聚類,將筆者最終選擇的看視頻行為、做小練習(xí)行為、發(fā)帖行為及回帖行為作為聚類的變量,采用"迭代與分類"的方法,設(shè)置最大送代次數(shù)為10,獲得3928人作為聚類分析結(jié)果如表2所示。
表2 K-means聚類結(jié)果
經(jīng)過多次聚類嘗試和調(diào)整及清洗異類值之后,將聚類數(shù)設(shè)置為4是最合理的,也就是最終將學(xué)習(xí)者總共分為四類。從每個(gè)聚類中的案例數(shù)表中看到,第一類學(xué)習(xí)者共316人,占比為8%;第二類學(xué)習(xí)者有63人,占比為1.6%;第三類學(xué)習(xí)者為3503人,占比為89.1%;第四類學(xué)習(xí)者有46人,占比為1.2%。其中第四類學(xué)習(xí)者各項(xiàng)行為的最終聚類中也較其他類型學(xué)習(xí)者大很多,尤其是看視頻行為及做練習(xí)行為的平均頻次非常高,說明這類學(xué)習(xí)者是為數(shù)不多的能夠"吃透"該門課程的人。
本文利用k-means聚類算法,對(duì)學(xué)生數(shù)據(jù)進(jìn)行分析,預(yù)測(cè)學(xué)生學(xué)業(yè)表現(xiàn)較差、一般、好的比例。從實(shí)驗(yàn)可以看出50%的數(shù)據(jù)以綠色顯示。管理部門可以采取適當(dāng)?shù)拇胧囊话愫洼^差的類別中提高學(xué)生的學(xué)業(yè)表現(xiàn)。這一簡單的分析工作表明,適當(dāng)?shù)臄?shù)據(jù)挖掘應(yīng)用于學(xué)生的表現(xiàn)可以有效地利用從大量數(shù)據(jù)中隱藏的知識(shí)信息檢索,可以用于教育機(jī)構(gòu)的管理決策過程。通過對(duì)在線學(xué)習(xí)平臺(tái)的行為數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,可以深入了解學(xué)生,有助于提供自適應(yīng)學(xué)習(xí)指導(dǎo)。提前預(yù)知學(xué)習(xí)趨勢(shì),便于采取適當(dāng)?shù)母深A(yù)措施。