顧偲雯 沈新逸 王加安 句愛松
(1.常州工學(xué)院光電工程學(xué)院,江蘇 常州 213032;2.大連理工大學(xué)化工學(xué)院,遼寧 大連 116024)
學(xué)生的學(xué)習(xí)成績是其對課程學(xué)習(xí)的掌握程度的一個重要體現(xiàn),也是反映教師教學(xué)效果好壞的一個重要標(biāo)準。 現(xiàn)今,隨著高校的擴招,高校內(nèi)的師生數(shù)量與日俱增。 學(xué)校內(nèi)部的數(shù)據(jù)庫已經(jīng)積累了海量的數(shù)據(jù),然而缺乏信息知識與技術(shù),管理者往往無法在這大量的數(shù)據(jù)中提取到有用的信息[1]。 只能運用傳統(tǒng)的排序及統(tǒng)計功能取得一些表層的信息。 怎樣使用學(xué)生某一階段的成績提煉分析出有用的信息來提高之后的教學(xué)方案與學(xué)生成績有著至關(guān)重要的意義。
學(xué)生成績的評價的一般方式是將其粗略的劃分為優(yōu)秀、良好、中等、及格與不及格等幾個等級[2]。 這種評價方式雖然簡單方便, 但卻存在著一些不合理性,比如有些課程的難度較高, 學(xué)生的普遍成績都不高,這時使用這種方法就很難在學(xué)生之中劃分出不同的群體。 如果可以把聚類分析實際應(yīng)用于成績分析之中,就可以通過動態(tài)的分析得到比較準確合理的劃分結(jié)果[3,4]。
本文將k-means 聚類和層次聚類方法用作成績及其影響因素的分析,利用MATLAB 軟件實現(xiàn)聚類算法的實際應(yīng)用,建立數(shù)據(jù)分析模型并對聚類結(jié)果進行評價,最后總結(jié)學(xué)生成績提高的途徑。
本文選取了本高校學(xué)生的高等數(shù)學(xué)上/下,大學(xué)英語上/下, 大學(xué)物理上/下, 計算機基礎(chǔ)與三門專業(yè)課(電工基礎(chǔ)、工程制圖、單片機原理)等共十門課程的學(xué)生成績作為樣本數(shù)據(jù)來進行分析。 每個班的學(xué)生成績均為百分制形式。
把來自不同數(shù)據(jù)源的數(shù)據(jù)集中到一起,以便后續(xù)的分析和處理。 主要是規(guī)范處理不同數(shù)據(jù)源中數(shù)據(jù)的詞義、名稱、結(jié)構(gòu)等不同,以形成適合做聚類分析的樣本數(shù)據(jù)。 本文將三個班的學(xué)習(xí)成績集中整理成一張成績表。
另外,本文對采集的數(shù)據(jù)進行清洗,主要是要清除或補全樣本數(shù)據(jù)中的殘缺數(shù)據(jù)、錯誤數(shù)據(jù)、重復(fù)數(shù)據(jù)。 若有某學(xué)生的大部分成績?yōu)榭瞻字担瑒t不錄入該學(xué)生的所有數(shù)據(jù)信息,如果成績信息中出現(xiàn)單個空白值,則計算出平均成績進行填充。 部分原始數(shù)據(jù)經(jīng)過處理后如表1 所示。
表1 預(yù)處理后的部分數(shù)據(jù)表—成績
此外,績點也是衡量一個學(xué)生學(xué)習(xí)質(zhì)量的一個重要指標(biāo), 本文收集績點、 學(xué)生曠課數(shù)量 (包括晚自習(xí))、補考課程數(shù)目等數(shù)據(jù),經(jīng)過篩選和整理后得出的結(jié)果用作聚類分析。 數(shù)據(jù)經(jīng)過預(yù)處理后部分數(shù)據(jù)如表2 所示。
表2 預(yù)處理后的部分數(shù)據(jù)
高校舉行的各科目考試使學(xué)生的學(xué)習(xí)成效得以以數(shù)字的形式表現(xiàn), 其不僅能反映出教師的教學(xué)水平,還可以使學(xué)生得知自己的優(yōu)勢與不足之處,進而協(xié)助教師與學(xué)生及時發(fā)現(xiàn)問題并能得以改進。 然而目前的普遍方法是對學(xué)生成績做簡單的數(shù)據(jù)統(tǒng)計處理,這種方法雖然簡單,但不足之處是費時且費力,而且還不一定能得到有用的反饋信息?;诖耍瑢-means算法運用到學(xué)生的各科成績中分析各類學(xué)生的薄弱方面并提出改進方案,以及對可能影響學(xué)生成績的相關(guān)因素進行分析。
在k-means 聚類最優(yōu)的k 值選取中常用的方法為“手肘法”。 手肘法的核心指標(biāo)是SSE (Sum of the Squared Errors,誤差平方和)[5]:
其中,Ci是第i個簇,p是Ci中的樣本點,mi是的質(zhì)心(Ci中所有樣本的均值),SSE是樣本數(shù)據(jù)聚類后的總誤差平方和,其值越小,聚類結(jié)果越好[7]。 當(dāng)k等于5 時, 誤差平方和的下降趨勢開始逐漸變得緩慢,所以這點對應(yīng)的就是肘部位置。
在MATLAB 軟件中對預(yù)處理后的數(shù)據(jù)集直接調(diào)用k-means 函數(shù)[8]并選擇聚類數(shù)為5 后得出聚類結(jié)果如表3 所示。
表3 成績聚類結(jié)果表
表內(nèi)數(shù)據(jù)為每一類學(xué)生的平均成績,即分類后各類的聚類中心。 相應(yīng)地,給出各類學(xué)生占比分布如圖1 所示,圖中用數(shù)字1、2、3、4 和5 來分別表示學(xué)生的類別。
圖1 學(xué)生分類數(shù)量占比圖
從表3 和圖1 的聚類結(jié)果中可知,分析各類學(xué)生課程成績中的優(yōu)勢與弱勢學(xué)科可以幫助課程教師改進教學(xué)方案。 每類學(xué)生成績特征與解決方案如下:
第一類學(xué)生占比為33%,人數(shù)最多,除了英語成績稍低,其他課程成績都還不錯,可能是對英語的學(xué)習(xí)存在忽視或者偏科,這類學(xué)生需加強英語方面的學(xué)習(xí),其他課程繼續(xù)保持即可。
第二類學(xué)生占比為15%,人數(shù)占比較小,但所有科目成績幾乎均在及格線左右, 此時就需要這類學(xué)生自我反思,是不是學(xué)習(xí)方法出現(xiàn)了問題,或者是上課并沒有認真聽講,沒有獨立完成作業(yè),教師則要加強對這類學(xué)生的監(jiān)督管理, 否則可能無法達到畢業(yè)要求。
第三類學(xué)生占比為24%,這類學(xué)生的所有課程成績都比較優(yōu)秀,除了單片機原理及接口技術(shù),其他成績均在80 分往上, 此類學(xué)生只需稍微加強單片機方面課程的學(xué)習(xí), 在其他方面可適當(dāng)減少一些學(xué)習(xí)時間,用于參加社會實踐,為踏入工作做準備,或者用于畢業(yè)升學(xué)所需要學(xué)習(xí)的課程上。
第四類學(xué)生占比為20%,此類學(xué)生大部分課程成績屬于中等偏下水平,尤其是高數(shù)和英語成績均處在及格邊緣, 可能是在前期的學(xué)習(xí)中基礎(chǔ)打得不夠扎實,需要增加在高數(shù)與英語方面的學(xué)習(xí)時間,尤其是高數(shù),因為在后面需要學(xué)習(xí)的專業(yè)課程中大部分都需要有扎實的數(shù)學(xué)基礎(chǔ)。
第五類學(xué)生占比為8%, 此類學(xué)生的總體成績與第四類學(xué)生的成績相差不大, 大多處于中等偏下水平,唯一的區(qū)別在于單片機原理及接口技術(shù)這門課程上,這門課程的成績低于及格線十幾分,是所有學(xué)生中這門課程成績最差的一類,對于這一類學(xué)生,老師可以多加關(guān)注,給予鼓勵,并建議這類學(xué)生向?qū)I(yè)課程學(xué)習(xí)的不錯的同學(xué)多多請教,改進自己在專業(yè)課上的學(xué)習(xí)方法,吸取經(jīng)驗。
本文將分別使用層次聚類方法與k-means 聚類方法對數(shù)據(jù)集進行聚類分析, 為使聚類結(jié)果有可比性,兩種聚類方法都將聚類數(shù)目設(shè)置為三類。 結(jié)合圖像可更直觀的展示數(shù)據(jù)之間的聯(lián)系,也更方便用于對比,所以本文將運用MATLAB 軟件的plot 函數(shù)[9]將聚類結(jié)果使用三維圖像的方式展現(xiàn)出來, 并用imagesc函數(shù)[10]將聚類結(jié)果的相關(guān)程度表現(xiàn)在二維平面上以供對比。 得到k-means 方法聚類結(jié)果如圖2 所示,kmeans 聚類結(jié)果相關(guān)程度如圖3 所示。
圖2 k-means 方法聚類結(jié)果圖
圖3 k-means 聚類結(jié)果相關(guān)程度圖
同理得到層次聚類方法聚類結(jié)果如圖4 所示,層次聚類結(jié)果相關(guān)程度圖如圖5 所示,層次聚類法層次結(jié)構(gòu)圖如圖6 所示。
圖4 層次聚類方法聚類結(jié)果
圖5 層次聚類結(jié)果相關(guān)程度圖
圖6 層次聚類法層次結(jié)構(gòu)圖
分析上述結(jié)果可知,兩種聚類方法運行后的結(jié)果存在區(qū)別,但劃分后各類內(nèi)的數(shù)據(jù)點大致相同。 由于在文內(nèi)給出的三維視圖不能像在軟件中一樣自由轉(zhuǎn)動,所以將績點、學(xué)生曠課數(shù)與課程補考數(shù)投在二維平面上可以更加直觀地發(fā)現(xiàn)內(nèi)在的聯(lián)系。 將績點從4.5 開始每間隔0.5 劃分一個等級,共劃分出A、B、C、D、E 五個等級,然后將所有數(shù)據(jù)導(dǎo)入MATLAB 軟件中運用plot 函數(shù)可得數(shù)據(jù)點分布如圖7 所示。
圖7 數(shù)據(jù)點分布圖
觀察圖7 可知, 數(shù)據(jù)點的聚集狀態(tài)與聚類三維結(jié)果圖相似, 績點高的數(shù)據(jù)點都聚集在圖片左下角,這意味著掛科數(shù)目與課程曠課數(shù)目越少,相對的學(xué)生的績點越高。 說明這三者之間確實存在一定的線性關(guān)系。 因此,校方可以從學(xué)生的曠課情況入手,進行更為嚴格的管理措施,同時也應(yīng)讓學(xué)生意識到長期逃課的代價,做到警示的作用,讓學(xué)生可以將更多的時間用于學(xué)習(xí)上,以此來提高學(xué)習(xí)成績。
兩種聚類方法雖然都成功產(chǎn)生了聚類結(jié)果,但是對相同數(shù)據(jù)的聚類結(jié)果之間卻存在差異,說明兩種不同算法的聚類方法可能會對聚類結(jié)果產(chǎn)生不同的影響。 觀察圖3 可知,橫縱坐標(biāo)是將數(shù)據(jù)矩陣按照大小順序排列,再把各數(shù)據(jù)點的距離大小使用不同的顏色標(biāo)記出來,顏色相近的數(shù)據(jù)點就說明其比較相關(guān)。 所以理論上來說按照大小排序后的數(shù)據(jù)矩陣各段之間應(yīng)該更有可能被聚為一類,但是k-means 聚類結(jié)果相關(guān)程度圖中的數(shù)據(jù)點之間的距離矩陣卻排列雜亂,沒有規(guī)則,左上角部分尤為明顯,說明聚類結(jié)果可能并不是很準確,而圖5 中則沒有出現(xiàn)這種情況,各部分間的距離矩陣數(shù)據(jù)都有規(guī)則可循,所以聚類結(jié)果比較準確。
學(xué)生成績是評價教學(xué)質(zhì)量的重要依據(jù),也是評價學(xué)生對所學(xué)知識掌握程度的重要標(biāo)志。 目前,多數(shù)高校的師生數(shù)量都達到了幾萬甚至十幾萬的規(guī)模。 學(xué)校內(nèi)部的數(shù)據(jù)庫已經(jīng)積累了海量的數(shù)據(jù),然而缺乏信息知識與技術(shù),管理者往往無法在這大量的數(shù)據(jù)中提取到有用的信息,僅能運用傳統(tǒng)的排序及統(tǒng)計功能取得一些表層的信息。 在此背景下,本文采用k-means 聚類方法進行分析, 并對比了層次聚類與k-means 聚類,得出了以下結(jié)論:相比于成績評價的傳統(tǒng)方法,聚類算法應(yīng)用于成績分析彌補了前者的不足,可以橫向?qū)Ρ雀黝悓W(xué)生的成績差異,而且可以更加準確定位到每一個學(xué)生, 將不同特征的學(xué)生成績劃分聚類后,能夠針對各類學(xué)生成績的特點重新規(guī)劃教學(xué)方案,為任課教師提供了改進教學(xué)策略的有利依據(jù)。 同時,其也能顯著減少資源的浪費和研究人員的精力投入,因為聚類算法能直接得出樣本中各類間的差異信息,不再需要人員來逐個分析每個樣本數(shù)據(jù)的特征信息,極大節(jié)約了社會資源。