齊暢 章葉璐 晏建學
摘 要:學生成績是衡量學生對課程的掌握情況及教師的教學效果最直接的指標,傳統(tǒng)的成績分析方法是按分數(shù)段劃分并根據(jù)正態(tài)分布計算平均成績和方差。本文主要從正態(tài)分布模型檢驗及聚類分析兩方面入手,利用SPSS軟件對財經(jīng)大學2010學年至2017學年部分班級公共數(shù)學成績進行分析,更科學、合理地反映學生對課程的掌握情況,并檢驗教師的教學效果。
關(guān)鍵詞:正態(tài)模型檢驗 聚類分析 SPSS
基金項目:本文為“第十三屆云南財經(jīng)大學本科生科研訓練計劃(SRTP)(項目編號47《云南財經(jīng)大學近年來公共數(shù)學成績聚類分析》)”項目成果。
本文以2010~2017級部分授課班級成績?yōu)槔?,?shù)據(jù)包括學號、姓名、班級編號、課程名稱、教學老師、年級、學生總成績等。數(shù)據(jù)情況如下:
首先檢驗學生成績是否服從正態(tài)分布,然后用聚類分析功能對學生成績進行分析,并檢驗不同班級、年級、教師之間學生成績分布差異是否明顯,同一老師所帶不同班級、不同年級學生成績差異是否明顯,不同老師不同學院不同班級學生成績差異是否明顯,不同年級之間學生成績差異是否明顯。用聚類分析彌補傳統(tǒng)按分數(shù)段劃分及根據(jù)正態(tài)分布計算平均成績和方差的不足,更加科學、合理地反映學生對課程的掌握情況及教師的教學成果。
1 對數(shù)據(jù)分課程進行正態(tài)分布模型檢驗
將2010~2017級的概率論與數(shù)理統(tǒng)計(理工類)、微積分(經(jīng)管類)、微積分(理工類)、線性代數(shù)(經(jīng)管類)、線性代數(shù)(理工類)這五門不同的公共數(shù)學課程作為分類的依據(jù)。
分別對上述課程的學生成績進行正態(tài)分布模型檢驗。按照“分析-描述統(tǒng)計-探索”的步驟進行操作,將“成績”作為因變量,得到輸出結(jié)果(詳見附錄)。對數(shù)據(jù)的正態(tài)性進行擬合優(yōu)度檢驗,首先進行“數(shù)據(jù)-加權(quán)個案”操作,再由“分析-非參數(shù)檢驗-卡方”進行操作,將“成績”作為因變量,得到輸出結(jié)果(詳見附錄)。
從輸出結(jié)果中,可以看到各個課程的成績都沒有均勻地分布在某個特定的區(qū)間內(nèi),而是存在有很多偏離區(qū)域很大的點。同時,可以看到各個課程的成績漸進顯著性均為0,而卡方擬合優(yōu)度檢驗中,該項值小于0.05即視為不滿足預(yù)期頻數(shù),因此可以得出:成績沒有服從正態(tài)分布。
2 采用K-Means聚類對成績分課程進行聚類分析
經(jīng)過多次嘗試,最終確定聚類數(shù)目為3類,以下進描述聚類數(shù)目為的聚類結(jié)果。
將上述不同課程的學成成績進行聚類分析。按照“分析-分類-聚類”步驟操作,將“成績”作為變量,并將聚類數(shù)設(shè)置3,勾選“保存”中的“聚類成員”“與聚類中心的距離”項目和“選項”中的“每個個案的聚類信息”項目,得到輸出結(jié)果。
從輸出結(jié)果中以“概率論與數(shù)理統(tǒng)計(理工類)學生成績聚類分析結(jié)果”為例可以看到,三個類的聚類中心點,分別是29、63、80。最終聚類中心間的距離,第一類與第二類的距離為34.527,第一類和第三類之間的距離為51.458,第二類和第三類之間的距離為16.931。
從輸出結(jié)果還可以看出,在以63為聚類中心點的第二類數(shù)據(jù)樣本數(shù)是最多的,而以80為聚類中心點的第三類數(shù)據(jù)樣本數(shù)次之,以29為聚類中心點的第一類數(shù)據(jù)樣本數(shù)最少。
縱觀另外四組輸出結(jié)果,除了微積分(理工類)和線性代數(shù)(經(jīng)管類)之外,微積分(經(jīng)管類)和線性代數(shù)(理工類)均符合這樣的規(guī)律。因此我們將對數(shù)據(jù)進行分課程、年級、老師進行聚類分析,以期得到一個普適的規(guī)律。
3 采用K-Means聚類對成績分課程、年級、老師進行聚類
通過2010~2017年公共數(shù)學學生成績,進行分課程、老師、年級,再對每組數(shù)據(jù)進行聚類分析。具體操作步驟如上所述,得到輸出結(jié)果:當以課程、年級、老師作為分類的依據(jù),對學生成績以3個類進行聚類時,基本上剛好可以劃分為不及格,剛及格,高分這三個類別。其中,不及格的聚點在8~56之間,其中33為眾數(shù)。及格的聚點在60~73之間,其中62、64為眾數(shù)。高分的聚點在75~87之間,其中77為眾數(shù)。自2010年起到2017年的八年中,不及格的學生成績雖有略微提高,但是變化不大。及格的學生成績則變化較大,提升了6~7分。高分組的學生成績比較穩(wěn)定,上下浮動不大。同時從輸出結(jié)果中可以看到教師的不同對學生成績的分布并無太大影響。
4 采用K-Means聚類對成績分課程、老師進行聚類
由于考慮到不同老師的教學方法的不同,將所采集到的數(shù)據(jù)分老師、課程再次進行聚類分析。具體操作步驟如上所述,得到輸出結(jié)果如下:
通過對不同老師相同課程的橫向比較發(fā)現(xiàn):每位老師的各個課程的橫向比較,學生成績的劃分大致相同,且所占比例最多的聚類中心點在成績65左右。
5 對數(shù)據(jù)分課程得出的聚類進行正態(tài)分布模型檢驗
從正態(tài)分布模型中看出雖然整體并不服從正態(tài)分布,現(xiàn)探究是否存在某一定區(qū)域內(nèi)的數(shù)據(jù)服從正態(tài)分布。
將2010~2017級的概率論與數(shù)理統(tǒng)計(理工類)、微積分(經(jīng)管類)、微積分(理工類)、線性代數(shù)(理工類)這四門不同的公共數(shù)學課程對按3類聚類進行聚類分析輸出的結(jié)果再次根據(jù)各自的聚類再次進行正態(tài)分布模型檢驗。
從輸出結(jié)果中,可以看到各個課程的每個聚類成績都是均勻地分布在某個特定的區(qū)間內(nèi),并沒有存在有很多偏離區(qū)域很大的點。同時,可以看到各個課程的成績漸進顯著性,該項值均大于0.05,即視為滿足預(yù)期頻數(shù)。
因此可以得出結(jié)論:各個課程聚類分析后每個聚類成績各自服從正態(tài)分布。
6 對各個課程聚類分析后每個聚類各自再次進行K-Means聚類
經(jīng)過多次的嘗試,最終確定聚類數(shù)目仍為3類。
具體操作步驟如上所述,得到的輸出結(jié)果如下所示:
從輸出結(jié)果來看,通過將各個課程的聚類分析后得到的每個聚類再次進行聚類分析,聚類中心點以及每個聚類所占比例均沒有明顯的差別。
7 結(jié)論
本文中共統(tǒng)計數(shù)據(jù)7854條:概率論與數(shù)理統(tǒng)計(理工類)課程學生成績1871條,微積分(經(jīng)管類)課程學生成績1684條,微積分(理工類)學生成績1725條,線性代數(shù)(經(jīng)管類)學生成績539條,線性代數(shù)(理工類)學生成績2035條。
對所得數(shù)據(jù)通過正態(tài)分布模型檢驗得到,學生成績并不像預(yù)計的一樣服從正態(tài)分布。
對數(shù)據(jù)進行聚類分析發(fā)現(xiàn):
基本上每個課程的學生成績都呈現(xiàn)“不及格—及格—高分”這三個成績區(qū)間,且處于“及格”區(qū)間的人數(shù)多于其他區(qū)間。
之后,通過課程、老師、年級分類,再進行聚類分析。分析輸出的結(jié)果,發(fā)現(xiàn)不同課程、老師、年級的學生成績基本上剛好可以劃分為“不及格—及格—高分”這三個類別。其中不及格的聚點在8~56之間,其中33為眾數(shù)。及格的聚點在60~73之間,其中62、64為眾數(shù)。高分的聚點在75~87之間,其中77為眾數(shù)。
自2010年起到2017年的八年中,不及格學生的成績雖有略微提高,但是變化不大。及格學生的成績則變化較大,提升了6~7分。高分組學生的成績比較穩(wěn)定,上下浮動不大。
通過課程、老師分類,再進行聚類分析。分析輸出結(jié)果顯示,教師的不同對學生成績的劃分并無太大影響,不同課程對學生成績的劃分也不存在太大的影響。
鑒于通過對各個課程的正態(tài)分布模型檢驗看到整體雖然不服從正態(tài)分布,但通過對各個課程聚類分析后得出的聚類再次進行正態(tài)分布模型檢驗,發(fā)現(xiàn)各個聚類中的成績是服從正態(tài)分布。
因此,對各個課程聚類分析后每個聚類各自再次進行K-Means聚類。通過輸出結(jié)果可以看到聚類中心點以及每個聚類所占比例均沒有明顯的差別。由此可得出結(jié)論:不同班級、年級、教師之間學生成績分布差異不明顯。
綜上所述,近年來,該校學生公共數(shù)學成績60多分人數(shù)居多,80分以上高分人數(shù)相對較少。原因之一是在時間安排上,十八周課程一結(jié)束就開始考試,考試時間、科目密集,學生缺乏充足的考前復(fù)習歸納總結(jié)時間,使得學生往往考前突擊復(fù)習,導(dǎo)致大部分學生考試成績普遍偏低,高分相對較少;近年來學校擴招,降低了生源的準入門檻,導(dǎo)致學生總體素質(zhì)下降,成績出現(xiàn)在高分區(qū)間的數(shù)量也就相應(yīng)下降;另外,學校設(shè)置計算總成績的方法是當學生期末成績高于50分,將平時、期中、期末成績加權(quán)平均為總成績,導(dǎo)致總成績在50~59分數(shù)段的數(shù)據(jù)缺失。
參考文獻:
[1]高惠璇.應(yīng)用多元統(tǒng)計分析[M].北京:北京大學出版社,2014:1-419.
[2]范金城,梅長林.數(shù)據(jù)分析[M].北京:科學出版社,2002:205-241.
[3]薛薇.SPSS統(tǒng)計分析方法及應(yīng)用[M].北京:電子工業(yè)出版社,2013:1-382.
[4]李春林.應(yīng)用多元統(tǒng)計分析[M].北京:清華大學出版社,2013:1-223.
[5]薛薇.統(tǒng)計分析與SPSS的應(yīng)用[M].北京:中國人民大學出版社,2014.1-307.
[6]楊維忠,張?zhí)?SPSS統(tǒng)計分析與行業(yè)應(yīng)用案例詳解[M].北京:清華大學出版社,2013:1-412.
[7]馮巖松.SPSS22.0統(tǒng)計分析應(yīng)用教程[M].北京:清華大學出版社,2015:1-439.
[8]吳贛昌 概率論與數(shù)理統(tǒng)計(理工類·第五版) [M].北京:中國人民大學出版社,2017:212-217.
[9]戴維·R·安德森.商務(wù)與經(jīng)濟統(tǒng)計(第八版)[M].北京:中信出版社,2003:505.
◇責任編輯 趙麗斌◇