田 萌 許 超
隨著數(shù)據(jù)收集和存儲方式的更新和計算機技術(shù)的飛速發(fā)展,數(shù)據(jù)挖掘成為一個日益活躍的研究領(lǐng)域。自2008 年首屆國際教育數(shù)據(jù)挖掘大會成功召開以來,教育數(shù)據(jù)挖掘成為教育領(lǐng)域大數(shù)據(jù)應(yīng)用的一個研究熱點。學(xué)生成績是評估學(xué)校教育質(zhì)量的重要依據(jù),也是評價學(xué)生是否掌握所學(xué)知識的重要方式,傳統(tǒng)成績數(shù)據(jù)處理多關(guān)注平均分和排名,數(shù)據(jù)背后隱藏的大量信息通常被忽略。利用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)成績數(shù)據(jù)隱藏的內(nèi)在規(guī)律,進(jìn)行個性化的學(xué)生指導(dǎo)方案的設(shè)計,可助力精準(zhǔn)教學(xué)研究改革,為提高學(xué)生學(xué)習(xí)成績、提升教師教學(xué)效果和提速學(xué)校管理效率提供有力的技術(shù)支持[1]。
近些年來,國內(nèi)外針對教育數(shù)據(jù)挖掘的研究成果比較豐富。從國際研究情況看,Bhardwaj、AL- Radaideh、Hijazi 等人曾分別針對印度、約旦、巴基斯坦等國家的大學(xué)生課堂表現(xiàn),收集學(xué)生課堂測試、期中考試、期末考試等過程性成績,借助聚類算法分析并預(yù)測其學(xué)習(xí)成績[2-5]。從國內(nèi)研究情況看,目前教育數(shù)據(jù)挖掘研究多集中于大學(xué)教育階段,研究多立足于利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)課程關(guān)聯(lián)分析、課程成績預(yù)測和學(xué)生就業(yè)指導(dǎo)等。開展中學(xué)教育數(shù)據(jù)研究較多的是華東師范大學(xué)、華中師范大學(xué)、上海師范大學(xué)及西北師范大學(xué)等高水平師范類院校。[6-8]這些文獻(xiàn)選擇的成績數(shù)據(jù)處理角度各有不同,而本文主要針對學(xué)生的成績數(shù)據(jù),利用數(shù)據(jù)挖掘算法分析學(xué)生的學(xué)習(xí)狀態(tài)和學(xué)習(xí)優(yōu)勢,提升學(xué)生學(xué)習(xí)信心,找準(zhǔn)學(xué)生學(xué)習(xí)薄弱點,為學(xué)生的全體發(fā)展與整體素質(zhì)提高保駕護(hù)航。
相關(guān)分析是一種探討變量間的相關(guān)關(guān)系的通用統(tǒng)計方法,最常見的單因子相關(guān)分析法就是相關(guān)系數(shù)法。單因子相關(guān)分析法可用來發(fā)現(xiàn)兩個因子變量間的相關(guān)關(guān)系,當(dāng)考察兩組對象間的關(guān)系時,就需要采取多因子相關(guān)分析法,例如典型相關(guān)分析方法。典型相關(guān)分析方法是求解在約束條件a'Var(x)a=1 與b'Var(y)b=1 下,使得x 的線性函數(shù)U=a'x 和y 的線性函數(shù)V=b'y 的相關(guān)系數(shù)最大時的方向a 與b。
聚類分析利用數(shù)量化方法描述事物之間的相似程度,它作為一種定量方法將從數(shù)據(jù)分析的角度,給出一個更準(zhǔn)確、細(xì)致的分類工具。通常大家利用距離來度量樣本點間的相似程度。層次聚類是一種聚類算法,它基于距離度量可以創(chuàng)造出一棵條理分明的多層次積聚的聚類樹。
本文數(shù)據(jù)取自淄博市一所公辦初等中學(xué),所考察年級學(xué)生共582 名,本次實驗選取本級部三次集中考試成績,共包含12個平行班,沒有設(shè)置重點班和非重點班。因為考試監(jiān)考紀(jì)律嚴(yán)格,閱卷流程規(guī)范,所以成績可視作真實有效。為保證數(shù)據(jù)處理時的規(guī)范性,在去除了缺失數(shù)據(jù)的信息后,最終保留了569 名學(xué)生的數(shù)據(jù)記錄。
本市初中生開設(shè)多門學(xué)科,因不同學(xué)科的總分不同,為減少計分方式對成績分析的影響,我們對學(xué)生每門課的成績進(jìn)行歸一化,得到學(xué)生每門課程的規(guī)范成績?;谝?guī)范成績,8 門課程的成績平均值和標(biāo)準(zhǔn)差匯總在表1。
從表1 可以看出,8 門課程中英語得分率最高,地理得分率最低。從標(biāo)準(zhǔn)差上來看,地理、數(shù)學(xué)與生物的個體間差異較大。數(shù)學(xué)課一直是學(xué)生學(xué)習(xí)能力的一個試金石,進(jìn)入初中教學(xué)內(nèi)容的突然增多,對計算能力日益嚴(yán)格使得學(xué)生成績間的差距不斷增大。地理與生物是初中新上課程,且綜合性較強,很多仍固守小學(xué)階段考前背一背習(xí)慣的學(xué)生,往往不能得到較好的成績。這說明升入初中后學(xué)生的學(xué)習(xí)習(xí)慣和學(xué)習(xí)主動性對學(xué)習(xí)成績有著較大的影響。
表1 8 門課程的成績平均值與標(biāo)準(zhǔn)差
表2 課程間的相關(guān)系數(shù)
本節(jié)分別應(yīng)用相關(guān)系數(shù)法和典型相關(guān)分析法進(jìn)行不同課程的單因子相關(guān)分析和多因子相關(guān)分析?;跉w一化后的數(shù)據(jù),我們利用MATLAB 軟件得到8 個課程間的兩兩相關(guān)系數(shù)。見表2 。
表2 中粗體數(shù)據(jù)標(biāo)出了每門課程與其線性相關(guān)程度最高的課程,從中可以看出歷史、地理與生物的成績相關(guān)性較高,這是因為在初一階段此這三門課均屬于副科,課時較少,所以成績往往能客觀反映學(xué)生的學(xué)習(xí)積極性與學(xué)習(xí)態(tài)度。語文與政治的成績線性相關(guān)性最大,其原因可能在于這兩門課程都偏重文字記憶及文章和段落的理解。數(shù)學(xué)與生物及地理的成績相關(guān)性較大,部分原因在于這些課程都偏重邏輯推理能力。
圖1 不同類課程間的典型相關(guān)圖
圖2 樣本班級學(xué)生成績模糊動態(tài)聚類圖
圖3 簇1-簇3 學(xué)生規(guī)范成績數(shù)據(jù)差1 后柱形圖
圖4 簇4-簇6 學(xué)生規(guī)范成績數(shù)據(jù)差1 后柱形圖
除了單門課程間的成績相關(guān)性分析,將語數(shù)外三科化為一組,史地生政化為一組,體育單列一組,找出不同類課程間的典型相關(guān)系數(shù),經(jīng)MATLAB 計算得出語數(shù)外與史地生政的相關(guān)系數(shù)為0.9116,史地生政與體育的相關(guān)系數(shù)是0.3512,語數(shù)外與體育的相關(guān)系數(shù)為0.2675,其示意圖見圖1。
從中可看出,語數(shù)外成績與史地生政成績密切相關(guān),這說明對多數(shù)學(xué)生而言,學(xué)習(xí)能力、學(xué)習(xí)態(tài)度在文化課科目中的表現(xiàn)是比較一致的。體育成績是一個比較獨立的存在,這也提醒廣大的家長及學(xué)生應(yīng)注重各項體育鍛煉的開展,提高身體素質(zhì),全面提升整體素質(zhì)。
圖5 學(xué)生規(guī)范成績的區(qū)間長度柱形圖
為研究學(xué)生個體的成績,分析其優(yōu)劣勢學(xué)科,制定個性化指導(dǎo)方案,幫助授課教師提高教學(xué)效果,本文采用多元統(tǒng)計分析中的層次聚類方法,以6 班學(xué)生為例,分析學(xué)生的聚類效果。本班共有有效成績的學(xué)生46 人。
從圖2 中可以看出,本班學(xué)生除5 名學(xué)生外,其余學(xué)生間的相似度比較高。通過觀察模糊動態(tài)聚類圖,自主將這些學(xué)生分成6 個簇,見圖3 及圖4。圖中不同的簇之間用虛線進(jìn)行分開。
通過觀察圖3- 圖4,可看出不同簇類間的細(xì)微差別。例如,第一簇類學(xué)生成績相對比較均衡且成績較高,第二簇類學(xué)生成績依舊比較均衡,但相比第一簇類成績稍遜一些,第三簇類學(xué)生的多數(shù)課程成績較高,但成績不算均衡,有瘸腿課程,第四簇類學(xué)生的成績較均衡,但是多數(shù)成績稍遜于均值,第五簇類學(xué)生的成績相比第四簇類各科成績表現(xiàn)更低一點,第六簇類的學(xué)生不及格科目較多,且成績離均值更遠(yuǎn)。
為展示學(xué)生不同課程間的差異,令每名學(xué)生成績中的最大值減去最小值,得到該學(xué)生的成績區(qū)間長度,見圖5。從圖中可以看出,第一簇與第二簇學(xué)生成績均衡性較好,這兩類學(xué)生老師應(yīng)積極鼓勵,隨時注意學(xué)生的學(xué)習(xí)狀態(tài),進(jìn)一步發(fā)覺有興趣的學(xué)科,幫助其有效提高學(xué)習(xí)成績。第三簇與第四簇學(xué)生的不同科類成績差異較大,說明該簇學(xué)生有較明顯的優(yōu)勢學(xué)科,針對這類學(xué)生老師應(yīng)因勢利導(dǎo),鼓勵該簇學(xué)生補齊弱勢學(xué)科,實現(xiàn)總體成績的較大提升。第五簇及第六簇學(xué)生,老師應(yīng)多鼓勵,在課上及課下關(guān)注他們的心理健康及身體健康,鼓勵他們發(fā)現(xiàn)學(xué)習(xí)興趣點,找到學(xué)校教育的快樂,建立自信心。
挖掘?qū)W生成績所隱含信息,能更科學(xué)客觀地評價學(xué)生的學(xué)習(xí)狀況,在模糊掉社會所敏感的排名的同時,讓家長清楚看到孩子年級或班級的學(xué)習(xí)狀況,找準(zhǔn)學(xué)生的弱勢學(xué)科,進(jìn)而有針對性的幫助孩子查缺補漏,提高成績。