段桂芹
(廣東松山職業(yè)技術(shù)學(xué)院 計(jì)算機(jī)系, 廣東 韶關(guān) 512126)
高校在評(píng)價(jià)學(xué)生綜合素質(zhì)時(shí),常采用平均分或總分作為衡量學(xué)生成績(jī)的等級(jí)標(biāo)準(zhǔn),在實(shí)際教學(xué)反饋中這種評(píng)價(jià)方式簡(jiǎn)單易行,但卻忽略了由于試卷難易程度無(wú)法統(tǒng)一而導(dǎo)致評(píng)價(jià)結(jié)果的單一性和片面性。這種評(píng)價(jià)方式無(wú)法客觀真實(shí)地反映學(xué)生間的成績(jī)相對(duì)分布與學(xué)情分類(lèi)情況[1],例如:當(dāng)2門(mén)課程的平均成績(jī)分別為80分和70分,某學(xué)生2門(mén)課程同為79分,則該生第二門(mén)課程的評(píng)價(jià)等級(jí)要高于第一門(mén)課程,但是這種評(píng)價(jià)結(jié)果卻無(wú)法通過(guò)原始卷面成績(jī)直接反映出來(lái),尤其當(dāng)教師需要對(duì)學(xué)生進(jìn)行分組教學(xué)并制定與學(xué)情相適應(yīng)的個(gè)性化指導(dǎo)時(shí),這種有缺陷的評(píng)價(jià)方式很難科學(xué)地對(duì)學(xué)生進(jìn)行合理分組。因此,本文提出采用全局中心聚類(lèi)算法對(duì)學(xué)生成績(jī)進(jìn)行聚類(lèi),將距離相對(duì)較近(高相似度)的學(xué)生聚為一類(lèi),通過(guò)分析比較各類(lèi)學(xué)生成績(jī),給出相應(yīng)的改進(jìn)建議,為學(xué)生的成績(jī)?cè)u(píng)價(jià)、個(gè)性化發(fā)展以及教師的差異化教學(xué)提供理論依據(jù)。
聚類(lèi)分析作為一種探索性分析方法被廣泛應(yīng)用于模式識(shí)別、計(jì)算機(jī)視覺(jué)、數(shù)據(jù)挖掘等領(lǐng)域中,其目的是根據(jù)相似性原則將物理或抽象的對(duì)象集合分成若干個(gè)子集,并分析各子集中數(shù)據(jù)對(duì)象的內(nèi)在聯(lián)系、規(guī)律和特點(diǎn)[2]。K-means聚類(lèi)算法是應(yīng)用最為廣泛的劃分方法之一,其實(shí)現(xiàn)簡(jiǎn)單、快速,能有效地處理大數(shù)據(jù)集,但該算法對(duì)初始聚類(lèi)中心和異常數(shù)據(jù)較為敏感,且不能用于發(fā)現(xiàn)非凸形狀的簇,因此聚類(lèi)結(jié)果存在不穩(wěn)定性。為了解決K-means算法的這些問(wèn)題,研究人員圍繞簇中心的選擇與優(yōu)化提出了新的計(jì)算方法[3-6],提高了原算法的聚類(lèi)質(zhì)量,減少了聚類(lèi)時(shí)間。
全局中心聚類(lèi)算法由距離矩陣構(gòu)建、初始聚類(lèi)中心選擇和簇中心更新3部分構(gòu)成。首先,使用距離公式計(jì)算各數(shù)據(jù)對(duì)象間的距離;再?gòu)木嚯x矩陣中選取k個(gè)首尾相連且距離乘積最大的數(shù)據(jù)對(duì)象作為初始聚類(lèi)中心集合V;然后,根據(jù)集合V完成初次聚類(lèi),選取簇內(nèi)距離之和最小的樣本作為簇中心,生成臨時(shí)簇中心集合V’;最后,按最小距離將各樣本劃分到相應(yīng)簇中,重復(fù)簇中心迭代過(guò)程,直至聚類(lèi)誤差平方和函數(shù)收斂,完成聚類(lèi)。
全局中心聚類(lèi)算法中的相關(guān)定義和公式如下所述。
設(shè)樣本集X為含有n個(gè)學(xué)生樣本的集合,X={X1,X2,…,Xi,…,Xn},每個(gè)學(xué)生樣本由p門(mén)課程成績(jī)組成,第i個(gè)樣本對(duì)象可以表示為:Xi=(Xi1,Xi2,…,Xip)?,F(xiàn)將樣本集劃分為k個(gè)簇,每簇含學(xué)生樣本數(shù)為m,則樣本集X={C1,C2,…,Ck},簇中心集合V={v1,v2,…,vk}(k 定義1min-max標(biāo)準(zhǔn)化是對(duì)原始數(shù)據(jù)的線性變換,使結(jié)果落到[0,1]區(qū)間,轉(zhuǎn)換函數(shù)如下: (1) 其中,x為某門(mén)課程的原始成績(jī);max為該門(mén)課程的最高分;min為該門(mén)課程的最低分。 定義2空間兩點(diǎn)間的歐氏距離定義為: (2) 其中,i=1,2,…,n;j=1,2,…,n;w=1,2,…,p。 定義3樣本集X的空間距離矩陣X’ (3) 定義4樣本Xi的簇內(nèi)距離定義為Xi與其所屬同一簇的樣本間的距離之和,即: (4) 其中,i=1,2,…,n,j=1,2,…,n 定義5第k簇的簇內(nèi)距離之和矩陣定義為: (5) 定義6將第k簇的簇內(nèi)距離之和最小的樣本Xi作為中心,即: Vk=find(min(DistSum_array(Ck))) (6) 定義7聚類(lèi)誤差平方和E定義為: (7) 其中,Xij是第i簇的第j個(gè)數(shù)據(jù)對(duì)象,Vi是第i簇的中心。 定義8CH指標(biāo)(Calinski-Harabasz)[7] (8) CH指標(biāo)將各簇中心點(diǎn)與樣本集的均值中心的距離平方和作為數(shù)據(jù)集的分離度,將簇中各點(diǎn)與簇中心的距離平方和作為簇內(nèi)的緊密度,將分離度與緊密度的比值視為CH的最終指標(biāo)。該指標(biāo)越大表示各簇之間分散程度越高,簇內(nèi)越緊密,聚類(lèi)結(jié)果越優(yōu)。Milligan在文獻(xiàn)[8]中,對(duì)CH等評(píng)價(jià)指標(biāo)的性能進(jìn)行了深入探討。實(shí)驗(yàn)結(jié)果表明,CH指標(biāo)在多數(shù)情況下,都要優(yōu)于其它的指標(biāo)。 使用全局中心聚類(lèi)算法對(duì)學(xué)生成績(jī)進(jìn)行聚類(lèi)的整個(gè)流程分為3部分:數(shù)據(jù)預(yù)處理、多聚類(lèi)結(jié)果比較和最優(yōu)聚類(lèi)結(jié)果輸出。其中,多聚類(lèi)結(jié)果比較環(huán)節(jié)中的聚類(lèi)數(shù)k由內(nèi)部評(píng)價(jià)指標(biāo)CH確定,設(shè)計(jì)流程如圖1所示。 圖1 學(xué)生成績(jī)聚類(lèi)流程 具體實(shí)施步驟如下: (1)根據(jù)式(1)完成數(shù)據(jù)預(yù)處理; (2)根據(jù)式(2)計(jì)算樣本集X中各學(xué)生對(duì)象之間的距離; (3)根據(jù)式(3)構(gòu)建全部學(xué)生的空間距離矩陣X’; (5)將非簇中心的學(xué)生對(duì)象按距離最近原則劃分至相應(yīng)簇中; (6)使用式(4)、(5)得出簇內(nèi)距離之和矩陣,再根據(jù)式(6)從矩陣中篩選出簇內(nèi)距離之和最小的學(xué)生對(duì)象作為新的簇中心存入集合V’中; (7)重復(fù)步驟(6),更新各簇的中心,直到|Z’|=k,再用V’取代V; (8)重復(fù)步驟(5); (9)根據(jù)式(7)判斷函數(shù)E是否收斂,如果收斂,則聚類(lèi)算法結(jié)束,否則轉(zhuǎn)到步驟(4)繼續(xù)執(zhí)行; (10)使用式(8)中的CH指標(biāo)對(duì)k={2,3,…,n1/2}的聚類(lèi)結(jié)果進(jìn)行評(píng)價(jià),將CH指標(biāo)取最大值時(shí)的聚類(lèi)劃分作為最優(yōu)聚類(lèi)結(jié)果輸出。 本文中的樣本數(shù)據(jù)來(lái)源于某高校2016級(jí)81名同學(xué)第四學(xué)期JAVA 、HTML5、C#數(shù)據(jù)訪問(wèn)技術(shù)3門(mén)課程的成績(jī)??偝煽?jī)由平時(shí)成績(jī)(20%)和期末成績(jī)(80%)構(gòu)成,均采用百分制形式計(jì)算,原始數(shù)據(jù)見(jiàn)表1,采用min-max標(biāo)準(zhǔn)化后的數(shù)據(jù)見(jiàn)表2。 表1 學(xué)生原始成績(jī) 使用全局中心聚類(lèi)算法對(duì)學(xué)生成績(jī)聚類(lèi)后,用CH指標(biāo)對(duì)k={2,3,…,9}的聚類(lèi)結(jié)果進(jìn)行對(duì)比,指標(biāo)值與聚類(lèi)數(shù)目的關(guān)系如圖2所示。由CH指標(biāo)的特征可知,該值最大時(shí)的k值即為最優(yōu)聚類(lèi)數(shù),此時(shí)的聚類(lèi)結(jié)果為最優(yōu)劃分。從圖2可以看出,最優(yōu)聚類(lèi)數(shù)kopt=3,此時(shí)的各簇?cái)?shù)據(jù)分布情況如圖3所示,各簇中心點(diǎn)位置詳見(jiàn)表3。 表2 預(yù)處理后的學(xué)生成績(jī) 圖2 不同k值的CH指標(biāo) 圖3 k=3時(shí)各簇樣本分布情況 Tab.3Thecentralpointdistributionofeachclusterafterstandardization JAVAC#數(shù)據(jù)訪問(wèn)技術(shù)HTML5I00.240.55II0.960.920.98III0.830.320 從圖 3的最優(yōu)聚類(lèi)結(jié)果得出:學(xué)生可以劃分為3類(lèi),各類(lèi)人數(shù)分別為25人、41人、15人,所占比例分別為:30.86%、50.62%、18.52%,聚類(lèi)劃分基本符合正態(tài)分布,結(jié)合這3類(lèi)同學(xué)的平時(shí)成績(jī),對(duì)本次聚類(lèi)結(jié)果分析如下。 (1)相比于其它2類(lèi),第一類(lèi)學(xué)生的綜合素質(zhì)較高,邏輯思維能力較強(qiáng),程序設(shè)計(jì)能力較為突出,建議在現(xiàn)有水平的基礎(chǔ)上,適當(dāng)提高學(xué)習(xí)目標(biāo),深入學(xué)習(xí)更為前沿的知識(shí)技術(shù); (2)第二類(lèi)學(xué)生成績(jī)比較穩(wěn)定,HTML5課程的成績(jī)有較大提升空間,建議嘗試改進(jìn)現(xiàn)有學(xué)習(xí)方法,提高應(yīng)試技巧,加強(qiáng)主動(dòng)學(xué)習(xí)意識(shí); (3)第三類(lèi)學(xué)生的成績(jī)低于及格線,說(shuō)明這部分學(xué)生的學(xué)習(xí)態(tài)度消極或者學(xué)習(xí)方法不正確,需要教師、輔導(dǎo)員給予學(xué)生更多的關(guān)心,幫助學(xué)生樹(shù)立正確的學(xué)習(xí)方法,鼓勵(lì)學(xué)生在學(xué)習(xí)上投入更多的精力。 本文使用全局中心聚類(lèi)算法結(jié)合CH評(píng)價(jià)指標(biāo)對(duì)學(xué)生成績(jī)進(jìn)行聚類(lèi)分析與評(píng)價(jià)。通過(guò)min-max標(biāo)準(zhǔn)化方法完成數(shù)據(jù)的歸一化,相比傳統(tǒng)的均值聚類(lèi)算法,本文算法通過(guò)計(jì)算內(nèi)部評(píng)價(jià)指標(biāo)解決了無(wú)類(lèi)標(biāo)樣本聚類(lèi)數(shù)k難以確定的問(wèn)題。所得到的最優(yōu)聚類(lèi)結(jié)果符合實(shí)際情況,有效地克服了因課程之間難度差異大而帶來(lái)的評(píng)價(jià)不合理的問(wèn)題,并針對(duì)各類(lèi)學(xué)生的學(xué)習(xí)成績(jī)給出了相應(yīng)的改進(jìn)建議。2 學(xué)生成績(jī)聚類(lèi)
2.1 聚類(lèi)流程
2.2 數(shù)據(jù)預(yù)處理
2.3 K值的確定與最優(yōu)聚類(lèi)結(jié)果
3 聚類(lèi)結(jié)果分析
4 結(jié)束語(yǔ)