孫永輝
[摘 要]聚類分析作為數(shù)據(jù)挖掘方法之一,有著廣泛的應(yīng)用前景,作為一個工具它能夠?qū)?shù)據(jù)族進(jìn)行細(xì)致分析,得出數(shù)據(jù)分布的情況,為數(shù)據(jù)的評定提供參考和幫助。根據(jù)學(xué)生成績進(jìn)行等級評定,也是在教學(xué)過程中對學(xué)生綜合考核的一個重要環(huán)節(jié),能否公平、公正、合理、客觀地來評價學(xué)生的學(xué)習(xí)成果尤為重要。傳統(tǒng)一刀切的評價方法明顯存在缺陷,對學(xué)生也不公平,因此,可以利用數(shù)據(jù)挖掘技術(shù)中的聚類分析思想來克服這些傳統(tǒng)評價體系的缺陷。
[關(guān)鍵詞]聚類分析;數(shù)據(jù)挖掘;評價體系;K-means算法
doi:10.3969/j.issn.1673 - 0194.2016.06.164
[中圖分類號]G642.4 [文獻(xiàn)標(biāo)識碼]A [文章編號]1673-0194(2016)06-0-02
0 引 言
數(shù)據(jù)挖掘(Data Mining)就是從大量的、模糊的、不完全的隨機數(shù)據(jù)中提取出隱含的、不為人們所知道的但對人們卻很有用的信息和知識的過程。它涉及的領(lǐng)域比較廣泛。
聚類分析通俗地說就是“物以類聚”的意思,它會根據(jù)設(shè)定的條件對數(shù)據(jù)進(jìn)行分類,把性質(zhì)相似或相近的數(shù)據(jù)劃分為一類,把原來大量的、沒有什么關(guān)聯(lián)的數(shù)據(jù)變成彼此有聯(lián)系的幾類數(shù)據(jù),便于人們了解數(shù)據(jù)的分布情況和數(shù)據(jù)間的彼此關(guān)聯(lián)關(guān)系。它應(yīng)用的領(lǐng)域也比較多,比如:模式識別、動植物分類、基因分析、市場分析等。
1 聚類分析的步驟及分類
步驟一:特征提取。由用戶決定使用原始數(shù)據(jù)(樣本)的那些特征來對數(shù)據(jù)進(jìn)行分類和提取,把提取到的數(shù)據(jù)以矩陣的形式表現(xiàn)出來,每一行是一個樣本,每一列是一個特征指標(biāo)變量。
步驟二:獲得聚類譜系圖。要想獲得聚類譜系圖,可以使用聚類算法,樣本特征提取以后形成一個帶有特征的矩陣,它把每一個樣本看成特征變量空間中的點。聚類算法的目的就是獲得能夠反映n維空間中這些樣本點的最本質(zhì)的“族”的性質(zhì)。也就是說,它不考慮其他領(lǐng)域的知識,僅僅根據(jù)樣本的特征進(jìn)行細(xì)化分類,形成一個特征集合。
步驟三:分類閥值的選取。這一步就要憑借經(jīng)驗和領(lǐng)域知識了,根據(jù)生成的聚類譜系圖和具體的應(yīng)用目的來選取適當(dāng)?shù)拈y值。閥值確定以后,就能夠從聚類譜系圖上得出分類方案,為下一步數(shù)據(jù)的分析提供幫助和參考,所以選取合適的閥值就顯得很重要了。
聚類分析常用的方法有4類:劃分方法、層次方法、基于密度的方法及基于網(wǎng)絡(luò)的方法。這4類方法各有特點,根據(jù)應(yīng)用目的不同可以選取不同的方法,期中K-means算法是最常用的基于劃分方法的聚類算法,它是根據(jù)距離相似性作為評價指標(biāo),也就是兩個樣本的距離越近,相似性就越大。其最終的目的是把距離最近的對象作為一族來看待,把原始數(shù)據(jù)劃分成緊湊且獨立的各個數(shù)據(jù)族。
2 聚類技術(shù)在成績分析中的應(yīng)用
學(xué)生成績是考核學(xué)生對知識掌握程度的重要指標(biāo),也是評價教學(xué)質(zhì)量和教學(xué)效果的一個重要依據(jù),如何科學(xué)合理地對學(xué)生成績進(jìn)行分析評價是教育工作者多年來一直研究的課題。學(xué)生成績的評定由原來傳統(tǒng)的五分制、百分制慢慢發(fā)展到現(xiàn)在普遍使用的學(xué)分制、等級制。等級制成績評價法比較適合對學(xué)生成績的一個縱向衡量,而橫向衡量學(xué)生成績的差異則所包含的信息量還明顯很不足。
因此,如何科學(xué)地利用原始成績給出合理的等級制成績,完成以后對成績進(jìn)行各種分析提供依據(jù)就顯得尤為重要。本文主要采用了K-means聚類分析算法來解決這個問題。
表1是2014級×××學(xué)院100名學(xué)生的計算機基礎(chǔ)課程的成績表(本文取部分學(xué)生成績)。
按照傳統(tǒng)的成績劃分方法,筆者把表1的成績劃分為5個等級,分別是大于等于90分的為優(yōu)秀;大于等于80分小于等于89分的為良好;大于等于70分小于等于79分的為中等;大于等于60分小于等于69分的為及格;小于60分的為不及格。具體劃分結(jié)果如表2所示。
按照K-means聚類算法,若設(shè)置初始聚類中心為53、66、74、79、89,則劃分的結(jié)果如表3所示。
通過對表2和表3的對照,可以看出按照傳統(tǒng)的劃分方法優(yōu)秀的學(xué)生只有2人,而用K-means算法劃分的優(yōu)秀人數(shù)為4人,這對于那些成績?yōu)?8、89的學(xué)生來說應(yīng)該是合理的,能夠更加客觀地反映出學(xué)生真實的學(xué)習(xí)情況和掌握知識的情況。
用傳統(tǒng)的方法對學(xué)生成績進(jìn)行評定,雖然方法簡單、標(biāo)準(zhǔn)統(tǒng)一,但也存在明顯的不足,就是過于注重分?jǐn)?shù),不是很靈活。例如:考試難度偏難或者評分標(biāo)準(zhǔn)比較嚴(yán)格,結(jié)果導(dǎo)致學(xué)生成績普遍偏低,這時再用傳統(tǒng)的評分標(biāo)準(zhǔn)就不能客觀地評價學(xué)生的學(xué)習(xí)情況,就會有大量的學(xué)生不及格或優(yōu)秀、良好的偏少。假如絕大多數(shù)學(xué)生的成績低于80分,用新的評價標(biāo)準(zhǔn)來評價,就應(yīng)該把80分以上的定為優(yōu)秀,這樣就比較合理了,也能夠比較客觀地評價教師的教學(xué)效果。
3 結(jié) 語
通過對聚類分析研究思想的闡述和實驗結(jié)果的分析,筆者發(fā)現(xiàn),使用聚類分析可以彌補傳統(tǒng)成績評定中存在的缺陷,能夠比較客觀、合理、科學(xué)、公平地反映學(xué)生的學(xué)習(xí)情況和對知識的掌握程度,客觀公正地評價此門課程的教學(xué)效果。另外,聚類分析作為數(shù)據(jù)挖掘的重要組成部分已經(jīng)普遍應(yīng)用到各行各業(yè)中,人們也要根據(jù)具體問題具體分析,選擇最佳的聚類方法。
主要參考文獻(xiàn)
[1][美]拉德.數(shù)據(jù)挖掘?qū)嵺`[M].朱揚勇,左子葉,張忠平,譯.北京:機械工業(yè)出版社,2003.
[2]趙法信,王國業(yè).數(shù)據(jù)挖掘中聚類分析算法研究[J].通化師范學(xué)院學(xué)報,2005(2).
[3]周蕾.聚類分析在學(xué)生成績分析中的應(yīng)用[J].農(nóng)業(yè)網(wǎng)絡(luò)信息,2010(5).