王新龍
(長(zhǎng)治學(xué)院 計(jì)算機(jī)系,山西 長(zhǎng)治 046011)
聚類分析在中等職業(yè)學(xué)校學(xué)生專業(yè)選擇分析中的應(yīng)用
王新龍
(長(zhǎng)治學(xué)院 計(jì)算機(jī)系,山西 長(zhǎng)治 046011)
利用聚類分析能比較清晰的獲得數(shù)據(jù)分布的情況,根據(jù)每一個(gè)簇的特點(diǎn),可以對(duì)特定的簇作進(jìn)一步分析。對(duì)中等職業(yè)學(xué)校學(xué)生入學(xué)成績(jī)進(jìn)行聚類分析是學(xué)生專業(yè)選擇的重要參考。傳統(tǒng)的專業(yè)選擇方法存在一些不足,使用聚k-平均聚類分析算法對(duì)學(xué)生的入學(xué)成績(jī)進(jìn)行聚類分析,為學(xué)生提出專業(yè)選擇的建議,可以有效地克服傳統(tǒng)專業(yè)選擇方法的不足。
聚類分析;k-平均算法;專業(yè)選擇
中等職業(yè)學(xué)校主要招收十五、六歲的初中畢業(yè)生,學(xué)生年齡較小,多數(shù)家長(zhǎng)和學(xué)生對(duì)專業(yè)要求了解不多或根本就不了解,往往有從眾心理,出現(xiàn)盲目選報(bào)專業(yè)。而后期又會(huì)因?qū)I(yè)學(xué)習(xí)困難,需要重新更換專業(yè),造成學(xué)校資源及家庭時(shí)間、精力、資金的浪費(fèi),尤其是加重了貧困家庭的負(fù)擔(dān)。我們經(jīng)過(guò)調(diào)查、討論認(rèn)為,影響專業(yè)選擇的主要因素有:學(xué)生的理科(數(shù)學(xué)、物理、化學(xué))基礎(chǔ)、文科(語(yǔ)文、政治、英語(yǔ))基礎(chǔ)、職業(yè)能力成績(jī)、就業(yè)情況、個(gè)人愛好及性格特點(diǎn)等。通過(guò)對(duì)學(xué)生成績(jī)的聚類分析,可以將學(xué)生群體按其成績(jī)分為全面、偏理、偏文、一般等4類,以此聚類分析結(jié)果作為參考我們可以為學(xué)生專業(yè)選擇提出比較合理的建議。
數(shù)據(jù)挖掘可以簡(jiǎn)單的理解為從大量數(shù)據(jù)中提取或挖掘知識(shí),許多人把數(shù)據(jù)挖掘視為數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(KDD)。因此數(shù)據(jù)挖掘一般可表述為:從存放在數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或其他信息庫(kù)中的大量數(shù)據(jù)中挖掘有趣知識(shí)的過(guò)程[1]。
聚類分析僅根據(jù)在數(shù)據(jù)中發(fā)現(xiàn)的描述對(duì)象及其關(guān)系的信息,將數(shù)據(jù)對(duì)象分組。其目標(biāo)是:組內(nèi)的對(duì)象相互之間是相似的(相關(guān)的),而不同組中的對(duì)象是不同的(不相關(guān)的)。組內(nèi)的相似性(同質(zhì)性)越大,組間差別越大,聚類就越好。
聚類技術(shù)發(fā)展迅速,在數(shù)據(jù)挖掘、模式識(shí)別、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、心理學(xué)、生物學(xué)、信息檢索、空間數(shù)據(jù)庫(kù)技術(shù)、市場(chǎng)營(yíng)銷等領(lǐng)域有著非常廣泛的應(yīng)用前景。由于數(shù)據(jù)庫(kù)中收集了大量的數(shù)據(jù),聚類分析已經(jīng)成為數(shù)據(jù)挖掘研究領(lǐng)域一個(gè)非?;钴S的研究課題。
聚類分析主要針對(duì)的數(shù)據(jù)類型包括:區(qū)間標(biāo)度變量(如:重量、高度、工資);二元變量(如:0,1,或 Yes,No);標(biāo)稱變量(如:traffic light具有紅、黃、綠三種狀態(tài)/停、看、行三種狀態(tài));序數(shù)型變量(如:教授、副教授、講師、助教;或者:總經(jīng)理、部門經(jīng)理、科長(zhǎng)、職員);以及由這些變量類型構(gòu)成的復(fù)合類型。
一些基本的聚類算法通常采用數(shù)據(jù)矩陣和相異度矩陣兩種典型的數(shù)據(jù)結(jié)構(gòu)。
①數(shù)據(jù)矩陣:設(shè)有n個(gè)數(shù)據(jù)對(duì)象,可用p個(gè)屬性來(lái)描述每個(gè)對(duì)象,則n×p矩陣稱為數(shù)據(jù)矩陣。
②相異度矩陣:按n個(gè)數(shù)據(jù)對(duì)象兩兩間的相異度構(gòu)建的n階矩陣(因?yàn)橄喈惗染仃囀菍?duì)稱的,只需寫出上三角或下三角即可)稱為相異度矩陣。
目前存在大量的聚類算法,具體應(yīng)用時(shí)應(yīng)根據(jù)數(shù)據(jù)的類型和聚類的目的以及應(yīng)用范圍而選擇相應(yīng)的舉法。到目前為止聚類的算法大體可分為如下幾類:
①基于劃分的方法。常見的算法有:k-平均算法,在該算法中每個(gè)簇用該簇中對(duì)象的平均值來(lái)表示;k-中心點(diǎn)算法,在該算法中,每個(gè)簇用接近聚類中心的一個(gè)對(duì)象來(lái)表示。
②基于層次的方法。常見的算法有:CURE、BIRCH和Chameleon等算法。
③基于密度的方法。常見的算法有:DBSCAN和OPTICS等算法。
④基于網(wǎng)格的方法。常見的算法有:WaveCluster和CLIQUE等算法。
⑤基于模型方法。常見的算法有:神經(jīng)網(wǎng)絡(luò)算法和COBWEB等算法。
K-平均算法如下。
輸入:蔟的數(shù)目個(gè)數(shù)k和包含n個(gè)對(duì)象的數(shù)據(jù)庫(kù);
輸出:k個(gè)蔟,使平方誤差準(zhǔn)則最小;
方法:
(1)任意選擇k個(gè)對(duì)象作為初始的簇中心;
(2)repeat;
(3)根據(jù)簇中對(duì)象的平均值,將每個(gè)對(duì)象(重新)賦給最類似的蔟;
(4)更新簇的平均值,即計(jì)算每個(gè)蔟中對(duì)象的平均值;
(5)until不再發(fā)生變化;
中等職業(yè)學(xué)校主要培養(yǎng)學(xué)生既要具備一定的專業(yè)理論,更應(yīng)該具有一定的職業(yè)技能水平,以適應(yīng)社會(huì)的需求。但是每年大多數(shù)新生在專業(yè)選擇上無(wú)章可循,不清楚自己應(yīng)該學(xué)什么專業(yè)。例如:前幾年計(jì)算機(jī)專業(yè)比較熱,很多家長(zhǎng)、學(xué)生也不考慮自己是否適合就要求上計(jì)算機(jī)專業(yè),更不考慮市場(chǎng)需求量?,F(xiàn)在進(jìn)行畢業(yè)生跟蹤調(diào)查并與其他專業(yè)作比較,我們會(huì)發(fā)現(xiàn)有不少學(xué)生認(rèn)為當(dāng)初的專業(yè)選擇是錯(cuò)誤的。
每年新生入學(xué)都要進(jìn)行文化課和職業(yè)能力測(cè)試,如何科學(xué)地根據(jù)入學(xué)成績(jī)和本人的實(shí)際情況給出學(xué)生比較適合的專業(yè)建議,是職業(yè)教育工作的首要問題。本文中主要使用了k-平均聚類分析算法來(lái)分析學(xué)生情況,從而給出專業(yè)建議及指導(dǎo)。
表1所示的是某職業(yè)學(xué)校09級(jí)100名學(xué)生的入學(xué)成績(jī)(部分),為便于計(jì)算,考慮到多數(shù)專業(yè)對(duì)學(xué)生的數(shù)學(xué)、物理、化學(xué)基礎(chǔ)要求較高,而對(duì)語(yǔ)文、政治、英語(yǔ)要求相對(duì)較弱,因此對(duì)數(shù)據(jù)進(jìn)行如下處理:
理科成績(jī)=(數(shù)學(xué)+理化)/2,文科成績(jī)=(語(yǔ)文+政治+英語(yǔ))/3;
均分=理科成績(jī)×0.6+文科成績(jī)×0.4,處理后的成績(jī)見表2;
表1 某職業(yè)學(xué)校學(xué)生入學(xué)成績(jī)表(部分)
表2 經(jīng)過(guò)數(shù)據(jù)處理的成績(jī)表(部分)
職業(yè)能力成績(jī)作為選報(bào)專業(yè)的參考成績(jī)。
根據(jù)表2的均分成績(jī),按照k-平均聚類算法。若初始簇中心為 50、65、80、90,則劃分的結(jié)果,如表3所示。
表3 k-平均算法分類結(jié)果
類1基本對(duì)應(yīng)于學(xué)習(xí)成績(jī)較好的一類學(xué)生,理科、文科、職業(yè)能力成績(jī)都比較高,這類學(xué)生比較適合的專業(yè)比較多,如機(jī)械加工、電工、數(shù)控、物業(yè)管理、市場(chǎng)營(yíng)銷等。
類2基本對(duì)應(yīng)理科成績(jī)較好的學(xué)生,比較適合的專業(yè)為機(jī)械加工、電工、數(shù)控等專業(yè)。
因?yàn)檫@些專業(yè)對(duì)數(shù)學(xué)、物理基礎(chǔ)要求較高,就業(yè)后有大量的故障分析和計(jì)算工作。
類3基本對(duì)應(yīng)文科成績(jī)較好的學(xué)生,比較適合的專業(yè)為:物業(yè)管理、旅游管理、文秘等專業(yè)。
類4基本對(duì)應(yīng)各科成績(jī)較差的學(xué)生,比較適合餐飲服務(wù)、市場(chǎng)營(yíng)銷、藝術(shù)類等專業(yè)或初級(jí)工種的學(xué)習(xí)。
這樣在專業(yè)選擇的時(shí)候,我們可以根據(jù)學(xué)生的成績(jī)及個(gè)人特點(diǎn),給學(xué)生提供較好的專業(yè)選擇建議。
通過(guò)對(duì)應(yīng)用以上方法的09級(jí)100名學(xué)生實(shí)際專業(yè)選擇情況調(diào)查,我們發(fā)現(xiàn)由于近年來(lái)數(shù)控加工技術(shù)工人短缺,就業(yè)形式較好,再加上媒體的報(bào)道宣傳,這100名學(xué)生報(bào)數(shù)控加工專業(yè)的人數(shù)多達(dá)63人,與聚類分析結(jié)果有較大差別。經(jīng)過(guò)這一年的學(xué)習(xí),由于有數(shù)控編程、工程力學(xué)、加工工藝相關(guān)計(jì)算等課程難度較大,當(dāng)初理科成績(jī)較低現(xiàn)在還沒有明顯提高的少部分學(xué)生要求更換專業(yè),給教學(xué)管理及正常教學(xué)工作的實(shí)施帶來(lái)了一定的難度和資源的浪費(fèi)。因此在未來(lái)的新生專業(yè)設(shè)置、選報(bào)專業(yè)指導(dǎo)等工作中,在充分做好市場(chǎng)調(diào)研的基礎(chǔ)上,可以用聚類分析方法,結(jié)合學(xué)生興趣、特點(diǎn)等給出比較科學(xué)的專業(yè)選擇建議,幫助學(xué)生選擇好專業(yè)。
本文針對(duì)中等職業(yè)學(xué)校學(xué)生選擇專業(yè)的有關(guān)問題,側(cè)重在成績(jī)方面通過(guò)聚類分析得到的結(jié)果給出了專業(yè)選擇的建議,通過(guò)實(shí)際應(yīng)用取得了預(yù)期效果。
[1]范明,范宏建等譯.數(shù)據(jù)挖掘?qū)д摚跰].北京:人民郵電出版社,2006.223-260.
[2]范明,孟小峰等譯.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2001.355-397.
(責(zé)任編輯 李學(xué)斌)
TP311
A
1673-2014(2010)05-0068-03
2010—08—10
長(zhǎng)治學(xué)院2007年校級(jí)資助項(xiàng)目(編號(hào):20072007)。
王新龍(1964— ),男,山西沁水人,副教授,主要從事數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘、信息技術(shù)教學(xué)法研究。