彭琳鈞 吳其昌 李詩敏 周欣欣 肖存濤
摘要:隨著高校招生規(guī)模擴(kuò)大,對(duì)學(xué)生的考試成績(jī)進(jìn)行科學(xué)分析以便于專業(yè)分流和分級(jí)教學(xué)是目前高校管理工作中面臨的一個(gè)重要問題。本文提出了一種基于k均值與SVM算法的半監(jiān)督學(xué)習(xí)模型,首先利用因子分析提取學(xué)生的綜合能力指標(biāo),然后通過k均值聚類對(duì)部分?jǐn)?shù)據(jù)進(jìn)行初步分類標(biāo)注,最后利用訓(xùn)練得到的支持向量機(jī)模型對(duì)其他數(shù)據(jù)進(jìn)行分類。模型驗(yàn)證結(jié)果表明本文構(gòu)建的數(shù)學(xué)模型可以準(zhǔn)確地區(qū)分不同特質(zhì)的學(xué)生,高效地對(duì)大量學(xué)生做出合理的分類,對(duì)于高校管理和教學(xué)改革具有明確的指導(dǎo)意義。
關(guān)鍵詞:半監(jiān)督學(xué)習(xí);聚類;因子分析;支持向量機(jī);綜合評(píng)價(jià)
中圖分類號(hào):TP391.41? ? ?文獻(xiàn)標(biāo)識(shí)碼:A? ? 文章編號(hào):1007-9416(2020)10-0000-00
0引言
隨著中國高等教育的發(fā)展,學(xué)校越來越注重對(duì)學(xué)生因材施教,而中國的應(yīng)試教育使學(xué)生的能力評(píng)價(jià)指標(biāo)僅僅局限于卷面總分,試卷上各個(gè)小題得分差異常常被忽視,而這些差異正是體現(xiàn)學(xué)生能力差異的重要指標(biāo)。隨著大類招生的發(fā)展,如何有效綜合評(píng)價(jià)學(xué)生能力,有效地對(duì)大量學(xué)生進(jìn)行合理分類,對(duì)學(xué)校的教學(xué)和管理工作至關(guān)重要。綜合評(píng)價(jià)學(xué)生能力并批量進(jìn)行學(xué)生分類系統(tǒng)的建立,一方面可以充分挖掘?qū)W生不同的能力特質(zhì),補(bǔ)齊缺陷,貫徹因材施教的思想;另一方面,能夠?qū)崿F(xiàn)對(duì)卷面成績(jī)大數(shù)據(jù)分析的自動(dòng)化,從而減輕教師對(duì)繁雜數(shù)據(jù)分析的負(fù)擔(dān);特別是針對(duì)當(dāng)前高校大類招生的發(fā)展趨勢(shì),滿足高校對(duì)大量學(xué)生進(jìn)行專業(yè)分流以及教學(xué)改革的需求。
目前,國內(nèi)有許多基于聚類分析模型在學(xué)生成績(jī)?cè)u(píng)價(jià)方法的研究,如韋曉靜基于k-means 模型的研究[1,2],這類研究雖然可以針對(duì)學(xué)生特質(zhì)進(jìn)行分類,但是教學(xué)改革是教師面向?qū)W生的改革,是人與人之間的活動(dòng),這中間有許多特殊因素,如學(xué)生特殊情況,教師教學(xué)習(xí)慣,學(xué)校資源情況等因素,無法單純從數(shù)據(jù)中挖掘,那么這時(shí)候就需要教師針對(duì)實(shí)際情況對(duì)分類結(jié)果進(jìn)行微調(diào)修正。就目前來看,高校一般一個(gè)行政班 30 人左右,人工修正尚可應(yīng)付。但隨著高校大類招生的發(fā)展,一個(gè)大類動(dòng)輒百人,這時(shí)教師人工修正分類結(jié)果工作量巨大,極大地消耗了教師的精力。
本研究基于卷面各個(gè)小題得分?jǐn)?shù)據(jù),構(gòu)建出聚類分析與SVM結(jié)合的半監(jiān)督學(xué)習(xí)模型,依據(jù)模型分類結(jié)果對(duì)學(xué)生進(jìn)行分類,以此為教師對(duì)學(xué)生分類管理,因材施教提供科學(xué)依據(jù)與便利。
1.1 模型構(gòu)建思想
k?means 聚類是一種無監(jiān)督學(xué)習(xí)模型,完全依賴數(shù)據(jù)上的差異進(jìn)行分類,而教學(xué)改革是人與人之間的活動(dòng),數(shù)據(jù)無法體現(xiàn)的各種人文因素不可忽略;SVM 是一種監(jiān)督學(xué)習(xí)模型,可以根據(jù)人工提供的標(biāo)注訓(xùn)練模型,人工標(biāo)注過程中則可以考慮種種人文因素調(diào)整標(biāo)注,使 SVM 模型的分類可以把人文因素考慮在內(nèi),而在大類招生發(fā)展潮流中的教學(xué)改革,人工顯然無法勝任如此大量的標(biāo)注任務(wù)。
綜合考慮兩種模型利弊,本文提出基于 k?means 聚類結(jié)合 SVM 半監(jiān)督學(xué)習(xí)模型的學(xué)生分類系統(tǒng)。通過 k?means 聚類對(duì)學(xué)生數(shù)據(jù)初步分類標(biāo)注;教師基于已經(jīng)初步分類的標(biāo)注數(shù)據(jù),綜合考慮各種人文因素對(duì)分類標(biāo)注進(jìn)行調(diào)整;基于調(diào)整后的分類標(biāo)注數(shù)據(jù),SVM 對(duì)剩下大量未分類的學(xué)生進(jìn)行分類。
如此,即可解決大類招生中學(xué)生分類的缺乏標(biāo)注和標(biāo)注任務(wù)量過大的問題,又可以充分考慮各方因素,減小教學(xué)改革工作量,使教學(xué)改革具備科學(xué)性與現(xiàn)實(shí)意義。
1.2 模型實(shí)現(xiàn)方法
1.2.1 數(shù)據(jù)預(yù)處理
本文選取某學(xué)期高等數(shù)學(xué)考試200個(gè)學(xué)生考試卷面各個(gè)小題的得分?jǐn)?shù)據(jù)進(jìn)行分析。借鑒了馬曉悅在教學(xué)質(zhì)量評(píng)估中多元統(tǒng)計(jì)方法的應(yīng)用[3],使用 SPSS 工具,通過因子分析探索 27 道小題之間的潛在的相關(guān)關(guān)系,挖掘出八個(gè)能力因子系數(shù),計(jì)算得出各個(gè)學(xué)生在這八個(gè)能力方面的得分情況如表1,這八個(gè)能力得分?jǐn)?shù)據(jù)描述了200個(gè)學(xué)生在卷面上體現(xiàn)的各方面的綜合能力。
這里挖掘出的八個(gè)能力因子具體指代的能力類型需要教改人員認(rèn)真設(shè)計(jì)分析試卷小題特點(diǎn),根據(jù)各小題在每個(gè)能力因子的系數(shù)確定每個(gè)能力具體類型,本文主要研究分類的模型,則以能力1,能力2... 來指代各能力類型;同理,學(xué)生分類的類別這里也以類別 1,類別 2,類別 3 指代。
1.2.2 訓(xùn)練集類別標(biāo)注
通過 k?means 算法對(duì)數(shù)據(jù)初步分類,以此作為 SVM 的訓(xùn)練集。由于離群數(shù)據(jù)將大大影響 k?means 算法的聚類效果,對(duì)得到的每位學(xué)生的能力水平集合 D 進(jìn)行利群數(shù)據(jù)的剔除。利用張?zhí)鸬热藢?duì)離群點(diǎn)預(yù)處理的處理方法[4], 當(dāng)系數(shù) c=0.3 時(shí),樣本集 D 中并沒有需要剔除的離群數(shù)據(jù)。樣本集 D 即為 k?means 算法的樣本集 C。
通過肘方法確定聚類中心個(gè)數(shù)。由于在開始選擇聚類中心個(gè)數(shù) k 時(shí),我們尚不能知道將學(xué)生分為幾類時(shí)分類效果最好,而手肘法是一種利用 SSE 和 K 值的關(guān)系圖確認(rèn)最優(yōu) k 值的方式,當(dāng)聚類中心個(gè)數(shù) k 增大時(shí),樣本的劃分自然變得更加細(xì)致,SSE 也自然漸漸變小。當(dāng) k 小于聚類的真實(shí)情況時(shí),k 值的增加會(huì)顯著的增加每個(gè)類的聚合度,此時(shí) SSE 下降速度較快。而當(dāng) k 值遠(yuǎn)遠(yuǎn)大于劇烈的真實(shí)情況時(shí),SSE 變換會(huì)漸漸平緩。根據(jù)基于 K?means 的手肘法自動(dòng)獲取 K 值方法研究中提到的手肘法實(shí)現(xiàn)方法[5], 并結(jié)合學(xué)校資源和教師能力等因素,最終選擇聚類中心個(gè)數(shù)為 k=3,聚類中心如表2所示。
基于學(xué)生在各個(gè)能力得分?jǐn)?shù)據(jù),通過 python3 根據(jù)模型原理編寫程序?qū)崿F(xiàn)聚類算法,得到每個(gè)學(xué)生的初步分類標(biāo)注數(shù)據(jù)。
1.2.3 分類模型訓(xùn)練
以 k?means 模型計(jì)算得到的分類標(biāo)記為基礎(chǔ),經(jīng)過教改人員考慮其他人文因素微調(diào)后,將所得訓(xùn)練集對(duì) SVM 模型進(jìn)行訓(xùn)練。SVM 模型的構(gòu)建,采用了 python3 中的 sklearn 模塊,由于 sklearn 模塊的 SVM 模型只能進(jìn)行二分類,而根據(jù)聚類模型肘方法和學(xué)校資源現(xiàn)實(shí)情況,學(xué)生分為三類的情況最好,最符合實(shí)際。
本文采用多次分類的方法解決此問題。當(dāng)聚類分類結(jié)果 yi = 1 或 2 時(shí),令 yi = 1,當(dāng)聚類分類結(jié)果為 3 時(shí),令 yi = ?1,第二次應(yīng)用 SVM 對(duì) yi = 1 的樣本再進(jìn)行一次分類,即可實(shí)現(xiàn)多分類。根據(jù)學(xué)校師資等實(shí)際情況進(jìn)行更多分類時(shí)也可以用此方法解決。
設(shè)置正則化參數(shù) C(懲罰系數(shù))為 20;參數(shù) max_iter(最高迭代次數(shù))為 43;取聚類分類完成后的 200 個(gè)學(xué)生的分類數(shù)據(jù),由于正反例數(shù)據(jù)量相當(dāng)(95﹕105),我們直接隨機(jī)選取 160 個(gè)數(shù)據(jù)作為訓(xùn)練集,隨機(jī)選取 40 個(gè)數(shù)據(jù)為驗(yàn)證集;采用了 ACC(準(zhǔn)確率),REC(召回率)和 F1(精確率和召回率的加權(quán)平均值)三種參數(shù)來評(píng)估模型性能。第二次分類時(shí)參數(shù)設(shè)置與第一次分類相同。
1.3 模型實(shí)驗(yàn)結(jié)果與分析
基于各個(gè)學(xué)生在八個(gè)能力因子上的得分情況,通過聚類分析模型對(duì)學(xué)生進(jìn)行了初步分類。如表 2可以看出三類學(xué)生的差異:第一類學(xué)生各方面的能力都較好;第二類學(xué)生能力三和能力四得分都較低;第三類學(xué)生能力四得分較低。這部分進(jìn)行了初步分類的能力得分?jǐn)?shù)據(jù)再以 8﹕2 的比例分別作為訓(xùn)練集和驗(yàn)證集對(duì) SVM 模型進(jìn)行訓(xùn)練和驗(yàn)證,最終得出如表 3中三個(gè)評(píng)估參數(shù) (ACC,REC,F(xiàn)1)。由表 3中的數(shù)據(jù)可以看出,SVM 模型兩次分類下來的準(zhǔn)確率,精確率,召回率都較高,說明模型性能穩(wěn)定,且準(zhǔn)確、精確。
為了模擬教師在遇到特殊情況時(shí)需要修正分類結(jié)果的情況,我們?cè)?200 個(gè)樣本中修改了 20 個(gè)樣本的分類結(jié)果。結(jié)果如表4所示,模型仍然可以保持較好的準(zhǔn)確率,說明模型具有優(yōu)秀的穩(wěn)定性和泛化能力,可以適用于不同地域,不同教師教學(xué)習(xí)慣等情況下的學(xué)生分類工作。
2 結(jié)論
針對(duì)學(xué)生綜合能力,契合當(dāng)下高校大類招生和因材施教理念發(fā)展潮流的研究對(duì)教學(xué)改革和高校管理非常重要,而當(dāng)下關(guān)于此課題缺鮮少研究。充分利用卷面數(shù)據(jù),全面考慮人文因素,符合大類招生發(fā)展的需要,契合因材施教的理念,本研究通過聚類結(jié)合 SVM 的半監(jiān)督學(xué)習(xí)分類器較好地解決了這些問題。
基于聚類?SVM 半監(jiān)督學(xué)習(xí)模型的學(xué)生分類系統(tǒng),首先通過 k?means 聚類分析,對(duì)數(shù)據(jù)進(jìn)行初步分類,教師可以根據(jù)實(shí)際情況,充分考慮人文因素,對(duì)初步分類結(jié)果進(jìn)行微調(diào);這部分?jǐn)?shù)據(jù)即可作為訓(xùn)練集,SVM 模型通過這個(gè)訓(xùn)練集進(jìn)行學(xué)習(xí),訓(xùn)練完成后的模型可以對(duì)剩余的大量學(xué)生數(shù)據(jù)進(jìn)行分類。這樣的聚類?SVM 半監(jiān)督學(xué)習(xí)模型,即可以充分利用卷面數(shù)據(jù)根據(jù)學(xué)生能力進(jìn)行分類,又可以避免數(shù)據(jù)以外的人文因素被忽略,同時(shí)還可以對(duì)逐漸發(fā)展成熟的大類招生產(chǎn)生的大量學(xué)生數(shù)據(jù)進(jìn)行分類。
實(shí)驗(yàn)表明,基于聚類?SVM 半監(jiān)督學(xué)習(xí)模型的學(xué)生分類系統(tǒng)有非常好的準(zhǔn)確率和非常低的敏感度,泛化能力較好可以極大地降低教師的工作量,且為學(xué)生分類提供有力的數(shù)據(jù)基礎(chǔ),使教學(xué)改革更具科學(xué)性,具有現(xiàn)實(shí)意義。
參考文獻(xiàn)
[1]韋曉靜.基于聚類分析的學(xué)生成績(jī)?cè)u(píng)定方法研究[J].智庫時(shí)代,2020(11):203-204.
[2]孫吉貴,劉杰,趙連宇.聚類算法研究[J].軟件學(xué)報(bào),2008(1):48-61.
[3]馬曉悅.高校數(shù)學(xué)教學(xué)質(zhì)量評(píng)價(jià)中多元統(tǒng)計(jì)分析的應(yīng)用[J].教育現(xiàn)代化,2018,5(19):231-233+252.
[4]張?zhí)?,尹長(zhǎng)川,潘林,等.基于改進(jìn)的聚類和關(guān)聯(lián)規(guī)則挖掘的學(xué)生成績(jī)分析[J].北京郵電大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2018,20(2):91-96.
[5]吳廣建,章劍林,袁丁.基于 K?means 的手肘法自動(dòng)獲取 K 值方法研究[J].軟件,2019,40(5):167-170.
收稿日期:2020-09-07
基金項(xiàng)目:廣東省信息物理融合系統(tǒng)重點(diǎn)實(shí)驗(yàn)室開放基金(2016B030301008),廣東省高教廳教學(xué)改革項(xiàng)目,廣東工業(yè)大學(xué)大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目。
作者簡(jiǎn)介:彭琳鈞,男,廣東茂名人,本科,研究方向:數(shù)據(jù)挖掘。[A1]
通信作者:肖存濤(1979—),男,山東陽信人,碩士,副教授,研究方向:機(jī)器學(xué)習(xí)、離散事件系統(tǒng)。
Research on Comprehensive Evaluation and Classification of Students Based on K-means Clustering and SVM Algorithms
PENG Lin-jun,WU Qi-chang, LI Shi-min, ZHOU Xin-xin, XIAO Cun-tao
(School of Applied Mathematics,Guangdong University of Technology, Guangzhou Guangdong? 510520)
Abstract:With the expansion of college enrollment, scientific analysis of students' test scores is an important issue in the management of colleges and universities in order to facilitate professional diversification and hierarchical teaching. In this paper, a semi-supervised learning model based on k-means and SVM algorithms is proposed. Firstly, factor analysis is used to extract the comprehensive ability components of students, then k-means clustering is used to classify and label some data, and finally, the support vector machine model obtained by training is used to classify other data. The experiment shows that the model constructed in this paper can accurately distinguish students with different characteristics in high efficiency, which can guide the management and teaching reform of colleges and universities significantly.
Key words:Semi-supervised Learning;Clustering;Factor Analysis;Support Vector Machine;Comprehensive Assessment