• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于SVM的高校考研預(yù)測(cè)模型研究

      2021-04-15 04:41:02閆立強(qiáng)杜亞冰
      關(guān)鍵詞:內(nèi)積考研樣本

      張 凱,閆立強(qiáng),劉 暢,杜亞冰

      (河南城建學(xué)院,河南 平頂山 467036)

      是否報(bào)考研究生是本科生畢業(yè)前面臨的重要選擇之一,若能對(duì)考研結(jié)果進(jìn)行預(yù)測(cè),將對(duì)本科生的報(bào)考決策和學(xué)校分類教學(xué)管理產(chǎn)生積極影響。目前,已有一些文獻(xiàn)使用機(jī)器學(xué)習(xí)算法研究考研預(yù)測(cè)問題,如李楠等提出基于Logistics算法的考研成績(jī)變量預(yù)測(cè)方法[1];王西平提出了改進(jìn)加權(quán)的KNN算法考研預(yù)測(cè)模型[2];鄭寶樂等提出了基于線性判決分析降維(LDA) 結(jié)合支持向量機(jī)(SVM) 建立學(xué)習(xí)模型的方法[3];黃炎對(duì)比了樸素貝葉斯算法、線性回歸和決策樹相結(jié)合的算法、LIBSVM向量機(jī)等三種算法的考研結(jié)果預(yù)測(cè)準(zhǔn)確率[4];李馳利用基于遺傳算法優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)對(duì)考研結(jié)果進(jìn)行了預(yù)測(cè)[5];張鳳霞等選取若干個(gè)家庭因素、個(gè)人因素、校園因素和專業(yè)因素等作為特征子集,使用CSVM、PSVM、TSVM分別對(duì)報(bào)考意愿進(jìn)行了預(yù)測(cè)[6]。這些文獻(xiàn)大多將已報(bào)考學(xué)生的在校成績(jī)作為樣本集訓(xùn)練預(yù)測(cè)模型,取得了較高的準(zhǔn)確度。

      圖1 分階段考研預(yù)測(cè)示意圖

      考研預(yù)測(cè)按時(shí)間順序可劃分為“意愿預(yù)測(cè)”和“結(jié)果預(yù)測(cè)”(含成績(jī)預(yù)測(cè))(見圖1)?!耙庠割A(yù)測(cè)”是在報(bào)考前,預(yù)測(cè)是否報(bào)考;“結(jié)果預(yù)測(cè)”是在報(bào)考后,預(yù)測(cè)考研結(jié)果(含考研成績(jī))。以上文獻(xiàn)均為“意愿預(yù)測(cè)”或“結(jié)果預(yù)測(cè)”。而從考研預(yù)測(cè)的實(shí)際場(chǎng)景出發(fā),若合并兩種預(yù)測(cè),將會(huì)大大增加預(yù)測(cè)模型的實(shí)用性,因此,本文嘗試以報(bào)考前某校所有理工科本科生的學(xué)業(yè)成績(jī)作為樣本集,建立一種基于支持向量機(jī)的考研結(jié)果預(yù)測(cè)模型。

      1 支持向量機(jī)

      (1)

      s.t.yi[(wxi)+b]≥1i=1,2,…,l

      (2)

      對(duì)線性不可分問題,引入一個(gè)松弛變量ξ≥0,可調(diào)的懲罰因子C,則二次規(guī)劃問題就變成:

      (3)

      s.t.yi[(wxi)+b]≥1-ξi=1,2,…,l

      (4)

      為了求解此二次規(guī)劃問題,引入Lagrange函數(shù):

      (5)

      其中αi>0為L(zhǎng)agrange乘子,求解后得到最優(yōu)分類函數(shù)[9]為:

      (6)

      其中:α*為最優(yōu)解,b*為最優(yōu)偏置。

      SVM通過選擇滿足Mercer條件的核函數(shù)K,即K(x,y)=?(x)·?(y),將輸入空間映射到高維特征空間(一般是Hiber空間),即對(duì)x作從輸入空間Rn到特征空間H的變換:

      x→?(x)=(?1(x),?2(x),…,?l(x))T,

      (7)

      在這個(gè)高維特征空間中求解最大間隔分類超平面,求解后得到最優(yōu)分類函數(shù)[10]為:

      (8)

      2 核函數(shù)

      選擇常用的內(nèi)積(dot)、徑向基(RBF)、多項(xiàng)式(polynominal)等核函數(shù)分別進(jìn)行模型訓(xùn)練,通過對(duì)比結(jié)果,找到評(píng)估結(jié)果最優(yōu)的核函數(shù)建立預(yù)測(cè)模型。

      (1)內(nèi)積核函數(shù):

      K(x,y)=x*y

      (9)

      (2)徑向基核函數(shù):

      K(x,y)=exp(-γ‖x-y‖2)

      (10)

      (3)多項(xiàng)式核函數(shù):

      K(x,y)=(x*y+1)d

      (11)

      其中,可調(diào)參數(shù)d是多項(xiàng)式的次數(shù)。

      3 SVM考研結(jié)果預(yù)測(cè)模型

      3.1 數(shù)據(jù)準(zhǔn)備

      影響報(bào)考決策和考研結(jié)果的因素很多,如:高考成績(jī)、在校各科成績(jī)及排名、英語四六級(jí)考試成績(jī)、專業(yè)方向、就業(yè)前景、獎(jiǎng)懲情況、家庭情況等[6]。這些影響因素內(nèi)部和相互之間的關(guān)系復(fù)雜。雖然屬性越多,預(yù)測(cè)準(zhǔn)確度越高,但是數(shù)據(jù)采集、數(shù)據(jù)清洗、模型建立等工作難度也會(huì)隨之增大,模型的執(zhí)行效率隨之降低。為增大模型的適用范圍、降低復(fù)雜性,本文選擇脫敏后的某校2020屆、2021屆4年制本科在生源地的理工畢業(yè)生的高考成績(jī)和在校成績(jī)作為樣本數(shù)據(jù),有效樣本數(shù)分別為1 612、1 504,合計(jì)3 116。考研結(jié)果作為樣本標(biāo)簽,屬性值為“Y”、“N”,分別對(duì)應(yīng)“被錄取”、“未報(bào)考或未被錄取”。

      理工科考研的科目一般為外語、政治、數(shù)學(xué)和專業(yè)課。為適用所有理工科專業(yè),本文選擇考研科目相同且全校統(tǒng)考的科目成績(jī)作為數(shù)據(jù)集。這些科目包括高等數(shù)學(xué)(上/下)、線性代數(shù)、大學(xué)英語(一至四)、思想政治理論課等11門科目的成績(jī)以及高考語文、數(shù)學(xué)、外語、外語聽力和綜合等5門科目的成績(jī)。由于高校內(nèi)不同科目的難易程度、考試類型不同,為增加成績(jī)的區(qū)分度,本文選取各科目的期末考試成績(jī),不含平時(shí)成績(jī)、期中考試成績(jī)。

      3.2 數(shù)據(jù)預(yù)處理

      在數(shù)據(jù)采集與考研結(jié)果統(tǒng)計(jì)過程中,由于人為因素會(huì)導(dǎo)致個(gè)別數(shù)據(jù)不準(zhǔn)確或數(shù)據(jù)缺失現(xiàn)象,但基于高質(zhì)量的數(shù)據(jù)分析出的結(jié)果才更具有價(jià)值,所以首先要進(jìn)行數(shù)據(jù)預(yù)處理,以清洗掉數(shù)據(jù)中的錯(cuò)誤。本文將存在數(shù)據(jù)重復(fù)、部分?jǐn)?shù)據(jù)缺失等問題的極少量樣本直接刪除,只保留完整、準(zhǔn)確、無空缺、無異常的數(shù)據(jù)值。

      3.3 數(shù)據(jù)標(biāo)準(zhǔn)化與特征選擇

      數(shù)據(jù)的標(biāo)準(zhǔn)化(normalization)是將數(shù)據(jù)按比例縮放,使之落入一個(gè)小的特定區(qū)間。最典型標(biāo)準(zhǔn)化方法是數(shù)據(jù)的歸一化處理,常見的數(shù)據(jù)歸一化方法有:min-max標(biāo)準(zhǔn)化、log函數(shù)轉(zhuǎn)換、atan函數(shù)轉(zhuǎn)換、z-score標(biāo)準(zhǔn)化。本文采用常見的z-score標(biāo)準(zhǔn)化。這種標(biāo)準(zhǔn)化是從所有值中減去數(shù)據(jù)的均值,然后除以標(biāo)準(zhǔn)差。z-score方法的轉(zhuǎn)換函數(shù)為:

      (12)

      式中:μ為數(shù)學(xué)期望;σ為標(biāo)準(zhǔn)差。

      本文采用Relief算法進(jìn)行特征選擇。Relief算法最早由Kira等[11]提出,主要解決兩類的分類問題,是公認(rèn)效果較好的 filter 式特征評(píng)估算法。它根據(jù)各個(gè)特征和類別的相關(guān)性賦予特征不同的權(quán)重,移除權(quán)重小于某個(gè)閾值的特征[12]。通過Relief算法過濾無關(guān)特征后,特征子集為高數(shù)上、高數(shù)下、高考外語聽力、高考外語、高考綜合、高考數(shù)學(xué)等(見表1)。

      表1 Relief算法評(píng)估的特征權(quán)重

      圖2 特征子集的箱線圖

      特征子集的箱線圖如圖2所示。由圖2可以看出,選擇的6個(gè)樣本特征沒有明顯的離群點(diǎn)。

      3.4 建立模型

      (1)劃分樣本集

      將2020屆、2021屆畢業(yè)生的樣本集分別定義為S1、S2,合集定義為S,即S=S1+S2。樣本集劃分為3種形式,均采用分層抽樣(如表1所示)。

      樣本集a:將S1作為訓(xùn)練集、S2作為測(cè)試集;樣本集b:將S2作為訓(xùn)練集、S1作為測(cè)試集;樣本集c:將S的70%作為訓(xùn)練集、30%作為測(cè)試集。

      (2)選擇評(píng)估指標(biāo)

      三個(gè)樣本集中的陽性樣本與陰性樣本的比例均顯著不平衡(約18),不能簡(jiǎn)單地采用單值評(píng)估指標(biāo),而多值評(píng)估指標(biāo)將會(huì)提高模型比較的難度,因此本文采用F-measure指標(biāo),該指標(biāo)將陽性查全度和陽性查準(zhǔn)度合并為一個(gè)單值,即

      (13)

      式中:precision為陽性查準(zhǔn)度

      (14)

      recall為陽性查全度。

      (15)

      β為用戶對(duì)陽性查全度的重視程度,是陽性查準(zhǔn)度的倍數(shù),本文β取1。

      圖3 三種SVM模型對(duì)三種樣本集的測(cè)試結(jié)果F1-measure

      (3)訓(xùn)練模型

      采用5折交叉驗(yàn)證法,分別使用三種核函數(shù)、三種樣本集訓(xùn)練SVM模型。三種核函數(shù)的懲罰參數(shù)C均取0,超參數(shù)γ取1.0、d取2.0?;谌N樣本集、三種核函數(shù)訓(xùn)練的SVM模型測(cè)試指標(biāo)F1-measure如圖3所示。

      由圖3可以看出:采用內(nèi)積核訓(xùn)練的SVM模型的測(cè)評(píng)結(jié)果F1-measure值比徑向基核和多項(xiàng)式核的都高;采用內(nèi)積核和徑向基核的SVM模型對(duì)三個(gè)樣本集的測(cè)試結(jié)果F1-measure值差異較小。因此,本文選擇內(nèi)積核作為考研結(jié)果預(yù)測(cè)模型的核函數(shù)。

      (4)網(wǎng)格搜索算法超參數(shù)尋優(yōu)

      本文采用網(wǎng)格搜索算法對(duì)基于內(nèi)積核的SVM模型超參數(shù)尋優(yōu)。尋優(yōu)過程使用樣本集c,訓(xùn)練集與測(cè)試集比例為73。從尋優(yōu)過程(見圖4)可以看出,通過網(wǎng)格搜索算法找到的最優(yōu)結(jié)果對(duì)應(yīng)的C值為2.2。懲罰參數(shù)C、參數(shù)間隔設(shè)置及結(jié)果最優(yōu)時(shí)的相應(yīng)值如表2所示。

      (a)c∈{0~10} (b)c∈{0~30} (c)c∈{0~100}

      (d)c∈{0~1 000} (e)c∈{0~10 000}

      表2 基于內(nèi)積核的SVM模型超參數(shù)尋優(yōu)設(shè)置

      3.5 結(jié)果分析

      分別使用三個(gè)樣本集,對(duì)基于內(nèi)積核的SVM模型進(jìn)行訓(xùn)練和測(cè)試,懲罰參數(shù)C設(shè)置為2.2,測(cè)試結(jié)果如表3所示。從表3可以看出,在三個(gè)樣本集的測(cè)試結(jié)果中,準(zhǔn)確度、查全度、差準(zhǔn)度、AUC、F1-measure等指標(biāo)比較接近,說明基于內(nèi)積核的SVM模型對(duì)不同樣本集的預(yù)測(cè)能力較穩(wěn)定。

      表3 基于內(nèi)積核的SVM測(cè)試結(jié)果

      三個(gè)樣本集對(duì)應(yīng)的測(cè)試結(jié)果混淆矩陣如表4所示。從表4可以看出:(1)本文模型預(yù)測(cè)的選擇報(bào)考并被錄取的學(xué)生中平均有66.44%被預(yù)測(cè)錯(cuò)誤,這部分學(xué)生存在報(bào)考并被錄取的可能,學(xué)校可以鼓勵(lì)這部分學(xué)生積極報(bào)考;(2)本文模型預(yù)測(cè)的未選擇報(bào)考或未被錄取的學(xué)生中平均約有90%預(yù)測(cè)正確,陰性查準(zhǔn)度較高,學(xué)??梢怨膭?lì)這部分學(xué)生創(chuàng)新創(chuàng)業(yè)或提高與就業(yè)相關(guān)的專業(yè)技能;(3)報(bào)考并被錄取學(xué)生中約71%與模型預(yù)測(cè)結(jié)果一致;(4)使用不同年份的樣本分別作為訓(xùn)練集和測(cè)試集,模型測(cè)試結(jié)果基本穩(wěn)定。

      表4 三個(gè)樣本集對(duì)應(yīng)的混淆矩陣結(jié)果

      4 對(duì)比實(shí)驗(yàn)分析

      分別采用本文SVM算法、文獻(xiàn)[1]中的Logistic回歸分類算法和文獻(xiàn)[2]中的kNN算法對(duì)樣本集c訓(xùn)練測(cè)試,對(duì)比測(cè)試結(jié)果如表5所示。其中kNN算法采用網(wǎng)格搜索算法找到最優(yōu)結(jié)果對(duì)應(yīng)的k值為2(參數(shù)尋優(yōu)過程見圖5)。由表5可以看出,Logistic回歸算法的AUC值與本文SVM算法相近,且其accuracy、precision值均為最高,但其綜合評(píng)價(jià)指標(biāo)F1-measure值明顯較低。說明此算法對(duì)于標(biāo)簽比例不均衡的樣本集c來說,預(yù)測(cè)效果較差。kNN算法的F1-measure值、AUC值、recall(Y)、precision(Y)均比本文SVM算法低。本文SVM算法對(duì)于樣本集c的訓(xùn)練測(cè)試結(jié)果明顯優(yōu)于Logistic回歸算法、kNN算法。

      表5 三種算法的對(duì)比測(cè)試結(jié)果

      圖5 kNN算法的參數(shù)尋優(yōu)過程

      5 結(jié)論

      為更加貼合實(shí)際的考研預(yù)測(cè)場(chǎng)景,采用上一年樣本數(shù)據(jù)訓(xùn)練模型,預(yù)測(cè)下一年的考研結(jié)果,本文將兩年的樣本數(shù)據(jù)集分為三種樣本集分別進(jìn)行訓(xùn)練建模。通過對(duì)比實(shí)驗(yàn),本文SVM算法建立的預(yù)測(cè)模型綜合預(yù)測(cè)能力優(yōu)于Logistics算法、kNN算法。本文模型選擇的樣本數(shù)據(jù)獲取直接、訓(xùn)練方法簡(jiǎn)單、訓(xùn)練時(shí)間短,適用于學(xué)校層面對(duì)所有理工科的所有專業(yè)學(xué)生進(jìn)行考研預(yù)測(cè),可以協(xié)助學(xué)校有針對(duì)性地指導(dǎo)學(xué)生做出報(bào)考決策。對(duì)預(yù)測(cè)結(jié)果為陽性的學(xué)生偏重指導(dǎo)理論學(xué)習(xí),對(duì)預(yù)測(cè)結(jié)果為陰性的學(xué)生偏重培養(yǎng)職業(yè)技能。下一步的研究工作可以考慮利用其他機(jī)器學(xué)習(xí)方法或優(yōu)化方法,嘗試引入更多的因素,例如學(xué)生報(bào)考信息、四六級(jí)英語考試成績(jī)、文科學(xué)生成績(jī)等,以提高模型的預(yù)測(cè)精度和適用范圍。

      猜你喜歡
      內(nèi)積考研樣本
      用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
      考研,我是怎么堅(jiān)持過來的
      考研,我是怎么堅(jiān)持過來的
      推動(dòng)醫(yī)改的“直銷樣本”
      工作十二年后,我才去考研
      海峽姐妹(2018年3期)2018-05-09 08:20:56
      隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
      基于矩陣的內(nèi)積函數(shù)加密
      關(guān)于矩陣的Frobenius內(nèi)積的一個(gè)推廣
      村企共贏的樣本
      關(guān)于概率內(nèi)積空間定義的平凡性
      醴陵市| 黄石市| 沁水县| 潮安县| 浏阳市| 邢台县| 潼南县| 昆山市| 新龙县| 酉阳| 金溪县| 全椒县| 清新县| 金溪县| 彭阳县| 嘉善县| 惠来县| 额济纳旗| 莱芜市| 兰考县| 绥江县| 宁夏| 洛川县| 辛集市| 舞阳县| 碌曲县| 遂平县| 太康县| 同心县| 广宁县| 北海市| 义乌市| 个旧市| 彰化市| 京山县| 莱西市| 外汇| 马边| 南澳县| 大邑县| 安义县|