金秀玲,卓艷如
(閩江學(xué)院 數(shù)學(xué)與數(shù)據(jù)科學(xué)學(xué)院,福建 福州 350108)
高考是由國家教育部統(tǒng)一組織的、國家或部分省份統(tǒng)一命題的、社會關(guān)注度極高且極其重要的考試,故根據(jù)模擬考試分?jǐn)?shù)對高考分?jǐn)?shù)進行預(yù)測有著重要的意義。
隨著計算機技術(shù)的發(fā)展,機器學(xué)習(xí)中傳統(tǒng)預(yù)測模型如線性回歸、BP神經(jīng)網(wǎng)絡(luò)、模糊理論、支持向量機(SVM)等理論已被用于教育領(lǐng)域。有學(xué)者[1-2]研究發(fā)現(xiàn)高考成績和模擬考試成績雖然有一定的區(qū)別,但是也存在一定的關(guān)聯(lián),可以根據(jù)模擬考試成績預(yù)測高考成績。文獻[3-5]挖掘了高招網(wǎng)的數(shù)據(jù),利用線性回歸和模糊理論預(yù)測高考錄取分?jǐn)?shù)線。周琦[6]利用高三學(xué)生平時成績建立改進的決策樹預(yù)測學(xué)生高考成績和錄取批次。張瓊[7]利用高一新生的入學(xué)成績建立Bayes網(wǎng)絡(luò)對高考錄取批次進行了預(yù)測。張莉等[8]運用SVM模型對江蘇省海門市四中理科六次模考成績進行挖掘來預(yù)測高考成績和錄取批次。武劍平[9]利用BP神經(jīng)網(wǎng)絡(luò)對學(xué)生高考分?jǐn)?shù)進行了預(yù)測。
上述文獻分析證實了機器學(xué)習(xí)在預(yù)測高考分?jǐn)?shù)方面有良好的性能。然而,傳統(tǒng)的算法在預(yù)測高考成績時都有缺陷,預(yù)測的精度也有待提升。其中,SVM被廣泛認(rèn)為是一種普適且非常有效的學(xué)習(xí)方法,它基于結(jié)構(gòu)風(fēng)險最小化原則,在分類和回歸問題上具有較好的穩(wěn)定性和預(yù)測性。為了進一步提高SVM模型的預(yù)測精度,本研究引入遺傳算法(GA)全局自主尋找最優(yōu)的SVM參數(shù)組合,建立GA-SVM高考成績預(yù)測模型,并將其應(yīng)用到貴州省某高中2016屆學(xué)生高三的4次模擬考試成績數(shù)據(jù)中,從而預(yù)測其高考成績。
SVM的核心思想是結(jié)構(gòu)風(fēng)險最小化原則,SVM算法對于非線性回歸模型的泛化能力強。SVM通過核函數(shù)將輸入低維的原始數(shù)據(jù)映射到高維的新特征空間,同時將非線性回歸問題巧妙地轉(zhuǎn)化成線性回歸問題。SVM線性回歸模型為
f(x)=wTx+b,
(1)
式中:w、b是待估參數(shù)。
利用松弛因子,可線性化的SVM回歸模型可轉(zhuǎn)化為凸二次函數(shù)規(guī)劃問題,其最優(yōu)化表達為
(2)
式中:ξ1i,ξ2i≥0,是松弛因子,i=1,2,…,n;C是懲罰參數(shù),C>0;ε是容忍度。
引入拉格朗日因子,可以得到SVM非線性回歸的對偶問題為
(3)
直接引入核技巧,核映射線性化非線性的問題,將SVM線性回歸模型擴展到SVM非線性回歸情景,最終得到SVM非線性回歸模型的表達式為
(4)
圖1 GA-SVM流程Fig.1 GA-SVM flow chart
GA的特點是直接對結(jié)構(gòu)對象進行操作,不受特定函數(shù)求導(dǎo)和函數(shù)連續(xù)性的限定,在全局采用概率化方法進行尋優(yōu),并能自動獲取和指導(dǎo)優(yōu)化的搜索空間,自適應(yīng)地調(diào)整搜索方向,不需要確定的規(guī)則。因此,可用GA來對RBF-SVM模型的參數(shù)組合C和γ進行優(yōu)化。利用GA技術(shù)對RBF-SVM模型的參數(shù)(懲罰參數(shù)C和核函數(shù)參數(shù)γ)尋優(yōu)時,先進行編碼,然后在目標(biāo)函數(shù)的約束下,通過隨機選擇、交叉和變異等步驟在全局尋找最優(yōu)參數(shù)組合估計值,從而有效提高SVM高考分?jǐn)?shù)預(yù)測的精度和效率。GA優(yōu)化SVM模型尋優(yōu)步驟如圖1所示。
實證分析數(shù)據(jù)來源于貴州省黔西縣某高中2016屆669名學(xué)生的4次模擬考試和高考分?jǐn)?shù),樣本容量為669,數(shù)據(jù)維數(shù)是669×5。該校的生源在貴州省屬于中等水平,多年來高考成績比較穩(wěn)定,數(shù)據(jù)真實可靠且具有較強的代表性。原始數(shù)據(jù)概況詳見表1。從表1 可以清晰地看出:X1的均值為262,其他3次模擬考試和高考成績均值在340左右;5個變量中位數(shù)都在350附近,它們的最大值取值在530左右,方差穩(wěn)定在65附近。進一步通過箱線圖(見圖2)觀察出預(yù)測變量和高考成績數(shù)據(jù)的范圍基本一致,方差也一致,所以建模時不需要對變量進行標(biāo)準(zhǔn)化。
對原始變量進行相關(guān)性分析,得到的結(jié)果見表2。其中,每次模擬考試分?jǐn)?shù)與高考分?jǐn)?shù)之間的相關(guān)系數(shù)為0.799 1~0.870 8,具有很強的相關(guān)性,可見模擬考試成績對于高考而言具有很強的指導(dǎo)意義。對收集的669個學(xué)生的4次模擬考試成績和高考成績數(shù)據(jù),其中569個數(shù)據(jù)作為訓(xùn)練集,剩余的100個數(shù)據(jù)作為測試集,用GA算法優(yōu)化后的SVM算法對高考成績進行預(yù)測。
表1 原始數(shù)據(jù)概況Tab.1 Raw data overview
圖2 原始變量的箱線圖Fig.2 Boxplot of the original variable
表2 相關(guān)系數(shù)Tab.2 Correlation table
圖3 參數(shù)優(yōu)化過程Fig.3 Parameter optimization process
利用GA-SVM 算法對569個學(xué)生的高考成績進行預(yù)測,使用5折交叉驗證,重復(fù)測試10次。GA-SVM模型參數(shù)中,種群50個,進化100代,SVM模型懲罰參數(shù)C設(shè)置為[0.000 1,100],高斯核函數(shù)參數(shù)γ設(shè)置為[0.001,50]。以第一次對569個學(xué)生成績數(shù)據(jù)使用5折交叉驗證為例,圖3給出了使用GA-SVM算法優(yōu)化支持向量機的參數(shù)進化運算曲線。
遵循GA最優(yōu)選擇法則,種群中的最優(yōu)個體適應(yīng)度逐漸減少,最終趨于716.352 4,此時懲罰參數(shù)C與核函數(shù)參數(shù)γ的組合達到性能最優(yōu),即當(dāng)最佳懲罰參數(shù)C=6.549 266、最佳核函數(shù)參數(shù)γ=0.480 225 30時,訓(xùn)練集的均方誤差為616.121 2、測試集的均方誤差為713.581 7,結(jié)果見表3。重復(fù)測試10 次,得到GA-SVM高考成績預(yù)測訓(xùn)練集均方誤差平均值為616.345 6、測試集均方誤差平均值為715.453 2。
表3 基于GA-SVM模型的高考成績預(yù)測結(jié)果Tab.3 GA-SVM model predicting results of college entrance examination
引入多元線性回歸模型、SVM和BP神經(jīng)網(wǎng)絡(luò)模型分別對569個學(xué)生的高考成績進行建模,使用5折交叉驗證,重復(fù)測試10次,計算10次均方誤差的平均值,結(jié)果見表4。
表4 多元回歸、BP神經(jīng)網(wǎng)絡(luò)、SVM模型與GA-SVM模型結(jié)果的比較Tab.4 Comparison of results of multivariate regression, BP neural network, SVM model and GA-SVM model
通過對比表4中的數(shù)據(jù)可知,GA-SVM模型在訓(xùn)練集的平均MSE和測試上的平均均方誤差都是最小的,預(yù)測效果優(yōu)于多元線性回歸、BP神經(jīng)網(wǎng)絡(luò)和SVM模型。這是由于GA經(jīng)過遺傳、交叉、變異步驟不斷對SVM的參數(shù)C和γ進行調(diào)整,最終得到全局最優(yōu)參數(shù)組合,從而使得GA-SVM模型在預(yù)測高考成績時,精度高于多元回歸、BP神經(jīng)網(wǎng)絡(luò)和SVM等傳統(tǒng)方法。
以貴州省某高中2016屆669名學(xué)生的4次模擬考試成績和高考成績?yōu)檠芯繉ο?,提出了基于GA-SVM模型預(yù)測高考成績的方法。該方法能夠解決SVM算法在回歸過程中主要依靠經(jīng)驗來選取參數(shù)的問題,通過GA對SVM中的參數(shù)進行全局自主優(yōu)化和調(diào)整,最終獲得最優(yōu)參數(shù)組合。
采用GA-SVM模型對比多元回歸、BP神經(jīng)網(wǎng)絡(luò)模型分別對測試集數(shù)據(jù)進行高考成績預(yù)測,結(jié)果表明:GA-SVM模型測試集的均方誤差最小,明顯優(yōu)于多元回歸、BP神經(jīng)網(wǎng)絡(luò)模型和SVM模型等傳統(tǒng)回歸算法。因此,在已知模擬考試成績后,GA-SVM模型能夠預(yù)測學(xué)生高考分?jǐn)?shù)的趨勢,并利用預(yù)測分析結(jié)果幫助學(xué)生了解自己的不足之處,及時調(diào)整高考復(fù)習(xí)策略。同時,教師可以根據(jù)預(yù)測結(jié)果在后期制定針對性強的教學(xué)計劃,做到個性化教學(xué)。