劉曉雲(yún),劉鴻雁,李勁松,王冠幫
(1.渤海大學(xué) 教育科學(xué)學(xué)院,遼寧 錦州 121000;
2.渤海大學(xué) 信息科學(xué)與技術(shù)學(xué)院,遼寧 錦州 121000)
隨著中國經(jīng)濟的快速發(fā)展,人才需求越來越大,教育也越來越受到社會的關(guān)注。為了保證教學(xué)質(zhì)量,國家也不斷頒布新的教育整改政策,數(shù)據(jù)挖掘技術(shù)也逐漸深入地應(yīng)用到了教育領(lǐng)域,例如關(guān)聯(lián)規(guī)則、多元線性回歸、聚類分析、分類預(yù)測等等。其中成績預(yù)測可以督促學(xué)生,使學(xué)生及時調(diào)整自己的學(xué)習方法,改變學(xué)習策略,并且使教師及時改進教學(xué)策略,所以成績預(yù)測是提升學(xué)生成績的重要手段。它也成為了教育數(shù)據(jù)挖掘領(lǐng)域的一個熱點研究課題[1]。
對學(xué)習成績進行預(yù)測分析對提高教學(xué)質(zhì)量有著十分重要的作用,一些國內(nèi)外學(xué)者對此已經(jīng)開展了相關(guān)研究。尤佳鑫利用多元線性回歸方法,預(yù)測了云環(huán)境下的學(xué)生學(xué)業(yè)成績[2]。徐銘希采用多種機器學(xué)習算法對學(xué)生成績進行預(yù)測并構(gòu)建最優(yōu)模型[3]。趙光等人利用多元線性回歸方法,構(gòu)建大學(xué)英語四級考試成績預(yù)測模型[4]。張曉等人通過多元線性回歸,分析了基礎(chǔ)課程對專業(yè)課程的影響[5]。汪慧利用多元線性回歸方法,建立通過影響電子技術(shù)的6門課的成績預(yù)測該門課的模型[6]。雖然國內(nèi)外學(xué)者已經(jīng)開展相關(guān)的成績預(yù)測研究,但多是利用現(xiàn)有全部成績預(yù)測某科成績。利用一年級預(yù)測畢業(yè)成績較少,未能充分發(fā)揮成績預(yù)測的及時性。
目前普遍認為,一個人的學(xué)習成績是符合一定趨勢的,并且一年級時期開展的課程,包括基礎(chǔ)課和通識課,對畢業(yè)總體成績也有著一定的影響。其中如解析幾何這樣的專業(yè)基礎(chǔ)課程,對后面其他專業(yè)課的學(xué)習有著直接的影響。因此利用一年級預(yù)測畢業(yè)成績具有可行性和可預(yù)測性。
回歸分析是研究統(tǒng)計規(guī)律的方法之一。應(yīng)用回歸分析評價考試成績不僅能分析各種因素對考試成績的影響大小,還能對成績進行合理的預(yù)測[7-8]。鑒于多元回歸分析的以上優(yōu)點,所以建立多元回歸模型不僅可以幫助教師改進教學(xué)方法,還可以幫助學(xué)生及時調(diào)整自己的學(xué)習方法,以便得到更好的成績,為提高教學(xué)質(zhì)量提供了保障。
線性回歸有很多實際用途。分為以下兩大類:如果目標是預(yù)測或者映射,線性回歸可以用來對觀測數(shù)據(jù)集的和X的值擬合出一個預(yù)測模型。當完成這樣一個模型以后,對于一個新增的X值,在沒有給定與它相配對的y的情況下,可以用這個擬合過的模型預(yù)測出一個y值。
給定一個變量y和一些變量X1,X2,…,Xp,這些變量有可能與y相關(guān),線性回歸分析可以用來量化y與X之間相關(guān)性的強度,評估出與y不相關(guān)的X,并識別出哪些X時子集包含了關(guān)于y的冗余信息。
多元回歸分析是指在相關(guān)變量中,將一個變量視為因變量,其他一個或多個變量視為自變量,建立多個變量之間線性或非線性的數(shù)學(xué)模型數(shù)量關(guān)系式,并利用樣本數(shù)據(jù)進行分析的統(tǒng)計分析方法。另外,也要討論多個自變量與多個因變量的線性依賴關(guān)系的多元回歸分析,稱為多元多重回歸分析模型。通常影響因變量的因素有多個,這種多個自變量影響一個因變量的問題,可以通過多元回歸分析來解決。在線性回歸分析中,多元線性回歸比一元線性回歸具有更大的實用意義[9-10]。
多元線性回歸分析的基本任務(wù)如下:根據(jù)因變量與眾多自變量的實際觀察值建立因變量對多個自變量的多元線性回歸方程;評定各個自變量對因變量影響的相對重要性以及測定最優(yōu)多元線性回歸線性方程的偏高度等[11-13]。許多多元非線性回歸問題可以通過多元線性回歸來解決,所以多元線性回歸具有廣泛的應(yīng)用。
設(shè)變量Y與變量X1,X2,…,Xp間有如下的線性關(guān)系:
Y=β0+β1X1+…+βpXp+ε
(1)
其中,β0是回歸常數(shù),β1,β2,…,βp是總體回歸參數(shù),當p=1時,稱公式(1)為一元線性回歸模型,p≥2時,稱之為多元線性回歸模型。ε為隨機誤差,且服從ε~N(0,σ2)分布。
參數(shù)β的估計方法最常用的是最小二乘估計法(ordinary least square,OLS),其目標函數(shù)為最小化:
(2)
因在解決實際問題時,矩陣X'X通常都是奇異的。所以當X'X是非奇異矩陣時,表明變量之間不完全相關(guān),而這時得到的最小二乘估計為:
(3)
從而可得回歸模型為:
(4)
由建立的多元線性回歸模型以及已得到的回歸系數(shù),要對整個回歸方程進行擬合檢驗,可以采用R2檢驗。
判定系數(shù)R2的定義為:
(5)
其中,SSR表示回歸平方和,其定義如公式(6),反映了由于x與y之間的線性關(guān)系引起的y的變化部分;SST表示總離差平方和,其定義如公式(7),反映因變量的n個觀察值與其均值的總離差;SSE表示殘差平方和,其公式如公式(8),反映除了x對y的線性影響之外的其他因素對y變差的作用,是不能由回歸直線來解釋的y的變差部分。
(6)
(7)
(8)
三者之間的關(guān)系滿足:
SST=SSR+SSE
(9)
R2反映的是回歸直線對數(shù)據(jù)的擬合優(yōu)度,取值在[0,1]之間。R2趨近于1,說明回歸方程擬合得越好,相反,R2趨近于0,說明回歸方程擬合得越差。
鑒于SPSS軟件是目前教育研究領(lǐng)域使用最為廣泛的統(tǒng)計軟件之一,具有界面美觀、操作簡潔的特點,因此該文在實驗數(shù)據(jù)處理中使用了SPSS軟件[14],用其對實驗數(shù)據(jù)進行單次實驗。而預(yù)處理和統(tǒng)計分析部分基于Matlab系統(tǒng)完成。
2.1.1 數(shù)據(jù)收集
實驗數(shù)據(jù)選用某學(xué)校計算機應(yīng)用專業(yè)一年級共55名學(xué)生的課程成績。由于部分課程涉及分流培養(yǎng),因此實驗數(shù)據(jù)僅使用17門課程。
2.1.2 數(shù)據(jù)處理
(1)為保護學(xué)生隱私,將原始學(xué)生姓名用編號替代以及將性別、學(xué)號等身份信息隱藏,只保留所需的成績、課程名稱等基本信息。
(2)為了使數(shù)據(jù)結(jié)果更具有合理性、普遍性,除去極端學(xué)生成績的影響,因此去掉低于平均成績大于X+3σ或小于X-3σ的學(xué)生,最后剩下53名學(xué)生的課程成績。
(3)實驗數(shù)據(jù)中的部分課程成績采用等級制進行的賦分(優(yōu)秀、良好、中等、及格、不及格),對這類數(shù)據(jù)前期進行了轉(zhuǎn)換和處理,轉(zhuǎn)換原則為“優(yōu)秀”對應(yīng)95分,“良好”對應(yīng)85分,“中等”對應(yīng)75分,“及格”對應(yīng)65分,“不及格”對應(yīng)59分。
(4)為避免數(shù)據(jù)屬性的影響,對所有實驗數(shù)據(jù)都進行了歸一化[0,1]處理,最終獲得的部分實驗數(shù)據(jù)如表1所示。
表1 部分學(xué)生成績
2.2.1 實驗原理與結(jié)果
中國旅游業(yè)的發(fā)展經(jīng)歷了從單一入境旅游市場,到入境旅游、國內(nèi)旅游兩個市場并舉,再到入境旅游、國內(nèi)旅游、出境旅游三個市場全面發(fā)展的過程[4]。與此相應(yīng),我國旅游業(yè)三大市場發(fā)展戰(zhàn)略也經(jīng)歷一系列的調(diào)整變化,現(xiàn)定位為“全面發(fā)展國內(nèi)旅游、積極發(fā)展入境旅游、規(guī)范發(fā)展出境旅游”[4]。
平均絕對誤差(mean absolute error,MAE)是所有單個觀測值與算術(shù)平均值的偏差的絕對值的平均,所以選用簡便、直觀的平均絕對誤差作為評估成績預(yù)測模型的預(yù)測誤差指標[15],其計算公式如下所示。
(10)
其中,N為樣本個數(shù);Score和Scorep分別為原始成績和模型預(yù)測成績。MAE值越小,模型預(yù)測誤差越小,預(yù)測越準確。
該文隨機從53名學(xué)生中選出3名、5名、10名和20名作為測試樣本(訓(xùn)練樣本數(shù)量即為50名、48名、43名和33名),并分別進行100次隨機選擇。然后對得到的MAE值取其平均值,得到的最終平均預(yù)測性能結(jié)果如表2所示。
表2 訓(xùn)練和測試樣本MAE詳情
統(tǒng)計結(jié)果表明,訓(xùn)練和測試誤差都小于1.9%,說明構(gòu)建的預(yù)測模型具有較高的預(yù)測精度,已證明利用一年級預(yù)測畢業(yè)成績可行。此外,從表中也可看出構(gòu)建的模型性能對訓(xùn)練樣本需求較低,更利于推廣。
2.2.2 單次實驗結(jié)果分析
為了更加清楚地展現(xiàn)實驗結(jié)果,分別選用上述四種實驗的某一次實驗結(jié)果進行具體分析。利用SPSS軟件進行分析,令四年總體平均成績?yōu)橐蜃兞浚?7門課程成績?yōu)樽宰兞俊?/p>
(1)實驗4。
(-0.014)X7+0.009X8+(-0.021)X9+0.025X10+(-0.005)X11+
0.085X12+0.192X13+0.140X14+0.290X15+0.092X16+(-0.108)X17
(11)
表3 模型摘要
表4 多元回歸模型概要
對所建立的實驗4的線性回歸模型進行R2檢驗,從表3可以看出,R2的值為0.894,接近0.9,趨近于1,說明模型的擬合度很高。從表4可以看出,模型的準確性為97.3%(>95%),進一步說明模型的擬合度高。
通過模型預(yù)測出剩余20個測試樣本的預(yù)測值,如表5所示。預(yù)測差值最高不超過3.5分,平均誤差為1.43%,預(yù)測性能精度較高。
表5 實驗4真實值和預(yù)測值對比
(2)實驗3。
類似地,實驗3的43個訓(xùn)練樣本得到的標準線性回歸方程為:
0.162X6+(-0.007)X7+(-0.014)X8+0.008X9+0.023X10+0.011X11+
0.092X12+0.163X13+0.079X14+0.264X15+0.127X16+(-0.073)X17
(12)
通過模型預(yù)測出剩余10個測試樣本的預(yù)測值,如表6所示。預(yù)測差值最高不超過1.5分,平均誤差為0.9% ,預(yù)測性能精度較高。
表6 實驗3實際值與預(yù)測值對比
(3)實驗2。
實驗2的48個訓(xùn)練樣本得到的標準線性回歸方程為:
0.164X6+(-0.010)X7+(-0.013)X8+(-0.004)X9+0.017X10+0.001X11+
0.087X12+0.167X13+0.093X14+0.284X15+0.119X16+(-0.073)X17
(13)
通過模型預(yù)測出剩余5個測試樣本的預(yù)測值,如表7所示。預(yù)測差值最高不超過1.4分,平均誤差為0.97%,預(yù)測性能精度較高。
表7 實驗2實際值與預(yù)測值對比
(4)實驗1。
實驗1的50個訓(xùn)練樣本得到的標準線性回歸方程為:
+(-0.010)X7+0.010X8+0.010X9+0.038X10+(-0.011)X11+0.088X12
+0.185X13+0.094X14+0.268X15+0.107X16+(-0.084)X17
(14)
通過模型預(yù)測出剩余3個測試樣本的預(yù)測值,如表8所示。預(yù)測差值最高不超過1.2分,平均誤差為0.61%,預(yù)測性能精度較高。
通過這四個實驗的單次實驗表明,結(jié)果與訓(xùn)練樣本數(shù)量關(guān)系不大,可行性較強。并且構(gòu)建的預(yù)測模型具有較高的精度,可以為學(xué)校改進教學(xué)方案,提高教學(xué)質(zhì)量提供一定的參考信息,具有重要的意義。
成績預(yù)測是提高教學(xué)質(zhì)量的重要輔助工具之一,但是目前多是基于全部成績進行研究。因此該文提出利用多元回歸方法構(gòu)建通過一年級成績預(yù)測畢業(yè)成績的預(yù)測模型,并以某學(xué)校計算機應(yīng)用專業(yè)的學(xué)生課程成績?yōu)檠芯繉ο箝_展研究。大量實驗結(jié)果表明可以利用一年級成績預(yù)測畢業(yè)成績,并且該文構(gòu)建的預(yù)測模型具有較高的準確度。該研究可以為教學(xué)的改進提供依據(jù),為老師對學(xué)生采取幫扶措施提供參考。但學(xué)生成績預(yù)測是一個比較復(fù)雜的課題,本次研究只考慮了成績因素,因此在下一步的研究中會考慮學(xué)科背景、素質(zhì)測評等更多因素,構(gòu)建更加精確的預(yù)測模型。