韋新星
(河池學(xué)院 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,廣西 宜州 546300)
基于Logistic回歸判別法對(duì)大學(xué)生掛科的預(yù)測(cè)
韋新星
(河池學(xué)院 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,廣西 宜州 546300)
隨著大學(xué)生考試掛科現(xiàn)象日益凸顯,如何防預(yù)大學(xué)生掛科已成為高校教育面臨的熱點(diǎn)問(wèn)題.文章將Logistic回歸分析與判別分析相結(jié)合,對(duì)大學(xué)生掛科的預(yù)測(cè)問(wèn)題進(jìn)行研究.具體實(shí)例表明,運(yùn)用Logistic回歸判別法能很好地對(duì)大學(xué)生考試是否掛科進(jìn)行預(yù)測(cè),從而有利于學(xué)校及學(xué)生自身采取相應(yīng)的措施來(lái)防止掛科的發(fā)生.
大學(xué)生掛科;Logistic回歸判別法;預(yù)測(cè)
隨著我國(guó)高校的不斷擴(kuò)招,我國(guó)的高等教育正處于由精英教育轉(zhuǎn)向大眾化教育的階段,這使得眾多求學(xué)者擁有了享受高等教育的機(jī)會(huì).但是,高校擴(kuò)招也不可避免地為教育質(zhì)量的提高帶來(lái)一些新的問(wèn)題和挑戰(zhàn)[1].尤其是大學(xué)生掛科方面的問(wèn)題日益凸顯[2].
掛科,即考試不及格.大學(xué)生的掛科會(huì)造成諸多方面的影響.對(duì)學(xué)校而言,普遍的學(xué)生掛科現(xiàn)象會(huì)損害學(xué)校的聲譽(yù),阻礙高校的發(fā)展;對(duì)學(xué)生而言,掛科不僅會(huì)影響其獎(jiǎng)助學(xué)金、保研等資格的獲取,還會(huì)影響其學(xué)位的獲取及能否順利畢業(yè),甚至?xí)?duì)其心理健康及日常生活產(chǎn)生影響.
截止目前,已有不少學(xué)者對(duì)大學(xué)生的掛科現(xiàn)象進(jìn)行了研究.張麗華等[2]在對(duì)內(nèi)蒙古工業(yè)大學(xué)2007級(jí)理工科學(xué)生的數(shù)學(xué)考試成績(jī)進(jìn)行統(tǒng)計(jì)分析后發(fā)現(xiàn):高考成績(jī)與性別對(duì)該校學(xué)生數(shù)學(xué)掛科的影響較大,學(xué)生評(píng)教對(duì)其也有一定影響,而生源地與學(xué)生數(shù)學(xué)掛科則沒(méi)有影響.李丹花[3]指出,影響大學(xué)生掛科的原因有:一是學(xué)習(xí)目標(biāo)不明確;二是沉迷于網(wǎng)絡(luò);三是打工分散學(xué)習(xí)精力;四是為情所困,迷失自我.章瑜[4]在對(duì)大學(xué)生掛科影響因素的研究中指出:學(xué)生課余時(shí)間不知道做什么、課上沒(méi)有歸屬感是學(xué)生掛科的主要原因.羅晨輝[5]指出:物質(zhì)和精神誘惑、網(wǎng)絡(luò)、戀愛(ài)、目標(biāo)不明確、思想放松等因素是造成大學(xué)生掛科的主要原因.高朋敏[6]從環(huán)境變化、目標(biāo)缺失等方面揭示大學(xué)生的掛科原因.黎安康[7]也對(duì)影響大學(xué)生掛科的因素進(jìn)行研究.綜合分析前人的研究,不難發(fā)現(xiàn)大多數(shù)的這些研究結(jié)論都是通過(guò)定性分析或初步的定量分析得到的.
為此,本文在前人研究的基礎(chǔ)上,針對(duì)所收集到的數(shù)據(jù),主要從定量分析的角度出發(fā),嘗試將Logistic回歸分析與判別分析相結(jié)合(簡(jiǎn)稱:Logistic回歸判別法),對(duì)大學(xué)生掛科的預(yù)測(cè)問(wèn)題進(jìn)行研究.
對(duì)于響應(yīng)變量y,令y取值1表示事件發(fā)生,取值0表示事件不發(fā)生,即響應(yīng)變量y為二分類變量.在n個(gè)自變量x1,x2,…,xn的作用下,記事件發(fā)生的概率為P(y |x1,x2,…,xn)=p,則Logistic回歸模型為[8-9]:
其中βi為L(zhǎng)ogistic回歸模型的系數(shù),β0為回歸常數(shù).于是,事件不發(fā)生的概率為:
顯然,(1)式是一個(gè)非線性回歸模型,對(duì)(1)式作logit變換,則得到Logistic回歸模型的線性形式:
判別分析[9]是判別樣品所屬類型的一種統(tǒng)計(jì)方法,它是在已知觀測(cè)對(duì)象的分類結(jié)果和若干表明觀測(cè)對(duì)象特征變量值的情況下,通過(guò)建立判別函數(shù)來(lái)判別未知分類對(duì)象的歸屬問(wèn)題的一種方法.
Logistic回歸判別法則是Logistic回歸分析和判別分析的結(jié)合.運(yùn)用Logistic回歸進(jìn)行判別分析的基本原理是:用Logistic回歸方程計(jì)算待判樣品屬于各類別的概率,當(dāng)預(yù)測(cè)概率大于0.5時(shí),就判定該事件發(fā)生,否則就判定其不發(fā)生[10].
本節(jié)從定量分析的角度,運(yùn)用Logistic回歸判別法對(duì)大學(xué)生掛科的預(yù)測(cè)問(wèn)題進(jìn)行研究.本實(shí)例中的原始數(shù)據(jù)來(lái)自對(duì)某高校在校大學(xué)生掛科情況的調(diào)查問(wèn)卷.其中y為因變量,10個(gè)自變量x1,x2,…,x10分別表示民族、籍貫、性別、年級(jí)、專業(yè)、是否處于戀愛(ài)狀態(tài)、是否參加兼職工作、是否沒(méi)有認(rèn)真學(xué)習(xí)復(fù)習(xí)、上課是否經(jīng)常玩手機(jī)、學(xué)習(xí)上是否不懂就問(wèn).具體的變量取值及其對(duì)應(yīng)含義見(jiàn)表1.
表1 變量取值及其對(duì)應(yīng)含義Tab.1Variable values and their corresponding meanings
剔除掉無(wú)效問(wèn)卷后,最終得到300份有效問(wèn)卷.為檢驗(yàn)?zāi)P偷挠行院湍P蛯?duì)問(wèn)題預(yù)測(cè)的準(zhǔn)確性,隨機(jī)抽取其中的250份作為訓(xùn)練集,而把剩余的50份作為測(cè)試集.
2.1 模型的建立
接下來(lái),運(yùn)用Logistic回歸判別法對(duì)訓(xùn)練集進(jìn)行處理.首先將作為訓(xùn)練集的250份數(shù)據(jù)導(dǎo)入SPSS軟件中,通過(guò)“分析—回歸—二元Logistic回歸”,可得到Logistic回歸方程,最后根據(jù)Logistic回歸方程計(jì)算待判別學(xué)生屬于“掛科”類還是“不掛科”類:當(dāng)預(yù)測(cè)概率p大于0.5時(shí),就判定該事件發(fā)生,即學(xué)生將掛科;否則就判定該事件不發(fā)生,即學(xué)生不掛科.
首先,進(jìn)行模型系數(shù)的顯著性檢驗(yàn).原假設(shè)和備擇假設(shè)分別為:
H0:模型系數(shù)對(duì)因變量沒(méi)有顯著影響;
H1:模型系數(shù)對(duì)因變量有顯著影響.
具體得到的結(jié)果見(jiàn)表2.在表2中,Chi-square表示卡方值,df表示自由度,Sig.則代表顯著性檢驗(yàn)的P值,通常將其與α進(jìn)行比較,α常取0.05.而檢驗(yàn)的P值是指在原假設(shè)成立的前提下,檢驗(yàn)統(tǒng)計(jì)量等于這個(gè)實(shí)現(xiàn)值或更極端情況的概率.因此,若該值小于0.05,則表明小概率事件發(fā)生,于是拒絕原假設(shè)H0[11-12].由表2可知,模型系數(shù)的卡方值為69.328,自由度為4,而Sig.值為0.由于自由度為4,故查閱卡方分布表[11]可知,卡方臨界值為9.488.由于69.328>9.488,且Sig.值為0<0.05,故拒絕原假設(shè)H0,即模型系數(shù)對(duì)因變量是有顯著影響的.
其次,對(duì)模型整體性的顯著性進(jìn)行檢驗(yàn).原假設(shè)和備擇假設(shè)分別為:
H0:模型的整體效果不顯著;
H1:模型的整體效果是顯著的.
表3給出的是模型整體性的擬合效果檢驗(yàn)情況.在表3中,-2 Log likelihood為(-2)倍對(duì)數(shù)似然函數(shù)的值,通常要求NagelkerkeR2的值在0.3以上.由于257.381>卡方臨界值9.488,所以拒絕原假設(shè)H0,即模型的整體效果是顯著的.
表2 模型系數(shù)的綜合檢驗(yàn)Tab.2 Comprehensive test of model coefficients
表3 模型匯總Tab.3Summary of models
接下來(lái),對(duì)模型系數(shù)進(jìn)行篩選.經(jīng)過(guò)Logistic回歸,從10個(gè)可能影響掛科的因素中篩選出了4個(gè),分別為性別、是否沒(méi)有認(rèn)真學(xué)習(xí)復(fù)習(xí)、上課是否經(jīng)常玩手機(jī)、學(xué)習(xí)上是否不懂就問(wèn),而其余變量對(duì)掛科的影響過(guò)小,模型系數(shù)接近于0,故沒(méi)有篩選出來(lái).表4是變量篩選的結(jié)果.
表4 模型系數(shù)Tab.4The Coefficients of Model
由表4可知:
①各變量回歸系數(shù)βi(i=3,8,9,10)的Sig.值均小于0.05,再次表明各變量系數(shù)對(duì)因變量的影響是顯著的.
②y與x3、x10呈負(fù)相關(guān),而與x8、x9呈正相關(guān).表明在其它因素不變的情況下,女生及不懂就問(wèn)的學(xué)生比較偏向于不掛科;相反的,沒(méi)有認(rèn)真學(xué)習(xí)復(fù)習(xí)、上課經(jīng)常玩手機(jī)的學(xué)生則更易掛科.而這與實(shí)際情況正好相符.
③結(jié)合公式(1),可得到大學(xué)生掛科情況的Logistic回歸模型:
于是,通過(guò)Logistic回歸方程(3)計(jì)算待判別學(xué)生的概率值,根據(jù)所得預(yù)測(cè)概率與0.5的關(guān)系,便可判定該學(xué)生屬于掛科一類還是不掛科一類.
2.2 模型的檢驗(yàn)
為檢驗(yàn)所得模型的優(yōu)劣,需要進(jìn)行回代檢驗(yàn)和預(yù)測(cè)檢驗(yàn)[13].
表5 回代檢驗(yàn)結(jié)果Tab.5 The results of backing test
表6 預(yù)測(cè)檢驗(yàn)結(jié)果Tab.6 The results of forecast test
2.3 模型的應(yīng)用
假定需要對(duì)甲、乙兩名學(xué)生進(jìn)行預(yù)測(cè),即需要預(yù)先判定其各自屬于掛科一類還是不掛科一類,以便日后采取相應(yīng)的措施對(duì)其進(jìn)行防治.只需把相應(yīng)的變量值代入(3)式,計(jì)算出待判學(xué)生的概率,并根據(jù)所得預(yù)測(cè)概率與0.5的關(guān)系,便可判定該學(xué)生是屬于掛科一類還是不掛科一類.
例如,假設(shè)甲是不太認(rèn)真學(xué)習(xí)復(fù)習(xí)、上課比較喜歡玩手機(jī)、學(xué)習(xí)上不懂的地方從來(lái)不問(wèn)的女生,乙是有點(diǎn)認(rèn)真學(xué)習(xí)復(fù)習(xí)、上課非常喜歡玩手機(jī)、學(xué)習(xí)上不懂的地方從來(lái)不問(wèn)的男生,則利用公式(3),可算出甲屬于掛科類的概率為0.788,而乙屬于掛科類的概率為0.917,甲乙二人的概率均大于0.5,于是可判定該二人均屬于掛科一類.此外,由于0.917>0.788,故需更關(guān)注乙的學(xué)習(xí)情況,以便及時(shí)采取適當(dāng)措施防止其掛科的發(fā)生.
本文將Logistic回歸分析與判別分析相結(jié)合,運(yùn)用Logistic回歸判別法來(lái)處理大學(xué)生掛科的預(yù)測(cè)問(wèn)題,得到了大學(xué)生掛科情況的Logistic回歸模型.回代檢驗(yàn)和預(yù)測(cè)檢驗(yàn)表明該模型能較好地根據(jù)學(xué)生的一些特征,來(lái)預(yù)測(cè)學(xué)生的掛科情況發(fā)生概率,進(jìn)而有利于學(xué)校及學(xué)生自身采取相應(yīng)的措施來(lái)防止掛科的發(fā)生.值得一提的是,本文的結(jié)論是基于從某高校收集到的數(shù)據(jù)而言的,所以具有一定的針對(duì)性和局限性.然而,當(dāng)樣本容量足夠大、涉及面足夠廣時(shí),本文的研究仍具有一定的參考價(jià)值和指導(dǎo)價(jià)值.
[1]文菊,姚利民.高等教育大眾化背景下提高高校教學(xué)質(zhì)量的對(duì)策初探[J].高等教育研究學(xué)報(bào),2005,28(4):87-90.
[2]張麗華,戴學(xué)芳,劉志強(qiáng),等.基于Logistic模型的大學(xué)數(shù)學(xué)掛科原因?qū)嵶C分析[J].內(nèi)蒙古師范大學(xué)學(xué)報(bào),2014,27(9):135-138.
[3]李丹花.高校大學(xué)生掛科現(xiàn)象原因與對(duì)策研究[J].技術(shù)與市場(chǎng),2015,22(10):168-169.
[4]章瑜.大學(xué)生掛科的對(duì)策研究[J].中國(guó)科教創(chuàng)新導(dǎo)刊,2009(23):14.
[5]羅晨輝.對(duì)大學(xué)生掛科現(xiàn)象的思考[J].中國(guó)校外教育,2010(18):37.
[6]高朋敏,齊艷萍.新形勢(shì)下高校學(xué)生“掛科”原因初探及應(yīng)對(duì)措施[J].社科縱橫,2016,31(10):170-173.
[7]黎安康,梁永宏.日趨嚴(yán)重的大學(xué)生“掛科”現(xiàn)象原因探析[J].長(zhǎng)春教育學(xué)院學(xué)報(bào),2014,30(2):149-150.
[8]杜強(qiáng),賈麗艷.SPSS統(tǒng)計(jì)分析從入門到精通[M].北京:人民郵電出版社,2011.
[9]李靜萍,謝邦昌.多元統(tǒng)計(jì)分析方法與應(yīng)用[M].北京:中國(guó)人民大學(xué)出版社,2008.
[10]馬逢時(shí),吳誠(chéng)鷗,蔡霞.基于MINITAB的現(xiàn)代實(shí)用統(tǒng)計(jì)[M].北京:中國(guó)人民大學(xué)出版社,2009.
[11]葉慈南,曹偉麗.應(yīng)用數(shù)理統(tǒng)計(jì)[M].北京:機(jī)械工業(yè)出版社,2013.
[12]吳喜之.統(tǒng)計(jì)學(xué):從數(shù)據(jù)到結(jié)論[M].北京:中國(guó)統(tǒng)計(jì)出版社,2005.
[13]李春紅,韋新星,劉勝臣.Cox模型在電信客戶流失原因分析中的研究[J].海南師范大學(xué)學(xué)報(bào),2013,26(4):368-371.
責(zé)任編輯:吳興華
Prediction of College Students’Failing Exams Based on the Logistic Regression and Discriminant Method
WEI Xinxing
(School of Mathematics and Statistics,Hechi University,Yizhou546300,China)
Since college students’failure in exams is becoming more and more popular,how to solve the problem has be?come a hot topic in higher education.This article studies the prediction of students’failure in exams by combining the Logis?tic regression analysis and discriminant analysis.The specific examples show that the Logistic regression and discriminant method can make the prediction very well,and is helpful for schools and students to take steps beforehand.
college students’failing the exam;Logistic regression and discriminant method;prediction
O 212.1
:A
:1674-4942(2016)04-0379-04
10.12051/j.issn.1674-4942.2016.04.005
2016-09-03
廣西高校中青年教師基礎(chǔ)能力提升項(xiàng)目(KY2016LX279);廣西大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目(201610605054);河池學(xué)院碩士專業(yè)學(xué)位建設(shè)基金課題(2016YT004)