李果 張萌 康瑞
摘要:本文提出了一種基于logistic回歸的學(xué)生成績(jī)預(yù)測(cè)模型,目的在于預(yù)測(cè)學(xué)生的成績(jī),尋找出影響學(xué)生成績(jī)的關(guān)鍵因素,從而幫助管理者更好地管理學(xué)生。作者首先對(duì)學(xué)生歷史數(shù)據(jù)中的特征進(jìn)行了可視化分析,以了解數(shù)據(jù)的分布、相關(guān)性等信息;接著將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集兩部分,以便建立和評(píng)估預(yù)測(cè)模型,并在此基礎(chǔ)上建立了一個(gè)logistic回歸模型來(lái)預(yù)測(cè)學(xué)生成績(jī),同時(shí)對(duì)預(yù)測(cè)結(jié)果的準(zhǔn)確率進(jìn)行了評(píng)分;最后剔除了無(wú)關(guān)特征再次建模,對(duì)預(yù)測(cè)模型進(jìn)行再次評(píng)估。結(jié)果表明,優(yōu)化后的成績(jī)預(yù)測(cè)模型的預(yù)測(cè)準(zhǔn)確率有所提升,能夠有效地預(yù)測(cè)學(xué)生成績(jī)。
關(guān)鍵詞:機(jī)器學(xué)習(xí);logistic回歸分析;成績(jī)預(yù)測(cè)
中圖分類號(hào):TP399? 文獻(xiàn)標(biāo)識(shí)碼:A? 論文編號(hào):1674-2117(2023)15-0077-04
引言
隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,教育相關(guān)數(shù)據(jù)的收集變得更為方便快捷,對(duì)教育大數(shù)據(jù)的分析、挖掘和應(yīng)用是教育發(fā)展的重要需求和必然趨勢(shì)。將信息技術(shù)應(yīng)用到教育領(lǐng)域,也為教育教學(xué)帶來(lái)了質(zhì)的提升。在傳統(tǒng)的教育教學(xué)過(guò)程中,教師通常僅通過(guò)學(xué)生的課堂表現(xiàn)、作業(yè)完成情況及質(zhì)量、階段考試成績(jī)等預(yù)測(cè)學(xué)生未來(lái)參與考試的成績(jī)情況,缺少具體的數(shù)據(jù)及相關(guān)統(tǒng)計(jì)學(xué)理論做支撐,導(dǎo)致預(yù)測(cè)結(jié)果具有強(qiáng)烈的主觀性,加上學(xué)生考試成績(jī)形成的復(fù)雜性,使得預(yù)測(cè)結(jié)果和實(shí)際情況存在較大的偏差。因此,目前,大量基于機(jī)器學(xué)習(xí)的成績(jī)預(yù)測(cè)模型相繼出現(xiàn),用以幫助教師實(shí)時(shí)掌握學(xué)生實(shí)際學(xué)習(xí)情況,科學(xué)有效地改善了教育效果。
筆者收集了480名學(xué)生的基本情況信息和課堂內(nèi)外表現(xiàn)的量化數(shù)據(jù),將數(shù)據(jù)進(jìn)行可視化處理,對(duì)某些特征屬性進(jìn)行了分析,推測(cè)其對(duì)學(xué)業(yè)成績(jī)存在的影響。接著,將該數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,對(duì)訓(xùn)練集中的樣本進(jìn)行建模,以此得出最佳模型參數(shù)。隨后,在測(cè)試集上運(yùn)用這些參數(shù),以便評(píng)價(jià)模型的有效性。最后,剔除相關(guān)性不大的特征數(shù)據(jù),重新建模預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,優(yōu)化后的模型預(yù)測(cè)準(zhǔn)確率提高。利用學(xué)習(xí)成績(jī)預(yù)測(cè)模型對(duì)學(xué)生的學(xué)業(yè)成績(jī)進(jìn)行預(yù)測(cè),能夠使教師及時(shí)了解學(xué)生的學(xué)習(xí)狀態(tài)與學(xué)習(xí)效果,并根據(jù)當(dāng)前情況制訂針對(duì)性的教學(xué)方案,進(jìn)行差異教學(xué),滿足不同學(xué)生的個(gè)性化學(xué)習(xí)需求。
logistic回歸模型
線性回歸模型用于識(shí)別連續(xù)型因變量與一個(gè)或多個(gè)自變量之間的關(guān)系。當(dāng)只有一個(gè)自變量和一個(gè)因變量時(shí),稱為簡(jiǎn)單線性回歸;而隨著自變量數(shù)目的增加,則被稱為多元線性回歸。對(duì)于每種線性回歸,都會(huì)力求繪制一條通過(guò)一組數(shù)據(jù)點(diǎn)的最佳擬合線,這通常使用最小二乘法來(lái)計(jì)算。與線性回歸類似,邏輯回歸也用于估計(jì)因變量與一個(gè)或多個(gè)自變量之間的關(guān)系,只是其作用是對(duì)分類變量與連續(xù)變量進(jìn)行預(yù)測(cè)。分類變量可以為true或false、yes或no、1或0等。
logistic回歸分析的核心內(nèi)容是研究二分類或多分類因變量和一組自變量之間的關(guān)系[1],確定自變量對(duì)因變量的影響程度,從而預(yù)測(cè)因變量取值的可能性。在一般線性回歸分析中,因變量y為數(shù)值型連續(xù)變量,若假定自變量個(gè)數(shù)為1,則其與自變量x之間的線性關(guān)系如下:
(1)
在邏輯回歸中,是用邏輯函數(shù)把線性回歸的結(jié)果(-∞,∞)映射到(0,1),其中線性回歸函數(shù)的數(shù)學(xué)表達(dá)式為:
(2)
其中,xi是自變量,y是因變量,y的值域?yàn)椋?∞,∞),θ0是常數(shù)項(xiàng),θi(i=1,2,…,n)是待求系數(shù),不同的權(quán)重θi反映了自變量對(duì)因變量不同的貢獻(xiàn)程度。線性回歸若線性條件不符合,可以對(duì)y或者x進(jìn)行轉(zhuǎn)換,以滿足線性回歸的要求。因此,統(tǒng)計(jì)研究者對(duì)待求解系統(tǒng)進(jìn)行了轉(zhuǎn)換,稱之為logit轉(zhuǎn)換。logit函數(shù)的值域?yàn)椋?,1),函數(shù)表達(dá)式為:
(3)
其中,z=θTx。通過(guò)上述變化,將g(z)的輸出表示為一個(gè)分類問(wèn)題在給定x的條件下等于0或者1的概率。
實(shí)驗(yàn)數(shù)據(jù)
1.數(shù)據(jù)來(lái)源
筆者使用阿里云天池公開(kāi)的數(shù)據(jù)集:學(xué)生成績(jī)預(yù)測(cè)數(shù)據(jù)集。該數(shù)據(jù)集是一個(gè)多變量數(shù)據(jù)集,包含了480名學(xué)生的基本情況和課內(nèi)外表現(xiàn)的量化數(shù)據(jù)。其中,每一個(gè)數(shù)據(jù)樣本都有17個(gè)特征屬性,前16個(gè)是自變量,如性別、國(guó)籍、出生地等,最后一個(gè)為因變量,為學(xué)生的學(xué)業(yè)成績(jī)。需要說(shuō)明的是,學(xué)生最后的實(shí)際學(xué)業(yè)成績(jī)以等級(jí)方式展現(xiàn),L代表分?jǐn)?shù)區(qū)間在0~60,M代表分?jǐn)?shù)區(qū)間在70~89,H代表分?jǐn)?shù)區(qū)間在90~100。模型構(gòu)建的最終目的是通過(guò)這些特征來(lái)預(yù)測(cè)學(xué)生的最終學(xué)業(yè)評(píng)測(cè)成績(jī),預(yù)測(cè)成績(jī)也將以等級(jí)方式呈現(xiàn),即L、M、H三者之一。該數(shù)據(jù)集480名學(xué)生的特征如下表所示。
2.數(shù)據(jù)預(yù)處理
缺失數(shù)據(jù)會(huì)影響分析的準(zhǔn)確性和可靠性,可能會(huì)導(dǎo)致結(jié)果出現(xiàn)偏差。剔除缺失數(shù)據(jù)可以防止過(guò)擬合,過(guò)擬合會(huì)影響模型泛化能力,使得模型在訓(xùn)練集上表現(xiàn)優(yōu)異,但在測(cè)試集上表現(xiàn)較差,也有助于更快地訓(xùn)練模型。筆者運(yùn)用Idle Python軟件,輸入核心語(yǔ)句print(df.isnull().sum())并運(yùn)行,查看480名學(xué)生信息是否存在缺失值,如有缺失,進(jìn)行異常數(shù)據(jù)清除。運(yùn)行結(jié)果顯示480條數(shù)據(jù)均無(wú)缺失值,表明均為有效數(shù)據(jù)。
大多數(shù)用于分類的機(jī)器學(xué)習(xí)算法都是圍繞每個(gè)類別的樣本數(shù)量均相等的假設(shè)來(lái)設(shè)計(jì)的,因此,倘若數(shù)據(jù)集分類不平衡,則模型會(huì)偏向于預(yù)測(cè)頻繁出現(xiàn)的類別,而忽略其他類別,從而導(dǎo)致構(gòu)建的模型的預(yù)測(cè)結(jié)果不準(zhǔn)確。例如,如果數(shù)據(jù)集中特定類別的樣本比其他類別的樣本多得多,那么模型可能會(huì)偏向于預(yù)測(cè)這個(gè)特定類別,從而導(dǎo)致準(zhǔn)確率下降。因此,為了確保模型能夠準(zhǔn)確地預(yù)測(cè)結(jié)果,數(shù)據(jù)集的分類必須較為平衡,這是數(shù)據(jù)集構(gòu)建或采集時(shí)需要考慮的一個(gè)問(wèn)題。數(shù)據(jù)集的可用性可以通過(guò)觀察數(shù)據(jù)集中類別的樣本數(shù)量是否相當(dāng)來(lái)評(píng)估,輸入關(guān)鍵代碼可得到成績(jī)等級(jí)分布情況(如圖1)。
在480名樣本數(shù)據(jù)中,三個(gè)等級(jí)(L、M、H)的成績(jī)分布人數(shù)均在100人以上,其中分?jǐn)?shù)區(qū)間在0~60分的學(xué)生人數(shù)較多,分?jǐn)?shù)區(qū)間在70~89分的學(xué)生人數(shù)與分?jǐn)?shù)區(qū)間在90~100分的學(xué)生人數(shù)相當(dāng),數(shù)據(jù)集的分類較為平衡,這是保證模型準(zhǔn)確地預(yù)測(cè)結(jié)果的前提。
3.數(shù)據(jù)可視化
可視化的目的是探索數(shù)據(jù)規(guī)律,發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)系,如特征與目標(biāo)變量之間的相關(guān)性。筆者將該數(shù)據(jù)集的480名學(xué)生的部分特征(性別、班級(jí)、學(xué)期、孩子家庭教育負(fù)責(zé)人、家長(zhǎng)對(duì)學(xué)校的滿意度、學(xué)生缺勤天數(shù))按學(xué)生成績(jī)等級(jí)進(jìn)行劃分,了解兩者之間的關(guān)系,如圖2所示。
子圖(a)顯示,男生中成績(jī)等級(jí)處于L的人數(shù)多于成績(jī)等級(jí)處于H的人數(shù),男生低分人數(shù)多;女生中成績(jī)等級(jí)處于H的人數(shù)多于L等級(jí)的人數(shù),女生低分人數(shù)少。無(wú)論是在中國(guó)還是國(guó)際上,均存在男性的學(xué)習(xí)成績(jī)明顯落后于女生的情況。[2]男生的注意力容易分散,經(jīng)常會(huì)在學(xué)習(xí)的過(guò)程中分心,而女生比較容易集中注意力,能夠把精力放在學(xué)習(xí)上。此外,男生也更容易受到外界的干擾,如媒體、網(wǎng)絡(luò)等,容易分散學(xué)習(xí)精力,而女生往往更能夠集中注意力學(xué)習(xí),故而低分少。
子圖(d)顯示,父親作為家庭教育負(fù)責(zé)人的學(xué)生成績(jī)等級(jí)為L(zhǎng)的人數(shù)遠(yuǎn)多于成績(jī)等級(jí)為H的人數(shù),即處于低分的學(xué)生人數(shù)較多;而家庭教育負(fù)責(zé)人為母親的學(xué)生,L、M、H三等級(jí)人數(shù)呈階梯上升趨勢(shì),處于高分等級(jí)的人數(shù)最多。這與父母在家庭教養(yǎng)活動(dòng)中的不同作用及性別角色差異有很大聯(lián)系。精神分析理論認(rèn)為,與父親相比,孩子更依戀母親。[3]母親往往比父親更能理解孩子的需要,更加靈活地支持他們的學(xué)習(xí),從而使孩子更容易取得好成績(jī)。有研究顯示,在教養(yǎng)方式上,父親的情感表達(dá)以及耐心方面都弱于母親,但在創(chuàng)造力、勇氣等品質(zhì)培養(yǎng)方面又普遍強(qiáng)于母親[4],母親往往更有耐心地輔導(dǎo)孩子。情感細(xì)膩的母親更關(guān)注孩子的身體健康與情緒體驗(yàn)等。[5]由于母親更多地參與子女的日常生活,她們更了解孩子的行為,更容易發(fā)現(xiàn)孩子學(xué)習(xí)中的問(wèn)題,從而及時(shí)采取措施幫助孩子改善成績(jī)。
而從子圖(e)和子圖(f)中也可以看出,“家長(zhǎng)對(duì)學(xué)校的滿意度”及“學(xué)生缺勤天數(shù)”均與學(xué)生成績(jī)有關(guān)聯(lián)。一般來(lái)說(shuō),家長(zhǎng)對(duì)學(xué)校的滿意度越高,學(xué)生的成績(jī)往往也越高。學(xué)校給予學(xué)生充分的關(guān)心和支持,提供良好的學(xué)習(xí)環(huán)境,學(xué)生學(xué)習(xí)的效果就會(huì)更好。同樣,家長(zhǎng)也會(huì)感受到學(xué)校的關(guān)心,從而更加支持孩子的學(xué)習(xí),這樣就能更有效地幫助孩子取得更高的成績(jī)。而學(xué)生缺勤天數(shù)對(duì)學(xué)生成績(jī)也有顯著的影響。缺勤天數(shù)多,學(xué)生便無(wú)法得到足夠的學(xué)習(xí)機(jī)會(huì),不能充分參與課堂,導(dǎo)致無(wú)法全面掌握課程內(nèi)容,降低學(xué)習(xí)效率,進(jìn)而影響考試成績(jī)。
結(jié)果與分析
1.模型構(gòu)建
本文實(shí)驗(yàn)環(huán)境為Win10 64 bit操作系統(tǒng),分析和建模的程序基于Python3.7。研究調(diào)用Python語(yǔ)言的scikit-learn項(xiàng)目完成,Logistic回歸在linear_model.Logistic Regression中實(shí)現(xiàn)。其中的關(guān)鍵環(huán)節(jié)是使用fit()方法訓(xùn)練模型,最后利用訓(xùn)練得到的模型對(duì)數(shù)據(jù)集進(jìn)行預(yù)測(cè),使用predict()輸出預(yù)測(cè)結(jié)果。模型訓(xùn)練前需要拆分?jǐn)?shù)據(jù)集,將該數(shù)據(jù)集劃分為兩部分,其中,80%的數(shù)據(jù)作為訓(xùn)練集,剩下的20%作為測(cè)試集。關(guān)鍵代碼如圖3所示,運(yùn)行結(jié)果如圖4所示,輸出測(cè)試集中前10名學(xué)生的預(yù)測(cè)成績(jī),并為該預(yù)測(cè)模型打分。
由圖5可知,測(cè)試集中前10名學(xué)生的實(shí)際學(xué)業(yè)成績(jī)等級(jí)依次是M,M,M,L,M,H,H,M,M,L。模型最終預(yù)測(cè)的前10名學(xué)生的成績(jī)依次是H,M,M,L,H,H,H,H,M,L。除了第1、5、8名學(xué)生的預(yù)測(cè)學(xué)業(yè)成績(jī)與實(shí)際成績(jī)不符外,其他學(xué)生預(yù)測(cè)成績(jī)與實(shí)際成績(jī)均相同,且模型預(yù)測(cè)準(zhǔn)確率評(píng)分約為0.740。
2.模型優(yōu)化
由于在數(shù)據(jù)可視化部分已經(jīng)可以發(fā)現(xiàn)無(wú)論在“A”“B”“C”哪個(gè)班,其成績(jī)分布都高度趨同,所以猜測(cè)“班級(jí)”特征與學(xué)業(yè)成績(jī)關(guān)系不大,因此嘗試剔除“班級(jí)”特征數(shù)據(jù)后再進(jìn)行建模。核心代碼為X=df.drop([‘Class,SectionID],axis=1),運(yùn)行結(jié)果如圖6所示,可以看到相比優(yōu)化前的模型,預(yù)測(cè)準(zhǔn)確率得到提升。在測(cè)試集前10名學(xué)生中,僅第1、8名學(xué)生的預(yù)測(cè)學(xué)業(yè)成績(jī)與實(shí)際成績(jī)不同,預(yù)測(cè)準(zhǔn)確率評(píng)分上升至0.802。
結(jié)論
本研究對(duì)可能影響學(xué)生成績(jī)的多個(gè)因素進(jìn)行了分析,并基于logistic回歸建立了學(xué)生未來(lái)學(xué)業(yè)成績(jī)預(yù)測(cè)模型。該模型能夠有效地捕捉學(xué)生特征屬性與學(xué)業(yè)成績(jī)之間的復(fù)雜關(guān)系,進(jìn)而幫助教師及時(shí)調(diào)整教學(xué)方案,更有針對(duì)性地提高學(xué)生的學(xué)習(xí)效率,降低學(xué)習(xí)失敗率。
參考文獻(xiàn):
[1]莊立純,張正軍,張乃今,等.基于非線性Logistic模型的改進(jìn)UDEED算法[J].計(jì)算機(jī)工程,2019,45(07):208-211.
[2]李夢(mèng)竹.初中生學(xué)習(xí)成績(jī)的影響因素及其性別效應(yīng)[J].基礎(chǔ)教育,2018,15(01):99-108.
[3]McKinney,C.,& Renk,K.Differential parenting between mothers and fathers:implications for late adolescents[J].Journal of Family Issues,2008,29(06):806-827.
[4]Sofie K,Eva C.Parenting Styles:A Closer Look at a Well-Known Concept[J].Journal of Child and Family Studies,2019(28): 168-181.
[5]萬(wàn)榮,李小龍,陳競(jìng)?cè)?父母教養(yǎng)方式對(duì)小學(xué)高年級(jí)學(xué)生學(xué)業(yè)拖延的影響:一個(gè)有調(diào)節(jié)的中介模型[J].陜西學(xué)前師范學(xué)院學(xué)報(bào),2020,36(07):112-121.
作者簡(jiǎn)介:李果,女,漢族,碩士研究生,研究方向?yàn)榻逃畔⒒?;張萌,女,漢族,碩士研究生,研究方向?yàn)榻逃畔⒒?;康瑞,女,漢族,碩士研究生,研究方向?yàn)榻逃畔⒒?/p>