王雯麓 朱定局
【摘 要】隨著大數(shù)據(jù)時代的到來,如何利用數(shù)據(jù)資源分析學生學業(yè)的相關因素以改善教育效果,有著重要的現(xiàn)實意義和時代意義。本文利用Apriori算法和Pearson相關系數(shù)挖掘學生學業(yè)的相關因素與學生學業(yè)的關系及重要程度,從學生、家長和學校三方面給出建議;基于學生層面的相關因素,利用全連接神經網絡、邏輯回歸以及xgboost分類器進行訓練,對學生分類,以實行“因材施教”,改善教育效果。
【關鍵詞】Apriori算法;全連接神經網絡;學生學業(yè)影響因素;教育大數(shù)據(jù)
【基金項目】本文受以下項目資助:國家級新工科研究與實踐項目“新工科人才創(chuàng)新創(chuàng)業(yè)能力培養(yǎng)的辯證發(fā)展模式探索”(教高廳函【2018】17號);廣東省高等教育教學研究和改革重點項目“辯證發(fā)展創(chuàng)新教學法研究與實踐——以計算理論課程的創(chuàng)新思辨與實證為例”(粵教高函[2016]236號);廣東省學位與研究生教育改革研究重點項目“基于科研創(chuàng)新能力培養(yǎng)的辯證發(fā)展教學法研究與實踐”(粵教研函[2016]39號);廣東高校重大科研項目“基于大數(shù)據(jù)深度學習的辯證創(chuàng)新教學機器人核心技術研究”(2017KTSCX048);廣東省新工科研究與實踐項目“新工科人才創(chuàng)新創(chuàng)業(yè)能力培養(yǎng)的辯證發(fā)展模式探索”(粵教高函【2017】118號);廣東省聯(lián)合培養(yǎng)研究生示范基地“聯(lián)合培養(yǎng)研究生示范基地”(粵教研函[2016]39號)。
【中圖分類號】R197.4 【文獻標識碼】A 【文章編號】2095-3089(2019)21-00-01
一、背景
隨著大數(shù)據(jù)時代的到來,如何利用數(shù)據(jù)資源分析學生學業(yè)的相關因素以改善教育效果,有著重要的現(xiàn)實意義和時代意義。另外現(xiàn)階段,學校普遍存在學生學業(yè)水平參差不齊的現(xiàn)象,這使得教師的教學目標和教學活動難以針對到每一個學生身上。
目前已有一些學者對高校學生學業(yè)進行了關聯(lián)規(guī)則挖掘[1];有研究僅利用學生某一次成績一項指標對學生進行分類管理[2];也有一些僅針對某一學科某一專業(yè)進行影響因素挖掘的研究[3];但還沒有一項研究可以全面分析學生學業(yè)與學生層面、家庭層面及學校層面的多種因素之間的關系及重要程度。如何在保障教育公平的前提下,更好地開展因材施教的教學活動也是我們亟待解決的問題。
二、核心任務
本文利用CEPS的112所學校、近2萬名初中生的1700多個變量的數(shù)據(jù),選取與學生學業(yè)相關的學生層面、家庭層面及學校層面的因素如圖2-1,通過可視化以及Apriori規(guī)則關聯(lián)挖掘算法分析各因素與學生學業(yè)之間的關系及重要程度。
本文的另一個任務是基于學生層面的相關因素建立學業(yè)綜合評價體系,對學生的學業(yè)進行綜合評價,以實行“周期性走班制度”(周期性走班制度是指周一至周四實行正常的教學活動,周五實行特殊的走班制教學,即針對學生學業(yè)上各個方面進行綜合評價,為學生提供基礎類、提升類、拓展類的教學,滿足各個層次學生的學習需求。)。
三、結果與分析
本文采用的數(shù)據(jù)集男女樣本數(shù)量均衡,男性樣本數(shù)量占全體樣本數(shù)量的51%,女性樣本占全體樣本數(shù)量的49%,這對提升結果的可靠性是有利的。對學生學業(yè)綜合成績進行標準化處理,將學業(yè)綜合成績進行H、M、L等級評定。
1.單一因素與學生學業(yè)綜合成績等級的關系
從個人層面來看:女生學業(yè)綜合成績比男生優(yōu)秀,女生處于H等級的比例比男生比例高了17個百分點,L等級低了18個百分點;住宿情況對學生學業(yè)綜合成績等級影響較小,在學業(yè)綜合成績的各個等級中,住校人數(shù)的百分比與不住校人數(shù)的百分比基本持平。曾入讀幼兒園的學生處于H等級的比例比不曾入讀的學生比例高了7個百分點,L等級的比例低了5.5個百分點,可見進入幼兒園接受規(guī)范幼兒教育有利于學生未來學業(yè)水平的提高。周末的課外輔導班對學生的學業(yè)水平的促進明顯大于周一到周五的課外輔導班;學生回答問題次數(shù)、參加活動次數(shù)與學生等級之間存在明顯正相關關系;學生的遲到、逃課行為與學生等級之間存在明顯負相關關系。
而從家庭層面中可以發(fā)現(xiàn):是獨生子女的學生中H等級和M等級的比例均略高于非獨生子女的比例;非農業(yè)戶口學生中H等級和M等級的比例均略高于農業(yè)戶口學生的比例;父母學歷相差較大的學生中L等級和M等級的比例略高,可見部分父母的學歷差距有會有教育觀念和教育方式的不一致,進而對孩子的學業(yè)等級有反作用;父親不經常喝醉酒的學生中H等級的比例較父親經常喝醉酒的學生高了6.7個百分點,L等級的比例少了8.2個百分點;父母關系好的學生中等級為H的比例較父母關系不好的學生高了6.2個百分點;家長的教育觀念不同的學生,學業(yè)等級分布有較明顯區(qū)別;只有父親在家同住的學生中,大部分學生的學業(yè)等級為M和L;
從學校層面來看,學校的圖書館情況、周邊環(huán)境以及師資力量對學生的學業(yè)等級都無較明顯關系。
2.Pearson相關系數(shù)分析
經所次篩選后,本文選擇若干因素進行Pearson相關系數(shù)分析如圖3-1:
由圖可知,家庭經濟、父母關系、父親學歷、母親學歷、教育觀念、是否獨生、是否住宿、自信心均與學生學業(yè)綜合成績等級正相關;戶口類型、是否與父母同住均與學生學業(yè)綜合成績等級負相關。其中相關系數(shù)大于0.05的影響因素由高到低依次是自信心、父親學歷、母親學歷、教育觀念和父母關系。說明學生自信心高有利于學生學業(yè)綜合成績的提高,學生學業(yè)綜合成績的提高反過來又可以增強學生自信心,兩者相互促進,因此應該有意識地增強學生自信心。此外,父母學歷的高低、教育觀念和父母間的關系也會對學生學業(yè)綜合成績造成較大影響,可見家庭環(huán)境十分重要。
3.Apriori關聯(lián)規(guī)則挖掘
使用Apriori算法進行關聯(lián)規(guī)則挖掘得到各變量與學生學業(yè)情況組成的支持度、置信度和提升度不盡相同的多種規(guī)則。其中confidence最高的20條規(guī)則如下圖3-2所示:
女學生是一個較為感性、細膩、易受干擾的群體,而從上面的規(guī)則中可以發(fā)現(xiàn)lhs中均有“性別=女”,這可以反映出家庭層面和學校層面的若干個外部因素對女生的學業(yè)等級影響更大。本文推測女生的學業(yè)等級與各因素之間的關系較男生更密切,更有規(guī)律可以供挖掘。
4.訓練分類
本文首先僅利用學生層面的34個因素,通過全連接神經網絡進行500次訓練,模型準確度達到0.64。由于模型的準確度不高,繼續(xù)加入家庭層面和學校層面的各因素繼續(xù)進行訓練。邏輯回歸和xgboost機器學習算法對學生進行訓練分類,訓練后邏輯回歸算法的模型準確度約為0.46,xgboost分類器的準確度為0.51。
通過對數(shù)據(jù)的標準化,將所有的數(shù)據(jù)縮放為0-1,并進行特征選擇,兩個模型的準確度均上升,分別變?yōu)?.49和0.53,圖3-3為xgboost分類器在測試集上測試的結果。再利用上文中的全連接神經網絡繼續(xù)進行訓練,訓練的前一千輪的損失值和準確率如圖3-4所示,經2000次訓練,模型最終準確率達0.76。
本文的研究旨在運用大數(shù)據(jù)分析數(shù)據(jù)挖掘分析,為學校、家庭以及學生三個維度提供一定的參考,改善教育以實現(xiàn)更高效的人才培養(yǎng)。
參考文獻
[1]朱東星,沈良忠.關聯(lián)規(guī)則在高校學業(yè)預警中的應用研究[J].電腦知識與技術,2017,13(23):196-197.
[2]李珍,刁鋼,趙慧峰.基于大數(shù)據(jù)分析的學生學業(yè)分類管理體系——河北農業(yè)大學商學院新生入學成績的K-mean聚類分析[J].河北農業(yè)大學學報(農林教育版),2018,20(05):96-99.
[3]滕廣青,張良軍,張凡.基于決策樹的英語專業(yè)學業(yè)影響因素的關聯(lián)規(guī)則挖掘[J].浙江教育學院學報,2010(04):97-102.
作者簡介:王雯麓,朱定局(通信作者),華南師范大學。