余 弦,周誼芬
(1.南通大學(xué)杏林學(xué)院,江蘇南通 226000;2.南通大學(xué),江蘇南通 226000)
當(dāng)今世界,大數(shù)據(jù)正在給各行各業(yè)帶來深遠(yuǎn)的變革,它改變了人們的生活、工作方式,對社會的進(jìn)步和變革起到了巨大的推動作用。大數(shù)據(jù)具有數(shù)據(jù)量大、類型繁多、價值密度低、速度快、時效高等的特點(diǎn)[1],大數(shù)據(jù)時代對人們現(xiàn)有的數(shù)據(jù)駕馭能力提出了新的挑戰(zhàn),也為人們獲得更為深刻、全面的洞察能力提供了前所未有的空間與潛力。如何將大數(shù)據(jù)應(yīng)用落到實(shí)處,充分利用大數(shù)據(jù)來分析和處理行業(yè)中的問題,成為當(dāng)前研究的重點(diǎn)。
高等教育行業(yè)在大數(shù)據(jù)應(yīng)用與研究方面也面臨新的機(jī)遇和挑戰(zhàn)。隨著我國高等教育在信息化時代的不斷發(fā)展,高校在教學(xué)、管理中使用信息化系統(tǒng)的程度在逐漸加深[2],特別是此次新冠肺炎疫情下,大部分高校在疫情期間都推廣使用了遠(yuǎn)程教學(xué)、線上考試等平臺,這些信息化的教學(xué)過程積累了海量的教務(wù)管理和教學(xué)過程數(shù)據(jù)。但是,這些教務(wù)管理和教學(xué)過程中的海量數(shù)據(jù)很多都處于無人問津的狀態(tài),沒有得到有效的利用,而且隨著時間的推移,很多前期的數(shù)據(jù)會被直接刪除,造成巨大的信息資源浪費(fèi)[3]。因此,如何充分利用這些沉睡中的大量數(shù)據(jù),挖掘數(shù)據(jù)信息中的潛在價值,進(jìn)一步加深教學(xué)管理人員和任課教師對教學(xué)運(yùn)行過程的認(rèn)識,從而做出更科學(xué)的教學(xué)決策,是大數(shù)據(jù)時代高等教育工作者必須思考的問題。
高校教學(xué)運(yùn)行過程所產(chǎn)生的大量數(shù)據(jù)的一個重要組成部分就是學(xué)生成績數(shù)據(jù),課程成績不僅反映了學(xué)生的學(xué)習(xí)效果,為學(xué)生選擇研究方向、工作方向提供參考,也是高校教學(xué)質(zhì)量管理的一個重要指標(biāo),對高校深化教學(xué)評價、改革教學(xué)管理具有重要指導(dǎo)意義[4]。如何有效利用學(xué)生成績數(shù)據(jù),將其更科學(xué)地應(yīng)用于成績預(yù)警等方面,進(jìn)而提升教學(xué)管理能力和管理水平,一直是高校教學(xué)管理人員的一個努力方向。
雖然目前很多高校的成績預(yù)警在一定程度上利用了學(xué)生的既往成績數(shù)據(jù),但還是存在很大的改進(jìn)空間,主要表現(xiàn)在以下兩方面。
一是時效的滯后性。很多高校預(yù)警機(jī)制是在某一學(xué)期學(xué)生的成績?nèi)砍鰜碇?,通過教務(wù)系統(tǒng)匯總學(xué)生的不及格課程,統(tǒng)計(jì)學(xué)生未取得的學(xué)分,再通過這些統(tǒng)計(jì)結(jié)果,把不及課程達(dá)到一定門數(shù)或者所欠學(xué)分達(dá)到某一數(shù)值的學(xué)生納入成績預(yù)警名單,再根據(jù)這一名單來通知輔導(dǎo)員或者家長,對其后續(xù)學(xué)業(yè)進(jìn)行關(guān)注和干預(yù)。由此看出,這種預(yù)警方法是當(dāng)學(xué)生因?qū)W習(xí)困難或其他原因已經(jīng)產(chǎn)生一定程度的不良學(xué)習(xí)后果之后,才對學(xué)生進(jìn)行預(yù)警,在時間上具有滯后性[5],不能在學(xué)生學(xué)習(xí)困難的初期及時介入,預(yù)警效果有限。
二是方法的局限性,傳統(tǒng)的成績預(yù)警方法都是通過類似于EXCEL里的分類匯總來實(shí)現(xiàn),這種方法只是對大量的學(xué)生成績數(shù)據(jù)進(jìn)行粗淺的總結(jié),沒有深入分析這些數(shù)據(jù)之間可能存在的關(guān)系,缺乏前瞻性的指導(dǎo)思想,在大數(shù)據(jù)時代的背景下,這種預(yù)警方法的缺陷顯得更加突出。
根據(jù)以上分析,本文基于隨機(jī)森林算法對大數(shù)據(jù)背景下的高校成績預(yù)警模型進(jìn)行研究和構(gòu)建。該模型首先分析課程之間的關(guān)聯(lián)程度,以教務(wù)系統(tǒng)中歷年的大量成績數(shù)據(jù)為基礎(chǔ),利用隨機(jī)森林算法,實(shí)現(xiàn)對學(xué)生關(guān)聯(lián)課程的未來成績可能性預(yù)測,根據(jù)預(yù)測結(jié)果對可能不及格的學(xué)生進(jìn)行提早干預(yù)和介入,從源頭上減少不良學(xué)業(yè)情況,為教學(xué)管理提供有效的決策支持,提高整體教學(xué)質(zhì)量。
隨機(jī)森林是集成學(xué)習(xí)是的一個子類,通過建立幾個模型組合來解決單一預(yù)測問題。它的基本單元是決策樹,通過集成學(xué)習(xí)的思想將多個決策樹集成的一種算法,依靠于決策樹的投票選擇來決定最后的分類結(jié)果。它的工作原理是生成多個分類器,各自獨(dú)立地學(xué)習(xí)和做出預(yù)測。這些預(yù)測最后結(jié)合成單預(yù)測,因此優(yōu)于任何一個單分類的做出預(yù)測。它作為一種新興的、高度靈活的集成學(xué)習(xí)算法,在很多具體問題中展現(xiàn)出強(qiáng)大的性能,已經(jīng)廣泛地應(yīng)用于各行各業(yè),從金融財務(wù)到醫(yī)療健康,既可以用來評估上市公司財務(wù)風(fēng)險,也可用來預(yù)測疾病患病概率。
隨機(jī)森林算法的實(shí)現(xiàn)過程主要分為以下3步。
(1)用隨機(jī)的方式來建立包含眾多決策樹的隨機(jī)森林,單個決策樹都是隨機(jī)生成,不同的兩個決策樹之間沒有特定的關(guān)聯(lián)。假設(shè)訓(xùn)練集大小為N,對于每棵樹而言,采用bootstrap sample方法,隨機(jī)且有放回地從總訓(xùn)練集中的抽取N個訓(xùn)練樣本,作為該樹的訓(xùn)練集[6],每棵樹的訓(xùn)練集都是不同的,而且里面包含重復(fù)的訓(xùn)練樣本。
(2)在每棵樹的生長過程中,隨機(jī)選擇特征對決策樹的內(nèi)部節(jié)點(diǎn)進(jìn)行分裂,常用的決策樹分裂算法包括C4.5算法、ID3算法和CART算法等[7]。假設(shè)每個樣本的特征維度為M,根據(jù)指數(shù)最小原則,指定一個常數(shù)m< (3)將需要處理的樣本輸入隨機(jī)森林,由森林中的每一棵決策樹分別進(jìn)行分類判斷,決定輸入的樣本應(yīng)該屬于哪一類,再匯總?cè)縉棵決策樹的判斷結(jié)果,根據(jù)N種分類結(jié)果對每個記錄進(jìn)行投票表決,最終將具有最大記錄數(shù)的分類結(jié)果作為算法最終輸出[9]。 根據(jù)隨機(jī)森林算法的思想及實(shí)現(xiàn)過程,本文設(shè)計(jì)的成績預(yù)警模型以教務(wù)系統(tǒng)中往屆學(xué)生的大量成績數(shù)據(jù)為總訓(xùn)練集,采用bootstrap sample方法,抽取N個訓(xùn)練樣本作為訓(xùn)練集,形成互不關(guān)聯(lián)的N個決策樹,再選擇相關(guān)課程分?jǐn)?shù)作為隨機(jī)特征變量,每個決策樹根據(jù)自己的訓(xùn)練集對學(xué)生的成績進(jìn)行一個預(yù)測,最后綜合每一個決策樹的預(yù)測結(jié)果,形成對學(xué)生未來成績最終走向的判斷。該模型如圖1所示。 圖1 基于隨機(jī)森林算法的成績預(yù)警模型示意 假設(shè)待預(yù)測的學(xué)生為某高校自動化專業(yè)2017級學(xué)生張三,需要預(yù)測的課程為下一學(xué)年所開設(shè)的“系統(tǒng)集成技術(shù)”。根據(jù)預(yù)測課程成績的不同分為3個預(yù)警風(fēng)險等級:預(yù)測成績低于60分為高風(fēng)險,預(yù)測成績在60到75之間為中風(fēng)險,預(yù)測成績高于75為低風(fēng)險。本文以該高校2016級自動化專業(yè)65名學(xué)生的4 540條成績作為總訓(xùn)練集,用本文之前提出的隨機(jī)森林預(yù)警模型對學(xué)生成績數(shù)據(jù)建模,最終生成對張三的“系統(tǒng)集成技術(shù)”這門專業(yè)課的預(yù)警風(fēng)險等級。 首先采用bootstrap sample方法從4 540條成績數(shù)據(jù)中抽取4個成績樣本集合作為訓(xùn)練集,形成包含4個決策樹的隨機(jī)森林,之后根據(jù)實(shí)際情況確定每個決策樹的隨機(jī)特征數(shù)為1,并為每個決策樹挑選一門本學(xué)年的專業(yè)課成績作為隨機(jī)特征變量,決策樹1以“模擬電子線路”成績作為隨機(jī)特征變量,決策樹2以“微機(jī)原理”成績作為隨機(jī)特征變量,決策樹3以“自動控制原理”成績作為隨機(jī)特征變量,決策樹4以“電機(jī)及拖動”成績作為隨機(jī)特征變量。經(jīng)過計(jì)算,每個決策樹根據(jù)自己的訓(xùn)練集對“系統(tǒng)集成技術(shù)”這門目標(biāo)課程成績的風(fēng)險等級判斷分布如表1—4所示。 以上4個決策樹的訓(xùn)練集和訓(xùn)練結(jié)果構(gòu)成了一個具體的隨機(jī)森林,以這一隨機(jī)森林為成績預(yù)警模型的核心,將學(xué)生張三當(dāng)前學(xué)年的4門專業(yè)課程成績作為樣本輸入,由4個決策樹來分別判斷目標(biāo)課程的風(fēng)險等級,綜合以上4個決策樹的預(yù)測結(jié)果,最終得到該學(xué)生的目標(biāo)課程風(fēng)險等級分布,如表5所示。 根據(jù)最終預(yù)測結(jié)果,該學(xué)生下一學(xué)年的目標(biāo)課程“系統(tǒng)集成技術(shù)”成績處于高風(fēng)險和低風(fēng)險的概率都較小,分別為4.9%和24.0%;處于中風(fēng)險的概率較大,為66.2%。 本文針對現(xiàn)有高校學(xué)生成績預(yù)警的滯后性、局限性,基于大數(shù)據(jù)背景下隨機(jī)森林算法,提出了一種高校學(xué)生成績預(yù)警模型。通過對高校相同專業(yè)學(xué)生的現(xiàn)有成績進(jìn)行深入分析,挖掘成績數(shù)據(jù)的潛在規(guī)律,從大量成績數(shù)據(jù)中抽樣形成不同的訓(xùn)練集,進(jìn)而形成若干決策樹對學(xué)生的成績分別做出預(yù)測,最終綜合所有決策樹的預(yù)測結(jié)果得出學(xué)生成績的風(fēng)險等級。經(jīng)過實(shí)驗(yàn)證明,該預(yù)警模型能夠有效改進(jìn)現(xiàn)有的成績預(yù)警機(jī)制,使預(yù)警能夠提前產(chǎn)生,為盡早介入學(xué)生不良學(xué)業(yè)提供了技術(shù)支撐,提高了學(xué)生的學(xué)習(xí)質(zhì)量和效果。 表1 決策樹1對目標(biāo)課程的風(fēng)險等級判斷 表2 決策樹2對目標(biāo)課程的風(fēng)險等級判斷 表3 決策樹3對目標(biāo)課程的風(fēng)險等級判斷 表4 決策樹4對目標(biāo)課程的風(fēng)險等級判斷 表5 學(xué)生目標(biāo)課程風(fēng)險等級分布3 基于隨機(jī)森林算法的成績預(yù)警模型
3.1 成績預(yù)警模型的構(gòu)建
3.2 成績預(yù)警模型的實(shí)現(xiàn)
4 結(jié)語