苗育源
(山西農(nóng)業(yè)大學(xué) 山西省晉中市 030800)
近年來,國內(nèi)許多學(xué)者已成功地將數(shù)據(jù)挖掘技術(shù)應(yīng)用于教育領(lǐng)域上,如學(xué)校招生策略的制訂、學(xué)習(xí)障礙鑒定等研究。此外,以學(xué)生學(xué)業(yè)成就為分析目標的相關(guān)研究,則有針對學(xué)生基本數(shù)據(jù)、學(xué)生缺曠課、家庭與學(xué)校環(huán)境的影響為主要分析方向,鮮少有針對學(xué)生個人的學(xué)習(xí)態(tài)度進行分析。然而學(xué)習(xí)態(tài)度是學(xué)生在學(xué)習(xí)活動的歷程中,指示學(xué)習(xí)行為的方向,因此若所持的評價為正面,則對于所學(xué)的課程將全力以赴。有鑒于此,本研究將運用數(shù)據(jù)挖掘中的決策樹分類法,針對大學(xué)生的學(xué)習(xí)態(tài)度,建構(gòu)學(xué)習(xí)成績的分類模型,并找出預(yù)測低學(xué)習(xí)成績或成績低落的相關(guān)決策規(guī)則,以提供教師作為教學(xué)時的參考。
本研究架構(gòu)是先從某科技大學(xué)校務(wù)信息系統(tǒng)的數(shù)據(jù)庫中,分別取得2020年度第二學(xué)期企業(yè)管理系一年級專業(yè)課程的教學(xué)評價問卷數(shù)據(jù)以及學(xué)生學(xué)期成績,以C4.5 決策樹算法開始進行數(shù)據(jù)挖掘工作,最后再將具有高準確率的規(guī)則,提供給教師作為教學(xué)參考,希望借以提升學(xué)生的學(xué)習(xí)成績。
本文收集的一年級專業(yè)課程部分,分別為A 專業(yè)一年級、B 專業(yè)一年級、以及C 專業(yè)一年級的各五門課程,合計十五門課程。原始教學(xué)評價(含學(xué)生對教師評價與學(xué)生自我評價兩部分)與學(xué)生學(xué)期成績數(shù)據(jù)共有15022 筆,剔除非本研究分析的數(shù)據(jù)(如教師評價部分)以及數(shù)據(jù)不全的記錄,再經(jīng)過數(shù)據(jù)匯整后,進入分析的數(shù)據(jù)合計為532 筆。每筆數(shù)據(jù)共有六個屬性,其中五個屬性是屬于學(xué)生自我評價部分(問卷說明詳如表1),另一個屬性則為學(xué)生學(xué)期成績。
由于本研究主要是研究學(xué)生自我評價與學(xué)生成績之間的關(guān)聯(lián)性,因此成績屬性為本研究的類別標記屬性,也就是輸出的分類結(jié)果。而有鑒于每一門課程的授課教師評定成績的標準不一,因此本研究在進行決策樹分析之前,先將每門課程的學(xué)生學(xué)期成績(v)進行分類處理,以平均值(mf)與標準差(sf)區(qū)分為H:高分群(v ≥mf+sf/2)、M:中分群(mf-sf≤v 本研究的所有實驗皆通過Microsoft Excel2013 中的計算、排序與樞紐分析等功能來操作,并獲得所有分析結(jié)果。 2.2.1 模式訓(xùn)練與驗證 本研究建立決策樹規(guī)則的方式,是采取兩階段方式進行。第一階段先以A專業(yè)一年級的五門專業(yè)課程數(shù)據(jù)(課程代號分別為A、B、C、D、E、F),采五組交叉驗證的方式建構(gòu)決策樹,也就是分別取四門課程數(shù)據(jù)作為訓(xùn)練樣本(80%),再以剩下的另一門課程數(shù)據(jù)作為測試樣本(20%),以找出準確率最高的決策樹。 第二階段則是將準確率最高的決策樹轉(zhuǎn)換成分類規(guī)則,結(jié)合B專業(yè)一年級與C 專業(yè)一年級的10 門專業(yè)課程數(shù)據(jù)進行驗證,找出預(yù)測率高于80%且準確人數(shù)超過5 人的規(guī)則。 表1:學(xué)生自我評價問卷說明 2.2.2 以決策樹建立分類系統(tǒng) (1)建立樹狀結(jié)構(gòu)。本研究是以Quinaln(1993)所提出的C4.5 算法來建立決策樹,此算法是由該學(xué)者修正自己之前發(fā)表的ID3(IterativeDichotomizer3)決策樹歸納算法而來,其基本概念是計算出獲利比值(gainratio)最大的屬性,作為決策樹中每一節(jié)點的分支屬性,以形成一個子樹,然后從剩下的屬性中,再次計算出獲利比值最大的屬性,以進行下一節(jié)點的分割,如此重復(fù)操作,最后形成整棵決策樹。 (2)修剪樹狀結(jié)構(gòu)。C4.5 算法中是以錯誤預(yù)估率(predicted error rate)為修剪標準,也就是當被分類于某一子樹的所有訓(xùn)練數(shù)據(jù)個數(shù)為T,其中有E 個訓(xùn)練數(shù)據(jù)分類錯誤,而錯誤預(yù)估率就是由TE 來評估,當錯誤率高于某一個臨界值時,就進行修剪。 由于本研究中可供分析的輸入變量僅有五個,并不會建構(gòu)過度復(fù)雜的決策樹,因此于建構(gòu)決策樹過程中,僅使用當訓(xùn)練數(shù)據(jù)個數(shù)與樹的節(jié)點數(shù)比值低于2 時的修剪方法,以避免節(jié)點再往下分支就會造成品質(zhì)測量值太低的問題。此外,本研究為了觀察學(xué)生學(xué)習(xí)態(tài)度與學(xué)業(yè)成就之間的關(guān)系,在形成葉節(jié)點(leaf node)的方式,不采取以多數(shù)決投票的傳統(tǒng)方式進行,也就是說,除了可以完全分類的葉節(jié)點外,其他則采用概率分配的方式進行預(yù)測。 經(jīng)由五組交叉驗證所獲得的結(jié)果(如表2),決策樹在經(jīng)過修剪之后,由A、C、D、E(以下簡稱ACDE)四門課程所獲得的決策樹規(guī)則其準確率最高。為節(jié)省篇幅,以下僅針對該組的決策樹建構(gòu)過程簡述如后。 ACDE 四門課程數(shù)據(jù)經(jīng)過整理后,可供分析使用的記錄共有173 筆,其中計有60 人成績屬于H 類別、有72 人成績屬于M 類別、以及有41 人成績屬于L 類別,其他各種數(shù)據(jù)的分布情形整理于表3。而經(jīng)過完整計算所獲得的決策樹結(jié)果共有54 條規(guī)則,修剪后的決策樹后剩下48 條規(guī)則,同樣針對B 課程數(shù)據(jù)來進行驗證,驗證結(jié)果顯示,該課程中符合驗證規(guī)則進行驗證的人數(shù)維持為42 人,正確人數(shù)提升為27 人,準確率達64.3%。 表2:五組決策樹驗證結(jié)果 表3:ACDE 四門課程數(shù)據(jù)合并后的學(xué)生人數(shù)分布情形 表4:預(yù)測率達80%并且正確人數(shù)達5 人的規(guī)則結(jié)果 本研究第二階段以該決策樹所獲得的48 條規(guī)則,針對A 專業(yè)一年級的B 課程、B 專業(yè)一年級的五門課程、以及C 專業(yè)一年級的五門課程,合計11 門課程(共346 人)的數(shù)據(jù)進行驗證工作,其中有338 人可按照規(guī)則進行驗證,正確人數(shù)為246 人,整體預(yù)測率為72.8%。最后再從驗證結(jié)果中挑選出預(yù)測率達80%且正確人數(shù)達5 人的規(guī)則(表4),從所得的8 條規(guī)則中我們可以發(fā)現(xiàn): (1)如果當學(xué)生偶爾缺課、上課偶爾聽講、對課程不太了解且對于課程尚有興趣時,則該學(xué)生的成績可能為中分群的概率為42.9%、低分群的概率為57.1%。 (2)如果當學(xué)生偶爾缺課、上課聽講還算用心、課后很少復(fù)習(xí)且對課程尚有興趣,則該學(xué)生的成績可能為中分群的概率為66.7%、低分群的概率為33.3%。 (3)如果當學(xué)生很少缺課、對課程了解、課后很少復(fù)習(xí)、上課還算用心聽講且對課程尚有興趣,則該學(xué)生的成績可能為中分群的概率為83.3%、低分群的概率為16.7%。 (4)如果當學(xué)生很少缺課、對課程了解、課后偶爾復(fù)習(xí)、上課還算用心聽講且對課程有興趣,則該學(xué)生的成績可能為中分群的概率為47.1%、低分群的概率為41.2%。 (5)如果當學(xué)生很少缺課、對課程了解、課后偶爾復(fù)習(xí)且上課很用心聽講,則該學(xué)生的成績可能為高分群或中分群的概率各為50%。 (6)如果當學(xué)生從未缺課、課后很少復(fù)習(xí)且對課程不太了解,則該學(xué)生的成績可能為高分群、中分群或低分群的概率各為33.3%。 (7)如果當學(xué)生從未缺課、課后偶爾復(fù)習(xí)且對課程不太了解,則該學(xué)生的成績可能為高分群或中分群的概率各為50%。 (8)如果當學(xué)生從未缺課、課后經(jīng)常復(fù)習(xí)、對課程非常有興趣且對課程非常了解,則該學(xué)生的成績可能為高分群的概率為61%、中分群的概率為38.5%。 從以上挖掘結(jié)果中可以發(fā)現(xiàn),決策樹中的第一層分類都是學(xué)生出席情形(Q26),所以學(xué)生出席率的高低對學(xué)生成績會有絕對的影響。 本研究運用C4.5 分類法,研究大學(xué)生的自我學(xué)習(xí)態(tài)度與學(xué)業(yè)學(xué)習(xí)成效之間的關(guān)系,由研究結(jié)果得知學(xué)生的缺課情形對學(xué)生成績具有明確的分類效果,因此若能有效提升學(xué)生出席情形,則定能改善學(xué)生的學(xué)業(yè)學(xué)習(xí)成效。然大學(xué)屬于學(xué)術(shù)自由的殿堂,不如之前高中職的學(xué)習(xí)階段,無法也不能以教條式的制度要求學(xué)生到課,因此借由授課教師如何思考改善自我的教學(xué)方法與品質(zhì),提高學(xué)生學(xué)習(xí)興趣與到課意愿。2.2 使用決策樹進行分類
3 結(jié)果
4 結(jié)論