陳曉紅,安爍羽,亓 慧
(1.廣州南洋理工職業(yè)學(xué)院 人文與教育學(xué)院,廣東 廣州 510925;2.上海交通大學(xué) 馬克思主義學(xué)院,上海 200240;3.太原師范學(xué)院 計(jì)算機(jī)系,山西 晉中 030619)
隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,高校教學(xué)管理摒棄了原有人工統(tǒng)計(jì)繁瑣且有誤差的弊端,借助計(jì)算機(jī)和智能算法來實(shí)現(xiàn)大規(guī)模教學(xué)數(shù)據(jù)的深度挖掘[1-2].相比于傳統(tǒng)統(tǒng)計(jì)及平臺(tái)數(shù)據(jù)分析靈活性差等缺點(diǎn),通過有效挖掘,可以從不同角度對(duì)教學(xué)產(chǎn)生的數(shù)據(jù)進(jìn)行多維度分析,提高教學(xué)分析的科學(xué)性,這為高校的教學(xué)管理決策提供了有力數(shù)據(jù)支持.大學(xué)英語作為高校專業(yè)覆蓋面最廣、跨越年級(jí)最長的課程之一,其教學(xué)質(zhì)量評(píng)估需考慮的因素多,教學(xué)質(zhì)量評(píng)估難度大,需要通過合適算法來完成教學(xué)質(zhì)量的深度評(píng)估.
當(dāng)前,關(guān)于教學(xué)質(zhì)量評(píng)估的研究成果豐富.張雅清[3]采用SVM和主動(dòng)學(xué)習(xí)完成了教學(xué)質(zhì)量評(píng)估,張居設(shè)[4]采用神經(jīng)網(wǎng)絡(luò)和GA算法對(duì)英語教學(xué)質(zhì)量評(píng)估,衛(wèi)娜[5]詳細(xì)分析了英語教學(xué)多維評(píng)估指標(biāo)方法.這些研究均存在評(píng)估效率不高且缺乏一致性驗(yàn)證的問題.本文采用決策樹算法對(duì)影響英語教學(xué)質(zhì)量的關(guān)鍵因素進(jìn)行分類,生成有效的分類規(guī)則,獲得各指標(biāo)因素的分析結(jié)果,并且采用規(guī)則關(guān)聯(lián)對(duì)教學(xué)質(zhì)量評(píng)估進(jìn)行結(jié)果一致性驗(yàn)證.
決策樹主要由根節(jié)點(diǎn)、分支節(jié)點(diǎn)和葉子節(jié)點(diǎn)構(gòu)成[6],其核心結(jié)構(gòu)如圖1所示.
圖1 決策樹結(jié)構(gòu)
設(shè)樣本集合S中的樣本被分為了m類,其類別為Ci(i=1,2,…,m).si為屬于Ci的樣本數(shù).
S期望熵計(jì)算方法[7]為
(1)
設(shè)樣本的某個(gè)屬性A,用A對(duì)S進(jìn)行子集劃分,期望[8]為
(2)
根據(jù)式(1),對(duì)于子集Sj,有
(3)
A對(duì)S的期望熵增益[9]為
Gain(A)=I(s1,s2,…,sm)-E(A)
(4)
若用增益率來表示,則
(5)
其中
(6)
設(shè)集合D中的項(xiàng)目個(gè)數(shù)為|D|,X為D中的某個(gè)項(xiàng)集,D中項(xiàng)集X的個(gè)數(shù)為count(X?D),那么X的支持度[10]為,
(7)
設(shè)D中任意兩個(gè)項(xiàng)集X和Y,滿足條件X?D,Y?D,且兩者相互獨(dú)立,兩者在D中同時(shí)出現(xiàn)的概率也可以用支持度[11]表示
(8)
其中count(X∩Y)為D中同時(shí)包含X和Y的項(xiàng)集個(gè)數(shù).
除支持度之外,還可以用可信度來衡量X和Y的關(guān)聯(lián)關(guān)系[12]
(9)
也可以用提升度來衡量[13]來表示,
(10)
在進(jìn)行規(guī)則關(guān)聯(lián)分析時(shí),根據(jù)式(8)和式(9)求解待評(píng)測(cè)項(xiàng)集的support(X?Y)和confidence(X?Y),然后和兩者的最小值min-support和min-confidence進(jìn)行對(duì)比,判斷項(xiàng)集X和Y的關(guān)聯(lián)程度[14],在實(shí)際操作過程中,提升度一般不常用于關(guān)聯(lián)程度衡量.由此可見,min-support和min-confidence的合理設(shè)置對(duì)X和Y的關(guān)聯(lián)性準(zhǔn)確判斷起著重要作用,因此在設(shè)置時(shí)務(wù)必合理.
教學(xué)質(zhì)量評(píng)估指標(biāo)從兩個(gè)方面選取,一方面是教師的相關(guān)數(shù)據(jù),另一方面是教學(xué)排課及教學(xué)環(huán)節(jié)相關(guān)因素,具體指標(biāo)見表1[15].
首先對(duì)教學(xué)質(zhì)量評(píng)數(shù)據(jù)樣本根據(jù)表1中的指標(biāo)進(jìn)行數(shù)據(jù)整理,然后根據(jù)第一節(jié)中的式(5)和式(6)分別計(jì)算出E(A)和Gain(A).選擇Gain(A)值中最高的指標(biāo)作為根節(jié)點(diǎn),Gain(A)的次高值為分支節(jié)點(diǎn),以此方法構(gòu)建完整決策樹,接著根據(jù)樹結(jié)構(gòu)獲得IF-THEN形式的分類規(guī)則,最后采用關(guān)聯(lián)規(guī)則對(duì)教學(xué)質(zhì)量評(píng)估進(jìn)行一致性驗(yàn)證,具體流程為,
1)從教務(wù)平臺(tái)獲取英語教學(xué)評(píng)估數(shù)據(jù)包;
2)按照表1指標(biāo)對(duì)數(shù)據(jù)進(jìn)行初始化,生成待評(píng)估樣本;
表1 評(píng)估指標(biāo)
3)計(jì)算所有指標(biāo)熵增量值生成決策樹;
4)采用關(guān)聯(lián)規(guī)則方法驗(yàn)證決策樹生成的英語教學(xué)質(zhì)量評(píng)估分類規(guī)則.
其中,決策樹生成過程和關(guān)聯(lián)規(guī)則驗(yàn)證具體步驟如圖2所示.
圖2 教學(xué)質(zhì)量評(píng)估流程
為了驗(yàn)證決策樹和規(guī)則關(guān)聯(lián)分類在英語教學(xué)質(zhì)量評(píng)估中的性能,進(jìn)行實(shí)例仿真.本文數(shù)據(jù)集源自某高職院校教務(wù)處提供的該校2020年秋季學(xué)期大學(xué)英語課程的相關(guān)數(shù)據(jù),包括課程、教師及評(píng)教數(shù)據(jù),按照表1的相關(guān)指標(biāo)屬性提取值構(gòu)建教學(xué)質(zhì)量評(píng)估樣本.首先對(duì)評(píng)估樣本進(jìn)行決策樹分類獲得教學(xué)質(zhì)量分類規(guī)則,然后采用規(guī)則關(guān)聯(lián)求解頻繁集,驗(yàn)證決策樹算法的有效性.
將待評(píng)估的教學(xué)質(zhì)量數(shù)據(jù)按照表1的9項(xiàng)指標(biāo)逐條生成數(shù)據(jù)記錄,然后按照前述方法計(jì)算9項(xiàng)指標(biāo)的熵增益,其統(tǒng)計(jì)結(jié)果如表2所示.
表2 評(píng)估指標(biāo)熵增益
根據(jù)表2的Gain(A)值,職稱屬性有最大值0.071,因此職稱屬性為決策樹根節(jié)點(diǎn),根據(jù)職稱的4個(gè)屬性值產(chǎn)生4個(gè)不同的分支,然后選擇教學(xué)態(tài)度為分支節(jié)點(diǎn)繼續(xù)構(gòu)建決策樹,繼續(xù)根據(jù)Gain(A)值來選擇分支節(jié)點(diǎn)不斷擴(kuò)展決策樹,直到所有Gain(A)值節(jié)點(diǎn)都已經(jīng)計(jì)算完畢,最后根據(jù)樹結(jié)構(gòu)獲得的IF-THEN分類規(guī)則.其中評(píng)分為優(yōu)秀的分類規(guī)則預(yù)詳見表3.
表3 分類與評(píng)分優(yōu)秀規(guī)則
采用關(guān)聯(lián)規(guī)則方法尋找各指標(biāo)之前的潛在關(guān)系.教學(xué)評(píng)價(jià)得分為90分以上的記錄共30條,記為D1,對(duì)得分在90分以上的記錄.統(tǒng)計(jì)結(jié)果見表4.
表4 評(píng)分為90分以上的數(shù)據(jù)統(tǒng)計(jì)
計(jì)算表4各指標(biāo)的置信度與支持度,去掉低值指標(biāo),根據(jù)降序排序,選擇值高的生成頻繁集.設(shè)置min-support=5%,min-confidence=20%,篩選出符合該條件的頻繁集,統(tǒng)計(jì)結(jié)構(gòu)如表5所示.
表5 單個(gè)屬性的頻繁項(xiàng)目集
進(jìn)一步關(guān)聯(lián)分析,設(shè)置條件min-support=5%,min-confidence=30%,得到兩個(gè)屬性的頻繁集.從表6得,學(xué)歷、職稱、教學(xué)態(tài)度和課程類別對(duì)英語教學(xué)質(zhì)量影響明顯,而教齡及多媒體熟練程度對(duì)英語教學(xué)質(zhì)量影響小.根據(jù)表6生成的項(xiàng)目集繼續(xù)強(qiáng)化條件,min-support=5%,min-confidence=45%,可獲得的滿足條件的集合.
表6 兩個(gè)屬性的頻繁項(xiàng)目集
從表7可得,滿足confidence>45的指標(biāo)屬性共有5組,分別是{X2,Z3,T1}、{X3,Z3,T1}、{X2,Z4,T1}、{X2,Z2,T1}和{Z3,T1}.結(jié)果表明:具有好的教學(xué)態(tài)度的副高職稱以上的碩博教師更能獲得更高的評(píng)價(jià)分?jǐn)?shù),這與3.1節(jié)的IF-THEN結(jié)果一致性高.這說明職稱和學(xué)歷對(duì)英語教學(xué)質(zhì)量影響大,在英語教學(xué)師資配備上要多配學(xué)歷高且教學(xué)經(jīng)驗(yàn)豐富的教師,此外,教學(xué)態(tài)度好也是影響教學(xué)質(zhì)量關(guān)鍵的因素.關(guān)于confidence閾值的選擇,在實(shí)際應(yīng)用情況中,選擇應(yīng)當(dāng)合理,選擇的值過高,雖然選擇出了關(guān)聯(lián)性非常強(qiáng)的屬性,但是也容易忽視中等關(guān)聯(lián)性指標(biāo)屬性,可能因?yàn)橛?jì)算累計(jì)誤差會(huì)漏掉部分影響教學(xué)質(zhì)量評(píng)估的關(guān)鍵指標(biāo),不利于教學(xué)質(zhì)量的全面評(píng)估;但是若選擇的值過低,會(huì)造成關(guān)聯(lián)指標(biāo)過多,指標(biāo)評(píng)估失去實(shí)際意義.
表7 項(xiàng)目集(min-confidence=45%)
采用決策樹和規(guī)則關(guān)聯(lián)分析方法用于英語教學(xué)質(zhì)量評(píng)估研究,通過決策樹生成教學(xué)評(píng)估關(guān)聯(lián)規(guī)則,然后通過規(guī)則關(guān)聯(lián)計(jì)算置信度得到頻繁集,通過兩種方法的教學(xué)質(zhì)量評(píng)估分析,得到了相似的教學(xué)質(zhì)量評(píng)估結(jié)果,表明本文方法對(duì)英語教學(xué)質(zhì)量評(píng)估的有效性好,有較強(qiáng)的適用價(jià)值.下一步研究可進(jìn)一步增加指標(biāo)屬性及屬性類別,提高英語教學(xué)評(píng)估指標(biāo)全面性,再者優(yōu)化決策樹算法,提高其根據(jù)熵增益構(gòu)建樹的效率,提高大規(guī)模英語教學(xué)評(píng)估樣本的質(zhì)量預(yù)測(cè)及評(píng)估適用性.