方芳 張澎
摘要:該文將針對(duì)教師教學(xué)評(píng)價(jià)系統(tǒng)開(kāi)發(fā)和使用中存在的主要問(wèn)題,如數(shù)據(jù)處理不合理,功能不完善等問(wèn)題進(jìn)行分析,提出聯(lián)機(jī)分析處理技術(shù)、利用數(shù)據(jù)倉(cāng)庫(kù)技術(shù)和數(shù)據(jù)挖掘技術(shù),對(duì)要評(píng)測(cè)的數(shù)據(jù)進(jìn)行采樣分析處理。重點(diǎn)討論以CART算法為中心的決策樹(shù)生成算法,利用其屬性的相關(guān)性并對(duì)算法進(jìn)行了相應(yīng)的改進(jìn)。測(cè)試數(shù)據(jù)證明:改進(jìn)后的算法對(duì)所生成的規(guī)則集的數(shù)量和大小有優(yōu)化作用,有效地縮短處理的時(shí)間,使用改進(jìn)后的算法,對(duì)教學(xué)評(píng)價(jià)數(shù)據(jù)進(jìn)行知識(shí)挖掘,得到?jīng)Q策規(guī)則,用以輔助學(xué)校相關(guān)決策的改進(jìn)和制定。
關(guān)鍵詞:數(shù)據(jù)挖掘;教學(xué)評(píng)價(jià);聯(lián)機(jī)分析處理;決策樹(shù)
中圖分類(lèi)號(hào):G642 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)20-0001-03
Design and Development of Teaching Evaluation System that Based on Data Mining
FANG Fang,ZHANG Peng
(Department of Compute Science, Xiangnan University, Chenzhou 423000, China)
Abstract: On account of the low degree of automation and scientific data processing in existing teaching evaluation system, the data warehouse technology, online analytical processing as well as data mining techniques can be used for the evaluation of the data sampling processing. With focusing on the CART (Classification and Regression Trees algorithm) based decision tree generation algorithm, made use of its properties related to overcome shortcomings of it and then improve the algorithm itself. Through tests to demonstrate the improved algorithm can effectively shorten the processing time and reduce the size and number of the generated rule sets. By taking advantage of the improved algorithm, to help data mining on knowledge of teaching and then using generated decision rules to improve school-related decision-making and formulation.
Key words: data mining; teaching evaluation; online analytical processing; decision tree
1 概述
數(shù)據(jù)倉(cāng)庫(kù)和OLAP技術(shù)在教學(xué)管理系統(tǒng)中的實(shí)際應(yīng)用是在最近才被關(guān)注。目前相關(guān)的研究主要集中在如何去構(gòu)建學(xué)校的數(shù)據(jù)倉(cāng)庫(kù),利用OLAP技術(shù)對(duì)數(shù)據(jù)進(jìn)行處理和分析,怎樣以學(xué)校內(nèi)部各個(gè)數(shù)據(jù)庫(kù)中的相關(guān)數(shù)據(jù)為基礎(chǔ),其目的是提高學(xué)校的教育能力和水平。
文獻(xiàn)[1]主要討論了粗糙集的基礎(chǔ)理論用于教學(xué)評(píng)價(jià)數(shù)據(jù)處理地方法和決策樹(shù)分類(lèi)挖掘,為了讓算法再好的應(yīng)用于所開(kāi)發(fā)的系統(tǒng)中,對(duì)ID3數(shù)據(jù)挖掘算法進(jìn)行了改進(jìn),使其能更好的實(shí)現(xiàn)輔助決策功能。文獻(xiàn)[2]分析了一種基于用戶舉的權(quán)重推薦模型,以此模型為基礎(chǔ)對(duì)關(guān)聯(lián)規(guī)則算法進(jìn)行改進(jìn)從而提出MWFP算法。文獻(xiàn)[3] 對(duì)各種影響教學(xué)水平提高的原因及教學(xué)評(píng)價(jià)的各項(xiàng)指標(biāo)進(jìn)行了分析,使用數(shù)據(jù)挖掘的方法影響和提示教師教學(xué)水平因素構(gòu)建的教學(xué)評(píng)價(jià)決策樹(shù)模型。文獻(xiàn)[4]其OLAP解決方案采用的是ORACLE業(yè)務(wù)智能系統(tǒng)采用B/S架構(gòu)方式,能夠方便維護(hù)和部署。
本文通過(guò)OLAP技術(shù)可以發(fā)現(xiàn)教學(xué)評(píng)價(jià)結(jié)果和教師性別、學(xué)歷、年齡、教齡、職稱之間的關(guān)系,教師性別與學(xué)生異同對(duì)評(píng)價(jià)結(jié)果的一些影響,學(xué)生考試成績(jī)和評(píng)測(cè)結(jié)果與學(xué)生基本信息之間的關(guān)系等。通過(guò)改進(jìn)的CART決策樹(shù)生成算法進(jìn)行數(shù)據(jù)挖掘,尋找出教學(xué)評(píng)價(jià)過(guò)程中各元素與教學(xué)評(píng)價(jià)結(jié)果之間的關(guān)系。
2 CART決策樹(shù)數(shù)據(jù)挖掘的算法和改進(jìn)
CART算法是決策樹(shù)算法的典型代表,采用的策略是先生成二叉決策樹(shù),然后進(jìn)行修剪處理。二叉樹(shù)的生成采用好的方法可以提高決策樹(shù)生的效率,在分類(lèi)準(zhǔn)確性的基礎(chǔ)上修剪處理又可以減小決策樹(shù)的規(guī)模,進(jìn)一步提高了可應(yīng)用的范圍和理解性。了進(jìn)一步簡(jiǎn)化決策樹(shù)的結(jié)構(gòu),在CART的基礎(chǔ)上又提出了一種基于屬性歸約的CART算法。為了方便用戶根據(jù)自身實(shí)際需求調(diào)整閾值,有更高的決策準(zhǔn)確率,CART算法還考慮了決策屬性和測(cè)試屬性之間的聯(lián)系,用專(zhuān)業(yè)的分類(lèi)經(jīng)驗(yàn)作指導(dǎo),加快了決策樹(shù)的分類(lèi)的閾值可調(diào)和生成。
通過(guò)改進(jìn)后的CART決策樹(shù)算法步驟如下:
1)對(duì)于訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)處理應(yīng)用與選擇目標(biāo)關(guān)系密切的數(shù)據(jù)集體,對(duì)“臟數(shù)據(jù)”進(jìn)行清理生成符合CART算法處理的數(shù)據(jù)集。
2)如果待處理數(shù)據(jù)通過(guò)決策樹(shù)中間節(jié)點(diǎn)的屬性判別被認(rèn)為是大于某決策閾值,則此閾值的分支處生成一個(gè)葉子節(jié)點(diǎn)進(jìn)行標(biāo)注。
3)對(duì)全部測(cè)試數(shù)據(jù)屬性進(jìn)行分析計(jì)算得到?jīng)Q策屬性和每一個(gè)測(cè)試屬性之間的相關(guān)性。
4)選擇相關(guān)度比較小的測(cè)試屬性集test_attribute。
5)假設(shè)D為數(shù)據(jù)樣本集合,對(duì)其每一個(gè)樣本數(shù)據(jù)去除test_attribute。
6)調(diào)用CART(D)進(jìn)行一些處理。
針對(duì)改進(jìn)后的CART算法性能進(jìn)行分析,其方法是利用UCI實(shí)驗(yàn)數(shù)據(jù)庫(kù)中的根本依次使用改進(jìn)后的CART算法和常規(guī)CART算法進(jìn)行處理,分析處理后的結(jié)果證明改進(jìn)算法的有效性。
無(wú)關(guān)屬性對(duì)于決策樹(shù)算法準(zhǔn)確率與效率的影響比較大。通過(guò)實(shí)驗(yàn)證明,在標(biāo)準(zhǔn)的數(shù)據(jù)集中增加一個(gè)無(wú)關(guān)的二值屬性使決策樹(shù)生成算法的性能顯著下降,所有在應(yīng)用決策算法之前,需要對(duì)屬性集進(jìn)行數(shù)據(jù)縮減處理和減少數(shù)據(jù)維數(shù),提高算法的效率和準(zhǔn)確率。
實(shí)驗(yàn)數(shù)據(jù)基本特征,如表1所示:
表1 實(shí)驗(yàn)數(shù)據(jù)特征描述
[數(shù)據(jù)庫(kù)名稱\&樣本總數(shù)\&屬性個(gè)數(shù)\&類(lèi)別個(gè)數(shù)\&Balloons\&85\&4\&2\&Mushroom \&8223\&24\&2\&Breast-cancer\&277\&8\&2\&promoters\&157\&58\&2\&]
從執(zhí)行時(shí)間上看,改進(jìn)后的CART算法優(yōu)于普通CART算法,改進(jìn)的CART算法在進(jìn)行決策樹(shù)生成之前,對(duì)樣本數(shù)據(jù)進(jìn)行了處理去除與目標(biāo)相關(guān)性不大的屬性提高決策樹(shù)的生成效率。對(duì)比常規(guī)CART算法和改進(jìn)后的CART算法,針對(duì)每一數(shù)據(jù)集處理的準(zhǔn)確率和時(shí)間。在具體對(duì)比實(shí)驗(yàn)中,對(duì)于不同的數(shù)據(jù)庫(kù)采用了不同的分類(lèi)閾值。
表2 實(shí)驗(yàn)結(jié)果
[數(shù)據(jù)庫(kù)名稱\& CART算法\&改進(jìn)后的CART算法\&采用分類(lèi)閾值\&執(zhí)行時(shí)間\&準(zhǔn)確率\&執(zhí)行時(shí)間\&準(zhǔn)確率\&Balloons\&70.5%\&0.1\&76.94% \&0.06\&71.1%\&Mushroom\&80%\&0.16\&99.01%\&0.15\&97.25%\&Breast-cancer\&70%\&0.06\&67.12%\&0.04\&70.26%\&promoters\&80%\&0.05\&76.41%\&0.05\&80.18%\&]
在決策樹(shù)構(gòu)建過(guò)程中,判斷和分析某一節(jié)點(diǎn)上屬于某一類(lèi)的數(shù)據(jù)樣本值比例,如大于設(shè)定的閾值則停止分類(lèi),生成最終決策節(jié)點(diǎn),這一處理方法可以提高決策樹(shù)建立和后修剪過(guò)程。與傳統(tǒng)CART算法相比較,改進(jìn)后的CART算法增加了構(gòu)建決策樹(shù)之前的數(shù)據(jù)處理操作,以目標(biāo)與屬性之間的相關(guān)性為指導(dǎo)分析,去除樣本數(shù)據(jù)中與決策目標(biāo)無(wú)關(guān)或相關(guān)性不強(qiáng)的屬性,使生成決策樹(shù)的數(shù)據(jù)更加簡(jiǎn)潔提高了生成效率。
3 數(shù)據(jù)挖掘處理過(guò)程
基于CART決策樹(shù)方法的數(shù)據(jù)挖掘,主要的目標(biāo)是研究教學(xué)評(píng)價(jià)過(guò)程中,各個(gè)不同的指標(biāo)與最終教學(xué)評(píng)價(jià)結(jié)果之間的關(guān)系。整個(gè)過(guò)程需要經(jīng)過(guò)四個(gè)階段:數(shù)據(jù)預(yù)處理,決策樹(shù)生成,規(guī)則生成,準(zhǔn)確性評(píng)估。
3.1 數(shù)據(jù)準(zhǔn)備和預(yù)處理階段
數(shù)據(jù)挖掘的基礎(chǔ)和對(duì)象是數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)。在教學(xué)評(píng)價(jià)系統(tǒng)中,以教學(xué)評(píng)價(jià)結(jié)果數(shù)據(jù)庫(kù)表為分析對(duì)象,研究不同的評(píng)價(jià)指標(biāo)與最終評(píng)價(jià)結(jié)果分類(lèi)之間的關(guān)系,因此,在數(shù)據(jù)準(zhǔn)備階段,主要是從教學(xué)評(píng)價(jià)結(jié)果表中提取的評(píng)價(jià)結(jié)果數(shù)據(jù),具體如圖1所示:
圖1 數(shù)據(jù)挖掘數(shù)據(jù)源表
3.2 決策樹(shù)生成的階段
通過(guò)改進(jìn)后的CART算法從預(yù)處理數(shù)據(jù)中抽取了5112的個(gè)樣本數(shù)據(jù)來(lái)構(gòu)建決策樹(shù),然后對(duì)經(jīng)過(guò)預(yù)處理后的數(shù)據(jù)進(jìn)行了相應(yīng)分析,包括了1個(gè)結(jié)果類(lèi)項(xiàng)Total和10個(gè)影響因素項(xiàng)。各個(gè)屬性項(xiàng)的取值與相關(guān)信息被存儲(chǔ)到文件中供CART算法調(diào)用。
3.3 模型準(zhǔn)確性的評(píng)估
常用的分類(lèi)準(zhǔn)確性評(píng)估技術(shù)的方法主要有兩種,分別是保持和確認(rèn)交叉。本文所研究的“教學(xué)評(píng)價(jià)指標(biāo)——分類(lèi)”模型主要是對(duì)在線學(xué)習(xí)進(jìn)行形成性評(píng)估成績(jī)界定的,要滿足以下兩個(gè)要求:
1)對(duì)于大小不一樣的樣本集的成績(jī)?cè)u(píng)估具有比較好的穩(wěn)定性;
2)模型(分類(lèi)規(guī)則集合R")在成績(jī)?cè)u(píng)估上有一定的準(zhǔn)確性。
表3 測(cè)試數(shù)據(jù)集的評(píng)估結(jié)果表
[測(cè)試樣本
被分類(lèi)別\&該分類(lèi)樣本數(shù)\&原類(lèi)別為
A的樣本數(shù)\&原類(lèi)別為
B的樣本數(shù)\&原類(lèi)別為
C的樣本數(shù)\&原類(lèi)別為
D的樣本數(shù)\&分類(lèi)
正確率\&A\&1895\&1743\&121\&26\&5\&91.98%\&B\&3629\&183\&3240\&171\&35\&89.28%\&C\&3587\&33\&223\&3103\&228\&86.51%\&D\&889\&9\&45\&70\&765\&86.06%\&總計(jì)\&10000\&1969\&3628\&3371\&1032\&88.46%\&]
將采用保持方法對(duì)模型進(jìn)行準(zhǔn)確性的評(píng)估。
通過(guò)對(duì)教學(xué)評(píng)價(jià)進(jìn)行的數(shù)據(jù)分析,本文設(shè)定了10個(gè)描述教學(xué)評(píng)價(jià)的指標(biāo)項(xiàng)目,建立數(shù)據(jù)挖掘的“教學(xué)評(píng)價(jià)指標(biāo)——分類(lèi)”模型分析表。
分類(lèi)結(jié)果的準(zhǔn)確性測(cè)試:表3所示。
圖2為樣本分類(lèi)正確率的對(duì)比表。
圖2 樣本分類(lèi)正確率對(duì)比表
對(duì)“教學(xué)評(píng)價(jià)指標(biāo)——分類(lèi)”模型分析得出以下結(jié)論:
評(píng)估結(jié)果權(quán)重比由大到小的教學(xué)指標(biāo)依次是: TEffect:教學(xué)效果;TMethod:教學(xué)方法;TContent:教學(xué)內(nèi)容; TAttitude:教學(xué)態(tài)度;CAura:課堂氣氛;TSpeake:教學(xué)講課; HomeWork:作業(yè)指導(dǎo);TWrite:板書(shū)情況; TAppear:教師儀表;TStock:備課情況。
根據(jù)數(shù)據(jù)挖掘與分析,得到八條準(zhǔn)確率最高的教師教學(xué)評(píng)價(jià)評(píng)估標(biāo)準(zhǔn)規(guī)則:
1、if TEffect<9, then total=”差”;
2、if TEffect >9 and TEffect <9.5 and TMethod>9 and TMethod<9.5 and TAttitude<9, then total=”中”;
3、if TEffect >9 and TEffect <9.5 and TAttitude<9 and TContent>9 and TContent<9.5, then total=”中”;
4、if TEffect >9 and TEffect <9.5 and TContent>9 and TContent<9.5 and TMethod<9 and TAura>9.5, then total=”中”;
5、if TEffect>9.5,TMethod>9.5, then total=”優(yōu)”;
6、if TEffect >9 and TEffect <9.5 and TMethod>9 and TMethod<9.5 and TContent>9.5, then total=”優(yōu)”;
7、if TEffect >9.5 and TMethod>9 and TMethod<9.5 and TAttitude >9.5, then total=”優(yōu)”;
8、if TEffect >9 and TEffect <9.5 and TMethod>9.5 and TContent>9.5, then total=”優(yōu)”;
4 規(guī)則分析
根據(jù)以上數(shù)據(jù)挖掘得到規(guī)則分析如下:
規(guī)則一說(shuō)明,教學(xué)的效果是評(píng)價(jià)教師教學(xué)水平的最為重要的標(biāo)準(zhǔn),由于教學(xué)效果是一個(gè)綜合性的指標(biāo),該指標(biāo)如果不到9分,則教師的教學(xué)水平一定為是“差”。
規(guī)則二說(shuō)明,在教學(xué)效果達(dá)到9分以上時(shí),如果教學(xué)方法可以有良好的表現(xiàn),則教學(xué)態(tài)度即使不到9分,教學(xué)水平可被評(píng)定為“中”,說(shuō)明了教學(xué)方法的重要性。
規(guī)則三說(shuō)明,在教學(xué)效果達(dá)到9分以上時(shí),如果教學(xué)內(nèi)容達(dá)到良好,而教學(xué)的態(tài)度不足9分,教師的水平被認(rèn)定為“中”,提醒教師要注重平時(shí)的教學(xué)態(tài)度,不能讓學(xué)生產(chǎn)生逆反心理。
規(guī)則四說(shuō)明,在教學(xué)效果達(dá)到9分以上時(shí),教學(xué)內(nèi)容達(dá)到良好,課堂氣氛得分在9.5以上時(shí),即使教學(xué)方法小于9分,教學(xué)水平可被評(píng)價(jià)為“中”,教師注意課堂氣氛的活躍。
規(guī)則五說(shuō)明,當(dāng)教學(xué)效果和教學(xué)的方法都達(dá)到9.5分以上時(shí),教師的教學(xué)水平可被認(rèn)定為“優(yōu)”,要求教師提高教學(xué)效果和方法。
規(guī)則六說(shuō)明,在教學(xué)效果和教學(xué)方法的得分都處于9分到9.5分之間時(shí),如果教師的教學(xué)內(nèi)容突出,則其教學(xué)水平可被認(rèn)定為“優(yōu)”。
規(guī)則七說(shuō)明,在教學(xué)效果達(dá)到9.5以上,教學(xué)方法處于中等水平時(shí),如果教學(xué)態(tài)度較好,則可被認(rèn)定為“優(yōu)”,說(shuō)明學(xué)生對(duì)和藹可親的教師較為認(rèn)可。
規(guī)則八說(shuō)明,如果教學(xué)效果處于中等水平,教學(xué)方法較好的情況下,如果教學(xué)內(nèi)容比較精彩,則其教學(xué)水平的認(rèn)定為“優(yōu)”,說(shuō)明精彩的教學(xué)內(nèi)容更容易吸引學(xué)生。
5 結(jié)論
根據(jù)數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建的流程和聯(lián)機(jī)分析處理的過(guò)程,結(jié)合決策樹(shù)數(shù)據(jù)挖掘算法,設(shè)計(jì)并開(kāi)發(fā)了基于數(shù)據(jù)挖掘的教學(xué)評(píng)價(jià)多維處理系統(tǒng)。改進(jìn)后的CART算法能有效地縮短處理的時(shí)間并減少所生成的規(guī)則集的大小和數(shù)量。
參考文獻(xiàn):
[1] 韓成勇.基于數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的高職院校學(xué)評(píng)教數(shù)據(jù)分析決策支持系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].科技信息, 2009(26): 215-216.
[2] 胡海員. 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)在招生決策中的應(yīng)用研究[D].南京: 東南大學(xué), 2006.
[3] 袁華. 基于OLAP技術(shù)的高校決策系統(tǒng)研究與設(shè)計(jì)[D]. 上海:復(fù)旦大學(xué), 2010.
[4] 盧晶晶. 基于數(shù)據(jù)挖掘的教學(xué)評(píng)價(jià)系統(tǒng).[D]. 南京: 河海大學(xué), 2009.
[5] Yonatan Aumann, Yehuda Lindell, Journal of Intelligent Information Systems, A Statistical Theory for Quantitative Association Rules, 2010,20(3):255-283.