●左榮欣 陳昭穩(wěn)
近年來,隨著數(shù)據(jù)庫技術的快速發(fā)展和管理系統(tǒng)的廣泛應用,收集到的數(shù)據(jù)越來越多,這使得在數(shù)據(jù)庫中查找有用信息變得非常重要。因此,數(shù)據(jù)挖掘技術作為解決這一問題的有效方法越來越受到人們的關注,并取得了很大的成就。如今,它廣泛應用于商業(yè)、金融、工業(yè)和商業(yè)。隨著數(shù)據(jù)挖掘技術的不斷發(fā)展和應用,數(shù)據(jù)挖掘技術在高等教育中的應用將對提高教學管理水平起到重要作用。
教學評價是根據(jù)教育目標和標準對學校教學進行系統(tǒng)研究和評價,以評價學習過程中活動和學習結果的價值。它是學校教育管理的重要組成部分,是衡量教育效果的重要工具。每學期,學校都會進行教育評估調查,收集大量數(shù)據(jù)。然而,目前的教育評價主要是基于教師晉升和員工評價的數(shù)值計算。本文分析了各種數(shù)據(jù)挖掘方法,將決策樹算法應用于高校教學評價,并進行數(shù)據(jù)挖掘,研究影響教育效果的因素及其關系,以更好地理解教師教學質量評價與各類屬性之間關系。
決策樹(Decision Tree)是機器學習中一種常見的算法,它的思想非常樸素,就像我們平時利用選擇做決策的過程。決策樹是一種基本的分類與回歸方法,當被用于分類時叫做分類樹,被用于回歸時叫做回歸樹。
一般情況下,一棵決策樹包含一個根節(jié)點、若干個內部節(jié)點和若干個葉結點。
根節(jié)點:包含樣本全集,從根節(jié)點到每個葉結點的路徑對應了一個判定測試序列。
內部節(jié)點:表示一個特征和屬性。每個內部節(jié)點都是一個判斷條件,并且包含數(shù)據(jù)集中,滿足從根節(jié)點到該節(jié)點所有條件的數(shù)據(jù)的集合。根據(jù)內部節(jié)點的屬性測試結果,內部節(jié)點對應的數(shù)據(jù)的集合別分到兩個或多個子節(jié)點中。
葉節(jié)點:表示一個類,對應于決策結果。葉節(jié)點為最終的類別,如果該數(shù)據(jù)被包含在該葉節(jié)點,則屬于該類別。
如下圖中,其中圓和方框分別表示內部節(jié)點和葉結點。
簡而言之,決策樹是一個利用樹的模型進行決策的預測模型,表現(xiàn)出的是對象屬性與對象值之間的一種映射關系,簡單明了,非常容易理解。
我們決策樹學習的目的是為了產(chǎn)生一棵泛化能力強,也就是能夠高效、有效處理未見示例的決策樹。
一般來說,使用決策樹進行分類可以分為兩個階段。在第一階段,應通過遞歸生成決策樹形成序列來構建決策樹。在第二階段,應使用決策樹模型對輸入數(shù)據(jù)進行分類。建立決策樹的過程非常重要。本質上,決策樹的生成是一種貪婪算法。對每個未分類節(jié)點進行測試,以找到從頂部節(jié)點開始的一組示例屬性(測試屬性)。根據(jù)測試結果,將訓練實例劃分為幾個子集,每個子集形成一個新節(jié)點,并重復訓練,直到達到新節(jié)點的閉合條件。建立決策樹的一個重要部分是測試特征的選擇和樣本集的分布。為此,不同的決策樹算法使用不同的方法。一些決策樹算法已經(jīng)逐漸發(fā)展起來,如CLSJID3、CHAID、CART、FACT、C4.5、GINI、SEE、SLIQ、SPRINT等。最著名的算法是昆蘭提出的ID3和C4.5算法。
ID3算法是一種基于熵減法理論的描述性屬性優(yōu)化選擇方法。要測試的屬性是當前樣本集中信息值最高的屬性。由于待測試屬性的值不同,樣本被劃分為盡可能多的子集,并且與樣本對應的新節(jié)點被添加到?jīng)Q策樹中。這種方法減少了對項目進行分類所需的測試數(shù)量,并確保只能使用一個簡單(不一定是最簡單的)樹。
在上圖中,pi是屬于C概率的任意樣本;使用s/s進行估算。注:對數(shù)函數(shù)基于2,因為信息以二進制編碼。
在上面的公式中,I(S1j,S2j,…,被作為第j個,這是樣本在sj中屬于Ci的概率。這樣,通過使用屬性A劃分當前分支節(jié)點的相應樣本集獲得的信息增益為:
ID3算法根據(jù)信息論理論,采用劃分后樣本集的不確定性作為衡量劃分樣本子集的好壞程度,用“信息增益值”度量不確定性——信息增益值越大,不確定性就更小,這就促使我們找到一個好的非葉子節(jié)點來進行劃分。通過ID3算法,計算各個影響因子的信息增益值,逐步建立各個影響因子的一棵決策樹。
考慮到目前的技術水平,本文重點介紹了ID3算法,該算法應用范圍廣,使用方便,在教學評價系統(tǒng)中常用作決策樹?;诂F(xiàn)有的評價結果和教師的先驗知識,我們旨在開發(fā)一個優(yōu)秀教師教學質量評價模型。
分類數(shù)據(jù)分析的階段通常包括數(shù)據(jù)收集、數(shù)據(jù)預處理、數(shù)據(jù)分類、分類規(guī)則分析和知識應用。在本文中,該階段用于描述開發(fā)教學評估決策樹模型的過程。
高校教學越來越重視教學質量,越來越多地使用數(shù)據(jù)挖掘技術來管理教育教學質量。通過將教學質量評價標準應用于教育政策,高校教學領導有了做出正確決策的堅實基礎。作為高校教學信息管理不斷完善的一部分,越來越多的評估數(shù)據(jù)被收集到在線質量評估系統(tǒng)中。評估數(shù)據(jù)庫與其他數(shù)據(jù)庫和大學教學的廣泛信息相連接。了解這些來源,不僅可以為高校教學管理部門提供評估結果,還可以提供其他重要信息。
我們使用關聯(lián)規(guī)則對決策樹的預測模型進行了測試,結果基本一致,這部分反映了預測模型的高可靠性和適用性。
首先,對教師的年齡、職稱、學歷、性別和評價結果進行ID3算法分析,分析表明,它們與現(xiàn)實是一致的,即教師年齡越大教學質量評價越高;教師職稱越高,教師的教學質量評價越高;教師的教學和實踐經(jīng)驗越豐富,教學質量評價越高;教師的性別對教學質量評價影響不大。然而,數(shù)據(jù)分析表明,教師學歷與評價結果之間的關系是不對稱的,原因如下:首先,我國高校年紀較大的教師,雖然他們的學歷不高,但是他們的教學質量評價較高。而近年來,新招聘的年輕教師,他們的學歷是比較高的,但由于他們教師實踐經(jīng)歷不足,在教學質量評價中,他們的教學質量評價不高。即使是年齡相仿,本科畢業(yè)就來學校工作與研究生畢業(yè)來校工作,因為本科畢業(yè)生比研究生畢業(yè)的教師的工作經(jīng)歷要多,在教學質量評價中,他們兩者之間比較,并沒有多大區(qū)別。
其次,對實際教學中的學生人數(shù)、課程類型進行分析表明,30人以下的班級教學質量評價較高,人數(shù)增多,教學質量評價則下降;選修課和必修課進行比較,選修課的教學質量評價低于必修課。實踐課與理論課比較,實踐課教學質量評價低于理論課教學質量評價。原因是實踐課在教學組織和教學手段使用上,存在更大的難度,評價主體不便于科學評價實踐課,所以評價質量較低。
再次,對教學方法和教學資源建設進行分析表明,教學方法手段的有效應用能提升教學質量評價數(shù)據(jù),如采用信息化教學手段則比不應用信息化教學手段的教學質量評價數(shù)據(jù)高,采用實際案例教學比不采用實際案例教學的教學質量評價要高,采用學生自學后再請學生講解的方法與教師自己講述內容的方法比較,前者教學質量評價更高。教師建立并充分恰當使用教學資源的教學質量評價較高,因為有助于學生課前自學,課中答疑解惑,解決課程難點和重點。
教學質量是教育效果的外在表現(xiàn)。教學質量評價旨在指導、支持、激勵和規(guī)范教學質量。它是學校管理的重要組成部分,是評價教育績效的重要工具。將數(shù)據(jù)挖掘技術應用于質量評估具有重要的現(xiàn)實意義,因為它為高校開展和支持課堂評估、提高教學質量提供了定量依據(jù)。為了更好地描述優(yōu)秀教師所需的條件,該模型需要補充某些指標,如工作量、研究技能等。此外,還可以使用其他數(shù)據(jù)挖掘算法(如相關規(guī)則)來提取教學信息,需要進一步分析。數(shù)據(jù)挖掘技術已經(jīng)在許多領域得到了應用,其早期應用表明,它在教學中具有很大的潛力,可以幫助解決當前教育系統(tǒng)中的問題?;诮逃拇筅厔?,數(shù)據(jù)挖掘技術在教育領域的數(shù)據(jù)分析具有非常廣闊的前景。利用決策樹和相關規(guī)則建立高校教學評價框架,能夠達到綜合研究高校教學質量評價的目的。