張春飛,李萬(wàn)龍,魏久鴻
(1.吉林大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,吉林長(zhǎng)春 130062;2.長(zhǎng)春工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,吉林長(zhǎng)春 130012)
計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,給教育事業(yè)注入了新的活力,使得在線教育成為當(dāng)今社會(huì)的一個(gè)熱門(mén)話題,同時(shí)也使其成為一個(gè)值得進(jìn)一步發(fā)展的領(lǐng)域。與快速發(fā)展的教育理論相比,傳統(tǒng)的教育組織和教育理論的矛盾是顯而易見(jiàn)的。20世紀(jì)80年代后期,基于認(rèn)知學(xué)習(xí)的建構(gòu)主義理論在教學(xué)領(lǐng)域成為國(guó)際教育改革的主要理論。建構(gòu)主義者強(qiáng)調(diào)以學(xué)習(xí)者的自主學(xué)習(xí)為中心[1]。此外,當(dāng)代信息技術(shù)的最新成果也為該理論提供了強(qiáng)有力的支持,使得在線教育得以快速發(fā)展。在線教育是一個(gè)完整的過(guò)程,其中包括了教學(xué)的組織、教學(xué)的實(shí)施以及交互的過(guò)程。在線教育的目標(biāo)是通過(guò)對(duì)教學(xué)資源的設(shè)計(jì)、開(kāi)發(fā)和管理及對(duì)學(xué)習(xí)者評(píng)估來(lái)達(dá)到對(duì)學(xué)習(xí)者學(xué)習(xí)效率的提升。作為傳統(tǒng)課堂教學(xué)的補(bǔ)充,個(gè)性化教學(xué)在教學(xué)理論和實(shí)際實(shí)施過(guò)程中得到了很好的應(yīng)用。個(gè)性化教學(xué)離不開(kāi)智能技術(shù)的支持,如數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘技術(shù)等。但同時(shí)它也存在一些主要的缺點(diǎn),如延遲反饋學(xué)生的學(xué)習(xí)情況。究其根源在于面向知識(shí)的系統(tǒng)只能提供同步或異步的學(xué)習(xí)材料。在綜合考慮教與學(xué)的交互過(guò)程及個(gè)性化學(xué)習(xí)特點(diǎn)的前提下,智能指導(dǎo)系統(tǒng)應(yīng)運(yùn)而生。它主要是模擬人類的傳統(tǒng)教學(xué)理論,在教學(xué)過(guò)程中能夠快速接收學(xué)習(xí)者的反饋信息,并最終形成個(gè)性化的學(xué)習(xí)指導(dǎo),使教與學(xué)的質(zhì)量得到顯著的改善。
網(wǎng)上學(xué)習(xí)和在線學(xué)習(xí)領(lǐng)域已經(jīng)取得了巨大成就。隨著網(wǎng)絡(luò)教育的快速發(fā)展,已經(jīng)積累了大量的教學(xué)資源。同時(shí),如何有效地利用這些資源,更好地為個(gè)性化教育服務(wù)成為一個(gè)亟待解決的重要問(wèn)題[2-3]。解決智能教學(xué)問(wèn)題是智能指導(dǎo)系統(tǒng)的核心,考慮到每一個(gè)學(xué)習(xí)者的特點(diǎn)和興趣愛(ài)好的不同,系統(tǒng)設(shè)計(jì)的最終目標(biāo)是實(shí)現(xiàn)個(gè)性化教和學(xué)。然而,由于系統(tǒng)不能同時(shí)滿足學(xué)習(xí)者的所有要求,諸如,每個(gè)人課程的積累情況、不同種類學(xué)習(xí)資源的管理、及時(shí)的信息反饋、評(píng)估系統(tǒng)的效率及教學(xué)指導(dǎo)機(jī)制等,因此針對(duì)每一個(gè)學(xué)習(xí)者的智能指導(dǎo)是很難實(shí)現(xiàn)的。通過(guò)使用不同的數(shù)據(jù)挖掘技術(shù)和對(duì)學(xué)習(xí)者自我學(xué)習(xí)信息的分析處理,構(gòu)建了學(xué)習(xí)者模型,學(xué)習(xí)路徑主要由路徑挖掘模塊來(lái)實(shí)現(xiàn)。同時(shí),將C4.5算法應(yīng)用于學(xué)習(xí)評(píng)估模塊,以此來(lái)改善自主學(xué)習(xí)者的學(xué)習(xí)效率,增強(qiáng)個(gè)性化教學(xué)的管理效果,為個(gè)性化教學(xué)提供堅(jiān)實(shí)的基礎(chǔ)。
智能指導(dǎo)系統(tǒng)主要由以下部分組成:信息采集模塊、個(gè)性化分析和評(píng)估模塊、個(gè)性化調(diào)度模塊、學(xué)習(xí)工具模塊、管理工具模塊、領(lǐng)域知識(shí)、學(xué)生信息、教學(xué)規(guī)則和教學(xué)策略等。系統(tǒng)結(jié)構(gòu)如圖1所示。
圖1 基于網(wǎng)絡(luò)的智能指導(dǎo)系統(tǒng)模型Fig.1 Model of intelligent guiding system based on the network
信息采集模塊負(fù)責(zé)收集不同類型用戶的請(qǐng)求,并通過(guò)對(duì)領(lǐng)域知識(shí)集的使用來(lái)跟蹤每個(gè)用戶所采取的行動(dòng)。同時(shí),負(fù)責(zé)將研究的所有數(shù)據(jù)存儲(chǔ)到系統(tǒng)數(shù)據(jù)庫(kù)中。所有的學(xué)習(xí)信息和Web目錄信息將被系統(tǒng)進(jìn)行收集并作為輸入數(shù)據(jù)源供個(gè)性化分析和數(shù)據(jù)挖掘過(guò)程使用。借助于個(gè)性化分析和數(shù)據(jù)挖掘這2種先進(jìn)的技術(shù),多用戶所共有的普通特點(diǎn)和單用戶所具有的個(gè)性特點(diǎn)也將被抽象并存入數(shù)據(jù)庫(kù)規(guī)則集中[4]。教學(xué)策略庫(kù)主要用來(lái)存儲(chǔ)教學(xué)專家根據(jù)以往的實(shí)際教學(xué)經(jīng)驗(yàn)所總結(jié)出來(lái)的教學(xué)策略,記錄教學(xué)策略是通過(guò)利用分配不同的權(quán)重表示知識(shí)的方法來(lái)實(shí)現(xiàn)的。當(dāng)授權(quán)的學(xué)習(xí)者登錄系統(tǒng)后,這些結(jié)果將被傳送給個(gè)性化調(diào)度模塊。然后,系統(tǒng)將根據(jù)規(guī)則調(diào)度工具和資源,為每個(gè)學(xué)習(xí)者提供個(gè)性化的學(xué)習(xí)環(huán)境。通過(guò)上述步驟,個(gè)性化的學(xué)習(xí)請(qǐng)求得到了滿足。根據(jù)每個(gè)學(xué)習(xí)者的學(xué)習(xí)效果,系統(tǒng)將及時(shí)修改相應(yīng)的參數(shù)和系統(tǒng)規(guī)則的可信度。經(jīng)過(guò)多次增值和修改后的規(guī)則將更好地反映每一個(gè)獨(dú)立用戶的實(shí)際需求,同時(shí),規(guī)則的精確可信度也將得到顯著提高。
領(lǐng)域知識(shí)包括教學(xué)相關(guān)的知識(shí)和可用的教學(xué)資源。它主要是由相關(guān)的教學(xué)領(lǐng)域的知識(shí)點(diǎn)和這些知識(shí)點(diǎn)之間的關(guān)系組成,代表一個(gè)知識(shí)點(diǎn)與其他知識(shí)點(diǎn)的關(guān)系。領(lǐng)域知識(shí)庫(kù)包含2部分:知識(shí)點(diǎn)屬性庫(kù)和知識(shí)樹(shù)庫(kù)。知識(shí)點(diǎn)屬性庫(kù)是教學(xué)內(nèi)容的集合,是最基本的單位。知識(shí)點(diǎn)可能是事實(shí)、概念、規(guī)則、公式、定義等,也可能是解決問(wèn)題的方法。每一個(gè)知識(shí)點(diǎn)直接和一系列的相關(guān)教學(xué)材料關(guān)聯(lián),如多媒體資料、相關(guān)的問(wèn)題集、測(cè)試資料、課件、案例研究等。在該系統(tǒng)中,這些知識(shí)點(diǎn)的所有屬性和關(guān)系都是通過(guò)屬性來(lái)記錄的,諸如對(duì)于知識(shí)屬性的理解用于標(biāo)記課程的重要性,知識(shí)點(diǎn)之間的關(guān)系反映了知識(shí)點(diǎn)之間的關(guān)系屬性。屬性相關(guān)的知識(shí)點(diǎn)形成一個(gè)獨(dú)特的網(wǎng)絡(luò)結(jié)構(gòu),將更大程度的知識(shí)點(diǎn)聚集在一個(gè)子集,這些知識(shí)點(diǎn)將用來(lái)形成課程、單元和章節(jié)。如圖2所示,由虛線表示的虛擬層由課程、單元和章節(jié)構(gòu)成。知識(shí)點(diǎn)的編碼結(jié)構(gòu)為course code,chapter number,section number,knowledge point number。這些知識(shí)點(diǎn)間的關(guān)系采用樹(shù)型數(shù)據(jù)結(jié)構(gòu)來(lái)表示,并且存儲(chǔ)在知識(shí)庫(kù)中。
圖2 領(lǐng)域知識(shí)模型Fig.2 Model of domain knowledge
在智能指導(dǎo)系統(tǒng)中,關(guān)鍵的一步是根據(jù)學(xué)生信息建立教學(xué)規(guī)則。當(dāng)學(xué)習(xí)者訪問(wèn)知識(shí)庫(kù)以后,這些學(xué)生的信息便自動(dòng)留在信息庫(kù)中,通過(guò)使用連續(xù)的挖掘方法,學(xué)習(xí)者的行為將被進(jìn)一步挖掘[5-7]。這將進(jìn)一步豐富教學(xué)策略庫(kù),為每一個(gè)用戶提供個(gè)性化的學(xué)習(xí)指導(dǎo),真正實(shí)現(xiàn)個(gè)性化教學(xué)理念。例如,經(jīng)過(guò)一段時(shí)間的數(shù)據(jù)挖掘后,系統(tǒng)能夠找到相對(duì)于某個(gè)學(xué)習(xí)級(jí)別的各個(gè)知識(shí)點(diǎn)的最佳組織順序。這些最佳的組織順序?qū)⒈蛔鳛槟J(rèn)的學(xué)習(xí)路徑或者推薦的學(xué)習(xí)路徑。如圖3所示,決策樹(shù)分類算法用于實(shí)現(xiàn)個(gè)性化分析和評(píng)估模塊。通過(guò)分析和評(píng)估學(xué)習(xí)結(jié)果,進(jìn)一步優(yōu)化教學(xué)策略。
圖3 評(píng)估模塊Fig.3 Evaluation module
決策樹(shù)通常作為數(shù)據(jù)挖掘算法的工具使用,決策樹(shù)分類算法采用自上而下、分而治之和遞歸等方法將數(shù)據(jù)劃分為幾個(gè)子集,在基于樹(shù)的拓?fù)浣Y(jié)構(gòu)中建立相應(yīng)的分類模型。在智能指導(dǎo)系統(tǒng)中,決策樹(shù)分類算法是反映其智能性的關(guān)鍵因素。QUINLAN于1979年提出構(gòu)建決策樹(shù)ID3算法,在ID3算法中,決策節(jié)點(diǎn)屬性的選擇是應(yīng)用信息論中熵的概念[8-9]。通過(guò)信息屬性來(lái)獲得最大值以創(chuàng)建決策樹(shù),節(jié)點(diǎn)的屬性能保證決策樹(shù)具有最小的分枝數(shù)和最小的冗余。后來(lái),QUINLAN又提出了更先進(jìn)的C4.5算法,C4.5算法是對(duì)剪枝算法ID3的修訂,更適合于高分枝屬性和空值屬性[10]。筆者在C4.5算法的基礎(chǔ)上,提出了新的C4.5r決策樹(shù)分類算法。新的C4.5r算法主要是基于簡(jiǎn)化規(guī)則的相關(guān)性來(lái)實(shí)現(xiàn)的,應(yīng)用該算法構(gòu)建了高等數(shù)學(xué)個(gè)性化學(xué)習(xí)評(píng)估系統(tǒng)。
應(yīng)用C4.5算法分類一些未知樣本時(shí),系統(tǒng)可能會(huì)遇到過(guò)度擬合的問(wèn)題。因此,在分類前,有必要先簡(jiǎn)化樣本集。以下是改進(jìn)的C4.5算法的執(zhí)行過(guò)程,把該算法命名為C4.5r算法。
使用C4.5算法構(gòu)建一個(gè)完整的決策樹(shù)T。
將T轉(zhuǎn)換成規(guī)則集R,r對(duì)應(yīng)T中從根節(jié)點(diǎn)到葉節(jié)點(diǎn)的一條路徑。
R:riif Cond1∧Cond2∧…∧Condnthen class Cx。
簡(jiǎn)化R中的每一個(gè)規(guī)則ri的過(guò)程如下。
在上述過(guò)程中,引入?yún)?shù)λ表示P(Condi+1∧Condi)的閾值,它類似于關(guān)聯(lián)規(guī)則中最小支持度的概念,默認(rèn)值是0.15%,λ值用于控制刪除規(guī)則中過(guò)度擬合的部分。最后合并和簡(jiǎn)化R中相同的規(guī)則,并得到一個(gè)新的規(guī)則集R′。
建立一個(gè)屬性關(guān)聯(lián)矩陣(tvs)n×n。根據(jù)矩陣中元素的取值來(lái)表示屬性的相關(guān)性:
簡(jiǎn)化R′中的每一個(gè)規(guī)則r′的過(guò)程如下。
在這個(gè)過(guò)程中,首先判斷屬性Av和As之間的相關(guān)性,其中Av和As分別屬于Condi和Condj。如果Av和As相關(guān)聯(lián),那么在規(guī)則中保留Condi和Condj;否則,重新計(jì)算2個(gè)條件概率,根據(jù)可信度,刪除Condi或者Condj。最后,合并和簡(jiǎn)化R′中的相同規(guī)則,得到一個(gè)新的規(guī)則集R″。
在本文中,對(duì)于給定的一組數(shù)據(jù),分別對(duì)C4.5算法和新的C4.5r算法進(jìn)行測(cè)試。測(cè)試的參數(shù)包括運(yùn)行時(shí)間、分類的正確性、規(guī)則的數(shù)量和規(guī)則集的大小。實(shí)驗(yàn)結(jié)果如表1所示。實(shí)驗(yàn)結(jié)果證實(shí),新的C4.5r算法在確保分類精度的前提下,在運(yùn)行時(shí)間等方面具有明顯的優(yōu)勢(shì)。
表1 C4.5算法與新的C4.5r算法的比較Tab.1 Comparison of C4.5algorithm and C4.5ralgorithm
智能指導(dǎo)系統(tǒng)的建設(shè)對(duì)于互聯(lián)網(wǎng)教育具有深遠(yuǎn)的意義。數(shù)據(jù)挖掘技術(shù)及其應(yīng)用對(duì)于系統(tǒng)在智能方面的實(shí)現(xiàn)發(fā)揮了至關(guān)重要的作用。通過(guò)分析和研究C4.5算法,本文基于新的C4.5r算法提出一個(gè)簡(jiǎn)單的應(yīng)用。實(shí)現(xiàn)結(jié)果表明,新的C4.5r算法在運(yùn)行時(shí)間、產(chǎn)生式規(guī)則集的規(guī)模及計(jì)算產(chǎn)生式規(guī)則的開(kāi)銷方面相對(duì)于傳統(tǒng)的C4.5算法具有顯著的優(yōu)勢(shì)。為了更有效地將該算法應(yīng)用于智能指導(dǎo)系統(tǒng),在執(zhí)行時(shí)間、產(chǎn)生式規(guī)則集的規(guī)模等方面仍需要進(jìn)一步改進(jìn)。這也是后續(xù)研究中需重點(diǎn)解決的問(wèn)題。
[1] 徐紅艷,馮 勇.基于Agent集成學(xué)習(xí)情境的E-Learning系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與設(shè)計(jì)(Computer Engineering and Design),2009,30(2):515-520.
[2] 汪啟軍,申瑞民.基于 Web Mining的智能化、個(gè)性化的遠(yuǎn)程教育模型研究[J].計(jì)算機(jī)工程(Computer Engineering),2000,26(12):157-159.
[3] 鄧 暉.論網(wǎng)絡(luò)環(huán)境下的學(xué)生特征分析系統(tǒng)設(shè)計(jì)[J].開(kāi)放教育研究(Open Education Research),2003(1):30-32.
[4] 高 陽(yáng),廖家平.基于決策樹(shù)的ID3算法與C4.5算法[J].湖北工業(yè)大學(xué)學(xué)報(bào)(Journal of Hubei University of Technology),2011,26(2):54-57.
[5] 譚俊璐,武建華.基于決策樹(shù)規(guī)則的分類算法研究[J].計(jì)算機(jī)工程與設(shè)計(jì)(Computer Engineering and Design),2010,31(5):1 017-1 019.
[6] 李 萍,李法朝.基于決策樹(shù)的知識(shí)表示模型及其應(yīng)用[J].河北科技大學(xué)學(xué)報(bào)(Journal of Hebei University of Science and Technology),2009,30(2):87-91.
[7] 李國(guó)剛,李 艷,李云紅.一種歸納算法的研究與改進(jìn)[J].河北工業(yè)科技(Hebei Journal of Industrial Science and Technology),2009,26(5):325-327.
[8] 劉興文,王典洪.一種基于變精度粗糙集的C4.5決策樹(shù)改進(jìn)算法[J].計(jì)算機(jī)應(yīng)用研究(Application Research of Computers),2011,28(10):3 649-3 651.
[9] RAHMAT H,MUSTAPHA A.Measuring differences in accuracy,compactness and speed between C4.5and CPAR in classification[J].Journal of Communication and Computer,2012,9(1):42-46.
[10] 高長(zhǎng)元,彭定洪.綜合評(píng)價(jià)模型自動(dòng)選擇研究[J].哈爾濱理工大學(xué)學(xué)報(bào)(Journal of Harbin University of Science and Technology),2011,16(6):118-123.