郭章
(桂林電子科技大學(xué)計(jì)算機(jī)與信息安全學(xué)院,桂林541004)
智能教學(xué)系統(tǒng)作為現(xiàn)代化教育的基礎(chǔ)設(shè)施,有著舉足輕重的地位,其利用人工智能技術(shù)在沒(méi)有人員指導(dǎo)的情況下幫助學(xué)習(xí)者獲取知識(shí)。而學(xué)習(xí)者模型是智能教學(xué)系統(tǒng)的核心組件之一[1],它利用計(jì)算機(jī)模型,根據(jù)學(xué)生和智能教學(xué)系統(tǒng)之間的交互數(shù)據(jù),來(lái)自動(dòng)衡量學(xué)生的知識(shí)水平,以便能及時(shí)地對(duì)學(xué)習(xí)者的表現(xiàn)進(jìn)行預(yù)測(cè)和對(duì)教學(xué)方案做出指導(dǎo)性決策。在大數(shù)據(jù)時(shí)代,一個(gè)精確的、個(gè)性化的學(xué)習(xí)者模型成為教育信息化發(fā)展的必然需求。
使用最為廣泛使用的學(xué)習(xí)者模型是Corbett 和An?derson[2]在1995 年提出的貝葉斯知識(shí)跟蹤模型(Bayes?ian Knowledge Tracing, BKT),它利用隱馬爾可夫模型對(duì)學(xué)生回答問(wèn)題的正誤情況進(jìn)行建模。隨后出現(xiàn)了許多基于此模型改進(jìn)的更高效的模型[3-5]。其主要改進(jìn)的方向有兩點(diǎn):第一為更高的預(yù)測(cè)精度,第二為更好地對(duì)教學(xué)做出決策支持。傳統(tǒng)的貝葉斯知識(shí)跟蹤模型只針對(duì)特定的技能進(jìn)行建模,也就是說(shuō)它認(rèn)為所有學(xué)生都具有相同的學(xué)習(xí)能力和相同的初始技能。而通常不同的學(xué)生的學(xué)習(xí)能力和知識(shí)水平都是不一樣的,于是一些學(xué)者提出了個(gè)性化的貝葉斯知識(shí)跟蹤模型,他們從學(xué)習(xí)者的層面對(duì)模型提出了一些個(gè)性化的參數(shù)。文獻(xiàn)[6]使用一些啟發(fā)式的方式來(lái)計(jì)算單個(gè)學(xué)生的個(gè)性化參數(shù),比如根據(jù)該學(xué)生回答問(wèn)題的正確率,第一次回答問(wèn)題的正誤情況以及隨機(jī)設(shè)置。文獻(xiàn)[7]使用梯度搜索的方式在訓(xùn)練模型的時(shí)候得到個(gè)性化的參數(shù)。文獻(xiàn)[8]直接針對(duì)每個(gè)學(xué)生的每個(gè)技能訓(xùn)練出單獨(dú)的模型,由于每個(gè)學(xué)生在每個(gè)技能下回答問(wèn)題數(shù)量都有限,因此這種方式難以訓(xùn)練出較好的模型,并且會(huì)導(dǎo)致參數(shù)過(guò)多的問(wèn)題。
實(shí)際上,個(gè)性化的貝葉斯知識(shí)跟蹤模型只能預(yù)測(cè)當(dāng)前學(xué)生的學(xué)習(xí)表現(xiàn),而難以預(yù)測(cè)新學(xué)生的情況。通常,他們將一個(gè)學(xué)生的回答問(wèn)題的序列數(shù)據(jù)的最后幾題作為測(cè)試集,剩余數(shù)據(jù)作為訓(xùn)練集。這個(gè)問(wèn)題稱為冷啟動(dòng)問(wèn)題,這類模型在實(shí)際使用中就會(huì)受到較大的限制。于是一些學(xué)者提出了使用聚類來(lái)改進(jìn)傳統(tǒng)的學(xué)習(xí)者模型[9,10],其思想在于將學(xué)習(xí)者按照知識(shí)水平的不同分成不同的群體。但他們并未考慮教育領(lǐng)域的數(shù)據(jù)的特點(diǎn),而只使用了常見(jiàn)的靜態(tài)聚類算法,例如K-means 和譜聚類等,對(duì)模型的性能提升并不明顯。通常我們選擇聚類算法會(huì)考慮兩點(diǎn):聚類目的和數(shù)據(jù)特點(diǎn)。在智能教學(xué)系統(tǒng)中,聚類對(duì)象為所有的學(xué)習(xí)者。文獻(xiàn)[11]分析了教育領(lǐng)域數(shù)據(jù)的特點(diǎn),并對(duì)主流的聚類算法進(jìn)行了評(píng)估。
通過(guò)總結(jié)前人的工作發(fā)現(xiàn),目前的學(xué)習(xí)者知識(shí)跟蹤模型存在如下不足:(1)模型的個(gè)性化能力不足,未考慮學(xué)習(xí)者個(gè)體之間的差異。(2)未考慮到學(xué)習(xí)者的交互數(shù)據(jù)具有時(shí)間動(dòng)態(tài)特性,即學(xué)習(xí)者的知識(shí)掌握水平是隨著時(shí)間平穩(wěn)變化的。(3)存在冷啟動(dòng)的問(wèn)題,即只能預(yù)測(cè)當(dāng)前學(xué)生的表現(xiàn),而不能預(yù)測(cè)新學(xué)生的表現(xiàn)。(4)訓(xùn)練貝葉斯知識(shí)跟蹤模型的EM 算法易陷入局部最優(yōu)解,從而導(dǎo)致出現(xiàn)模型退化的現(xiàn)象。這些問(wèn)題不僅會(huì)影響模型的性能,還會(huì)限制它的使用范圍。
為了解決上述提到的問(wèn)題,本文提出了一種基于演化聚類和貝葉斯網(wǎng)絡(luò)的知識(shí)跟蹤模型(ECBKT)。該模型將演化聚類算法作為傳統(tǒng)知識(shí)跟蹤模型的預(yù)處理步驟,根據(jù)學(xué)習(xí)者的學(xué)習(xí)數(shù)據(jù),在每一個(gè)時(shí)間點(diǎn)上對(duì)學(xué)習(xí)者進(jìn)行動(dòng)態(tài)的聚類,得到不同知識(shí)水平的學(xué)生群體。接著將其傳入貝葉斯知識(shí)跟蹤模型進(jìn)行訓(xùn)練,得到多個(gè)不同的預(yù)測(cè)模型。最后選擇和新學(xué)生最相似的簇訓(xùn)練出來(lái)的模型來(lái)進(jìn)行預(yù)測(cè)。在演化聚類部分,具體實(shí)現(xiàn)了K-means 和層次聚類的演化擴(kuò)展。在模型訓(xùn)練部分,使用學(xué)習(xí)曲線技術(shù)來(lái)調(diào)整模型的參數(shù),從而避免模型退化。
演化聚類是一種常用于社區(qū)檢測(cè)的動(dòng)態(tài)聚類技術(shù)[12,13]。該框架需要結(jié)合傳統(tǒng)的靜態(tài)聚類算法,并對(duì)其在時(shí)間序列上進(jìn)行擴(kuò)展。它通過(guò)向靜態(tài)聚類的目標(biāo)函數(shù)增加時(shí)間平滑的懲罰項(xiàng),從而避免相鄰時(shí)刻的聚類結(jié)果相差較大。該聚類框架具有平滑性、一致性和受噪音干擾小等優(yōu)點(diǎn)。本文具體實(shí)現(xiàn)了K-means 和凝聚層次聚類這兩種靜態(tài)聚類的演化擴(kuò)展。在不同的算法里面,實(shí)現(xiàn)了各自的快照質(zhì)量、歷史代價(jià)以及相似度的計(jì)算。在聚類結(jié)束后,將不同的學(xué)習(xí)者群體傳入貝葉斯知識(shí)跟蹤模型,得到多個(gè)知識(shí)跟蹤模型。通常訓(xùn)練貝葉斯網(wǎng)絡(luò)使用的EM 算法對(duì)初始值非常敏感,沒(méi)有合理的初始值設(shè)置,易導(dǎo)致陷入局部最大值的問(wèn)題,從而導(dǎo)致模型性能退化。一些學(xué)者往往使用隨機(jī)初始化和經(jīng)驗(yàn)設(shè)置的方式,效果不夠理想,因此本文提出使用學(xué)習(xí)曲線結(jié)合經(jīng)驗(yàn)的方式來(lái)調(diào)整參數(shù)。
給定所有學(xué)生表現(xiàn)的數(shù)據(jù)集Uk={ui|,i=1,2,3,…,n},其中k 為知識(shí)點(diǎn)的編號(hào),n 為學(xué)生的數(shù)量。在特定技能下每個(gè)學(xué)生的表現(xiàn)數(shù)據(jù)定義為其觀測(cè)序列:ui,T={o1,o2,o3,…,oT},其中T 為該學(xué)生回答問(wèn)題的個(gè)數(shù),并且每個(gè)學(xué)生的T 值可以不相同。定義t 時(shí)刻前所有學(xué)生的表現(xiàn)數(shù)據(jù)為Ut?UK。令在t 時(shí)刻的聚類結(jié)果為Ct,則可以得到一串聚類結(jié)果:C1,C2,…,CT,我們的目的在于使每一時(shí)刻的聚類質(zhì)量最高。因此將當(dāng)前t時(shí)刻的聚類質(zhì)量定義為公式(1)所示。
其中sq 函數(shù)為快照質(zhì)量(snapshot quality),hc 函數(shù)為歷史代價(jià)(history cost),cp 為歷史代價(jià)所占比重,Mt為t 時(shí)刻的相似度矩陣。快照質(zhì)量衡量當(dāng)前時(shí)刻學(xué)生表現(xiàn)數(shù)據(jù)所產(chǎn)生的聚類質(zhì)量,而歷史代價(jià)衡量前一時(shí)刻的聚類結(jié)果對(duì)當(dāng)前時(shí)刻產(chǎn)生的影響。為了提高整體聚類質(zhì)量,需要有較高的快照質(zhì)量和較低的歷史代價(jià)。
將學(xué)習(xí)者的知識(shí)水平定義為:p( Lt)u,表示在t 時(shí)刻學(xué)習(xí)者u 對(duì)知識(shí)點(diǎn)已經(jīng)掌握的概率。概率p( T )為學(xué)習(xí)者的知識(shí)水平從未掌握到已經(jīng)掌握的概率。此外,定義學(xué)習(xí)者回答問(wèn)題猜對(duì)的概率為p( G ),誤答概率p( S )。為正確回答問(wèn)題的概率。則根據(jù)貝葉斯條件概率公式,學(xué)習(xí)者知識(shí)掌握水平的概率和回答對(duì)問(wèn)題的概率計(jì)算公式分別為公式(2)和(3)。
其中obs 為學(xué)習(xí)者表現(xiàn)的實(shí)際觀測(cè)值。以0.5 為閾值,將進(jìn)行四舍五入,則能預(yù)測(cè)下一道題回答結(jié)果的正確與否。
輸入:學(xué)習(xí)者的表現(xiàn)序列數(shù)據(jù)U
輸出:新學(xué)習(xí)者表現(xiàn)的預(yù)測(cè)序列
(1)計(jì)算出最長(zhǎng)序列長(zhǎng)度T,和每個(gè)學(xué)生u 的實(shí)際序列長(zhǎng)度u.realLength,以及總學(xué)生數(shù)n
(2)for t →1 to T DO
(3) for u →1 to n DO
(4) if u.realLenth <t
(5) 將t 時(shí)刻前的學(xué)習(xí)者表現(xiàn)的平均值加入tempdata
(6) else
(7) 將u.realLength 前數(shù)據(jù)加入tempdata
(8) END for
(9) 使用tempdata 計(jì)算t 時(shí)刻的聚類結(jié)果Ct
(10)END FOR
(11)使用知識(shí)跟蹤模型訓(xùn)練出多個(gè)模型
(12)模型參數(shù)優(yōu)化
(13)找到和新學(xué)生最相似的簇進(jìn)行預(yù)測(cè)
由公式(1)可知,要使當(dāng)前時(shí)刻的聚類質(zhì)量最高,需要有較高的快照質(zhì)量和較低的歷史代價(jià)。標(biāo)準(zhǔn)K-means 使用貪心策略來(lái)分配簇標(biāo)簽,以及使用求均值的方式來(lái)計(jì)算簇心值。樣本點(diǎn)之間的距離使用歐氏距離,則構(gòu)造其相似度矩陣為Mt( i,j )=‖ xi,t-xj,t‖,定義t時(shí)刻的簇心集合為:Ct={c1,t,c2,t,…},將快照質(zhì)量和歷史代價(jià)定義為如下公式:
其中U 是所有學(xué)生數(shù)據(jù)的集合,C 是當(dāng)前時(shí)刻的簇心集合。C'為前一時(shí)刻的簇心集合,即C'=Ct-1。
在演化K-means 中,仍然使用貪心策略來(lái)劃分簇,即選擇離樣本最近的簇作為樣本的標(biāo)簽。對(duì)于簇心的計(jì)算,則要用到歷史代價(jià)。定義t 時(shí)刻簇j 的樣本數(shù)為:= |closest(j) |,定義相鄰時(shí)刻樣本數(shù)量的相對(duì)大小為:γ=+。簇心的更新公式如下:
該公式在計(jì)算當(dāng)前的簇心位置時(shí),利用簇的樣本數(shù)相對(duì)變化大小,考慮到了前一時(shí)刻該簇心簇情況。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),由于受到異常值和統(tǒng)計(jì)分布的影響,會(huì)出現(xiàn)樣本不均衡的現(xiàn)象。也就是說(shuō)會(huì)出現(xiàn)一些簇的樣本數(shù)過(guò)多,另一些過(guò)少,甚至沒(méi)有樣本的情況。當(dāng)出現(xiàn)樣本為空的情況時(shí),就有可能出現(xiàn)γ 的分母為0 的情況。這些情況會(huì)嚴(yán)重降低聚類質(zhì)量,以致影響模型整體表現(xiàn)。
對(duì)于聚類結(jié)果不平衡的問(wèn)題,需要使用一些平衡約束的手段。本文采用的方式為對(duì)每個(gè)簇可包含的樣本數(shù)量設(shè)置上限的方式。如果一個(gè)簇包含的樣本數(shù)已經(jīng)達(dá)到了上限,則將新來(lái)樣本劃分到其余最近的簇。該方式具有快速、簡(jiǎn)單的特點(diǎn)。對(duì)于出現(xiàn)空簇導(dǎo)致的γ分母為0 的情況,本文直接將本時(shí)刻的簇心參數(shù)設(shè)置來(lái)與前一時(shí)刻相同,以此來(lái)保證聚類結(jié)果的一致性。
層次聚類也是一種廣泛使用的聚類技術(shù),使用二叉樹(shù)來(lái)存儲(chǔ)聚類結(jié)果。有兩種產(chǎn)生層次聚類的方法:凝聚和分裂,本文使用凝聚的方式。首先,將每一個(gè)樣本都作為一個(gè)單獨(dú)的簇,然后重復(fù)合并兩個(gè)最近的簇,每次合并都將簇個(gè)數(shù)減1,直到達(dá)到預(yù)定的簇個(gè)數(shù)或者簇個(gè)數(shù)到1 為止。
(1)相似度和快照質(zhì)量的計(jì)算
令t 時(shí)刻聚類構(gòu)成的二叉樹(shù)為Tt,即Ct=Tt=T,令m1,m2,,…,m|u|-1為樹(shù)中的內(nèi)部結(jié)點(diǎn)??煺召|(zhì)量的計(jì)算公式如下:
其中simM為構(gòu)成結(jié)點(diǎn)m 的樣本之間的相似度。本文使用層次聚類常用的簇間距離計(jì)算方式作為相似度的計(jì)算方式。常用的度量方式有:?jiǎn)捂?、全鏈、組平均和Ward 方式。其中Ward 方式試圖最小化點(diǎn)到簇心的距離平方和,即選擇使合并后簇的誤差平方和(ESS)最小的合并方式。其計(jì)算公式如下:
本文使用Ward 方式來(lái)進(jìn)行簇的合并,因?yàn)橥ㄟ^(guò)實(shí)驗(yàn)發(fā)現(xiàn)其余方式會(huì)出現(xiàn)聚類結(jié)果嚴(yán)重不平衡的現(xiàn)象,其原因在于Ward 方式會(huì)優(yōu)先合并樣本數(shù)較少的簇。
(2)歷史代價(jià)的計(jì)算
歷史代價(jià)的計(jì)算考慮了前一時(shí)刻的聚類結(jié)果對(duì)當(dāng)前時(shí)刻的影響。首先是兩個(gè)樣本點(diǎn)的距離的計(jì)算。在未考慮歷史信息時(shí),兩個(gè)樣本點(diǎn)之間的距離仍然使用歐式距離,表示為:d( i,j )=‖ xi-xj‖。而在考慮歷史信息后兩個(gè)樣本點(diǎn)之間的距離計(jì)算公式如下:
其中T'和T 為相鄰時(shí)刻的聚類結(jié)果,即T'=Tt-1,T=Tt,i 和j 為T'的葉子結(jié)點(diǎn)。那么總的歷史代價(jià)定義為葉子結(jié)點(diǎn)的平均距離,公式如下:
在得到快照質(zhì)量和歷史代價(jià)后,根據(jù)公式(1)選擇使總質(zhì)量最小的簇合并方式來(lái)合并簇,以完成層次聚類。
貝葉斯知識(shí)跟蹤模型的本質(zhì)是隱馬爾可夫模型,模型的訓(xùn)練方式有多種,最常用的是EM 算法和網(wǎng)格搜索。由于EM 算法對(duì)初始值的設(shè)置非常敏感,因此EM 算法容易陷入局部最優(yōu)值,從而導(dǎo)致模型退化[16]。而網(wǎng)格搜索的計(jì)算量大。由于沒(méi)有合理的初始值設(shè)置方法,只能隨機(jī)選擇或者憑借一些經(jīng)驗(yàn)來(lái)設(shè)置。
通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)轉(zhuǎn)移概率p(T)的值的大小對(duì)模型的預(yù)測(cè)精度影響非常大,如果設(shè)置不合理,則可能會(huì)出現(xiàn)預(yù)測(cè)精度低于50%的情況。因此在使用EM 算法訓(xùn)練完模型后,還需要對(duì)p(T)參數(shù)進(jìn)行調(diào)整。本文提出了使用學(xué)習(xí)曲線的方式來(lái)搜索最佳值,即網(wǎng)格搜索。其過(guò)程為將p(T)逐漸從0 變化到1,預(yù)測(cè)出多組序列,選擇一個(gè)使預(yù)測(cè)精度最大的p(T)值。由于只需要對(duì)一個(gè)參數(shù)進(jìn)行檢索,該方法并不會(huì)增加太多的運(yùn)算時(shí)間,卻能有效提高預(yù)測(cè)精度。
本 文 數(shù) 據(jù) 集 來(lái) 自ASSISTment(https://sites.google.com/site/assistmentsdata/),它是一個(gè)面向中學(xué)生的智能教學(xué)系統(tǒng),本文使用其中的2009 和2015 兩種數(shù)據(jù)集。該數(shù)據(jù)集中默認(rèn)學(xué)生一旦掌握某知識(shí)點(diǎn)后,則不再回答相關(guān)問(wèn)題了,其特點(diǎn)如表1 所示。
表1 ASSISTment 數(shù)據(jù)集的特點(diǎn)
可以看出2015 的數(shù)據(jù)相比2009 的數(shù)據(jù)具有更多的交互記錄,因?yàn)楹笳甙膶W(xué)生數(shù)量更多。原始數(shù)據(jù)包含大量無(wú)關(guān)信息,通過(guò)特征選擇篩選出最相關(guān)的特征:回答問(wèn)題數(shù)量、正確率、嘗試次數(shù)、回答問(wèn)題的時(shí)間和使用提示的次數(shù),然后使用標(biāo)準(zhǔn)化來(lái)對(duì)數(shù)據(jù)做無(wú)量綱化處理。
本文實(shí)驗(yàn)環(huán)境為:Windows 10 操作系統(tǒng),Intel 酷睿i7 CPU,16G 內(nèi)存,編程語(yǔ)言為Python 3.7。
為了預(yù)測(cè)學(xué)生的表現(xiàn),使用學(xué)生分層的交叉驗(yàn)證方式來(lái)訓(xùn)練模型。本文選擇5 折交叉驗(yàn)證。在訓(xùn)練出多個(gè)知識(shí)跟蹤模型后,對(duì)于測(cè)試集的預(yù)測(cè),本文使用和測(cè)試集最相似的簇訓(xùn)練出的模型來(lái)進(jìn)行預(yù)測(cè),其過(guò)程如圖1 所示。
圖1 交叉驗(yàn)證及預(yù)測(cè)過(guò)程
本文將演化聚類應(yīng)用到知識(shí)跟蹤模型上,具體實(shí)現(xiàn)了K-means 和層次聚類的兩種方式。對(duì)比模型包括未使用聚類的標(biāo)準(zhǔn)知識(shí)跟蹤模型、使用靜態(tài)聚類的知識(shí)跟蹤模型以及使用演化聚類的模型??偣? 種模型,分別是:(1)BKT、(2)BKT+KMS、(3)BKT+HC、(4)ECBKT+KMS、(5)ECBKT+HC。其中BKT 代表標(biāo)準(zhǔn)貝葉斯知識(shí)跟蹤模型,ECBKT 代表使用了演化聚類的知識(shí)跟蹤模型,KMS 代表K-means 聚類算法,HC 代表層次聚類算法。
本文用到的評(píng)價(jià)指標(biāo)有:預(yù)測(cè)精度(ACC)、均方根誤差(RMSE)和AUC 指標(biāo)。其中ACC 表示預(yù)測(cè)正確的題目數(shù)占總題目數(shù)的比率,RMSE 衡量預(yù)測(cè)值和真實(shí)值之間的偏差。而AUC 為ROC 曲線與坐標(biāo)軸圍成的面積,它是一種衡量二分類模型性能優(yōu)劣的指標(biāo),越接近1 則表示模型的性能越好。
(1)參數(shù)優(yōu)化分析
通過(guò)前面的分析,知道EM 算法易陷入局部最優(yōu)解,導(dǎo)致模型性能退化,表現(xiàn)為預(yù)精度低于50%。對(duì)于模型參數(shù)的優(yōu)化,使用學(xué)習(xí)曲線的方式來(lái)找到最佳的p(T)。本實(shí)驗(yàn)隨機(jī)從訓(xùn)練集中選擇3 條數(shù)據(jù)繪制其變化曲線,如圖2 所示。從數(shù)據(jù)1 和2 來(lái)看,如果p(T)參數(shù)設(shè)置不合理,將會(huì)極大影響模型預(yù)測(cè)精度。
對(duì)于所有數(shù)據(jù)集,繪制其預(yù)測(cè)精度的分布圖如圖3所示。從中可以看出,未優(yōu)化的模型預(yù)測(cè)精度主要分布在低精度區(qū)域,而優(yōu)化后模型的預(yù)測(cè)精度更高。可以看出,優(yōu)化后能明顯提高整體預(yù)測(cè)精度,因此在后面的分析中均使用已優(yōu)化的模型。
圖2 p(T)參數(shù)對(duì)模型性能的影響
圖3 預(yù)測(cè)精度分布對(duì)比圖
(2)預(yù)測(cè)結(jié)果分析
在本實(shí)驗(yàn)中,對(duì)每一道題的預(yù)測(cè)直接得到的是回答正確的概率,然后使用四舍五入的方式將其轉(zhuǎn)換成二分類結(jié)果。預(yù)測(cè)結(jié)果如表2 所示。
從中可以看出,在2009 數(shù)據(jù)集上演化K-means 的預(yù)測(cè)精度比K-means 高出2%,演化層次聚類的預(yù)測(cè)精度比層次聚類高出約2%。層次聚類的預(yù)測(cè)精度比K-means 高出5%。在RMSE 和AUC 指標(biāo)上也能得到相似的結(jié)果。另外,2015 數(shù)據(jù)集的整體預(yù)測(cè)精度高于2009 數(shù)據(jù)集。
表2 模型預(yù)測(cè)結(jié)果
從實(shí)驗(yàn)結(jié)果來(lái)看,可以得出如下結(jié)論:①使用聚類能有效提高模型的預(yù)測(cè)精度,其原因在于其充分考慮了學(xué)生知識(shí)水平的個(gè)體差異。②演化聚類的性能要高于對(duì)應(yīng)的靜態(tài)聚類方法,因?yàn)檠莼垲惪紤]到了學(xué)習(xí)者的交互數(shù)據(jù)的時(shí)間動(dòng)態(tài)特性,使得模型具有平滑性、一致性和受噪音干擾小等優(yōu)點(diǎn)。③層次聚類的性能要高于K-means。因?yàn)镵-means 難以劃分非球形或具有不同尺寸或密度的簇。因此層次聚類更適合教育領(lǐng)域數(shù)據(jù)分析。
本文為了提升知識(shí)跟蹤模型的預(yù)測(cè)能力,以及解決其個(gè)性化和冷啟動(dòng)等問(wèn)題,提出了一種結(jié)合演化聚類和貝葉斯網(wǎng)絡(luò)的知識(shí)跟蹤模型。該模型考慮了學(xué)習(xí)者的交互數(shù)據(jù)具有時(shí)間動(dòng)態(tài)特性,在每一個(gè)時(shí)刻的聚類都使用了歷史信息,使得聚類結(jié)果具有一致性、平滑性等優(yōu)點(diǎn)。并實(shí)現(xiàn)了層次聚類和K-means 的演化擴(kuò)展,包括快照質(zhì)量和歷史代價(jià)算法的實(shí)現(xiàn),以及對(duì)聚類不平衡問(wèn)題的處理。此外,為了避免出現(xiàn)模型退化的現(xiàn)象,對(duì)原始數(shù)據(jù)及參數(shù)分布進(jìn)行了分析,提出了使用學(xué)習(xí)曲線進(jìn)行優(yōu)化的方法,最終使得模型的性能得到較大提升。實(shí)驗(yàn)結(jié)果表明,本文提出的模型在各項(xiàng)指標(biāo)上均優(yōu)于傳統(tǒng)的模型。因此,本文提出的模型能有效促進(jìn)學(xué)習(xí)者在智能教學(xué)系統(tǒng)中的收益。