摘要 :深度知識(shí)追蹤是實(shí)現(xiàn)在線教育個(gè)性化的關(guān)鍵技術(shù),但是目前的深度知識(shí)追蹤模型普遍存在只考慮問(wèn)題及其結(jié)果,忽略了學(xué)習(xí)者作答結(jié)果的其他因素的影響,導(dǎo)致深度知識(shí)追蹤模型的可解釋性差、預(yù)測(cè)準(zhǔn)確率低等問(wèn)題。因此,提出了一種融合習(xí)題難度和遺忘行為的深度知識(shí)追蹤模型(FDKT-ED),該模型建立在傳統(tǒng)DKVMN模型的基礎(chǔ)上,綜合考慮作答結(jié)果和習(xí)題難度的同時(shí),優(yōu)化模擬學(xué)習(xí)者學(xué)習(xí)過(guò)程,將遺忘這一關(guān)鍵行為考慮在建模過(guò)程中。通過(guò)對(duì)比實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),該模型一方面提升了學(xué)習(xí)過(guò)程中的可解釋性,能夠?qū)⒅R(shí)狀態(tài)的變化展現(xiàn)出來(lái),另一方面將預(yù)測(cè)結(jié)果準(zhǔn)確率提升了2%~4%,預(yù)測(cè)效果提升明顯。
關(guān)鍵詞 :知識(shí)追蹤;深度學(xué)習(xí);習(xí)題難度;遺忘行為;學(xué)習(xí)過(guò)程
中圖分類(lèi)號(hào):TP18;G434"" 文獻(xiàn)標(biāo)志碼:A"" 文章編號(hào):1004-0366(2025)01-0008-08
隨著大規(guī)模開(kāi)放在線課程(MOOC,massive open online course)的蓬勃發(fā)展和廣泛推廣,大量的在線教育平臺(tái)相繼涌現(xiàn)。這些平臺(tái)以互聯(lián)網(wǎng)為依托,向廣大的互聯(lián)網(wǎng)學(xué)生提供教育服務(wù),并應(yīng)用大數(shù)據(jù)等先進(jìn)技術(shù),實(shí)現(xiàn)智能化的個(gè)性教育服務(wù)。此類(lèi)在線教育平臺(tái)打破了傳統(tǒng)教育模式中的時(shí)空限制,使得學(xué)習(xí)內(nèi)容更加豐富多樣,并為更廣泛的學(xué)生群體提供服務(wù)。
在推動(dòng)智能化教育發(fā)展的進(jìn)程中,知識(shí)追蹤(KT,knowledge tracing)技術(shù)發(fā)揮著至關(guān)重要的作用。這一技術(shù)通過(guò)追蹤學(xué)生在不同時(shí)間段的學(xué)習(xí)表現(xiàn),準(zhǔn)確把握學(xué)生對(duì)知識(shí)點(diǎn)的掌握程度,從而對(duì)他們?cè)诮酉聛?lái)的學(xué)習(xí)過(guò)程中的表現(xiàn)進(jìn)行深入分析。知識(shí)追蹤技術(shù)在教育領(lǐng)域的應(yīng)用,為我們提供了一種全新的方式來(lái)評(píng)估和預(yù)測(cè)學(xué)生的學(xué)習(xí)表現(xiàn),并為提升教學(xué)質(zhì)量提供了有力支持。
目前的知識(shí)追蹤研究工作中,主要使用的知識(shí)追蹤方法可以分為兩大類(lèi),一個(gè)是傳統(tǒng)的基于機(jī)器學(xué)習(xí)的方法,另一個(gè)是基于深度學(xué)習(xí)的方法。
傳統(tǒng)的基于機(jī)器學(xué)習(xí)的知識(shí)追蹤方法中,基于貝葉斯的知識(shí)追蹤(BKT,bayesin knowledge tracking)[1]是最具代表性的模型。該模型采用實(shí)時(shí)反饋的用戶交互建模,利用隱馬爾可夫模型(HMM,hidden Markov model)建立用戶的知識(shí)變換狀態(tài),隨著學(xué)習(xí)者的不斷學(xué)習(xí),對(duì)知識(shí)點(diǎn)的掌握狀態(tài)會(huì)發(fā)生相應(yīng)的轉(zhuǎn)換。但是隨著研究的深入,發(fā)現(xiàn)在實(shí)際應(yīng)用中BKT難以模擬較長(zhǎng)的交互序列,對(duì)習(xí)題和知識(shí)點(diǎn)之間各方面的考量也存在不足。
深度知識(shí)追蹤是在知識(shí)追蹤模型的基礎(chǔ)上,應(yīng)用深度學(xué)習(xí)技術(shù)幫助建模。PIECH等[2]首次提出將循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN,recurrent neural network)應(yīng)用到知識(shí)追蹤中,自此開(kāi)始了深度知識(shí)追蹤的研究。
深度知識(shí)追蹤(DKT,deep knowledge tracing)模型主要是以RNN作為基礎(chǔ)結(jié)構(gòu),將學(xué)習(xí)者的作答情況通過(guò)one-hot進(jìn)行編碼作為輸入,通過(guò)RNN模型處理以時(shí)間為序列的輸入,得到用戶的知識(shí)狀態(tài)。
隨后學(xué)者們又針對(duì)提升模型的預(yù)測(cè)能力做出了改進(jìn),如ZHANG等[3]在DKT模型的輸入中增加了額外的反應(yīng)時(shí)間、練習(xí)嘗試次數(shù)和第一次作答的反應(yīng)結(jié)果,對(duì)學(xué)習(xí)者的學(xué)習(xí)水平進(jìn)行了評(píng)估;CHENG等[4]在DKT模型中引入了失誤因子和猜測(cè)因子,提升了模型模擬的真實(shí)性;在此基礎(chǔ)上,RUAN等[5]又引入了部分理解因子,幫助構(gòu)建學(xué)習(xí)者學(xué)習(xí)行為的隨機(jī)性。
深度知識(shí)追蹤中的另一個(gè)基礎(chǔ)模型是動(dòng)態(tài)鍵值對(duì)記憶網(wǎng)絡(luò)(DKVMN,dynamic key-value memory networks),該模型由ZHANG等[6]于2017年首次提出,模型使用記憶增強(qiáng)神經(jīng)網(wǎng)絡(luò)(MANN,memory augmented neural network),替代了DKT模型中使用RNN將知識(shí)狀態(tài)表示為一個(gè)向量的方式,學(xué)習(xí)者的知識(shí)狀態(tài)被表示為一個(gè)記憶矩陣,從而增強(qiáng)了模型的記憶能力。
此后,DKVMN-LA模型[7]引入了學(xué)習(xí)行為特征和學(xué)習(xí)能力差異,豐富了模型的輸入特征參數(shù);宗曉萍等[8]通過(guò)引入分布記憶矩陣,實(shí)現(xiàn)了知識(shí)增長(zhǎng)速度的建模;DKVMN-CA模型[9]將習(xí)題難度、練習(xí)時(shí)長(zhǎng)等因素進(jìn)行整合,提升了模型的預(yù)測(cè)能力;DKVMN-DT模型[10]將用戶作答時(shí)間、是否請(qǐng)求提示、嘗試作答次數(shù)等多個(gè)影響用戶作答結(jié)果的因素引入決策樹(shù),綜合預(yù)測(cè)得出用戶的最終作答情況。
然而,在深度知識(shí)追蹤中我們往往更加關(guān)注學(xué)習(xí)者的作答情況,卻忽略了影響學(xué)習(xí)者作答的相關(guān)因素。例如,對(duì)于包含相同知識(shí)點(diǎn)的不同難度的題目,學(xué)習(xí)者在作答時(shí)可能會(huì)產(chǎn)生不同的結(jié)果。傳統(tǒng)的深度知識(shí)追蹤模型假設(shè)學(xué)習(xí)者對(duì)知識(shí)點(diǎn)的掌握情況始終保持不變,然而實(shí)際情況并非如此。隨著時(shí)間的推移,已經(jīng)學(xué)會(huì)的知識(shí)可能會(huì)逐漸忘記,而再次學(xué)習(xí)同一知識(shí)點(diǎn)則會(huì)鞏固記憶。因此,在深度知識(shí)追蹤中,需要更加全面地考慮影響學(xué)習(xí)者作答的相關(guān)因素,以便更準(zhǔn)確地評(píng)估學(xué)習(xí)者的知識(shí)掌握情況。
針對(duì)上述問(wèn)題,本文提出了一種深度知識(shí)追蹤模型,該模型融合了習(xí)題難度和遺忘行為。通過(guò)分析過(guò)往習(xí)題得出習(xí)題的難易程度,并結(jié)合學(xué)習(xí)者的作答情況分析知識(shí)掌握情況。在此基礎(chǔ)上,參考心理學(xué)領(lǐng)域的遺忘因素,對(duì)已經(jīng)學(xué)會(huì)的知識(shí)掌握程度進(jìn)行遺忘衰減處理,最終得到知識(shí)掌握程度的評(píng)估結(jié)果,并用于預(yù)測(cè)學(xué)習(xí)者下一次的作答情況。該模型不僅考慮了習(xí)題難度和學(xué)習(xí)者的知識(shí)掌握程度,還充分考慮了知識(shí)的遺忘因素,從而可以更準(zhǔn)確地預(yù)測(cè)學(xué)習(xí)者的學(xué)習(xí)效果。
1 模型構(gòu)建
1.1 基本定義
在線教育中產(chǎn)生的學(xué)習(xí)者學(xué)習(xí)數(shù)據(jù),通常被看做是一個(gè)指定的學(xué)習(xí)序列,作答情況用xt表示,其中xt被描述為一個(gè)二元組xt={et,at},et表示t時(shí)刻作答的問(wèn)題,at表示對(duì)應(yīng)的作答結(jié)果。一般情況下,at取二元值0或1,表示是否正確回答問(wèn)題。
知識(shí)追蹤問(wèn)題是按照學(xué)習(xí)的時(shí)間順序,通過(guò)對(duì)學(xué)習(xí)序列{x1,x2,x3,…,xt}建模,跟蹤分析整個(gè)學(xué)習(xí)過(guò)程,預(yù)測(cè)下一個(gè)時(shí)刻的作答表現(xiàn)xt+1。定義K為知識(shí)點(diǎn)集合,E為習(xí)題集合,ktK表示習(xí)題et所涉及的知識(shí)點(diǎn)集合。矩陣MK(dk×|K|)表示所有|K|個(gè)知識(shí)點(diǎn)的嵌入表示,每個(gè)dk的列向量都表示其中一個(gè)知識(shí)點(diǎn)的嵌入表示。矩陣MVt(dv×|K|)表示t時(shí)刻學(xué)習(xí)結(jié)束時(shí)學(xué)生的知識(shí)點(diǎn)掌握程度嵌入矩陣,而矩陣MFVt(dv×|K|)表示t時(shí)刻學(xué)習(xí)開(kāi)始前學(xué)生的知識(shí)點(diǎn)掌握程度嵌入矩陣。矩陣MFVt是由矩陣MVt-1通過(guò)遺忘處理得到的。定義 level t為t時(shí)刻學(xué)習(xí)結(jié)束時(shí)學(xué)生的知識(shí)掌握程度,用(0,1)之間的數(shù)字表示,0表示完全沒(méi)掌握,1表示完全掌握。
本文的知識(shí)追蹤模型,其整個(gè)知識(shí)追蹤過(guò)程不僅關(guān)注時(shí)間序列下的作答情況,還結(jié)合了習(xí)題難度、作答間隔、作答周期等因素。該模型主要由權(quán)重計(jì)算、遺忘處理、學(xué)習(xí)模擬、結(jié)果預(yù)測(cè)和知識(shí)水平輸出5個(gè)模塊組成,并采用LSTM網(wǎng)絡(luò)進(jìn)行建模,最終得出一個(gè)更準(zhǔn)確的預(yù)測(cè)結(jié)果。
1.2 權(quán)重計(jì)算
權(quán)重計(jì)算的作用是計(jì)算習(xí)題與對(duì)應(yīng)的知識(shí)點(diǎn)的相關(guān)權(quán)重。該模塊的輸入是學(xué)生當(dāng)前的練習(xí)題目et和題目涉及的知識(shí)點(diǎn)集合kt。然后將et與嵌入矩陣A(dk×|E|)相乘,得到一個(gè)dk維的習(xí)題嵌入向量vt。知識(shí)點(diǎn)嵌入向量矩陣為Nt,其中每個(gè)dk維向量表示一個(gè)知識(shí)點(diǎn)嵌入向量。先計(jì)算習(xí)題嵌入向量vt和涵蓋知識(shí)點(diǎn)嵌入向量Nt(i)的內(nèi)積,然后將內(nèi)積通過(guò) Softmax 函數(shù)計(jì)算,得到習(xí)題和知識(shí)點(diǎn)的相關(guān)權(quán)重向量wt,即
wt(i)= Soft max (vTtNt(i))。 (1)
1.3 遺忘處理
德國(guó)心理學(xué)家艾賓浩斯對(duì)人類(lèi)遺忘行為的研究發(fā)現(xiàn),遺忘行為立即發(fā)生于學(xué)習(xí)行為之后,并且遺忘速度逐漸減慢。其遺忘曲線理論[11]表明,學(xué)生對(duì)于知識(shí)的遺忘主要受兩方面的影響:學(xué)習(xí)的重復(fù)次數(shù)和兩次學(xué)習(xí)的時(shí)間間隔。在知識(shí)追蹤的過(guò)程中不僅有學(xué)習(xí)過(guò)程,還應(yīng)該有遺忘過(guò)程。ZOU等[12]提出了一種包含遺忘過(guò)程的深度知識(shí)追蹤模型(LPKT),在計(jì)算學(xué)習(xí)者下一時(shí)刻的知識(shí)掌握狀態(tài)時(shí),要同時(shí)參考遺忘因素,最終得出學(xué)習(xí)者的知識(shí)掌握水平,提升模型的預(yù)測(cè)能力。
遺忘處理模塊主要是對(duì)上一次學(xué)習(xí)結(jié)束后的知識(shí)掌握狀態(tài)做遺忘處理。本次研究針對(duì)遺忘行為提出4個(gè)因素:重復(fù)學(xué)習(xí)相同知識(shí)點(diǎn)的時(shí)間間隔(RK,repeat knowledge point interval)、距離上次學(xué)習(xí)的時(shí)間間隔(RL,repeat learn interval)、重復(fù)學(xué)習(xí)相同知識(shí)點(diǎn)的次數(shù)(KT,repeat knowledge point times)、知識(shí)點(diǎn)的掌握程度(KM,knowledge point mastery)。
由于遺忘行為是針對(duì)學(xué)生的知識(shí)掌握程度進(jìn)行的,因此要先獲得學(xué)生關(guān)于各個(gè)知識(shí)點(diǎn)的遺忘因素矩陣。首先,RK、RL、KT 3個(gè)因素組合得到 Ct(i) =[RK(i),RL(i),KT(i)] ,表示影響學(xué)生對(duì)知識(shí)點(diǎn) i 遺忘過(guò)程的前3個(gè)因素,然后將每個(gè)知識(shí)點(diǎn)的向量Ct(i)組合得到矩陣Ct(dc X |k|)。學(xué)生對(duì)知識(shí)點(diǎn)的掌握矩陣用MVt-1表示,即為第4個(gè)遺忘因素 KM。 將Ct同 KM 組合到一起得到矩陣Ft=[MVt-1,Ct],表示影響遺忘的4個(gè)因素。
進(jìn)行遺忘處理時(shí),先對(duì)前一時(shí)刻的知識(shí)掌握狀態(tài)矩陣進(jìn)行擦除,然后更新知識(shí)掌握矩陣。該模塊的主要結(jié)構(gòu)如圖1所示。
通過(guò)一個(gè) Sigmoid 函數(shù)將學(xué)生對(duì)知識(shí)點(diǎn)i的遺忘因素Ft(i)轉(zhuǎn)換為遺忘向量fet(i):
fet(i)= Sigmoid (FETFt(i)+bfe), (2)
全連接層權(quán)重矩陣FE是(dv+dc)×dv的形狀,偏置向量bfe是dv維的。
然后通過(guò)一個(gè) Tanh 函數(shù)將學(xué)生對(duì)知識(shí)點(diǎn)i的遺忘因素Ft(i)轉(zhuǎn)換為更新向量fut(i):
fut(i)= Tanh (FUTFt(i)+bfu), (3)
權(quán)重矩陣FU是(dv+dc)×dv的形狀,偏置向量bfu是dv維的。
再根據(jù)得到的遺忘向量和更新向量對(duì)學(xué)生的知識(shí)掌握狀態(tài)矩陣MVt-1進(jìn)行更新,得到矩陣MFVt:
MFVt(i)=MVt-1(i)(1-fet(i))(1+fut(i))。(4)
通過(guò)遺忘層的處理,得到本次學(xué)習(xí)開(kāi)始之前學(xué)生的知識(shí)掌握矩陣MFVt。
1.4 學(xué)習(xí)模擬
學(xué)習(xí)模擬模塊的主要作用是根據(jù)學(xué)生作答結(jié)果,更新學(xué)生在開(kāi)始本次學(xué)習(xí)之前的知識(shí)掌握矩陣MFVt,生成學(xué)習(xí)結(jié)束后的知識(shí)掌握矩陣MVt,構(gòu)建學(xué)生的學(xué)習(xí)行為模型。作為輸入的是學(xué)生在t時(shí)刻的作答結(jié)果,用二元組(et,at)表示。將二元組(et,at)與答題結(jié)果嵌入矩陣B(dv×2|E|)相乘,得到dv維答題結(jié)果嵌入向量rt。然后將答題結(jié)果嵌入向量rt與習(xí)題相關(guān)知識(shí)點(diǎn)權(quán)重向量wt作為輸入,通過(guò) LSTM 網(wǎng)絡(luò)更新學(xué)生的知識(shí)掌握狀態(tài),完成學(xué)習(xí)行為建模,即
MVt(i)= LSTM (rt,wt(i)MFVt(i))。 (5)
1.5 結(jié)果預(yù)測(cè)
項(xiàng)目反映理論(IRT,item response theory)是認(rèn)知心理學(xué)中認(rèn)知診斷的常用理論,用于評(píng)估某個(gè)項(xiàng)目響應(yīng)結(jié)果的好壞。該理論通常用概率的形式來(lái)描述項(xiàng)目作答反應(yīng)是如何受到項(xiàng)目難度等因素或聯(lián)合因素作用的影響。項(xiàng)目受兩個(gè)維度的影響:項(xiàng)目難度和區(qū)分度。MINN等[13]研究發(fā)現(xiàn),在學(xué)生的學(xué)習(xí)過(guò)程中,習(xí)題難度起著至關(guān)重要的作用。在傳統(tǒng)的知識(shí)追蹤中,YUDELSON等[14]將問(wèn)題難度與BKT模型進(jìn)行融合,增強(qiáng)了模型的可解釋性。
受到上述模型的啟發(fā),DKT-IRT模型[15]被提出,它將項(xiàng)目反映理論同深度知識(shí)追蹤進(jìn)行融合,在預(yù)測(cè)學(xué)習(xí)者作答情況的同時(shí),綜合分析習(xí)題難度,提升模型預(yù)測(cè)的準(zhǔn)確率。YEUNG[16]也做了類(lèi)似的嘗試,其將IRT理論同DKVMN模型進(jìn)行結(jié)合,用DKVMN對(duì)學(xué)習(xí)者學(xué)習(xí)路徑建模,IRT分析習(xí)題難度,達(dá)到提升模型預(yù)測(cè)效率的目的。
本次研究中,習(xí)題難度通過(guò)一個(gè)Tanh函數(shù)計(jì)算表示,即
dt+1= Tanh (WTDvt+1+bD), (6)
其中:WD和bD分別表示全連接層中的權(quán)重向量和偏置向量。
結(jié)果預(yù)測(cè)模塊的主要目的是根據(jù)學(xué)生的知識(shí)掌握矩陣,預(yù)測(cè)學(xué)生下一次回答題目et+1的表現(xiàn)。先更新知識(shí)掌握矩陣,得到下次開(kāi)始學(xué)習(xí)時(shí)的知識(shí)掌握矩陣MFVt+1,然后預(yù)測(cè)正確回答et+1的概率。將知識(shí)點(diǎn)相關(guān)權(quán)重wt+1和知識(shí)掌握矩陣MFVt+1進(jìn)行加權(quán)求和,得到習(xí)題相關(guān)知識(shí)點(diǎn)的加權(quán)掌握程度嵌入向量mt+1:
mt+1=∑Ki=1wt+1(i)MFVt+1(i)。 (7)
然后將向量mt+1、向量vt+1和向量dt+1組合得到新的向量[mt+1,vt+1,dt+1],并將其輸入到 Tanh 函數(shù)中,得到
ht+1= Tanh (WT1[mt+1,vt+1,dt+1]+b1), (8)
其中:W1和b1分別表示全連接層中的權(quán)重和偏置向量。
最后,將得到的向量輸入到 Sigmoid 函數(shù)中,得到學(xué)生正確回答問(wèn)題et+1的概率pt+1:
pt+1= Sigmoid (WT2ht+1+b2), (9)
其中:W2和b2分別表示全連接層中的權(quán)重和偏置向量。
1.6 知識(shí)水平輸出層
知識(shí)水平輸出層的主要目的是輸出學(xué)生結(jié)束學(xué)習(xí)時(shí)對(duì)各個(gè)知識(shí)點(diǎn)的掌握情況。該部分將學(xué)生結(jié)束學(xué)習(xí)時(shí)的知識(shí)掌握矩陣作為輸入,輸出 K 維的知識(shí)掌握程度向量levelt。 知識(shí)點(diǎn)的掌握程度用(0,1)之間的數(shù)表示。
在知識(shí)水平輸出層,只需要學(xué)生對(duì)知識(shí)點(diǎn)的綜合掌握程度,這里使用單位向量δi=(0,0,…,1,…,0)當(dāng)做權(quán)重向量,其中在i維位置的值為1。
利用
MVt(i)=δiMVt (10)
提取學(xué)生對(duì)知識(shí)點(diǎn)i的掌握程度嵌入向量。再利用式(10)和xt(i)= Tanh (WT1[MVt(i),0]+b1)
獲取學(xué)生的知識(shí)掌握水平情況,即
levelt(i)= Sigmoid (WT2xt(i)+b2),
其中:W1、b1、W2、b2同式(8)、式(9)中的設(shè)置相同;0向量用來(lái)補(bǔ)齊向量維度,沒(méi)有實(shí)際意義。
2 實(shí)驗(yàn)結(jié)果
2.1 數(shù)據(jù)集
實(shí)驗(yàn)使用的數(shù)據(jù)集是在線公開(kāi)數(shù)據(jù)集ASSIST09、ASSIST12、EdNet和Slepemapy.cz。數(shù)據(jù)集信息統(tǒng)計(jì)見(jiàn)表1。表1中的數(shù)據(jù)來(lái)源于EduData、Adaptive Learning。
表1中數(shù)據(jù)集ASSIST09是2009—2010年間由ASSIST平臺(tái)所提供的在線學(xué)習(xí)數(shù)據(jù),其中共計(jì)28萬(wàn)余次交互記錄。
數(shù)據(jù)集ASSIST12是2012—2013年間由ASSIST平臺(tái)所提供的在線學(xué)習(xí)數(shù)據(jù),共計(jì)270萬(wàn)余次交互記錄。與ASSIST09數(shù)據(jù)集不同的是,ASSIST12數(shù)據(jù)集中每個(gè)題目只對(duì)應(yīng)一個(gè)知識(shí)點(diǎn)。
EdNet數(shù)據(jù)集是跨平臺(tái)AI輔導(dǎo)系統(tǒng)Santa在2017—2019年間收集的數(shù)據(jù),其數(shù)據(jù)量十分龐大,交互記錄超過(guò)1億3千萬(wàn)條。因此實(shí)驗(yàn)中選取部分?jǐn)?shù)據(jù),即隨機(jī)選取5 000名用戶的交互記錄,共計(jì)65萬(wàn)余次交互記錄。
Slepemapy.cz數(shù)據(jù)集數(shù)據(jù)來(lái)源于一個(gè)地理練習(xí)在線系統(tǒng),該數(shù)據(jù)集收集了系統(tǒng)中2014—2015年間的數(shù)據(jù),共計(jì)240萬(wàn)余次交互記錄。該數(shù)據(jù)集中,習(xí)題與知識(shí)點(diǎn)一一對(duì)應(yīng)。
實(shí)驗(yàn)將數(shù)據(jù)集的80%用做訓(xùn)練集,20%用做測(cè)試集,單次處理的最大交互記錄數(shù)量為200條。
2.2 實(shí)驗(yàn)參數(shù)與指標(biāo)的設(shè)定
對(duì)于數(shù)據(jù)集ASSIST09,知識(shí)點(diǎn)嵌入矩陣MKt的列數(shù)為123,對(duì)于知識(shí)點(diǎn)嵌入向量維度dk和知識(shí)掌握程度嵌入向量維度dv,當(dāng)d=dk=dv設(shè)置過(guò)低時(shí),模型的學(xué)習(xí)能力會(huì)有所下降;而當(dāng)d=dk=dv設(shè)置過(guò)高時(shí),模型容易出現(xiàn)過(guò)擬合現(xiàn)象,所以實(shí)驗(yàn)設(shè)置d=dk=dv=16。
對(duì)于數(shù)據(jù)集ASSIST12,知識(shí)點(diǎn)嵌入矩陣MKt的列數(shù)為265,d=dk=dv=32。
對(duì)于數(shù)據(jù)集EdNet,知識(shí)點(diǎn)嵌入矩陣MKt的列數(shù)為188,d=dk=dv=16。
對(duì)于數(shù)據(jù)集Slepemapy.cz,知識(shí)點(diǎn)嵌入矩陣MKt的列數(shù)為1 067,d=dk=dv=128。
公共參數(shù)設(shè)置如下:實(shí)驗(yàn)中使用的學(xué)習(xí)率為指數(shù)衰減學(xué)習(xí)率,初始學(xué)習(xí)率init-learning=0.01,衰減速度為10 000,衰減后的學(xué)習(xí)率為0.001;批處理大小batch_size=30,記憶矩陣列數(shù)為320,隱藏向量的大小為20;一次處理問(wèn)題序列大小為200。實(shí)驗(yàn)采用Adam優(yōu)化器。
2.3 對(duì)比實(shí)驗(yàn)結(jié)果及分析
(1) 不同知識(shí)追蹤模型對(duì)比
實(shí)驗(yàn)主要選用預(yù)測(cè)結(jié)果準(zhǔn)確率(ACC,Accuracy)和ROC曲線下面積大?。ˋUC,area under the curve)兩個(gè)評(píng)價(jià)指標(biāo)作為參考,當(dāng)ACC值和AUC值越大時(shí),表示實(shí)驗(yàn)結(jié)果越好。
對(duì)BKT、DKT、DKVMN以及FDKT-ED模型在4個(gè)數(shù)據(jù)集下分別實(shí)驗(yàn),得到的結(jié)果如表2所列。表2中黑體數(shù)字表示最優(yōu)值。通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),模型在4個(gè)數(shù)據(jù)集上的ACC值和AUC值都有一定程度的提升,F(xiàn)DKT-ED模型均取得最好的預(yù)測(cè)結(jié)果;DKVMN模型ACC值在4個(gè)數(shù)據(jù)集上分別提升了0.025、0.028、0.038和0.033,AUC值分別提升了0.026、0.029、0.045和0.021。
各模型在不同數(shù)據(jù)集下的AUC值變化曲線見(jiàn)圖2。對(duì)比圖2發(fā)現(xiàn),F(xiàn)DKT-ED模型的實(shí)驗(yàn)效果明顯優(yōu)于另外3個(gè)模型,各模型的AUC值在迭代次數(shù)達(dá)到100次左右時(shí)趨于最大值。
以上分析證明了實(shí)驗(yàn)采用融合習(xí)題難度和遺忘行為模型是有效的。在兩個(gè)數(shù)據(jù)集上,BKT模型的預(yù)測(cè)效果均表現(xiàn)最差,表明在傳統(tǒng)知識(shí)追蹤中,使用二進(jìn)制變量來(lái)建模知識(shí)掌握水平的方法存在局限性。DKT模型通過(guò)循環(huán)神經(jīng)網(wǎng)絡(luò)RNN來(lái)輔助構(gòu)建整體知識(shí)水平,優(yōu)化了知識(shí)追蹤的建模過(guò)程,然而該模型無(wú)法構(gòu)建學(xué)生各個(gè)知識(shí)點(diǎn)的掌握水平。DKVMN模型通過(guò)記憶增強(qiáng)神經(jīng)網(wǎng)絡(luò)解決了這一問(wèn)題,但在模擬學(xué)生的學(xué)習(xí)行為方面仍存在不足。DKVMN模型默認(rèn)學(xué)生對(duì)各知識(shí)點(diǎn)的掌握水平是不變的,忽略了遺忘因素,同時(shí)在預(yù)測(cè)環(huán)節(jié)未考慮習(xí)題本身對(duì)預(yù)測(cè)結(jié)果的影響。綜合比較而言,F(xiàn)DKT-ED模型的預(yù)測(cè)效果優(yōu)于其他3個(gè)模型。
(2) FDKT-ED和DKVMN在知識(shí)水平輸出上的對(duì)比
知識(shí)追蹤的另一個(gè)重要指標(biāo)是知識(shí)水平輸出。因此對(duì)FDKT-ED和DKVMN兩種模型在知識(shí)水平輸出方面的表現(xiàn)進(jìn)行對(duì)比。
選取學(xué)生答題歷史中一段時(shí)間的答題記錄,對(duì)比實(shí)驗(yàn)將同一組答題數(shù)據(jù)輸入到兩個(gè)模型中,輸入數(shù)據(jù)使用二元組( kt,at)表示,其中kt表示學(xué)習(xí)的知識(shí)點(diǎn),at 表示作答結(jié)果,兩個(gè)模型的知識(shí)水平輸出結(jié)果如圖3所示。
通過(guò)上述實(shí)驗(yàn)結(jié)果分析,正確回答問(wèn)題會(huì)使知識(shí)掌握水平上升,在圖3中第二個(gè)序列正確回答知識(shí)點(diǎn)0后,輸出結(jié)果呈現(xiàn)出上升,錯(cuò)誤回答問(wèn)題后會(huì)使知識(shí)掌握水平下降;第四序列錯(cuò)誤回答知識(shí)點(diǎn)3后,輸出結(jié)果呈現(xiàn)出下降趨勢(shì),表明FDKT-ED和DKVMN模型在學(xué)生答題結(jié)束后都會(huì)對(duì)學(xué)生的知識(shí)掌握狀態(tài)進(jìn)行更新,從而對(duì)學(xué)生的學(xué)習(xí)行為進(jìn)行建模。
圖3(a)中自第二序列學(xué)習(xí)知識(shí)點(diǎn)0后,第三到第九序列都未再次進(jìn)行學(xué)習(xí),學(xué)生的知識(shí)掌握水平呈下降趨勢(shì),表明學(xué)生在這個(gè)時(shí)間段中存在遺忘行為;圖3(b)中的對(duì)應(yīng)時(shí)間段學(xué)生的知識(shí)掌握水平保持不變,表明DKVMN模型未考慮學(xué)生這段時(shí)間中的遺忘行為。
綜上,F(xiàn)DKT-ED模型和DKVMN模型都能在學(xué)生做出學(xué)習(xí)行為時(shí)更新知識(shí)掌握狀態(tài),但是遺忘因素使得FDKT-ED模型在沒(méi)有學(xué)習(xí)行為時(shí)知識(shí)掌握狀態(tài)會(huì)下降,更加符合學(xué)生的學(xué)習(xí)行為過(guò)程。
2.4 消融實(shí)驗(yàn)
由上述實(shí)驗(yàn)與結(jié)果發(fā)現(xiàn),F(xiàn)DKT-ED模型能夠獲得比傳統(tǒng)知識(shí)追蹤模型更好的預(yù)測(cè)結(jié)果,通過(guò)消融實(shí)驗(yàn)分析習(xí)題難度和遺忘因素對(duì)知識(shí)追蹤中預(yù)測(cè)能力的影響程度。實(shí)驗(yàn)均在數(shù)據(jù)集ASSIST2012上進(jìn)行,4個(gè)遺忘因素分別對(duì)應(yīng)距離上次學(xué)習(xí)相同知識(shí)點(diǎn)時(shí)間間隔、距離上次學(xué)習(xí)時(shí)間間隔、重復(fù)學(xué)習(xí)該知識(shí)點(diǎn)次數(shù)、原始知識(shí)掌握程度;實(shí)驗(yàn)通過(guò)比較AUC值分析各個(gè)因素所起到的作用。實(shí)驗(yàn)結(jié)果如表3所列。
通過(guò)消融實(shí)驗(yàn)發(fā)現(xiàn),去除習(xí)題難度使得模型預(yù)測(cè)效果約降低1.9%,去除遺忘因素一RK使得模型預(yù)測(cè)效果降低1.2%,去除遺忘因素二RL使得模型預(yù)測(cè)效果降低1.0%,去除遺忘因素三KT使得模型預(yù)測(cè)效果降低0.9%,去除遺忘因素四KM使得模型預(yù)測(cè)效果降低1.0%。綜上,習(xí)題難度和遺忘因素都在一定程度上提升了模型的預(yù)測(cè)能力,優(yōu)化了學(xué)生學(xué)習(xí)行為模型的構(gòu)建過(guò)程;在提升模型的預(yù)測(cè)能力方面,習(xí)題難度這一因素起到更大的作用,4個(gè)遺忘因素的作用大致相同。
3 結(jié)語(yǔ)
通過(guò)綜合考慮遺忘因素及習(xí)題本身屬性,提出了一種融合習(xí)題難度和遺忘行為的深度知識(shí)追蹤模型FDKT-ED。該模型根據(jù)習(xí)題序列來(lái)確定各知識(shí)點(diǎn)的權(quán)重,并在構(gòu)建模型時(shí)融入遺忘因素,同時(shí)還在預(yù)測(cè)學(xué)習(xí)結(jié)果時(shí)考慮習(xí)題難度對(duì)預(yù)測(cè)結(jié)果的影響,有效提高模型預(yù)測(cè)的準(zhǔn)確率。此外,該模型還呈現(xiàn)出知識(shí)狀態(tài)的變化過(guò)程,增強(qiáng)了模型的可解釋性。實(shí)驗(yàn)結(jié)果表明,相較于BKT、DKT和DKVMN模型,F(xiàn)DKT-ED模型具有更出色的表現(xiàn)。在該模型中無(wú)論是習(xí)題難度還是遺忘因素,都有助于提升模型的預(yù)測(cè)準(zhǔn)確率,其中習(xí)題難度的影響程度更大。
雖然FDKT-ED模型具有出色的表現(xiàn),但是該模型未考慮習(xí)題難度和遺忘行為之間的關(guān)系,在后續(xù)研究中,我們將綜合考慮影響因素之間的關(guān)系,構(gòu)建適應(yīng)復(fù)雜學(xué)習(xí)環(huán)境的知識(shí)追蹤模型。
參考文獻(xiàn):
[1] CORBETT A T,ANDERSON J R.Knowledge tracing:Modeling the acquisition of procedural knowledge[J].User Modeling and User-adapted Interaction,1994,4(4):253-278.
[2] PIECH C,BASSEN J,HUANG J, et al .Deep knowledge tracing[J].Advances in Neural Information Processing Systems,2015(28):505-513.
[3] ZHANG L,XIONG X,ZHAO S, et al .Incorporating rich featuresinto deep knowledge tracing[C]//Proceedings of the Fourth (2017) ACM Conference on learning@ scale.2017:169-172.
[4] CHENG S,LIU Q,CHEN E.Domain adaption for knowledge tracing[J].arXiv e-print arXiv,2020:arXiv:2001.04841.
[5] RUAN S,WEI W,LANDAY J.Variational deep knowledge tracing for language learning[C]//LAK21:11th International Learning Analytics and Knowledge Conference.2021:323-332.
[6] ZHANG J,SHI X,KING I, et al .Dynamic key-value memory networks for knowledge tracing[C]//Proceedings of the 26th International Conference on World Wide Web,2017:765-774.
[7] SUN X,ZHAO X,LI B, et al .Dynamic key-value memory networks with rich features for knowledge tracing[J].IEEE Transactions on Cybernetics,2021(99):1-7.
[8] 宗曉萍,陶澤澤.基于掌握速度的知識(shí)追蹤模型[J].計(jì)算機(jī)工程與應(yīng)用,2021,57(6):117-123.
[9] AI F,CHEN Y,GUO Y, et al .Concept-aware deep knowledge tracing and exercise recommendation in an online learning system[J].International Educational Data Mining Society,2019(99):240-245.
[10] SUN X,ZHAO X,MA Y, et al .Muti-behavior features based knowledge tracking using decision tree improved DKVMN[C]//Proceedings of the ACM Turing Celebration Conference-China.2019:1-6.
[11] EBBINGHAUS H.Memory:A contribution to experimental psychology[J].Annals of Neurosciences,2013,20(4):155-156.
[12] ZOU Y,YAN X,LI W.Knowledge tracking model based on learning process[J].Journal of Computer and Communications,2020,8(10):7-17.
[13] MINN S,ZHU F,DESMARAIS M C.Improving knowledge tracing model by integrating problem difficulty[C]//2018 IEEE International Conference on Data Mining Workshops (ICDMW).IEEE,2018:1505-1506.
[14] YUDELSON M V,KOEDINGER K R,GORDON G J.Individualized bayesianknowledge tracing models[C]//Berlin,Heidelberg:International Conference on Artificial Intelligence in Education.Springer,2013:171-180.
[15] CONVERSE G,PU S,OLIVEIRA S.Incorporating item response theory into knowledge tracing[C]//Cham,International Conference on Artificial Intelligence in Education.Springer,2021:114-118.
[16] YEUNG C K.Deep-IRT:Make deep learning based knowledge tracing explainable using item response theory[J].arXiv preprint,2019:arXiv:1904.11738.
Deep knowledge tracking model integrating exercise
difficulty and forgetting behavior
MA Fanglan1,2,ZHU Changsheng2,PO Shichao2
(1.Institute of Sensor Technology,Gansu Academy of Sciences,Lanzhou 730000,China;
2.School of Computer and Communication,Lanzhou University of Technology,Lanzhou 730050,China)
Abstract
Deep knowledge tracking is the key technology to realize the personalization of online education.However,the current deep knowledge tracking model generally only considers the problems and results,while ignoring other factors affecting learners' answer results,which will lead to the poor interpretability and low prediction accuracy of deep knowledge tracking model.Therefore,this paper proposes a deep knowledge tracking model integrating exercise difficulty and forgetting behavior(FDKT-ED).The model is based on the traditional DKVMN model.While comprehensively considering the answer results and exercise difficulty,it optimizes the learning process of simulated learners and considers the key behavior of forgetting in the modeling process.Through the comparison of experimental results,it is found that on the one hand,the model improves the interpretability in the learning process and can show the changes of knowledge state.On the other hand,the accuracy of prediction results is improved by 2%~4%,and the prediction effect is significantly improved.
Key words
Knowledge tracking;Deep learning;Exercise difficulty;Forgetting behavior;Learning process
(本文責(zé)編:葛 文)