摘 要:知識(shí)追蹤模型主要使用監(jiān)督學(xué)習(xí)范式建模給定題目信息條件下的作答結(jié)果概率分布,無(wú)法根據(jù)新的題目信息即時(shí)調(diào)整模型,最終影響了預(yù)測(cè)效果。針對(duì)這一問(wèn)題,融合強(qiáng)化學(xué)習(xí)范式,提出知識(shí)點(diǎn)表征強(qiáng)化的知識(shí)追蹤模型,主要包括基礎(chǔ)網(wǎng)絡(luò)、價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)三個(gè)部分?;A(chǔ)網(wǎng)絡(luò)建模題目與知識(shí)點(diǎn)表征,價(jià)值網(wǎng)絡(luò)計(jì)算題目?jī)r(jià)值及時(shí)間差分誤差,策略網(wǎng)絡(luò)優(yōu)化預(yù)測(cè)結(jié)果。通過(guò)五個(gè)基線模型在三個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)表明,該模型在AUC和ACC上表現(xiàn)優(yōu)異,特別是在ASSISTments2009數(shù)據(jù)集上,AUC提升6.83%~14.34%,ACC提升11.39%~19.74%。進(jìn)一步地,該模型表示質(zhì)量較基線模型提高2.59%,還通過(guò)消融實(shí)驗(yàn)驗(yàn)證了強(qiáng)化學(xué)習(xí)框架的有效性。最后,將所提模型應(yīng)用于三門(mén)真實(shí)課程的學(xué)習(xí)行為數(shù)據(jù)以預(yù)測(cè)學(xué)習(xí)者的表現(xiàn),與基線模型的對(duì)比結(jié)果說(shuō)明了所提模型在實(shí)際場(chǎng)景中的可用性。
關(guān)鍵詞:知識(shí)追蹤;知識(shí)點(diǎn);圖神經(jīng)網(wǎng)絡(luò);強(qiáng)化學(xué)習(xí)
中圖分類(lèi)號(hào):TP183"" 文獻(xiàn)標(biāo)志碼:A"" 文章編號(hào):1001-3695(2025)01-012-0086-07
doi: 10.19734/j.issn.1001-3695.2024.06.0196
Knowledge tracing via reinforcement of concept representation
Abstract: Knowledge tracing models mainly use supervised learning paradigm to model the probability distribution of answers given the question information, which cannot adjust the model immediately based on new question information, ultimately affecting the prediction performance. To address this issue, this paper proposed a knowledge tracing model with enhanced knowledge representation by integrating reinforcement learning paradigm, which mainly consisted of three parts: a basic network, a value network, and a policy network. The basic network modeled the representation of questions and knowledge points, the value network calculated the value of questions and the temporal difference error, and the policy network optimized the prediction results. Experiments conducted with five baseline models on three datasets demonstrate that the proposed model excels in terms of AUC and ACC, especially on the ASSISTments2009 dataset, where AUC is improved by 6.83%~14.34% and ACC by 11.39%~19.74%. Furthermore, the quality of model representation is improved by 2.59% compared to baseline mo-dels, and ablation experiments confirm the effectiveness of the reinforcement learning framework. Finally, applying the proposed model to learning behavior data from three real courses shows its practical usability, as evidenced by its performance compared to baseline models.
Key words:knowledge tracing; knowledge point; graph neural network; reinforcement learning
0 引言
知識(shí)追蹤模型一般作為智能導(dǎo)學(xué)系統(tǒng)或教育大模型的組成部分,根據(jù)給出的擬作答的題目,建模給定題目信息條件下學(xué)習(xí)者作答結(jié)果的條件概率分布,從分布中采樣來(lái)預(yù)測(cè)學(xué)習(xí)者的未來(lái)表現(xiàn)。智能導(dǎo)學(xué)主要向?qū)W習(xí)者提供題目,并收集學(xué)習(xí)者的實(shí)時(shí)交互數(shù)據(jù)。知識(shí)追蹤主要利用上述交互數(shù)據(jù)建模學(xué)習(xí)者的知識(shí)狀態(tài),并向智能導(dǎo)學(xué)反饋學(xué)習(xí)者未來(lái)的學(xué)習(xí)表現(xiàn)。 這種緊密的互動(dòng)機(jī)制使得智能導(dǎo)學(xué)系統(tǒng)能夠?yàn)橹R(shí)追蹤模型提供持續(xù)更新的訓(xùn)練數(shù)據(jù),而知識(shí)追蹤模型的預(yù)測(cè)結(jié)果又可以反過(guò)來(lái)為智能導(dǎo)學(xué)系統(tǒng)的決策提供支持,例如個(gè)性化教學(xué)資源的生成,從而顯著提升教學(xué)效果。
在深度應(yīng)用的智慧學(xué)習(xí)環(huán)境中,如國(guó)家智慧教育公共服務(wù)平臺(tái)、學(xué)堂在線、edX、Coursera等,以及在備受關(guān)注的教育大模型中,如EmoGPT、MathGPT、Khanmigo等,知識(shí)追蹤模型均承擔(dān)判斷學(xué)習(xí)者知識(shí)狀態(tài)、預(yù)測(cè)學(xué)習(xí)者未來(lái)表現(xiàn)的作用,并為下游任務(wù),如個(gè)性化教學(xué)資源生成和推薦等功能,提供有效的支撐和依據(jù)[1~6]。
當(dāng)前的知識(shí)追蹤研究發(fā)展勢(shì)頭總體較好,但仍然存在若干問(wèn)題與挑戰(zhàn)。其中,當(dāng)前研究普遍利用監(jiān)督學(xué)習(xí)范式訓(xùn)練知識(shí)追蹤模型。嚴(yán)格來(lái)說(shuō),該范式得到的條件概率分布來(lái)源于訓(xùn)練數(shù)據(jù)中的題目信息,忽視了訓(xùn)練數(shù)據(jù)之外,知識(shí)追蹤模型與智能導(dǎo)學(xué)系統(tǒng)或教育大模型實(shí)時(shí)交互期間的題目信息的動(dòng)態(tài)變化。而知識(shí)追蹤模型使用訓(xùn)練數(shù)據(jù)范圍內(nèi)建模的概率分布,預(yù)測(cè)實(shí)時(shí)交互期間的學(xué)習(xí)者未來(lái)表現(xiàn),由于題目數(shù)據(jù)無(wú)法保證滿(mǎn)足獨(dú)立同分布假設(shè),所以這種預(yù)測(cè)的效果受到了較大的制約。
針對(duì)上述問(wèn)題,本文提出了一個(gè)知識(shí)點(diǎn)表征強(qiáng)化的知識(shí)追蹤模型(knowledge tracing via reinforcement of concept representation, KT-RCR),將強(qiáng)化學(xué)習(xí)范式引入知識(shí)追蹤,將智能導(dǎo)學(xué)作為強(qiáng)化學(xué)習(xí)中的環(huán)境,將智能導(dǎo)學(xué)提供的題目作為環(huán)境的狀態(tài),將知識(shí)追蹤作為強(qiáng)化學(xué)習(xí)中的智能體,將知識(shí)追蹤的預(yù)測(cè)結(jié)果與學(xué)習(xí)者實(shí)際表現(xiàn)的一致性作為獎(jiǎng)勵(lì)。建模知識(shí)追蹤模型與智能導(dǎo)學(xué)系統(tǒng)的實(shí)時(shí)交互,根據(jù)智能導(dǎo)學(xué)系統(tǒng)給出的每一時(shí)間步的獎(jiǎng)勵(lì),完成對(duì)給定題目信息條件下作答結(jié)果概率分布的動(dòng)態(tài)建模,優(yōu)化各個(gè)時(shí)間步的預(yù)測(cè)結(jié)果。通過(guò)引入強(qiáng)化學(xué)習(xí),KT-RCR模型能夠根據(jù)智能導(dǎo)學(xué)系統(tǒng)在每個(gè)時(shí)間步的獎(jiǎng)勵(lì),動(dòng)態(tài)調(diào)整和優(yōu)化知識(shí)狀態(tài)表示,從而更好地應(yīng)對(duì)題目數(shù)據(jù)的動(dòng)態(tài)變化和非獨(dú)立同分布問(wèn)題,提高知識(shí)追蹤的預(yù)測(cè)準(zhǔn)確性。
本文主要的創(chuàng)新有:
a)利用強(qiáng)化學(xué)習(xí)框架,建模知識(shí)追蹤模型與智能導(dǎo)學(xué)系統(tǒng)的交互過(guò)程,根據(jù)智能導(dǎo)學(xué)系統(tǒng)在每個(gè)時(shí)間步的獎(jiǎng)勵(lì),優(yōu)化知識(shí)追蹤模型,提高知識(shí)追蹤的預(yù)測(cè)準(zhǔn)確性;
b)搭建適配強(qiáng)化學(xué)習(xí)范式的智能導(dǎo)學(xué)系統(tǒng),通過(guò)對(duì)比實(shí)驗(yàn)驗(yàn)證強(qiáng)化學(xué)習(xí)在知識(shí)追蹤模型中的有效性和魯棒性。通過(guò)將模型應(yīng)用于實(shí)際教學(xué)環(huán)境預(yù)測(cè)學(xué)習(xí)者的表現(xiàn),進(jìn)一步展示了提出模型的可用性。
1 相關(guān)工作
知識(shí)追蹤模型建模了給定題目信息條件下學(xué)習(xí)者作答結(jié)果的條件概率分布。具體地,根據(jù)所用的模型,當(dāng)前的研究可分為使用循環(huán)網(wǎng)絡(luò)、使用注意力機(jī)制和使用圖神經(jīng)網(wǎng)絡(luò)三類(lèi)。
1.1 使用循環(huán)網(wǎng)絡(luò)建模作答結(jié)果的條件概率
這類(lèi)研究一般首先對(duì)題目進(jìn)行表示,再將上述表示按時(shí)間順序先后輸入循環(huán)網(wǎng)絡(luò),將歷史信息融入當(dāng)前時(shí)刻的題目表示,建模給定當(dāng)前時(shí)刻題目信息的條件下作答結(jié)果的條件概率分布,最終采樣得到學(xué)習(xí)者的未來(lái)表現(xiàn)預(yù)測(cè)。這類(lèi)研究的主要特點(diǎn)在于利用知識(shí)點(diǎn)、學(xué)習(xí)行為等不同信息增強(qiáng)對(duì)題目的表征。
這方面的具體工作主要包括,DKT模型[7]是使用深度模型建模知識(shí)追蹤的開(kāi)創(chuàng)性工作,基于循環(huán)網(wǎng)絡(luò)架構(gòu)將歷史題目信息融入當(dāng)前題目表征,未加入其他信息。DKVMN[8]建立鍵值矩陣存儲(chǔ)全局知識(shí)點(diǎn)及其狀態(tài),將題目映射為全局知識(shí)點(diǎn)狀態(tài)的權(quán)重表示,從而建模作答結(jié)果的條件概率。KTSA-BiGRU[9] 和DKP[10]通過(guò)雙向循環(huán)網(wǎng)絡(luò)捕獲歷史答題序列特征,增強(qiáng)當(dāng)前題目的表征。DKTDM[11]使用若干學(xué)習(xí)行為的特征增強(qiáng)題目表征。KTCR[12]使用Q矩陣將題目映射為知識(shí)點(diǎn),再將正確率等上下文信息融入知識(shí)點(diǎn)的表示,實(shí)現(xiàn)對(duì)題目信息的增強(qiáng)。EKT[13]提取題目的語(yǔ)義特征,與知識(shí)點(diǎn)表征矩陣,更加充分地表示題目中包含的知識(shí)點(diǎn)。LFKT[14]使用注意力機(jī)制建模題目中的知識(shí)點(diǎn)表示,又加入了遺忘機(jī)制作用各個(gè)知識(shí)點(diǎn),增強(qiáng)題目的表征。KTR[15]使用可靠性增強(qiáng)題目的表示。FKA-DKT[16]建模能力向量與知識(shí)向量融合,增強(qiáng)題目表征。這類(lèi)研究在增強(qiáng)題目表征的基礎(chǔ)上,利用循環(huán)網(wǎng)絡(luò),使用歷史信息增強(qiáng)當(dāng)前信息,從而預(yù)測(cè)給定題目信息條件下學(xué)習(xí)者作答結(jié)果的條件概率分布。
1.2 使用注意力機(jī)制建模作答結(jié)果的條件概率
這類(lèi)研究一般首先建立題目與知識(shí)點(diǎn)的關(guān)系,利用知識(shí)點(diǎn)來(lái)表示題目,再對(duì)全局知識(shí)點(diǎn)施加注意力機(jī)制,將全局知識(shí)點(diǎn)信息根據(jù)權(quán)重系數(shù)融入當(dāng)前時(shí)刻的題目表示,建模給定當(dāng)前時(shí)刻題目信息的條件下作答結(jié)果的條件概率分布,最終采樣得到學(xué)習(xí)者的未來(lái)表現(xiàn)預(yù)測(cè)。
這方面的具體工作主要包括,SAKT[17]首次將自注意力機(jī)制引入解決題目數(shù)據(jù)稀疏的問(wèn)題。TCKT[18]使用因果注意力機(jī)制增強(qiáng)表示目標(biāo)知識(shí)點(diǎn),以獲取知識(shí)點(diǎn)的一致性表示,表示當(dāng)前題目。RFKT[19]使用相關(guān)性表示知識(shí)點(diǎn),使用注意力機(jī)制建模知識(shí)點(diǎn)的演化過(guò)程,來(lái)對(duì)題目進(jìn)行增強(qiáng)表征。MCAKT[20]使用Transformer架構(gòu)建模目標(biāo)知識(shí)點(diǎn),其中的多頭注意力和位置編碼減少了歷史知識(shí)點(diǎn)對(duì)目標(biāo)知識(shí)點(diǎn)建模表示的長(zhǎng)期依賴(lài)問(wèn)題,更加精確地表示題目。SAINT[21]使用Transformer架構(gòu)將題目與作答結(jié)果分別作為編碼器和解碼器的輸入,能夠捕獲復(fù)雜的題目與作答結(jié)果的關(guān)系。這類(lèi)研究利用注意力機(jī)制,使用加權(quán)的全局信息增強(qiáng)表示當(dāng)前題目,從而預(yù)測(cè)給定當(dāng)前題目信息條件下學(xué)習(xí)者作答結(jié)果的條件概率分布。
1.3 使用圖神經(jīng)網(wǎng)絡(luò)建模作答結(jié)果的條件概率
這類(lèi)研究的主要特點(diǎn)在于將題目分解為若干知識(shí)點(diǎn),通過(guò)圖神經(jīng)網(wǎng)絡(luò)對(duì)知識(shí)點(diǎn)的更新來(lái)增強(qiáng)題目的表征,最終獲取給定題目信息條件下作答結(jié)果的條件概率。
QFEKT[22]將題目信息映射為若干知識(shí)點(diǎn),通過(guò)圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)結(jié)合對(duì)比學(xué)習(xí)的方式聚合目標(biāo)知識(shí)點(diǎn)的鄰居信息,從而增強(qiáng)題目表示。Bi-CLKT[23]在知識(shí)點(diǎn)級(jí)別和圖級(jí)別分別應(yīng)用GCN,再通過(guò)對(duì)比學(xué)習(xí)來(lái)增強(qiáng)知識(shí)點(diǎn)的表示。DGMN[24]使用矩陣存儲(chǔ)知識(shí)點(diǎn)表示,建立了潛在概念圖表示知識(shí)點(diǎn)之間的關(guān)系,使用圖卷積網(wǎng)絡(luò)捕捉知識(shí)點(diǎn)之間的關(guān)系。GAKT-IRT模型[25]在此基礎(chǔ)上作出了改進(jìn),引入了圖注意力機(jī)制(GAT),在GCN的基礎(chǔ)了引入了注意力機(jī)制,能夠注意到鄰居節(jié)點(diǎn)對(duì)中心節(jié)點(diǎn)的影響程度,并為鄰居節(jié)點(diǎn)分配不同的權(quán)重。SPKT[26]基于GAT網(wǎng)絡(luò),采用多頭注意力機(jī)制聚合異質(zhì)節(jié)點(diǎn)的鄰域信息,并通過(guò)全連接網(wǎng)絡(luò)將異質(zhì)鄰居特征與中心節(jié)點(diǎn)屬性相融合,以此來(lái)表征知識(shí)點(diǎn)。TSKT[27]使用GAT網(wǎng)絡(luò),結(jié)合了時(shí)間信息和空間信息來(lái)表征知識(shí)點(diǎn)。GKT模型[28]使用圖結(jié)構(gòu)表示知識(shí)點(diǎn),并利用神經(jīng)網(wǎng)絡(luò)聚合和更新操作建模知識(shí)點(diǎn)的表示,GIKT[29]、GKT-FM[30]使用了同樣的方法。DKTMR[31]通過(guò)圖生成對(duì)抗網(wǎng)絡(luò)實(shí)現(xiàn)了對(duì)知識(shí)點(diǎn)的多關(guān)系表征。GAKT[32]建立題目與知識(shí)點(diǎn)組成的二分圖,使用GAT更新知識(shí)點(diǎn)的表示。DGEKT[33]利用超圖和有向圖的雙圖結(jié)構(gòu)捕獲題目與知識(shí)點(diǎn)的關(guān)聯(lián)關(guān)系,增強(qiáng)題目與知識(shí)點(diǎn)的表示。這類(lèi)研究利用圖神經(jīng)網(wǎng)絡(luò),使用鄰域信息增強(qiáng)當(dāng)前知識(shí)點(diǎn)的表示,通過(guò)匯聚相關(guān)知識(shí)點(diǎn)得到當(dāng)前題目的增強(qiáng)表示,從而建模作答結(jié)果在當(dāng)前題目條件下的概率分布。
上述研究從多種角度建模給定題目條件下的作答結(jié)果概率分布,取得了較好的結(jié)果。然而它們受限于監(jiān)督學(xué)習(xí)范式,訓(xùn)練得到的條件概率已固定,無(wú)法根據(jù)實(shí)時(shí)交互進(jìn)行自適應(yīng)調(diào)整。為了解決這一問(wèn)題,提出模型利用強(qiáng)化學(xué)習(xí)框架,增強(qiáng)建模的條件概率分布的自適應(yīng)性。
2 知識(shí)點(diǎn)表征強(qiáng)化的知識(shí)追蹤模型
2.1 模型提出的思想
當(dāng)前研究一般默認(rèn)知識(shí)追蹤模型與智能導(dǎo)學(xué)系統(tǒng)互相交互,智能導(dǎo)學(xué)系統(tǒng)為知識(shí)追蹤模型提供諸如當(dāng)前時(shí)刻練習(xí)題目、歷史練習(xí)題目及作答結(jié)果等各類(lèi)數(shù)據(jù)。 知識(shí)追蹤模型基于這些數(shù)據(jù),使用多種方法增強(qiáng)知識(shí)點(diǎn)的表示,從而建模作答結(jié)果在題目信息約束下的概率分布,已取得了較好的結(jié)果。然而,在與智能導(dǎo)學(xué)系統(tǒng)的交互方面,現(xiàn)存模型在自適應(yīng)題目數(shù)據(jù)分布的動(dòng)態(tài)變化方面仍然存在較大挑戰(zhàn)。具體地,目前的知識(shí)追蹤模型在完成訓(xùn)練后就建模了靜態(tài)的分布,當(dāng)題目信息發(fā)生動(dòng)態(tài)變化時(shí),模型的預(yù)測(cè)效果必然下降。
為了使知識(shí)追蹤模型具備建模動(dòng)態(tài)概率分布的能力,利用強(qiáng)化學(xué)習(xí)范式,假設(shè)智能導(dǎo)學(xué)系統(tǒng)為知識(shí)追蹤模型所在的環(huán)境,智能導(dǎo)學(xué)系統(tǒng)提供的各類(lèi)數(shù)據(jù)為狀態(tài),提出的知識(shí)點(diǎn)表征強(qiáng)化的知識(shí)追蹤模型KT-RCR為智能體, KT-RCR給出的動(dòng)作是預(yù)測(cè)學(xué)習(xí)者會(huì)作答正確還是錯(cuò)誤。智能導(dǎo)學(xué)系統(tǒng)根據(jù)KT-RCR的動(dòng)作對(duì)其進(jìn)行獎(jiǎng)勵(lì),驅(qū)動(dòng)KT-RCR調(diào)整動(dòng)作以預(yù)測(cè)得更加準(zhǔn)確,得到更大的獎(jiǎng)勵(lì)。
2.2 問(wèn)題的提出
智能導(dǎo)學(xué)系統(tǒng)為知識(shí)追蹤模型提供學(xué)習(xí)者練習(xí)的題目,具體定義如下:
智能導(dǎo)學(xué)系統(tǒng)根據(jù)KT-RCR的預(yù)測(cè)結(jié)果與學(xué)習(xí)者實(shí)際答題結(jié)果的一致性給出獎(jiǎng)勵(lì),兩者相同時(shí)獎(jiǎng)勵(lì)值為1,兩者不同時(shí)獎(jiǎng)勵(lì)值為0。具體地,t時(shí)刻的獎(jiǎng)勵(lì)值記為Rt,如下:
其中:yt是t時(shí)刻真實(shí)的學(xué)習(xí)者作答結(jié)果,yt∈{0,1},0表示學(xué)習(xí)者作答錯(cuò)誤,1表示學(xué)習(xí)者作答正確。設(shè)置折扣系數(shù)γ∈[0,1]。在折扣系數(shù)γ作用下,從當(dāng)前時(shí)刻開(kāi)始,未來(lái)折扣獎(jiǎng)勵(lì)之和,記為折扣回報(bào)Gt,如下:
其中:Gt表示從t時(shí)刻開(kāi)始的未來(lái)折扣獎(jiǎng)勵(lì)之和。
策略網(wǎng)絡(luò)記為π(a|s;θ),在已知當(dāng)前狀態(tài)st條件下,根據(jù)時(shí)間差分誤差δt,優(yōu)化知識(shí)追蹤模型的動(dòng)作輸出,使得預(yù)測(cè)的學(xué)習(xí)者動(dòng)作趨向環(huán)境給出的獎(jiǎng)勵(lì)最大值。
本文模型的目標(biāo)是,策略網(wǎng)絡(luò)基于狀態(tài)st作出動(dòng)作,即預(yù)測(cè)學(xué)習(xí)者會(huì)作答正確或錯(cuò)誤;得到智能導(dǎo)學(xué)系統(tǒng)的獎(jiǎng)勵(lì)Rt和下一時(shí)刻的狀態(tài)st+1;根據(jù)價(jià)值網(wǎng)絡(luò)計(jì)算出TD誤差δt;策略網(wǎng)絡(luò)根據(jù)TD誤差判斷動(dòng)作的優(yōu)劣并優(yōu)化參數(shù)改進(jìn)自身,使預(yù)測(cè)的學(xué)習(xí)者作答表現(xiàn)與真實(shí)的學(xué)習(xí)者表現(xiàn)一致性更好,即下一時(shí)刻預(yù)測(cè)的學(xué)習(xí)者作答表現(xiàn)得到的獎(jiǎng)勵(lì)更大,如下:
θt+1=θt-β×δt×Δθlnπ(at|st;θt)(4)
其中:β為策略網(wǎng)絡(luò)的學(xué)習(xí)率;π(at|st;θt)也可視為知識(shí)追蹤模型建模給出當(dāng)前題目條件下學(xué)習(xí)者作答結(jié)果的概率分布;θt、θt+1則表示相鄰時(shí)間步上述分布的動(dòng)態(tài)變化。這也是提出的模型自適應(yīng)建模條件概率分布動(dòng)態(tài)變化的過(guò)程。
2.3 模型架構(gòu)
模型框架如圖1所示。
提出的模型主要包括三個(gè)網(wǎng)絡(luò),協(xié)同完成與智能導(dǎo)學(xué)系統(tǒng)的交互:a)基礎(chǔ)網(wǎng)絡(luò),由策略網(wǎng)絡(luò)與價(jià)值網(wǎng)絡(luò)共享,該網(wǎng)絡(luò)在建立學(xué)習(xí)者知識(shí)點(diǎn)表示圖的基礎(chǔ)上,接收智能導(dǎo)學(xué)系統(tǒng)給出的狀態(tài)信息st=qt,建模狀態(tài)對(duì)知識(shí)點(diǎn)表示圖的作用和影響,在知識(shí)點(diǎn)表示圖上經(jīng)過(guò)信息傳遞、信息聚合、迭代傳播和圖嵌入等步驟,得到學(xué)習(xí)者的知識(shí)表示嵌入向量;b)價(jià)值網(wǎng)絡(luò),以知識(shí)點(diǎn)表示圖的嵌入向量和環(huán)境給出的當(dāng)前獎(jiǎng)勵(lì)Rt為輸入,使該網(wǎng)絡(luò)獲得的狀態(tài)值逐步收斂于環(huán)境給出的獎(jiǎng)勵(lì),并向策略網(wǎng)絡(luò)輸出狀態(tài)價(jià)值的TD誤差;c)策略網(wǎng)絡(luò),以知識(shí)表示圖的嵌入向量和當(dāng)前狀態(tài)價(jià)值的TD誤差為輸入,經(jīng)過(guò)全連接和softmax激活函數(shù),輸出知識(shí)追蹤模型的動(dòng)作概率。
2.4 基礎(chǔ)網(wǎng)絡(luò)
2.4.1 知識(shí)點(diǎn)表示圖
2.4.2 知識(shí)點(diǎn)表示圖的嵌入
a)題目增強(qiáng)。學(xué)習(xí)者練習(xí)題目qt的過(guò)程中,其知識(shí)點(diǎn)表示圖會(huì)受到題目的作用發(fā)生演化。使用注意力機(jī)制建模上述過(guò)程,具體如下:
其中:Euclid Math OneNApz是目標(biāo)知識(shí)點(diǎn)z的鄰居知識(shí)點(diǎn)集合;h(l)z′是知識(shí)點(diǎn)z′在第l層的表示;h(l)z是目標(biāo)知識(shí)點(diǎn)z在第l層的表示;MSG(·,·)是信息傳遞函數(shù),這里可以選擇MLP等。
c)信息聚合。目標(biāo)知識(shí)點(diǎn)z聚合表示如下:
h(l+1)z=AGG(h(l)z,m(l+1)z)(8)
其中:m(l+1)z是目標(biāo)知識(shí)點(diǎn)z的鄰居傳遞來(lái)的信息;h(l)z是目標(biāo)知識(shí)點(diǎn)z本身的表示;h(l+1)z是知識(shí)點(diǎn)z在l+1層的表示;AGG(·,·)可以選擇均值、求和等函數(shù)。
d)迭代傳播。L輪迭代傳播后,最終目標(biāo)知識(shí)點(diǎn)z的表示經(jīng)過(guò)一個(gè)池化函數(shù)R0得到蘊(yùn)涵子圖的表示:
hz=R0({h(L)z|z∈C})(9)
其中:h(L)z為目標(biāo)知識(shí)點(diǎn)z在最終層的表示;R0是readout函數(shù),可以選擇均值、求和等函數(shù)。
e)圖嵌入。經(jīng)過(guò)一個(gè)讀出函數(shù)匯聚全體知識(shí)點(diǎn)表示,如下:
2.5 價(jià)值網(wǎng)絡(luò)
其中:MLP1(·)代表全連接層。
2.6 策略網(wǎng)絡(luò)
2.7 模型訓(xùn)練算法
算法1 KT-RCR模型訓(xùn)練算法
3 實(shí)驗(yàn)結(jié)果與分析
為了全面評(píng)估KT-RCR的表現(xiàn),選取DKT[7]、DKVMN[8]、SAINT[21]、GKT[28]和DKTMR[31]五個(gè)基線模型,在三個(gè)真實(shí)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。本章首先介紹實(shí)驗(yàn)步驟,隨后將KT-RCR與基線模型在AUC和ACC等評(píng)價(jià)指標(biāo)上進(jìn)行對(duì)比。此外,本文還進(jìn)行了表示質(zhì)量、消融等實(shí)驗(yàn),最后展示了提出的模型在真實(shí)教學(xué)環(huán)境中的應(yīng)用效果。
3.1 實(shí)驗(yàn)步驟
a)基礎(chǔ)網(wǎng)絡(luò)嵌入知識(shí)點(diǎn)表示圖。根據(jù)智能導(dǎo)學(xué)系統(tǒng)當(dāng)前的狀態(tài)st=qt,對(duì)知識(shí)點(diǎn)表示圖進(jìn)行增強(qiáng)表示,經(jīng)過(guò)信息的傳遞、聚合、傳播、嵌入得到知識(shí)點(diǎn)表示圖的向量表示。具體實(shí)驗(yàn)過(guò)程參見(jiàn)2.4節(jié)。
d)迭代循環(huán)。將st+1=qt+1輸入步驟a)的基礎(chǔ)網(wǎng)絡(luò)開(kāi)始下一輪強(qiáng)化學(xué)習(xí)過(guò)程。
3.2 數(shù)據(jù)集
為了評(píng)估KT-RCR的效果,選取了三個(gè)在知識(shí)追蹤領(lǐng)域中廣泛使用的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),數(shù)據(jù)集的基本信息如下:
a)ASSISTments2009 (ASSIST09)[34]。該數(shù)據(jù)集是在線教育平臺(tái)ASSISTments于2009年到2010年期間收集的。最初因其存在重復(fù)數(shù)據(jù)項(xiàng)的問(wèn)題,在進(jìn)行了若干清理工作后發(fā)布了更新版本,本實(shí)驗(yàn)使用更新版數(shù)據(jù)集。
b)Junyi Academy (Junyi)[35]。該數(shù)據(jù)集是2015年Junyi Academy的學(xué)習(xí)行為交互日志,包含了25萬(wàn)名學(xué)習(xí)者的超過(guò)2 500萬(wàn)交互記錄。
c)EdNet (EdNet)[36]。該數(shù)據(jù)集是Santa人工智能輔導(dǎo)服務(wù)收集的大型學(xué)生行為數(shù)據(jù)集,包括約78萬(wàn)名以上的學(xué)習(xí)者,1.3億次以上的學(xué)習(xí)交互數(shù)據(jù),是迄今為止面向公眾發(fā)布的最大的學(xué)習(xí)行為數(shù)據(jù)集。
3.3 基線模型
本文選取了五個(gè)基線模型與KT-RCR進(jìn)行比較,其基本信息及選擇原因如下:
a)DKT[7]。該模型是深度模型在知識(shí)追蹤領(lǐng)域的首次應(yīng)用,它使用只包含一個(gè)知識(shí)點(diǎn)的題目作為輸入,利用循環(huán)神經(jīng)網(wǎng)絡(luò)得到題目的表示向量。該向量蘊(yùn)涵了歷史所有題目的信息,但受限于循環(huán)神經(jīng)網(wǎng)絡(luò)建模長(zhǎng)期依賴(lài)不足的問(wèn)題,題目的表示向量實(shí)際僅蘊(yùn)涵了歷史題目中較為接近的若干題目的信息。
b)DKVMN[8]。該模型通過(guò)鍵值存儲(chǔ)機(jī)制,在知識(shí)點(diǎn)的全局范圍內(nèi)更新學(xué)習(xí)者的知識(shí)點(diǎn)表示,目標(biāo)知識(shí)點(diǎn)可以融入全局所有知識(shí)點(diǎn)的信息。
c)SAINT[21]。使用Transformer架構(gòu),將題目信息作為編碼器的輸入,將作答結(jié)果作為解碼器的輸出,能夠更好地建模題目與作答結(jié)果的關(guān)系。
d)GKT[28]。該模型使用圖神經(jīng)網(wǎng)絡(luò)建模知識(shí)點(diǎn)之間的結(jié)構(gòu)關(guān)系,經(jīng)過(guò)聚合更新等操作迭代表示目標(biāo)知識(shí)點(diǎn)。
e)DKTMR[31]。該模型在GKT基礎(chǔ)上更進(jìn)一步,建模知識(shí)點(diǎn)之間的多種關(guān)系及其各自對(duì)應(yīng)的知識(shí)點(diǎn)關(guān)系圖,融合多個(gè)知識(shí)點(diǎn)關(guān)系圖得到目標(biāo)知識(shí)點(diǎn)的表示。
上述模型中,DKT、DKVMN是使用循環(huán)網(wǎng)絡(luò)的代表性工作,SAINT是使用注意力機(jī)制的代表性工作,GKT和DKTMR是使用圖神經(jīng)網(wǎng)絡(luò)的代表性工作。
3.4 性能對(duì)比實(shí)驗(yàn)
為了驗(yàn)證KT-RCR的有效性,與DKT、DKVMN、SAINT、GKT、DKTMR進(jìn)行AUC和ACC的值對(duì)比。其中,AUC指標(biāo)通過(guò)計(jì)算ROC(receiver operating characteristic)曲線下面的面積來(lái)評(píng)估模型的性能。它代表了模型在預(yù)測(cè)過(guò)程中,將真實(shí)答對(duì)(預(yù)測(cè)答對(duì)且實(shí)際答對(duì))的樣本排在虛假答對(duì)(預(yù)測(cè)答對(duì)但實(shí)際答錯(cuò))樣本之前的概率。AUC的取值在[0.5, 1],其中0.5表示隨機(jī)猜測(cè)的性能,而1表示預(yù)測(cè)正確。AUC值越大,說(shuō)明模型的預(yù)測(cè)性能越好,反之則預(yù)測(cè)性能越差。ACC指標(biāo)用于衡量模型預(yù)測(cè)正確的樣本占比。它計(jì)算的是模型預(yù)測(cè)正確的樣本數(shù)(包括預(yù)測(cè)答對(duì)、實(shí)際答對(duì)與預(yù)測(cè)答錯(cuò)、實(shí)際答錯(cuò)的樣本數(shù)之和)占總樣本數(shù)的比值。準(zhǔn)確率的值域在[0, 1],其中0表示所有預(yù)測(cè)都錯(cuò)誤,而1表示所有預(yù)測(cè)都正確。ACC的值越大,說(shuō)明模型預(yù)測(cè)正確的概率越高,性能越好。通過(guò)這兩個(gè)評(píng)價(jià)指標(biāo)的綜合考量,本文能夠全面評(píng)估KT-RCR在預(yù)測(cè)任務(wù)上的性能,并與基線模型進(jìn)行對(duì)比分析,從而驗(yàn)證KT-RCR的有效性。
圖2是KT-RCR與五個(gè)基線模型在三個(gè)真實(shí)數(shù)據(jù)集上的AUC結(jié)果對(duì)比。其中,橫坐標(biāo)為實(shí)驗(yàn)選用的數(shù)據(jù)集,縱坐標(biāo)為對(duì)應(yīng)的AUC的取值。
圖3是在三個(gè)數(shù)據(jù)集上,KT-RCR與五個(gè)基線模型預(yù)測(cè)結(jié)果的ACC指標(biāo)對(duì)比。其中,橫坐標(biāo)為實(shí)驗(yàn)選用的數(shù)據(jù)集,縱坐標(biāo)為對(duì)應(yīng)的ACC的取值。
根據(jù)圖2展示的AUC實(shí)驗(yàn)結(jié)果,可以觀察到KT-RCR在三個(gè)數(shù)據(jù)集上的AUC均表現(xiàn)出優(yōu)勢(shì)。與第二名DKTMR相比,KT-RCR在三個(gè)數(shù)據(jù)集中分別提高了6.8%、0.9%和0.6%。類(lèi)似地,圖3也展示出KT-RCR較好的ACC表現(xiàn),相較于第二名DKTMR,在三個(gè)數(shù)據(jù)集中分別提高了11.3%、2.3%和3.8%。
這一結(jié)果的可能原因分析如下:DKTMR在計(jì)算知識(shí)點(diǎn)表示時(shí),通過(guò)多種類(lèi)型的知識(shí)點(diǎn)關(guān)系從各個(gè)角度匯聚了更加充分的鄰域表示,在一定程度上使目標(biāo)知識(shí)點(diǎn)的表示更為充分,而GKT僅建模了知識(shí)點(diǎn)之間的單一關(guān)系,所以在表現(xiàn)上稍遜一籌。DKT、DKVMN、SAINT從全局范圍內(nèi)匯聚信息,表面上看似乎可以聚合更多信息,然而由于長(zhǎng)尾效應(yīng),絕大部分知識(shí)點(diǎn)與目標(biāo)知識(shí)點(diǎn)之間的相似度不高,聚合它們的信息會(huì)對(duì)目標(biāo)知識(shí)點(diǎn)的表示形成干擾?;谏鲜鼍酆先趾袜徲蚍秶难芯?,本文KT-RCR更進(jìn)一步,使用強(qiáng)化學(xué)習(xí)范式,使得提出的模型可以動(dòng)態(tài)建模題目數(shù)據(jù)分布的變化,得到更好的預(yù)測(cè)結(jié)果,證實(shí)了提出模型的有效性。
3.5 表示質(zhì)量對(duì)比實(shí)驗(yàn)
知識(shí)點(diǎn)表示圖的嵌入向量蘊(yùn)涵了學(xué)習(xí)者的知識(shí)狀態(tài),該向量對(duì)學(xué)習(xí)者知識(shí)狀態(tài)表示的質(zhì)量高低可以使用其與實(shí)際作答題目情況之間的一致性(degree of agreement, DOA)來(lái)衡量,其定義如下:
從表1可以看出, KT-RCR在三個(gè)數(shù)據(jù)集上的表示質(zhì)量均取得了較好值,這表明了KT-RCR使用強(qiáng)化學(xué)習(xí)范式動(dòng)態(tài)建模的學(xué)習(xí)者知識(shí)點(diǎn)表示圖向量能夠更真實(shí)和準(zhǔn)確地反映學(xué)習(xí)者的知識(shí)掌握情況;其次,DKTMR的表現(xiàn)僅次于KT-RCR,分析原因可能是DKTMR在表示目標(biāo)知識(shí)點(diǎn)時(shí)建模了知識(shí)點(diǎn)之間的多種關(guān)系,對(duì)目標(biāo)知識(shí)點(diǎn)的表示更加充分。
3.6 消融實(shí)驗(yàn)
本研究假設(shè)為:使用強(qiáng)化學(xué)習(xí)范式能夠動(dòng)態(tài)建模題目數(shù)據(jù)的分布,提升知識(shí)追蹤模型預(yù)測(cè)性能。為了驗(yàn)證該假設(shè)的準(zhǔn)確性,以數(shù)據(jù)集ASSIST09為例,設(shè)計(jì)了消融實(shí)驗(yàn),對(duì)比是否使用強(qiáng)化學(xué)習(xí)框架對(duì)知識(shí)追蹤模型預(yù)測(cè)結(jié)果的影響。首先,在提出模型中刪除智能導(dǎo)學(xué)系統(tǒng)作為環(huán)境的反饋模塊和價(jià)值網(wǎng)絡(luò),只使用基礎(chǔ)網(wǎng)絡(luò)和策略網(wǎng)絡(luò),使用監(jiān)督學(xué)習(xí)范式訓(xùn)練上述基礎(chǔ)和策略?xún)蓚€(gè)網(wǎng)絡(luò),把該模型記為KT-CR。與提出的強(qiáng)化學(xué)習(xí)框架下的KT-RCR作對(duì)比,以AUC、ACC和DOA為評(píng)價(jià)指標(biāo),在數(shù)據(jù)集ASSIST09上進(jìn)行相關(guān)實(shí)驗(yàn),結(jié)果如表2所示。
從表2可以看出,在ASSIST09數(shù)據(jù)集中,KT-RCR的AUC、ACC和DOA均取得了最好的結(jié)果,并且未使用強(qiáng)化學(xué)習(xí)的KT-CR性能數(shù)據(jù)下降幅度較大,其中AUC和ACC數(shù)據(jù)與GKT相當(dāng)。分析其原因可能是:KT-CR對(duì)目標(biāo)知識(shí)點(diǎn)的表征方法與GKT區(qū)別不大,都是經(jīng)過(guò)若干圖神經(jīng)網(wǎng)絡(luò)的缺省操作獲取更新目標(biāo)知識(shí)點(diǎn)。另一方面,KT-RCR是對(duì)KT-CR增強(qiáng)了強(qiáng)化學(xué)習(xí)范式的模型,其性能就得到了較大幅度的提升,也可以說(shuō)明強(qiáng)化學(xué)習(xí)框架對(duì)知識(shí)追蹤模型提高預(yù)測(cè)性能的有效性。
3.7 模型的應(yīng)用
為了驗(yàn)證提出模型在實(shí)際教學(xué)場(chǎng)景中的有效性,將其整合融入到本文第一作者指導(dǎo)研究生團(tuán)隊(duì)開(kāi)發(fā)的學(xué)習(xí)數(shù)據(jù)與認(rèn)知模型雙驅(qū)的跨模態(tài)多尺度自適應(yīng)智能導(dǎo)學(xué)環(huán)境(CMA-ITE)(圖4)。該環(huán)境集成了包括本文選擇的基線模型在內(nèi)的多個(gè)知識(shí)追蹤代表模型。通過(guò)與KT-RCR的對(duì)比,能夠全面評(píng)估該模型在引入強(qiáng)化學(xué)習(xí)框架方面的優(yōu)勢(shì)。
具體完成本次實(shí)驗(yàn)的數(shù)據(jù)包括2022—2023學(xué)年第二學(xué)期本文第一作者講授的《人工智能》課程中76名學(xué)生的學(xué)習(xí)行為數(shù)據(jù)、《機(jī)器學(xué)習(xí)》課程中63名學(xué)生的學(xué)習(xí)行為數(shù)據(jù),以及2023—2024第二學(xué)期講授的《人工智能》課程中76名學(xué)生的學(xué)習(xí)行為數(shù)據(jù),對(duì)隱私信息進(jìn)行脫敏處理,保存若干次作業(yè)的答題記錄。具體實(shí)驗(yàn)步驟參見(jiàn)3.1節(jié),再將數(shù)據(jù)的80%用作訓(xùn)練集,20%用作測(cè)試集,計(jì)算五個(gè)基線模型和提出模型的平均預(yù)測(cè)準(zhǔn)確率,結(jié)果如表3所示。
從表3可以看出,整體的實(shí)際應(yīng)用結(jié)果大致可分為兩類(lèi),GKT、DKTMR、KT-RCR使用鄰域知識(shí)點(diǎn)建模目標(biāo)知識(shí)點(diǎn)作用的模型,總體上表現(xiàn)優(yōu)于DKT、DKVMN、SAINT這一類(lèi)使用全局知識(shí)點(diǎn)建模目標(biāo)知識(shí)點(diǎn)表征的模型,其ACC值最少提高了4.6%。進(jìn)一步地,相較于只使用圖神經(jīng)網(wǎng)絡(luò)建模知識(shí)點(diǎn)關(guān)系的模型,KT-RCR使用強(qiáng)化學(xué)習(xí)范式,更加準(zhǔn)確地刻畫(huà)了題目數(shù)據(jù)的動(dòng)態(tài)分布,得到了更好的預(yù)測(cè)結(jié)果。實(shí)驗(yàn)結(jié)果表明,提出模型ACC值比GKT和DKTMR分別提高了5.9%和2.6%。上述實(shí)際環(huán)境中的對(duì)比結(jié)果能夠證明KT-RCR對(duì)實(shí)際學(xué)習(xí)情況的建模更加準(zhǔn)確,通過(guò)實(shí)際學(xué)習(xí)環(huán)境驗(yàn)證了該模型的有效性。
綜上所述,通過(guò)在CMA-ITE中的應(yīng)用,KT-RCR不僅提升了對(duì)學(xué)習(xí)者學(xué)習(xí)表現(xiàn)預(yù)測(cè)的準(zhǔn)確性,還展示了其在實(shí)際教學(xué)環(huán)境中的有效性。這一成果將強(qiáng)化學(xué)習(xí)范式引入知識(shí)追蹤領(lǐng)域,也為智能導(dǎo)學(xué)系統(tǒng)的開(kāi)發(fā)提供了新的思路。
3.8 KT-RCR與智能導(dǎo)學(xué)系統(tǒng)交互過(guò)程
為了驗(yàn)證KT-RCR在與CMA-ITE交互過(guò)程中的效果,隨機(jī)記錄了KT-RCR與CMA-ITE交互時(shí)連續(xù)10個(gè)時(shí)間步的學(xué)習(xí)數(shù)據(jù)。在每個(gè)時(shí)間步上,記錄以下信息:基礎(chǔ)網(wǎng)絡(luò)輸出、價(jià)值網(wǎng)絡(luò)輸出、策略網(wǎng)絡(luò)輸出值、學(xué)習(xí)者作答結(jié)果、獎(jiǎng)勵(lì)。只有當(dāng)策略網(wǎng)絡(luò)輸出值與學(xué)習(xí)者作答結(jié)果輸出值一致時(shí),獲得獎(jiǎng)勵(lì)(Rt=1),否則獲得獎(jiǎng)勵(lì)(Rt=0)。
通過(guò)分析表4,可以看出KT-RCR在交互過(guò)程中對(duì)基礎(chǔ)網(wǎng)絡(luò)輸出的動(dòng)態(tài)調(diào)整,這些輸出值實(shí)際上反映了學(xué)習(xí)者的知識(shí)狀態(tài)。在時(shí)間步1,基礎(chǔ)網(wǎng)絡(luò)輸出為0.85,價(jià)值網(wǎng)絡(luò)輸出為0.13,策略網(wǎng)絡(luò)預(yù)測(cè)學(xué)習(xí)者答題結(jié)果為“錯(cuò)誤”(輸出值為0),實(shí)際結(jié)果也是“錯(cuò)誤”,因此模型獲得了獎(jiǎng)勵(lì)(Rt=1)。進(jìn)入時(shí)間步2,基礎(chǔ)網(wǎng)絡(luò)輸出下降至0.57,價(jià)值網(wǎng)絡(luò)輸出為0.74,策略網(wǎng)絡(luò)預(yù)測(cè)“錯(cuò)誤”(輸出值為0),但實(shí)際結(jié)果為“正確”,因此模型未獲得獎(jiǎng)勵(lì)(Rt=0)。在時(shí)間步3,基礎(chǔ)網(wǎng)絡(luò)輸出提升至0.83,價(jià)值網(wǎng)絡(luò)輸出為0.09,策略網(wǎng)絡(luò)正確預(yù)測(cè)學(xué)習(xí)者答題結(jié)果為“正確”(輸出值為1),實(shí)際結(jié)果也為“正確”,模型獲得獎(jiǎng)勵(lì)(Rt=1)。其他時(shí)間步中,基礎(chǔ)網(wǎng)絡(luò)輸出值有所波動(dòng),策略網(wǎng)絡(luò)對(duì)學(xué)習(xí)者答題結(jié)果的預(yù)測(cè)與實(shí)際結(jié)果大多一致,模型相應(yīng)獲得或未獲得獎(jiǎng)勵(lì)。
這一系列變化表明,KT-RCR會(huì)根據(jù)CMA-ITE提供的獎(jiǎng)勵(lì),對(duì)價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)進(jìn)行不斷調(diào)整,從而作用到學(xué)習(xí)者的知識(shí)狀態(tài)。具體地,CMA-ITE提供的獎(jiǎng)勵(lì)直接影響價(jià)值網(wǎng)絡(luò)的輸出,通過(guò)計(jì)算TD誤差為策略網(wǎng)絡(luò)提供反饋:當(dāng)TD誤差較大時(shí)(如時(shí)間步2的0.74),說(shuō)明預(yù)測(cè)結(jié)果與實(shí)際結(jié)果之間存在較大偏差,此時(shí)策略網(wǎng)絡(luò)會(huì)進(jìn)行對(duì)應(yīng)的調(diào)整;而當(dāng)TD誤差較小時(shí)(如時(shí)間步3的0.09和時(shí)間步10的0.05),說(shuō)明預(yù)測(cè)結(jié)果較為準(zhǔn)確,策略網(wǎng)絡(luò)則進(jìn)行微調(diào)。這表明KT-RCR能夠與CMA-ITE進(jìn)行有效的交互,并根據(jù)CMA-ITE給出的反饋進(jìn)行調(diào)整,從而不斷優(yōu)化模型性能。
4 結(jié)束語(yǔ)
本文利用強(qiáng)化學(xué)習(xí)框架,提出了一個(gè)知識(shí)點(diǎn)表征強(qiáng)化的知識(shí)追蹤模型KT-RCR,能夠根據(jù)智能導(dǎo)學(xué)系統(tǒng)給出的題目,即時(shí)建模作答結(jié)果的動(dòng)態(tài)分布,并將預(yù)測(cè)的學(xué)習(xí)者的未來(lái)表現(xiàn)作為動(dòng)作反饋給智能導(dǎo)學(xué)系統(tǒng),再得到系統(tǒng)給出的獎(jiǎng)勵(lì),從而優(yōu)化下一時(shí)間步的動(dòng)作。KT-RCR包括基礎(chǔ)網(wǎng)絡(luò)、價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)三個(gè)核心網(wǎng)絡(luò)。其中基礎(chǔ)網(wǎng)絡(luò)先將學(xué)習(xí)者的知識(shí)點(diǎn)表示圖與題目融合,在以目標(biāo)知識(shí)點(diǎn)鄰域范圍內(nèi)的知識(shí)點(diǎn)為對(duì)象,更新目標(biāo)知識(shí)點(diǎn)的表示,最終得到知識(shí)點(diǎn)表示圖的嵌入向量;價(jià)值網(wǎng)絡(luò)輸入智能導(dǎo)學(xué)系統(tǒng)給出的題目,以基礎(chǔ)網(wǎng)絡(luò)得到的知識(shí)點(diǎn)表示圖向量為基礎(chǔ),判斷題目的價(jià)值;策略網(wǎng)絡(luò)根據(jù)智能導(dǎo)學(xué)系統(tǒng)給出的題目,與借助價(jià)值網(wǎng)絡(luò)得到的TD誤差,預(yù)測(cè)學(xué)習(xí)者可能的動(dòng)作。在實(shí)驗(yàn)方面,與五個(gè)基線模型在三個(gè)真實(shí)數(shù)據(jù)集上進(jìn)行對(duì)比,結(jié)果表明了KT-RCR的有效性和出色性能。同時(shí)使用消融實(shí)驗(yàn)驗(yàn)證了強(qiáng)化學(xué)習(xí)框架的有效性,還展示了提出模型在實(shí)際教學(xué)數(shù)據(jù)中的優(yōu)越表現(xiàn)。未來(lái)將進(jìn)一步深入研究使用強(qiáng)化學(xué)習(xí)范式在知識(shí)追蹤模型研究方面的優(yōu)勢(shì)。
參考文獻(xiàn):
[1]王宇, 朱夢(mèng)霞, 楊尚輝, 等. 深度知識(shí)追蹤模型綜述和性能比較[J]. 軟件學(xué)報(bào), 2023, 34(3): 1365-1395. (Wang Yu, Zhu Mengxia, Yang Shanghui, et al. Review and performance comparison of deep knowledge tracing models[J]. Journal of Software, 2023, 34(3): 1365-1395.)
[2]劉鐵園, 陳威, 常亮, 等. 基于深度學(xué)習(xí)的知識(shí)追蹤研究進(jìn)展[J]. 計(jì)算機(jī)研究與發(fā)展, 2021, 59(1): 81-104. (Liu Tieyuan, Chen Wei, Chang Liang, et al. Research advances in the knowledge tracing based on deep learning[J]. Journal of Computer Research and Development, 2021, 59(1): 81-104.)
[3]陳之彧, 單志龍. 知識(shí)追蹤研究進(jìn)展[J]. 計(jì)算機(jī)科學(xué), 2022, 49(10): 83-95. (Chen Zhiyu, Shan Zhilong. Research advances in knowledge tracing[J]. Computer Science, 2022, 49(10): 83-95.)
[4]梁琨, 任依夢(mèng), 尚余虎, 等. 深度學(xué)習(xí)驅(qū)動(dòng)的知識(shí)追蹤研究進(jìn)展綜述[J]. 計(jì)算機(jī)工程與應(yīng)用, 2021, 57(21): 41-58. (Liang Kun, Ren Yimeng, Shang Yuhu, et al. Review of knowledge tracing preprocessing based on deep learning[J]. Computer Engineering and Applications, 2021, 57(21): 41-58.)
[5]Abdelrahman G, Wang Qing, Nunes B. Knowledge tracing: a survey[J]. ACM Computing Surveys, 2023, 55(11): 1-37.
[6]Shen Shuanghong, Liu Qi, Huang Zhenya, et al. A survey of know-ledge tracing: models, variants, and applications [J]. IEEE Trans on Learning Technologies, 2024, 17: 1898-1919.
[7]Piech C, Bassen J, Huang J, et al. Deep knowledge tracing[C]// Proc of the 29th Annual Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2015: 505-513.
[8]Zhang Jiani, Shi Xingjian, King I, et al. Dynamic key-value memory networks for knowledge tracing[C]// Proc of the 26th International Conference on World Wide Web. New York: ACM Press, 2017: 765-774.
[9]李浩君, 方璇, 戴海容. 基于自注意力機(jī)制和雙向GRU神經(jīng)網(wǎng)絡(luò)的深度知識(shí)追蹤優(yōu)化模型[J]. 計(jì)算機(jī)應(yīng)用研究, 2022, 39(3): 732-738. (Li Haojun, Fang Xuan, Dai Hairong. Deep know-ledge tracking optimization model based on self-attention mechanism and bidirectional GRU neural network[J]. Application Research of Computers, 2022, 39(3): 732-738.)
[10]王士進(jìn), 吳金澤, 張浩天, 等. 可信的端到端深度學(xué)生知識(shí)畫(huà)像建模方法[J]. 計(jì)算機(jī)研究與發(fā)展, 2023, 60(8): 1822-1833. (Wang Shijin, Wu Jinze, Zhang Haotian, et al. Trustworthy end-to-end deep student knowledge portrait modelling method[J]. Journal of Computer Research and Development, 2023, 60(8): 1822-1833.)
[11]周東岱, 董曉曉, 顧恒年, 等. 基于雙流結(jié)構(gòu)和多知識(shí)點(diǎn)映射結(jié)構(gòu)改進(jìn)的深度知識(shí)追蹤模型[J]. 現(xiàn)代教育技術(shù), 2022, 32(8): 111-118. (Zhou Dongdai, Dong Xiaoxiao, Gu Hengnian, et al. An improved deep knowledge tracing model based on two-stream structure and multi-knowledge point mapping structure[J]. Modern Educational Technology, 2022, 32(8): 111-118.)
[12]王文濤, 馬慧芳, 舒躍育, 等. 基于上下文表示的知識(shí)追蹤方法[J]. 計(jì)算機(jī)工程與科學(xué), 2022, 44(9): 1693-1701. (Wang Wentao, Ma Huifang, Shu Yueyu, et al. Knowledge tracing based on contextualized representation[J]. Computer Engineering amp; Science, 2022, 44(9): 1693-1701.)
[13]Liu Qi, Huang Zhenya, Yin Yu, et al. EKT: exercise-aware know-ledge tracing for student performance prediction[J]. IEEE Trans on Knowledge and Data Engineering, 2019, 33(1): 100-115.
[14]李曉光, 魏思齊, 張昕, 等. LFKT: 學(xué)習(xí)與遺忘融合的深度知識(shí)追蹤模型[J]. 軟件學(xué)報(bào), 2021, 32(3): 818-830. (Li Xiao-guang, Wei Siqi, Zhang Xin, et al. LFKT: deep knowledge tracing model with learning and forgetting behavior merging[J]. Journal of Software, 2021, 32(3): 818-830.)
[15]趙琰, 馬慧芳, 王文濤, 等. 可靠響應(yīng)表示增強(qiáng)的知識(shí)追蹤方法[J]. 計(jì)算機(jī)工程與科學(xué), 2024, 46(3): 535-544. (Zhao Yan, Ma Huifang, Wang Wentao, et al. Reliable response representation enhanced knowledge tracing method[J]. Computer Engineering amp; Science, 2024, 46(3): 535-544.)
[16]陳成, 董永權(quán), 賈瑞, 等. FKA-DKT:融合知識(shí)與能力的深度知識(shí)追蹤模型[J]. 南京師大學(xué)報(bào): 自然科學(xué)版, 2024, 47(2): 129-139. (Chen Cheng, Dong Yongquan, Jia Rui, et al. FKA-DKT: deep knowledge tracing model based on the fusion of knowledge and ability[J]. Journal of Nanjing University: Natural Science, 2024, 47(2): 129-139.)
[17]Pandey S, Karypis G. A self-attentive model for knowledge tracing[C]// Proc of the 12th International Conference on Educational Data Mining. [S.l.]: International Educational Data Mining Society, 2019: 384-389.
[18]Huang Changqin, Wei Hangjie, Huang Qionghao, et al. Learning consistent representations with temporal and causal enhancement for knowledge tracing[J]. Expert Systems with Applications, 2024, 245: 123128.
[19]賈瑞, 董永權(quán), 劉源, 等. 知識(shí)點(diǎn)相關(guān)性與遺忘程度融合的深度知識(shí)追蹤模型 [J/OL]. 計(jì)算機(jī)研究與發(fā)展. (2024-02-19). http://kns.cnki.net/kcms/detail/11.1777.TP.20240219.1356.018.html. (Jia Rui, Dong Yongquan, Liu Yuan, et al. Deep knowledge tracing model with the integration of skills relation and forgetting degree[J/OL]. Journal of Computer Research and Development. (2024-02-19). http://kns.cnki.net/kcms/detail/11.1777.TP.20240219.1356.018.html.)
[20]琚生根, 康睿, 趙容梅, 等. 多知識(shí)點(diǎn)融合嵌入的深度知識(shí)追蹤模型[J]. 軟件學(xué)報(bào), 2022, 34(11): 5126-5142. (Ju Shenggen, Kang Rui, Zhao Rongmei, et al. Deep knowledge tracing model based on embedding of fused multiple concepts[J]. Journal of Software, 2022, 34(11): 5126-5142.)
[21]Choi Y, Lee Y, Cho J, et al. Towards an appropriate query, key, and value computation for knowledge tracing [C]// Proc of the 7th ACM Conference on Learning@ Scale. New York: ACM Press, 2020: 341-344.
[22]許智宏, 張惠斌, 董永峰, 等. 問(wèn)題特征增強(qiáng)的知識(shí)追蹤模型[J]. 計(jì)算機(jī)科學(xué)與探索, 2024, 18(9): 2466-2475. (Xu Zhihong, Zhang Huibin, Dong Yongfeng, et al. Question feature enhanced knowledge tracing model[J]. Journal of Frontiers of Computer Science and Technology, 2024, 18(9): 2466-2475.)
[23]Song Xiangyu, Li Jianxin, Lei Qi, et al. Bi-CLKT: bi-graph contrastive learning based knowledge tracing[J]. Knowledge-Based Systems, 2022, 241: 108274.
[24]Abdelrahman G, Wang Qing. Deep graph memory networks for forgetting-robust knowledge tracing[J]. IEEE Trans on Knowledge and Data Engineering, 2023, 35(8): 7844-7855.
[25]董永峰, 黃港, 薛婉若, 等. 融合IRT的圖注意力深度知識(shí)追蹤模型[J]. 計(jì)算機(jī)科學(xué), 2023, 50(3): 173-180. (Dong Yongfeng, Huang Gang, Xue Wanruo, et al. Graph attention deep knowledge tracing model integrated with IRT[J]. Computer Science, 2023, 50(3): 173-180.)
[26]閆秋艷, 司雨晴, 袁冠, 等. 基于學(xué)生-問(wèn)題關(guān)聯(lián)的異構(gòu)圖知識(shí)追蹤模型[J]. 電子學(xué)報(bào), 2023, 51(12): 3549-3556. (Yan Qiu-yan, Si Yuqing, Yuan Guan, et al. Student-problem association based heterogeneous graph knowledge tracing model[J]. Acta Electronica Sinica, 2023, 51(12): 3549-3556.)
[27]張凱, 付姿姿, 覃正楚. 時(shí)空相關(guān)性融合表征的知識(shí)追蹤模型[J]. 計(jì)算機(jī)應(yīng)用研究, 2024, 41(5): 1381-1387. (Zhang Kai, Fu Zizi, Qin Zhengchu. Knowledge tracing model of temporal and spatial correlation fusion[J]. Application Research of Compu-ters, 2024, 41(5): 1381-1387.)
[28]Nakagawa H, Iwasawa Y, Matsuo Y. Graph-based knowledge tra-cing: modeling student proficiency using graph neural network[C]// Proc of IEEE/WIC/ACM International Conference on Web Intelligence. New York: ACM Press, 2019: 156-163.
[29]Yang Yang, Shen Jian, Qu Yanru, et al. GIKT: a graph-based interaction model for knowledge tracing[C]// Proc of European Confe-rence on Machine Learning and Knowledge Discovery in Database. Cham: Spring, 2021: 299-315.
[30]鄭浩東, 馬華, 謝穎超, 等. 融合遺忘因素與記憶門(mén)的圖神經(jīng)網(wǎng)絡(luò)知識(shí)追蹤模型[J]. 計(jì)算機(jī)應(yīng)用, 2023, 43(9): 2747-2752. (Zheng Haodong, Ma Hua, Xie Yingchao, et al. Knowledge tracing model based on graph neural network blending with forgetting factors and memory gate[J]. Journal of Computer Applications, 2023, 43(9): 2747-2752.)
[31]Duan Zhiyi, Dong Xiaoxiao, Gu Hengnian, et al. Towards more accurate and interpretable model: fusing multiple knowledge relations into deep knowledge tracing[J]. Expert Systems with Applications, 2024, 243: 122573.
[32]Qin Changjiu, Hu Wenxin, Du Fangrui, et al. Graph attention-enhanced knowledge tracing: unveiling exercise variability and long-term dependencies[C]// Proc of the 12th International Conference on Information and Education Technology. Piscataway, NJ: IEEE Press, 2024: 482-488.
[33]Cui Chaoran, Yao Yumo, Zhang Chunyun, et al. DGEKT: a dual graph ensemble learning method for knowledge tracing[J]. ACM Trans on Information Systems, 2024, 42(3): 1-24.
[34]Feng Mingyu, Heffernan N, Koedinger K. Addressing the assessment challenge with an online system that tutors as it assesses[J]. User Modeling and User-Adapted Interaction, 2009, 19(3): 243-266.
[35]Chang H S, Hsu H J, Chen KT. Modeling exercise relationship sin e-learning: a unified approach[C]// Proc of the 8th International Conference on Educational Data Mining. 2015: 532-535.
[36]Choi Y, Lee Y, Shin D, et al. EdNet: a large-scale hierarchical dataset in education[C]// Proc of the 21st International Conference on Artificial Intelligence in Education. Cham: Springer, 2020: 69-73.