關(guān)鍵詞:智慧教育;知識(shí)追蹤;輔助任務(wù);注意力機(jī)制
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2025)07-023-2096-07
doi: 10.19734/j . issn.1001-3695.2024.10.0448
Abstract:Knowledge tracingisaneffctiveway toachievesmarteducation,asitasistsstudents intimelyadjustingtheir learning strategiesbyasesing theirlearning status.Theexisting knowledgetracing methods stillhaveshortcomings indealing withthe nternalrelationshipbetweenexercisesandknowledgeconceptsandobtaining students’personalized knowledge level. Toaddressthisissue,thispaperproposed anauxiliarytask-enhanced knowledge tracing(ATEKT)method.Firstly,this paper usedthegroupcalculationmethodandfrequencycalculationmethodtocalculatethedificultyof theexercise,thediscriminationoftheexercise,andthenumberofanswers totherelevantknowledgepoint exercises,andotainedtheirembeddedrepresentation.Secondly,itpresentedtwoauxiliarytasks,exercisetaging predictiontasksandpriorknowledge predictiontasksto dynamicallyaess therelationshipsbetweenexercisesandknowledge points,whileestimatingstudents'knowledgelevelsfrom historicalresponserecords.Finall,theauxiliarytaskslearnedthecharacteristicsof theoptimizationprocesstoenhance knowledge tracing model predicts.Comparedwithsevenknowledge tracing modelsonthreepublicdatasetssuchas ASSIST2009,ASSIST2017 and EdNet,the AUC and ACC of the proposed method are increased by 2.4% to 15.5% and (204 2.0% to 9.9% respectively.The experimental results show that the proposed method can efectively extract information related to knowledgetracing tasks,and itsperformanceismoresuperior.Meanwhile,ablationexperimentsalsodemonstrate the effectivenessofdifferentauxiliarytasks.
Keywords:intelligent education;knowledge tracing;auxiliary task;attention mechanisn
0 引言
智慧教育是指利用現(xiàn)代信息技術(shù)、教育方法和心理學(xué)原理等多種手段,實(shí)現(xiàn)教育過程個(gè)性化、智能化和高效化的一種新型教育模式1。知識(shí)追蹤基于學(xué)生行為序列建模、預(yù)測(cè)學(xué)生未來答題情況,圖1給出了一個(gè)知識(shí)追蹤任務(wù)的示例。知識(shí)追蹤在智慧教育系統(tǒng)中扮演著重要的角色,如個(gè)性化學(xué)習(xí)、學(xué)習(xí)情況的精準(zhǔn)反饋、學(xué)習(xí)資源優(yōu)化及教育管理決策等。
預(yù)測(cè)學(xué)習(xí)者知識(shí)狀態(tài)是知識(shí)追蹤的重要環(huán)節(jié),其受習(xí)題和學(xué)習(xí)者本身以及時(shí)間的影響。如圖2所示,假設(shè)學(xué)習(xí)者通過q1,q2,q3,q4 四個(gè)習(xí)題進(jìn)行學(xué)習(xí),其中 q1、q3 和 q4 都被正確回答 ,而 q2 沒有被正確回答 (×) 。每個(gè)習(xí)題 (q1,q2,q3,q4) (20號(hào)都與特定的知識(shí)點(diǎn) (c1,c2,c3,…,cn) 相關(guān)聯(lián),這些知識(shí)點(diǎn)構(gòu)成了習(xí)題的不同知識(shí)結(jié)構(gòu)并與習(xí)題難度、區(qū)分度以及相關(guān)知識(shí)點(diǎn)作答次數(shù)共同影響學(xué)習(xí)者對(duì)習(xí)題的作答狀態(tài)。學(xué)習(xí)者的每次作答都會(huì)產(chǎn)生相應(yīng)的先驗(yàn)知識(shí),這些先驗(yàn)知識(shí)同樣會(huì)影響學(xué)習(xí)者對(duì)習(xí)題的理解,如圖2所示,學(xué)習(xí)者獲得的先驗(yàn)知識(shí)3會(huì)作用于習(xí)題 q4 并對(duì)其作答情況產(chǎn)生影響。此外,先驗(yàn)知識(shí)會(huì)隨著時(shí)間的推移而衰減,即學(xué)習(xí)者對(duì)知識(shí)的掌握程度會(huì)由于缺乏練習(xí)而導(dǎo)致生疏和遺忘,也能通過練習(xí)得到鞏固和加強(qiáng)。例如,圖2中的知識(shí)點(diǎn) c1 ,由于 c1 長(zhǎng)時(shí)間未得到練習(xí),所以在 t4 時(shí)刻,學(xué)習(xí)者對(duì) c1 的知識(shí)掌握水平低于 t1 時(shí)刻。
在知識(shí)追蹤的早期研究中,基于統(tǒng)計(jì)學(xué)的方法發(fā)揮了重要的作用。傳統(tǒng)的知識(shí)追蹤模型,如 BKT[2] ,將學(xué)生的知識(shí)狀態(tài)建模為一組二元變量。當(dāng)學(xué)生進(jìn)行與該習(xí)題相關(guān)的練習(xí)時(shí),根據(jù)回答情況,使用馬爾可夫模型來更新這些二元變量之間的概率。這類方法雖然能捕獲學(xué)生學(xué)習(xí)過程中的一些信息,但在處理大規(guī)模復(fù)雜數(shù)據(jù)時(shí)具有較大的局限性,更無法捕捉學(xué)生隨時(shí)間變化的動(dòng)態(tài)知識(shí)水平。
隨著深度學(xué)習(xí)技術(shù)的迅速發(fā)展,基于深度學(xué)習(xí)的模型在知識(shí)追蹤任務(wù)上展現(xiàn)出巨大的潛力。 DKT[3] 通過循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)來捕捉學(xué)生的習(xí)題和答案之間的動(dòng)態(tài)交互,并在此基礎(chǔ)上預(yù)測(cè)學(xué)生對(duì)后續(xù)習(xí)題的答案。得益于深度學(xué)習(xí)網(wǎng)絡(luò)的強(qiáng)大表征能力,DKT能夠有效捕捉學(xué)生知識(shí)水平的動(dòng)態(tài)變化,展現(xiàn)出很好的預(yù)測(cè)效果。Zhang等人[4]提出了DKVMN模型,結(jié)合BKT和DKT的優(yōu)勢(shì),設(shè)計(jì)了多個(gè)隱藏狀態(tài)向量的存儲(chǔ)與管理機(jī)制,使得模型在準(zhǔn)確度和適用性上都有所提高。隨著研究的進(jìn)一步深入,越來越多的方法從不同的角度開展深度知識(shí)追蹤技術(shù)的探索。SAKT[5]、SAINT[6]等模型將注意力機(jī)制應(yīng)用于知識(shí)追蹤問題,捕獲習(xí)題之間的關(guān)系及其與學(xué)生知識(shí)狀態(tài)的相關(guān)性,取得了更好的建模效果。為了更好地建模學(xué)生與習(xí)題之間的關(guān)系,許多學(xué)者將圖神經(jīng)網(wǎng)絡(luò)應(yīng)用到知識(shí)追蹤中,例如GKT[7] GIKT[8] 等,使用圖結(jié)構(gòu)來表示學(xué)生的學(xué)習(xí)狀態(tài)和知識(shí)之間的關(guān)聯(lián),同時(shí)捕捉了時(shí)間和空間上的豐富信息。以上方法的出色表現(xiàn)充分證明了深度學(xué)習(xí)網(wǎng)絡(luò)在知識(shí)追蹤任務(wù)上的有效性和巨大前景,但往往只關(guān)注于學(xué)生與練習(xí)之間的交互信息,缺乏對(duì)學(xué)習(xí)過程中其他信息的考慮。
一方面,很多現(xiàn)有研究大多忽略了習(xí)題的難度、習(xí)題區(qū)分度以及學(xué)生對(duì)相關(guān)知識(shí)點(diǎn)習(xí)題作答次數(shù)等因素對(duì)知識(shí)追蹤任務(wù)的影響;另一方面,現(xiàn)有的知識(shí)追蹤方法大多對(duì)習(xí)題和知識(shí)點(diǎn)之間的內(nèi)在關(guān)系建模的探索是松散的。以前的方法傾向于從涉及習(xí)題、知識(shí)點(diǎn)的圖中學(xué)習(xí)關(guān)系增強(qiáng)嵌入,然后用學(xué)習(xí)后的表示形式擴(kuò)充初始模型輸入。不幸的是,大多數(shù)習(xí)題只與一或兩個(gè)知識(shí)點(diǎn)相關(guān),此外,由于這些關(guān)聯(lián)大多是人工標(biāo)注的,錯(cuò)誤標(biāo)注的關(guān)系是不可避免的,相應(yīng)的錯(cuò)誤在基于圖的深度知識(shí)追蹤模型的學(xué)習(xí)過程中很容易傳播。
許多現(xiàn)有的深度知識(shí)追蹤模型在評(píng)估知識(shí)狀態(tài)時(shí)沒有明確地捕捉到學(xué)生水平的可變性,即個(gè)性化,例如對(duì)不同知識(shí)的獲取能力和學(xué)習(xí)速率。如果忽略了學(xué)生間在知識(shí)獲取能力、學(xué)習(xí)速率以及前置知識(shí)等方面的差異,模型可能無法準(zhǔn)確地預(yù)測(cè)個(gè)別學(xué)生對(duì)特定知識(shí)點(diǎn)的掌握情況,這將導(dǎo)致整體預(yù)測(cè)準(zhǔn)確性的降低。
本文著眼于學(xué)習(xí)過程中學(xué)生之間的個(gè)體差異性和答題記錄信息的豐富性,借助相關(guān)任務(wù)來學(xué)習(xí)用于知識(shí)追蹤的有效數(shù)據(jù)表征,提出了一種輔助任務(wù)增強(qiáng)的知識(shí)追蹤模型(ATEKT)。該模型使用兩種輔助任務(wù)來增強(qiáng)模型學(xué)習(xí)能力,并考慮了答題記錄中的多種隱含信息。在三個(gè)真實(shí)世界數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)均取得了優(yōu)異的性能,證明所提出模型能夠有效學(xué)習(xí)學(xué)生歷史答題信息中的豐富信息。
1相關(guān)工作
1.1 深度知識(shí)追蹤
2015年,斯坦福大學(xué)Piech教授提出了一種創(chuàng)新的知識(shí)追蹤模型DKT(deep knowledge tracing)[3],首次在知識(shí)追蹤中使用深度神經(jīng)網(wǎng)絡(luò),使用循環(huán)神經(jīng)網(wǎng)絡(luò)RNN來捕捉習(xí)題與答案隨時(shí)間的動(dòng)態(tài)交互。它優(yōu)化了傳統(tǒng)BKT模型的限制,但仍存在對(duì)長(zhǎng)序列建模能力上的不足。 SAKT[5] 是首個(gè)在知識(shí)追蹤中使用注意力機(jī)制的方法,能夠有效處理數(shù)據(jù)稀疏性問題,且更加靈活。Choi等人[提出了一種分離自注意力神經(jīng)知識(shí)追蹤方法SAINT,它應(yīng)用了Transformer架構(gòu),采用堆疊的自注意力層來構(gòu)建編碼器-解碼器結(jié)構(gòu),效果更加出色。Nakagawa等人[7首次將圖神經(jīng)網(wǎng)絡(luò) GNN[9] 技術(shù)引入知識(shí)追蹤領(lǐng)域,提出一種基于圖的知識(shí)追蹤方法GKT,將知識(shí)追蹤視為一個(gè)時(shí)間序列上的節(jié)點(diǎn)分類問題。Cui等人[10]提出了一種針對(duì)知識(shí)追蹤任務(wù)的雙圖集成學(xué)習(xí)方法DEGKT,更好地捕捉了學(xué)生的知識(shí)狀態(tài)。Yue等人[1]提出了AA-DKTA模型,整合了能力屬性和注意力機(jī)制,考慮了學(xué)生在學(xué)習(xí)過程中能力的變化和個(gè)體之間的差異。
1.2 注意力機(jī)制
注意力機(jī)制的靈感來源于人類視覺系統(tǒng),它模擬了人類的選擇性關(guān)注能力,使神經(jīng)網(wǎng)絡(luò)能夠有針對(duì)性地聚焦在輸入數(shù)據(jù)的特定部分。Kajan等人[1的研究證實(shí)了注意力機(jī)制在序列-序列任務(wù)中的卓越效果。文獻(xiàn)[13]中提出的Transformer結(jié)構(gòu),在多種任務(wù)中均展現(xiàn)了卓越的性能。SAKT模型首次在知識(shí)追蹤中使用注意力機(jī)制,采用了改進(jìn)后的Transformer結(jié)構(gòu),在捕獲學(xué)生知識(shí)狀態(tài)上表現(xiàn)優(yōu)秀。隨后的一些工作[14,15]繼續(xù)沿著這個(gè)方向進(jìn)行探索,并取得了更好的效果。
1.3 多任務(wù)學(xué)習(xí)
多任務(wù)學(xué)習(xí)旨在通過同時(shí)訓(xùn)練多個(gè)相關(guān)任務(wù),使它們共享特征表示,從而提升各個(gè)任務(wù)的性能以及模型在每個(gè)任務(wù)上的泛化能力[16.17]。多任務(wù)學(xué)習(xí)框架在提升模型泛化能力、減少過擬合等方面表現(xiàn)出良好的效果。使用相關(guān)任務(wù)作為輔助任務(wù),對(duì)于多任務(wù)學(xué)習(xí)來說是一個(gè)合理的選擇。具體來說,將若干個(gè)相關(guān)任務(wù)分成了主要任務(wù)與輔助任務(wù)兩大類,輔助任務(wù)的作用是為主要任務(wù)提供更多的先驗(yàn)知識(shí)并共享特征,進(jìn)而提升主要任務(wù)的表現(xiàn)。例如,Misra等人[18]通過同時(shí)訓(xùn)練進(jìn)行場(chǎng)景識(shí)別和語義分割兩種輔助任務(wù),使模型能夠?qū)W習(xí)到更具泛化能力的特征表示。
2模型
ATEKT模型的總體結(jié)構(gòu)如圖3所示,模型主要由習(xí)題標(biāo)記預(yù)測(cè)模塊、先驗(yàn)知識(shí)預(yù)測(cè)模塊、知識(shí)追蹤預(yù)測(cè)模塊組成。習(xí)題標(biāo)記預(yù)測(cè)模塊對(duì)習(xí)題和知識(shí)核心之間的內(nèi)在關(guān)系進(jìn)行建模,用于預(yù)測(cè)習(xí)題的知識(shí)核心。先驗(yàn)知識(shí)預(yù)測(cè)模塊用來評(píng)估每個(gè)學(xué)生各自的歷史學(xué)習(xí)表現(xiàn)。知識(shí)追蹤預(yù)測(cè)模塊綜合考慮了更多的學(xué)生答題記錄隱含信息,并利用上層模塊輸出的習(xí)題知識(shí)點(diǎn)關(guān)聯(lián)信息與學(xué)生個(gè)性化差異來預(yù)測(cè)學(xué)生對(duì)當(dāng)前習(xí)題的反應(yīng)。
在ATEKT模型中,首先利用習(xí)題標(biāo)記預(yù)測(cè)模塊來深入分析習(xí)題與知識(shí)核心之間的內(nèi)在聯(lián)系。這一步驟的目的是構(gòu)建一個(gè)精確的模型,從而能夠提取出與特定習(xí)題緊密相關(guān)的知識(shí)點(diǎn)隸屬度信息,將其表示為 et′ 。隨后,把 et′ 信息傳遞給先驗(yàn)知識(shí)預(yù)測(cè)模塊。該模塊的核心任務(wù)是全面評(píng)估每位學(xué)生的歷史學(xué)習(xí)表現(xiàn)。為了實(shí)現(xiàn)這一目標(biāo),模塊接收包括知識(shí)點(diǎn)conc、學(xué)生對(duì)特定習(xí)題的回答情況 respt ,以及學(xué)生對(duì)包含該知識(shí)點(diǎn)的習(xí)題的作答次數(shù) attet 等在內(nèi)的一系列輸入信息。在整合了學(xué)生的學(xué)習(xí)歷史、當(dāng)前習(xí)題的難度和區(qū)分度因素之后,將這些信息與上層模塊提供的習(xí)題知識(shí)點(diǎn)關(guān)聯(lián)信息以及學(xué)生的個(gè)性化差異結(jié)合起來。這些綜合信息隨后被用作知識(shí)追蹤預(yù)測(cè)模塊的輸入,以更準(zhǔn)確地預(yù)測(cè)學(xué)生對(duì)相關(guān)習(xí)題的未來表現(xiàn)。
2.1 問題描述
一般來說,每個(gè)學(xué)生的練習(xí)記錄由一系列在不同時(shí)刻上的習(xí)題和回答組成。對(duì)于時(shí)間步長(zhǎng)為 Φt 的學(xué)生 i ,通常將習(xí)題包含的概念以及相應(yīng)的評(píng)分答案作為一個(gè)元組! (questi,concti ,respti ),其中, questi∈N+ 是習(xí)題索引, concti∈N+ 是知識(shí)概念索引, respti∈{0,1} 是答案。在這種表示下, (questi,concti,1) 表示學(xué)生 i 在 χt 時(shí)刻正確回答了關(guān)于知識(shí)概念 concti 的習(xí)題 questi 。若學(xué)生 t-1 時(shí)刻前的答題記錄為 (quest-1,conct-1,respt-1)} ,則知識(shí)追蹤任務(wù)的目標(biāo)是預(yù)測(cè)在當(dāng)前 χt 時(shí)刻對(duì)概念conc,上習(xí)題 quest 的回答 respt 。
2.2答題記錄隱含信息處理
習(xí)題的難度、習(xí)題區(qū)分度以及知識(shí)點(diǎn)作答次數(shù)對(duì)學(xué)生的知識(shí)掌握水平評(píng)價(jià)至關(guān)重要,因此,本節(jié)將重點(diǎn)探索這些因素的有效嵌入表示。
2.2.1習(xí)題難度因素嵌入表示
難度指的是當(dāng)兩個(gè)習(xí)題考察同一個(gè)知識(shí)點(diǎn)時(shí),同一學(xué)生的答題正確情況可能不同,這往往是由于難度差異導(dǎo)致的。通常用難度系數(shù) P[19] 來衡量一個(gè)習(xí)題的難度:將正確回答習(xí)題者的學(xué)生數(shù)與學(xué)生總數(shù)的比率作為難度系數(shù),即 P= 習(xí)題答對(duì)人數(shù)/考生人數(shù),比值越大說明習(xí)題難度越低。
首先使用一組 e(s) 來表示學(xué)生和習(xí)題之間的所有互動(dòng),即 e(s)={e(s1),e(s2),…,e(sk)} ;其次,考慮所有與習(xí)題quesi 交互過的學(xué)生,并使用 ,(20
來記錄其交互狀態(tài)。對(duì)于所有與習(xí)題quesi 交互的學(xué)生,他們答題正確或錯(cuò)誤的數(shù)量分別表示為
)和
),則習(xí)題 quesi 的難度系數(shù)如式(1)所示。
難度系數(shù)的嵌入表示如圖4中caseI所示。在難度系數(shù)的向量化表示之后,通過設(shè)計(jì)一個(gè)全連接網(wǎng)絡(luò)進(jìn)行優(yōu)化,得到最終的難度嵌人d,具體過程如式(2)(3)所示。
diff2=Embedding(diff1)
diff=Dropout(Sigmoid(w1×diff2+b1))
2.2.2習(xí)題區(qū)分度因素嵌入表示
習(xí)題的區(qū)分度指的是一個(gè)題目在區(qū)別不同能力水平的受測(cè)者方面的能力。采用分組計(jì)算法[20]計(jì)算習(xí)題的區(qū)分度:
disc1=ph-pl
其中: disc1 為習(xí)題的區(qū)分度; ph 為高分組通過率; pl 為低分組通過率。 的取值為 0?disc1?1 。具體地,計(jì)算習(xí)題區(qū)分度的步驟如下:
a)將學(xué)生的總分從高到低進(jìn)行排序,并選擇總分在前 25% 的受試者作為高分組 sh ,總分在后 25% 的受試者作為低分組 sl 。
b)依據(jù)式(5)計(jì)算高分組 sh 和低分組 sl 通過某一習(xí)題quesi 的百分比 phi 和 pli .
c)將 phi 和 pli 結(jié)果代入式(4)中,得到習(xí)題 quesi 的區(qū)分度表示 disc1i 。
獲得習(xí)題的區(qū)分度系數(shù)之后,計(jì)算其嵌入表示 ,如圖4中caseⅡ所示。
2.2.3知識(shí)點(diǎn)作答次數(shù)因素嵌入表示
知識(shí)點(diǎn)作答次數(shù)指的是學(xué)生對(duì)某類知識(shí)點(diǎn)的相關(guān)習(xí)題的作答次數(shù),本文采用頻數(shù)統(tǒng)計(jì)法進(jìn)行獲取。具體步驟如下:
a)確定與知識(shí)點(diǎn)concj相關(guān)的習(xí)題ques,這些習(xí)題可能覆蓋到該知識(shí)點(diǎn)的不同方面以及不同的難度級(jí)別。
b)針對(duì)該知識(shí)點(diǎn)相關(guān)的每個(gè)習(xí)題 ,記錄學(xué)生的正確作答次數(shù)
)和錯(cuò)誤作答次數(shù)
)。
c)計(jì)算正確作答次數(shù)和錯(cuò)誤作答次數(shù)之和 attempt1 ○
在獲得知識(shí)點(diǎn)作答次數(shù)后,計(jì)算其嵌入表示attempt,如圖4中case IⅢ所示。
2.3 輔助任務(wù)增強(qiáng)
2.3.1習(xí)題標(biāo)記預(yù)測(cè)任務(wù)
該任務(wù)(QTPT)使用中間表示來預(yù)測(cè)知識(shí)點(diǎn)是否與當(dāng)前習(xí)題相關(guān)聯(lián)。在每個(gè)時(shí)刻,模型都會(huì)根據(jù)當(dāng)前的上下文動(dòng)態(tài)地評(píng)估習(xí)題與知識(shí)點(diǎn)之間的關(guān)系。模型架構(gòu)如圖5所示。
為了評(píng)估當(dāng)前表示 at 在時(shí)刻 χt 上與先前回答的習(xí)題 ai 之間的相關(guān)性,本文通過取 at 和 ai 之間掩碼點(diǎn)積的softmax值來
計(jì)算相關(guān)系數(shù) ati ,即 ati=softmax(ai?at) 1 i=1,2,…,t 將這些相關(guān)系數(shù)輸入多頭Transformer編碼器,計(jì)算其注意力得分,從而得到增強(qiáng)的習(xí)題表示 et' ,即
然后,設(shè)計(jì)一個(gè)全連接網(wǎng)絡(luò)層來提取習(xí)題和知識(shí)點(diǎn)的表示,通過非線性變換將其投射到知識(shí)點(diǎn)空間中。在 χt 時(shí)刻,對(duì)特定習(xí)題的知識(shí)點(diǎn)隸屬度的計(jì)算如式(7)所示。
其中: W1c∈Rd/2×d ≡Rd/2×d,W2c∈R1×d/2,b1c∈Rd/2×1,b2c∈RN×1 為可訓(xùn)練參數(shù)。
最后,通過真實(shí)知識(shí)點(diǎn)標(biāo)簽 conct 和習(xí)題 quest 的預(yù)測(cè)結(jié)果conc之間的二元交叉熵?fù)p失對(duì)模型進(jìn)行優(yōu)化,計(jì)算如下:
2.3.2個(gè)性化先驗(yàn)知識(shí)預(yù)測(cè)任務(wù)
學(xué)生的先驗(yàn)知識(shí)是通過他們過去的學(xué)習(xí)互動(dòng)獲得的,這些先驗(yàn)知識(shí)往往嵌入于歷史學(xué)習(xí)互動(dòng)中[21.22]。個(gè)性化先驗(yàn)知識(shí)預(yù)測(cè)任務(wù)(PKPT)能夠根據(jù)學(xué)生的歷史學(xué)習(xí)交互,綜合衡量學(xué)生的個(gè)性化先驗(yàn)知識(shí)水平。該模塊的架構(gòu)如圖6所示。
模塊的輸入包括習(xí)題所包含的知識(shí)點(diǎn)conc、學(xué)生對(duì)該習(xí)題的作答狀況 respt 以及學(xué)生對(duì)包含該知識(shí)點(diǎn)習(xí)題的作答次數(shù)attet 。學(xué)生的得分率由式(9)計(jì)算得到。
PKPT是一個(gè)時(shí)間感知的學(xué)生先驗(yàn)知識(shí)估計(jì)任務(wù)。對(duì)于 χt 時(shí)刻更新的當(dāng)前知識(shí)狀態(tài) ht ,使用先驗(yàn)知識(shí)網(wǎng)絡(luò)來獲得學(xué)生對(duì)先驗(yàn)知識(shí)的掌握情況,并對(duì)知識(shí)狀態(tài)進(jìn)行非線性變換,轉(zhuǎn)換為估計(jì)的歷史得分率 yt' ,如式(10)所示。
其中 ;ht=LSTM(ht-1,mt),mt=zt⊕ct⊕xt,W1′∈Rd/2×d,W2′∈Rd; R1×d/2 b1y∈Rd/2×1 , b2′∈R1 為可訓(xùn)練參數(shù)。使用均方損失函數(shù)來評(píng)價(jià)評(píng)分的準(zhǔn)確性,如式(11)所示。
其中:8為超參數(shù),用來控制歷史觀測(cè)的長(zhǎng)度,并幫助模型在 δ 值過小時(shí)避免嘈雜的評(píng)分計(jì)算。
2.3.3知識(shí)追蹤預(yù)測(cè)任務(wù)
該任務(wù)是ATEKT模型的主任務(wù),ATEKT將QTPT以及PKPT兩種輔助學(xué)習(xí)任務(wù)分配到不同的網(wǎng)絡(luò)層次上,分別負(fù)責(zé)學(xué)習(xí)習(xí)題與知識(shí)點(diǎn)關(guān)聯(lián)信息以及學(xué)生水平的個(gè)性化信息,而知識(shí)追蹤預(yù)測(cè)任務(wù)學(xué)習(xí)更高層次的學(xué)生特征,進(jìn)而預(yù)測(cè)學(xué)生對(duì)目標(biāo)習(xí)題的答題情況。模型架構(gòu)如圖7所示。
不同于一般的知識(shí)追蹤模型只依賴于習(xí)題與響應(yīng)結(jié)果的單一表示,該模塊在編碼中還添加了習(xí)題知識(shí)點(diǎn)特定信息 et′ (由QTPT任務(wù)得到)和 conct ,即
這將有助于基于深度順序的模型捕獲更多的習(xí)題敏感信息。同時(shí),該模塊將融入了習(xí)題難度以及區(qū)分度的學(xué)生交互習(xí)題序列 xt 和 yt 作為輸入,以當(dāng)前時(shí)刻的習(xí)題 xt 作為查詢向量對(duì)習(xí)題序列進(jìn)行檢索,根據(jù)獲得的權(quán)重與歷史交互序列計(jì)算得到當(dāng)前時(shí)刻學(xué)生的知識(shí)水平 ht 作為輸出。然后,用兩層神經(jīng)網(wǎng)絡(luò)的非線性投影進(jìn)行知識(shí)追蹤任務(wù)的預(yù)測(cè),即
rt′=σ(W2r?ReLU(W1r?ht+b1r)+b2r)
其中: W1r∈Rd/2×d Rd/2×d,W2r∈RN×d/2,b1r∈Rd/2×1,b2r∈RN×1 為可訓(xùn)練參數(shù)。最后,通過真實(shí)響應(yīng) rt+1 和預(yù)測(cè)概率 rt' 之間的二元交叉熵?fù)p失來優(yōu)化知識(shí)追蹤預(yù)測(cè)器。設(shè) δ(conct+1) 為 t+1 時(shí)刻回答關(guān)于知識(shí)點(diǎn) conct+1 相關(guān)習(xí)題的one-hot編碼,則該任務(wù)的損失為
此外,在知識(shí)追蹤任務(wù)中的注意力分?jǐn)?shù)上增加了一個(gè)指數(shù)衰減項(xiàng)來模擬學(xué)生短期記憶情況,如式(15)所示。
其中: θgt;0 是一個(gè)可學(xué)習(xí)的衰減率參數(shù); d(t,τ) 是當(dāng)前時(shí)刻 χt 與以往時(shí)刻 τ 的時(shí)間度量。 d(t,τ) 的計(jì)算如式(16)所示。
3實(shí)驗(yàn)
3.1數(shù)據(jù)集
在ASSIST2009、ASSIST2017以及EdNet三個(gè)數(shù)據(jù)集上進(jìn)行廣泛的實(shí)驗(yàn)來驗(yàn)證ATEKT模型的性能,并與七個(gè)基線模型進(jìn)行了對(duì)比。表1中列出了各個(gè)數(shù)據(jù)集的詳細(xì)信息。
3.2 基線模型
為了驗(yàn)證本文方法的有效性,將ATEKT與七個(gè)基線方法進(jìn)行了比較。這些基線方法包括:
a) BKT[2] :基于隱馬爾可夫的模型,該模型將學(xué)生對(duì)每個(gè)概念的知識(shí)狀態(tài)建模為一個(gè)二進(jìn)制變量。
b) DKT[3] :首次將深度學(xué)習(xí)應(yīng)用到知識(shí)追蹤模型,引人RNN來預(yù)測(cè)學(xué)生的表現(xiàn),對(duì)復(fù)雜的知識(shí)點(diǎn)聯(lián)系進(jìn)行建模。
c)DKVMN[4]:一個(gè)具有靜態(tài)鍵矩陣和動(dòng)態(tài)值矩陣的模型,該方法允許網(wǎng)絡(luò)保留多個(gè)隱藏狀態(tài)向量,分別進(jìn)行讀寫。
d)SAKT[5]:應(yīng)用Transformer架構(gòu),聚焦于歷史互動(dòng)中與當(dāng)前練習(xí)相關(guān)的練習(xí)來預(yù)測(cè)學(xué)生的表現(xiàn),緩解了數(shù)據(jù)稀疏性問題。
e)SAINT[6]:一種分離的自注意力知識(shí)追蹤模型,它利用一個(gè)由堆疊的自注意層組成的編碼器-解碼器體系結(jié)構(gòu),捕捉練習(xí)與回答之間的復(fù)雜關(guān)系。
f)DGEKT[\"0]:一種基于超圖建模和有向圖建模的雙圖集成學(xué)習(xí)方法,用于捕獲異構(gòu)的練習(xí)與概念的關(guān)聯(lián)。
g)AA-DKTA[11]:整合了能力屬性和注意力機(jī)制,考慮了學(xué)生在學(xué)習(xí)過程中能力的變化和個(gè)體之間的差異。
3.3 實(shí)驗(yàn)細(xì)節(jié)
3.3.1參數(shù)設(shè)置
為了提高計(jì)算效率,將超過200個(gè)回答的學(xué)生序列分解成多個(gè)短的序列,以減輕模型在處理長(zhǎng)序列時(shí)的計(jì)算負(fù)擔(dān),避免過擬合。長(zhǎng)序列可能包含大量的時(shí)間依賴信息,這可能導(dǎo)致模型訓(xùn)練變得復(fù)雜和低效。通過分解,可以使得模型更專注于局部模式和近期行為,這通常對(duì)預(yù)測(cè)學(xué)生接下來習(xí)題的回答更有幫助。然后,使用Adam優(yōu)化器對(duì)所有數(shù)據(jù)進(jìn)行批量訓(xùn)練。學(xué)習(xí)率設(shè)為 1×10-5 ,這是一個(gè)相對(duì)較小的學(xué)習(xí)率,可以更細(xì)致地調(diào)整權(quán)重以避免模型在優(yōu)化過程中的大幅波動(dòng);Batch_size設(shè)為24,較小的批量大小提供更頻繁的更新,幫助模型捕捉數(shù)據(jù)中的噪聲和細(xì)節(jié);對(duì)所有模型和數(shù)據(jù)集采用標(biāo)準(zhǔn)的 K 折交叉驗(yàn)證,其中 K=5 ,這是一種常見的選擇,它提供了一個(gè)平衡的折中方案,既能夠充分評(píng)估模型性能,又不至于因?yàn)閯澐诌^多而導(dǎo)致訓(xùn)練數(shù)據(jù)不足;將 80% 的數(shù)據(jù)分配給訓(xùn)練集, 20% 分配給測(cè)試集。最后通過5次實(shí)驗(yàn)獲得的結(jié)果取平均值來得到最終結(jié)果。
3.3.2 實(shí)驗(yàn)結(jié)果
使用ACC和AUC作為評(píng)價(jià)指標(biāo),ATEKT與基線模型的實(shí)驗(yàn)結(jié)果如表2所示。其中,最佳的模型結(jié)果以粗體形式表示,排名次好的模型結(jié)果以下畫線加以區(qū)分。
從結(jié)果來看,ATEKT模型在所有數(shù)據(jù)集上均優(yōu)于其他的基線方法。在ASSIST2009數(shù)據(jù)集上,ATEKT模型的AUC比基準(zhǔn)模型中表現(xiàn)最差的結(jié)果數(shù)據(jù)提高了 15.5% ,ACC提高了9.9% ;與基準(zhǔn)模型中表現(xiàn)最好的結(jié)果數(shù)據(jù)相比,其AUC和ACC分別提高了 2.4% 和 2.0% 。在ASSIST2017以及EdNet數(shù)據(jù)集中,ATEKT模型也同樣具有更好的性能。
相比較于傳統(tǒng)方法,ATEKT模型要遠(yuǎn)遠(yuǎn)優(yōu)于BKT,這主要受益于深度學(xué)習(xí)強(qiáng)大的建模能力,可以輕松捕獲學(xué)生知識(shí)狀態(tài)的復(fù)雜表征。與基于圖的知識(shí)追蹤方法DGEKT相比,ATEKT也具有顯著的優(yōu)勢(shì),這是由于ATEKT在每個(gè)時(shí)刻都會(huì)根據(jù)當(dāng)前的上下文動(dòng)態(tài)地評(píng)估習(xí)題和知識(shí)點(diǎn)之間的關(guān)系,提高了模型捕捉和表達(dá)復(fù)雜、變化的知識(shí)關(guān)系的能力。與基于注意力機(jī)制的知識(shí)追蹤方法相比,ATEKT更好地捕捉了包含在真實(shí)世界學(xué)生響應(yīng)數(shù)據(jù)集中的豐富信息,從而取得了更高的性能。
3.4消融實(shí)驗(yàn)
為了更好地驗(yàn)證ATEKT模型中各個(gè)組成部分的有效性與合理性,設(shè)計(jì)了FSOAE和SSOAE兩組消融實(shí)驗(yàn)。其中,F(xiàn)SOAE實(shí)驗(yàn)主要是為了驗(yàn)證答題記錄隱含信息如習(xí)題難度、習(xí)題區(qū)分度、相關(guān)知識(shí)點(diǎn)習(xí)題作答次數(shù)等對(duì)知識(shí)追蹤任務(wù)的影響;SSOAE實(shí)驗(yàn)主要是為探究?jī)煞N輔助學(xué)習(xí)任務(wù)對(duì)知識(shí)追蹤任務(wù)的影響。
1)FSOAE消融實(shí)驗(yàn)
KT-DIFF、KT-DISC、KT-ATTE 和KT-NONE1 分別為ATEKT的四種變體模型,其中,KT-DIFF剔除了習(xí)題難度因素,KT-DISC剔除了習(xí)題區(qū)分度因素,KT-ATTE剔除了相關(guān)知識(shí)點(diǎn)習(xí)題作答次數(shù)因素,KT-NONE1將三種因素全部剔除。實(shí)驗(yàn)結(jié)果如圖8所示。
從圖8可以看出,相比ATEKT模型,在ASSIST2009、ASSIST2017和EdNet數(shù)據(jù)集上,將難度因素剔除的變體模型KT-DIFF的AUC和ACC分別下降了 2.2% 和 1.5%.3.5% 和
2.9% 、4. 4% 和 4% ;將區(qū)分度因素剔除的KT-DISC變體模型,AUC和ACC分別下降了 2.2% 和 1.2% 、4 2% 和 2,7%,3,2% 和 3.7% ;對(duì)于將相關(guān)知識(shí)點(diǎn)習(xí)題作答次數(shù)剔除的KT-ATTE模型來說,其AUC和ACC分別下降了 2.4% 和 1.4%.4.1% 和2.7% 、3. 1% 和3. 4% 。此外,在三個(gè)數(shù)據(jù)集中,KT-DIFF、KT-DISC以及KT-ATTE的結(jié)果均優(yōu)于KT-NONE1模型,說明考慮多種習(xí)題因素的模型能夠更好地評(píng)估學(xué)生的知識(shí)點(diǎn)掌握程度和學(xué)生的能力水平。
2)SSOAE消融實(shí)驗(yàn)
在SSOAE 實(shí)驗(yàn)中,KT-QTPT、KT-PKPT和KT-NONE2也是ATEKT的變體模型,其中,KT-QTPT剔除了習(xí)題標(biāo)記預(yù)測(cè)任務(wù),KT-PKPT剔除了先驗(yàn)知識(shí)預(yù)測(cè)任務(wù),KT-NONE2沒有加入任何輔助學(xué)習(xí)任務(wù)。實(shí)驗(yàn)結(jié)果如表3所示。
可以看出,在ASSIST20O9、ASSIST17和 EdNet數(shù)據(jù)集上,相比ATEKT模型,剔除了習(xí)題標(biāo)記預(yù)測(cè)任務(wù)的變體模型KT-QTPT,AUC和ACC表現(xiàn)分別下降了 0.8% 和 0.3%.2.6% 和1.8%.2.5% 和 3.1% 。剔除了先驗(yàn)知識(shí)預(yù)測(cè)任務(wù)的KT-PKPT變體模型,AUC和ACC分別下降了 0.5% 和 0.3%.0.6% 和 1.4%.1.4% 和 1.9% 。此外,在三個(gè)數(shù)據(jù)集中,KT-QTPT與KT-PKPT的結(jié)果均優(yōu)于KT-NONE2模型,說明建模學(xué)生級(jí)別的個(gè)性化信息以及習(xí)題與知識(shí)點(diǎn)的關(guān)系有利于模型學(xué)習(xí)到有效的特征。
3.5知識(shí)狀態(tài)可視化
為了探究知識(shí)狀態(tài)在習(xí)題與學(xué)習(xí)者本身的差異以及時(shí)間下演化的合理性,對(duì)ASSIST2017數(shù)據(jù)集中某一學(xué)習(xí)者的交互序列使用熱力圖來展示模型如何捕捉學(xué)習(xí)者知識(shí)狀態(tài)的變化。這種分析方法將直觀地展示學(xué)習(xí)者對(duì)不同知識(shí)點(diǎn)的掌握程度。
圖9描繪了某一學(xué)習(xí)者知識(shí)狀態(tài)的熱力圖,其橫坐標(biāo)展示了學(xué)習(xí)者作答信息,縱坐標(biāo)表示具體的知識(shí)點(diǎn),單元格反映了該學(xué)習(xí)者對(duì)特定知識(shí)點(diǎn)的掌握程度,顏色越深表明掌握程度越高。其中習(xí)題 q1~q3 是針對(duì)知識(shí)點(diǎn) c12 的習(xí)題, q4~q7 是針對(duì)知識(shí)點(diǎn) c26 的習(xí)題, q8~q14 是針對(duì)知識(shí)點(diǎn) c65 的習(xí)題, q15~q20 是針對(duì)知識(shí)點(diǎn) c63 的習(xí)題。
從圖中可以看到,當(dāng)學(xué)習(xí)者在作答習(xí)題 q1~q3 和 q4~q7 時(shí),其對(duì)知識(shí)點(diǎn) c12 和知識(shí)點(diǎn) c26 的掌握程度的變化幅度不同,學(xué)習(xí)者對(duì)知識(shí)點(diǎn) c26 的掌握速率明顯較慢,這是由于針對(duì)知識(shí)點(diǎn) c26 的習(xí)題難度普遍偏高,將影響學(xué)習(xí)者對(duì)該知識(shí)點(diǎn)的掌握。這種難度與掌握速率之間的關(guān)聯(lián),為關(guān)于如何調(diào)整教學(xué)策略以適應(yīng)不同學(xué)習(xí)者的需求提供重要見解。此外,習(xí)題難度越接近0.5時(shí),其區(qū)分度越高,這是由于較高難度的習(xí)題或者較低難度的習(xí)題,對(duì)于不同學(xué)習(xí)者知識(shí)狀態(tài)而言其演化過程不會(huì)有太大區(qū)別,而中等難度的習(xí)題則將更能區(qū)分學(xué)習(xí)者的學(xué)習(xí)層次。對(duì)于知識(shí)點(diǎn) c65 ,盡管學(xué)習(xí)者在習(xí)題 q10~q12 上的表現(xiàn)并不理想,但對(duì)知識(shí)點(diǎn) c65 的掌握程度卻有所提升,這是由于學(xué)習(xí)者隨著對(duì)相同知識(shí)點(diǎn)習(xí)題作答次數(shù)的增多,其對(duì)知識(shí)點(diǎn)的理解程度會(huì)逐步加深,從而促進(jìn)了知識(shí)狀態(tài)的提升。此外,當(dāng)學(xué)習(xí)者長(zhǎng)時(shí)間未對(duì)某一知識(shí)點(diǎn)進(jìn)行練習(xí)時(shí)(如 c12 ),學(xué)習(xí)者對(duì)該知識(shí)點(diǎn)的掌握程度呈下降趨勢(shì),這主要是由于缺乏對(duì)相關(guān)習(xí)題的練習(xí)而導(dǎo)致的遺忘現(xiàn)象。
通過以上分析可得,學(xué)習(xí)者的知識(shí)狀態(tài)變化是一個(gè)多因素共同作用的復(fù)雜過程。為了更準(zhǔn)確地反映這一變化,引入多個(gè)特征,如習(xí)題的差異、學(xué)習(xí)者本身的差異以及時(shí)間下的演化等,不僅能夠豐富對(duì)學(xué)習(xí)者知識(shí)狀態(tài)變化的理解,而且能夠增強(qiáng)模型的解釋能力。
4結(jié)束語
本文提出了一個(gè)輔助任務(wù)增強(qiáng)的知識(shí)追蹤方法ATEKT,從學(xué)生答題記錄隱含信息以及輔助任務(wù)兩個(gè)角度進(jìn)行了探索??紤]了習(xí)題難度、習(xí)題區(qū)分度以及相關(guān)知識(shí)點(diǎn)題目作答次數(shù)等信息對(duì)模型的影響。在輔助任務(wù)中,以知識(shí)追蹤預(yù)測(cè)作為核心任務(wù),整合QTPT和PKPT兩個(gè)輔助任務(wù)中學(xué)習(xí)到的習(xí)題與知識(shí)點(diǎn)之間的關(guān)系、學(xué)生的個(gè)性化知識(shí)水平信息以及答題記錄中隱藏的信息,增強(qiáng)模型對(duì)學(xué)生學(xué)習(xí)狀況的捕捉能力。此外,還引入了一種單調(diào)注意力機(jī)制,用于模擬學(xué)生的短期記憶狀態(tài)。在三個(gè)公開數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文方法在預(yù)測(cè)任務(wù)上表現(xiàn)良好,充分說明相關(guān)輔助任務(wù)有助于學(xué)習(xí)隱含在學(xué)生作答序列中的有效特征。同時(shí),驗(yàn)證了知識(shí)追蹤任務(wù)是受到多方面學(xué)習(xí)因素影響的,對(duì)這些因素的有效建模有助于模型性能的提升。盡管ATEKT模型取得了很好的性能,但仍存在一些不足。例如,在知識(shí)追蹤任務(wù)中,學(xué)生在當(dāng)前習(xí)題上的表現(xiàn)更受最近學(xué)習(xí)的影響,而過去學(xué)習(xí)的內(nèi)容可能會(huì)引人噪聲,然而在實(shí)際應(yīng)用中,不能簡(jiǎn)單地忽略與當(dāng)前習(xí)題無關(guān)的過去的學(xué)習(xí)內(nèi)容。因此,如何在長(zhǎng)序列學(xué)習(xí)中去除噪聲的影響,同時(shí)保留較久遠(yuǎn)的學(xué)習(xí)信息,確保模型可以準(zhǔn)確預(yù)測(cè)學(xué)生長(zhǎng)時(shí)間未學(xué)習(xí)的知識(shí)點(diǎn),將是筆者的下一步研究重點(diǎn)。
參考文獻(xiàn):
[1]劉莉莉.智慧教育的內(nèi)涵與發(fā)展策略[J].中國(guó)多媒體與網(wǎng)絡(luò)教 學(xué)學(xué)報(bào):上旬刊,2023(5):60-63.(LiuLili.The connotation and developmentstrategyof intelligenteducation[J].ChinaJournalof Multimediaamp; Network Teaching,2023(5):60-63.)
[2]YudelsonMV,Koedinger KR,GordonGJ.Individualized Bayesian knowledge tracing models[C]//Proc of the 16th International Conference on Artificial Intelligence in Education. Berlin:Springer,2013: 171-180.
[3]Piech C,BassenJ,Huang J,et al.Deep knowledge tracing[C]// Proc of the 29th International Conference on Neural Information Processing Systems.Cambridge,MA:MIT Press,2015:505-513.
[4]Zhang Jiani,Shi Xingjian,King I,et al. Dynamic key-value memory networks for knowledge tracing[C]//Proc of the 26th International Conference on World Wide Web.New York:ACM Press,2017: 765-774.
[5]Pandey S,Karypis G. A self-attentive model for knowledge tracing [EB/OL]. (2019-07-16).https://arxiv.org/abs/1907.06837.
[6]Choi Y,Lee Y,Cho J,et al.Towards an appropriate query,key, and value computation for knowledge tracing[C]//Proc of the 7th ACM Conference on Learning @ Scale. New York:ACM Press, 2020:341-344.
[7]Nakagawa H,Iwasawa Y,Matsuo Y.Graph-based knowledge tracing:modeling student proficiency using graph neural network[C]// Proc of IEEE/WIC/ACM International Conference on Web Intelligence.New York:ACM Press,2019:156-163.
[8]Yang Yang,Shen Jian,Qu Yanru,et al.GIKT:agraph-based interaction model for knowledge tracing[C]// Proc of European Conference on Machine Learning and Knowledge Discovery in Databases. Cham:Springer,2021: 299-315.
[9]Velickovic P,Cucurull G,Casanova A,et al.Graph attention networks[EB/OL].(2017-10-30).https://arxiv.org/abs/1710. 10903.
[10]Cui Chaoran,Yao Yumo,Zhang Chunyun,et al.DGEKT:a dual graph ensemble learning method for knowledge tracing[J].ACM Trans on Information Systems,2024,42(3):78.
[11]Yue Yuqi,Sun Xiaoqing,JiWeidong,et al. Augmenting interpretable knowledge tracing by ability attribute and attention mechanism [EB/OL].(2023-02-04).htps://arxiv.org/abs/2302.02146.
[12]KajanS,GogaJ,LackoK,etal.Detectionof diabetic retinopathy usingpretrained deep neural networks[C]//Proc of Cyberneticsamp; Informatics(Kamp;I).Piscataway,NJ:IEEE Press,2020:1-5.
[13]Vaswani A,ShazeerN,ParmarN,etal.Attentionisall you need [C]//Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook,NY:Curran Associates Inc., 2017:6000-6010.
[14]PandeyS,SrivastavaJ,PandeyS,etal.RKT:relation-awareselfattention forknowledge tracing[C]//Proc of the 29th ACM International Conference on Information amp;Knowledge Management.New York:ACMPress,2020:1205-1214.
[15]ShinD,ShimY,YuH,et al.SAINT + : integrating temporal features forEdNet correctness prediction[C]//Proc of the11th International LearningAnalyticsand Knowledge Conference.New York:ACM Press,2021:490-496.
[16]CaruanaRA.Multitask connectionistlearning[M]//Proceedingsof the 1993 Connectionist Models Summer School.[S.1.]:Psychology Press,2014:372-379.
[17]Zhang Yu,Yang Qiang.A survey on multi-task learning [J]. IEEE Trans on Knowledge and Data Engineering,2022,34(12): 5586-5609.
[18]Misra I,Shrivastava A,Gupta A,etal.Cross-stitch networksfor multi-task learning[C]//Proc of IEEE Conference on Computer Visionand PatternRecognition.Piscataway,NJ:IEEEPress,2016: 3994-4003.
[19]李一波,張森悅.試題庫試題難度系數(shù)自適應(yīng)學(xué)習(xí)整定[J].計(jì) 算機(jī)工程,2005,31(12):181-182.(Li Yibo,Zhang Senyue. Self-study and adaptive adjusting of exam-question difficulty coefficient[J].Computer Engineering,2005,31(12):181-182.)
[20]黃光楊.教育測(cè)量與評(píng)價(jià)[M].上海:華東師范大學(xué)出版社, 2002.(Huang Guangyang. Educational measurement and evaluation [M].Shanghai:East China Normal University Press,2002.)
[21]Shen Shuanghong,Liu Qi,Chen Enhong,et al.Convolutional knowledge tracing:modeling individualization in student learning process[C]//Proc of the 43rd International ACM SIGIR Conference onResearch and Development in Information Retrieval. New York: ACMPress,2020:1857-1860.
[22]Zhang Moyu,Zhu Xinning,Zhang Chunhong,et al.Multi-factors aware dual-attentional knowledge tracing[C]//Proc of the 3Oth ACM International Conference on Information amp; Knowledge Management. New York:ACM Press,2021:2588-2597.