摘 要:現(xiàn)有知識追蹤方法未能深入探索知識點間多種關(guān)系并同時考慮知識相互作用和時間對知識狀態(tài)的影響。鑒于此,從知識間多種關(guān)系和學習遺忘規(guī)律兩方面改進知識追蹤模型,提出多關(guān)系和時間增強的知識追蹤模型(MRTKT)。首先,根據(jù)認知同化理論豐富了知識間關(guān)系,使用統(tǒng)計學方法構(gòu)建了包含上位學習、下位學習以及并列組合學習三種關(guān)系的知識結(jié)構(gòu)圖;其次,對知識間相互作用進行建模,根據(jù)上述三種關(guān)系聚集節(jié)點特征,使得模型可以更好地模擬知識間的影響傳播行為;然后,構(gòu)建融入三種時間信息的GRU門更新學生知識狀態(tài),以模擬學習和遺忘對知識狀態(tài)的影響,使得各節(jié)點特征包含知識間相互作用信息和時間信息,為預測學習者答題表現(xiàn)提供更全面豐富的信息。在多個公開數(shù)據(jù)集上進行實驗,結(jié)果表明MRTKT比現(xiàn)有模型具有更優(yōu)越的性能以及更好的可解釋性。
關(guān)鍵詞:知識追蹤; 門控圖神經(jīng)網(wǎng)絡; GRU; 知識間多種關(guān)系; 學習遺忘
中圖分類號:TP391"" 文獻標志碼:A
文章編號:1001-3695(2025)03-011-0728-07
doi:10.19734/j.issn.1001-3695.2024.07.0301
Multiple relations and time enhanced knowledge tracing model
Zhang Wei, Luo Peihua, Gong Zhongwei, Li Zhixin, Song Lingling
(Faculty of Artificial Intelligence Education, Central China Normal University, Wuhan 430079, China)
Abstract:Existing knowledge tracing methods fail to effectively explore and utilize the multiple relations between concepts and simultaneously consider the effects of interactions between concepts as well as time on the knowledge state. This paper improved the knowledge tracing model in terms of multiple relations between concepts and learning-forgetting patterns, and proposed a multiple relations and time enhanced knowledge tracing model(MRTKT) . Firstly, it enriched the relations between concepts according to assimilation theory, and constructed a knowledge structure containing three relationships of superordinate learning, subordinate learning, and combinatorial learning by using a statistical methodology. Secondly, it modeled the inte-raction between concepts enables the aggregation of node features based on the above three relationships. This enables the model to better simulate influence propagation among concepts. Then, it updated knowledge states using a gate mechanism incorporating three temporal factors in order to simulate the learning-forgetting effect. This ensures that each node feature contains both interactions between concepts and time information, providing more comprehensive and rich information for predicting learners’ responses. It conducted experiments on three real-world datasets, and the results show that MRTKT has superior performance and better interpretability than existing models.
Key words:knowledge tracing; GGNN; GRU; multiple relations between concepts; learning and forgetting
0 引言
智能輔導系統(tǒng)(ITS)加速發(fā)展,為實現(xiàn)個性化學習創(chuàng)造了機會。知識追蹤作為實現(xiàn)個性化學習的重要技術(shù),旨在精確追蹤學習者知識掌握水平并預測學習者答題反饋,從而為智能輔導系統(tǒng)提供技術(shù)支撐[1]。
預測學習者知識狀態(tài)是知識追蹤的重要環(huán)節(jié),其受知識相互作用和時間的影響。知識相互作用方面,認知同化理論認為新知識與原有知識之間存在三種相互作用,分別是上位學習、下位學習以及并列組合學習[2]。具體地,上位學習指通過綜合歸納獲得意義的學習;下位學習指把新知識歸屬于原有知識并使之相互聯(lián)系的過程;并列組合學習是在新知識與原有知識既非類屬關(guān)系又非總括關(guān)系時產(chǎn)生的。如圖1所示,假設有知識k1、k2、k3、k4分別為面積S、長方形面積Srectangle=ab、正方形面積Ssquare=a2、長度L,k2比k3包含的范圍更廣,因此k2是k3的上位知識,k3是k2的下位知識,兩者間存在上位和下位關(guān)系;k1和k4間不存在包含關(guān)系,但經(jīng)常需要組合理解,因此k1和k4存在并列組合關(guān)系。學習者練習k1,可以加深對k4的理解,加強對k2的掌握。此外,時間方面,知識掌握程度會隨著時間的推移而衰減[3],即學習者對知識的掌握程度會由于缺乏練習導致生疏和遺忘,也能通過練習得到鞏固和強化[4]。如圖1所示,k1長時間未得到練習,因而時間步t4時k1的知識掌握水平低于時間步t1時的知識掌握水平。
如上所述,知識狀態(tài)受知識相互作用和時間的雙重影響。知識相互作用方面,知識認知任務中的知識結(jié)構(gòu)蘊涵知識間相似性、依賴性等豐富信息,使用明確的結(jié)構(gòu)有助于提高模型性能和可解釋性[5]。例如,KSGKT[6]和HIN-KT[7]引入知識結(jié)構(gòu)緩解數(shù)據(jù)稀疏性問題,GKT[8]基于知識結(jié)構(gòu)建模知識間的相互作用。上述模型在構(gòu)建知識結(jié)構(gòu)時只考慮了先決條件,沒有深入探索概念間的多種關(guān)系。DKTMR[9]和SKT[10]構(gòu)建了包含有向和無向關(guān)系的知識結(jié)構(gòu)圖,但是忽略了知識間上位學習和并列組合學習兩種關(guān)系。其次,建模影響傳播的模型僅使用簡單門控機制建模遺忘,忽視了時間信息的影響。時間方面,考慮時間因素有助于準確模擬學習者知識狀態(tài)演化過程[11]。例如,HawkesKT[12]和RKT[13]使用核函數(shù)模擬時間效應;LPKT[14]和GFLDKT[15]改進門控機制。然而,有意義的學習和遺忘依賴于建立新舊知識間的聯(lián)系[2],上述模型主要關(guān)注單個知識的時間信息,并未對交互序列中涉及的知識關(guān)系建模??偟膩碚f,現(xiàn)有研究存在以下三個問題:a)未建模上位學習和并列組合學習兩種相互作用;b)建模知識相互作用的模型未考慮時間信息;c)建模學習遺忘的模型未考慮知識相互作用。
為了解決上述問題,本文存在以下挑戰(zhàn):a)如何從數(shù)據(jù)集中挖掘三種關(guān)系。概念間的三種關(guān)系是學習者認知同化的三種主要方式,但數(shù)據(jù)集中并未明確給出三種關(guān)系信息,因此如何根據(jù)三種關(guān)系的定義構(gòu)建概率統(tǒng)計公式以挖掘交互序列中蘊涵的概念間關(guān)系信息是本文有待解決的挑戰(zhàn)之一。b)如何建模概念間的多種相互作用。概念間的影響多樣且復雜,現(xiàn)有研究要么只考慮一種影響,要么通過構(gòu)建多個圖以建模多種影響,本文引入門控圖神經(jīng)網(wǎng)絡(GGNN)[16],利用表示概念間關(guān)系的邊類型建模對應影響傳播方式。該方法具有兩個優(yōu)點:(a)使用邊類型能有效表示不同關(guān)系類型并便于創(chuàng)建不同影響傳播方式;(b)GGNN允許每個節(jié)點對相鄰節(jié)點既接收信息又發(fā)送信息,可應用于有向圖和無向圖的影響傳播,無須建構(gòu)多個圖。c)如何建模知識狀態(tài)受知識相互作用和時間兩方面影響。知識相互作用和時間是影響學習者知識掌握程度的兩個關(guān)鍵認知過程,本文在聚合概念節(jié)點特征的基礎(chǔ)上加入時間信息以更新節(jié)點特征,能夠有效且合理地建模學習者認知過程,提高模型的預測精度。
為此,本文提出了一種新的知識追蹤方法,即多關(guān)系和時間增強的知識追蹤模型(MRTKT)。具體地說,建模知識相互作用方面,首先根據(jù)認知同化理論對三種關(guān)系的定義,基于數(shù)據(jù)集信息以統(tǒng)計學的方式深入挖掘知識間關(guān)系,給出三種關(guān)系的計算方式;其次引入GGNN,利用表示知識間不同關(guān)系類型的邊建模對應影響傳播方式。建模學習遺忘作用方面,使用融合時間信息的門控機制更新受知識相互作用影響后的知識狀態(tài)。
綜上,本研究的主要貢獻可以總結(jié)為
a)本文利用認知同化理論豐富了現(xiàn)有知識追蹤任務中知識結(jié)構(gòu)的拓撲信息,引入上位學習、下位學習以及并列組合學習三種知識間關(guān)系,并給出使用統(tǒng)計學方式計算得到這三種關(guān)系的方法,更好地構(gòu)建了知識結(jié)構(gòu)。
b)模型通過顯式建模三種知識間相互作用以追蹤學習者知識狀態(tài)隨交互行為的演變過程。為了對知識間的多種關(guān)系進行建模,利用邊類型表示不同影響傳播關(guān)系,使用GGNN網(wǎng)絡建模知識狀態(tài)受知識相互作用影響的演化過程。
c)在建模知識相互作用的基礎(chǔ)上同時考慮遺忘和學習規(guī)律,使用門控機制融合時間特征模擬時間影響。從知識相互作用和時間兩方面充分挖掘?qū)W習者學習過程的特征,從而更合理有效地建模學習者知識狀態(tài)演化過程。
d)在真實世界數(shù)據(jù)集上進行大量實驗,結(jié)果表明MRTKT的性能顯著優(yōu)于當前主流知識追蹤模型。消融實驗證明建模知識相互作用以及學習遺忘作用的有效性,模型為理解學習者知識狀態(tài)提供可信服解釋。
1 相關(guān)工作
BKT[17]、DKT[18]和DKVMN[19]分別使用隱馬爾可夫模型(HMM)、循環(huán)神經(jīng)網(wǎng)絡(RNN)和改進的記憶增強網(wǎng)絡(MANN)動態(tài)追蹤學習者知識狀態(tài),在結(jié)果預測方面取得良好效果。但上述模型仍然存在兩方面不足:a)不能處理知識結(jié)構(gòu)表示,造成知識間關(guān)系信息遺失;b)沒有建?;蛘邇H通過簡單的門控機制模擬學習遺忘過程,導致時間信息并未充分利用。本章將從建模知識間關(guān)系的知識追蹤模型、建模學習遺忘的知識追蹤模型以及門控圖神經(jīng)網(wǎng)絡三方面進行相關(guān)工作回顧,旨在討論現(xiàn)有模型的局限以及與本文工作的不同之處,同時介紹門控圖神經(jīng)網(wǎng)絡在知識追蹤中的應用。
1.1 考慮知識間關(guān)系的知識追蹤模型
為了解決數(shù)據(jù)稀疏性和信息丟失問題,PDKT-C[20]將知識間先決關(guān)系建模為約束條件,KSGKT[6]和Bi-CLKT[21]構(gòu)建包含知識間關(guān)聯(lián)關(guān)系的圖并分別通過Metapath2Vec方式和對比自監(jiān)督學習技術(shù)獲得問題嵌入。這些模型取得顯著成效,但其有效性局限于利用知識結(jié)構(gòu)豐富問題表征。有研究深入探索并應用知識間結(jié)構(gòu)關(guān)系,APGKT[22]對技能圖和問題圖應用圖卷積神經(jīng)網(wǎng)絡(GCN)獲得聚合的問題嵌入,DGMN[23]基于動態(tài)值矩陣構(gòu)建潛在知識圖并使用GCN動態(tài)學習潛在知識之間的關(guān)系。這些模型在利用結(jié)構(gòu)關(guān)系信息方面更加深入,但沒有細分知識間不同關(guān)系的相互影響。少數(shù)研究建模知識間相互作用,GKT[8]直接建模每個知識的知識狀態(tài),引入圖神經(jīng)網(wǎng)絡(GNN)根據(jù)知識間關(guān)系聚合信息;SKT[10]通過構(gòu)建有向圖和無向圖來表示不同學習遷移方式,并分別對兩個圖使用部分傳播和同步傳播的方式聚合節(jié)點信息。這兩個模型僅考慮了上位概念對下位概念的影響,且并未深入挖掘數(shù)據(jù)集中的時間信息,不能準確模擬學習者認知過程,導致預測結(jié)果不準確。
1.2 考慮學習遺忘的知識追蹤模型
有研究關(guān)注記憶的內(nèi)容隨時間推移遞減的過程,ERL[24]集成包括遺忘行為等四種特征生成嵌入接口,HawkesKT[12]和RKT[13]采用指數(shù)函數(shù)作為核函數(shù)。有研究關(guān)注記憶內(nèi)容隨練習次數(shù)而逐漸鞏固的過程,CAKT[25]顯式建模學習曲線理論,使用三維卷積神經(jīng)網(wǎng)絡獲取學習者近期對知識的掌握水平。也有研究綜合考慮學習和遺忘對記憶的影響,KPT[26]定義了學習和遺忘因子計算公式,并使用參數(shù)平衡兩者以捕捉學習特點,KTM-DLF[27]利用因子分解機來整合學習遺忘因素,DKT+Forgetting[28]簡單地將時間因素整合到RNN中,LPKT[14]基于時間信息、知識狀態(tài)以及學習增益設計學習門和遺忘門,CF-DKD[29]使用學習門和遺忘門自適應融合學習特征和遺忘特征,GFLDKT[15]通過設計兩種門控機制來明確建模遺忘和學習行為。上述模型均未考慮知識間相互影響,對學習者認知過程的建模不全面。
1.3 GGNN
Gilmer等[30]通過抽象圖形結(jié)構(gòu)數(shù)據(jù)模型的共性提出消息傳遞神經(jīng)網(wǎng)絡(MPNN),指出圖神經(jīng)網(wǎng)絡是一個鄰居聚合策略,表示節(jié)點的向量由其鄰居節(jié)點通過聚合計算得來。GGNN作為一種經(jīng)典的消息傳遞模型,具有能夠雙向傳遞信息和允許多關(guān)系傳播的優(yōu)點,并已在多個領(lǐng)域得到成功運用。例如,SR-GNN[31]基于會話圖使用GGNN捕捉上下文之間項目的復雜轉(zhuǎn)換,解決了以往推薦模型中連續(xù)項目之間的單向轉(zhuǎn)換問題;Gilmer等人[30]將MPNN應用于分子性質(zhì)預測,根據(jù)化學鍵類型模擬原子之間的消息傳遞過程,取得成功。類似消息傳遞過程,認知過程中學習者通過整合相關(guān)舊知識更新并獲得新知識。SGKT[32]利用GGNN能夠雙向傳遞信息的優(yōu)點將GGNN應用于會話圖以獲取學習者知識隱藏狀態(tài)。
1.4 本研究與現(xiàn)有研究的不同
綜上,知識相互作用方面,建模知識間影響傳播的研究未建模知識間上位學習以及并列組合學習兩種相互作用,且并未挖掘時間信息建模遺忘過程,限制了模型表現(xiàn);時間方面,上述模型在建模學習遺忘作用時未考慮知識間關(guān)系,影響模型表現(xiàn);GGNN應用方面,目前尚未有知識追蹤研究將GGNN應用于建模知識間多種影響傳播。
本文方法與現(xiàn)有研究的不同之處如下:首先,本文方法從數(shù)據(jù)集中挖掘知識點間上位學習、下位學習以及并列組合學習三種關(guān)系。其次,本文方法充分利用GGNN允許多種邊類型的優(yōu)點,以邊表示概念間關(guān)系類型,建模知識間三種相互作用,當前節(jié)點及其鄰居節(jié)點通過邊相互傳遞信息,使得每個節(jié)點同時捕獲當前時間步長中自身的特征及鄰居節(jié)點的特征。最后,本文方法應用融合時間特征的門控機制更新節(jié)點信息。
綜上所述,本文基于教育心理學的認知同化理論,提出從數(shù)據(jù)集中自動挖掘三種關(guān)聯(lián)關(guān)系的方法,并引入GGNN建模概念間的多種影響傳播,增強了模型的可解釋性;此外,基于遺忘和學習規(guī)律,本文在建模知識相互作用的基礎(chǔ)上融入時間信息以更新節(jié)點特征,能更合理有效地建模學習者認知過程,提高模型預測性能。
2 前置工作
2.1 問題定義
MRTKT使用監(jiān)督學習框架,通過預測學習者作答情況追蹤學習者知識狀態(tài),其任務描述如下:給定學習者i的T次作答交互序列Xi=(x1,x2,…,xT),其中xt是一個包含題目和答題結(jié)果的作答交互元組(et,at),et表示在時間戳t處作答的題目,at∈{0,1}表示題目et是否回答正確(1表示回答正確,0表示回答錯誤)。MRTKT假設學習者答題過程為有意義學習,模型目標如下:a)追蹤學習者知識狀態(tài)ht,即建模知識掌握程度隨時間的演變;b)預測學習者對題目et的作答情況at,即預測學習者正確作答題目et的概率p=(at=1|et,X)。
2.2 知識結(jié)構(gòu)
2.3 知識間關(guān)系
下位關(guān)系即知識間的類屬關(guān)系可以由專家手動標記[20],也可以通過統(tǒng)計等方法自動完成[8,33]。由于專家標注方法耗時耗力且?guī)в兄饔^偏見,本文選擇統(tǒng)計方法識別知識關(guān)系。類屬關(guān)系可以根據(jù)當一個知識被掌握時,它被轉(zhuǎn)移到另一個知識的概率獲得,例如表示長方形面積Srectangle=ab、正方形面積Ssquare=a2的知識i、j間存在類屬關(guān)系,當學習者掌握知識i后可以幫助理解知識j。具體計算如式(1)所示,Nij表示在學習者作答交互序列中知識j在i被正確回答后被正確回答的次數(shù),Tij表示知識i到j的轉(zhuǎn)換概率,即知識i對j的影響。將閾值設置為λ1以獲得邊,刪除圖中的循環(huán)以獲得有向無環(huán)圖。上位關(guān)系即知識間的總括關(guān)系,由于每個節(jié)點的入邊被表示下位關(guān)系,直觀地,每個節(jié)點的出邊則表示上位關(guān)系。
并列組合關(guān)系表示知識間的并列關(guān)系,可以根據(jù)各知識被同時包含于同一題目的概率構(gòu)建,例如對具有并列組合關(guān)系的知識面積S、長度L的考察通常包括在同一題目中,因此選擇計算共現(xiàn)概率。參考SEEP[34]計算如式(2)所示,Q表示題目-知識矩陣,每一行表示每道題目所涉及的知識,Q:,i表示Q的第i列,C表示共現(xiàn)視角下知識間的關(guān)系,即C的每個元素表示知識i和知識j同時出現(xiàn)在同一道題目的概率,表示逐元素乘積,·1表示1范式。由于并列組合學習是在新知識與原有知識既非類屬關(guān)系又非總括關(guān)系時產(chǎn)生的,所以刪除表示上位關(guān)系和下位關(guān)系的邊。對C進行最大值-最小值縮放歸一化得到∈{0,1}|V|×|V|,設置閾值為λ2。
(2)
3 MRTKT模型
MRTKT模型主要由特征嵌入、知識間多種關(guān)系的消息傳播、學習遺忘作用更新模塊和預測模塊四部分組成。具體來說,特征嵌入模塊集成知識和對應狀態(tài)嵌入作為輸入向量,并將重復延遲、序列延遲以及重復次數(shù)三個時間特征通過2個多層感知機分別生成2個特征向量作為門控機制輸入向量;知識間多種關(guān)系的消息傳播模塊使用GGNN根據(jù)邊類型聚合相關(guān)知識信息,模擬知識間相互作用;學習遺忘作用更新模塊使用類似GRU的機制并考慮時間特征更新隱藏狀態(tài);預測模塊預測學習者作答反饋。圖3展示,MRTKT的模型體系結(jié)構(gòu)。
3.1 特征嵌入
現(xiàn)有研究表明[24,28,29],影響學習者對知識掌握程度的時間特征主要為重復時間間隔Δrt、序列時間間隔Δst和過去重復次數(shù)Δct。重復時間間隔指同一知識重復時間間隔;序列時間間隔指學習交互序列中相鄰知識時間間隔;過去重復次數(shù)指同一知識在當前時刻前交互總數(shù)。為了將時間特征引入門控機制以更好地建模學生的遺忘過程,本文由上述三個特征計算得到兩個與時間有關(guān)的向量ttz和ttr。具體地說,把三個時間特征拼接并通過線性層后得到更新門時間特征
3.5 實現(xiàn)方法
MRTKT將概念、作答情況、時間信息等作為模型輸入,并輸出預測的作答情況,具體實驗步驟如下:
a)構(gòu)建包含三種知識間關(guān)系的知識結(jié)構(gòu)。利用學習者作答交互序列得到轉(zhuǎn)移概率,據(jù)此得到知識間的上位關(guān)系和下位關(guān)系。然后,根據(jù)數(shù)據(jù)集中給出的題目和概念信息計算得到共現(xiàn)概率,據(jù)此得到知識間的并列組合關(guān)系。根據(jù)上述得到的知識間關(guān)系可以構(gòu)建包含上位關(guān)系、下位關(guān)系和并列組合關(guān)系的知識結(jié)構(gòu)鄰接矩陣。
b)獲取特征嵌入向量。對數(shù)據(jù)集中學習者作答交互記錄進行編碼,得到交互向量。將從數(shù)據(jù)集中計算得到的時間信息輸入多層感知機得到兩個時間向量。
c)建模根據(jù)多種關(guān)系進行消息傳播。根據(jù)構(gòu)建的知識結(jié)構(gòu)中包含的關(guān)系信息,利用式(2)計算得到每個概念對應的消息向量mtk。
d)建模根據(jù)學習遺忘效應進行知識狀態(tài)更新。將時間特征和消息向量輸入GRU中,結(jié)合學習者交互向量和前一刻知識狀態(tài),通過式(6)(7)計算得到當前時刻的知識狀態(tài)htk。
e)預測學習者答題情況。利用式(8)將學習者當前時刻知識狀態(tài)輸入全連接層,使用非激活函數(shù)將值映射到0~1,得到學習者正確作答題目的概率。
4 實驗與結(jié)果分析
實驗旨在回答以下研究問題:a)MRTKT模型與最先進的知識追蹤模型相比表現(xiàn)如何?b)MRTKT模型中的不同組件(即知識相互作用和時間因素)對性能的影響如何?c)MRTKT模型的預測結(jié)果是否具有可解釋性?
4.1 數(shù)據(jù)集
使用以下三個公開數(shù)據(jù)集評估模型預測學習者回答新習題的表現(xiàn),數(shù)據(jù)集包含習題和學習者交互的豐富信息,表1為總結(jié)數(shù)據(jù)集的統(tǒng)計數(shù)據(jù)。
a)ASSIST2009:ASSISTment系統(tǒng)2009年到2010年收集的練習日志,包含4 163名學習者的交互記錄、17 751道與123個知識相關(guān)的習題信息,形成283 105條互動記錄。
b)ASSIST2017:ASSISTment系統(tǒng)收集的練習日志,用于2017數(shù)據(jù)挖掘競賽,包含1 709名學習者的交互記錄、3 162道與102個知識相關(guān)的習題信息,形成942 816條互動記錄。相較于其他ASSISTment數(shù)據(jù)集,該數(shù)據(jù)集具有更為豐富的練習記錄以及更高程度的完整性和正態(tài)性。
c)Algebra2005:認知代數(shù)輔導系統(tǒng)2005年至2006年收集的練習日志,用于KDDcup 2010教育數(shù)據(jù)挖掘挑戰(zhàn)賽,包含574名學習者的交互記錄、1 084道與436個知識相關(guān)的習題信息,形成607 025條互動記錄。
4.2 訓練細節(jié)和評估指標
a)數(shù)據(jù)集設置。每個數(shù)據(jù)集按照9∶1分為訓練集和測試集,使用訓練集學習模型參數(shù),測試集驗證模型效果。由于數(shù)據(jù)集中沒有提供知識間上位關(guān)系、下位關(guān)系和并列組合關(guān)系的數(shù)據(jù)信息,本文提供構(gòu)建上述三種關(guān)系的實現(xiàn)(3.3節(jié))。
b)訓練參數(shù)設置。隱藏狀態(tài)的嵌入維度d被設置為32,處理批次設置為32,交互序列最長長度設置為100,使用Adam優(yōu)化器優(yōu)化模型參數(shù),其中l(wèi)r=0.001。在ASSIST2009和ASSIST2017中,λ1和λ2設置為0.2;在Algebra2005中,λ1和λ2分別設置為0.04和0.5。本文模型使用PyTorch實現(xiàn)。
c)評估指標選取。從分類角度,選擇現(xiàn)有研究中廣泛使用的曲線下面積(AUC)和精度(ACC)作為評估預測結(jié)果有效性的指標[36],設置0.5作為精度計算的閾值;從比較模型性能角度,選擇Delong檢驗計算次優(yōu)模型和本模型的z-score和p-value作為檢驗AUC顯著性的指標[37]。其中,AUC以及ACC的值越大,表示模型性能越好;|z|gt;1.96且plt;0.05表示兩模型的AUC具有顯著性差別。
4.3 對比模型
MRTKT模型與以下8個模型進行比較。
a)DKT[18]:使用循環(huán)神經(jīng)網(wǎng)絡追蹤學生知識狀態(tài)。
b)DKVMN[19]:受記憶增強神經(jīng)網(wǎng)絡啟發(fā),設置靜態(tài)鍵矩陣和動態(tài)值矩陣追蹤學生知識狀態(tài)。
c)GKT[8]:引入圖神經(jīng)網(wǎng)絡捕獲知識關(guān)聯(lián)關(guān)系。
d)DKT+Forgetting[28]:在DKT的基礎(chǔ)上添加遺忘特征優(yōu)化遺忘機制。
e)SAKT[38]:使用自注意力機制追蹤學生知識狀態(tài)。
f)SKT[10]:在GKT的基礎(chǔ)上融入學習遷移理論改進知識間相互影響方式。
g)HawkesKT[12]:引入霍克斯過程解決時間交叉效應。
h)CL4KT[39]:引入對比學習技術(shù)以增強隱藏狀態(tài)表示。
4.4 實驗結(jié)果(RQ1)
模型性能是衡量模型可靠性的重要指標,為了評估MRTKT是否具有優(yōu)越的性能,本文從精度、可擴展性、過擬合三方面設計實驗進行探討。
本實驗在三個公開數(shù)據(jù)集上比較了MRTKT與其他八個基線模型,得到性能預測任務的RMSE、r2、AUC和ACC結(jié)果如表2所示,通過觀察和分析可知:a)相比其他基線模型,MRTKT在所有數(shù)據(jù)集和評價指標上均取得更為優(yōu)秀的結(jié)果,且其AUC的p值均小于0.05,結(jié)果表明考慮知識相互作用和時間的MRTKT更貼合學習者認知過程,能更好地提高預測性能。b)從建模知識相互作用角度分析,顯式地利用知識結(jié)構(gòu)和影響傳播的GKT和SKT是對比模型中表現(xiàn)較好的兩個模型,結(jié)果表明知識關(guān)系及其相互影響確實為估計學習者知識狀態(tài)提供了豐富的有效信息。此外,構(gòu)建三種關(guān)系的MRTKT比僅構(gòu)建先決關(guān)系的GKT、僅構(gòu)建有向關(guān)系及無向關(guān)系的SKT表現(xiàn)更好,說明引入知識間上位學習、下位學習以及并列組合學習三種關(guān)系確實豐富了知識結(jié)構(gòu)的拓撲信息,并能夠有效改善模型性能。c)從建模時間的角度分析,考慮遺忘特征的DKT+Forgetting和MRTKT比原來的DKT和GKT表現(xiàn)更好,驗證了引入時間相關(guān)因素對合理建模知識狀態(tài)演化的有效性。d)從綜合考慮兩個角度分析,相比DKT+Forgetting和HawkesKT只考慮遺忘特征、GKT和SKT只考慮知識間影響傳播而忽略遺忘特征,MRTKT通過利用GGNN實現(xiàn)知識間多種關(guān)系的影響傳播和融合時間信息的門控機制突出了MRTKT的性能優(yōu)勢。最后,觀察到所有模型對ASSIST2017數(shù)據(jù)集預測的AUC值是所有數(shù)據(jù)集中最低的,原因是該數(shù)據(jù)集包含的學習者行為差異較大,對知識追蹤任務提出更高要求,增加任務難度和復雜性。
此外,為了評估MRTKT是否具有可擴展性,在三個數(shù)據(jù)集上進行實驗,對每個數(shù)據(jù)集設置了五種劃分比例(50%、60%、70%、80%、90%)以比較不同比例的模型預測性能,得到圖4所示結(jié)果,其中x軸表示數(shù)據(jù)集劃分比例,y軸表示對應的評價指標值。觀察圖4可知,隨著訓練數(shù)據(jù)比例的增加,AUC、ACC以及皮爾森相關(guān)系數(shù)(r2)的值逐漸升高,均方根誤差(RMSE)的值逐漸降低,實驗結(jié)果得到改善,說明MRTKT在不同數(shù)據(jù)集的特征分布上均具有良好的可擴展性。
最后,為了探究MRTKT是否存在過擬合問題,實驗選擇表現(xiàn)最好的對比模型SKT作為對照,圖5顯示了模型在三個數(shù)據(jù)集上訓練集和測試集的損失值變化趨勢,其中x軸表示迭代次數(shù),y軸表示損失值,觀察可得如下兩個結(jié)果。a)雖然SKT的訓練損失值與MRTKT基本重合,但測試損失值間仍有差距,尤其在ASSIST2017數(shù)據(jù)集上表現(xiàn)明顯(SKT訓練損失值與測試損失值之間的距離為0.013 9,MRTKT為0.006 2),可知MRTKT能更好地避免過擬合問題。b)MRTKT的曲線平滑下降,沒有明顯波動??傮w而言,MRTKT的損失值平穩(wěn)下降,在第100步時達到穩(wěn)定的收斂值,能夠有效緩解過擬合問題,具有更好的泛化能力和更強的魯棒性。
4.5 消融實驗(RQ2)
為了評估MRTKT中知識間影響傳播和遺忘特征對性能的影響,設置兩種模型變體,每種變體分別只考慮完整模型中的知識相互作用或時間因素。具體地說,MRTKT w/o time表示只考慮知識間多種關(guān)系的影響傳播,目的是評估時間因素對MRTKT性能的影響;MRTKT w/o relation表示只考慮學習遺忘特征,目的是評估考慮知識相互作用對MRTKT性能的影響。其中,MRTKT w/o time的門控機制輸入向量不包含重復時間間隔Δrt、序列時間間隔Δst和過去重復次數(shù)Δct三個時間信息,對學習遺忘的模擬只依賴簡單的類GRU門控機制;MRTKT w/o relation不建模知識結(jié)構(gòu)以及知識間多種關(guān)系的影響傳播,假設知識間彼此獨立互不影響。
實驗結(jié)果記錄于表3,分析可得如下三個觀察結(jié)果。a)通過比較MRTKT和MRTKT w/o relation可得知識相互作用的影響,在ASSIST2009、ASSIST2017和Algebra2005三個數(shù)據(jù)集中,AUC分別提高了0.34%、1.39%和0.5%,說明盡管時間信息能影響學習者認知過程,但知識彼此獨立假設違背了知識相互影響的常識,忽略知識相互作用會導致預測結(jié)果的不準確。b)通過比較MRTKT和MRTKT w/o time可得時間因素的影響,在ASSIST2009、ASSIST2017和Algebra2005三個數(shù)據(jù)集中,AUC分別提高了0.39%、1.83%和0.72%,說明學習遺忘現(xiàn)象是刻畫知識狀態(tài)演化的重要因素,使用簡單的門控機制限制了模型捕捉更精確的學習過程和遺忘過程的能力,可以通過加入時間信息來改善。c)MRTKT在三個模型中表現(xiàn)最好,說明在建立知識追蹤模型時,考慮知識間相互作用和時間至關(guān)重要。
4.6 模型可解釋性(RQ3)
為了探究知識狀態(tài)在知識相互作用和時間下演化的合理性,實驗隨機選擇ASSIST2009數(shù)據(jù)集中的一條交互序列,使用熱圖可視化學習者知識狀態(tài)演化過程。圖6左圖的x軸顯示由知識編號及相應回答所組成的元組,y軸顯示交互序列中涉及的知識編號,圖6右圖表示交互序列中涉及的知識點的知識結(jié)構(gòu)。
由圖6左圖可得MRTKT對知識狀態(tài)的建模合理且一致。a)熱圖顯示的演化過程過渡相對平穩(wěn),沒有劇烈振蕩,表明學生知識狀態(tài)的演化符合常識,是連續(xù)且合理的。b)從知識相互作用的角度分析,知識狀態(tài)的變化并不孤立,而是相互關(guān)聯(lián)的,表明MRTKT能夠很好地捕捉知識間相互影響。例如,區(qū)域Ⅰ中知識48和24、31間存在并列組合關(guān)系,當48的熟練度得到提升,24和31的熟練度也得到不同程度的提升。類似的變化過程又如區(qū)域Ⅱ,知識44和1存在上下位學習關(guān)系,當44的熟練度由于答對而提高時,1的熟練度也相應提高。c)從時間角度分析,知識狀態(tài)的掌握程度并非一成不變的,而是隨練習次數(shù)及時間變化的,表明MRTKT能夠很好地捕捉學習遺忘影響。例如,區(qū)域Ⅲ和Ⅳ中知識89和13與其他知識間不存在關(guān)聯(lián)關(guān)系,當學習者練習該知識時,知識狀態(tài)隨學習者作答反映變化,當學習者不練習該知識時,知識狀態(tài)由于遺忘作用導致熟練度遞減。因此,MRTKT可以有效建模知識狀態(tài)演化過程,能夠為知識追蹤提供可解釋的預測結(jié)果。
有意義的知識嵌入有能力發(fā)現(xiàn)知識之間的關(guān)系,可以將相關(guān)或相似知識聚類到一組,幫助教育者改進教學設計、優(yōu)化課程安排。實驗選擇ASSIST2017數(shù)據(jù)集發(fā)現(xiàn)相似知識,并聚類到不同集合中,如圖7所示。首先利用t-SNE方法將知識嵌入向量維度降維至2,其次使用K-means++方法將知識聚類為10組,最后可視化聚類結(jié)果。
由圖7可知,同一聚類中的知識基于某些特征彼此相似,聚類結(jié)果顯示出良好的意義。例如,“11:application: order of operations”“27:equation-solving”“62:order-of-operations”和“84:simple-calculation”被分到同一組,其皆與等式計算有關(guān)。類似的聚類又如,“25:division”“28:equivalent-fractions-decimals-percents”“67:percents”和“71:probability”被聚類為一組,其皆與概率百分比有關(guān)。盡管聚類結(jié)果并非全部準確無誤,但可以證明MRTKT在發(fā)現(xiàn)相似知識方面是有效的,教育者可以參考聚類結(jié)果安排相近知識的教學活動以促進學習者理解掌握,將模型自動學習的知識表示作為計算機輔助教育教學的有力補充。
5 結(jié)束語
本文提出了一種新的解決知識追蹤問題的方法,該方法綜合考慮知識相互作用和時間對學習者知識狀態(tài)的影響,兼具高性能和可解釋性。MRTKT在傳統(tǒng)關(guān)注知識結(jié)構(gòu)的知識追蹤模型基礎(chǔ)上,引入三種知識間相互作用和學習遺忘作用作為補充,同時從兩個角度分析學習過程。知識相互作用方面,首先根據(jù)數(shù)據(jù)集信息計算得到概念間三種關(guān)系,其次使用GGNN模擬知識點間三種相互作用的影響傳播行為;時間方面,構(gòu)建融入三種時間信息的類GRU門模擬學習和遺忘對知識掌握的影響。本文在三個數(shù)據(jù)集上進行多項實驗,結(jié)果表明MRTKT可以追蹤到更符合真實情況的學習者知識狀態(tài)變化,在追蹤預測任務上有更好的表現(xiàn)。
未來研究筆者將進一步探索影響學習者認知演化的因素,以期提出更貼合學習者認知過程的方法,提升模型性能。宏觀層面,精準教學可以高效地促進學習者個性化成長,是當前教育界的理想訴求,知識追蹤作為實施精準教學的重要工具,對學習者知識狀態(tài)的細粒度診斷能夠為精準教學的實施和學習者的個性化培養(yǎng)提供更為全面的數(shù)據(jù)支撐,因此本文工作具有長遠意義。
參考文獻:
[1]Abdelrahman G, Wang Qing, Nunes B. Knowledge tracing: a survey[J]. ACM Computing Surveys, 2023, 55(11): 1-37.
[2]Ausubel D P. The acquisition and retention of knowledge: a cognitive view[M]. Springer Science amp; Business Media, 2012.
[3]Averell L, Heathcote A. The form of the forgetting curve and the fate of memories[J]. Journal of mathematical psychology, 2011, 55(1): 25-35.
[4]Anzanello M J, Fogliatto F S. Learning curve models and applications: literature review and research directions[J]. International Journal of Industrial Ergonomics, 2011, 41(5): 573-583.
[5]Battaglia P W, Hamrick J B, Bapst V, et al. Relational inductive bia-ses, deep learning, and graph networks[EB/OL]. (2018-06-04). https://arxiv.org/abs/806.01261.
[6]Gan Wenbin, Sun Yuan, Sun Yi. Knowledge structure enhanced graph representation learning model for attentive knowledge tracing[J]. International Journal of Intelligent Systems, 2022, 37(3): 2012-2045.
[7]Xu Jia, Huang Xinyue, Xiao Teng, et al. Improving knowledge tra-cing via a heterogeneous information network enhanced by student interactions[J]. Expert Systems with Applications, 2023, 232: 120853.
[8]Nakagawa H, Iwasawa Y, Matsuo Y. Graph-based knowledge tra-cing: modeling student proficiency using graph neural network[C]//Proc of IEEE/WIC/ACM International Conference on Web Intelligence. 2019: 156-163.
[9]Duan Zhiyi, Dong Xiaoxiao, Gu Hengnian, et al. Towards more accurate and interpretable model: fusing multiple knowledge relations into deep knowledge tracing[J]. Expert Systems with Applications, 2024, 243: 122573.
[10]Tong Shiwei, Liu Qi, Huang Wei, et al. Structure-based knowledge tracing: an influence propagation view[C]//Proc of IEEE International Conference on Data Mining. Piscataway,NJ:IEEE Press, 2020: 541-550.
[11]Pelánek R. Modeling students’ memory for application in adaptive educational systems[M]// International Educational Data Mining Society. 2015.
[12]Wang Chenyang, Ma Weizhi, Zhang Min, et al. Temporal cross-effects in knowledge tracing[C]//Proc of the 14th ACM International Conference on Web Search and Data Mining. 2021: 517-525.
[13]Pandey S, Srivastava J. RKT: relation-aware self-attention for know-ledge tracing[C]//Proc of the 29th ACM International Conference on Information amp; Knowledge Management. New York:ACM Press, 2020: 1205-1214.
[14]Shen Shuanghong, Liu Qi, Chen Enhong, et al. Learning process-consistent knowledge tracing[C]//Proc of the 27th ACM SIGKDD Conference on Knowledge Discovery amp; Data Mining. New York:ACM Press, 2021: 1452-1460.
[15]Zhao Weizhong, Xia Jun, Jiang Xingpeng, et al. A novel framework for deep knowledge tracing via gating-controlled forgetting and learning mechanisms[J]. Information Processing amp; Management, 2023, 60(1): 103114.
[16]Ruiz L, Gama F, Ribeiro A. Gated graph recurrent neural networks[J]. IEEE Trans on Signal Processing, 2020, 68: 6303-6318.
[17]Corbett A T, Anderson J R. Knowledge tracing: modeling the acquisition of procedural knowledge[J]. User Modeling and User-Adapted Interaction, 1994, 4: 253-278.
[18]Piech C, Bassen J, Huang J, et al. Deep knowledge tracing[C]//Proc of Advances in Neural Information Processing Systems. 2015.
[19]Zhang Jiani, Shi Xingjian, King I, et al. Dynamic key-value memory networks for knowledge tracing[C]//Proc of the 26th International Conference on World Wide Web. 2017: 765-774.
[20]Chen Penghe, Lu Yu, Zheng V W, et al. Prerequisite-driven deep knowledge tracing[C]//Proc of IEEE International Conference on Data Mining. Piscataway,NJ:IEEE Press, 2018: 39-48.
[21]Song Xiangyu, Li Jianxin, Lei Qi, et al. Bi-CLKT: bi-graph contrastive learning based knowledge tracing[J]. Knowledge-Based Systems, 2022, 241: 108274.
[22]Zhang Haotian, Bu Chenyang, Liu Fei, et al. APGKT: exploiting associative path on skills graph for knowledge tracing[C]//Proc of Pacific Rim International Conference on Artificial Intelligence. Cham: Springer, 2022: 353-365.
[23]Abdelrahman G, Wang Qing. Deep graph memory networks for forgetting-robust knowledge tracing[J]. IEEE Trans on Knowledge and Data Engineering, 2022, 35(8): 7844-7855.
[24]He Liangliang, Tang Jintao, Li Xiao, et al. Multi-type factors representation learning for deep learning-based knowledge tracing[J]. World Wide Web, 2022, 25(3): 1343-1372.
[25]Su Hang, Liu Xin, Yang Shanghui, et al. Deep knowledge tracing with learning curves[J]. Frontiers in Psychology, 2023, 14: 1150329.
[26]Huang Zhenya, Liu Qi, Chen Yuying, et al. Learning or forgetting? A dynamic approach for tracking the knowledge proficiency of students[J]. ACM Trans on Information Systems, 2020, 38(2): 1-33.
[27]Gan Wenbin, Sun Yuan, Peng Xian, et al. Modeling learner’s dynamic knowledge construction procedure and cognitive item difficulty for knowledge tracing[J]. Applied Intelligence, 2020, 50: 3894-3912.
[28]Nagatani K, Zhang Qian, Sato M, et al. Augmenting knowledge tra-cing by considering forgetting behavior[C]//Proc of World Wide Web Conference. 2019: 3101-3107.
[29]Huang Tao, Yang Huali, Li Zhi, et al. A dynamic knowledge diagnosis approach integrating cognitive features[J]. IEEE Access, 2021, 9: 116814-116829.
[30]Gilmer J, Schoenholz S S, Riley P F, et al. Neural message passing for quantum chemistry[C]//Proc of International Conference on Machine Learning. [S.l.]:PMLR, 2017: 1263-1272.
[31]Wu Shu, Tang Yuyuan, Zhu Yanqiao, et al. Session-based recommendation with graph neural networks[C]//Proc of AAAI Conference on Artificial Intelligence. 2019: 346-353.
[32]Wu Zhengyang, Huang Li, Huang Qionghao, et al. SGKT: session graph-based knowledge tracing for student performance prediction[J]. Expert Systems with Applications, 2022, 206: 117681.
[33]Shen Shuanghong, Chen Enhong, Liu Qi, et al. Monitoring student progress for learning process-consistent knowledge tracing[J]. IEEE Trans on Knowledge and Data Engineering, 2022, 35(8): 8213-8227.
[34]Wang Wentao, Ma Huifang, Zhao Yan, et al. SEEP: Semantic-enhanced question embeddings pre-training for improving knowledge tracing[J]. Information Sciences, 2022, 614: 153-169.
[35]張鵬, 文磊. F-TCKT:融合遺忘因素的深度時序卷積知識追蹤模型[J]. 計算機應用研究, 2023, 40(4): 1070-1074. (Zhang Peng, Wen Lei. F-TCKT: deep temporal convolutional knowledge tracking model with forgetting factors [J]. Application Research of Computers, 2023, 40(4): 1070-1074.)
[36]張維,李志新,龔中偉,等. 練習嵌入和學習遺忘特征增強的知識追蹤模型[J].計算機應用研究, 2024, 41(11): 3265-3271. (Zhang Wei, Li Zhixin, Gong Zhongwei, et al. Exercise embeddings and learning-forgetting features boosted knowledge tracing [J]. Application Research of Computers, 2024, 41(11): 3265-3271.)
[37]DeLong E R, DeLong D M, Clarke-Pearson D L. Comparing the areas under two or more correlated receiver operating characteristic curves: a nonparametric approach[J]. Biometrics, 1988,8: 837-845.
[38]Pandey S, Karypis G. A self-attentive model for knowledge tracing[EB/OL]. (2019-07-16). https://arxiv.org/abs/1907.06837.
[39]Lee W, Chun J, Lee Y, et al. Contrastive learning for knowledge tracing[C]//Proc of ACM Web Conference. New York:ACM Press, 2022: 2330-2338.