趙 琰,馬慧芳,王文濤,童海斌,賀相春
(1.西北師范大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,甘肅 蘭州 730070;2.西北師范大學(xué)教育技術(shù)學(xué)院,甘肅 蘭州 730070)
近年來(lái),隨著大規(guī)模在線開(kāi)放課程MOOC(Massive Open Online Course)[1]和在線評(píng)測(cè)OJ(Online Judge)系統(tǒng)[2]等教學(xué)輔助平臺(tái)的涌現(xiàn),用戶產(chǎn)生和積累的學(xué)習(xí)數(shù)據(jù)由平臺(tái)所收集。通過(guò)分析和挖掘這些教育數(shù)據(jù)來(lái)制定更好的教育教學(xué)方案是一項(xiàng)十分重要且富有挑戰(zhàn)性的任務(wù),因此受到了研究人員的廣泛關(guān)注[3]。其中,知識(shí)追蹤作為教育數(shù)據(jù)挖掘領(lǐng)域中的任務(wù)之一,旨在利用可觀測(cè)到的學(xué)生歷史交互數(shù)據(jù)來(lái)評(píng)估學(xué)生的動(dòng)態(tài)知識(shí)狀態(tài),從而為學(xué)生提供更好的、個(gè)性化的學(xué)習(xí)資源[4]。
隨著深度學(xué)習(xí)在自然語(yǔ)言處理、圖像識(shí)別等領(lǐng)域取得了不錯(cuò)的效果,許多研究人員將深度學(xué)習(xí)也應(yīng)用到知識(shí)追蹤方法中,主要可以歸納為以下2類(lèi):一類(lèi)是不使用專(zhuān)家標(biāo)注的習(xí)題與知識(shí)點(diǎn)之間的關(guān)聯(lián)信息而是直接對(duì)學(xué)生知識(shí)狀態(tài)進(jìn)行估計(jì)的方法。例如Piech等人[5]率先提出了深度知識(shí)追蹤DKT(Deep Knowledge Tracing)方法,將循環(huán)神經(jīng)網(wǎng)絡(luò)應(yīng)用于知識(shí)追蹤任務(wù)中,并特別提出利用長(zhǎng)短期記憶網(wǎng)絡(luò)LSTM(Long Short-Term Memory)[6]來(lái)追蹤學(xué)生知識(shí)水平隨時(shí)間的變化過(guò)程。此外,Zhang等人[7]采用記憶增強(qiáng)神經(jīng)網(wǎng)絡(luò)MANN(Memory Augmented Neural Network)提出動(dòng)態(tài)鍵值記憶網(wǎng)絡(luò)DKVMN(Dynamic Key-Value Memory Networks)方法。該方法用鍵矩陣和值矩陣分別存儲(chǔ)知識(shí)點(diǎn)信息和學(xué)生的知識(shí)狀態(tài)信息,通過(guò)特定的讀取與寫(xiě)入機(jī)制,可以直接評(píng)估學(xué)生隨時(shí)間變化的知識(shí)狀態(tài)信息。Ghosh等人[8]提出上下文感知的注意力機(jī)制知識(shí)追蹤AKT(Attentive Knowledge Tracing)方法,引入指數(shù)衰減項(xiàng)來(lái)計(jì)算注意力系數(shù),降低時(shí)間跨度較大的習(xí)題對(duì)最終預(yù)測(cè)的重要性。盡管上述方法在性能上優(yōu)于傳統(tǒng)知識(shí)追蹤方法,但都未對(duì)學(xué)生-習(xí)題空間、習(xí)題-知識(shí)點(diǎn)空間進(jìn)行深入分析,因此這些方法評(píng)估出的學(xué)生知識(shí)狀態(tài)不具有可解釋性。而隨著與知識(shí)追蹤相關(guān)研究的開(kāi)展,另一類(lèi)方法充分挖掘了學(xué)生-習(xí)題空間、習(xí)題-知識(shí)點(diǎn)空間之間的復(fù)雜交互關(guān)系。Huo等人[9]提出了一種帶有上下文信息的習(xí)題編碼方法LSTMCQ(LSTM based Contextualized Q- matrix),其加入習(xí)題和知識(shí)點(diǎn)之間的關(guān)聯(lián)信息得到嵌入上下文信息的CQ矩陣,進(jìn)而對(duì)知識(shí)點(diǎn)進(jìn)行上下文化。然而,這些方法都未對(duì)習(xí)題進(jìn)行細(xì)粒度的表示,使最終得到的學(xué)生知識(shí)狀態(tài)不夠準(zhǔn)確。
針對(duì)以上問(wèn)題,本文設(shè)計(jì)了可靠響應(yīng)表示增強(qiáng)的知識(shí)追蹤KTR(Knowledge Tracing via reliable response Representation)方法。該方法不僅捕獲了由學(xué)生-習(xí)題-知識(shí)點(diǎn)關(guān)系得到的學(xué)生-知識(shí)點(diǎn)空間的可靠性,且解決了其存在的高維稀疏性問(wèn)題,同時(shí)還區(qū)分了學(xué)生在習(xí)題上的作答情況,進(jìn)而得到可靠響應(yīng)表示。具體來(lái)說(shuō),首先基于學(xué)生的不同作答情況細(xì)粒度地劃分學(xué)生-習(xí)題空間,并利用其與習(xí)題-知識(shí)點(diǎn)空間的交互關(guān)系得到與作答情況對(duì)應(yīng)的2種學(xué)生-知識(shí)點(diǎn)空間;接著,從學(xué)生-知識(shí)點(diǎn)空間的相對(duì)可靠性和絕對(duì)可靠性2方面得到學(xué)生-知識(shí)點(diǎn)空間的可靠性,并利用維數(shù)約減方法獲得2種可靠且低維的學(xué)生-知識(shí)點(diǎn)空間;其次,結(jié)合學(xué)生在習(xí)題上的作答情況和構(gòu)建的可靠且低維的學(xué)生-知識(shí)點(diǎn)空間得到習(xí)題的可靠響應(yīng)表示;最后,基于長(zhǎng)短期記憶網(wǎng)絡(luò)LSTM和得到的可靠響應(yīng)表示對(duì)學(xué)生在不同時(shí)刻的知識(shí)狀態(tài)進(jìn)行追蹤。在4個(gè)真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文能夠有效地得到習(xí)題的可靠響應(yīng)表示,并且能較好地估計(jì)學(xué)生知識(shí)狀態(tài)。
此外,為了描述清晰起見(jiàn),本文涉及到的常用符號(hào)定義總結(jié)如表1所示。
Table 1 Commonly used notations definition表1 常用符號(hào)定義
習(xí)題的相關(guān)性建模和學(xué)生的作答情況建模是對(duì)學(xué)生實(shí)現(xiàn)個(gè)性化認(rèn)知診斷評(píng)估的重要因素。具體地,對(duì)于建模習(xí)題之間的相關(guān)性,Tatsuoka等人[10]最早在數(shù)學(xué)概念上研究習(xí)題-知識(shí)點(diǎn)空間Q的影響,利用Q來(lái)建模習(xí)題和知識(shí)點(diǎn)之間的聯(lián)系。在實(shí)際應(yīng)用中,通常由專(zhuān)家對(duì)Q進(jìn)行標(biāo)注,表明每一道習(xí)題所考察到的知識(shí)點(diǎn),如表2所示。
Table 2 Q matrix about the correlations between exercises and concepts表2 習(xí)題和知識(shí)點(diǎn)之間的關(guān)聯(lián)Q矩陣
此外對(duì)于建模學(xué)生的作答情況,常用的方法是利用學(xué)生-習(xí)題空間R去表征每一個(gè)學(xué)生與所有習(xí)題的交互情況,具體如表3所示。
Table 3 Students’ response matrix R表3 學(xué)生的響應(yīng)矩陣R
維數(shù)約減通過(guò)挖掘數(shù)據(jù)本質(zhì)規(guī)律、發(fā)現(xiàn)內(nèi)在關(guān)系,來(lái)簡(jiǎn)化數(shù)據(jù),減少計(jì)算成本,并且提高計(jì)算效率,其廣泛應(yīng)用于信號(hào)處理、模式識(shí)別和數(shù)字圖像處理等領(lǐng)域。
奇異值分解SVD(Singular Value Decomposition)是線性代數(shù)中的一種用于降低數(shù)據(jù)維度的矩陣分解技術(shù)。該技術(shù)通過(guò)發(fā)現(xiàn)重要維度的特征,從而減少在數(shù)據(jù)處理過(guò)程中不必要的屬性,在實(shí)際應(yīng)用場(chǎng)景中,通常抽取前10%的奇異值便能包含超過(guò)90%的信息大小[11]。
Figure 1 Framework of reliable response representation-enhanced knowledge tracing圖1 可靠響應(yīng)表示增強(qiáng)的知識(shí)追蹤方法框架
本節(jié)基于學(xué)生-習(xí)題空間和習(xí)題-知識(shí)點(diǎn)空間得到的學(xué)生-知識(shí)點(diǎn)空間,并考慮學(xué)生-知識(shí)點(diǎn)空間的相對(duì)可靠性和絕對(duì)可靠性,以及利用SVD維數(shù)約減方法構(gòu)建可靠且低維的學(xué)生-知識(shí)點(diǎn)空間。
Az=RzQ
(1)
其中,z∈{true,false}且Az∈RN×K。
Figure 2 Illustration of the relationship between three spaces圖2 3種空間之間的關(guān)系
然而,N個(gè)學(xué)生在特定知識(shí)點(diǎn)ck涉及的習(xí)題上作答數(shù)量不同,并且對(duì)于K個(gè)知識(shí)點(diǎn),特定學(xué)生si在這些知識(shí)點(diǎn)涉及的習(xí)題上作答數(shù)量也不同。直覺(jué)上,N個(gè)學(xué)生在知識(shí)點(diǎn)ck涉及的習(xí)題上的N個(gè)作答數(shù)量中,值越大的相對(duì)越可靠。同樣地,學(xué)生si在K個(gè)知識(shí)點(diǎn)涉及的習(xí)題上的K個(gè)作答數(shù)量中,值越大的也相對(duì)越可靠。因此,分別從學(xué)生和知識(shí)點(diǎn)角度獲得學(xué)生-知識(shí)點(diǎn)空間中元素的相對(duì)可靠性是很有必要的。
(2)
(3)
其中,I(·)表示指示函數(shù)。
然后,利用式(4)和式(5)分別獲得學(xué)生和知識(shí)點(diǎn)角度下,學(xué)生-知識(shí)點(diǎn)空間中元素對(duì)應(yīng)的相對(duì)可靠性:
(4)
(5)
其中,選擇y= 1- exp(-x)的目的在于該函數(shù)能夠合理地捕獲數(shù)值在區(qū)間[1,10]中元素的可靠性(即該區(qū)間中元素的值越大對(duì)應(yīng)的可靠性越高),而學(xué)生-知識(shí)點(diǎn)空間中不大于上述2種平均值的元素基本處于該區(qū)間內(nèi)。因此,式(4)和式(5)能夠合理地得到學(xué)生和知識(shí)點(diǎn)角度下,學(xué)生-知識(shí)點(diǎn)空間的相對(duì)可靠性,分別記為ASRRz和ACRRz。
此外,N個(gè)學(xué)生在K個(gè)知識(shí)點(diǎn)涉及的習(xí)題上有N×K個(gè)不同的作答數(shù)量,直覺(jué)上,作答數(shù)量越大,該值越可靠。因此,可由式(6)直接得到學(xué)生-知識(shí)點(diǎn)空間中每個(gè)元素的絕對(duì)可靠性:
(6)
其中,σ(·)表示Sigmoid函數(shù)。同樣地,可以獲得學(xué)生-知識(shí)點(diǎn)空間的絕對(duì)可靠性,記為AARz。
接著,基于學(xué)生-知識(shí)點(diǎn)空間的相對(duì)可靠性和絕對(duì)可靠性,得到可靠的學(xué)生-知識(shí)點(diǎn)空間,如式(7)所示:
ARELz=ANORz⊙ASRRz⊙ACRRz⊙AARz
(7)
其中,ANORz表示對(duì)Az進(jìn)行行歸一化和列歸一化,⊙表示不同空間中相同位置的元素相乘。
最后,考慮到學(xué)生-知識(shí)點(diǎn)空間的稀疏性和高維性,故利用SVD維數(shù)約減方法降維。因此,通過(guò)式(8)分解ARELz:
ARELz=N·Σ·KT
(8)
其中,N∈RN×N、Σ∈RN×K和K∈RK×K分別表示分解后的學(xué)生空間、對(duì)角值空間以及知識(shí)點(diǎn)空間。本文選擇Σ前N′個(gè)對(duì)角值所對(duì)應(yīng)在N中的行構(gòu)成N′∈RN′×N。至此,可靠且低維的學(xué)生-知識(shí)點(diǎn)空間可計(jì)算如下:
ASVDz=N′·ARELz
(9)
其中,ASVDz∈RN′×K中每一列表示對(duì)應(yīng)知識(shí)點(diǎn)的低維表示。
接下來(lái),將給出一種結(jié)合學(xué)生作答和可靠且低維的學(xué)生-知識(shí)點(diǎn)空間,以得到習(xí)題的可靠響應(yīng)表示方法。
已有的方法中,習(xí)題對(duì)應(yīng)的嵌入維度往往為習(xí)題數(shù)量的2倍,且用獨(dú)熱(one-hot)向量進(jìn)行表示。這導(dǎo)致習(xí)題向量高維且稀疏,從而使得方法預(yù)測(cè)學(xué)生水平的性能降低。為此,本節(jié)借助可靠且低維的學(xué)生-知識(shí)點(diǎn)空間以及學(xué)生作答來(lái)獲得每道習(xí)題在2種作答下的響應(yīng)表示。
(10)
對(duì)于3.2節(jié)得到的可靠響應(yīng)表示,本節(jié)將其作為L(zhǎng)STM的輸入,從而評(píng)估學(xué)生的知識(shí)狀態(tài)。如式(11)~式(16)所示:
(11)
(12)
(13)
(14)
ht=ot°tanh(ct)
(15)
(16)
因此,學(xué)生si在t時(shí)刻正確回答習(xí)題的概率如式(17)所示:
(17)
隨后,可使用交叉熵?fù)p失函數(shù)來(lái)擬合學(xué)生作答記錄和KTR方法預(yù)測(cè)結(jié)果之間的偏差。對(duì)于學(xué)生i的損失函數(shù)可建模為式(18)所示:
(18)
其中,rt表示學(xué)生在t時(shí)刻的真實(shí)作答記錄。在建立損失函數(shù)之后,本節(jié)利用隨機(jī)梯度下降SGD(Stochastic Gradient Descent)算法[12]來(lái)最小化損失函數(shù)。
綜合上述過(guò)程,得到KTR方法的偽代碼如算法1所示。
算法1 KTR方法輸入:學(xué)生集合S、習(xí)題集合E和知識(shí)點(diǎn)集合C,習(xí)題-知識(shí)點(diǎn)空間Q,學(xué)生-習(xí)題空間R。輸出:學(xué)生在t時(shí)刻正確回答下一道習(xí)題et的概率^rt。1:基于學(xué)生作答記錄的對(duì)錯(cuò)情況將學(xué)生-知識(shí)點(diǎn)空間R劃分為Rtrue和Rfalse;2:根據(jù)習(xí)題-知識(shí)點(diǎn)空間Q,利用式(1)得到作答為對(duì)或錯(cuò)的記錄對(duì)應(yīng)的學(xué)生-知識(shí)點(diǎn)空間Az;3:for i = 1 to N4: for k = 1 to K5: 利用式(2)和式(4)計(jì)算在學(xué)生角度下,學(xué)生-知識(shí)點(diǎn)空間的相對(duì)可靠性ASRRzik;6: 利用式(3)和式(5)計(jì)算在知識(shí)點(diǎn)角度下,學(xué)生-知識(shí)點(diǎn)空間的相對(duì)可靠性ACRRzik;7: 利用式(6)計(jì)算學(xué)生-知識(shí)點(diǎn)空間的絕對(duì)可靠性AARzik;8: end for9:end for10:根據(jù)式(7)獲得可靠的學(xué)生-知識(shí)點(diǎn)空間ARELz;11:根據(jù)式(8)和式(9)得到可靠且低維的學(xué)生-知識(shí)點(diǎn)空間ASVDz;12:根據(jù)式(10)得到習(xí)題對(duì)應(yīng)的可靠響應(yīng)表示xzt-1;13:根據(jù)式(11)~式(17)得到學(xué)生在t時(shí)刻正確回答下一道習(xí)題et的概率^rt;14:利用SGD更新KTR方法參數(shù),直到式(18)中損失函數(shù)收斂。
為了驗(yàn)證本文方法的有效性與合理性,本節(jié)設(shè)計(jì)實(shí)驗(yàn)進(jìn)行驗(yàn)證,實(shí)驗(yàn)將回答以下幾個(gè)問(wèn)題:
問(wèn)題1:KTR方法與現(xiàn)有的一些知識(shí)追蹤方法相比,性能方面存在哪些優(yōu)勢(shì)?
問(wèn)題2:KTR方法中學(xué)生-知識(shí)點(diǎn)空間的可靠性和維度約減分別對(duì)該方法最終性能有何影響?
問(wèn)題3:KTR方法中習(xí)題的可靠響應(yīng)表示有怎樣的特點(diǎn)?
問(wèn)題4:在真實(shí)數(shù)據(jù)集上,KTR方法評(píng)估的學(xué)生知識(shí)狀態(tài)是否具有可解釋性?
在本節(jié)中,首先給出實(shí)驗(yàn)所使用的數(shù)據(jù)集;其次介紹實(shí)驗(yàn)設(shè)置與基線方法;然后根據(jù)所提問(wèn)題對(duì)評(píng)價(jià)指標(biāo)進(jìn)行介紹;最后對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析并結(jié)合案例分析闡述本文方法的有效性和合理性。
實(shí)驗(yàn)所用的4個(gè)公開(kāi)數(shù)據(jù)集為:Assist2009(https://sites.google.com/site/assistmentsdata/)、Assist2017(https://pslcdatashop.web.cmu.edu/KDDCup/downloads.jsp)、KDD Cup Algebra2005以及Statics2011(https://pslcdatashop.web.cmu.edu/DatasetInfo?datasetId=507)。各個(gè)數(shù)據(jù)集的詳細(xì)信息如下所示:
(1)Assist2009數(shù)據(jù)集是2009年和2010年由ASSISTment在線教育平臺(tái)所收集的,是知識(shí)追蹤相關(guān)論文中使用最廣泛的數(shù)據(jù)集之一[13]。由于原始數(shù)據(jù)集中有大量重復(fù)的交互記錄存在,于是預(yù)處理時(shí)刪除了重復(fù)部分,得到的最終數(shù)據(jù)集包含4 163名學(xué)生的324 572條作答記錄,其中與學(xué)生交互的習(xí)題分別來(lái)自于123個(gè)不同的知識(shí)點(diǎn)。
(2) Assist2017數(shù)據(jù)集與Assist2009類(lèi)似,也是來(lái)源于ASSISTment在線教育平臺(tái)。不同的是,該數(shù)據(jù)是由平臺(tái)在2017年收集的,包含1 709個(gè)學(xué)生的392 000條作答記錄,其中知識(shí)點(diǎn)個(gè)數(shù)為102個(gè)。
(3)Algebra2005數(shù)據(jù)集來(lái)自于KDD Cup 2010年教育數(shù)據(jù)挖掘挑戰(zhàn)賽,這是一個(gè)在2005年和2006年收集的代數(shù)練習(xí)序列數(shù)據(jù)集[14]。該數(shù)據(jù)集有809 694條作答記錄、437個(gè)知識(shí)點(diǎn)、574名學(xué)生和1 085道習(xí)題。
(4)Statics2011數(shù)據(jù)集是從大學(xué)的工程力學(xué)課程中收集的[15]。刪除學(xué)生在同一習(xí)題上的多次作答后,數(shù)據(jù)集包含987道習(xí)題、61個(gè)知識(shí)點(diǎn)以及來(lái)自316名學(xué)生的135 338條作答記錄。
表4給出了上述4個(gè)數(shù)據(jù)集的詳細(xì)統(tǒng)計(jì)信息。
Table 4 Statistics of four real-world datasets表4 真實(shí)數(shù)據(jù)集統(tǒng)計(jì)信息
4.2.1 實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)將4個(gè)數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,其中訓(xùn)練集為80%,測(cè)試集為20%。為了確保實(shí)驗(yàn)結(jié)果的可靠性,實(shí)驗(yàn)對(duì)所有方法和所有數(shù)據(jù)集采用5次5折交叉驗(yàn)證法來(lái)評(píng)估KTR方法的性能。
在KTR方法的訓(xùn)練階段,設(shè)置最大序列長(zhǎng)度max_step為50,學(xué)習(xí)率learning_rate為0.002,訓(xùn)練輪數(shù)epoch為260,每批數(shù)據(jù)大小batch_size為64。實(shí)驗(yàn)使用Xavier參數(shù)初始化方法[16]初始化參數(shù),其對(duì)權(quán)重初始化的隨機(jī)值采樣于均值正態(tài)分布N(0,std2),其中,0表示均值,std2表示方差。此外使用SGD優(yōu)化器來(lái)訓(xùn)練該方法。實(shí)驗(yàn)代碼由Python實(shí)現(xiàn),并且實(shí)驗(yàn)在操作系統(tǒng)為L(zhǎng)inux,顯卡為NVIDIA?Quadro RTXTM6000服務(wù)器上運(yùn)行。
4.2.2 基線方法
本文選擇以下2類(lèi)方法作為對(duì)比方法。第1類(lèi)方法僅利用學(xué)生的作答記錄而未考慮習(xí)題-知識(shí)點(diǎn)空間,包括DKT、DKVMN和AKT-R(AKT method with the Rach model-based embedding);第2類(lèi)方法在使用學(xué)生作答記錄的同時(shí)還加入習(xí)題-知識(shí)點(diǎn)空間的信息,包括LSTMCQ。具體情形如下所示:
(1)DKT[5]:這是一個(gè)開(kāi)創(chuàng)性的方法,使用單層LSTM對(duì)學(xué)生知識(shí)狀態(tài)的學(xué)習(xí)進(jìn)行建模,進(jìn)而預(yù)測(cè)學(xué)生的表現(xiàn)。其中習(xí)題用2M維的one-hot向量進(jìn)行表示。
(2)DKVMN[7]:一種基于記憶增強(qiáng)循環(huán)神經(jīng)網(wǎng)絡(luò)的方法,其中不同知識(shí)點(diǎn)之間的關(guān)系由鍵矩陣表示,學(xué)生對(duì)每個(gè)知識(shí)點(diǎn)的掌握程度由值矩陣表示。
(3)AKT-R[8]:受到認(rèn)知和心理測(cè)量模型的啟發(fā),該方法使用了一種新的單調(diào)注意力機(jī)制,將學(xué)習(xí)者對(duì)評(píng)估習(xí)題的未來(lái)反應(yīng)與他們過(guò)去的反應(yīng)聯(lián)系起來(lái)。此外,該方法使用Rasch模型來(lái)規(guī)范知識(shí)點(diǎn)和習(xí)題的表示。
(4)LSTMCQ[9]:這是在DKT的基礎(chǔ)上提出的一種習(xí)題編碼方法,利用上下文表示方法對(duì)領(lǐng)域?qū)<覄?chuàng)建的習(xí)題-知識(shí)點(diǎn)空間Q進(jìn)行重表示。
由于無(wú)法得到學(xué)生真實(shí)的知識(shí)狀態(tài),因此對(duì)于知識(shí)追蹤方法來(lái)說(shuō)很難對(duì)其性能進(jìn)行評(píng)估。遵從現(xiàn)有的工作,實(shí)驗(yàn)通過(guò)預(yù)測(cè)學(xué)生的做題情況來(lái)得到追蹤結(jié)果,進(jìn)而與學(xué)生的真實(shí)作答情況對(duì)比,最終間接地實(shí)現(xiàn)對(duì)知識(shí)追蹤方法的評(píng)估。因此,實(shí)驗(yàn)將用回歸(即均方根誤差RMSE(Root Mean Squared Error))、分類(lèi)(評(píng)價(jià)指標(biāo)包括ACC(ACCuracy)和AUC(Area Under the ROC Curve))指標(biāo)來(lái)評(píng)估KTR方法和基線方法的性能。評(píng)價(jià)指標(biāo)定義如下:
均方根誤差RMSE通過(guò)預(yù)測(cè)值和學(xué)生真實(shí)作答情況得到,計(jì)算方法如式(19)所示:
(19)
準(zhǔn)確率ACC通過(guò)如表5所示的混淆矩陣計(jì)算得到,定義為分類(lèi)正確的樣本數(shù)量占樣本總數(shù)的比例,如式(20)所示:
(20)
表5中方法預(yù)測(cè)值超過(guò)0.5時(shí)視為正例,否則為負(fù)例。ACC值越高,方法性能越好。
Table 5 Confusion matrix表5 混淆矩陣
此外,引入ROC曲線下面積AUC,其取值為0~1,值越大,方法的表現(xiàn)越好。
4.4.1 性能比較(問(wèn)題1)
為了驗(yàn)證本文方法的性能,本節(jié)利用5次5折交叉驗(yàn)證法對(duì)各方法在4個(gè)數(shù)據(jù)集上得到的各評(píng)價(jià)指標(biāo)數(shù)據(jù)取平均值后,得到如表6所示的最終結(jié)果。
表6顯示了不同數(shù)據(jù)集上本文方法與各對(duì)比方法在ACC、AUC以及RMSE上的表現(xiàn)。從表6中可以看出,首先利用學(xué)生作答記錄和習(xí)題-知識(shí)點(diǎn)空間信息的方法性能基本優(yōu)于未使用習(xí)題-知識(shí)點(diǎn)空間的信息的方法。這是由于習(xí)題和知識(shí)點(diǎn)之間的信息彌補(bǔ)了僅利用作答記錄方法的不足,從而對(duì)方法的性能有了一定的提升。其次,KTR方法要優(yōu)于LSTMCQ方法,這說(shuō)明相較于對(duì)知識(shí)點(diǎn)進(jìn)行上下文表示,本文基于低維且可靠的學(xué)生-知識(shí)點(diǎn)空間和學(xué)生作答記錄得到的可靠響應(yīng)表示更有效,使KTR方法性能有所提高。
Table 6 Comparison of this method with other baseline methods表6 本文方法與其他基線方法的對(duì)比
4.4.2 消融研究(問(wèn)題2)
為了評(píng)價(jià)KTR方法中學(xué)生-知識(shí)點(diǎn)空間的可靠性和維度約減對(duì)該方法最終性能的影響,此處用KTR-REL表示未考慮學(xué)生-知識(shí)點(diǎn)空間的可靠性,僅考慮其維度約減,故只得到低維的學(xué)生-知識(shí)點(diǎn)空間。另外,用KTR-DR表示未考慮學(xué)生-知識(shí)點(diǎn)空間的維度約減,僅考慮其可靠性,故只得到可靠的學(xué)生-知識(shí)點(diǎn)空間。
Figure 3 Performance comparison of ablation study on four datasets圖3 4種數(shù)據(jù)集上消融研究的性能表現(xiàn)
從圖3中可以看到,KTR-REL或KTR-DR方法的ACC、AUC及RMSE相比于KTR方法的都有了一定程度的性能下降,這表明學(xué)生-知識(shí)點(diǎn)空間的可靠性和維度約減對(duì)KTR方法的性能預(yù)測(cè)是缺一不可的。其次,KTR-REL方法相比KTR-DR方法在3個(gè)性能指標(biāo)上下降更快,說(shuō)明學(xué)生-知識(shí)點(diǎn)空間的可靠性對(duì)KTR方法性能預(yù)測(cè)的貢獻(xiàn)更大??傊?同時(shí)考慮學(xué)生-知識(shí)點(diǎn)空間的可靠性和維度約減可實(shí)現(xiàn)KTR方法的最佳性能。
4.4.3 習(xí)題的可靠響應(yīng)表示研究(問(wèn)題3)
為了探究KTR方法中習(xí)題的可靠響應(yīng)表示的特點(diǎn),本節(jié)分別從Assist2009數(shù)據(jù)集的作答記錄為對(duì)和錯(cuò)的習(xí)題集中隨機(jī)選取200道習(xí)題,并利用t-SNE技術(shù)將這400道習(xí)題對(duì)應(yīng)的可靠響應(yīng)表示投影到二維平面。如圖4a和圖4b所示,這2種可靠響應(yīng)表示有相似的聚類(lèi)特點(diǎn),即相同知識(shí)點(diǎn)的習(xí)題對(duì)應(yīng)的響應(yīng)表示聚類(lèi)在一起。上述觀察也是符合具有相同或相似知識(shí)點(diǎn)的響應(yīng)表示應(yīng)該更接近的認(rèn)知,這表明本文方法可得到合理的可靠響應(yīng)表示。
Figure 4 Visualization of reliable response representation of exercise under two responses圖4 2種作答下習(xí)題的可靠響應(yīng)表示的可視化
4.4.4 案例研究(問(wèn)題4)
本節(jié)通過(guò)設(shè)計(jì)一個(gè)案例來(lái)分析KTR方法評(píng)估的學(xué)生知識(shí)狀態(tài)的可解釋性。圖5給出了KTR方法在Assist2009數(shù)據(jù)集的學(xué)生作答記錄中捕獲編號(hào)為366的學(xué)生知識(shí)狀態(tài)的案例。從圖5中可以觀察到,學(xué)生連續(xù)作答了涉及3個(gè)不同知識(shí)點(diǎn)(“整數(shù)加法”“絕對(duì)值”和“解不等式”)的10道習(xí)題,并給出由KTR方法獲得的該學(xué)生在不同時(shí)刻正確回答習(xí)題的預(yù)測(cè)概率。
Figure 5 Process of knowledge state of student with ID 366 captured by KTR圖5 KTR方法捕獲編號(hào)為366的學(xué)生知識(shí)狀態(tài)的過(guò)程
從圖5中可以發(fā)現(xiàn),KTR在連續(xù)正確預(yù)測(cè)該學(xué)生錯(cuò)誤回答習(xí)題e1233,e1241,e1237后,還能準(zhǔn)確地預(yù)測(cè)該學(xué)生在習(xí)題e1265上作答正確。其次,學(xué)生在習(xí)題e172上的預(yù)測(cè)概率(即0.79)和真實(shí)作答(即錯(cuò)誤)不一致,這可能由學(xué)生作答時(shí)失誤導(dǎo)致的。最后,從圖5右下方的雷達(dá)圖可以發(fā)現(xiàn),從T=1時(shí)刻到T=10時(shí)刻,學(xué)生在各個(gè)知識(shí)點(diǎn)的熟練度有一定的提升。其中,學(xué)生在知識(shí)點(diǎn)“整數(shù)加法”和“絕對(duì)值”上的熟練度提升明顯,這是由于學(xué)生能夠連續(xù)正確地作答這2個(gè)知識(shí)點(diǎn)所涉及的習(xí)題。但是,學(xué)生在知識(shí)點(diǎn)“解不等式”上的熟練度提升不明顯,這是因?yàn)閷W(xué)生在T=7到T=9時(shí)刻都錯(cuò)誤地作答了習(xí)題e1233,e1241,e1237,僅在T=10時(shí)才正確作答e1265。因此,本文方法評(píng)估的學(xué)生知識(shí)狀態(tài)具有較好的解釋性。
本文針對(duì)現(xiàn)有方法存在未考慮基于學(xué)生-習(xí)題-知識(shí)點(diǎn)關(guān)系構(gòu)建的學(xué)生-知識(shí)點(diǎn)空間的不可靠性和高維稀疏性,以及未結(jié)合學(xué)生在習(xí)題上的作答結(jié)果生成習(xí)題對(duì)應(yīng)的可靠響應(yīng)表示的問(wèn)題,提出可靠響應(yīng)表示增強(qiáng)的知識(shí)追蹤方法。該方法不僅捕獲了學(xué)生-知識(shí)點(diǎn)空間的可靠性,并解決了其具有的高維稀疏性問(wèn)題,同時(shí)還基于學(xué)生在習(xí)題上的2種作答情況得到習(xí)題的可靠響應(yīng)表示,進(jìn)而更好地評(píng)估學(xué)生在各個(gè)知識(shí)點(diǎn)上的知識(shí)水平。在4個(gè)真實(shí)數(shù)據(jù)集上的大量實(shí)驗(yàn)結(jié)果表明,本文方法對(duì)于估計(jì)學(xué)生知識(shí)水平具有有效性以及可解釋性。在未來(lái)的工作中,將繼續(xù)探究復(fù)雜多樣的學(xué)習(xí)數(shù)據(jù),例如,習(xí)題考察的每個(gè)知識(shí)點(diǎn)的作答情況、學(xué)生的猜測(cè)失誤行為,以及習(xí)題個(gè)性化的難度信息等,以便更精準(zhǔn)地預(yù)測(cè)學(xué)生表現(xiàn)。