劉子瑞 吳金澤 姚方舟 劉 淇 陳恩紅 沙 晶 王士進(jìn) 蘇 喻
智能教育是通過對(duì)學(xué)生學(xué)習(xí)能力、認(rèn)知水平的研究和分析,選擇合適的教育資源,為學(xué)生量身定制教育計(jì)劃與目標(biāo)的教育方式[1].因此智能教育能為學(xué)生提供更豐富的教育資源以及更自由的學(xué)習(xí)環(huán)境[2].為了滿足這個(gè)需求,智能教育場(chǎng)景中往往需要對(duì)學(xué)生整體知識(shí)的掌握程度進(jìn)行診斷,為后續(xù)試題的推薦與學(xué)習(xí)提供依據(jù),因此計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)(Computerized Adaptive Testing, CAT)[3]得到應(yīng)用.CAT是個(gè)性化在線教育中一種前沿的測(cè)驗(yàn)方式,其目標(biāo)是高效診斷考生對(duì)于所需掌握概念的知識(shí)水平,減少測(cè)驗(yàn)時(shí)間.
CAT根據(jù)對(duì)學(xué)生能力的當(dāng)前估計(jì),為其選擇最合適的題目.具體可分為兩步.1)基于學(xué)生當(dāng)前作答情況實(shí)時(shí)更新學(xué)生的知識(shí)狀態(tài).2)根據(jù)知識(shí)狀態(tài)為每位學(xué)生自動(dòng)選擇合適的題目.相比傳統(tǒng)的紙筆考試,CAT具有高效節(jié)約、施測(cè)靈活和安全性高等優(yōu)勢(shì),現(xiàn)已廣泛用于各種標(biāo)準(zhǔn)化考試,如GRE(Gra-duate Record Examination)[4].
然而,現(xiàn)有CAT的研究主要是基于認(rèn)知診斷模型進(jìn)行的,完全忽略學(xué)生作答之間的序列性.在真實(shí)的智能教育場(chǎng)景,如基于智能終端或智能教育應(yīng)用中,不同能力的學(xué)生測(cè)驗(yàn)需求往往是不同的,優(yōu)秀的學(xué)生希望去做一些難題以提升自己,而學(xué)習(xí)能力較一般的學(xué)生希望通過作答簡(jiǎn)單題以查漏補(bǔ)缺[5].如果不考慮學(xué)生以往的能力,使用傳統(tǒng)的自適應(yīng)測(cè)驗(yàn)框架,可能會(huì)使學(xué)生花費(fèi)大量的時(shí)間在不必要測(cè)驗(yàn)的題目上,從而大幅降低學(xué)生的積極性[6].同時(shí),現(xiàn)有自適應(yīng)測(cè)驗(yàn)方法通常獨(dú)立測(cè)驗(yàn)學(xué)生在某個(gè)知識(shí)概念上的掌握程度,因此自適應(yīng)測(cè)驗(yàn)在智能教育場(chǎng)景應(yīng)用時(shí)面臨著如下問題.
1)目標(biāo)復(fù)雜.現(xiàn)有CAT選題策略主要目標(biāo)只包括診斷模型的準(zhǔn)確率,然而在智能教育場(chǎng)景下,模型不僅需要關(guān)注對(duì)學(xué)生能力測(cè)量的準(zhǔn)確性,還需要關(guān)注學(xué)生做題難度的變化趨勢(shì)、學(xué)生答題的時(shí)長等會(huì)影響學(xué)生的作答體驗(yàn)和積極性的因素[6].
2)知識(shí)稀疏.真實(shí)的智能教育場(chǎng)景下知識(shí)點(diǎn)數(shù)量較多,而學(xué)生做題數(shù)量有限,大多數(shù)情況下一個(gè)章節(jié)包含的知識(shí)點(diǎn)數(shù)大于測(cè)試的題目數(shù),因此在測(cè)驗(yàn)中選擇的知識(shí)點(diǎn)相比知識(shí)點(diǎn)總量是稀疏的.同時(shí),考慮到學(xué)生答題存在猜測(cè)和失誤的可能,并且每道題的難度不同,通常僅測(cè)驗(yàn)一道題目無法充分判斷一個(gè)知識(shí)點(diǎn)是否掌握.若不考慮知識(shí)點(diǎn)之間的關(guān)聯(lián),在知識(shí)稀疏的場(chǎng)景下想要對(duì)每個(gè)知識(shí)點(diǎn)進(jìn)行測(cè)驗(yàn)是不現(xiàn)實(shí)的.
針對(duì)上述問題,本文主要研究在智能教育場(chǎng)景下的計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)方法,嘗試建模學(xué)生作答之間的序列性,并通過強(qiáng)化學(xué)習(xí)[7],構(gòu)建用于實(shí)現(xiàn)自適應(yīng)測(cè)驗(yàn)選題策略的模型.具體而言,首先提出用于智能教育場(chǎng)景的面向序列診斷的強(qiáng)化計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)方法,包括基于序列診斷的學(xué)生模擬器、用于診斷學(xué)生知識(shí)點(diǎn)掌握程度的學(xué)生畫像模型以及自適應(yīng)測(cè)驗(yàn)的選題策略.在此基礎(chǔ)上提出包括學(xué)生畫像的薄弱點(diǎn)準(zhǔn)確率、預(yù)測(cè)表現(xiàn)耦合、自適應(yīng)測(cè)驗(yàn)時(shí)長、測(cè)驗(yàn)異常率和測(cè)驗(yàn)的難度結(jié)構(gòu)這5個(gè)針對(duì)選題策略的評(píng)價(jià)指標(biāo),評(píng)估模型效果以及保證學(xué)生在該選題策略下的作答體驗(yàn).進(jìn)一步,提出基于強(qiáng)化學(xué)習(xí)的計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)(Reinforcement Learning Based CAT, RCAT)選題策略,利用矛盾學(xué)習(xí)構(gòu)建知識(shí)點(diǎn)之間的關(guān)聯(lián),使用雙通道性能學(xué)習(xí)以及矛盾學(xué)習(xí)的機(jī)制,建模復(fù)雜的智能教育環(huán)境,同時(shí)利用深度Q網(wǎng)絡(luò)(DeepQ-Network, DQN)[8]學(xué)習(xí)選題策略,得到一個(gè)通過估計(jì)學(xué)生的預(yù)測(cè)累計(jì)獎(jiǎng)勵(lì)值以分配題目的CAT選題策略.最后,在學(xué)生模擬器的環(huán)境下進(jìn)行大量實(shí)驗(yàn),對(duì)RCAT選題策略進(jìn)行敏感性測(cè)試以及消融實(shí)驗(yàn),并從模型效果、學(xué)生作答體驗(yàn)等角度對(duì)其進(jìn)行評(píng)估,由此驗(yàn)證RCAT選題策略的有效性.
知識(shí)追蹤[9]根據(jù)學(xué)生以往的答題序列,對(duì)學(xué)生的知識(shí)掌握情況進(jìn)行建模,并預(yù)測(cè)學(xué)生對(duì)知識(shí)的掌握程度.知識(shí)追蹤的定義是通過分析學(xué)生的學(xué)習(xí)記錄,預(yù)測(cè)學(xué)生的后續(xù)表現(xiàn),學(xué)習(xí)記錄可包含學(xué)生回答題目的信息,如題目的知識(shí)點(diǎn)、題目難度、題目類型以及題目作答正確與否.
隨著在線教育的普及,知識(shí)追蹤的重要性逐漸提高.最早的知識(shí)追蹤模型是貝葉斯知識(shí)追蹤(Bayesian Knowledge Tracing, BKT)[10],利用隱馬爾可夫模型對(duì)學(xué)生的知識(shí)邊緣狀態(tài)建模.隨著計(jì)算機(jī)和深度學(xué)習(xí)的快速發(fā)展,深度神經(jīng)網(wǎng)絡(luò)能有效提取特征這一特點(diǎn)被認(rèn)為適用于對(duì)學(xué)生復(fù)雜的認(rèn)知過程建模.Piech等[11]提出DKT(Deep Knowledge Tra-cing),利用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Net-works, RNN)對(duì)學(xué)生的知識(shí)狀態(tài)建模.之后,Zhang等[12]提出DKVMN(Dynamic Key-Value Memory Networks),基于記憶增強(qiáng)神經(jīng)網(wǎng)絡(luò),存儲(chǔ)潛在的知識(shí)點(diǎn),更新學(xué)生的相關(guān)知識(shí)水平.Nakagawa等[13]提出GKT(Graph-Based Knowledge Tracing),Tong等[14]提出SKT(Structure-Based Knowledge Tracing),分別利用圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Networks, GNN)對(duì)知識(shí)點(diǎn)中存在的圖結(jié)構(gòu)以及對(duì)知識(shí)追蹤過程中知識(shí)點(diǎn)之間的影響建模.
此外,為了在知識(shí)追蹤中提高模型的深度學(xué)習(xí)能力,有研究者將注意力機(jī)制引入知識(shí)追蹤模型中,如AKT(Attentive Knowledge Tracing)[15]、SAKT(Self AKT)[16]和CKT(Convolutional Knowledge Tracing)[17].
在一些場(chǎng)景中,模型無法實(shí)時(shí)收集學(xué)生真實(shí)的交互數(shù)據(jù),可使用知識(shí)追蹤對(duì)學(xué)生的作答記錄進(jìn)行序列診斷,從而模擬不同學(xué)生的作答結(jié)果.
CAT分為如圖1所示的兩步.
1)計(jì)算機(jī)根據(jù)當(dāng)前學(xué)生的能力自動(dòng)從題庫中選擇合適的題目給學(xué)生作答.
2)在學(xué)生作答完成之后,計(jì)算機(jī)重新診斷學(xué)生的能力水平.兩步交替進(jìn)行,直至達(dá)到某個(gè)預(yù)先設(shè)定好的終止規(guī)則為止[3].
CAT的系統(tǒng)構(gòu)建一般包括如下步驟:題庫建設(shè)、選題策略、被試特質(zhì)水平估計(jì)和測(cè)驗(yàn)終止規(guī)則[18].選題策略是自適應(yīng)測(cè)驗(yàn)中最重要的一步,目標(biāo)是選出對(duì)學(xué)生測(cè)驗(yàn)最有價(jià)值的題目.下面將介紹幾種較有效的選題策略.
最早提出的一種選題策略是:若學(xué)生答對(duì)當(dāng)前題目,為其分配一個(gè)更難的題目;若學(xué)生答錯(cuò)當(dāng)前題目,為其分配一個(gè)相對(duì)簡(jiǎn)單的題目.然而這種“量身定制式測(cè)驗(yàn)”[19]的選題策略只考慮試題難度和學(xué)生的匹配程度,未考慮學(xué)生的測(cè)驗(yàn)效率還受題目的區(qū)分度和猜測(cè)參數(shù)影響,于是Lord[20]提出MIC(Maxi-mum Information Criterion)選題策略.MIC選題策略會(huì)選擇當(dāng)前學(xué)生能力估計(jì)值下具有最大信息量的題目.信息量的度量方式也有很多種,較著名的是Fisher信息量和基于KL散度的平均全域信息量[21].
隨著計(jì)算機(jī)的快速發(fā)展,對(duì)學(xué)生能力的診斷方式逐漸呈現(xiàn)多樣化和復(fù)雜化,簡(jiǎn)單的選題策略無法高效判斷作答題目對(duì)學(xué)生能力診斷的有效性.因此很多研究致力于將深度學(xué)習(xí)融入CAT的選題策略中.
借鑒主動(dòng)學(xué)習(xí)思想,Bi等[22]提出MAAT(Model-Agnostic Adaptive Testing),提供對(duì)任何一種學(xué)生能力診斷方式都可行的選題方案,這種選題策略并不基于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練.而BOBCAT(Bilevel Optimiza- tion-Based CAT)[23]和NCAT(Neural CAT)[24]是完全由模型選擇題目的自適應(yīng)測(cè)驗(yàn)框架,通過學(xué)生的答題數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,并利用模型給學(xué)生分配題目.
然而主流模型使用的評(píng)價(jià)方式是通過認(rèn)知診斷模型進(jìn)行的,未考慮學(xué)生測(cè)驗(yàn)過程的序列性,因此在智能教育等學(xué)生具有較長歷史作答記錄的場(chǎng)景下表現(xiàn)并不突出.
強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)[7]是一種對(duì)智能體進(jìn)行訓(xùn)練并讓其按照要求進(jìn)行一系列決策的機(jī)器學(xué)習(xí)方法,工作流程如圖2所示.
智能體的目標(biāo)是學(xué)習(xí)一個(gè)可使預(yù)期累計(jì)獎(jiǎng)勵(lì)最大的策略.早期的強(qiáng)化學(xué)習(xí)是Bellman[25]提出的利用動(dòng)態(tài)規(guī)劃解決馬爾可夫決策過程(Markov Deci-sion Process, MDP),令MDP成為定義強(qiáng)化學(xué)習(xí)問題的最普遍形式.
之后,Watkins等[26]提出Q-Learning,成為目前最廣泛使用的強(qiáng)化學(xué)習(xí)方法之一,但該模型存在狀態(tài)數(shù)過多等問題.
圖2 強(qiáng)化學(xué)習(xí)的工作流程
隨著深度學(xué)習(xí)的發(fā)展,DQN[8]利用深度卷積神經(jīng)網(wǎng)絡(luò)擬合Q函數(shù),為解決狀態(tài)數(shù)過多這一問題提供思路.
由于計(jì)算機(jī)性能的飛速發(fā)展,深度強(qiáng)化學(xué)習(xí)在各領(lǐng)域都有不錯(cuò)的表現(xiàn),如游戲AI[27],甚至智能體可在一些領(lǐng)域達(dá)到和人類相當(dāng)?shù)乃?如圍棋中的AlphaGo等.
CAT是一種基于學(xué)生與電腦交互的測(cè)驗(yàn)方式,從圖1與圖2中可看出,CAT形式上與強(qiáng)化學(xué)習(xí)接近.在以往的研究中,RL能在自適應(yīng)測(cè)驗(yàn)中表現(xiàn)出不錯(cuò)性能,但是由于難以在不同的場(chǎng)景下定義獎(jiǎng)勵(lì),RL在自適應(yīng)測(cè)驗(yàn)領(lǐng)域的研究并不廣泛.
本文提出智能教育中面向序列診斷的強(qiáng)化計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)方法,整體流程如圖3所示.整體模型分為學(xué)生模擬器、學(xué)生畫像模型和基于強(qiáng)化學(xué)習(xí)的選題策略三部分.學(xué)生模擬器負(fù)責(zé)根據(jù)學(xué)生以往的表現(xiàn)模擬學(xué)生在自適應(yīng)測(cè)驗(yàn)中的作答情況;學(xué)生畫像模型負(fù)責(zé)根據(jù)學(xué)生的作答結(jié)果為學(xué)生進(jìn)行能力診斷;基于強(qiáng)化學(xué)習(xí)的選題策略負(fù)責(zé)根據(jù)學(xué)生當(dāng)前表現(xiàn)為學(xué)生選擇合適的題目進(jìn)行測(cè)驗(yàn).
圖3 本文方法流程圖
學(xué)生的在線學(xué)習(xí)通常可分為三個(gè)階段:歷史作答階段、當(dāng)前學(xué)習(xí)內(nèi)容的測(cè)驗(yàn)階段和鞏固練習(xí)階段.本文學(xué)生的在線學(xué)習(xí)通常以章節(jié)為階段,因此當(dāng)前學(xué)習(xí)內(nèi)容為學(xué)生當(dāng)前學(xué)習(xí)的章節(jié),而學(xué)生的作答序列也可按照這三個(gè)階段分別劃分為先驗(yàn)序列、測(cè)驗(yàn)序列與后驗(yàn)序列.本文提出的自適應(yīng)測(cè)驗(yàn)框架作用于測(cè)驗(yàn)階段的序列.
如圖4所示,先驗(yàn)序列是學(xué)生在學(xué)習(xí)當(dāng)前章節(jié)之前的作答記錄,測(cè)驗(yàn)序列是學(xué)生在進(jìn)入當(dāng)前章節(jié)后作答的少量測(cè)驗(yàn)題,后驗(yàn)序列是學(xué)生在測(cè)驗(yàn)之后在這個(gè)章節(jié)下進(jìn)行鞏固練習(xí)的作答記錄.在本文方法中,先驗(yàn)序列用于訓(xùn)練學(xué)生模擬器,利用訓(xùn)練好的學(xué)生模擬器與自適應(yīng)測(cè)驗(yàn)選題策略產(chǎn)生學(xué)生模擬測(cè)驗(yàn)序列.真實(shí)的測(cè)驗(yàn)序列作為一個(gè)基線的選題策略,與上述方法產(chǎn)生的模擬測(cè)驗(yàn)序列進(jìn)行對(duì)比.后驗(yàn)序列用于計(jì)算學(xué)生的知識(shí)點(diǎn)掌握程度.可根據(jù)學(xué)生的知識(shí)點(diǎn)掌握程度分別評(píng)估根據(jù)真實(shí)測(cè)驗(yàn)序列以及模擬測(cè)驗(yàn)序列得到的畫像模型,基于模擬測(cè)驗(yàn)序列的畫像模型的性能越優(yōu)于基于真實(shí)測(cè)驗(yàn)序列的畫像模型,選題的策略越優(yōu).
圖4 學(xué)生作答序列示意圖
在自適應(yīng)測(cè)驗(yàn)的實(shí)驗(yàn)環(huán)境中,利用選題策略為學(xué)生選擇題目后,無法直接獲取學(xué)生對(duì)這些題目的作答結(jié)果.因此,本文首先通過先驗(yàn)序列學(xué)習(xí)一個(gè)學(xué)生模擬器,模擬學(xué)生對(duì)自適應(yīng)測(cè)驗(yàn)選擇題目的作答結(jié)果,從而生成模擬測(cè)驗(yàn)序列.
具體地,對(duì)于任意一位學(xué)生,先驗(yàn)序列中的答題記錄為x1,x2,…,xT,
xt=(qj(t),km(t),qsj(t),kcm(t),at).
其中:j(t)表示時(shí)刻t學(xué)生作答題目的編號(hào);m(t)表示時(shí)刻t學(xué)生作答知識(shí)點(diǎn)的編號(hào);qj(t)表示時(shí)刻t學(xué)生作答的題目;km(t)表示題目對(duì)應(yīng)的知識(shí)點(diǎn);qsj(t)=1,2,3,4,5,表示題目對(duì)應(yīng)的難度;kcm(t)=1,2,3,4,5,表示知識(shí)點(diǎn)對(duì)應(yīng)的難度,難度共分為5檔,數(shù)字越大表示難度越低;at∈{0,1},表示學(xué)生回答該題目的結(jié)果,學(xué)生答對(duì)該題目值為1,否則值為0.對(duì)于xt中的每個(gè)參數(shù),使用嵌入方法將其表示為一個(gè)向量qj(t),km(t),qsj(t),kcm(t),at,并連接為一個(gè)向量:
xt=qj(t)⊕km(t)⊕qsj(t)⊕kcm(t)⊕at.
加入長短記憶神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)[28]中,
ht,ct=LSTM(ht-1,ct-1,xt).
利用得到的隱藏狀態(tài)ht作為時(shí)刻t學(xué)生能力的表征,輸出
ot+1=WT(ht⊕qj(t+1)⊕km(t+1))+b.
考慮到學(xué)生在不掌握的題目上仍可蒙對(duì),以及在掌握的題目上依然有做錯(cuò)的可能性,因此對(duì)每個(gè)題目qi引入猜測(cè)參數(shù)gi和失誤參數(shù)si,gi、si為學(xué)生模擬器中需要學(xué)習(xí)的參數(shù).猜測(cè)參數(shù)gi表示學(xué)生未掌握題目i但答對(duì)該題目的概率,而失誤參數(shù)si表示學(xué)生掌握題目i但答錯(cuò)該題目的概率[29].則學(xué)生在時(shí)刻t+1能否答對(duì)題qj(t+1)的概率為:
yt+1=σ((1-sj(t+1))ot+1+gj(t+1)ot+1).
模型損失函數(shù)為:
學(xué)生模擬器可根據(jù)自適應(yīng)測(cè)驗(yàn)選擇的題目生成模擬測(cè)驗(yàn)序列,以便學(xué)生畫像模型根據(jù)作答序列對(duì)學(xué)生進(jìn)行能力診斷.學(xué)生畫像模型是一個(gè)知識(shí)點(diǎn)粒度下的模型,目標(biāo)是診斷學(xué)生對(duì)各知識(shí)點(diǎn)的掌握狀態(tài).與學(xué)生模擬器不同,學(xué)生畫像模型獨(dú)立于學(xué)生作答的題目信息,只包括學(xué)生作答題目的知識(shí)點(diǎn),以及知識(shí)點(diǎn)和題目的難度.具體而言,模型輸入為學(xué)生作答記錄中的先驗(yàn)序列x1,x2,…,xT和模擬測(cè)驗(yàn)序列xT+1,xT+2,…兩部分的結(jié)合,xt定義與2.2節(jié)相同,仍然作為學(xué)生在時(shí)刻t的作答記錄,但在嵌入連接過程中不考慮題目信息qj(t),即
再將序列輸入雙層雙向長短記憶神經(jīng)網(wǎng)絡(luò)(Bi-directional LSTM, Bi-LSTM):
其中,
學(xué)生的作答狀態(tài)如下:
為了強(qiáng)化作答記錄中相關(guān)知識(shí)點(diǎn)的交互關(guān)系,在畫像模型中引入注意力機(jī)制[30].具體地,求出作答序列中已作答題目的所有知識(shí)點(diǎn)向量構(gòu)成的矩陣:
K=(km(1),km(2),…,km(T)),
其中km(t)表示學(xué)生在時(shí)刻t作答的題目對(duì)應(yīng)的知識(shí)點(diǎn)qj(t).當(dāng)前章節(jié)ci下所有知識(shí)點(diǎn)的嵌入向量構(gòu)成的矩陣:
K′=(k1,k2,…,k|Kci|).
對(duì)K′、K、state使用注意力機(jī)制[30]:
state′=Attention(K′,K,state),
其中,Attention函數(shù)的定義為
Attention函數(shù)會(huì)求出矩陣Q和矩陣K的相似度,并根據(jù)相似度將矩陣V對(duì)應(yīng)的值加權(quán)求和.畫像模型中使用該模塊旨在學(xué)習(xí)學(xué)生已作答的題目對(duì)應(yīng)的知識(shí)點(diǎn)與要預(yù)測(cè)的知識(shí)點(diǎn)之間的關(guān)聯(lián)信息.
將state′和當(dāng)前章節(jié)下的所有知識(shí)點(diǎn)向量K′以及對(duì)應(yīng)的難度向量Kd′結(jié)合,最終輸出對(duì)每個(gè)知識(shí)點(diǎn)是否掌握的預(yù)測(cè)結(jié)果:
p=σ(WT(state′⊕(K′+Kd′))+b).
在后驗(yàn)序列中,對(duì)于當(dāng)前章節(jié)ci下每個(gè)知識(shí)點(diǎn)k∈Kci,考慮序列中考察該知識(shí)點(diǎn)的前3個(gè)題目,若這3個(gè)題目學(xué)生都作答正確,判定為掌握該知識(shí)點(diǎn),記為Yk=1,否則認(rèn)為學(xué)生未掌握該知識(shí)點(diǎn),記Yk=0.
對(duì)于所有的可被觀測(cè)到是否掌握的知識(shí)點(diǎn),最終的損失函數(shù)為:
在實(shí)際的智能教育場(chǎng)景中,自適應(yīng)測(cè)驗(yàn)在選擇題目的過程中不僅要關(guān)注學(xué)生能力測(cè)驗(yàn)的準(zhǔn)確性,還要考慮學(xué)生的作答體驗(yàn),分配的題目既要符合測(cè)驗(yàn)的邏輯,又不能影響學(xué)生的答題積極性.
2.4.1 學(xué)生畫像的薄弱點(diǎn)準(zhǔn)確率
在智能教育中,更快找出學(xué)生未掌握的知識(shí)點(diǎn)能更高效地為學(xué)生提供相應(yīng)的幫助,因此正確預(yù)測(cè)一個(gè)薄弱知識(shí)點(diǎn)相比正確預(yù)測(cè)一個(gè)掌握的知識(shí)點(diǎn)更重要.因此,本文提出學(xué)生畫像模型中的薄弱點(diǎn)準(zhǔn)確率.薄弱點(diǎn)準(zhǔn)確率定義為被預(yù)測(cè)為學(xué)生未掌握的知識(shí)點(diǎn)中學(xué)生實(shí)際未掌握的知識(shí)點(diǎn)的比例:
其中,FN、TN和混淆矩陣[31]中的定義相同,FN表示學(xué)生掌握的知識(shí)點(diǎn)中被預(yù)測(cè)為未掌握的知識(shí)點(diǎn)的個(gè)數(shù),TN表示學(xué)生未掌握的知識(shí)點(diǎn)被預(yù)測(cè)為未掌握知識(shí)點(diǎn)的個(gè)數(shù).該指標(biāo)作為衡量畫像模型性能的最重要指標(biāo)之一,同時(shí)也是衡量自適應(yīng)測(cè)驗(yàn)選題策略優(yōu)劣的重要指標(biāo).
2.4.2 預(yù)測(cè)表現(xiàn)耦合
在智能教育場(chǎng)景下的自適應(yīng)測(cè)驗(yàn)中,學(xué)生測(cè)驗(yàn)作答的題目不可能覆蓋當(dāng)前章節(jié)的所有知識(shí)點(diǎn),如果學(xué)生在一次測(cè)驗(yàn)中作答10道題,答對(duì)9題,而對(duì)學(xué)生知識(shí)點(diǎn)掌握程度的畫像結(jié)果是學(xué)生在15個(gè)知識(shí)點(diǎn)上只掌握5個(gè)知識(shí)點(diǎn),這顯然會(huì)影響學(xué)生的作答體驗(yàn).因此本文提出預(yù)測(cè)表現(xiàn)耦合,度量學(xué)生答題情況與學(xué)生能力診斷結(jié)果之間的差距.
預(yù)測(cè)表現(xiàn)耦合是指學(xué)生在題目上的平均作答分?jǐn)?shù)和畫像模型給出的已掌握知識(shí)點(diǎn)的占比之差的絕對(duì)值:
其中,ci表示第i位學(xué)生測(cè)驗(yàn)的章節(jié),Kci表示這個(gè)章節(jié)對(duì)應(yīng)的全部知識(shí)點(diǎn)的集合.
預(yù)測(cè)表現(xiàn)耦合越低,表明學(xué)生的作答結(jié)果與學(xué)生畫像給出的知識(shí)點(diǎn)診斷結(jié)果越接近,學(xué)生作答體驗(yàn)越優(yōu).
2.4.3 自適應(yīng)測(cè)驗(yàn)時(shí)長
在智能教育中,測(cè)評(píng)時(shí)長是影響學(xué)生答題積極性的重要因素,過長的作答時(shí)間會(huì)導(dǎo)致學(xué)生的答題積極性降低,可能會(huì)出現(xiàn)隨意作答的情況,最終影響測(cè)驗(yàn)的效果.本文希望利用測(cè)驗(yàn)時(shí)長衡量模型優(yōu)劣,然而無法直接估計(jì)每位學(xué)生的測(cè)驗(yàn)時(shí)間,因此本文根據(jù)題目難度、類型及教研老師的經(jīng)驗(yàn)制定不同題目所需的作答時(shí)間表(見表1),并使用測(cè)驗(yàn)的所有題目時(shí)長之和作為每位學(xué)生自適應(yīng)測(cè)驗(yàn)的時(shí)長.
表1 不同難度與類型的題目的作答時(shí)長
2.4.4 測(cè)驗(yàn)異常率
過多的題目或過長的測(cè)驗(yàn)時(shí)間都可能影響學(xué)生的積極性,而過少的題目或過短的測(cè)驗(yàn)時(shí)間會(huì)影響畫像的準(zhǔn)確性,導(dǎo)致對(duì)學(xué)生能力的診斷缺乏說服力,因此本文提出測(cè)驗(yàn)異常率,規(guī)范選題策略.
本文為不同規(guī)模的章節(jié)針對(duì)測(cè)驗(yàn)題目和測(cè)驗(yàn)時(shí)間設(shè)計(jì)不同的合理范圍,如表2所示.若某位學(xué)生的答題數(shù)量和答題時(shí)長不在合理范圍內(nèi),說明測(cè)驗(yàn)選題策略對(duì)于該學(xué)生存在異常,測(cè)驗(yàn)異常率為選題策略在所有學(xué)生測(cè)驗(yàn)中異常的比例:
Abnormal=1-
其中:kci、numi、timei分別表示學(xué)生i測(cè)驗(yàn)章節(jié)下知識(shí)點(diǎn)個(gè)數(shù)、答題數(shù)量以及答題時(shí)長;Kj、Nj、Tj表示表2中情況j下的章節(jié)下知識(shí)點(diǎn)個(gè)數(shù)、題目范圍、時(shí)長范圍的范圍;[·]表示示性函數(shù),當(dāng)滿足函數(shù)中的條件時(shí)值為1,不滿足值為0.
表2 不同規(guī)模的章節(jié)對(duì)應(yīng)的合理測(cè)驗(yàn)題量與時(shí)長
2.4.5 測(cè)驗(yàn)的難度結(jié)構(gòu)
良好的學(xué)生作答體驗(yàn)不僅需要合適的時(shí)長和題量,還需要與學(xué)生能力匹配的試題難度.如果學(xué)生上一題作答難題答錯(cuò),下一題給它分配更難的題目,或上一題答題答對(duì),下一題分配一道相對(duì)簡(jiǎn)單的題目,都會(huì)影響學(xué)生的作答體驗(yàn),同時(shí)也會(huì)影響對(duì)學(xué)生能力診斷的效率.測(cè)驗(yàn)的難度結(jié)構(gòu)這一指標(biāo)旨在衡量選題策略選擇題目的難度變化情況和學(xué)生作答情況的一致程度:
其中,qsj(t)表示題目qj(t)的難度,[·]的定義與2.4.4節(jié)相同,表示示性函數(shù).當(dāng)學(xué)生i在時(shí)刻t作答題目難度變化合適時(shí),gt=1,否則,gt=0.
經(jīng)過2.4節(jié)對(duì)測(cè)試指標(biāo)的說明,智能教育場(chǎng)景下自適應(yīng)測(cè)驗(yàn)?zāi)繕?biāo)復(fù)雜度量化問題已得到形式化的定義.本節(jié)介紹如何在智能教育場(chǎng)景下定義自適應(yīng)測(cè)驗(yàn)的強(qiáng)化學(xué)習(xí)任務(wù),并提出基于強(qiáng)化學(xué)習(xí)的計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)(RCAT)選題策略,利用多目標(biāo)獎(jiǎng)勵(lì)的方式對(duì)2.4節(jié)中的評(píng)價(jià)指標(biāo)進(jìn)行優(yōu)化以解決自適應(yīng)測(cè)驗(yàn)?zāi)繕?biāo)復(fù)雜的問題,同時(shí)利用對(duì)知識(shí)點(diǎn)的矛盾學(xué)習(xí)緩解知識(shí)稀疏的問題.
2.5.1 自適應(yīng)測(cè)驗(yàn)任務(wù)在強(qiáng)化學(xué)習(xí)中的定義
具體地,一個(gè)強(qiáng)化學(xué)習(xí)任務(wù)包括〈S,A,P,R〉這4個(gè)元素.S表示所有狀態(tài)的集合,在自適應(yīng)測(cè)驗(yàn)中sT∈S表示自適應(yīng)測(cè)驗(yàn)選題策略為學(xué)生在時(shí)刻1,2,…,T分配的T個(gè)題目與學(xué)生的作答情況組成的序列
{(qj(1),a1),(qj(2),a2),…,(qj(T),aT)}.
A表示所有動(dòng)作的集合,自適應(yīng)測(cè)驗(yàn)中A表示題庫中所有題目的集合,At為在選擇t題之后,仍可以選擇的題目集合.
在狀態(tài)st下執(zhí)行動(dòng)作qj(t)后狀態(tài)變?yōu)閟t+1的概率為P(st+1|st,qj(t)),即在狀態(tài)st下執(zhí)行動(dòng)作qj(t)后,學(xué)生i作答情況at+1的概率為P(at+1|st,qj(t)).
為了解決目標(biāo)復(fù)雜的問題,本文設(shè)計(jì)一個(gè)包括多個(gè)目標(biāo)的獎(jiǎng)勵(lì),包括學(xué)生在狀態(tài)st+1的畫像準(zhǔn)確率提升值、預(yù)測(cè)表現(xiàn)耦合的下降值以及學(xué)生在狀態(tài)st+1時(shí)出現(xiàn)測(cè)驗(yàn)超時(shí)異常的懲罰,即
其中:Dis(t)和2.4節(jié)的定義相同,表示當(dāng)前學(xué)生答完t題后的預(yù)測(cè)表現(xiàn)耦合;Punish表示分配題目總作答時(shí)間超出2.4.4節(jié)中最大合適時(shí)間的懲罰,以保證RCAT選題策略在不同的測(cè)驗(yàn)題目下盡可能將選擇的題目時(shí)長控制在一個(gè)合適的范圍內(nèi),從而實(shí)現(xiàn)學(xué)生測(cè)驗(yàn)題數(shù)不固定情況下的個(gè)性化自適應(yīng)測(cè)驗(yàn)選題.
由于學(xué)生畫像模型可能會(huì)判斷題目作答結(jié)果較好的學(xué)生掌握該章節(jié)下所有知識(shí)點(diǎn),不存在薄弱點(diǎn),對(duì)于這樣的學(xué)生,模型將無法計(jì)算其薄弱點(diǎn)準(zhǔn)確率,因此Acc(t)設(shè)計(jì)為學(xué)生答完t題后畫像模型的整體準(zhǔn)確率,用于近似畫像的薄弱點(diǎn)準(zhǔn)確率.由此,本文可通過強(qiáng)化學(xué)習(xí)對(duì)2.4節(jié)提出的評(píng)價(jià)指標(biāo)進(jìn)行優(yōu)化,解決自適應(yīng)測(cè)驗(yàn)?zāi)繕?biāo)復(fù)雜的問題,提升學(xué)生的作答體驗(yàn).
2.5.2 強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)框架
基于多目標(biāo)獎(jiǎng)勵(lì)的設(shè)計(jì),本文提出緩解自適應(yīng)測(cè)驗(yàn)?zāi)繕?biāo)復(fù)雜這一問題的方法,然而自適應(yīng)測(cè)驗(yàn)仍面臨知識(shí)點(diǎn)稀疏的問題.為了解決這一問題,基于上述強(qiáng)化學(xué)習(xí)的定義,利用注意力神經(jīng)網(wǎng)絡(luò)在DQN的框架下實(shí)現(xiàn)自適應(yīng)選題策略算法.RCAT選題策略結(jié)構(gòu)如圖5所示,由NCAT[24]中提出的雙通道性能學(xué)習(xí)模塊、矛盾學(xué)習(xí)模塊、學(xué)生答題前的能力診斷模塊以及策略模塊組成.RCAT選題策略首先利用雙通道性能學(xué)習(xí)模塊,分別對(duì)學(xué)生答對(duì)以及答錯(cuò)的題目進(jìn)行學(xué)習(xí),提取學(xué)生的表現(xiàn)信息.再利用矛盾學(xué)習(xí)模塊提取學(xué)生答題記錄中間的矛盾,減少猜測(cè)或失誤帶來的影響,同時(shí)利用知識(shí)點(diǎn)之間的矛盾信息緩解知識(shí)稀疏的問題.最后通過策略模塊得到Q值,并利用Q-learning優(yōu)化模型.
學(xué)生在測(cè)驗(yàn)中可能會(huì)因?yàn)槲凑莆漳骋粋€(gè)知識(shí)點(diǎn)而答錯(cuò)多道題,可認(rèn)為它答錯(cuò)的題目間存在共性,這些共性潛在反映學(xué)生在知識(shí)點(diǎn)上的掌握能力.若模型能提取這些共性信息,可根據(jù)這些信息為學(xué)生選擇更合適的試題,從而實(shí)現(xiàn)個(gè)性化試題推薦.本文使用雙通道自注意力學(xué)習(xí)實(shí)現(xiàn)這一目標(biāo).
圖5 RCAT選題策略結(jié)構(gòu)圖
圖6 雙通道自注意力學(xué)習(xí)模塊流程圖
矛盾學(xué)習(xí)旨在模擬學(xué)生在作答過程中存在的猜測(cè)或失誤的行為.如果因?yàn)閷W(xué)生答對(duì)一道較難的題目就在后續(xù)分配題目的過程中給學(xué)生分配更難的題目,而不考慮學(xué)生是否有可能因?yàn)椴聹y(cè)答對(duì)該題,會(huì)導(dǎo)致學(xué)生的答題記錄有效性降低,從而使畫像的準(zhǔn)確性降低.此外,學(xué)習(xí)知識(shí)點(diǎn)之間的矛盾信息可讓模型更好地選擇未測(cè)驗(yàn)的知識(shí)點(diǎn),有助于緩解自適應(yīng)測(cè)驗(yàn)過程中出現(xiàn)的知識(shí)稀疏問題.
因此本文希望通過對(duì)題目以及知識(shí)點(diǎn)進(jìn)行矛盾學(xué)習(xí),發(fā)掘?qū)W生在答題過程中出現(xiàn)的矛盾,為學(xué)生推薦更合適的題目.
其中,m1表示已答題序列中答對(duì)題目數(shù)量,m0表示已答題序列中未答對(duì)題目的數(shù)量.
相關(guān)性越高,說明這些題目或知識(shí)點(diǎn)之間越容易出現(xiàn)猜測(cè)或失誤的現(xiàn)象.
對(duì)這4個(gè)矩陣的題數(shù)維度求均值,得到矛盾學(xué)習(xí)的輸出向量:
圖7 矛盾學(xué)習(xí)模塊流程圖
再結(jié)合學(xué)生的能力信息h,預(yù)測(cè)在狀態(tài)st下集合At中每道題目qi的預(yù)測(cè)累計(jì)獎(jiǎng)勵(lì)Q(st,qi).令
Q(st,·)=(Q(st,q1),Q(st,q2),…,Q(st,q|At|)),
則預(yù)測(cè)累計(jì)獎(jiǎng)勵(lì):
Q(st,·)=MLP(s⊕h).
由于題目數(shù)眾多,搜索空間非常大,為了保證模型性能和學(xué)生的作答體驗(yàn),對(duì)選題進(jìn)行如下約束.首先,所有題目均只能被選擇一次,并且相同知識(shí)點(diǎn)下的題目最多只能被選擇兩題;其次,除非上一題的難度為“一般”,否則,上一題答錯(cuò),下一道題難度要低于上一題;上一題答對(duì),下一道題難度要高于上一題.為了保證測(cè)驗(yàn)的題目難度變化不會(huì)過大,要求選擇的題目難度與上一題相比變化不能超過兩級(jí).
在學(xué)生作答完第t題后,利用上述約束,可從題目集合At-1中篩選滿足條件的題目集合At,選題策略將計(jì)算集合At中每道題目被選擇后的預(yù)期累計(jì)獎(jiǎng)勵(lì)Q值,并從集合At中選擇可得到最大預(yù)期累計(jì)獎(jiǎng)勵(lì)的題目作為下一道測(cè)驗(yàn)的題目.
選題策略的學(xué)習(xí)方式是利用Q-learning進(jìn)行的.具體地,在采樣過程中,使用-貪婪策略,即每次選題會(huì)以一個(gè)遞減的概率在集合At中隨機(jī)選擇一道題,以1-的概率在集合At中選擇Q值最大的題目.剛開始采樣時(shí),趨近于1,即完全隨機(jī)抽取題目給學(xué)生作答,隨著采樣輪數(shù)的增加,逐漸遞減至0,即完全依靠預(yù)測(cè)值Q進(jìn)行題目選擇.在每次采樣后,作答記錄會(huì)放入內(nèi)存池M中,并從內(nèi)存池中抽取樣本進(jìn)行訓(xùn)練.損失函數(shù)為:
智能教育場(chǎng)景下RCAT選題策略步驟如算法1所示.
算法1RCAT選題策略
初始化測(cè)驗(yàn)序列s0={};
初始學(xué)生能力h0=LSTM(XT);
初始答題數(shù)和答題時(shí)間n←0,time←0;
whileTruedo
(Q0,Q1,…,Q|A|)=RCAT(h0,sn);
i=arg max{Q0,Q1,…,Q|A|};
//選題策略
time←time+Ti;
ifAbnormal(time,n,case) then
break;
end
an,hn+1←Simu(hn,qi);
//學(xué)生模擬器進(jìn)行作答
sn+1←sn∪(qi,an);
n←n+1;
end
輸出Ke←PORTRAIT(sn);
//畫像模型
在算法中,學(xué)生模擬器也可被看作一位真實(shí)的學(xué)生.對(duì)于每位學(xué)生,RCAT首先通過學(xué)生模擬器為學(xué)生生成一個(gè)初始能力值.在學(xué)生每輪測(cè)驗(yàn)中,學(xué)生模擬器首先將學(xué)生的能力值以及學(xué)生在當(dāng)前題目的作答結(jié)果提供給選題策略.然后,選題策略根據(jù)學(xué)生的初始能力值以及學(xué)生當(dāng)前測(cè)驗(yàn)記錄選擇RCAT選題策略輸出Q值最大的題目作為最合適的題目,選題策略對(duì)該題目進(jìn)行觀測(cè),若題目量已超過測(cè)驗(yàn)需求的最小值,并且該題目分配給學(xué)生會(huì)導(dǎo)致測(cè)驗(yàn)異常,結(jié)束測(cè)驗(yàn),否則將該題目分配給學(xué)生.最后,在學(xué)生的測(cè)驗(yàn)結(jié)束后,學(xué)生模擬器和選題策略將學(xué)生的全部作答記錄傳輸給學(xué)生畫像模型,為學(xué)生生成當(dāng)前章節(jié)的能力診斷.通過這種方法,RCAT選題策略會(huì)為學(xué)生選擇使畫像模型更準(zhǔn)確、學(xué)生作答體驗(yàn)與畫像結(jié)果更接近、時(shí)間更合適、學(xué)生作答體驗(yàn)更優(yōu)的題目.
為了驗(yàn)證本文方法的有效性,使用由科大訊飛智學(xué)網(wǎng)系統(tǒng)提供的真實(shí)數(shù)據(jù)集MATH.實(shí)驗(yàn)數(shù)據(jù)選取學(xué)生在初中數(shù)學(xué)學(xué)科上的在線學(xué)習(xí)數(shù)據(jù).
在預(yù)處理部分,刪除先驗(yàn)數(shù)據(jù)小于100條、測(cè)驗(yàn)數(shù)據(jù)小于5條或大于20條、后驗(yàn)數(shù)據(jù)小于5條的數(shù)據(jù).同時(shí)刪除測(cè)驗(yàn)章節(jié)下所有知識(shí)點(diǎn)在后驗(yàn)數(shù)據(jù)中出現(xiàn)次數(shù)都小于3條的數(shù)據(jù),以保證學(xué)生數(shù)據(jù)可以進(jìn)行畫像.為了保證測(cè)驗(yàn)試題的質(zhì)量,題庫中刪除區(qū)分度小于0.4的題目和知識(shí)點(diǎn).經(jīng)過篩選后,數(shù)據(jù)集最終包含64 748條數(shù)據(jù),共有83個(gè)章節(jié),1 521個(gè)知識(shí)點(diǎn),48 157個(gè)題目,每條數(shù)據(jù)平均包含179.35條作答記錄,平均每個(gè)章節(jié)的知識(shí)概念為18.33條,平均每個(gè)知識(shí)概念的題目為33.34道.
章節(jié)下知識(shí)點(diǎn)的數(shù)量直方圖如圖8所示,由圖可看出大多數(shù)的章節(jié)知識(shí)點(diǎn)個(gè)數(shù)都在12題以上,一個(gè)章節(jié)最多的知識(shí)點(diǎn)數(shù)達(dá)到56,而最大的合適題數(shù)為12題,小于章節(jié)的平均知識(shí)點(diǎn)數(shù),這說明知識(shí)稀疏問題確實(shí)是一個(gè)需要考慮的問題.每個(gè)知識(shí)點(diǎn)平均包含33.34道題目,說明即使在選定知識(shí)點(diǎn)的情況下,仍有很多題目可選擇,因此對(duì)題目進(jìn)行篩選是可行的.每個(gè)知識(shí)點(diǎn)下的題目眾多,想要判斷一個(gè)知識(shí)點(diǎn)是否掌握,選擇不同的題目效率也會(huì)不同,因此對(duì)題目進(jìn)行定量篩選是有必要的.
圖8 每個(gè)章節(jié)下知識(shí)點(diǎn)數(shù)的直方圖
為了驗(yàn)證RCAT選題策略的有效性,選取如下基準(zhǔn)選題策略為學(xué)生選擇題目.
1)Real.真實(shí)的作答記錄在學(xué)生模擬器上的結(jié)果.學(xué)生真實(shí)的作答記錄訓(xùn)練得到的學(xué)生畫像模型表示畫像模型本身的性能.
2)Random.隨機(jī)分配合適的題數(shù)及題目讓學(xué)生模擬器進(jìn)行作答,表示最簡(jiǎn)單的CAT選題策略.
3)MAAT-R.基于規(guī)則的CAT選題策略,使用MAAT[22]中EMC(Expected Model Change)模塊,每次篩選使模型期望變化較大的題目,同時(shí)提出利用題目區(qū)分度篩選題目、設(shè)計(jì)知識(shí)點(diǎn)傳播規(guī)則等方式優(yōu)化MAAT知識(shí)點(diǎn)選擇部分,在智能教育這一特定場(chǎng)景下是一種有效的數(shù)據(jù)驅(qū)動(dòng)策略.
在MATH數(shù)據(jù)集上,將90%的學(xué)生數(shù)據(jù)作為訓(xùn)練集,10%的學(xué)生數(shù)據(jù)作為測(cè)試集.在訓(xùn)練集中取出90%的學(xué)生數(shù)據(jù)進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,剩下10%的學(xué)生數(shù)據(jù)進(jìn)行驗(yàn)證,最終利用測(cè)試集的學(xué)生在多個(gè)評(píng)價(jià)指標(biāo)上評(píng)估模型.學(xué)生模擬器中題目表征設(shè)計(jì)為768維向量,知識(shí)點(diǎn)表征、題目難度表征、知識(shí)點(diǎn)難度、答題記錄表征均設(shè)計(jì)為200維向量,先驗(yàn)作答記錄長度為150,激活函數(shù)使用LeakyRelu函數(shù),參數(shù)為0.3,模型輸出與分配的題目數(shù)相同,為學(xué)生答對(duì)當(dāng)前題目的概率.學(xué)生畫像模型的所有表征也均設(shè)計(jì)為200維向量,RNN為雙層雙向長短記憶循環(huán)神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)隱藏層大小為表征向量的一半,即100維向量.網(wǎng)絡(luò)輸出大小與學(xué)生當(dāng)前章節(jié)下包含的知識(shí)點(diǎn)數(shù)相同,每個(gè)輸出表示掌握對(duì)應(yīng)知識(shí)點(diǎn)的概率.
在RCAT選題策略(https://github.com/Liuz-rui/RCAT)中,題目表征設(shè)計(jì)為128維向量,知識(shí)點(diǎn)表征、題目難度表征、知識(shí)點(diǎn)難度、答題記錄表征均設(shè)計(jì)為50維向量,使用單頭注意力機(jī)制,學(xué)生初始狀態(tài)表征與學(xué)生模擬器的隱藏層均為200維向量,隱藏層大小為512維,學(xué)習(xí)率為0.001,訓(xùn)練輪數(shù)為5 000輪.
所有實(shí)驗(yàn)均由Pytorch實(shí)現(xiàn),使用NVIDIA Tesla M40顯卡的Linux服務(wù)器集群進(jìn)行訓(xùn)練.
本節(jié)從自適應(yīng)測(cè)驗(yàn)的實(shí)際應(yīng)用出發(fā),采用在2.4節(jié)中提出的薄弱點(diǎn)準(zhǔn)確率、預(yù)測(cè)表現(xiàn)耦合、自適應(yīng)測(cè)驗(yàn)時(shí)長、測(cè)驗(yàn)異常率、測(cè)驗(yàn)的難度結(jié)構(gòu)等評(píng)價(jià)指標(biāo),與基礎(chǔ)的選題策略進(jìn)行對(duì)比實(shí)驗(yàn).
MATH數(shù)據(jù)集上各策略的不同指標(biāo)值對(duì)比如表3所示,表中黑體數(shù)字表示最優(yōu)值.由表可以看出,RCAT選題策略在學(xué)生模擬器的環(huán)境下,大部分評(píng)價(jià)指標(biāo)都高于其它策略.相比MAAT-R,RCAT選題策略在準(zhǔn)確率上提升0.64%,在預(yù)測(cè)表現(xiàn)耦合上降低11.50%,在測(cè)驗(yàn)的難度結(jié)構(gòu)上提升15.25%,測(cè)驗(yàn)異常率降低11.53%.盡管測(cè)驗(yàn)時(shí)長相比真實(shí)情況中每位學(xué)生測(cè)驗(yàn)時(shí)間平均增加30 s,但是異常率的降低說明真實(shí)的學(xué)生作答記錄中有部分學(xué)生的答題數(shù)是不足的,RCAT選題策略的時(shí)間是在合理范圍內(nèi)變動(dòng)的.
實(shí)驗(yàn)結(jié)果表明兼顧復(fù)雜目標(biāo)的強(qiáng)化學(xué)習(xí)選題策略能夠在知識(shí)稀疏的場(chǎng)景下更好地保障選題的效率和效果,實(shí)現(xiàn)多目標(biāo)的協(xié)同優(yōu)化.
表3 各策略的5個(gè)指標(biāo)值對(duì)比
在強(qiáng)化學(xué)習(xí)中,不同的獎(jiǎng)勵(lì)會(huì)對(duì)強(qiáng)化學(xué)習(xí)的結(jié)果造成較大影響,因此對(duì)獎(jiǎng)勵(lì)函數(shù)中多個(gè)目標(biāo)的權(quán)重進(jìn)行超參數(shù)調(diào)優(yōu).對(duì)于RCAT,選取不同的獎(jiǎng)勵(lì)組合進(jìn)行實(shí)驗(yàn),λ=0,0.01,0.05,0.1,0.2,0.5,超出時(shí)間的懲罰取為0.2.在 MATH數(shù)據(jù)集上λ不同時(shí)各指標(biāo)值如表4所示,表中黑體數(shù)字表示最優(yōu)值.由表可以看出,薄弱點(diǎn)準(zhǔn)確率、預(yù)測(cè)表現(xiàn)耦合以及自適應(yīng)測(cè)驗(yàn)時(shí)長在不同的獎(jiǎng)勵(lì)組合下具有不同的表現(xiàn),說明不同的獎(jiǎng)勵(lì)組合對(duì)不同指標(biāo)的提升存在影響.隨著λ逐漸增大,薄弱點(diǎn)準(zhǔn)確率和超時(shí)懲罰的占比逐漸降低,薄弱點(diǎn)準(zhǔn)確率、自適應(yīng)測(cè)驗(yàn)時(shí)長和測(cè)驗(yàn)異常率會(huì)出現(xiàn)小幅下降,但預(yù)測(cè)表現(xiàn)耦合有較大提升.在λ=0.2時(shí),預(yù)測(cè)表現(xiàn)耦合才達(dá)到3.2節(jié)中隨機(jī)選題策略在預(yù)測(cè)表現(xiàn)耦合上的表現(xiàn),而當(dāng)λ=0.5時(shí),模型在預(yù)測(cè)表現(xiàn)耦合上已超過基于規(guī)則的自適應(yīng)測(cè)驗(yàn)選題策略,達(dá)到領(lǐng)先地位.實(shí)驗(yàn)表明,利用多目標(biāo)的獎(jiǎng)勵(lì)機(jī)制,可解決CAT在智能教育場(chǎng)景下目標(biāo)復(fù)雜的問題.
表4 不同的獎(jiǎng)勵(lì)組合下的自適應(yīng)測(cè)驗(yàn)的指標(biāo)值對(duì)比
為了驗(yàn)證RCAT選題策略每個(gè)模塊的有效性,進(jìn)行消融實(shí)驗(yàn).RCAT選題策略的主要獎(jiǎng)勵(lì)函數(shù)以及核心評(píng)估指標(biāo)是薄弱點(diǎn)準(zhǔn)確率和預(yù)測(cè)表現(xiàn)耦合,因此對(duì)各模塊進(jìn)行消融實(shí)驗(yàn)時(shí)只考慮這兩項(xiàng)指標(biāo).RCAT選題策略共包括3個(gè)模塊:雙通道自注意力學(xué)習(xí)(Double-Channel Self-Attention Learning)模塊、題目矛盾學(xué)習(xí)(Question Contradiction Learning)模塊、知識(shí)點(diǎn)矛盾學(xué)習(xí)(Knowledge Concept Contradiction Learning)模塊,分別記為A模塊、QC模塊、KC模塊.分別移除這3個(gè)模塊,移除A模塊記為RCAT-A,其余同.按照與3.2節(jié)相同的實(shí)驗(yàn)設(shè)置進(jìn)行訓(xùn)練與評(píng)估,結(jié)果如表5所示,表中黑體數(shù)字表示最優(yōu)值.
表5 消融實(shí)驗(yàn)結(jié)果
由表5可見,RCAT-A僅捕捉學(xué)生作答題目或知識(shí)點(diǎn)表現(xiàn)的矛盾,未直接利用雙通道自注意力機(jī)制,使薄弱點(diǎn)準(zhǔn)確率降低以及預(yù)測(cè)表現(xiàn)耦合升高.RCAT-KC和RCAT-QC在直接使用雙通道自注意力機(jī)制的同時(shí),僅使用一個(gè)矛盾學(xué)習(xí)模塊,均影響模型在薄弱點(diǎn)準(zhǔn)確率和預(yù)測(cè)表現(xiàn)耦合上的性能.RCAT選題策略的表現(xiàn)在兩個(gè)指標(biāo)上具有領(lǐng)先地位,這說明3個(gè)模塊對(duì)于模型都是有效且有必要的.
如圖8所示,由于包含8個(gè)知識(shí)點(diǎn)的章節(jié)最多,相對(duì)具有代表性,本文從中隨機(jī)選取一個(gè)章節(jié),并隨機(jī)選取一名學(xué)困生、一名學(xué)中生和一名學(xué)優(yōu)生,考察三者在不同選題策略下的表現(xiàn).其中,學(xué)困生指在先驗(yàn)序列中答題正確率在20%至50%之間的學(xué)生,學(xué)中生指在先驗(yàn)序列中答題正確率在50%至80%之間的學(xué)生,學(xué)優(yōu)生指在先驗(yàn)序列中答題正確率在80%以上的學(xué)生.
圖9為3位學(xué)生在測(cè)驗(yàn)序列的答題記錄以及該章節(jié)下知識(shí)點(diǎn)圖譜.如圖所示, RCAT選題策略為不同能力的學(xué)生分配不同難度的題目,同時(shí)在學(xué)生給出相同作答表現(xiàn)后,RCAT選題策略依然可根據(jù)學(xué)生能力和學(xué)生的答題情況為學(xué)生分配不同知識(shí)點(diǎn)的題目,如RCAT選題策略在學(xué)中生和學(xué)優(yōu)生都答對(duì)知識(shí)點(diǎn)e4后為學(xué)優(yōu)生分配知識(shí)點(diǎn)e1下的題目.這說明RCAT選題策略實(shí)現(xiàn)在智能教育場(chǎng)景下對(duì)不同能力學(xué)生的個(gè)性化選題.
而MAAT-R為學(xué)中生和學(xué)優(yōu)生分配的知識(shí)點(diǎn)是完全相同的,說明MAAT-R在選題時(shí)不能自適應(yīng)調(diào)整知識(shí)點(diǎn),只能根據(jù)學(xué)生能力為學(xué)生從固定的知識(shí)點(diǎn)中選擇合適的題目.
圖9 對(duì)學(xué)困生、學(xué)中生、學(xué)優(yōu)生的案例分析
從圖9中可看出,相同學(xué)生在不同選題策略上的表現(xiàn)也存在不同.具體地,對(duì)于學(xué)困生,同樣測(cè)驗(yàn)知識(shí)點(diǎn)e1,RCAT選題策略選擇的題目測(cè)驗(yàn)學(xué)生對(duì)該知識(shí)點(diǎn)存在缺陷,而MAAT-R選擇的題目沒有測(cè)驗(yàn),同時(shí)RCAT選題策略測(cè)驗(yàn)學(xué)困生知識(shí)點(diǎn)e4、e5、e8均未完全掌握,而在MAAT-R中,均未測(cè)驗(yàn)知識(shí)點(diǎn)e4、e5.這說明RCAT選題策略更能發(fā)現(xiàn)學(xué)生的問題,同時(shí)這也符合本研究在2.4.1節(jié)中提出的更快找出學(xué)生未掌握的知識(shí)點(diǎn)這一測(cè)驗(yàn)?zāi)繕?biāo),因此RCAT選題策略在智能教育場(chǎng)景下是有效且存在優(yōu)勢(shì)的.
此外, RCAT選題策略在為學(xué)中生分配題目時(shí),先為學(xué)生分配知識(shí)點(diǎn)e4,學(xué)生答對(duì)后為學(xué)生分配后繼知識(shí)點(diǎn)e8,當(dāng)學(xué)生未答對(duì)知識(shí)點(diǎn)e8下的題目時(shí),RCAT選題策略為學(xué)生選擇知識(shí)點(diǎn)e8的前驅(qū)知識(shí)點(diǎn)e6,答錯(cuò)之后又測(cè)驗(yàn)知識(shí)點(diǎn)e6的前驅(qū)知識(shí)點(diǎn)e5,在學(xué)生答對(duì)知識(shí)點(diǎn)e5下的題目后,RCAT選題策略為學(xué)生分配知識(shí)點(diǎn)圖譜上另一棵樹上的知識(shí)點(diǎn)e1.可以看出,RCAT選題策略可實(shí)現(xiàn)從知識(shí)點(diǎn)e8到知識(shí)點(diǎn)e6再到知識(shí)點(diǎn)e5這一對(duì)答錯(cuò)題目的反向溯源過程,當(dāng)反向溯源搜索到知識(shí)點(diǎn)e5并且學(xué)生答對(duì)該知識(shí)點(diǎn)下的題目后,RCAT選題策略能讀取該信息并判斷已搜索到未掌握的知識(shí)點(diǎn),轉(zhuǎn)去測(cè)驗(yàn)圖譜中另一棵數(shù)上的知識(shí)點(diǎn)e1.該結(jié)果表明強(qiáng)化學(xué)習(xí)模型中對(duì)知識(shí)點(diǎn)的矛盾學(xué)習(xí)確實(shí)為模型提供知識(shí)點(diǎn)的關(guān)聯(lián)信息,降低智能教育場(chǎng)景下知識(shí)稀疏問題的影響,也反映強(qiáng)化學(xué)習(xí)選題策略在智能教育場(chǎng)景下的優(yōu)越性.
當(dāng)然從測(cè)驗(yàn)中也可看出,RCAT選題策略仍然存在一些問題:RCAT選題策略在為學(xué)生選題的過程中,可能會(huì)存在反復(fù)測(cè)驗(yàn)知識(shí)點(diǎn)的問題,如在對(duì)學(xué)困生進(jìn)行測(cè)驗(yàn)時(shí),第1題和第8題考查的都是知識(shí)點(diǎn)e5,這會(huì)降低CAT的可解釋性,也可能會(huì)影響學(xué)生的答題體驗(yàn).
本文針對(duì)智能教育場(chǎng)景下的CAT進(jìn)行研究,并按照CAT的流程設(shè)計(jì)面向序列診斷的強(qiáng)化計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)方法.首先,為了解決傳統(tǒng)自適應(yīng)測(cè)驗(yàn)無法考慮學(xué)生作答記錄序列性的問題,設(shè)計(jì)基于序列診斷的學(xué)生模擬器和診斷學(xué)生知識(shí)點(diǎn)掌握程度的學(xué)生畫像模型.然后,為了保證CAT結(jié)果的準(zhǔn)確性以及學(xué)生的作答體驗(yàn),設(shè)計(jì)多種評(píng)價(jià)指標(biāo).針對(duì)這些指標(biāo),提出基于強(qiáng)化學(xué)習(xí)的計(jì)算機(jī)自適應(yīng)(RCAT)選題策略,將知識(shí)點(diǎn)表征、題目難度表征、知識(shí)點(diǎn)難度表征、學(xué)生初始能力加入強(qiáng)化學(xué)習(xí)模型中,并利用雙通道注意力機(jī)制以及矛盾學(xué)習(xí)的機(jī)制,緩解CAT中目標(biāo)復(fù)雜以及知識(shí)稀疏的問題.最后,在真實(shí)數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)表明,RCAT選題策略存在多個(gè)方面的優(yōu)越性,同時(shí)案例分析證實(shí)RCAT選題策略的有效性與可解釋性.
本文提出的CAT框架仍存在進(jìn)一步的改良空間.今后可考慮在基于強(qiáng)化學(xué)習(xí)的選題策略中加入更多的知識(shí)點(diǎn)信息,如知識(shí)點(diǎn)的圖譜信息等.其次,在選題策略中設(shè)計(jì)更詳細(xì)的規(guī)則,減少反復(fù)測(cè)驗(yàn)同個(gè)知識(shí)點(diǎn)的問題.此外,還可優(yōu)化學(xué)生模擬器以及學(xué)生畫像模型自身的性能.