范云霞 杜佳慧 張杰 莊自超 龍?zhí)仗? 童名文
基金項(xiàng)目:國(guó)家自然科學(xué)基金2023年青年項(xiàng)目“基于認(rèn)知過(guò)程挖掘的教師實(shí)踐性知識(shí)演進(jìn)機(jī)制研究”(項(xiàng)目編號(hào):62307017);2021年華中師范大學(xué)國(guó)家教師發(fā)展協(xié)同創(chuàng)新實(shí)驗(yàn)基地建設(shè)研究項(xiàng)目“自適應(yīng)教師培訓(xùn)資源設(shè)計(jì)與開(kāi)發(fā)”(項(xiàng)目編號(hào):CCNUTEIII 2021-04)
[摘? ?要] 自適應(yīng)學(xué)習(xí)路徑作為實(shí)現(xiàn)個(gè)性化學(xué)習(xí)的一項(xiàng)關(guān)鍵技術(shù),受到研究者廣泛關(guān)注。近年來(lái),強(qiáng)化學(xué)習(xí)成為自適應(yīng)學(xué)習(xí)路徑推薦的主流方法,但在動(dòng)態(tài)學(xué)習(xí)環(huán)境表征的完整性和學(xué)習(xí)路徑的適應(yīng)性方面仍存在不足?;诖?,文章提出了融合領(lǐng)域知識(shí)特征的自適應(yīng)學(xué)習(xí)路徑推薦模型。首先,模型將知識(shí)點(diǎn)概念覆蓋和難度兩個(gè)特征引入動(dòng)態(tài)學(xué)習(xí)環(huán)境中,使對(duì)動(dòng)態(tài)學(xué)習(xí)環(huán)境的表征更完整。其次,采用深度強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn)學(xué)習(xí)路徑的推薦,提升學(xué)習(xí)路徑的適應(yīng)性。最后,開(kāi)展技術(shù)對(duì)比實(shí)驗(yàn)和應(yīng)用實(shí)驗(yàn)。技術(shù)對(duì)比實(shí)驗(yàn)表明,該模型提高了學(xué)習(xí)路徑的有效性和適應(yīng)性。應(yīng)用實(shí)驗(yàn)表明,該模型可以準(zhǔn)確地判斷學(xué)習(xí)者的薄弱知識(shí)點(diǎn)概念,并能為學(xué)習(xí)者推薦適合其認(rèn)知特征的自適應(yīng)學(xué)習(xí)路徑。
[關(guān)鍵詞] 自適應(yīng)學(xué)習(xí)路徑; 強(qiáng)化學(xué)習(xí); 領(lǐng)域知識(shí)特征; 知識(shí)點(diǎn)概念覆蓋; 個(gè)性化學(xué)習(xí)
[中圖分類(lèi)號(hào)] G434? ? ? ? ? ? [文獻(xiàn)標(biāo)志碼] A
[作者簡(jiǎn)介] 范云霞(1992—),女,山西長(zhǎng)治人。博士研究生,主要從事自適應(yīng)學(xué)習(xí)理論與方法研究。E-mail:1134527434@qq.com。童名文為通訊作者,E-mail:tmw@ccnu.edu.cn。
一、引? ?言
近年來(lái),規(guī)?;膫€(gè)性化教育成了新時(shí)代的教育理想和訴求[1]。自適應(yīng)學(xué)習(xí)作為實(shí)現(xiàn)規(guī)?;膫€(gè)性化教育的重要途徑,引起了研究者的廣泛關(guān)注。學(xué)習(xí)路徑推薦是自適應(yīng)學(xué)習(xí)的一項(xiàng)關(guān)鍵技術(shù),能夠幫助學(xué)習(xí)者實(shí)現(xiàn)認(rèn)知狀態(tài)與學(xué)習(xí)對(duì)象的精準(zhǔn)匹配[2],提高學(xué)習(xí)者的學(xué)習(xí)效率和滿意度[3]。自適應(yīng)學(xué)習(xí)路徑作為學(xué)習(xí)路徑的一種類(lèi)型,可根據(jù)學(xué)習(xí)過(guò)程中學(xué)習(xí)環(huán)境的變化實(shí)時(shí)地調(diào)整學(xué)習(xí)路徑。關(guān)于自適應(yīng)學(xué)習(xí)路徑推薦的研究逐步由“半動(dòng)態(tài)”向“動(dòng)態(tài)”發(fā)展[4],其中,基于強(qiáng)化學(xué)習(xí)的自適應(yīng)路徑推薦成為動(dòng)態(tài)路徑推薦的一種重要方法[5]。但是現(xiàn)有研究多為強(qiáng)化學(xué)習(xí)的簡(jiǎn)單遷移,缺乏對(duì)復(fù)雜真實(shí)學(xué)習(xí)情境的分析和建模,具體表現(xiàn)在:(1)動(dòng)態(tài)學(xué)習(xí)環(huán)境表征不完整;(2)學(xué)習(xí)路徑適應(yīng)性不強(qiáng)。有研究表明:在領(lǐng)域知識(shí)特征中,對(duì)下一題知識(shí)點(diǎn)概念覆蓋預(yù)測(cè)可以準(zhǔn)確定位學(xué)習(xí)者的薄弱知識(shí)點(diǎn)[6]。對(duì)學(xué)習(xí)對(duì)象難度值的動(dòng)態(tài)追蹤可以實(shí)現(xiàn)高適應(yīng)性的推薦[7]。因此,本研究基于強(qiáng)化學(xué)習(xí)框架提出了一種融合領(lǐng)域知識(shí)特征的自適應(yīng)學(xué)習(xí)路徑推薦模型(Adaptive Learning Path Recommendation Model,ALPRM),該模型將知識(shí)點(diǎn)概念覆蓋和難度兩個(gè)核心特征融入動(dòng)態(tài)學(xué)習(xí)環(huán)境表征,然后對(duì)強(qiáng)化學(xué)習(xí)模型的核心組件進(jìn)行重新設(shè)計(jì),旨在推薦主動(dòng)適應(yīng)學(xué)習(xí)環(huán)境動(dòng)態(tài)變化的學(xué)習(xí)路徑。
二、相關(guān)研究
學(xué)習(xí)路徑是指利用學(xué)習(xí)者特征、領(lǐng)域知識(shí)特征等信息,為學(xué)習(xí)者定制的符合教育認(rèn)知規(guī)律、能實(shí)現(xiàn)其既定學(xué)習(xí)目標(biāo)的最優(yōu)學(xué)習(xí)單元序列[8]。自適應(yīng)學(xué)習(xí)路徑是學(xué)習(xí)路徑的一種類(lèi)型,它是根據(jù)學(xué)習(xí)環(huán)境的變化,可動(dòng)態(tài)調(diào)整的學(xué)習(xí)路徑。經(jīng)典的學(xué)習(xí)路徑只關(guān)注推薦結(jié)果的個(gè)性化,具有靜態(tài)性,而自適應(yīng)學(xué)習(xí)路徑注重學(xué)習(xí)路徑在學(xué)習(xí)過(guò)程中的調(diào)整,具有動(dòng)態(tài)性。近年來(lái),關(guān)于學(xué)習(xí)路徑推薦的研究主要集中在自適應(yīng)學(xué)習(xí)路徑推薦。自適應(yīng)學(xué)習(xí)路徑推薦研究主要包括動(dòng)態(tài)學(xué)習(xí)環(huán)境表征和自適應(yīng)學(xué)習(xí)路徑推薦技術(shù)兩個(gè)方向。
(一)動(dòng)態(tài)學(xué)習(xí)環(huán)境表征研究
在動(dòng)態(tài)學(xué)習(xí)環(huán)境表征研究中,主要是對(duì)學(xué)習(xí)者個(gè)性特征和領(lǐng)域知識(shí)特征進(jìn)行提取與計(jì)算[9]。學(xué)習(xí)者個(gè)性特征分為 “為什么學(xué)”的特征、“學(xué)什么”的特征、“怎樣學(xué)”的特征[10]?!盀槭裁磳W(xué)”的特征是說(shuō)明學(xué)習(xí)者學(xué)習(xí)目的特征,用于設(shè)計(jì)和規(guī)劃學(xué)習(xí)過(guò)程,一般可以從學(xué)習(xí)環(huán)境中直接獲取,屬于顯性特征,如學(xué)習(xí)目標(biāo)、職業(yè)目標(biāo)和學(xué)習(xí)動(dòng)機(jī)?!皩W(xué)什么”的特征是說(shuō)明系統(tǒng)給學(xué)習(xí)者推薦的路徑節(jié)點(diǎn)需要依據(jù)的特征,是以往研究中挖掘最多的隱形特征,如學(xué)習(xí)能力、認(rèn)知狀態(tài)和理解水平等?!霸鯓訉W(xué)”的特征是說(shuō)明為學(xué)習(xí)者推薦什么資源類(lèi)型的特征,如學(xué)習(xí)風(fēng)格、學(xué)習(xí)偏好。領(lǐng)域知識(shí)特征分為靜態(tài)特征和動(dòng)態(tài)特征。靜態(tài)特征是指與推薦相關(guān)的,并且在學(xué)習(xí)推薦過(guò)程中特征值不發(fā)生改變的特征,如學(xué)習(xí)對(duì)象的描述性特征(學(xué)習(xí)對(duì)象格式類(lèi)型、媒體格式、交互方式、知識(shí)粒度、所屬章節(jié)、涉及知識(shí)點(diǎn)概念)。而動(dòng)態(tài)特征是指在學(xué)習(xí)推薦過(guò)程中特征值發(fā)生改變的特征(如難度),常用來(lái)實(shí)現(xiàn)學(xué)習(xí)對(duì)象的動(dòng)態(tài)分類(lèi)和交互信息的動(dòng)態(tài)更新[9]。動(dòng)態(tài)學(xué)習(xí)環(huán)境表征更多關(guān)注的是學(xué)習(xí)者特征中的“學(xué)什么”的特征和領(lǐng)域知識(shí)特征中的動(dòng)態(tài)特征。
(二)自適應(yīng)學(xué)習(xí)路徑推薦技術(shù)研究
在自適應(yīng)學(xué)習(xí)路徑推薦技術(shù)研究中,已有推薦技術(shù)呈現(xiàn)出“半動(dòng)態(tài)路徑推薦”和“動(dòng)態(tài)路徑推薦”兩種類(lèi)型?!鞍雱?dòng)態(tài)路徑推薦”是根據(jù)初始的學(xué)習(xí)環(huán)境信息,為學(xué)習(xí)者推薦一條完整的路徑,并且在整個(gè)學(xué)習(xí)過(guò)程中學(xué)習(xí)環(huán)境變量值保持不變,這類(lèi)研究大多先用聚類(lèi)、K近鄰或決策樹(shù)等技術(shù)對(duì)學(xué)習(xí)者個(gè)性特征進(jìn)行聚類(lèi)并初始化環(huán)境信息,然后再利用廣度優(yōu)先搜索[11]、關(guān)聯(lián)規(guī)則[12]或長(zhǎng)短期記憶網(wǎng)絡(luò)(Long-Short Term Memory,LSTM)[13]等算法推薦學(xué)習(xí)路徑?!皠?dòng)態(tài)路徑推薦”是多階段為學(xué)習(xí)者推薦自適應(yīng)學(xué)習(xí)路徑,學(xué)習(xí)環(huán)境變量會(huì)隨學(xué)習(xí)過(guò)程的進(jìn)行而動(dòng)態(tài)變化,實(shí)現(xiàn)“一步又一步”的推薦,這類(lèi)研究主要使用強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn)。
(三)基于強(qiáng)化學(xué)習(xí)的自適應(yīng)學(xué)習(xí)路徑推薦技術(shù)研究
目前,強(qiáng)化學(xué)習(xí)已經(jīng)成為實(shí)現(xiàn)自適應(yīng)學(xué)習(xí)路徑推薦的主流方法,研究者普遍將自適應(yīng)學(xué)習(xí)路徑推薦問(wèn)題建模為最優(yōu)化問(wèn)題,將推薦過(guò)程視為馬爾可夫決策過(guò)程(Markov Decision Processes,MDP),結(jié)合教育情境對(duì)強(qiáng)化學(xué)習(xí)的核心組件(狀態(tài)、動(dòng)作、回報(bào)值)重新定義來(lái)實(shí)現(xiàn)推薦過(guò)程[5]。表1為基于強(qiáng)化學(xué)習(xí)的自適應(yīng)學(xué)習(xí)路徑推薦典型模型梳理?,F(xiàn)有研究在“狀態(tài)”的定義方面,研究者通常將動(dòng)態(tài)學(xué)習(xí)環(huán)境定義為強(qiáng)化學(xué)習(xí)的狀態(tài),最多的表征特征是學(xué)習(xí)者模型中的認(rèn)知狀態(tài)特征,少數(shù)研究使用了領(lǐng)域知識(shí)特征,但只考慮使用后繼知識(shí)點(diǎn)概念來(lái)定位知識(shí)點(diǎn),這種方式只能促使學(xué)習(xí)者學(xué)習(xí)新的知識(shí)點(diǎn)概念,無(wú)法捕捉到真正薄弱的知識(shí)點(diǎn)概念。此外,現(xiàn)有研究忽略了領(lǐng)域知識(shí)的交互特征,這也是影響學(xué)習(xí)對(duì)象推薦準(zhǔn)確性的一個(gè)重要原因。在“回報(bào)值”的定義方面,現(xiàn)有研究的設(shè)計(jì)思想有固定回報(bào)值設(shè)計(jì)、多元線性函數(shù)設(shè)計(jì)、直接使用學(xué)習(xí)成績(jī)(或提高程度)作為回報(bào)值等。此外,現(xiàn)有研究中常用的強(qiáng)化學(xué)習(xí)算法有Q-Learning、Actor-Critic、DQN等。
綜上所述,強(qiáng)化學(xué)習(xí)算法在自適應(yīng)學(xué)習(xí)路徑推薦領(lǐng)域已取得豐富的研究成果,但還存在以下問(wèn)題:(1)動(dòng)態(tài)學(xué)習(xí)環(huán)境的表征不完整,突出表現(xiàn)在沒(méi)有嚴(yán)格分析領(lǐng)域知識(shí)的動(dòng)態(tài)特征。(2)學(xué)習(xí)路徑適應(yīng)性不強(qiáng),表現(xiàn)在無(wú)法準(zhǔn)確定位薄弱知識(shí)點(diǎn)概念,學(xué)習(xí)對(duì)象推薦的準(zhǔn)確性不高。本研究提出融合領(lǐng)域知識(shí)特征的ALPRM,并對(duì)相關(guān)算法進(jìn)行實(shí)現(xiàn),以期解決上述問(wèn)題。
三、融合領(lǐng)域知識(shí)特征的自適應(yīng)
學(xué)習(xí)路徑推薦模型構(gòu)建
(一)自適應(yīng)學(xué)習(xí)路徑推薦模型構(gòu)建
本研究基于強(qiáng)化學(xué)習(xí)框架構(gòu)建了如圖1所示的ALPRM圖。該模型由動(dòng)態(tài)學(xué)習(xí)環(huán)境表征和自適應(yīng)學(xué)習(xí)路徑推薦兩層組成。(1)在動(dòng)態(tài)學(xué)習(xí)環(huán)境表征層,提取學(xué)習(xí)者個(gè)性特征和領(lǐng)域知識(shí)特征中的核心動(dòng)態(tài)特征來(lái)表征動(dòng)態(tài)學(xué)習(xí)環(huán)境。具體來(lái)說(shuō),由學(xué)習(xí)者認(rèn)知狀態(tài)、學(xué)習(xí)目標(biāo)、知識(shí)點(diǎn)概念覆蓋、難度共同表征。學(xué)習(xí)者認(rèn)知狀態(tài)可以實(shí)時(shí)追蹤學(xué)習(xí)者知識(shí)點(diǎn)概念掌握情況;學(xué)習(xí)目標(biāo)可以指明自適應(yīng)學(xué)習(xí)路徑的方向;知識(shí)點(diǎn)概念覆蓋預(yù)測(cè)不僅可以幫助學(xué)習(xí)者定位薄弱知識(shí)點(diǎn)概念,還能根據(jù)這些預(yù)測(cè)的知識(shí)點(diǎn)概念從資源庫(kù)中檢索候選學(xué)習(xí)對(duì)象,減少智能體的搜索空間;難度的動(dòng)態(tài)表征可以更準(zhǔn)確地獲取同一學(xué)習(xí)對(duì)象在學(xué)習(xí)者不同學(xué)習(xí)狀態(tài)時(shí)的難度水平。這樣的表征方式使自適應(yīng)學(xué)習(xí)環(huán)境表征更完整。(2)在自適應(yīng)學(xué)習(xí)路徑推薦層,對(duì)MDP的主要組件進(jìn)行重新定義,將“狀態(tài)”定義為動(dòng)態(tài)學(xué)習(xí)環(huán)境的表征模型,將“動(dòng)作空間”定義為候選學(xué)習(xí)對(duì)象,將“回報(bào)值”定義為有關(guān)難度特征的函數(shù)。利用動(dòng)態(tài)環(huán)境特征變量訓(xùn)練深度強(qiáng)化學(xué)習(xí)的策略網(wǎng)絡(luò),最后根據(jù)訓(xùn)練好的模型為學(xué)習(xí)者推薦最符合其當(dāng)前學(xué)習(xí)狀態(tài)的學(xué)習(xí)對(duì)象,這樣的設(shè)計(jì)旨在實(shí)現(xiàn)自適應(yīng)學(xué)習(xí)路徑推薦的動(dòng)態(tài)性,同時(shí)也提高適應(yīng)性。
(二)動(dòng)態(tài)學(xué)習(xí)環(huán)境的表征與計(jì)算
1. 動(dòng)態(tài)學(xué)習(xí)環(huán)境的表征
在動(dòng)態(tài)學(xué)習(xí)環(huán)境表征方面,已有研究通常由學(xué)習(xí)者的認(rèn)知狀態(tài)表征,本研究在此基礎(chǔ)上加入學(xué)習(xí)目標(biāo)特征和領(lǐng)域知識(shí)特征,將動(dòng)態(tài)學(xué)習(xí)環(huán)境表征為Statet=[et,Target,p(Kt),p'(Kt),Dift],Statet具體的描述為:et表示當(dāng)前學(xué)習(xí)對(duì)象;Target為目標(biāo)知識(shí)點(diǎn)概念,學(xué)習(xí)目標(biāo)可以由教師制定,也可以由學(xué)習(xí)者在學(xué)習(xí)開(kāi)始前根據(jù)自己的情況自由決定;p(Kt)為t時(shí)刻學(xué)習(xí)者的認(rèn)知狀態(tài);p'(Kt)為t時(shí)刻預(yù)測(cè)的下一步知識(shí)點(diǎn)概念覆蓋;Dift為學(xué)習(xí)對(duì)象的難度值。這些特征中,et值可以從學(xué)習(xí)環(huán)境直接獲取,無(wú)需計(jì)算;Target可以在學(xué)習(xí)開(kāi)始時(shí)根據(jù)學(xué)習(xí)者的輸入得到;而p(Kt)、p'(Kt)和Dift這些特征值則需要專(zhuān)門(mén)的計(jì)算機(jī)算法的精確評(píng)估才能獲得。
2. 動(dòng)態(tài)學(xué)習(xí)環(huán)境特征值的計(jì)算
近年來(lái),深度神經(jīng)網(wǎng)絡(luò)在處理非線性建模、自適應(yīng)學(xué)習(xí)、大規(guī)模數(shù)據(jù)、端到端的自動(dòng)化預(yù)測(cè)等領(lǐng)域表現(xiàn)出非常優(yōu)秀的預(yù)測(cè)性能[20]。本研究也使用深度神經(jīng)網(wǎng)絡(luò)算法來(lái)對(duì)動(dòng)態(tài)學(xué)習(xí)環(huán)境的特征值進(jìn)行計(jì)算,利用LSTM模型預(yù)測(cè)學(xué)習(xí)者認(rèn)知狀態(tài);使用Transformer模型預(yù)測(cè)下一題知識(shí)點(diǎn)概念覆蓋情況;根據(jù)學(xué)習(xí)者的認(rèn)知狀態(tài)計(jì)算出學(xué)習(xí)對(duì)象的動(dòng)態(tài)難度值。
為了詳細(xì)說(shuō)明,本研究以習(xí)題推薦為例,假設(shè)了一些變量。假設(shè)有一門(mén)C課程共包含K個(gè)知識(shí)點(diǎn)概念,表示為K=k1,k2,…,k■。學(xué)習(xí)者表示為S=s■1,s■2,s■3,…,s■,習(xí)題庫(kù)表示為EB=e1(k),e2(k),…,e■(k),習(xí)題表示為ej(k)=[e■(k1),ej(k2),ej(k3)…,ej(k■)], e■(ki)的取值為0或1(0表示該題沒(méi)有包含第i個(gè)知識(shí)點(diǎn)概念,1表示該題包含了第i個(gè)知識(shí)點(diǎn)概念)。將某學(xué)習(xí)者s■i的歷史答題記錄表示為X■=x1■,x2,x3,…,x■,t時(shí)刻學(xué)習(xí)者s■i對(duì)習(xí)題ej的作答情況表示為x■=(s■,e■(k),a■t)|s■∈S,e■(k)∈EB。
(1)認(rèn)知狀態(tài)的計(jì)算
本研究使用LSTM模型來(lái)預(yù)測(cè)學(xué)習(xí)者的知識(shí)概念掌握情況,追蹤他們的認(rèn)知狀態(tài)。LSTM模型的輸入為x■=(s■,e■(k),a■t)|s■∈S,e■(k)∈EB,習(xí)題e■的知識(shí)點(diǎn)概念的單熱編碼用?準(zhǔn)(Kt)表示,at的取值為0或1(0和1分別表示作答錯(cuò)誤和正確)。模型的輸出ht是一個(gè)向量,其長(zhǎng)度等于K的長(zhǎng)度,它的每個(gè)組成部分代表正確回答相應(yīng)的知識(shí)點(diǎn)概念的概率。本研究通過(guò)二元交叉熵構(gòu)建一個(gè)損失函數(shù)來(lái)訓(xùn)練這個(gè)模型,對(duì)于單個(gè)學(xué)習(xí)者的優(yōu)化損失函數(shù)表示為:
Ls=∑■■l■(ht·?準(zhǔn)(K■t),at+1)? ? ? ? ? ? ? ? ? ? ? ? 式(1)
其中,·表示點(diǎn)乘,l■表示二元交叉熵?fù)p失。
當(dāng)LSTM模型訓(xùn)練結(jié)束后,輸入一個(gè)學(xué)習(xí)者的歷史答題記錄,該模型的輸出就是他對(duì)這門(mén)課程所有知識(shí)點(diǎn)概念的掌握程度,表示為p(Kt)=[p(k■■),p(k■■),p(k■■),…,p(k■■)]。
(2)知識(shí)點(diǎn)概念覆蓋預(yù)測(cè)的計(jì)算
本研究使用Transformer模型來(lái)預(yù)測(cè)知識(shí)點(diǎn)概念覆蓋,以準(zhǔn)確定位學(xué)習(xí)者下一步應(yīng)該學(xué)習(xí)的知識(shí)點(diǎn)概念。利用Transformer模型,編碼器將某學(xué)習(xí)者的習(xí)題Et、知識(shí)點(diǎn)概念Kt和位置Pt作為模型的輸入,因?yàn)門(mén)ransformer是基于自注意機(jī)制的深度學(xué)習(xí)模型,不能像循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)那樣有效利用歷史記錄中的序列信息。因此,本研究在Transformer模型的輸入中嵌入位置編碼,以表征歷史學(xué)習(xí)記錄中的順序信息,模型的輸入表示為:
ε(t)=Eet,kt+Pt? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 式(2)
其中,Eet,kt是連接Et和Kt的嵌入向量,Pt? 表示位置嵌入。
Transformer模型利用解碼器來(lái)預(yù)測(cè)下一題的知識(shí)點(diǎn)概念覆蓋。解碼器通過(guò)自注意機(jī)制連接到編碼器,最后通過(guò)全神經(jīng)網(wǎng)絡(luò)得到模型的輸出vt。在訓(xùn)練時(shí)刻t,vt表示課程中所有知識(shí)點(diǎn)概念出現(xiàn)的概率,即Kt+1。該模型通過(guò)最小化損失函數(shù)L's訓(xùn)練模型,損失函數(shù)表示為:
L'■=∑■■l■(vt·?準(zhǔn)(kt+1),1)? ? ? ? ? ? ? ? ? ? ? ?式(3)
當(dāng)Transformer模型訓(xùn)練結(jié)束后,輸入一個(gè)學(xué)習(xí)者的習(xí)題記錄,該模型的輸出為這門(mén)課程中所有知識(shí)點(diǎn)概念出現(xiàn)的概率,表示為C(Kt)=[c(k■■),c(k■■),c(k■■),…,c(k■■)]。為了提高學(xué)習(xí)者的學(xué)習(xí)熱情,需要分析所推薦的知識(shí)點(diǎn)概念不僅要包括學(xué)習(xí)者在學(xué)習(xí)過(guò)程中的薄弱知識(shí)點(diǎn)概念,也要考慮必須學(xué)習(xí)的新的知識(shí)點(diǎn)概念。因此,在Transformer模型的輸出添加一個(gè)權(quán)值變量,它的長(zhǎng)度等于知識(shí)點(diǎn)概念的長(zhǎng)度,表示為ω(Kt)=[ω(k■■),ω(k■■),ω(k■■),…,ω(k■■]。ω(k■■)的計(jì)算如下:
ω(k■■)=1-■,c■>01,? ? ?c■=0? ? ? ? ? ? ? ? ? ? ? ? ? ? ?式(4)
其中,r■為知識(shí)點(diǎn)概念k■正確回答的次數(shù),c■為k■出現(xiàn)的次數(shù)。利用 p'(Kt)=c(K■■)ω(K■■),最終求出下一題的知識(shí)點(diǎn)概念覆蓋為p'(Kt)=[p'(k■■),p'(k■■),p'(k■■),…,p'(k■■]。
(3)難度特征的計(jì)算
難度是知識(shí)項(xiàng)目的重要特征之一,是習(xí)題推薦過(guò)程中需要考慮的核心因素?,F(xiàn)有工作大多是通過(guò)研究人員預(yù)設(shè)習(xí)題難度,在學(xué)習(xí)過(guò)程中習(xí)題難度值保持恒定。然而,在實(shí)際情況下,這種方案會(huì)導(dǎo)致學(xué)習(xí)者的認(rèn)知偏差。已有研究表明,習(xí)題難度是隨著知識(shí)建構(gòu)過(guò)程動(dòng)態(tài)演變的[21-22]。因此,本研究將該特征整合到動(dòng)態(tài)環(huán)境的表征中。受Wu等人[6]研究的啟發(fā),利用公式(5)和公式(6)來(lái)計(jì)算習(xí)題的難度。
Re(K)=∏■■(p(k■■)丨e(k■)=1)? ? ? ? ? ? ? ? ?式(5)
Re(K)為習(xí)題答對(duì)的概率,p(k■■)為習(xí)題中每個(gè)知識(shí)點(diǎn)概念的掌握程度。因?yàn)閷W(xué)習(xí)者的認(rèn)知狀態(tài)在動(dòng)態(tài)變化,所有習(xí)題答對(duì)的概率也在時(shí)刻變化。
Dift=1-Re(K)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 式(6)
Dift為t時(shí)刻習(xí)題難度值。
(三)深度強(qiáng)化學(xué)習(xí)推薦算法
1. MDP組件的定義
MDP主要組件包括:狀態(tài)、動(dòng)作和回報(bào)值,在本文中的定義如下:
狀態(tài)(State):本研究將動(dòng)態(tài)學(xué)習(xí)環(huán)境視為MDP的狀態(tài),表征為Statet=[et,Target,p(Kt),p'(Kt),Dift]。
動(dòng)作(Action):策略網(wǎng)絡(luò)為一個(gè)提前訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型,該模型接受學(xué)習(xí)環(huán)境狀態(tài)Statet,根據(jù)已經(jīng)保存好的模型參數(shù)θ,從動(dòng)作空間Ct中采樣,預(yù)測(cè)并輸出與當(dāng)前學(xué)習(xí)環(huán)境適應(yīng)度最高的習(xí)題,最后將學(xué)習(xí)環(huán)境更新為Statet'。因?yàn)榱?xí)題庫(kù)中習(xí)題規(guī)模巨大、課程知識(shí)點(diǎn)概念覆蓋廣、難度多樣,這為智能體的搜索帶來(lái)巨大挑戰(zhàn)。本研究從動(dòng)態(tài)學(xué)習(xí)環(huán)境中獲得下一步預(yù)測(cè)的知識(shí)點(diǎn)概念覆蓋,從習(xí)題庫(kù)中檢索出相關(guān)習(xí)題,形成候選習(xí)題集Ct,計(jì)算公式如下:
C■=e■(k■)|e■∈EB,k■∈p'(Kt■)? ? ? ? ? ? ? 式(7)
其中,e■(k■)為t時(shí)刻的候選習(xí)題,j為習(xí)題的數(shù)量,p'(Kt)為上文中預(yù)測(cè)的知識(shí)概念覆蓋。
回報(bào)值(Reward):參考Liu等人[5]的研究,本研究設(shè)計(jì)回報(bào)值并對(duì)其進(jìn)行改進(jìn)。Liu等人只在自適應(yīng)學(xué)習(xí)路徑完成時(shí)給予獎(jiǎng)勵(lì),這種延遲、稀疏的獎(jiǎng)勵(lì)機(jī)制會(huì)導(dǎo)致智能體在早期探索階段盲目選擇,表現(xiàn)不穩(wěn)定。本研究受獎(jiǎng)勵(lì)塑造思想的啟發(fā)[23],完善了回報(bào)值的計(jì)算方法,在智能體探索的每一步和探索結(jié)束后都給予一定的獎(jiǎng)勵(lì),在保證整條自適應(yīng)學(xué)習(xí)路徑有效性的同時(shí),也提高智能體在探索階段的穩(wěn)定性,回報(bào)值函數(shù)設(shè)計(jì)如下:
R■=α*R■+β*R■丨α,β∈0,1R■=1-δ-Dif■? ? 式(8)
其中,R■為L(zhǎng)iu等人[5]研究中回報(bào)值的設(shè)計(jì)函數(shù),R■為每一步給予的回報(bào)值。在智能體探索的早期階段,本研究設(shè)置α=1,β=0,則R■=R■,表示智能體在探索的每一步獲得的回報(bào)值。其中,δ為學(xué)習(xí)者期望的習(xí)題難度,Dif■為候選集中習(xí)題的難度,δ-Dif■值越小時(shí),該習(xí)題為最符合學(xué)習(xí)者需求的習(xí)題。當(dāng)智能體完成探索,本研究設(shè)置α=0,β=1,則R■=R■,表示智能體到達(dá)目標(biāo)知識(shí)點(diǎn)概念獲得的整條自適應(yīng)學(xué)習(xí)路徑的回報(bào)值。
2. 推薦算法描述
本研究在對(duì)每個(gè)組件進(jìn)行重新定義后,仍然存在一個(gè)問(wèn)題,就是如何根據(jù)學(xué)習(xí)者當(dāng)前的動(dòng)態(tài)學(xué)習(xí)環(huán)境來(lái)選擇候選習(xí)題進(jìn)行學(xué)習(xí)。為了解決這個(gè)問(wèn)題,我們使用D3QN算法來(lái)實(shí)現(xiàn)習(xí)題推薦功能,該算法具有簡(jiǎn)單、泛用、沒(méi)有使用禁忌等特點(diǎn)。D3QN算法設(shè)置兩個(gè)Q網(wǎng)絡(luò)(評(píng)估網(wǎng)絡(luò)Q和目標(biāo)網(wǎng)絡(luò)Q')作為參與者,即利用評(píng)估網(wǎng)絡(luò)Q獲取Statet+1狀態(tài)下最大回報(bào)值對(duì)應(yīng)的習(xí)題,然后利用目標(biāo)網(wǎng)絡(luò)Q'計(jì)算該習(xí)題獲得的真實(shí)回報(bào)值,從而得到目標(biāo)值。通過(guò)兩個(gè)網(wǎng)絡(luò)的交互,有效避免了算法的“過(guò)估計(jì)”問(wèn)題。其中,θ和θ'分別表示評(píng)估網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)的參數(shù)。目標(biāo)值的計(jì)算如下:
yt=Rt+1+γQ'(Statet+1,arg maxaQ(Statet+1,a,θ),θ')
式(9)
其中,arg maxaQ(Statet+1,a,θ)表示Statet+1狀態(tài)下評(píng)估網(wǎng)絡(luò)Q根據(jù)其參數(shù)θ選擇回報(bào)值最大的習(xí)題,這個(gè)習(xí)題選擇的動(dòng)作再次經(jīng)過(guò)目標(biāo)網(wǎng)絡(luò)Q'計(jì)算獲得最終的真實(shí)回報(bào)值yt。在計(jì)算出yt的基礎(chǔ)上,使用均方差損失函數(shù),計(jì)算Loss,再通過(guò)反向傳播更新參數(shù)θ。公式如下:
Loss=■∑■■(yt-Q(Statet,Ct,θ))2? ? ? ? 式(10)
經(jīng)過(guò)算法多次迭代運(yùn)行,策略網(wǎng)絡(luò)就會(huì)訓(xùn)練完成。當(dāng)上文構(gòu)建的動(dòng)態(tài)學(xué)習(xí)環(huán)境模型中的所有變量輸入神經(jīng)網(wǎng)絡(luò)后,就可以輸出相對(duì)應(yīng)的習(xí)題。
四、自適應(yīng)學(xué)習(xí)路徑推薦模型的實(shí)驗(yàn)研究
(一)實(shí)驗(yàn)對(duì)象
為了評(píng)估ALPRM,本研究在一個(gè)公共數(shù)據(jù)集和一個(gè)真實(shí)數(shù)據(jù)集上開(kāi)展了實(shí)驗(yàn),進(jìn)行性能驗(yàn)證。ASSISTments2009數(shù)據(jù)集來(lái)自ASSISTments網(wǎng)站,本研究篩選該數(shù)據(jù)集中的初中數(shù)學(xué)代數(shù)部分進(jìn)行實(shí)驗(yàn),去除沒(méi)有知識(shí)點(diǎn)概念和學(xué)習(xí)者記錄少于10條的記錄,得出65,372條數(shù)據(jù)。自適應(yīng)學(xué)習(xí)系統(tǒng)數(shù)據(jù)集是一個(gè)真實(shí)的數(shù)據(jù)集,該系統(tǒng)由本團(tuán)隊(duì)自主開(kāi)發(fā)。本研究選擇系統(tǒng)中“C程序設(shè)計(jì)”課程的前三章節(jié)的數(shù)據(jù)開(kāi)展實(shí)驗(yàn)。該系統(tǒng)至少包含一個(gè)知識(shí)點(diǎn)概念,所以只去除學(xué)習(xí)者記錄少于10條的記錄,得出94,886條數(shù)據(jù)。表2為兩個(gè)數(shù)據(jù)集數(shù)據(jù)清理后的信息統(tǒng)計(jì)情況。
表2? ? ? ? ? ?兩個(gè)數(shù)據(jù)集的統(tǒng)計(jì)信息
(二)實(shí)驗(yàn)設(shè)置
本研究選取最先進(jìn)的自適應(yīng)學(xué)習(xí)路徑推薦框架進(jìn)行對(duì)比,分別是認(rèn)知結(jié)構(gòu)增強(qiáng)模型(CSEAL)[5]、基于知識(shí)點(diǎn)概念覆蓋預(yù)測(cè)模型(KCP-ER)[6]、雙層多目標(biāo)推薦模型(MulOER-SAN)[24]?;€模型中涉及的深度學(xué)習(xí)算法的參數(shù)設(shè)置與原文相同。本研究中的LSTM模型的參數(shù)設(shè)置參考Wu等人[6]的研究,Transformer模型的參數(shù)設(shè)置參考Ren等人[24]的研究,D3QN中explore采用EpsilonGreedy,初始epsilon為1,最終epsilon設(shè)置為0.02,epsilon time steps設(shè)置成5000,激活函數(shù)使用Relu,隱藏層為[256,256], γ設(shè)置為0.99,學(xué)習(xí)率為5e-4,其他參數(shù)為默認(rèn)參數(shù),獲取環(huán)境狀態(tài)值進(jìn)行訓(xùn)練。本研究隨機(jī)選擇其中80%的數(shù)據(jù)作為訓(xùn)練集、10%為驗(yàn)證集、10%為測(cè)試集以開(kāi)展實(shí)驗(yàn)。
(三)實(shí)驗(yàn)指標(biāo)
參考已有研究,本研究采用有效性[5]、適應(yīng)性[24]指標(biāo)來(lái)評(píng)價(jià)產(chǎn)生的自適應(yīng)學(xué)習(xí)路徑的質(zhì)量。
1. 有效性
有效性用來(lái)評(píng)估學(xué)習(xí)者在一個(gè)會(huì)話中學(xué)習(xí)成績(jī)的提升情況,定義如公式(11)所示:
Ep(LP)=■? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 式(11)
在一個(gè)會(huì)話中,Es是開(kāi)始的分?jǐn)?shù),Ee是結(jié)束的分?jǐn)?shù),Esup是總分?jǐn)?shù)。Ep(LP)值越大代表推薦的有效性越好;值越小代表自適應(yīng)學(xué)習(xí)路徑的有效性越差。
2. 適應(yīng)性
適應(yīng)性反映了每一次推薦的習(xí)題是否具有適當(dāng)?shù)碾y度水平。Ren等提出適應(yīng)性的計(jì)算公式(12)[24]:
Adaptiviy(LP)=■? ? ? ? ?式(12)
δ為學(xué)習(xí)者對(duì)習(xí)題的期望難度,Dif■為所選習(xí)題的難度,δ-Dif■表示學(xué)習(xí)者期望選擇的習(xí)題與真實(shí)選擇的習(xí)題的難度距離,1-δ-Dif■表示每次選擇習(xí)題的適應(yīng)性,M為自適應(yīng)學(xué)習(xí)路徑中習(xí)題的個(gè)數(shù), Adaptiviy(LP)表示推薦的整條學(xué)習(xí)路徑的適應(yīng)性。
(四)實(shí)驗(yàn)結(jié)果分析
表3展示了兩個(gè)數(shù)據(jù)集中各模型在有效性和適應(yīng)性兩個(gè)指標(biāo)上的表現(xiàn)效果。通過(guò)觀察可以發(fā)現(xiàn):(1)在所有基線中,采用CSEAL模型推薦的自適應(yīng)學(xué)習(xí)路徑表現(xiàn)最差。經(jīng)過(guò)分析發(fā)現(xiàn),CSEAL模型通過(guò)知識(shí)圖譜中當(dāng)前知識(shí)點(diǎn)概念的后繼知識(shí)點(diǎn)概念直接獲取習(xí)題候選集,而不是采用知識(shí)點(diǎn)概念覆蓋預(yù)測(cè)的方式獲取,也沒(méi)有考慮習(xí)題難度特征,這些因素可能是導(dǎo)致推薦效果較差的原因。(2)MulOER-SAN的各項(xiàng)指標(biāo)都比KCP-ER好,這與Ren等人[24]的研究結(jié)果相同。(3)在有效性和適應(yīng)性兩個(gè)方面,ALPRM比所有基線的表現(xiàn)都好。
總之,技術(shù)對(duì)比實(shí)驗(yàn)表明,融入領(lǐng)域知識(shí)特征的動(dòng)態(tài)學(xué)習(xí)環(huán)境表征,使基于強(qiáng)化學(xué)習(xí)算法的自適應(yīng)學(xué)習(xí)路徑推薦質(zhì)量更高,表現(xiàn)出較優(yōu)的性能。
表3? ? ? ? ? ?所有模型的實(shí)驗(yàn)結(jié)果對(duì)比
五、自適應(yīng)學(xué)習(xí)路徑推薦模型的應(yīng)用研究
(一)實(shí)驗(yàn)設(shè)計(jì)
為了驗(yàn)證ALPRM的應(yīng)用效果,本研究將模型中涉及的算法嵌入本團(tuán)隊(duì)自主開(kāi)發(fā)的自適應(yīng)學(xué)習(xí)系統(tǒng)中。以太原市某高校軟件工程專(zhuān)業(yè)的3個(gè)班級(jí)(實(shí)驗(yàn)一班50人,實(shí)驗(yàn)二班51人,對(duì)照班51人)的大一新生為實(shí)驗(yàn)對(duì)象,這些新生都沒(méi)有學(xué)習(xí)C語(yǔ)言的經(jīng)歷。以“C程序設(shè)計(jì)”的前三章內(nèi)容為教學(xué)內(nèi)容,共持續(xù)6周,采用課上同一位教師講授,課下學(xué)習(xí)者使用自適應(yīng)學(xué)習(xí)系統(tǒng)進(jìn)行練習(xí)的教學(xué)模式。實(shí)驗(yàn)一班的學(xué)習(xí)者使用基于ALPRM的系統(tǒng)推薦習(xí)題,實(shí)驗(yàn)二班的學(xué)習(xí)者使用基于MulOER-SAN的系統(tǒng)推薦習(xí)題,對(duì)照班的學(xué)習(xí)者根據(jù)知識(shí)點(diǎn)概念自己選擇習(xí)題進(jìn)行練習(xí)。學(xué)習(xí)6周后,3個(gè)班的學(xué)習(xí)者都參加1小時(shí)的小型測(cè)試。
(二)實(shí)驗(yàn)結(jié)果分析
1. 整體學(xué)習(xí)成績(jī)分析
圖2? ?3個(gè)班級(jí)學(xué)習(xí)者學(xué)習(xí)成績(jī)總體分布箱線圖
因?yàn)?個(gè)班的學(xué)習(xí)者都沒(méi)有學(xué)習(xí)C語(yǔ)言的經(jīng)歷,本研究認(rèn)為實(shí)驗(yàn)前學(xué)習(xí)者的學(xué)習(xí)成績(jī)并無(wú)顯著差異。圖2為3個(gè)班級(jí)學(xué)習(xí)者學(xué)習(xí)成績(jī)總體分布箱線圖,展示了全班學(xué)習(xí)者考試成績(jī)的總體數(shù)據(jù)分布情況。從中值來(lái)看,實(shí)驗(yàn)一班為86分,實(shí)驗(yàn)二班為81分,對(duì)照班為77分,實(shí)驗(yàn)一班的學(xué)習(xí)者的總體成績(jī)優(yōu)于其他兩個(gè)班;從IQR(箱體的長(zhǎng)度)來(lái)看,實(shí)驗(yàn)一班的成績(jī)分布范圍較大,意味著該班學(xué)習(xí)者的成績(jī)差異較大。實(shí)驗(yàn)二班和對(duì)照班的成績(jī)分布相對(duì)集中,說(shuō)明這兩個(gè)班的學(xué)習(xí)者成績(jī)比較集中。從離群點(diǎn)來(lái)看,實(shí)驗(yàn)一班沒(méi)有觀察到異常值,實(shí)驗(yàn)二班和對(duì)照班存在較多的低離群點(diǎn)。從箱線圖的中值、IQR和離群點(diǎn)指標(biāo)可以看出,與其他兩個(gè)班相比,實(shí)驗(yàn)一班的整體學(xué)習(xí)成績(jī)更好。
2. 案例分析
本研究還隨機(jī)選取實(shí)驗(yàn)一班的一名學(xué)習(xí)者的自適應(yīng)學(xué)習(xí)路徑進(jìn)行了案例分析,該學(xué)習(xí)者的學(xué)習(xí)趨勢(shì)如圖3所示。在圖3中,橫軸(x軸)表示習(xí)題推薦的路徑,縱軸(y軸)表示準(zhǔn)確率,空心點(diǎn)表示所有在系統(tǒng)中回答了這個(gè)習(xí)題的學(xué)習(xí)者的平均準(zhǔn)確率,實(shí)心點(diǎn)表示該生在每個(gè)習(xí)題的作答情況,若回答正確,則y=1;若回答錯(cuò)誤,則y=0。從圖中可以看到:(1)從空心點(diǎn)的變化趨勢(shì)來(lái)看,系統(tǒng)為學(xué)習(xí)者推薦的習(xí)題準(zhǔn)確率大致呈現(xiàn)波浪式,當(dāng)該生就某習(xí)題回答錯(cuò)誤時(shí),系統(tǒng)為學(xué)習(xí)者推薦準(zhǔn)確率較高的習(xí)題,當(dāng)學(xué)習(xí)者就某習(xí)題回答正確時(shí),系統(tǒng)為學(xué)習(xí)者推薦的習(xí)題的準(zhǔn)確率越來(lái)越低,這一可視化結(jié)果表明,系統(tǒng)可以根據(jù)學(xué)習(xí)者的作答情況,為學(xué)習(xí)者推薦準(zhǔn)確率恰當(dāng)?shù)牧?xí)題,即難度恰當(dāng)?shù)牧?xí)題。(2)當(dāng)某習(xí)題的平均準(zhǔn)確率較高,學(xué)習(xí)者卻作答錯(cuò)誤時(shí),系統(tǒng)會(huì)再次為其推薦準(zhǔn)確率相當(dāng)?shù)牧?xí)題。若第二次回答依然錯(cuò)誤,說(shuō)明該習(xí)題是該生的薄弱知識(shí)點(diǎn)概念;若兩次都回答正確,則前一次錯(cuò)誤可能是失誤等原因?qū)е?。?)當(dāng)某習(xí)題的平均準(zhǔn)確率較低,學(xué)習(xí)者作答錯(cuò)誤,則該題可能是學(xué)習(xí)者的難點(diǎn)。
總之,從學(xué)習(xí)者的自適應(yīng)學(xué)習(xí)路徑案例分析來(lái)看,基于ALPRM的系統(tǒng)推薦習(xí)題能夠定位薄弱知識(shí)點(diǎn)概念,診斷學(xué)習(xí)難點(diǎn),并能夠?yàn)閷W(xué)習(xí)者推薦恰當(dāng)難度的習(xí)題。
圖3? ?自適應(yīng)學(xué)習(xí)路徑案例分析圖
六、結(jié)? ?語(yǔ)
本研究提出了一種融合領(lǐng)域知識(shí)特征的自適應(yīng)學(xué)習(xí)路徑推薦新模型,以解決利用強(qiáng)化學(xué)習(xí)推薦自適應(yīng)學(xué)習(xí)路徑的研究中存在的動(dòng)態(tài)學(xué)習(xí)環(huán)境表征不完整和推薦適應(yīng)性不強(qiáng)等問(wèn)題。具體來(lái)說(shuō),第一,將知識(shí)點(diǎn)概念覆蓋和難度兩個(gè)特征引入動(dòng)態(tài)學(xué)習(xí)環(huán)境的建模中,然后利用深度學(xué)習(xí)算法計(jì)算動(dòng)態(tài)學(xué)習(xí)環(huán)境的特征值。第二,對(duì)強(qiáng)化學(xué)習(xí)的各組件進(jìn)行重新設(shè)計(jì),并實(shí)現(xiàn)推薦。第三,對(duì)提出的新模型在實(shí)驗(yàn)室環(huán)境和真實(shí)課堂開(kāi)展實(shí)驗(yàn)。實(shí)驗(yàn)室環(huán)境中的技術(shù)對(duì)比實(shí)驗(yàn)證明,該模型有較好的有效性和適應(yīng)性。真實(shí)課堂應(yīng)用實(shí)驗(yàn)表明,該模型能夠準(zhǔn)確定位薄弱知識(shí)點(diǎn),可以推薦難度恰當(dāng)?shù)牧?xí)題。本研究也存在一些不足,如在應(yīng)用實(shí)驗(yàn)中,沒(méi)有收集學(xué)習(xí)者的學(xué)習(xí)體驗(yàn)數(shù)據(jù),無(wú)法感知學(xué)習(xí)者在學(xué)習(xí)過(guò)程中的感受。未來(lái),相關(guān)研究將繼續(xù)開(kāi)展,進(jìn)一步觀察學(xué)習(xí)者在自適應(yīng)學(xué)習(xí)路徑推薦過(guò)程中學(xué)習(xí)動(dòng)機(jī)、滿意度等方面的變化。
[參考文獻(xiàn)]
[1] 王磊.基于大數(shù)據(jù)的精準(zhǔn)教學(xué)干預(yù)模型及應(yīng)用研究[D].武漢:華中師范大學(xué),2022.
[2] 熊余,張健,王盈,等.基于深度學(xué)習(xí)的演化知識(shí)追蹤模型[J].電化教育研究,2022,43(11):23-30.
[3] 鐘卓,鐘紹春,唐燁偉.人工智能支持下的智慧學(xué)習(xí)模型構(gòu)建研究[J].電化教育研究,2021,42(12):71-78,85.
[4] 云岳,代歡,張育培,等.個(gè)性化學(xué)習(xí)路徑推薦綜述[J].軟件學(xué)報(bào),2022,33(12):4590-4615.
[5] LIU Q, TONG S W, LIU C R, et al. Exploiting cognitive structure for adaptive learning[C]//Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York: ACM, 2019: 627-635.
[6] WU Z Y, LI M, TANG Y, et al. Exercise recommendation based on knowledge concept prediction[J]. Knowledge-based systems, 2020, 210: 106481.
[7] JOSEPH L, ABRAHAM S, MANI B P, et al. Exploring the effectiveness of learning path recommendation based on Felder-Silverman learning style model: a learning analytics intervention approach[J]. Journal of educational computing research, 2022, 60(6): 1464-1489.
[8] 高嘉騏,劉千慧,黃文彬.基于知識(shí)圖譜的學(xué)習(xí)路徑自動(dòng)生成研究[J].現(xiàn)代教育技術(shù),2021,31(7):88-96.
[9] 吳正洋,湯庸,劉海.個(gè)性化學(xué)習(xí)推薦研究綜述[J].計(jì)算機(jī)科學(xué)與探索,2022,16(1):21-40.
[10] NABIZADEH A H, LEAL J P, RAFSANJANI H N, et al. Learning path personalization and recommendation methods: a survey of the state-of-the-art[J]. Expert systems with applications, 2020,159:113596.
[11] SHI D Q, WANG T, XING H, et al. A learning path recommendation model based on a multidimensional knowledge graph framework for e-learning[J]. Knowledge-based systems, 2020,195:105618.
[12] 姜強(qiáng),趙蔚,李松,王朋嬌.大數(shù)據(jù)背景下的精準(zhǔn)個(gè)性化學(xué)習(xí)路徑挖掘研究——基于AprioriAll的群體行為分析[J].電化教育研究,2018,39(2):45-52.
[13] ZHOU Y W, HUANG C Q, HU Q T, et al. Personalized learning full-path recommendation model based on LSTM neural networks[J]. Information sciences, 2018,444:135-152.
[14] HUANG Z Y, LIU Q, ZHAI C X, et al. Exploring multi-objective exercise recommendations in online education systems[C]//Proceedings of the 28th ACM International Conference on Information and Knowledge Management. New York: ACM,2019:1261-1270.
[15] 任維武,鄭方林,底曉強(qiáng).基于強(qiáng)化學(xué)習(xí)的自適應(yīng)學(xué)習(xí)路徑生成機(jī)制研究[J].現(xiàn)代遠(yuǎn)距離教育,2020(6):88-96.
[16] ISLAM M Z, ALI R, HAIDER A, et al. Pakes: a reinforcement learning-based personalized adaptability knowledge extraction strategy for adaptive learning systems[J]. IEEE access, 2021,9:155123-155137.
[17] SUN Y, ZHUANG F Z, ZHU H S, et al. Cost-effective and interpretable job skill recommendation with deep reinforcement learning[C]//Proceedings of the Web Conference 2021. New York: ACM, 2021:3827-3838.
[18] 李建偉,武佳惠,姬艷麗.面向自適應(yīng)學(xué)習(xí)的個(gè)性化學(xué)習(xí)路徑推薦[J].現(xiàn)代教育技術(shù),2023,33(1):108-117.
[19] 金天成,竇亮,肖春蕓,等.記憶與認(rèn)知融合的個(gè)性化OJ習(xí)題推薦方法[J].計(jì)算機(jī)學(xué)報(bào),2023,46(1):103-124.
[20] LIN Y G, FENG S B, LIN F, et al. Adaptive course recommendation in MOOCs[J]. Knowledge-based systems, 2021,224:107085.
[21] GAN W B, SUN Y, SUN Y. Knowledge interaction enhanced sequential modeling for interpretable learner knowledge diagnosis in intelligent tutoring systems[J]. Neurocomputing, 2022,488:36-53.
[22] GAN W B, SUN Y, PENG X, et al. Modeling learner's dynamic knowledge construction procedure and cognitive item difficulty for knowledge tracing[J]. Applied intelligence, 2020,50:3894-3912.
[23] ZHANG Q X, WENG X Y, ZHOU G Y, et al. ARL: an adaptive reinforcement learning framework for complex question answering over knowledge base[J]. Information processing & management, 2022,59(3):102933
[24] REN Y M, LIANG K, SHANG Y H, et al. MulOER-SAN: 2-layer multi-objective framework for exercise recommendation with self-attention networks[J]. Knowledge-based systems, 2023,260:110117.
Adaptive Learning Path Recommendation Model for Dynamic Learning Environments
FAN Yunxia1,? DU Jiahui2,? ZHANG Jie3,? ZHUANG Zichao1,? LONG Taotao1,? TONG Mingwen1
(1.Faculty of Artificial Intelligence in Education, Central China Normal University, Wuhan Hubei? 430079; 2.School of Information Engineering, Shanxi College of Applied Science and Technology, Taiyuan Shanxi 030000; 3.School of Computer Science and Engineering, Hunan University of Information Technology, Changsha Hunan 410000)
[Abstract] Adaptive learning path, as a key technology to realize personalized learning, has received extensive attention from researchers. In recent years, reinforcement learning has become the mainstream method for adaptive learning path recommendation, but there are still deficiencies in the completeness of dynamic learning environment representation and the adaptability of learning path. Based on this, this paper proposes an adaptive learning path recommendation model that incorporates domain knowledge characteristics. Firstly, the model introduces the two features of the coverage of knowledge concepts and the difficulty into the dynamic learning environment to make the representation of the dynamic learning environment more complete. Secondly, a deep reinforcement learning algorithms is used to realize the recommendation of learning paths and improve the adaptability of learning paths. Finally, technology comparison experiment and application experiment are conducted. The technology comparison experiment demonstrates that the model improves the effectiveness and adaptability of the learning paths. The application experiment shows that the model can accurately identify the learners' weak knowledge concepts and recommend adaptive learning paths suitable for their cognitive characteristics.
[Keywords] Adaptive Learning Path; Reinforcement Learning; Domain Knowledge Characteristics; Coverage of Knowledge Concepts; Personalized Learning