陳耀東
長(zhǎng)沙師范學(xué)院 湖南長(zhǎng)沙 410100;湖南省教育科學(xué)研究院 湖南長(zhǎng)沙 410100
“構(gòu)建網(wǎng)絡(luò)化、數(shù)字化、個(gè)性化、終身化的教育體系”是實(shí)現(xiàn)建設(shè)學(xué)習(xí)型社會(huì)的重要條件。在移動(dòng)互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能、云計(jì)算等眾多新技術(shù)的支持下,教育模式、教學(xué)方法、學(xué)習(xí)方式等均在發(fā)生深刻變革,促使我國(guó)教育向著智慧化、智能化的方向邁進(jìn),其中“關(guān)注學(xué)習(xí)者的個(gè)體差異”“為每個(gè)學(xué)習(xí)者提供適合的教育”這些理念在社會(huì)上逐漸共識(shí),個(gè)性化教育與個(gè)性化學(xué)習(xí)成為解決我國(guó)當(dāng)前社會(huì)教育供需矛盾的主要途徑。以自媒體為代表的新媒體環(huán)境下,學(xué)習(xí)資源極大豐富,如何利用智能技術(shù)為學(xué)習(xí)者提供定制化的學(xué)習(xí)路徑是當(dāng)前個(gè)性化學(xué)習(xí)研究領(lǐng)域的一個(gè)熱點(diǎn)。個(gè)性化學(xué)習(xí)路徑推薦問(wèn)題可以定義為,基于學(xué)習(xí)者學(xué)習(xí)能力、知識(shí)背景、學(xué)習(xí)興趣、達(dá)成目標(biāo)等方面的差異,通過(guò)智能技術(shù)為學(xué)習(xí)者定制一條符合教育規(guī)律且能達(dá)到學(xué)標(biāo)的學(xué)習(xí)路徑,同時(shí)實(shí)現(xiàn)學(xué)習(xí)者學(xué)習(xí)狀態(tài)檢測(cè)[1]。
學(xué)習(xí)路徑推薦的主要研究范疇有三個(gè)方面。一是學(xué)習(xí)者建模,涉及學(xué)習(xí)者能力水平、心理狀態(tài)、風(fēng)格興趣[4]等的特征化問(wèn)題和提取方法;二是學(xué)習(xí)對(duì)象建模,涉及發(fā)掘?qū)W習(xí)推薦對(duì)象與學(xué)習(xí)者個(gè)性化參數(shù)的關(guān)聯(lián)信息;三是推薦算法設(shè)計(jì),涉及學(xué)習(xí)者與對(duì)象之間策略選擇與最優(yōu)匹配問(wèn)題。根據(jù)相關(guān)研究[2-3],個(gè)性化學(xué)習(xí)路徑推薦問(wèn)題的數(shù)學(xué)描述形式如下。給定學(xué)習(xí)目標(biāo)g,學(xué)習(xí)目標(biāo)相關(guān)的知識(shí)點(diǎn)kp,學(xué)習(xí)資源r=(kp1,kp2,…,tp,s),s.t.kpi+1=f(kpi),r是由知識(shí)點(diǎn)kp組成的有序向量,這里tp∈{文本,圖片,視頻}代表r的類型,s∈{課程,章節(jié),知識(shí)單元,知識(shí)點(diǎn)}代表與目標(biāo)g的層次相關(guān)的r的粒度,f(·)是一個(gè)轉(zhuǎn)換函數(shù),表示知識(shí)點(diǎn)kpi為kpi+1的先修學(xué)習(xí)資源。一般采用向量e描述每個(gè)學(xué)習(xí)者的先驗(yàn)特征,特征向量一般作為各類推薦算法的初始輸入值。學(xué)習(xí)路徑表示為pn,且有pnt={et,rt},其中e和r分別表示t時(shí)間對(duì)應(yīng)的學(xué)習(xí)者狀態(tài)特征和學(xué)習(xí)資源集合。因此,學(xué)習(xí)路徑Lp是一條由pn結(jié)點(diǎn)組成的、以g為目標(biāo)的、與指定學(xué)習(xí)者相關(guān)的有序序列,Lp={pn0,pn1,…pnt,…,pnm|pnt=f(pnt+1),g=f(Lp)}。
個(gè)性化學(xué)習(xí)的主流學(xué)習(xí)框架包括基于機(jī)器學(xué)習(xí)的,基于進(jìn)化計(jì)算的,基于知識(shí)圖譜的三種。機(jī)器學(xué)習(xí)框架將路徑推薦轉(zhuǎn)換為預(yù)測(cè)問(wèn)題,分為監(jiān)督和無(wú)監(jiān)督兩種。進(jìn)化計(jì)算一般采用遺傳算法、蟻群算法等解決路徑搜索問(wèn)題,目前群體計(jì)算和群體智能是其重點(diǎn)研究方向[5]。知識(shí)圖譜是基于知識(shí)工程和本體論方法,在構(gòu)建領(lǐng)域圖譜的基礎(chǔ)上運(yùn)用帶約束條件的路徑搜索方法找出最佳推薦路徑。隨著AlphaGo在2016年戰(zhàn)勝圍棋世界冠軍,強(qiáng)化學(xué)習(xí)成為當(dāng)前機(jī)器學(xué)習(xí)的一個(gè)研究熱點(diǎn)并逐漸演化成一個(gè)熱門(mén)分支,其后的升級(jí)版本AlphaGo zero,基于深度強(qiáng)化學(xué)習(xí)框架,在世界圍棋大賽和游戲競(jìng)技大賽中繼續(xù)完勝人類選手。強(qiáng)化學(xué)習(xí)特別適于解決序列決策優(yōu)化問(wèn)題,在個(gè)性化學(xué)習(xí)路徑推薦方面能取得較好效果[6-7]。
強(qiáng)化學(xué)習(xí)是將學(xué)習(xí)者作為智能體,通過(guò)不斷“試錯(cuò)”引導(dǎo)其自主化學(xué)習(xí)。經(jīng)典的學(xué)習(xí)模型基于馬爾可夫決策過(guò)程,學(xué)習(xí)者不斷學(xué)習(xí)新的知識(shí)點(diǎn),然后利用獲得的獎(jiǎng)賞來(lái)指導(dǎo)學(xué)習(xí)行為是否適合,從而最大化累計(jì)獎(jiǎng)賞以實(shí)現(xiàn)特定目標(biāo)。這一過(guò)程可用5元組(S,A,P,R,γ)進(jìn)行簡(jiǎn)單描述,其中S為有限的狀態(tài)集,A為有限的動(dòng)作集,P為狀態(tài)轉(zhuǎn)移概率,R為回報(bào)函數(shù),γ為用來(lái)計(jì)算累計(jì)回報(bào)的折扣因子。策略π是狀態(tài)S到動(dòng)作A的映射,策略π為每個(gè)狀態(tài)s指定一個(gè)動(dòng)作概率π(a|s)=p(At=a|St=s)。強(qiáng)化學(xué)習(xí)的目標(biāo)就是為學(xué)習(xí)者發(fā)現(xiàn)一個(gè)最優(yōu)策略π*,使得學(xué)習(xí)者獲得的期望折扣獎(jiǎng)勵(lì)之和最大化,也即:
Vπ(s)=∑aπ(s,a)[R(s,a)+γ∑s′Pr(s′|s,a)Vπ(s′)]
(1)
公式1當(dāng)中R(s,a)+γ∑s′Pr(s′|s,a)Vπ(s′)代表在當(dāng)前s狀態(tài)下提供每一個(gè)可能決策的累計(jì)未來(lái)獎(jiǎng)勵(lì)。學(xué)習(xí)者在當(dāng)前狀態(tài)下通過(guò)“試錯(cuò)”的方式選擇動(dòng)作,按照這種狀態(tài)→動(dòng)作→回報(bào)的順序循環(huán),最后達(dá)到學(xué)習(xí)者指定目標(biāo)收益最大化。
用戶反饋。對(duì)于一個(gè)學(xué)習(xí)者,假定某個(gè)時(shí)刻t模型根據(jù)前序狀態(tài)選取當(dāng)前轉(zhuǎn)換的狀態(tài)為s,用戶可對(duì)此狀態(tài)給予一個(gè)正面和負(fù)面的標(biāo)簽l+,l-,則對(duì)于所有狀態(tài)序列S,有:
(2)
進(jìn)一步對(duì)公式1和公式2進(jìn)行整合,形成基于用戶反饋的參數(shù)化策略最優(yōu)框架:
Gη(C,V)=η·T(θ,V)-(1-η)·L(θ,C)
(3)
(4)
其中Rl表示學(xué)習(xí)者l計(jì)算到的某次學(xué)習(xí)路徑。
(5)
本文面向計(jì)算機(jī)專業(yè)課程學(xué)生學(xué)習(xí)的過(guò)程數(shù)據(jù)和考核數(shù)據(jù)進(jìn)行測(cè)試?!兑苿?dòng)應(yīng)用開(kāi)發(fā)》面向計(jì)算機(jī)和物聯(lián)網(wǎng)工程本科學(xué)生講授基于Android的程序開(kāi)發(fā),課程已在2014年開(kāi)始在超星數(shù)據(jù)平臺(tái)(www.chaoxing.com)開(kāi)設(shè)線上教學(xué),至今近10年,形成了內(nèi)容豐富、形式多樣、組織科學(xué)的教學(xué)資源庫(kù)(參見(jiàn)表1),累積了近1000名學(xué)生線上線下學(xué)生情況。由于本專業(yè)的學(xué)生來(lái)源有第一志愿高考錄用、其他非工科專業(yè)調(diào)劑,專升本等情況,因此學(xué)生的學(xué)習(xí)能力與興趣差異較大。為此,本課程很早開(kāi)展了人才培養(yǎng)方案的改革創(chuàng)新,將培養(yǎng)目標(biāo)設(shè)定為中階和高階兩個(gè)設(shè)定為多目標(biāo)要求,中階目標(biāo)的核心要求是能夠自主設(shè)計(jì)移動(dòng)APP的界面并實(shí)現(xiàn)交互,高階目標(biāo)則要求能面向特定場(chǎng)景需要獨(dú)立設(shè)計(jì)和開(kāi)發(fā)具有完整功能的移動(dòng)APP。課程PPT、視頻、試題集等均按此分成兩類,即每一類具有閉環(huán)的知識(shí)學(xué)習(xí)與能力評(píng)估體系。
表1 實(shí)驗(yàn)所用數(shù)據(jù)來(lái)源
為確保有效性,本實(shí)驗(yàn)從線上空間篩選抽取活躍度強(qiáng)、互動(dòng)性高的學(xué)生,根據(jù)中階和高階不同目標(biāo)等級(jí)分別設(shè)置兩組學(xué)生集。目標(biāo)測(cè)試數(shù)來(lái)源于期末試卷庫(kù),每套試卷對(duì)應(yīng)1個(gè)目標(biāo)測(cè)試數(shù)。課程自主錄制教學(xué)短視頻集,其中中階的74個(gè)涵蓋87個(gè)知識(shí)點(diǎn),高階的132個(gè)涵蓋144個(gè)知識(shí)點(diǎn),為輔助學(xué)生更好地理解知識(shí)點(diǎn),從互聯(lián)網(wǎng)收集知識(shí)點(diǎn)相關(guān)的學(xué)習(xí)資料,其中中階32個(gè),高階51個(gè),每個(gè)學(xué)習(xí)資料對(duì)應(yīng)一個(gè)PDF文檔。每位學(xué)生在測(cè)試過(guò)程中對(duì)選取的知識(shí)點(diǎn)進(jìn)行正反評(píng)價(jià),因此反饋標(biāo)簽數(shù)=學(xué)生數(shù)×知識(shí)點(diǎn)×2。
考慮學(xué)生在知識(shí)學(xué)習(xí)與測(cè)試考核的不可重復(fù)性,實(shí)際測(cè)試的每個(gè)數(shù)據(jù)集進(jìn)一步分離成測(cè)試數(shù)據(jù)集。以表1當(dāng)中的中階1為例,145名學(xué)生經(jīng)自愿后隨機(jī)分成三個(gè)類,分別包含25名、60名、60名學(xué)生,同時(shí)衍生出M-1-Normal、M-1-NoTagged、M-1-Tagged共3個(gè)測(cè)試集,M-1-Normal表示對(duì)第一類25名學(xué)生按教師預(yù)設(shè)的學(xué)習(xí)路徑進(jìn)行學(xué)習(xí),即未采用強(qiáng)化學(xué)習(xí)進(jìn)行個(gè)性化學(xué)習(xí)路徑推薦;M-1-NoTagged表示對(duì)第二類60名學(xué)生,采用本文強(qiáng)化學(xué)習(xí)框架在不整合反饋標(biāo)簽條件下進(jìn)行路徑選擇計(jì)算;M-1-Tagged表示對(duì)第三類60名學(xué)生,采用本文強(qiáng)化學(xué)習(xí)框架在不整合反饋標(biāo)簽條件下進(jìn)行路徑選擇計(jì)算。按同樣的方式,實(shí)驗(yàn)對(duì)其他5個(gè)數(shù)據(jù)集進(jìn)行分類測(cè)試。實(shí)驗(yàn)分別以學(xué)生平時(shí)作業(yè)和期末考核的分?jǐn)?shù)作為評(píng)價(jià)標(biāo)準(zhǔn)。
表2展示了4×3共12個(gè)測(cè)試集的結(jié)果。
表2 中階目標(biāo)測(cè)試結(jié)果
表2的測(cè)試結(jié)果說(shuō)明,強(qiáng)化學(xué)習(xí)能明顯增強(qiáng)學(xué)習(xí)路徑推薦的有效性,通過(guò)強(qiáng)化學(xué)習(xí)后,學(xué)習(xí)者的平均成績(jī)和期末考核均有顯著提升,在整合反饋標(biāo)簽后,學(xué)習(xí)路徑推薦的效果進(jìn)一步得到提升,測(cè)試集1分別提升平時(shí)成績(jī)分別提升3.3分和5.9分,期末考核分別提升4.2分和4.7分。測(cè)試集2在三個(gè)算法上的表現(xiàn)與測(cè)試集1類似。表3展示了高階目標(biāo)測(cè)試結(jié)果情況。表3當(dāng)中的3個(gè)算法的結(jié)果與表2類似,同時(shí)注意到,表3中基于反饋的強(qiáng)化學(xué)習(xí)路徑推薦算法的效果約為8~9分,高于測(cè)試集1的提升效果6分和3.5分,效果相差很大,這說(shuō)明強(qiáng)化學(xué)習(xí)在高階目標(biāo)環(huán)境下效果更強(qiáng),分析認(rèn)為,高階目標(biāo)具有更多的知識(shí)點(diǎn)和補(bǔ)充學(xué)習(xí)資料,同樣的,基于標(biāo)簽反饋的算法給出大量學(xué)習(xí)者評(píng)價(jià)標(biāo)簽,用于指導(dǎo)策略函數(shù)找到折扣獎(jiǎng)勵(lì)最大的路徑,由此證明了本算法的有效性。
表3 高階目標(biāo)測(cè)試結(jié)果
強(qiáng)化學(xué)習(xí)模仿智能體反復(fù)“試錯(cuò)”的學(xué)習(xí)方式達(dá)到自主學(xué)習(xí)目的,特別適于解決序列優(yōu)化問(wèn)題,本文基于強(qiáng)化學(xué)習(xí)框架提出了一種基于標(biāo)簽反饋的策略優(yōu)化算法,在策略尋優(yōu)過(guò)程中加入學(xué)習(xí)者對(duì)當(dāng)前狀態(tài)轉(zhuǎn)換的標(biāo)簽評(píng)價(jià),指導(dǎo)和提高強(qiáng)化學(xué)習(xí)參數(shù)優(yōu)化性能。實(shí)驗(yàn)采集計(jì)算機(jī)專業(yè)課程線上教學(xué)與考核數(shù)據(jù),對(duì)比非強(qiáng)化學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和本文提出的算法,實(shí)驗(yàn)結(jié)果證明了本文算法的有效性,下一步將標(biāo)簽反饋運(yùn)用到其他強(qiáng)化學(xué)習(xí)優(yōu)化策略。