葉俊民,羅達(dá)雄,陳 曙,廖志鑫
(華中師范大學(xué) 計(jì)算機(jī)學(xué)院,武漢 430079)
在線開放課程不僅為學(xué)習(xí)者提供了學(xué)習(xí)著名大學(xué)先進(jìn)課程內(nèi)容的機(jī)會(huì),而且還為教師、教學(xué)管理者提供了各類數(shù)據(jù)以進(jìn)行分析的可能.針對(duì)學(xué)習(xí)者的學(xué)習(xí)行為(如預(yù)測學(xué)習(xí)者期中考試成績和預(yù)測學(xué)習(xí)者畢業(yè)與否等問題)進(jìn)行預(yù)測就是這些分析活動(dòng)中的典型[1,2].針對(duì)在線學(xué)習(xí)行為預(yù)測的早期的研究主要是利用學(xué)習(xí)者的統(tǒng)計(jì)信息和學(xué)習(xí)行為信息預(yù)測在線學(xué)習(xí)行為,如A.Anderson等人制定了學(xué)習(xí)者參與類型的分類方法,并討論學(xué)習(xí)者的參與度和其成績之間的關(guān)系[3];J.Wilkowski等人發(fā)現(xiàn)先驗(yàn)技能與課程完成率之間無相關(guān)性[4];C.G.Brinton等人調(diào)查了與論壇活動(dòng)下降有關(guān)的因素,發(fā)現(xiàn)與因素相關(guān)的線程分類和排序策略[5].隨著在線論壇等板塊的出現(xiàn)和短文本數(shù)據(jù)的積累,近年來越來越多的工作通過結(jié)合在線學(xué)習(xí)者的短文本語義信息來預(yù)測學(xué)習(xí)者的行為,如ESen-Can A等人提出一個(gè)針對(duì)論壇同步輔導(dǎo)對(duì)話的無監(jiān)督理解模型,從語義的角度分析學(xué)習(xí)者的短文本信息,從而理解學(xué)習(xí)者的行為[6].
從技術(shù)角度上做分類,可將在線學(xué)習(xí)者成績預(yù)測的研究可歸納為基于概率的預(yù)測方法、基于深度學(xué)習(xí)的預(yù)測方法和基于矩陣因子化的預(yù)測方法3類.第一,基于概率的預(yù)測方法主要包含知識(shí)追蹤(Knowledge Tracing)和認(rèn)知診斷(Cognitive Diagnosis).目前主流的知識(shí)追蹤方法有貝葉斯知識(shí)追蹤[7](BKT)和深度知識(shí)追蹤[8](DKT),后者在實(shí)驗(yàn)中被證明有更優(yōu)的效果;在此研究領(lǐng)中,最新提出的一種基于動(dòng)態(tài)鍵值對(duì)記憶網(wǎng)絡(luò)的方法,可以學(xué)習(xí)知識(shí)概念之間的關(guān)系和個(gè)體學(xué)習(xí)者對(duì)具體概念的掌握情況,并以此未來學(xué)習(xí)情況的預(yù)測[9].傳統(tǒng)的認(rèn)知診斷模型(CDM)可以分為連續(xù)型和離散型,其中潛在特質(zhì)理論(IRT)是連續(xù)模型的典型例子,Deterministic Inputs,Noisy-And gate model (DINA)是離散模型的典型例子[10].在這一領(lǐng)域中,最新提出的一種模糊的認(rèn)知診斷框架技術(shù),可以用于學(xué)習(xí)者主觀題和客觀題的認(rèn)知建模,增強(qiáng)了對(duì)學(xué)習(xí)者測驗(yàn)表現(xiàn)預(yù)測的精度[11].第二,深度知識(shí)追蹤(DKT)技術(shù)是第一次嘗試?yán)眠f歸神經(jīng)網(wǎng)絡(luò)來模擬學(xué)習(xí)者練習(xí)過程以預(yù)測其未來表現(xiàn)的工作[8];Yu Su等人結(jié)合測驗(yàn)的文本信息提出了一種測驗(yàn)增強(qiáng)的循環(huán)神經(jīng)網(wǎng)絡(luò)框架來預(yù)測學(xué)習(xí)者的測驗(yàn)表現(xiàn)[12];Wenzheng Feng等人提出了一種上下文感知的特征交互網(wǎng)絡(luò)來預(yù)測學(xué)習(xí)者的退出率[13].第三,矩陣因子化(Matrix Factorization)近年來也常被應(yīng)用于教育領(lǐng)域的成績預(yù)測和課堂內(nèi)評(píng)估預(yù)測[14],Sweeney等人將SVD、SVD-kNN和因子分解機(jī)(FM)等幾種推薦系統(tǒng)中常見方法用于預(yù)測下學(xué)期的成績[15];Zhiyun Ren等人提出了一種時(shí)序課程影響的分解算法,課程因素和時(shí)間因素結(jié)合到學(xué)習(xí)者成績預(yù)測方法中[16].
雖然利用短文本語義能夠增強(qiáng)在線學(xué)習(xí)行為的預(yù)測效果,但是,該研究工作還面臨許多問題,具體表現(xiàn)在:
1)當(dāng)前研究沒有將短文本語義信息與學(xué)習(xí)者的其他信息(如行為信息)有效結(jié)合,導(dǎo)致對(duì)學(xué)習(xí)者的刻畫不夠全面;
2)當(dāng)前研究大部分只能預(yù)測特定種類的學(xué)習(xí)行為(如學(xué)習(xí)者的成績),沒有形成統(tǒng)一的預(yù)測框架.
針對(duì)以上的問題,本文提出了一種短文本語義增強(qiáng)的在線學(xué)習(xí)行為預(yù)測方法.具體思想是,首先,利用雙向長短時(shí)記憶網(wǎng)絡(luò)(BiLSTM)[19]得到短文本的語義向量表示;其次,基于深度知識(shí)追蹤模型(DKT),將短文本語義向量、人口統(tǒng)計(jì)特征向量和學(xué)習(xí)行為特征向量相融合作為長短時(shí)記憶網(wǎng)絡(luò)(LSTM)每個(gè)時(shí)間步的輸入,以此建模學(xué)習(xí)者在不同時(shí)刻的學(xué)習(xí)狀態(tài);最后,基于學(xué)習(xí)者的學(xué)習(xí)狀態(tài)設(shè)計(jì)相應(yīng)的預(yù)測策略來預(yù)測在線學(xué)習(xí)者不同類型學(xué)習(xí)行為.
設(shè)N為在線學(xué)習(xí)者的個(gè)數(shù),V是在線學(xué)習(xí)者的集合,|V|=N.T是課程所包含的知識(shí)點(diǎn)總數(shù),一門在線課程包含若干知識(shí)點(diǎn),這些知識(shí)點(diǎn)可以按照在線教學(xué)的時(shí)間順序要求加以安排,學(xué)習(xí)者的學(xué)習(xí)狀態(tài)與其在知識(shí)點(diǎn)對(duì)應(yīng)時(shí)間歩上的各類信息相關(guān).
定義1.學(xué)習(xí)者特征表征.設(shè)F∈RN×T×d表示了在不同知識(shí)點(diǎn)下的所有學(xué)習(xí)者特征.其中,F(xiàn)t(i)=[Fi,t,0,F(xiàn)i,t,1,…Fi,t,d-1]T∈Rd表示示學(xué)習(xí)者i在知識(shí)點(diǎn)t上的特征.Ft(i)由學(xué)習(xí)者的人口統(tǒng)計(jì)特征向量Fgt(i)、學(xué)習(xí)行為特征向量Fbt(i)和短文本語義特征向量DocSTt(i)拼接形成.
定義2.學(xué)習(xí)狀態(tài)表征.設(shè)St(i)=[Si,t,0,Si,t,1,…Si,t,m-1]T∈Rm表示學(xué)習(xí)者i在知識(shí)點(diǎn)t上的學(xué)習(xí)狀態(tài),其中,Si,t,,j∈[0,1].所有學(xué)習(xí)者的學(xué)習(xí)狀態(tài)被存儲(chǔ)在S∈[0,1]N×T×m中,可通過學(xué)習(xí)者狀態(tài)S預(yù)測其行為.
問題定義.語義增強(qiáng)的在線學(xué)習(xí)行為預(yù)測.本文要解決的預(yù)測問題描述如下.
輸入:通過統(tǒng)計(jì)、學(xué)習(xí)行為和短文本信息得到的所有學(xué)習(xí)者的特征張量F
輸出:利用F獲取學(xué)習(xí)者的學(xué)習(xí)狀態(tài)S,并通過S預(yù)測學(xué)習(xí)者的在線學(xué)習(xí)行為B.
針對(duì)上述問題,本文基于深度學(xué)習(xí)理論設(shè)計(jì)了一種短文本語義增強(qiáng)的在線學(xué)習(xí)行為預(yù)測方法,具體方法的流程如圖1所示.此框架為三層結(jié)構(gòu),第一層針對(duì)學(xué)習(xí)者特征建模,在線學(xué)習(xí)社區(qū)的短文本STt(i)通過BiLSTM模型[19]加工得到其語義向量DocSTt(i),并將DocSTt(i)、Fgt(i)和Fbt(i)拼接成學(xué)習(xí)者特征向量Ft(i).第二層針對(duì)學(xué)習(xí)狀態(tài)建模,即結(jié)合前一時(shí)間步的學(xué)習(xí)狀態(tài)St-1(i)和當(dāng)前時(shí)間步的特征Ft(i)得到當(dāng)前時(shí)間步的學(xué)習(xí)狀態(tài)St(i).第三層實(shí)現(xiàn)在線學(xué)習(xí)行為預(yù)測,即基于學(xué)習(xí)狀態(tài)St(i),使用不同的預(yù)測策略,以預(yù)測出該學(xué)習(xí)者的在線學(xué)習(xí)行為Bt(i).
圖1 語義增強(qiáng)的在線學(xué)習(xí)行為預(yù)測方法框架Fig.1 Semantic enhanced behavior prediction method for online learners framwork
設(shè)每個(gè)學(xué)習(xí)者i在知識(shí)點(diǎn)t上發(fā)表的短文本為STt(i)={s1,…,sp},其中,sj={wj1,…,wjLj}表示短文本中的一個(gè)句子,wj*表示句子j中單詞的詞,Lj表示句子j的長度.首先,利用Word2Vec[17]方法將短文本中的每一個(gè)單詞轉(zhuǎn)換成預(yù)訓(xùn)練好的詞向量,即STt(i)={w11,…,w1L1,…wp1,…,wpLp}.其次,將STt(i)中的所有詞向量作為輸入,基于一種名為Long-Short Term Memery(LSTM)[18]的循環(huán)神經(jīng)網(wǎng)絡(luò)建模短文本的語義,具體計(jì)算過程如公式(1)所示:
(1)
傳統(tǒng)的LSTM模型只從一個(gè)方向建模文本的語義,沒有充分利用短文本整體的上下文信息.為了解決此問題,本文使用BiLSTM來建模文本語義,具體過程如圖2所示.
如圖2所示,BiLSTM每個(gè)時(shí)間步的隱藏語義向量由兩個(gè)方向的LSTM隱藏語義向量構(gòu)成,具體計(jì)算采用公式(2).其中,hj是第j個(gè)時(shí)間步兩個(gè)方向的LSTM隱藏語義向量的拼接.
(2)
圖2 BiLSTM示意圖Fig.2 BiLSTM schematic diagram
對(duì)每個(gè)時(shí)間步的BiLSTM的隱藏語義向量取均值,并施加一個(gè)線性和非線性變換作為短文本的最終語義表示,具體過程如公式(3)所示.
docstt(i)=δ(W0mean(h1,…,hL1+…+Lp)+b0)
(3)
其中,W0是權(quán)值矩陣,b0是偏置向量,σ為激活函數(shù),具體選擇為sigmod函數(shù).BiLSTM在語義建模的時(shí)候沒有使用任何的專家信息,自動(dòng)化地獲取到短文本的語義特征和不同的學(xué)習(xí)者發(fā)言的特點(diǎn).
為了準(zhǔn)確預(yù)測學(xué)習(xí)者的學(xué)習(xí)行為,本文將3.1節(jié)中得到的短文本向量表示與學(xué)習(xí)者的統(tǒng)計(jì)信息和行為信息進(jìn)行融合.此過程中本文選取了文獻(xiàn)[21]中使用的8個(gè)統(tǒng)計(jì)特征(如:年齡、性別和教育水平等)構(gòu)建人口統(tǒng)計(jì)特征向量Fgt(i).同時(shí),選取文獻(xiàn)[20]中使用的16個(gè)學(xué)習(xí)行為特征(如:花費(fèi)在看視頻上的時(shí)間、在論壇中的發(fā)言次數(shù)和回復(fù)次數(shù)等)構(gòu)建學(xué)習(xí)行為特征向量Fbt(i).
通過對(duì)多源數(shù)據(jù)特征信息的融合,具體為將Fgt(i)、Fbt(i)和DocSTt(i)進(jìn)行拼接即可得到學(xué)習(xí)者在某個(gè)知識(shí)點(diǎn)的完整特征表示Ft(i).但由于學(xué)習(xí)是一個(gè)連續(xù)的過程,其在某一時(shí)刻的學(xué)習(xí)狀態(tài)是受之前的學(xué)習(xí)狀態(tài)與表現(xiàn)的影響.所以,如何有效地建模學(xué)習(xí)者在不同時(shí)刻的學(xué)習(xí)狀態(tài)并刻畫這些狀態(tài)之間的影響是本文要解決的另一個(gè)問題.
文獻(xiàn)[12]提出了一種基于深度學(xué)習(xí)方法以得到學(xué)習(xí)者當(dāng)前的學(xué)習(xí)狀態(tài),并預(yù)測其在下次測驗(yàn)中的得分.基于此,本文提出采用可有效處理時(shí)間序列問題的LSTM模型來建模學(xué)習(xí)狀態(tài),具體的建模過程如圖1所示,每個(gè)知識(shí)點(diǎn)對(duì)應(yīng)時(shí)間步的學(xué)習(xí)者學(xué)習(xí)狀態(tài)St(i)計(jì)算采用公式(4)進(jìn)行計(jì)算.
C′j(i)=tanh(Wc[Sj-1(i),Fj(i)]+bc)fj(i)=σ(Wf[Sj-1(i),Fj(i)]+bf)ij(i)=σ(Wi[Sj-1(i),Fj(i)]+bi)oj(i)=σ(Wo[Sj-1(i),Fj(i)]+bo)Cj(i)=fj(i)°Cj-1(i)+ij(i)°C′j(i)Sj(i)=oj(i)*tanh(Cj(i))
(4)
其中,W*是權(quán)值矩陣;b*是偏置向量;C′j(i)是當(dāng)前知識(shí)點(diǎn)對(duì)應(yīng)時(shí)間步的LSTM臨時(shí)狀態(tài);tanh是激活函數(shù);Sj-1(i)是前一知識(shí)點(diǎn)對(duì)應(yīng)時(shí)間步學(xué)習(xí)者的學(xué)習(xí)狀態(tài);Fj(i)是當(dāng)前知識(shí)點(diǎn)對(duì)應(yīng)時(shí)間步的學(xué)習(xí)者特征向量;fj(i)是當(dāng)前知識(shí)點(diǎn)對(duì)應(yīng)時(shí)間步遺忘門的計(jì)算結(jié)果;σ是激活函數(shù);ij(i)是當(dāng)前知識(shí)點(diǎn)對(duì)應(yīng)時(shí)間步輸入門的計(jì)算結(jié)果;Cj(i)是當(dāng)前知識(shí)點(diǎn)對(duì)應(yīng)時(shí)間步的LSTM狀態(tài);Cj-1(i)是前一知識(shí)點(diǎn)對(duì)應(yīng)時(shí)間步的LSTM狀態(tài);oj-1(i)是當(dāng)前知識(shí)點(diǎn)對(duì)應(yīng)時(shí)間步的輸出門的計(jì)算結(jié)果;Sj(i)是當(dāng)前知識(shí)點(diǎn)對(duì)應(yīng)時(shí)間步的學(xué)習(xí)者學(xué)習(xí)狀態(tài),即是學(xué)習(xí)者狀態(tài)建模所需要得到的最終結(jié)果,接下來就可以研究學(xué)習(xí)行為預(yù)測問題.
3.3.1 預(yù)測學(xué)習(xí)者期中考試成績
基于期中考試時(shí)刻對(duì)應(yīng)時(shí)間步的學(xué)習(xí)狀態(tài)向量ST/2(i),利用一個(gè)線性變換和sigmod函數(shù)可預(yù)測其成績,具體預(yù)測方法如公式(5)所示:
score(i)=sigmod(W1ST/2(i)+b1)
(5)
其中,score(i)表示所預(yù)測得到的第i個(gè)學(xué)習(xí)者的期中測驗(yàn)成績,W1是線性變換的權(quán)重向量,b1是偏置;損失函數(shù)如公式(6)所示:
(6)
其中,scorer(i)是學(xué)習(xí)者真實(shí)的期中成績.
3.3.2 預(yù)測學(xué)習(xí)者畢業(yè)與否
學(xué)習(xí)者畢業(yè)與否這個(gè)問題可視為一個(gè)二分類的問題.由于在不同知識(shí)點(diǎn)上的學(xué)習(xí)狀態(tài)與表現(xiàn)對(duì)于畢業(yè)與否有著不同的影響,所以本文采用注意力機(jī)制[21]來得到不同時(shí)刻學(xué)習(xí)狀態(tài)的重要性.并利用重要性加權(quán)學(xué)習(xí)者狀態(tài)向量得到學(xué)習(xí)者在課程上的最終學(xué)習(xí)狀態(tài)向量.具體過程如公式(7)所示:
(7)
其中,e(*)為得分函數(shù);v是計(jì)算t時(shí)刻學(xué)習(xí)狀態(tài)重要性得分的向量;W2權(quán)值矩陣;b2是偏置向量;θt是不同時(shí)刻學(xué)習(xí)狀態(tài)對(duì)于學(xué)習(xí)者i的重要性,F(xiàn)(i)是最終表示學(xué)習(xí)者i的學(xué)習(xí)狀態(tài)向量.
接下來,基于深度學(xué)習(xí)理論,利用一個(gè)線性層和softmax函數(shù)可得到學(xué)習(xí)者畢業(yè)與否的概率,具體如公式(8)所示:
P(i)=softmax(W3F(i)+b3)
(8)
其中,P(i)∈[0,1]2是表示學(xué)習(xí)者畢業(yè)與否的概率分布的向量;W3是線性層的權(quán)重矩陣;b3是線性層的偏置向量.此任務(wù)的損失函數(shù)如公式(9)所示:
(9)
其中,Pr(i)是學(xué)習(xí)者i畢業(yè)與否的真實(shí)情況類別向量,只有在其所屬類別對(duì)應(yīng)出現(xiàn)時(shí)該位置的值才為1,其余情況該位置之值為0.
至此,利用以上的策略訓(xùn)練得到的模型可以有效完成相應(yīng)的學(xué)習(xí)者行為預(yù)測任務(wù).
本文在真實(shí)的MOOC學(xué)習(xí)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),論證了本文方法的有效性.
本文收集了來自國內(nèi)某知名大學(xué)MOOC平臺(tái)上的學(xué)習(xí)行為數(shù)據(jù)集.數(shù)據(jù)集由2013秋季學(xué)期和2014春季學(xué)期的11門完整在線課程組成.將這些課程歸為3大類:工科(計(jì)算機(jī)科學(xué)與電子工程)、理科(經(jīng)濟(jì)學(xué))和文科及其他(歷史和體育).每門課程都設(shè)有論壇,學(xué)習(xí)者可針對(duì)不同知識(shí)點(diǎn)的教學(xué)內(nèi)容發(fā)布問題或回復(fù)他人提出的問題,這一過程為本文方法提供了所需的短文本數(shù)據(jù).除此之外,數(shù)據(jù)集還包含學(xué)習(xí)者的人口統(tǒng)計(jì)學(xué)信息和多種類型的學(xué)習(xí)者活動(dòng)數(shù)據(jù),如觀看視頻、完成作業(yè)、下載資源等數(shù)據(jù),總計(jì)56800000個(gè)時(shí)間戳記的活動(dòng)日志數(shù)據(jù).表1介紹了數(shù)據(jù)集的相關(guān)統(tǒng)計(jì)數(shù)據(jù).
表1 數(shù)據(jù)集介紹Table 1 Dataset introduction
在超參數(shù)設(shè)置上,利用Glove[20]訓(xùn)練得到200維度的詞向量.將BiLSTM模型的隱藏節(jié)點(diǎn)個(gè)數(shù)設(shè)置為100,即BiLSTM每個(gè)時(shí)間步的輸出為200維向量.設(shè)短文本語義向量的維度設(shè)置為20;每個(gè)短文本最多含有20個(gè)句子,且每個(gè)句子的長度不大于50個(gè)單詞.再采用Adam[22]方法優(yōu)化整體模型的參數(shù).將學(xué)習(xí)狀態(tài)的維度m設(shè)置為24.
本節(jié)說明短文本語義增強(qiáng)的學(xué)習(xí)行為預(yù)測方法實(shí)驗(yàn)結(jié)果.首先從每門課程中選取發(fā)表短文本次數(shù)處于前80%的學(xué)習(xí)者數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)集.
4.3.1 預(yù)測學(xué)習(xí)者畢業(yè)與否
本文在11門課程上進(jìn)行了預(yù)測學(xué)習(xí)者畢業(yè)與否的實(shí)驗(yàn).每門課程將80%的學(xué)習(xí)者數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),將其余20%的數(shù)據(jù)作為測試測試.實(shí)驗(yàn)中的測評(píng)指標(biāo)采用Precision、Recall和F1.由于本文數(shù)據(jù)集不滿足基于概率的預(yù)測方法的需求,所以選擇兩種傳統(tǒng)的機(jī)器學(xué)習(xí)方法Logistic Regression(LR)、Support Vector Machine(SVM)代替基于概率的方法作為本文方法的對(duì)比方法.選擇方法Factorization Machine(FM)[16]作為代表基于矩陣因子化預(yù)測方法的對(duì)比方法.由于Latent Dynamic Factor Graph(LadFG)[20]被證明優(yōu)于大部分深度學(xué)習(xí)方法,所以選擇其作為代表基于深度學(xué)習(xí)預(yù)測方法的對(duì)比方法.LR和SVM利用除短文本語義信息外的統(tǒng)計(jì)信息和學(xué)習(xí)行為信息特征訓(xùn)練logistic回歸模型和SVM模型,并利用訓(xùn)練好的摸型進(jìn)行預(yù)測.FM方法先構(gòu)造學(xué)習(xí)者-課程矩陣,將學(xué)習(xí)者對(duì)應(yīng)課程的成績作為矩陣元素,利用矩陣因子化的方法可得到學(xué)習(xí)者和課程的特征向量,再基于特征向量去判斷學(xué)習(xí)者畢業(yè)與否.LadFG利用學(xué)習(xí)者的人口統(tǒng)計(jì)數(shù)據(jù)、學(xué)習(xí)行為數(shù)據(jù)和論壇行為數(shù)據(jù)構(gòu)建動(dòng)態(tài)圖模型,再基于學(xué)習(xí)者的整個(gè)過程的學(xué)習(xí)狀態(tài)去預(yù)測學(xué)習(xí)者畢業(yè)與否.具體結(jié)果如表2所示.
表2 預(yù)測學(xué)習(xí)者畢業(yè)與否效果對(duì)比Table 2 Result compare of predicting learners′ graduation or not
如表2所示,由于LRC和SVM方法僅考慮基本不變的統(tǒng)計(jì)學(xué)特征和學(xué)習(xí)行為的平均數(shù)值,所以無法學(xué)習(xí)到學(xué)習(xí)者學(xué)習(xí)狀態(tài)的變化,因此這兩種方法的預(yù)測效果較差.FM方法僅利用學(xué)習(xí)者的成績數(shù)據(jù),無法刻畫學(xué)習(xí)者整體的學(xué)習(xí)行為,所以此方法的預(yù)測效果也不理想.相比之下,本文方法與LadFG方法均在時(shí)序上考慮學(xué)習(xí)者的多種特征,因此可學(xué)習(xí)到不同時(shí)刻的學(xué)習(xí)狀態(tài)變化信息,所以實(shí)驗(yàn)效果較好.同時(shí),本文方法還使用了短文本語義增強(qiáng)機(jī)制和注意力機(jī)制,這不僅使得本文方法可學(xué)習(xí)到學(xué)習(xí)者主觀因素,而且還可以捕捉到不同時(shí)刻學(xué)習(xí)狀態(tài)對(duì)學(xué)習(xí)者畢業(yè)與否的不同的重要性,這又進(jìn)一步提升了本文方法的預(yù)測準(zhǔn)確性.
4.3.2 期中成績預(yù)測
首先本文將百分制的分?jǐn)?shù)換算到[0,1]區(qū)間,并在11門課程上進(jìn)行了期中成績預(yù)測任務(wù)的實(shí)驗(yàn).每門課程選擇80%的學(xué)習(xí)者數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),選擇其余的20%的數(shù)據(jù)作為測試數(shù)據(jù).由于成績預(yù)測任務(wù)的輸出是數(shù)值類型,所以此處采用以下兩個(gè)測評(píng)指標(biāo),具體形式如公式(10)和公式(11)所示.
(10)
其中,T[-0.03,+0.03]表示預(yù)測分?jǐn)?shù)和學(xué)習(xí)者真實(shí)期中成績的差距在此區(qū)間范圍之內(nèi)的學(xué)習(xí)者人數(shù),N為測試集中的所有學(xué)習(xí)者人數(shù).
(11)
在實(shí)驗(yàn)對(duì)比方法上,除了上一節(jié)提到的方法FM和方法LadFG之外,同時(shí)再引入多變量回歸(MR)作為本文方法的對(duì)比算法.具體為利用除短文本信息外的統(tǒng)計(jì)信息和學(xué)習(xí)行為信息特征訓(xùn)練多變量回歸模型,并利用此模型進(jìn)行預(yù)測.實(shí)驗(yàn)結(jié)果如表3所示.
表3 期中成績預(yù)測效果對(duì)比Table 3 Result compare of predicting learners′ grade
4.3.3 收斂性實(shí)驗(yàn)
為了證明本文方法在實(shí)際使用時(shí)候的有效性,本文針對(duì)這11門課程數(shù)據(jù)進(jìn)行了收斂性分析.首先選取每門課程80%的學(xué)習(xí)者數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),并設(shè)置學(xué)習(xí)狀態(tài)向量的維度m為24.
圖3 收斂性分析Fig.3 Convergence analysis
圖3為收斂性分析的結(jié)果,每次迭代利用了50個(gè)學(xué)習(xí)者的數(shù)據(jù)作為輸入,結(jié)果顯示:在大約15000次迭代(大約300次epoch)之后模型就會(huì)逐漸收斂.
本文提出了一種語義增強(qiáng)的在線學(xué)習(xí)行為預(yù)測方法.首先,利用BiLSTM得到短文本的語義向量.其次,將短文信息、學(xué)習(xí)行為信息和統(tǒng)計(jì)信息相融合,并利用LSTM對(duì)學(xué)習(xí)狀態(tài)進(jìn)行建模.最后,針對(duì)不同的學(xué)習(xí)行為應(yīng)用不同的策略進(jìn)行預(yù)測.通過在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)證明了利用短文本語義信息能有效地提升在線學(xué)習(xí)行為預(yù)測的精度,并且此方法原則上能夠用于所有學(xué)習(xí)行為的預(yù)測,具有很強(qiáng)的通用性.