胡 悅,羅小楠,王 彬,張 偉
(空軍軍醫(yī)大學(xué)教學(xué)考評中心,陜西西安 710032)
微課程(MOOC)發(fā)展給繼續(xù)教育帶來的便利的同時,海量內(nèi)容環(huán)境下的信息冗余也是不容忽視的現(xiàn)象。在信息量較大的情況下,學(xué)生需要大量的時間進(jìn)行分類甄別以找尋自身想要的內(nèi)容。由于大部分課程均是視頻內(nèi)容,所以需要對視頻進(jìn)行預(yù)覽才可以判斷是否對自己有用,這樣就浪費(fèi)了大量的時間。而解決此類問題最優(yōu)的方法就是加入內(nèi)容個性化推薦算法,因此課程內(nèi)容平臺加入個性化推薦算法與數(shù)據(jù)挖掘工具是必要的[2-3]。
在個性化推薦算法領(lǐng)域,目前深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的方法在文本分析、音視頻處理等方面呈現(xiàn)出了較大優(yōu)勢。因此使用深度神經(jīng)網(wǎng)絡(luò)構(gòu)建個性化推薦算法的性能較為出色,對于具體的構(gòu)建方法研究人員也進(jìn)行了各種嘗試。目前的深度神經(jīng)推薦基本算法就是采用深度學(xué)習(xí)的特征提取學(xué)習(xí)能力對系統(tǒng)特征進(jìn)行提取,同時解決了抓取數(shù)據(jù)過程中遇到的稀疏問題;而傳統(tǒng)的深度學(xué)習(xí)與個性化推薦算法相結(jié)合的例子對計算機(jī)性能要求較高。因此該文在目前主流算法的基礎(chǔ)上,將神經(jīng)網(wǎng)絡(luò)與協(xié)同推薦算法相結(jié)合,有效地提取了課程網(wǎng)站的文本內(nèi)容,做到對用戶精準(zhǔn)推薦[4]。
個性化學(xué)習(xí)資源推薦模型的根本原理就是要對學(xué)生與資源之間的數(shù)據(jù)關(guān)聯(lián)進(jìn)行分析、判斷[5],這其中的關(guān)鍵問題即是對平臺的課程進(jìn)行數(shù)據(jù)挖掘和數(shù)據(jù)采集。同時使用合適的模型進(jìn)行分析和預(yù)測,這樣才能為每位學(xué)生提供個性化的課程推薦服務(wù)。個性化課程推薦模型使用的最重要的數(shù)據(jù)就是歷史數(shù)據(jù),模型如圖1 所示。在歷史學(xué)習(xí)矩陣中,L、R分別表示學(xué)生和課程資源,黑色部分表示學(xué)生觀看過的課程資源。推送模型的關(guān)鍵就是從黑色模塊中提取信息,將此信息應(yīng)用到白色未學(xué)習(xí)的課程中,從新的課程中挑選出與學(xué)生所提復(fù)合要求相匹配的資源。該文的重點(diǎn)即是建立提取信息,并設(shè)計空白資源推薦的深度神經(jīng)模型。
圖1 推送模型示意圖
基于內(nèi)容的協(xié)同推薦模型的核心就是深度學(xué)習(xí),該模型將數(shù)據(jù)的內(nèi)容和數(shù)據(jù)的屬性信息相結(jié)合,對于提取出來的數(shù)據(jù)內(nèi)容,使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)文本特征識別;對于數(shù)據(jù)的屬性信息,使用深度學(xué)習(xí)對學(xué)生的喜好以及數(shù)據(jù)本身的特性信息進(jìn)行訓(xùn)練、提取。最終結(jié)合數(shù)據(jù)的內(nèi)容向量特征和數(shù)據(jù)的屬性信息特征,通過加權(quán)分?jǐn)?shù)預(yù)測系統(tǒng),使用該加權(quán)分?jǐn)?shù)將數(shù)據(jù)進(jìn)行排列并按照排名推薦給用戶[6-8]。該基礎(chǔ)推送模型旨在將特征指標(biāo)量化,使用多個神經(jīng)網(wǎng)絡(luò)進(jìn)行組合,增強(qiáng)特征提取的能力,進(jìn)而對學(xué)生的深層次特征進(jìn)行發(fā)掘,最終確定推薦順序。模型示意圖如圖2 所示。
圖2 基于內(nèi)容的協(xié)同推薦模型
由圖2 可以看出,基于內(nèi)容的協(xié)同推薦模型根據(jù)學(xué)生的本身特征和資源特征進(jìn)行課程推薦。對于剛?cè)雽W(xué)的學(xué)生而言,模型可以分析該學(xué)生的屬性特征,例如愛好、專業(yè)、時間及目標(biāo)等與學(xué)生自身相關(guān)的屬性,這可以有效解決傳統(tǒng)算法中存在的數(shù)據(jù)匱乏問題。但該模型在進(jìn)行預(yù)估測評階段使用卷積相乘的方式進(jìn)行計算,因此對計算機(jī)的計算性能要求較高,會影響最終的模型結(jié)果且浪費(fèi)時間。
由上文中提到的協(xié)同模型缺點(diǎn),該文使用多層感知算法進(jìn)行改進(jìn)。多層感知模型是感知算法的改進(jìn)模型,即擁有多個神經(jīng)網(wǎng)絡(luò)元胞層,而多層所帶來的優(yōu)點(diǎn)是可以對數(shù)據(jù)中的非線性部分進(jìn)行處理[9-12]。多層感知(MLP)模型由輸入層、隱藏層及輸出結(jié)構(gòu)層組成,從宏觀層面而言,該模型的連接部分可以分為全連接層和分類器。卷積相乘部分在時空層面資源消耗均較大,而多層感知模型在預(yù)測評分部分起著關(guān)鍵的作用。該模型代替了原協(xié)同推薦模型中預(yù)測評分的卷積相乘部分,節(jié)約了計算時間且提高了模型的運(yùn)算效率。MLP的改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 MLP改進(jìn)網(wǎng)絡(luò)示意圖
基于深度神經(jīng)網(wǎng)絡(luò)的繼續(xù)教育信息推送模型框架如圖4 所示。
①監(jiān)測、管理化肥農(nóng)藥施用。采取一系列的養(yǎng)分管理技術(shù)、農(nóng)藥管理技術(shù)以及灌溉排水管理技術(shù)等,從源頭減少來自農(nóng)業(yè)活動的污染物產(chǎn)生量。
圖4 模型框架示意圖
該模型可以分為兩個部分,分別是數(shù)據(jù)訓(xùn)練部分和推薦算法部分。數(shù)據(jù)訓(xùn)練部分為目標(biāo)課程平臺數(shù)據(jù)的抓取、整合與處理,以及抓取數(shù)據(jù)特征處理等。推薦算法為數(shù)據(jù)訓(xùn)練后,處理過程以及進(jìn)行個性資源推薦的過程。在該文設(shè)計的模型框架中,輸入部分為學(xué)習(xí)者信息、學(xué)習(xí)資源屬性信息及學(xué)習(xí)資源文本信息。這3 種信息通過神經(jīng)網(wǎng)絡(luò)的輸入層,文本信息使用詞向量模型進(jìn)行處理,然后可以得到3種信息對應(yīng)特征向量。在學(xué)習(xí)評測階段,使用上文所述的多層感知算法模型。該模型內(nèi)部有多個神經(jīng)網(wǎng)絡(luò)元胞層,可以有效地提升模型的評測速度,最終由多層感知算法模型進(jìn)行模型的評分。根據(jù)評分權(quán)重對課程資源進(jìn)行推薦,可以向?qū)W生推薦符合學(xué)生信息特征的學(xué)習(xí)資源。模型執(zhí)行過程如下所示:
1)信息輸入過程。如圖4 中最下部分所示,模型首先將學(xué)習(xí)者信息、學(xué)習(xí)資源屬性信息及學(xué)習(xí)資源文本信息進(jìn)行輸入,并獲取這3 種信息的特征向量。將學(xué)習(xí)者信息的特征向量設(shè)定為h={h1,h2,…,hn},hn為學(xué)習(xí)者信息中的某一組成部分,例如h1為學(xué)習(xí)者學(xué)歷。同樣,將學(xué)習(xí)資源屬性信息設(shè)定為i={i1,i2,…,in}。
特征向量計算公式為:
在式(1)、(2)中,w1和w2是向量所占權(quán)重,a1和a2是向量的偏置量,f函數(shù)為激活函數(shù)。對以上的權(quán)重進(jìn)行綜合判定,特征向量為:
學(xué)習(xí)資源的特征向量為:
2)神經(jīng)網(wǎng)絡(luò)構(gòu)建。在該文模型中,學(xué)習(xí)資源文本信息要通過神經(jīng)網(wǎng)絡(luò)進(jìn)行獲取,該模型使用Word2vec 方法對詞向量進(jìn)行獲取[13]。首先經(jīng)過詞矢量模型提取文本特征,再將文本特征數(shù)據(jù)作為輸入層輸入到神經(jīng)網(wǎng)絡(luò)中訓(xùn)練,神經(jīng)網(wǎng)絡(luò)模型包含輸入層、卷積計算層及池化連接層三層。其中,輸入層激活函數(shù)使用線性單元激活函數(shù):
此外,模型在訓(xùn)練過程中會出現(xiàn)過度使用訓(xùn)練樣本現(xiàn)象,該現(xiàn)象可能會使新數(shù)據(jù)的識別效果變差。因此仍需構(gòu)建代價函數(shù),而使用二次函數(shù)模型可以加入正則算法,使函數(shù)實(shí)現(xiàn)適當(dāng)擬合,擬合算法代價函數(shù)如下:
式(6)中,C為代價函數(shù),x、y分別是樣本值和實(shí)際值,L為使用到神經(jīng)網(wǎng)絡(luò)的層數(shù)。
在輸出層設(shè)計中,使用最主流的回歸函數(shù)進(jìn)行構(gòu)造。構(gòu)造完成的神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu),如圖5所示。
圖5 神經(jīng)網(wǎng)絡(luò)模型示意圖
3)評價標(biāo)準(zhǔn)。該文使用統(tǒng)計學(xué)方法對算法實(shí)現(xiàn)的精確程度進(jìn)行評估,使用絕對誤差算法來評價推薦模型的性能,這也是目前推薦算法中最常用的評估方法。該算法通過對系統(tǒng)推薦數(shù)據(jù)指數(shù)和用戶實(shí)際的喜好指數(shù)進(jìn)行統(tǒng)計學(xué)分析,分析公式為[14]:
式中,E′為評價分?jǐn)?shù),E′的值越小,即絕對誤差越低,模型的推薦性能也就越優(yōu)。
該節(jié)對構(gòu)建的推薦模型進(jìn)行測試,由于為課程推薦模型,因此測試集選擇為平臺課程數(shù)據(jù)以及學(xué)生在平臺中使用的歷史數(shù)據(jù)。該文選擇公開數(shù)據(jù)集edX 進(jìn)行數(shù)據(jù)訓(xùn)練,edX 數(shù)據(jù)集合中包含了數(shù)十種常見課程屬性,也涵蓋本模型訓(xùn)練所需的學(xué)習(xí)者信息[15-16]、學(xué)習(xí)資源屬性信息及學(xué)習(xí)資源文本信息。驗(yàn)證集選擇真實(shí)網(wǎng)課平臺中國MOOC 網(wǎng)站及愛課程網(wǎng)站的學(xué)習(xí)數(shù)據(jù)集合,最終形成的數(shù)據(jù)集合為10 000個學(xué)生歷史數(shù)據(jù)集合和800 個學(xué)習(xí)資源集合。其將這兩種數(shù)據(jù)封裝成集合形式作為神經(jīng)網(wǎng)絡(luò)的輸入層數(shù)據(jù),實(shí)驗(yàn)環(huán)境設(shè)置見表1 所示。
表1 實(shí)驗(yàn)環(huán)境設(shè)置說明
具體的訓(xùn)練流程如下:
1)輸入學(xué)習(xí)者信息、學(xué)習(xí)資源屬性信息及學(xué)習(xí)資源文本信息;
2)將流程1)中所需的信息輸入到數(shù)據(jù)嵌入層,得到每個的特性向量;
3)將特征向量導(dǎo)入到連接層,構(gòu)成特征向量;
4)使用詞向量法對文本資源進(jìn)行處理,得到文本特征向量;
5)將各個特征資源向量輸入到改進(jìn)評分模型進(jìn)行評分;
6)對評分進(jìn)行排序,向?qū)W習(xí)者按照分?jǐn)?shù)排名進(jìn)行資源推薦。
該節(jié)進(jìn)行對比實(shí)驗(yàn),實(shí)驗(yàn)使用目前流行的3 個算法與該文算法(分別是協(xié)同推薦算法(CBR)、聚類統(tǒng)計方法(KRCF)以及余弦相似度統(tǒng)計方法(CCF)與該文算法)進(jìn)行綜合對比。對比實(shí)驗(yàn)結(jié)果如表2所示。由表2 可直觀看出,隨著迭代次數(shù)的增加,絕對誤差值不斷減小,且該文提出算法的MAE值是所有算法中最小的。因此可以得出結(jié)論,文中算法在考慮用戶信息屬性及學(xué)習(xí)資源屬性方面較全面,而傳統(tǒng)統(tǒng)計學(xué)方法未考慮到推薦模型各個信息之間的關(guān)聯(lián)性。因此,性能相較于其他對比算法有較大優(yōu)勢。
表2 對比實(shí)驗(yàn)結(jié)果
而該文模型除了性能有優(yōu)勢之外,在算法效率上同樣具有優(yōu)勢。因此,文中進(jìn)行了算法的時間效率對比,表3 反映的是當(dāng)MAE 絕對誤差穩(wěn)定時算法的迭代次數(shù)。由表3 可以看出,該文提出的改進(jìn)協(xié)同算法在MAE 穩(wěn)定的情況下,迭代次數(shù)僅需要56 次,大幅領(lǐng)先于其他算法,這說明文中在評分模塊部分提出的MLP 改進(jìn)算法起到了作用[17-18]。
表3 算法效率測試結(jié)果
在線教育平臺使用人數(shù)日益增多,而傳統(tǒng)的課程推送算法對計算機(jī)性能要求較高,模型訓(xùn)練需要耗費(fèi)大量的時間。該文針對傳統(tǒng)課程推送模型算法的不足,將多層神經(jīng)元模型算法與個性化推薦算法相結(jié)合,對課程數(shù)據(jù)進(jìn)行訓(xùn)練驗(yàn)證。實(shí)驗(yàn)表明,文中建立的深度神經(jīng)網(wǎng)絡(luò)推薦模型的MAE 值相較于傳統(tǒng)算法有較為明顯的下降,同時訓(xùn)練迭代次數(shù)也大幅縮短。說明該文提出的算法模型可以有效縮短數(shù)據(jù)的訓(xùn)練時間,同時提高模型的推薦性能。