馬蓮姑,黃壽孟,紀(jì)春林,趙安學(xué)*
(1. 瓊臺(tái)師范學(xué)院信息科學(xué)技術(shù)學(xué)院,海南 海口 571100;2. 三亞學(xué)院信息與智能工程學(xué)院,海南 三亞 572022;3. 陜西理工大學(xué)教育科學(xué)學(xué)院,陜西 漢中 723000)
慕課(MassiveOpenOnlineCourse,MOOC)是受到眾多教師以及學(xué)生認(rèn)可的學(xué)習(xí)方式,MOOC在教學(xué)改革中占據(jù)重要地位。MOOC屬于在線學(xué)習(xí)方式,具有不受時(shí)間以及地點(diǎn)限制的優(yōu)勢(shì)[1]。網(wǎng)絡(luò)中包含眾多不同企業(yè)以及高校開(kāi)發(fā)的MOOC平臺(tái),海量MOOC信息存在于MOOC平臺(tái)中。眾多MOOC平臺(tái)中的課程存在較高的重復(fù)性,學(xué)生選擇MOOC時(shí),無(wú)法明確選取合適的慕MOOC,MOOC的智能信息推薦是目前在線網(wǎng)絡(luò)學(xué)習(xí)領(lǐng)域急需解決的重要問(wèn)題[2]。目前網(wǎng)絡(luò)中各大MOOC學(xué)習(xí)平臺(tái)具有極高的計(jì)算能力以及存儲(chǔ)能力,利用高效的推薦算法實(shí)現(xiàn)MOOC平臺(tái)的智能信息推薦,利用聚類算法挖掘網(wǎng)絡(luò)中存在的海量課程,實(shí)現(xiàn)MOOC知識(shí)數(shù)據(jù)庫(kù)的有效優(yōu)化。學(xué)生可以快速獲取所需MOOC課程中的知識(shí)點(diǎn),便于快速提升學(xué)習(xí)成績(jī),令MOOC利用率有所提升。學(xué)生的學(xué)習(xí)效率有所提升[3,4],同樣提升了MOOC平臺(tái)的教學(xué)質(zhì)量,推動(dòng)MOOC教學(xué)平臺(tái)進(jìn)一步發(fā)展。
目前針對(duì)MOOC研究較多,郭軍[5]以及戴亞平[6]等人分別將大數(shù)據(jù)技術(shù)應(yīng)用于MOOC平臺(tái)中以及研究學(xué)生使用MOOC平臺(tái)時(shí)的聽(tīng)課行為,對(duì)MOOC平臺(tái)具有了初步研究。
目前針對(duì)MOOC平臺(tái)的智能信息推薦研究還行相對(duì)較少。本文構(gòu)建基于MOOC的智能信息推薦模型,將高效的智能信息推薦模型應(yīng)用于MOOC平臺(tái)中,通過(guò)仿真軟件對(duì)所構(gòu)建模型仿真,通過(guò)仿真結(jié)果驗(yàn)證所構(gòu)建模型具有較高的智能信息推薦有效性,將所構(gòu)建模型應(yīng)用于MOOC平臺(tái)中,可為用戶推薦所需要課程,提升學(xué)生的學(xué)習(xí)效率,令MOOC平臺(tái)發(fā)揮最大功能。
利用基于本體的概念相似度計(jì)算方法實(shí)現(xiàn)MOOC平臺(tái)中海量課程信息的聚類。MOOC平臺(tái)中的用戶數(shù)據(jù)包含所訂閱、收藏的課程以及課程視頻學(xué)習(xí)數(shù)據(jù)、瀏覽記錄等數(shù)據(jù),以上數(shù)據(jù)分別屬于用戶的直接數(shù)據(jù)以及隱式行為數(shù)據(jù)。MOOC平臺(tái)信息聚類需要將以上數(shù)據(jù)有效聚類[7],利用完成聚類后的數(shù)據(jù)提取興趣點(diǎn)特征向量,為智能信息推薦模型提供良好的數(shù)據(jù)基礎(chǔ)。
利用有向樹(shù)建立本體的層次結(jié)構(gòu),本體的概念相似度計(jì)算過(guò)程如下:
1)語(yǔ)義距離
用Dis(Gc1,Gc2)表示待聚類領(lǐng)域本體中的概念Gc1與概念Gc2間的語(yǔ)義距離。設(shè)置所建立本體層次數(shù)內(nèi)具有最短概念路徑的有向邊數(shù)量,作為領(lǐng)域本體的語(yǔ)義距離。當(dāng)概念Gc1與Gc2概念為相同語(yǔ)義時(shí),二者相似度為1,此時(shí)Dis(Gc1,Gc2)=0。
2)層次差
用|hc1-hc2|表示概念Gc1與概念Gc2的層次差,概念Gc1與概念Gc2的相應(yīng)層次深度利用hc1與hc2表示。本體樹(shù)的層次深度有所提升時(shí),所劃分的本體樹(shù)節(jié)點(diǎn)更加具體。設(shè)兩個(gè)概念的語(yǔ)義距離相同[8],二者的層次之和有所提升時(shí),相似度隨之增加;二者的層次之差有所增加時(shí),相似度
3)語(yǔ)義重合度
用E(Gc1)∩E(Gc2)表示本體層次樹(shù)中概念Gc1與概念Gc2的語(yǔ)義重合度。兩個(gè)概念在所設(shè)置的本體層次樹(shù)內(nèi)選取根節(jié)點(diǎn)作為出發(fā)點(diǎn),出發(fā)過(guò)程中共同經(jīng)過(guò)的節(jié)點(diǎn)占全部節(jié)點(diǎn)的比例即概念Gc1與概念Gc2的語(yǔ)義重合度。
充分考慮以上概念,利用本體層次樹(shù)方法獲取概念Gc1與概念Gc2相似度表達(dá)式如下
(1)
式中,β表示調(diào)節(jié)因子。
MOOC平臺(tái)信息聚類具體過(guò)程如下:
選取原始MOOC平臺(tái)信息集以及聚類數(shù)量作為聚類輸入,將完成聚類的MOOC平臺(tái)信息集作為聚類輸出。
1)劃分MOOC平臺(tái)信息集;
2)建立MOOC平臺(tái)信息集內(nèi)不同概念的向量空間;
3)隨機(jī)選取K個(gè)概念作為初始聚類的聚類中心;
4)計(jì)算全部概念與K個(gè)聚類中心的相似度,將MOOC平臺(tái)信息集內(nèi)與聚類中心相似度較高的概念劃分至該類別中,利用式(1)計(jì)算MOOC平臺(tái)信息集內(nèi)的概念與聚類中心的相似度;
5)更新完成聚類的聚類中心;
6)重復(fù)迭代以上過(guò)程,直至聚類中心為固定狀態(tài),終止聚類。
通過(guò)以上過(guò)程,利用MOOC平臺(tái)信息內(nèi)不同概念的相似度,聚類主體相同或相近的信息,實(shí)現(xiàn)MOOC平臺(tái)內(nèi)海量信息的有效聚類,得到信息聚類結(jié)果。
深度神經(jīng)網(wǎng)絡(luò)提取興趣點(diǎn)特征向量主要包括以下步驟:
1)卷積層
利用xi=[w1,w2,…,wn]表示隨機(jī)興趣點(diǎn)評(píng)論信息集合,將集合x(chóng)i內(nèi)的單詞wi依據(jù)先后順序。利用詞向量模型映射至詞向量wi∈p×1,將集合轉(zhuǎn)換至詞向量矩陣B∈p×l。該矩陣具有詞序不變特征[9],矩陣表達(dá)式如下
(2)
其中,p表示單詞wi的嵌入維度;l表示集合x(chóng)i的長(zhǎng)度;wi表示集合x(chóng)i內(nèi)i處單詞的詞向量。
(3)
通過(guò)重復(fù)卷積操作獲取上下文特征cj∈l-wd+1表達(dá)式如下
(4)
2)池化層
MOOC平臺(tái)內(nèi)不同興趣點(diǎn)的潛在特征利用所提取的上下文特征向量?jī)?nèi)的最大特征向量體現(xiàn)[10,11]。用lj表示隨機(jī)興趣點(diǎn)評(píng)論信息xi的上下文特征,可得公式如下
(5)
3)輸出層
上文所獲取的特征向量,需映射至差異維度的向量空間中,利用不同的向量空間體現(xiàn)不同任務(wù)。MOOC平臺(tái)智能信息推薦應(yīng)用時(shí),設(shè)置特征向量lj映射至kd維向量空間中表達(dá)式如下
r=tanh(Zf2{tanh(Zf1lj+bf1)}+bf2)
(6)
以上公式中,r∈kd,Zf1∈f×nc,Zf2∈kd×f,bf1∈f,bf2∈kd,其中Zf1、Zf2與bf1、bf2分別表示映射矩陣以及偏移向量。
通過(guò)以上過(guò)程實(shí)現(xiàn)MOOC平臺(tái)基于聚類信息的上下文特征提取。總結(jié)以上過(guò)程,利用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)興趣點(diǎn)[12],所提取興趣點(diǎn)特征向量的目標(biāo)函數(shù)如下
(7)
(8)
興趣點(diǎn)特征空間向量tI表達(dá)式如下
(9)
獲取協(xié)同過(guò)濾圖模型應(yīng)用于智能信息推薦的表達(dá)式如下
(10)
(11)
式中,rmi表示用戶m對(duì)課程i的感興趣程度。
(12)
式中,smi表示用戶m對(duì)課程i的相似度。
通過(guò)以上步驟實(shí)現(xiàn)MOOC平臺(tái)的智能信息推薦。
選取Matlab 2020b0軟件作為驗(yàn)證所構(gòu)建模型推薦性能的仿真軟件,由某MOOC平臺(tái)的用戶操作日志以及選課記錄構(gòu)成數(shù)據(jù)集,利用Matlab 7.0軟件將該數(shù)據(jù)集應(yīng)用于某MOOC平臺(tái)中。分析數(shù)據(jù)集內(nèi)數(shù)據(jù),數(shù)據(jù)集內(nèi)包含用戶數(shù)量為185645名,包含課程數(shù)量為52門(mén)。分析該MOOC平臺(tái)可知,約10000名用戶選擇課程為2-4門(mén),一半以上的用戶僅選擇1門(mén)課程。52門(mén)課程中,部分課程開(kāi)課時(shí)的學(xué)生用戶人數(shù)高達(dá)12542名,某課程開(kāi)課時(shí),聽(tīng)課人數(shù)僅為13人。該MOOC平臺(tái)用戶選取課程時(shí),具有較高的稀疏性,高效的智能信息推薦模型可有效改善MOOC平臺(tái)的課程選取稀疏性。
康乾南巡不僅將江南景觀仿建至北方,也將北方的建筑風(fēng)格、造園藝術(shù)等元素帶到了江南。這一點(diǎn)突出表現(xiàn)在揚(yáng)州五亭橋、白塔的建筑上。
統(tǒng)計(jì)采用本文模型為用戶提供智能信息推薦后,該MOOC平臺(tái)聽(tīng)課人數(shù)變化情況,統(tǒng)計(jì)結(jié)果如圖1所示。
圖1 課程對(duì)應(yīng)選課人數(shù)
采用本文模型前,MOOC平臺(tái)中的課程選課人數(shù)存在過(guò)高或者過(guò)低情況,本文模型可有效改善課程選取稀疏性過(guò)高的缺陷。采用本文模型后,不同課程選取人數(shù)均處于5000人-6000人之間,提升了MOOC平臺(tái)的選課均衡性。將本文模型應(yīng)用于MOOC平臺(tái)中,可有效改善課程選擇過(guò)于稀疏的問(wèn)題,課程對(duì)應(yīng)選課人數(shù)有了明顯改善。采用本文模型實(shí)現(xiàn)課程的智能信息推薦后,用戶對(duì)于課程的選取較為均衡,有效避免MOOC平臺(tái)選課稀疏性的缺陷。本文模型所獲取的推薦結(jié)果可提升用戶對(duì)于課程知識(shí)的獲取情況,學(xué)習(xí)可依據(jù)自身興趣選取感興趣課程,通過(guò)良好的學(xué)習(xí)模式提升學(xué)生的學(xué)習(xí)興趣。
統(tǒng)計(jì)所提取不同用戶興趣點(diǎn)特征情況下,本文模型為用戶所推薦課程。本文模型為用戶推薦課程結(jié)果如表1所示。
表1 本文模型推薦結(jié)果
表1仿真結(jié)果可以看出,本文方法可充分挖掘不同用戶的興趣點(diǎn),為用戶推薦用戶所需課程,實(shí)現(xiàn)智能信息的有效推薦。例如用戶興趣點(diǎn)為航空航天時(shí),本文模型為該用戶推薦了航空航天技術(shù)概論、應(yīng)用物理學(xué)等相關(guān)課程。本文模型可為用戶推薦與用戶興趣點(diǎn)極為相符的課程,具有較高的推薦有效性。
仿真過(guò)程中,設(shè)用戶點(diǎn)擊本文模型的推薦列表中的鏈接,表示用戶對(duì)智能推薦信息具有較高的感興趣程度,此時(shí)本文模型為智能信息推薦成功狀態(tài)。選取平均排序倒數(shù)作為本文模型智能信息推薦準(zhǔn)確率的度量指標(biāo)。平均排序倒數(shù)表達(dá)式如下
(13)
式(13)中,N與aij分別表示測(cè)試樣本數(shù)量以及i次推薦結(jié)果中,用戶首先點(diǎn)擊鏈接j的信息。用戶所點(diǎn)擊信息排序越前,所獲取的平均排序倒數(shù)值越高,此時(shí)該模型具有優(yōu)越的智能信息推薦效果。
不同用戶會(huì)話數(shù)量時(shí),本文模型的平均排序倒數(shù)結(jié)果如圖2所示。
圖2 平均排序倒數(shù)
圖2仿真結(jié)果可以看出,不同用戶會(huì)話規(guī)模時(shí),本文方法的平均排序倒數(shù)均為0.7以上,有效驗(yàn)證本文模型具有較高的智能信息推薦準(zhǔn)確率。本文模型可有效獲取用戶的興趣點(diǎn)變化情況,用戶在不同的MOOC平臺(tái)使用日期時(shí),均可獲取良好的智能信息推薦效果,驗(yàn)證本文模型具有較高的推薦有效性,所獲取推薦結(jié)果與用戶需求極為接近。
選取折現(xiàn)累積收益(discounted cumulative gain,DCG)作為評(píng)估所構(gòu)建智能信息推薦模型推薦性能的另一重要指標(biāo)。折現(xiàn)累積收益是評(píng)估推薦模型排序結(jié)果質(zhì)量的重要指標(biāo),該指標(biāo)表達(dá)式如下
(14)
式(14)中,b(1+j)與rel(j)分別表示折扣因子以及第j個(gè)鏈接的相關(guān)度,n表示推薦鏈接在推薦結(jié)果中的排序結(jié)果。
采用本文模型為用戶推薦課程,不同課程類型時(shí),本文模型的DCG指標(biāo)結(jié)果如圖3所示。
圖3 DCG指標(biāo)統(tǒng)計(jì)結(jié)果
圖3仿真結(jié)果可以看出,MOOC平臺(tái)為單用戶模式以及多用戶模式時(shí),本文模型獲取的智能信息推薦結(jié)果均具有較高的質(zhì)量。本文模型在單用戶模式以及多用戶模式下均具有較高的智能信息推薦性能,可應(yīng)用于MOOC平臺(tái)智能信息推薦中。本文模型具有優(yōu)異的推薦性能的主要原因是:本文模型利用基于本體的概念相似度計(jì)算方法實(shí)現(xiàn)MOOC平臺(tái)中海量信息的有效聚類,利用特征提取方法提取完成信息聚類后數(shù)據(jù)特征,利用所提取特征實(shí)現(xiàn)智能信息的有效推薦,提升本文模型的智能信息推薦性能。將本文模型應(yīng)用于MOOC平臺(tái)中,可有效依據(jù)用戶興趣點(diǎn)為用戶推薦與用戶最相符的課程推薦結(jié)果,推薦有效性高。
MOOC平臺(tái)伴隨大數(shù)據(jù)時(shí)代的到來(lái),對(duì)智能信息推薦的要求更高。用戶興趣點(diǎn)存在較高的動(dòng)態(tài)性,智能推薦模型的實(shí)時(shí)性極為重要。
通過(guò)所構(gòu)建模型實(shí)現(xiàn)MOOC平臺(tái)的智能信息推薦,利用智能信息推薦結(jié)果提升學(xué)生的學(xué)習(xí)效率。所構(gòu)建模型可有效解決以往智能信息推薦模型具有的數(shù)據(jù)稀疏性過(guò)高的缺陷,具有較高的智能信息推薦準(zhǔn)確率。且該模型可依據(jù)用戶興趣點(diǎn)推薦用戶感興趣信息,不僅可應(yīng)用于MOOC平臺(tái)中,同樣可應(yīng)用于其它需要推薦的平臺(tái)中。仿真測(cè)試結(jié)果驗(yàn)證所研究模型具有較高的智能信息推薦有效性,可滿足用戶的課程推薦需求。