郭俊宏,甘柏青,徐林杰,丁永剛
(1.湖北大學(xué) 師范學(xué)院,湖北 武漢 430062;2.武漢船舶通信研究所,湖北 武漢 430205)
網(wǎng)絡(luò)學(xué)習(xí)具有個(gè)性化、主動(dòng)式、探究式、協(xié)作式、不受時(shí)間和地點(diǎn)限制等優(yōu)點(diǎn)而備受學(xué)習(xí)者青睞。然而,隨著網(wǎng)絡(luò)學(xué)習(xí)資源的爆炸式增長,學(xué)習(xí)者難以快速準(zhǔn)確地獲取到自己感興趣的資源,導(dǎo)致學(xué)習(xí)難度加大、學(xué)習(xí)時(shí)間延長,降低了學(xué)習(xí)者的學(xué)習(xí)效率。為了幫助學(xué)習(xí)者快速準(zhǔn)確找到其感興趣的學(xué)習(xí)資源,近年來教育技術(shù)領(lǐng)域?qū)<液蛯W(xué)者致力于在網(wǎng)絡(luò)學(xué)習(xí)系統(tǒng)中加入個(gè)性化學(xué)習(xí)資源推薦服務(wù)以解決資源過載這一問題?,F(xiàn)有的個(gè)性化學(xué)習(xí)資源推薦方法大多基于單領(lǐng)域進(jìn)行,即僅根據(jù)學(xué)習(xí)者在某一單個(gè)領(lǐng)域(如文本資料)的興趣偏好,向其推薦感興趣的學(xué)習(xí)資源。然而,單領(lǐng)域?qū)W習(xí)資源推薦存在諸多局限性,主要表現(xiàn)為:一是在數(shù)據(jù)稀疏和冷啟動(dòng)的情況下,無法為學(xué)習(xí)者提供準(zhǔn)確的推薦結(jié)果;二是單領(lǐng)域推薦算法在同一領(lǐng)域基于相似群體分類進(jìn)行推薦,所推薦的學(xué)習(xí)資源一般是同一類型、同一水平、與已學(xué)過知識(shí)高度近似的資源,因此無法真正滿足學(xué)習(xí)者的個(gè)性化需求,也無法達(dá)到挖掘?qū)W習(xí)者學(xué)習(xí)興趣與學(xué)習(xí)潛力的目的。在實(shí)際的網(wǎng)絡(luò)學(xué)習(xí)環(huán)境下,學(xué)習(xí)資源多種多樣,如文本、聲音、圖形、圖像和視頻等(跨多個(gè)領(lǐng)域),學(xué)習(xí)者的學(xué)習(xí)需求也表現(xiàn)出多樣性,而學(xué)習(xí)者在每一領(lǐng)域的評(píng)分?jǐn)?shù)據(jù)更加稀疏。顯然,單領(lǐng)域推薦算法已很難適應(yīng)跨領(lǐng)域的學(xué)習(xí)資源推薦服務(wù)。
跨領(lǐng)域信息資源推薦算法的主要思想是由Pan 等在2009 年基于遷移學(xué)習(xí)的概念而提出,它是解決多領(lǐng)域推薦問題的有效方法,已在電子商務(wù)領(lǐng)域廣泛應(yīng)用。近年來,教育技術(shù)領(lǐng)域?qū)<液蛯W(xué)者也開始致力于將跨域推薦技術(shù)應(yīng)用于跨域教育資源推薦,為學(xué)習(xí)者提供真正個(gè)性化的學(xué)習(xí)資源推薦服務(wù)?,F(xiàn)有的跨域推薦算法主要有3 類:一是基于域關(guān)聯(lián)的跨域推薦,如Wang 等通過從學(xué)習(xí)者訪問日志中提取個(gè)性化偏好,提出一種基于混合興趣度的跨域?qū)W習(xí)資源推薦方法;趙厲宇哲等提出一種融入專業(yè)度和用戶相似性的跨域推薦算法,實(shí)現(xiàn)了圖書、音樂、DVD 和影片等資源的跨域推薦;葉佳鑫等利用標(biāo)簽間的關(guān)系,提出一種以標(biāo)簽為基礎(chǔ)的跨域資源推薦方法;唐路平等通過跨域用戶特征信息交互,提出一種有效的遷移學(xué)習(xí)算法,解決了傳統(tǒng)協(xié)同過濾算法中的冷啟動(dòng)問題;曹鶴提出基于領(lǐng)域相關(guān)度的跨域推薦算法,實(shí)現(xiàn)了圖書、音樂、光盤和視頻等多源跨域?qū)W習(xí)資源推薦;二是基于隱含特征映射∕轉(zhuǎn)換的跨域推薦,如李宇航等通過共享跨域特征信息,重構(gòu)評(píng)分矩陣實(shí)現(xiàn)了電子書、視頻和音頻等資源的跨域推薦;田靖玉等提出知識(shí)聚合和遷移相結(jié)合的跨領(lǐng)域推薦算法ATCF,并考慮了群體效應(yīng),實(shí)現(xiàn)了圖書與電影的跨域推薦;吳彥文等提出一種利用GFK 特征映射,聯(lián)合用戶側(cè)重和項(xiàng)目側(cè)重多元遷移模式的領(lǐng)域自適應(yīng)方法,以應(yīng)用于跨領(lǐng)域推薦;三是基于評(píng)分模式共享的跨域推薦,如陳燕等提出一種基于共享評(píng)級(jí)遷移的跨域推薦算法SRTCD,對(duì)不同領(lǐng)域之間用戶對(duì)項(xiàng)目的評(píng)分模式建立一種關(guān)聯(lián),再結(jié)合遷移模式的跨域方法解決稀疏性問題和冷啟動(dòng)問題;Li等利用矩陣分解技術(shù)在聚類層次上將用戶的評(píng)分模式進(jìn)行遷移,實(shí)現(xiàn)了電影與圖書的跨域推薦。
以上方法在一定程度上解決了學(xué)習(xí)資源跨域推薦存在的問題,但是由于其算法的時(shí)間和空間復(fù)雜度高,在實(shí)際應(yīng)用中很難實(shí)現(xiàn)實(shí)時(shí)有效的推薦。丁永剛等利用碼本聚類思想,在評(píng)分矩陣中提取用戶在不同指標(biāo)上的評(píng)分模式和商品的被評(píng)分模式,并將其集成到因子分解機(jī)模型,在線性時(shí)間復(fù)雜度下實(shí)現(xiàn)了商品的多指標(biāo)推薦;Babak等提出基于因子分解機(jī)的協(xié)同過濾跨域推薦技術(shù),通過提取與合并特定類型項(xiàng)目的用戶交互模式,再遷移到目標(biāo)領(lǐng)域完成推薦,實(shí)現(xiàn)了算法的可擴(kuò)展性和線性時(shí)間復(fù)雜度。受文獻(xiàn)[13]和文獻(xiàn)[14]的啟發(fā),本文提出一種遷移評(píng)分模式的跨域?qū)W習(xí)資源推薦算法(Migrating User and Item Rating Patterns,MUIRP),該方法首先基于碼本聚類思想從學(xué)習(xí)者的輔助領(lǐng)域評(píng)分?jǐn)?shù)據(jù)中抽取學(xué)習(xí)者的評(píng)分模式和資源的被評(píng)分模式偏好,然后將其遷移到目標(biāo)領(lǐng)域,以填補(bǔ)學(xué)習(xí)者在目標(biāo)領(lǐng)域評(píng)分?jǐn)?shù)據(jù)的不足,最后利用因子分解機(jī)模型能方便集成多個(gè)特征向量的特性,將目標(biāo)領(lǐng)域?qū)W習(xí)者信息、學(xué)習(xí)資源信息、評(píng)分模式和被評(píng)分模式進(jìn)行統(tǒng)一建模,為學(xué)習(xí)者提供真正實(shí)時(shí)有效的個(gè)性化學(xué)習(xí)資源推薦。
遷移學(xué)習(xí)主要用來解決推薦系統(tǒng)的數(shù)據(jù)稀疏和冷啟動(dòng)問題,它首先從輔助領(lǐng)域中獲取相關(guān)知識(shí)或數(shù)據(jù),然后將經(jīng)過處理的信息遷移到目標(biāo)領(lǐng)域,以填補(bǔ)目標(biāo)領(lǐng)域數(shù)據(jù)的不足,從而解決目標(biāo)域中的數(shù)據(jù)稀疏和冷啟動(dòng)問題。在學(xué)習(xí)資源推薦領(lǐng)域,利用學(xué)習(xí)者在某些領(lǐng)域的知識(shí)學(xué)習(xí)情況,幫助其在其他領(lǐng)域的知識(shí)學(xué)習(xí),可以最大程度地挖掘出學(xué)習(xí)者的學(xué)習(xí)偏好,幫助發(fā)現(xiàn)其學(xué)習(xí)興趣與學(xué)習(xí)潛力。這既符合人類自身學(xué)習(xí)行為的特點(diǎn),同時(shí)也可以降低收集、標(biāo)記數(shù)據(jù)的成本,因此具有十分重要的意義。
碼本算法是圖像背景建模的常用方法,其基本思想是使用一個(gè)碼本(CodeBook,CB)來描述一個(gè)像素P,而每個(gè)碼本中包含若干碼元(Code Element,CE),這些碼元就是該像素點(diǎn)P 的一個(gè)聚類。碼本算法就是要構(gòu)建像素的一個(gè)個(gè)聚類,即碼本。實(shí)際上,碼本算法的圖像背景建模是一個(gè)統(tǒng)計(jì)過程,在構(gòu)建碼本的過程中,碼本算法會(huì)將某點(diǎn)出現(xiàn)的可能的像素值進(jìn)行統(tǒng)計(jì),根據(jù)碼元定義的特征屬性,設(shè)定閾值進(jìn)行判斷,只有符合條件的像素值才可作為背景像素。因此,碼本算法的背景建模具有聚類思想。
基于碼本聚類思想,在用戶評(píng)分矩陣中,可以將用戶在學(xué)習(xí)資源不同分值上的評(píng)分頻率作為碼本,然后基于碼本對(duì)評(píng)分矩陣的行和列重新進(jìn)行排列,即基于碼本進(jìn)行聚類。由于用戶評(píng)分模式可以通過用戶的評(píng)分頻率表示,基于碼本聚類實(shí)際上是將評(píng)分模式相似的用戶聚成一類,從而形成聚類級(jí)的用戶評(píng)分模式,如圖1 所示。類似地,從用戶的評(píng)分矩陣中,也可以提取出資源的被評(píng)分模式,從而將被評(píng)分模式相似的資源聚成一類,形成聚類級(jí)的資源被評(píng)分模式。
x
,y
)的集合表示,這里x
=(x
,…,x
)∈R是一個(gè)n
維特征向量,則FMs 能夠使用分解交互參數(shù)對(duì)x
的i
個(gè)輸入變量的所有嵌套交互進(jìn)行d
維度建模。當(dāng)d
=2 時(shí),因子分解機(jī)模型可以表示如下:Fig.1 A cluster-level rating model based on codebook圖1 基于碼本的聚類級(jí)用戶評(píng)分模式
w
是全偏量,w
是輸入變量x
的一元交互參數(shù),w
是v
和v
之間的分解參數(shù),定義為:k
是一個(gè)定義分解維度的超參數(shù)。因子分解機(jī)FMs 的一個(gè)重要特點(diǎn)是輸入特征向量成對(duì)交互效果可用低秩矩陣表示,因此輸入向量之間的交互不是使用一個(gè)獨(dú)立參數(shù)w
進(jìn)行建模,而是使用分解參數(shù)<v
.v
>加以建模。該特點(diǎn)使得FMs 即使在數(shù)據(jù)稀疏的情況下,也能對(duì)高維交互參數(shù)進(jìn)行可靠估計(jì),并且能夠在O(k
.m
(x
))的線性時(shí)間內(nèi)進(jìn)行有效計(jì)算(這里m
(x
)是向量x中非0 元素的個(gè)數(shù))。針對(duì)學(xué)習(xí)資源推薦存在的數(shù)據(jù)稀疏和冷啟動(dòng)問題,首先基于碼本聚類思想從輔助域的用戶評(píng)分矩陣中抽取用戶的評(píng)分模式和學(xué)習(xí)資源的被評(píng)分模式,然后將其遷移到目標(biāo)域,并利用因子分解機(jī)模型能方便集成多個(gè)特征向量的特性,將目標(biāo)領(lǐng)域?qū)W習(xí)者信息、學(xué)習(xí)資源信息和評(píng)分模式信息進(jìn)行統(tǒng)一建模,以實(shí)現(xiàn)跨域?qū)W習(xí)資源的精準(zhǔn)推薦。
傳統(tǒng)的協(xié)同過濾算法基于學(xué)習(xí)資源評(píng)分計(jì)算用戶或?qū)W習(xí)資源之間的相似性,實(shí)際上,如果將用戶—學(xué)習(xí)資源評(píng)分矩陣中用戶對(duì)學(xué)習(xí)資源的評(píng)分信息進(jìn)行重構(gòu),便可以得到用戶對(duì)學(xué)習(xí)資源評(píng)分信息的另一種表示形式。Tan等通過對(duì)Netflix Prize 數(shù)據(jù)集進(jìn)行分析,認(rèn)為用戶—學(xué)習(xí)資源矩陣中隱含著不同的用戶評(píng)分模式或?qū)W習(xí)資源被評(píng)分模式信息,而這種評(píng)分模式或被評(píng)分模式隱式地反映了用戶或?qū)W習(xí)資源之間的相似性。例如,如果一個(gè)用戶對(duì)一些電影都給出較高評(píng)分,則隱含著這些被評(píng)為高分的電影是相似的;類似地,如果一個(gè)電影總是被一些用戶給出較高評(píng)分,則隱含著這些給出高分的用戶是相似的;反之亦然。因此,可以將這些具有相似評(píng)分模式的用戶或被評(píng)分模式的學(xué)習(xí)資源集聚到同一簇內(nèi)。如上所述,用戶的評(píng)分模式或?qū)W習(xí)資源的被評(píng)分模式可以通過用戶的評(píng)分頻率和學(xué)習(xí)資源的被評(píng)分頻率加以表示。因此,首先基于碼本聚類思想計(jì)算用戶∕學(xué)習(xí)資源的評(píng)分∕被評(píng)分頻率,將其表示為用戶的評(píng)分模式或?qū)W習(xí)資源的被評(píng)分模式,然后使用K-means 聚類算法將相似用戶或相似學(xué)習(xí)資源集聚到同一簇內(nèi)。
具體地,用戶u
的評(píng)分模式可以表示成:i
的被評(píng)分模式可以表示為:使用用戶的評(píng)分頻率和學(xué)習(xí)資源的被評(píng)分頻率表示用戶評(píng)分模式和學(xué)習(xí)資源被評(píng)分模式,使得沒有共同評(píng)分但有相同或相似評(píng)分頻率的用戶或被評(píng)分頻率的學(xué)習(xí)資源之間也有可能進(jìn)行相似度計(jì)算,從而可以在一定程度上緩解數(shù)據(jù)稀疏問題。
假設(shè)有兩個(gè)不同的領(lǐng)域{D1,D2},D1 表示視頻領(lǐng)域,D2表示圖書領(lǐng)域,其中視頻的評(píng)分?jǐn)?shù)據(jù)比較稀疏,而圖書的評(píng)分?jǐn)?shù)據(jù)比較充足,則可以將用戶對(duì)圖書的評(píng)分模式和圖書的被評(píng)分模式遷移到視頻領(lǐng)域,以實(shí)現(xiàn)圖書的精準(zhǔn)推薦。
u
和項(xiàng)目i
。該特征向量也可以簡(jiǎn)化地表示為x
(u
,i
)={(u
,1),(i
,1) }。因子分解機(jī)FMs 的最大優(yōu)點(diǎn)是能夠通過構(gòu)建真值特征向量集成各種附加信息,因此可以基于式(5)將用戶和學(xué)習(xí)資源的評(píng)分信息、基于碼本聚類的用戶評(píng)分模式和學(xué)習(xí)資源的被評(píng)分模式集成到FMs 中。
遷移評(píng)分模式的因子分解機(jī)跨域推薦的目標(biāo)函數(shù)可以表示為:
I
是學(xué)習(xí)資源i
的評(píng)分空間,Um
為用戶在輔助域上的評(píng)分模式信息,In
為項(xiàng)目n
在輔助域的被評(píng)分模式信息,R 為評(píng)分空間。相應(yīng)地,該效用函數(shù)的輸入特征向量構(gòu)造如下:
u
是用戶m
的評(píng)分值為r
的學(xué)習(xí)資源數(shù)目,i
為學(xué)習(xí)資源n
的被評(píng)分值為r
的數(shù)目。根據(jù)式(7)集成評(píng)分模式信息的輸入特征向量的構(gòu)造方法,本文給出輸入特征向量的一個(gè)實(shí)例,該實(shí)例將用戶、資源、用戶評(píng)分模式和資源被評(píng)分模式作為輸入特征向量,將用戶的評(píng)分值作為特征向量的輸出,如圖2 所示。
Fig.2 Construction of input elgenvector based on transfer scoring mode of FM圖2 基于因子分解機(jī)遷移評(píng)分模式的輸入特征向量構(gòu)建
Amazon product co-purchasing network metadata 包含亞馬遜網(wǎng)站中的圖書、音樂CD、DVD 和視頻4 類資源的用戶評(píng)分,分值從1(最不喜歡)到5(最喜歡)。本研究選取圖書和視頻資源分別作為輔助域和目標(biāo)域。其中,圖書域包含4 591 303 條評(píng)分記錄,有278 269個(gè)用戶和393 561 本圖書;視頻域包含450 131條評(píng)分記錄,有63 369個(gè)用戶和26 132個(gè)視頻。為了驗(yàn)證所提出算法在數(shù)據(jù)稀疏情況下的有效性,過濾掉這兩個(gè)領(lǐng)域中無評(píng)分的資源后得到圖書域中有278 269 本圖書,評(píng)分記錄和用戶數(shù)不變;視頻域中有22 359個(gè)視頻,評(píng)分記錄和用戶數(shù)不變。實(shí)驗(yàn)選擇目標(biāo)域80%的評(píng)分?jǐn)?shù)據(jù)作為訓(xùn)練集,20%作為測(cè)試集。
實(shí)驗(yàn)結(jié)果使用均方根誤差(RMSE)作為評(píng)價(jià)指標(biāo),計(jì)算公式如下:
為了評(píng)估本文提出的遷移評(píng)分模式的跨域?qū)W習(xí)資源推薦算法(MUIRP)的有效性,選取Amazon product co-purchasing network metadata 作為實(shí)驗(yàn)數(shù)據(jù),并與基線方法1-3和基于領(lǐng)域相關(guān)度或共享評(píng)級(jí)遷移效果最好的4~6 種模型進(jìn)行比較。①SDR:基于FM 的單領(lǐng)域資源推薦算法(Single Domain Recommendation,SDR);②MURP:僅遷移用戶評(píng)分模式的跨域資源推薦算法(Migrating User Rating Patterns,MURP);③MIRP:僅遷移資源被評(píng)分模式的跨域資源推薦算法(Migrating Item Rating Patterns,MIRP);④FMMCMC:基于因子分解機(jī)的協(xié)同過濾跨域推薦算法(Factorization Machines-Markov Chain Monte Carlo,F(xiàn)M-MCMC),該算法將用戶在輔助域?qū)ι唐吩u(píng)分的貢獻(xiàn)度遷移到目標(biāo)域進(jìn)行推薦;⑤CDFM:基于領(lǐng)域相關(guān)度的跨域推薦算法(Correlation Domain Factorization Machines,CDFM),該算法計(jì)算用戶在輔助域與目標(biāo)域的評(píng)分向量相關(guān)度,并基于FM將其遷移到目標(biāo)域進(jìn)行推薦;⑥SRTCD:基于共享評(píng)級(jí)遷移的跨域推薦算法(Shared Ratings Transfer Cross-Domain Recommendation,SRTCD),該算法通過概率矩陣分解提取用戶和項(xiàng)目的潛在特征,對(duì)用戶類別和項(xiàng)目類別分別進(jìn)行聚類,并將其內(nèi)積作為共享評(píng)級(jí)遷移到目標(biāo)域進(jìn)行推薦。
3.2.1 與SDR、MURP 和MIRP 推薦算法比較
實(shí)驗(yàn)結(jié)果如圖3 所示??梢钥闯?,與SDR 相比,在各種K 值情況下,MURP、MIRP、MUIRP 方法均顯著優(yōu)于SDR,而MUIRP 方法準(zhǔn)確度略高于MURP、MIRP。這說明遷移評(píng)分模式或被評(píng)分模式確實(shí)能解決目標(biāo)數(shù)據(jù)的稀疏問題,極大提高推薦準(zhǔn)確度;且同時(shí)遷移跨域評(píng)分模式和被評(píng)分模式能夠更好地提高推薦準(zhǔn)確度。同時(shí),從圖3 中還可以看出,MUIRP 方法的性能隨K 值變化而變化,當(dāng)K=20、K=6 或K=18 時(shí),MURP、MIRP、MUIRP 方法的性能分別達(dá)到最優(yōu)。
Fig.3 RMSE comparison of MUIRP,SDR,MURP and MIRP under different cluster number K圖3 MUIRP 與SDR、MURP、MIRP 在不同聚類數(shù)K 下的RMSE 比較
3.2.2 與FM-MCMC、CDFM 和SRTCD 推薦算法比較
實(shí)驗(yàn)結(jié)果如圖4 所示??梢钥闯觯琈UIRP 預(yù)測(cè)評(píng)分的最優(yōu)和最差RMSE 值均優(yōu)于FM-MCMC、CDFM 和SRTCD,特別是在MUIRP 的最優(yōu)RMSE 值上,分別降低38%、36%和54%。這說明用戶評(píng)分模式信息和資源被評(píng)分模式信息對(duì)提高推薦準(zhǔn)確度均起到較大作用。
Fig.4 RMSE comparison of MUIRP,F(xiàn)M-MCMC,CDFM and SRTCD on the best and worst index圖4 MUIRP 和FM-MCMC、ATCF、CDFM 在最優(yōu)與最差指標(biāo)上的RMSE 比較
隨著網(wǎng)絡(luò)學(xué)習(xí)資源形式趨于多樣化和海量學(xué)習(xí)資源不斷增加,用戶在學(xué)習(xí)過程中面臨著信息過載與信息迷失等問題。本文針對(duì)學(xué)習(xí)者在單一學(xué)習(xí)資源領(lǐng)域存在評(píng)分?jǐn)?shù)據(jù)稀疏的問題,提出了遷移評(píng)分模式的跨域?qū)W習(xí)資源推薦算法,并在真實(shí)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,所提出的遷移評(píng)分模式的跨域?qū)W習(xí)資源算法在不同聚類下的準(zhǔn)確度均優(yōu)于單領(lǐng)域推薦算法、僅遷移用戶評(píng)分模式的算法和僅遷移資源被評(píng)分模式的推薦算法,同時(shí)也優(yōu)于當(dāng)前基于領(lǐng)域相關(guān)度或共享評(píng)級(jí)遷移最好的3 種跨域推薦算法。但本文提出的方法在遷移評(píng)分模式時(shí)沒有考慮輔助域評(píng)分時(shí)間對(duì)目標(biāo)域的影響,下一步將對(duì)該問題進(jìn)行深入研究,以進(jìn)一步提高推薦準(zhǔn)確度。