文 謐,朱木清
(1 廣州應(yīng)用科技學(xué)院 廣州,511370;2 廣東工業(yè)大學(xué)華立學(xué)院,廣州 511325)
在線學(xué)習(xí)為人們提供了一個(gè)靈活、便捷的學(xué)習(xí)方式,是傳統(tǒng)課堂學(xué)習(xí)之外獲取知識的最重要途徑。在線學(xué)習(xí)平臺可以給用戶提供優(yōu)質(zhì)的教育資源,滿足用戶個(gè)性化學(xué)習(xí)的需求,深受廣大學(xué)習(xí)者歡迎。然而,隨著在線學(xué)習(xí)課程資源的不斷豐富,互聯(lián)網(wǎng)學(xué)習(xí)資源信息過載問題,導(dǎo)致用戶從在線學(xué)習(xí)平臺的大量資源中找到需要的、滿意的學(xué)習(xí)資源非常困難。
目前,使用搜索引擎可以解決部分信息過載需求,但搜索結(jié)果較局限、無區(qū)別化。推薦系統(tǒng)通過分析和計(jì)算用戶的興趣模型,發(fā)現(xiàn)用戶難以表達(dá)的需求,更好滿足用戶全面的需求。可較好地解決如何準(zhǔn)確提供在線學(xué)習(xí)資源的問題。
用戶可以用標(biāo)簽標(biāo)注自己感興趣、關(guān)注或需求的學(xué)習(xí)資源[1]。這些標(biāo)簽作為用戶的元數(shù)據(jù),為個(gè)性化推薦系統(tǒng)提供了十分重要的數(shù)據(jù)基礎(chǔ)。
用戶與學(xué)習(xí)資源通過標(biāo)簽建立強(qiáng)聯(lián)系,基于標(biāo)簽的推薦可以更加個(gè)性化[2]。同時(shí),針對推薦結(jié)果僅考慮相似性問題,提供結(jié)合知識圖譜技術(shù)進(jìn)一步拓展推薦結(jié)果,以滿足進(jìn)階等學(xué)習(xí)特點(diǎn)。
基于標(biāo)簽的學(xué)習(xí)資源推薦算法分為5 個(gè)環(huán)節(jié):
(1)根據(jù)用戶標(biāo)簽建立用戶模型,計(jì)算用戶間學(xué)習(xí)偏好相似性并修正,找到最近的用戶鄰居。
(2)將最近鄰居的標(biāo)簽和用戶的標(biāo)簽對比,通過計(jì)算獲得與最近鄰居相關(guān)度大并且與用戶相關(guān)度小的價(jià)值標(biāo)簽。
(3)計(jì)算被價(jià)值標(biāo)簽標(biāo)注的權(quán)重高且與用戶暫無相關(guān)的資源,得到第一階段推薦結(jié)果。
(4)采用基于內(nèi)容的過濾方法,根據(jù)用戶學(xué)習(xí)偏好標(biāo)簽,對第一階段推薦結(jié)果進(jìn)行再次過濾,過濾掉無價(jià)值的學(xué)習(xí)資源,得到第二階段推薦結(jié)果。
(5)根據(jù)知識圖譜的關(guān)系,計(jì)算與第二階段推薦結(jié)果最相關(guān)的知識資源,兩者混合作為最終推薦結(jié)果。
推薦模型如圖1 所示。
圖1 基于標(biāo)簽的推薦系統(tǒng)模型Fig.1 Recommendation system model based on tags
在線學(xué)習(xí)資源推薦系統(tǒng),要能夠向用戶提供個(gè)性化、準(zhǔn)確和高效的推薦結(jié)果,首先要獲取用戶全面的資源標(biāo)注信息,建立一個(gè)準(zhǔn)確的用戶模型。用戶模型的準(zhǔn)確性主要包括兩方面:準(zhǔn)確描述用戶需求偏好和區(qū)分用戶[3]。推薦系統(tǒng)將根據(jù)用戶模型,更好地完成推薦任務(wù)。
標(biāo)簽是用戶附加在資源上的關(guān)鍵詞,利用TFIDF 度量每個(gè)標(biāo)簽,再進(jìn)行用戶相似性計(jì)算,可以平衡熱門標(biāo)簽的權(quán)重,提高推薦結(jié)果的新穎性。
標(biāo)簽T對用戶U的權(quán)重用W(T,U)表示,采用TF-IDF 平衡熱門標(biāo)簽的權(quán)重。
其中,ni,j是標(biāo)簽Ti在用戶Uj中的使用次數(shù),分母則是在用戶Uj中所有標(biāo)簽的使用次數(shù)和。計(jì)算每個(gè)標(biāo)簽對用戶的權(quán)重可以得到用戶與標(biāo)簽的權(quán)重?cái)?shù)據(jù)。
標(biāo)簽是用來描述信息的關(guān)鍵詞,其特點(diǎn)為無層次結(jié)構(gòu)。學(xué)習(xí)資源等對象模型和用戶的需求偏好模型都可以采用標(biāo)簽的向量空間表示進(jìn)行描述。標(biāo)簽對學(xué)習(xí)資源的重要性也采用TF-IDF 表示,相應(yīng)模型如下所示。
1.4.1 協(xié)同過濾推薦
完成用戶建模和推薦資源建模后,就可以對用戶間的相似程度,以及學(xué)習(xí)資源間的相似程度進(jìn)行計(jì)算。采取與用戶對推薦對象的標(biāo)簽平均權(quán)重差值方法,可以在一定程度上解決原方法中不同用戶可能有不同的標(biāo)簽權(quán)重問題。用Ii,j表示用戶i和用戶j共同使用的標(biāo)簽集合。Ii表示用戶i使用的標(biāo)簽集合,Ij表示用戶j使用的標(biāo)簽集合,則用戶i和用戶j之間的相似程度sim(i,j) 如式(6)所示:
其中,Wt,i表示用戶i使用的標(biāo)簽權(quán)重,分別表表示用戶i與用戶j使用的標(biāo)簽平均權(quán)重。
通過相似度度量方法計(jì)算出用戶之間的相似性后,可從用戶的鄰居中選擇與用戶相似性最高的那些鄰居。設(shè)用戶u的最近鄰居集合U?,記為:
1.4.2 基于內(nèi)容的推薦
根據(jù)用戶學(xué)習(xí)偏好標(biāo)簽,采用基于內(nèi)容的推薦方法,對第一階段推薦結(jié)果進(jìn)行過濾,過濾掉用戶不感興趣的學(xué)習(xí)資源,得到中間推薦結(jié)果。
過濾用戶不需要的學(xué)習(xí)資源方法,是在建模基礎(chǔ)上,計(jì)算中間推薦資源與用戶學(xué)習(xí)標(biāo)簽向量的相似性,得到第二階段推薦結(jié)果。計(jì)算公式如下:
其中,sim(i,j)是計(jì)算中間推薦結(jié)果的標(biāo)簽向量與用戶的興趣資源標(biāo)簽向量相似性的函數(shù),而R?則是基于相似性的推薦結(jié)果。
1.4.3 混合推薦策略
在相似性推薦結(jié)果的基礎(chǔ)上,根據(jù)學(xué)科領(lǐng)域知識圖譜的邊權(quán)重大小,計(jì)算與相似性推薦結(jié)果資源最相關(guān)的知識資源,混合兩者作為最終推薦結(jié)果。例如:計(jì)算機(jī)學(xué)科課程知識圖譜的示意如圖2所示[4]。
圖2 計(jì)算機(jī)領(lǐng)域知識圖譜實(shí)例Fig.2 Examples of knowledge graphs in the computer domain
在圖2 中,“數(shù)據(jù)結(jié)構(gòu)”與“算法基礎(chǔ)”的邊權(quán)重相比“軟件工程”與“數(shù)據(jù)結(jié)構(gòu)”的邊權(quán)重大,說明“數(shù)據(jù)結(jié)構(gòu)”與“算法基礎(chǔ)”的相關(guān)度更高。對“數(shù)據(jù)結(jié)構(gòu)”學(xué)習(xí)資源感興趣的用戶,很可能也需要最相關(guān)的“算法基礎(chǔ)”學(xué)習(xí)資源。因此,將最相關(guān)的資源和R?混合推薦給用戶,使得推薦結(jié)果既有相似性又有擴(kuò)展性,更好滿足用戶需求。
本文實(shí)驗(yàn)采用的數(shù)據(jù)集為Goodbooks-10k 和Delicious。首先,對于數(shù)據(jù)集的噪聲數(shù)據(jù)進(jìn)行預(yù)處理,刪除數(shù)據(jù)不完全的記錄和標(biāo)簽數(shù)較少的用戶數(shù)據(jù),保證實(shí)驗(yàn)數(shù)據(jù)的合理性。
基于以上實(shí)驗(yàn)數(shù)據(jù),驗(yàn)證本文提出的基于標(biāo)簽的混合推薦算法是否更有效,結(jié)果對比協(xié)同過濾推薦算法。通過平均絕對誤差、平均平方誤差和標(biāo)準(zhǔn)平均誤差等典型指標(biāo)對準(zhǔn)確度進(jìn)行衡量[5]。
推薦資源對象列表中,用戶需要的標(biāo)簽與系統(tǒng)中用戶標(biāo)注的所有標(biāo)簽的比例,計(jì)算方法如式(10)所示。
推薦資源對象列表中,用戶需要的標(biāo)簽和所有被推薦標(biāo)簽的比例,計(jì)算方法如式(11)所示。
基于上述兩項(xiàng)計(jì)算,進(jìn)而計(jì)算推薦效率.計(jì)算方法如式(12)所示。
其中,Nrs為推薦列表中用戶需要的標(biāo)簽個(gè)數(shù);Nr為用戶標(biāo)注的所有標(biāo)簽的個(gè)數(shù);Ns為所有被推薦標(biāo)簽的個(gè)數(shù)。
對兩個(gè)推薦算法進(jìn)行了運(yùn)算,并計(jì)算其準(zhǔn)確率以及推薦效率。采用本文提出的方法,基于標(biāo)簽進(jìn)行系列計(jì)算后,再根據(jù)知識圖譜的關(guān)系計(jì)算與相似性推薦結(jié)果最相關(guān)的知識資源,混合兩者作為最終推薦結(jié)果。兩個(gè)推薦算法的準(zhǔn)確率和推薦效率見表1,數(shù)據(jù)對應(yīng)曲線分別如圖3、圖4 所示。
圖4 推薦算法recall 比較Fig.4 Comparison of recommended algorithms recall
表1 不同推薦列表長度的數(shù)據(jù)參數(shù)Tab.1 Data parameters of different recommended list lengths
圖3 推薦算法的precision 比較Fig.3 Comparison of precision of recommended algorithms
由實(shí)驗(yàn)結(jié)果可以看出,基于標(biāo)簽的混合推薦算法具有較高的準(zhǔn)確率和召回率。由于進(jìn)行了平衡權(quán)重并修正,且結(jié)合知識圖譜完善推薦資源,使得計(jì)算結(jié)果更加準(zhǔn)確和全面。
推薦系統(tǒng)已經(jīng)成為有效解決信息嚴(yán)重過載問題的工具,而每種推薦方法各有優(yōu)缺點(diǎn),將多種方法綜合起來使用,是推薦在線學(xué)習(xí)資源的一條有效的途徑。本文提出了一種基于標(biāo)簽內(nèi)容的推薦算法,采用TF-IDF 平衡熱門標(biāo)簽的權(quán)重,采用修正的余弦函數(shù)的弦相似性計(jì)算用戶與用戶之間的相似性、資源與資源之間的相似性,結(jié)合知識圖譜技術(shù)讓推薦結(jié)果在相似的基礎(chǔ)上增加擴(kuò)展性,滿足進(jìn)階學(xué)習(xí)特點(diǎn),使其在準(zhǔn)確率和推薦效率上優(yōu)于傳統(tǒng)的協(xié)同過濾推薦算法,為解決同類問題提供了較強(qiáng)的參考意義。復(fù)雜網(wǎng)絡(luò)理論同協(xié)同推薦存在契合點(diǎn),利用復(fù)雜網(wǎng)絡(luò)理論進(jìn)行推薦也是進(jìn)一步研究的方向。