雷曼 龔琴 王紀(jì)超 王保群
摘 要:針對(duì)傳統(tǒng)協(xié)同過(guò)濾推薦算法中由于相似度計(jì)算導(dǎo)致推薦精度不足的問(wèn)題,提出一種基于標(biāo)簽權(quán)重相似度量方法的協(xié)同過(guò)濾推薦算法。該方法首先,通過(guò)改進(jìn)當(dāng)前算法中標(biāo)簽權(quán)重的計(jì)算,并構(gòu)成用戶標(biāo)簽權(quán)重矩陣和物品標(biāo)簽權(quán)重矩陣;其次,考慮到推薦系統(tǒng)是以用戶為中心進(jìn)行推薦,繼而通過(guò)構(gòu)建用戶物品關(guān)聯(lián)矩陣來(lái)獲取用戶對(duì)物品最準(zhǔn)確的評(píng)價(jià)和需求;最后,根據(jù)用戶物品的二部圖,利用物質(zhì)擴(kuò)散算法計(jì)算基于標(biāo)簽權(quán)重的用戶間相似度,并為目標(biāo)用戶生成推薦列表。實(shí)驗(yàn)結(jié)果表明,與一種基于“用戶項(xiàng)目用戶興趣標(biāo)簽圖” 的協(xié)同好友推薦算法(UITGCF)相比,在稀疏度環(huán)境為0.1時(shí)該算法的召回率、準(zhǔn)確率和F1值分別提高了14.69%、9.44%、17.23%。當(dāng)推薦項(xiàng)目數(shù)量為10時(shí),三個(gè)指標(biāo)分別提高了17.99%、8.98%、16.27%。結(jié)果表明基于標(biāo)簽權(quán)重的協(xié)同過(guò)濾推薦算法可有效提高推薦結(jié)果。
關(guān)鍵詞:用戶標(biāo)簽權(quán)重;物品標(biāo)簽權(quán)重;推薦系統(tǒng);協(xié)同過(guò)濾;物質(zhì)擴(kuò)散
中圖分類號(hào): TP183
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-9081(2019)03-0634-05
Abstract: Aiming at the problem that the recommendation accuracy is not good enough due to the similarity calculation in traditional collaborative filtering recommendation algorithm, a collaborative filtering recommendation algorithm based on the similarity measurement method of tag weight was proposed. Firstly, the calculation of tag weights in existing algorithm was improved to construct a user-tag weight matrix and an item-tag weight matrix. Secondly, as the recommendation system is based on the user-centered recommendation, the most accurate evaluation and demand of the users were obtained by constructing a user-item association matrix. Finally, according to the user-item bipartite graph, the similarity between users based on the label weight was calculated by the material diffusion algorithm, and the recommendation lists were generated for the target users. The experimental results show that compared with UITGCF (a hybrid Collaborative Filtering recommendation algorithm by combining the diffusion on User-Item-Tag Graph and users personal interest model), when the sparsity environment is 0.1, the recall, accuracy, F1 score of the proposed algorithm were respectively increased by 14.69%, 9.44% and 17.23%. When the recommendation item number is 10, the three indicators respectively were increased by 17.99%, 8.98%, and 16.27%. The results show that the collaborative filtering recommendation algorithm based on tag weight effectively improves the recommendation results.
Key words: user-tag weight; item-tag weight; recommendation system; collaborative filtering; material diffusion
0 引言
近年來(lái),隨著物聯(lián)網(wǎng)、云計(jì)算和社會(huì)網(wǎng)絡(luò)等技術(shù)的迅猛發(fā)展,網(wǎng)絡(luò)空間中所蘊(yùn)含的信息量呈指數(shù)級(jí)增長(zhǎng)[1]。在大數(shù)據(jù)時(shí)代,信息消費(fèi)者難以在海量數(shù)據(jù)中有效挖掘信息,推薦系統(tǒng)應(yīng)運(yùn)而生。推薦系統(tǒng)的主要作用是通過(guò)從大量數(shù)據(jù)中檢索最相關(guān)的信息和服務(wù)來(lái)減少信息過(guò)載,從而提供個(gè)性化的服務(wù)。其在學(xué)術(shù)界和工業(yè)界取得了大量相關(guān)研究成果。推薦系統(tǒng)主要應(yīng)用于在線電子商務(wù)網(wǎng)站[2](如eBay、Amazon、阿里巴巴、亞馬遜、豆瓣等),社交網(wǎng)絡(luò)[3](如Twitter、Facebook、新浪微博等),信息檢索[4](如Google、GroupLens、百度等),以及移動(dòng)應(yīng)用,個(gè)性化郵件,基于位置的服務(wù)等各個(gè)領(lǐng)域。
推薦系統(tǒng)的核心是推薦算法,目前推薦算法主要分為:基于內(nèi)容的推薦算法、基于用戶的協(xié)同過(guò)濾推薦(User-Based Collaborative Filtering, UBCF)算法[5]以及基于項(xiàng)目的協(xié)同過(guò)濾推薦(Item-Based Collaborative Filtering, IBCF)算法[6]。其中,協(xié)同過(guò)濾(Collaborative Filtering, CF)推薦算法是目前最廣泛應(yīng)用和研究的推薦技術(shù)[7]。相似度計(jì)算是協(xié)同過(guò)濾算法的重要環(huán)節(jié)[8-11]。相似度的計(jì)算方法有許多種,目前應(yīng)用最多的皮爾森相關(guān)系數(shù)或者余弦相似度[12],然而根據(jù)具體問(wèn)題的不同,各種相似度的適應(yīng)程度也不一樣。傳統(tǒng)的推薦算法太過(guò)依賴用戶評(píng)分信息,忽略標(biāo)簽信息,為解決此問(wèn)題文獻(xiàn)[13]考慮了項(xiàng)目之間的標(biāo)簽信息,結(jié)合KNN(K-Nearest Neighbors classification)算法和Slope One提出的融合項(xiàng)目標(biāo)簽相似性的協(xié)同過(guò)濾(M2_KSP)推薦算法。并計(jì)算項(xiàng)目中最重要的標(biāo)簽之間相似性來(lái)構(gòu)成項(xiàng)目最近鄰的項(xiàng)目集。文獻(xiàn)[14]提出了一種新穎的用戶推薦框架User Rec(User Recommendation),對(duì)用戶標(biāo)簽圖進(jìn)行社區(qū)發(fā)現(xiàn)來(lái)構(gòu)建用戶興趣模型,利用KL(Kullback-Leibler)距離來(lái)計(jì)算用戶之間的相似度。文獻(xiàn)[15]提出一種基于“用戶項(xiàng)目用戶興趣標(biāo)簽圖” 的協(xié)同好友推薦算法——UITGCF(a hybrid Collaborative Filtering recommendation algorithm by combining the diffusion on User-Item-Tag Graph and users personal interest model)。通過(guò)構(gòu)建“用戶項(xiàng)目標(biāo)簽”三部圖物質(zhì)擴(kuò)散算法計(jì)算用戶相似度,以及用戶和標(biāo)簽之間的聯(lián)系用KL距離計(jì)算用戶相似度。最后結(jié)合兩者相似度結(jié)果綜合得到用戶間相似度。但上述文獻(xiàn)中僅僅只是利用了用戶的評(píng)價(jià)行為以及用戶標(biāo)簽標(biāo)注行為計(jì)算用戶間相似度,并沒(méi)有深入挖掘用戶、物品與標(biāo)簽之間的權(quán)重關(guān)系,以及標(biāo)簽之間的關(guān)聯(lián)關(guān)系對(duì)用戶和物品的影響。
在傳統(tǒng)的推薦算法基礎(chǔ)上,研究者提出大量改進(jìn)方法,雖然一定程度上解決了相關(guān)問(wèn)題并改善推薦系統(tǒng)性能,但仍存在不足之處。用戶的標(biāo)簽信息沒(méi)有合理地體現(xiàn)出用戶興趣偏好,應(yīng)通過(guò)為每個(gè)標(biāo)簽賦予相應(yīng)的權(quán)值,來(lái)描述用戶對(duì)標(biāo)簽的偏好程度。在現(xiàn)實(shí)推薦中,大多的推薦平臺(tái)都是為物品匹配了相應(yīng)的標(biāo)簽,而用戶主動(dòng)為物品打的標(biāo)簽信息越少。在此基礎(chǔ)上,也應(yīng)根據(jù)標(biāo)簽特征屬性,來(lái)為用戶標(biāo)簽和物品標(biāo)簽匹配相應(yīng)的權(quán)重。該方法比傳統(tǒng)的方法能降低用戶客觀因素帶來(lái)的評(píng)分影響。
本文圍繞協(xié)同過(guò)濾推薦算法相似度的分析與改進(jìn),提出一種基于標(biāo)簽權(quán)重(Tag weight)的協(xié)同過(guò)濾(CF)推薦算法TagW_CF(Tag Weight_Collaborative Filtering)。該方法首先通過(guò)社交平臺(tái)上獲取到的用戶標(biāo)簽信息和物品標(biāo)簽信息,根據(jù)一定的規(guī)則計(jì)算用戶標(biāo)簽的權(quán)重和物品標(biāo)簽的權(quán)重,得到用戶標(biāo)簽權(quán)重矩陣和物品標(biāo)簽權(quán)重矩陣。在推薦系統(tǒng)中,最終目標(biāo)是為用戶推薦物品,繼而得到用戶物品的標(biāo)簽權(quán)重矩陣。最后利用物質(zhì)擴(kuò)散算法計(jì)算用戶間相似度,為目標(biāo)用戶生成推薦列表,提高推薦性能。為驗(yàn)證本文算法的有效性,在豆瓣網(wǎng)上抓取的數(shù)據(jù)集進(jìn)行測(cè)試,該算法在召回率、準(zhǔn)確率和F1值3個(gè)指標(biāo)上均表現(xiàn)出較好的推薦效果。
1 標(biāo)簽權(quán)重
針對(duì)現(xiàn)有研究考慮標(biāo)簽因素不周全,在數(shù)據(jù)信息中有大部分的用戶不愿意花時(shí)間給物品打上標(biāo)簽。即使有的用戶給物品打上標(biāo)簽,由于標(biāo)簽是用戶自主用來(lái)標(biāo)注物品和個(gè)性化分類的,在語(yǔ)義上可能存在同義性、歧義性和不確定性[16]。所以很多的網(wǎng)站自動(dòng)給物品匹配標(biāo)簽,以節(jié)約用戶打標(biāo)簽的時(shí)間開(kāi)銷。在已有的標(biāo)簽集合中每個(gè)物品都有對(duì)應(yīng)的標(biāo)簽屬性,通過(guò)加上標(biāo)簽權(quán)重用來(lái)描述用戶的標(biāo)簽偏好、物品的標(biāo)簽特征。同時(shí),該方法還能最大化降低客觀因素對(duì)用戶打分的影響,提高用戶評(píng)分的準(zhǔn)確性。
1.1 用戶標(biāo)簽權(quán)重矩陣
在電子商務(wù)網(wǎng)站上,一般通過(guò)用戶對(duì)物品的評(píng)分獲取用戶滿意程度,評(píng)分范圍為1~5分,用戶評(píng)分越高代表用戶滿意度越高?;谟脩魳?biāo)簽權(quán)重是指用戶對(duì)物品的評(píng)分偏高,則認(rèn)為該用戶對(duì)其物品具有較高評(píng)分的標(biāo)簽特征更為偏重,然后按照一定的規(guī)則提高評(píng)分。經(jīng)過(guò)多次的迭代后,得到用戶對(duì)物品的綜合評(píng)分,又結(jié)合用戶使用標(biāo)簽的頻率,得到最后的用戶標(biāo)簽權(quán)重矩陣。具體方法步驟如下。
1.2 物品標(biāo)簽權(quán)重矩陣
基于物品標(biāo)簽權(quán)重是把物品標(biāo)簽特征的評(píng)分作為標(biāo)簽權(quán)重,再結(jié)合標(biāo)簽特征的關(guān)聯(lián)關(guān)系得到物品標(biāo)簽權(quán)重矩陣。具體步驟如下。
步驟1 計(jì)算標(biāo)簽關(guān)聯(lián)關(guān)系。一個(gè)物品可能會(huì)有多個(gè)標(biāo)簽共同標(biāo)注,考慮描述該物品的標(biāo)簽與標(biāo)簽間的關(guān)聯(lián)關(guān)系,本文通過(guò)多標(biāo)簽共同標(biāo)注物品的次數(shù)和多標(biāo)簽共同標(biāo)注的總數(shù)之比表示共現(xiàn)關(guān)系,以及標(biāo)簽之間的密切度,得到最后多標(biāo)簽關(guān)聯(lián)關(guān)系。所對(duì)應(yīng)的標(biāo)簽共現(xiàn)關(guān)系計(jì)算如式(4):
步驟2 計(jì)算物品標(biāo)簽權(quán)重。物品被描述的次數(shù)較多的標(biāo)簽應(yīng)被賦予更高的權(quán)重。在這里簡(jiǎn)單地把標(biāo)簽特征下的評(píng)分作為特征權(quán)重,并將物品所有評(píng)分累加到該物品的標(biāo)簽評(píng)分下作為標(biāo)簽權(quán)重。然后同樣歸一化處理評(píng)分,最后再加上標(biāo)簽關(guān)聯(lián)關(guān)系得到最后物品具有標(biāo)簽特征下的標(biāo)簽權(quán)重。計(jì)算公式如下:
2 基于標(biāo)簽權(quán)重的二部圖物質(zhì)擴(kuò)散算法
基于標(biāo)簽權(quán)重的二部圖物質(zhì)擴(kuò)散算法是利用物質(zhì)能量擴(kuò)散的過(guò)程來(lái)獲取用戶間相似度,本文主要是利用基于標(biāo)簽權(quán)重的“用戶物品”二部圖來(lái)計(jì)算用戶間相似度。在推薦系統(tǒng)中,為用戶提供滿意的和感興趣的物品才是推薦系統(tǒng)的目標(biāo)。因此,首先根據(jù)“用戶標(biāo)簽”權(quán)重矩陣和“物品標(biāo)簽”權(quán)重矩陣相乘,得到基于標(biāo)簽權(quán)重的“用戶物品”矩陣。當(dāng)兩者相乘激勵(lì)用戶對(duì)于該物品下標(biāo)簽權(quán)重偏高的感興趣的物品,減弱用戶對(duì)該物品下標(biāo)簽權(quán)重偏低的不感興趣的物品,其次構(gòu)建一個(gè)“用戶物品”的二部圖?;谠摼仃嚨幕A(chǔ)下,提出優(yōu)化的二部圖物質(zhì)擴(kuò)散算法計(jì)算用戶間相似度,提高相似度的計(jì)算方法,進(jìn)一步提高預(yù)測(cè)結(jié)果的準(zhǔn)確性。
2.1 基于標(biāo)簽權(quán)重的用戶物品矩陣
由上述方法得到的用戶標(biāo)簽權(quán)重矩陣可以很好地解釋用戶更偏好某些特征標(biāo)簽的物品,而物品標(biāo)簽權(quán)重矩陣準(zhǔn)確地描述了物品更屬于哪些標(biāo)簽屬性,因此,結(jié)合Wu,t和Wi,t可以更細(xì)分地描述用戶更喜歡某些標(biāo)簽特征下的某些物品,使得為用戶推薦更為準(zhǔn)確的物品。例如,假設(shè)電影的標(biāo)簽特征有“科幻,奇幻,劇情,喜劇,懸疑,愛(ài)情,動(dòng)作,冒險(xiǎn)”,某用戶對(duì)這些標(biāo)簽下的權(quán)重為{0.35,0,0.25,0,0.1,0.1,0.2,0}??梢岳斫鉃橛脩舾矚g標(biāo)簽為“科幻,劇情,動(dòng)作”的電影。如電影《復(fù)仇者聯(lián)盟3》的標(biāo)簽特征為“科幻,動(dòng)作,奇幻,冒險(xiǎn)”,計(jì)算出電影標(biāo)簽權(quán)重為{0.3,0.4,0.2,0.1},由此可以看出該電影更偏向“科幻、動(dòng)作”的標(biāo)簽特征。電影《盜夢(mèng)空間》的標(biāo)簽特征為“科幻,懸疑,劇情,冒險(xiǎn)”,對(duì)應(yīng)的標(biāo)簽權(quán)重為{0.3,0.2,0.4,0.1},更偏向“科幻、劇情”的標(biāo)簽特征。可以看出《盜夢(mèng)空間》這部電影更適合被先推薦給該用戶,因?yàn)閯∏樗嫉臋?quán)重大于動(dòng)作的權(quán)重。因此相比之下,為該用戶推薦列表上《盜夢(mèng)空間》先于《復(fù)仇者聯(lián)盟3》。
2.2 二部圖物質(zhì)擴(kuò)散算法
物質(zhì)擴(kuò)散算法又稱資源分配算法,主要是模擬了物理學(xué)中的物質(zhì)擴(kuò)散過(guò)程。當(dāng)物質(zhì)濃度有一定的差異時(shí),高濃度的區(qū)域分子向低濃度的區(qū)域進(jìn)行擴(kuò)散,直到區(qū)域濃度達(dá)到平衡狀態(tài)結(jié)束。在推薦系統(tǒng)中把目標(biāo)用戶產(chǎn)生過(guò)購(gòu)買行為的物品看成低濃度區(qū)域,目標(biāo)用戶為高濃度區(qū)域的分子。若目標(biāo)用戶的資源為1個(gè)單位,每個(gè)被該用戶購(gòu)買過(guò)的物品將平均分配1個(gè)單位的資源。該算法能夠解決個(gè)性化推薦系統(tǒng)中的用戶相似性問(wèn)題,提高用戶相似度的準(zhǔn)確性。由上述矩陣Wu,i可以構(gòu)建一個(gè)基于標(biāo)簽權(quán)重的二部圖,圖中節(jié)點(diǎn)是用戶和物品。具體物質(zhì)能量擴(kuò)散的過(guò)程為目標(biāo)用戶u將其自身的能量資源值平均分配到用戶所感興趣的物品,同時(shí)物品將獲取到的能量平均分配到對(duì)其感興趣的用戶上。首先初始化資源分配,目標(biāo)用戶為1,其余為0。物品i從用戶u分配到的能量資源為eiu:
其中:wu,i為“用戶物品”矩陣中的標(biāo)簽權(quán)重值,k(u)為用戶u在“用戶物品”二部圖中的度,au,i為二部圖中的度為1表示用戶u感興趣的物品,0為用戶不感興趣的物品。然后資源能量回流,采用物品從用戶分配到的能源資源的分配和累加原理,將物品收到的資源再擴(kuò)散給其用戶集合。能量從物品再流回到用戶u,設(shè)用戶u到用戶v∈U能量分配的標(biāo)簽權(quán)重Suv表示為:
此時(shí),Suv體現(xiàn)出目標(biāo)用戶u與用戶v之間的相似度。根據(jù)用戶相似群體對(duì)某物品的評(píng)分,預(yù)測(cè)目標(biāo)用戶對(duì)該物品的評(píng)分。再通過(guò)評(píng)分高低排序?yàn)樵撚脩羯蒚op-N推薦列表。預(yù)測(cè)評(píng)分的計(jì)算公式為:
3 實(shí)驗(yàn)結(jié)果與分析
3.1 實(shí)驗(yàn)數(shù)據(jù)與評(píng)價(jià)指標(biāo)
本文實(shí)驗(yàn)采用豆瓣數(shù)據(jù)集完成,該數(shù)據(jù)集是豆瓣網(wǎng)公開(kāi)API抓取的真實(shí)數(shù)據(jù)。豆瓣網(wǎng)是一個(gè)提供關(guān)于書(shū)籍、電影、音樂(lè)等作品的評(píng)論網(wǎng)站,初始數(shù)據(jù)集包含了415個(gè)用戶對(duì)2045部電影的評(píng)分信息,標(biāo)簽數(shù)為4012。在所有用戶中,每個(gè)用戶至少對(duì)20部電影進(jìn)行過(guò)評(píng)分,每部電影也至少被20個(gè)用戶評(píng)價(jià)過(guò),評(píng)分范圍為1~5分。
本實(shí)驗(yàn)采用的評(píng)價(jià)指標(biāo)為:召回率(Recall)、準(zhǔn)確率(Precison)和F1值。
3.2 Δr參數(shù)對(duì)推薦性能的影響
在計(jì)算用戶標(biāo)簽權(quán)重時(shí),本文按照一定規(guī)則提高用戶評(píng)分來(lái)表示用戶對(duì)標(biāo)簽的評(píng)分。通過(guò)此評(píng)分和標(biāo)簽使用頻率作為用戶對(duì)標(biāo)簽的權(quán)重,Δr決定了用戶標(biāo)簽權(quán)重的值。在實(shí)際實(shí)驗(yàn)中,用戶評(píng)分范圍為1~5,評(píng)分閾值只能選取1~5的整數(shù)。通過(guò)實(shí)驗(yàn)的驗(yàn)證,本文選取評(píng)分閾值L=4。
3.3 不同訓(xùn)練集的實(shí)驗(yàn)對(duì)比分析
為了驗(yàn)證本文提出的推薦算法的有效性,在選定參數(shù)L=4,Δr=0.4時(shí),選擇基于用戶的協(xié)同過(guò)濾(User-Based Collaborative Filtering, UBCF)推薦算法、文獻(xiàn)[15]的融合項(xiàng)目標(biāo)簽相似性的協(xié)同過(guò)濾推薦算法(M2_KSP)以及文獻(xiàn)[17]的基于“用戶項(xiàng)目用戶興趣標(biāo)簽圖” 的協(xié)同好友推薦算法(UITGCF)與本文算法(Tagw_CF)分別從召回率Recall、準(zhǔn)確率Precision以及F1值進(jìn)行對(duì)比。
在實(shí)驗(yàn)中,將數(shù)據(jù)分為訓(xùn)練集和測(cè)試集。訓(xùn)練集用來(lái)訓(xùn)練模型中的參數(shù),測(cè)試集用來(lái)驗(yàn)證準(zhǔn)確性。通過(guò)改變訓(xùn)練數(shù)據(jù)集占整個(gè)數(shù)據(jù)集的數(shù)量,觀測(cè)各個(gè)算法在3個(gè)指標(biāo)上的推薦結(jié)果。引入變量training ratio(0.1~0.9)表示訓(xùn)練集占整個(gè)數(shù)據(jù)集的百分比。訓(xùn)練集比例越低數(shù)據(jù)越稀疏,反之亦然。實(shí)驗(yàn)結(jié)果如圖2所示。從圖2中的結(jié)果可以看出,本文算法在3個(gè)指標(biāo)上都好于基于用戶的協(xié)同過(guò)濾推薦算法(User-based collaborative filtering, UBCF)、M2_KSP和UITGCF(a hybrid collaborative filtering recommendation algorithm by combining the diffusion on user-item-tag graph and users personal interest model)。UBCF算法和M2_KSP算法推薦效果明顯低于本文算法,而UITGCF算法推薦效果與本文最為接近。在訓(xùn)練集比例為0.1時(shí),TagW_CF比UBCF、M2_KSP、UITGCF的召回率分別提升了343.68%、67.29%、14.69%。在訓(xùn)練集比例為0.3時(shí),TagW_CF召回率比UITGCF算法低7.43%;但在整體性能上,本文算法略高于該算法。在準(zhǔn)確率對(duì)比實(shí)驗(yàn)中,TagW_CF比UBCF、M2_KSP、UITGCF高75.75%、34.47%、9.44%。當(dāng)訓(xùn)練集比例為0.4時(shí),UITGCF與TagW_CF的F1值接近。在訓(xùn)練集比例為0.1時(shí), TagW_CF的F1值比UBCF、M2_KSP、UITGCF高199.60%、49.64%、17.23%。
3.4 Top-N推薦的實(shí)驗(yàn)對(duì)比分析
在推薦系統(tǒng)中,常見(jiàn)的應(yīng)用是Top-N推薦。本實(shí)驗(yàn)比較了上述各算法在不同推薦列表長(zhǎng)度N值對(duì)推薦性能的影響,實(shí)驗(yàn)選取各算法在最佳狀態(tài)時(shí)的結(jié)果進(jìn)行Top-N推薦比較。
在圖3中,對(duì)比了4種算法在豆瓣數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。隨著N值增大,4種算法均呈一樣的趨勢(shì)。本文分別取N=10,50,95將UBCF、M2_KSP、UITGCF算法在召回率、準(zhǔn)確率、F1值作一個(gè)綜合比較。UITGCF是與TagW_CF在推薦性能最為接近。在N=10,50,95時(shí),與UITGCF相比,TagW_CF的召回率分別提高17.99%,10.68%,8.73%;TagW_CF的準(zhǔn)確率提高8.98%,6.54%,4.59%;TagW_CF的F1值提高16.27%,8.57%,6.10%。整體上,本文提出的基于標(biāo)簽權(quán)重的協(xié)同過(guò)濾推薦算法在召回率、準(zhǔn)確率和F1值這3個(gè)評(píng)價(jià)指標(biāo)上比各算法有一定的提高。分析結(jié)果產(chǎn)生的原因,TagW_CF算法的優(yōu)越性體現(xiàn)在:
首先,本文利用標(biāo)簽信息和評(píng)分信息作為數(shù)據(jù)源,傳統(tǒng)的基于用戶的協(xié)同過(guò)濾算法(UBCF)僅使用單一的用戶評(píng)分?jǐn)?shù)據(jù),并不能有效分析用戶行為偏好。在很大程度上充分利用標(biāo)簽信息使算法具有更優(yōu)的推薦性能。
其次,構(gòu)建用戶標(biāo)簽權(quán)重、物品標(biāo)簽權(quán)重矩陣。不僅考慮用戶對(duì)標(biāo)簽產(chǎn)生的直接行為,而且可較準(zhǔn)確描述用戶與標(biāo)簽權(quán)重和物品與標(biāo)簽權(quán)重的間接關(guān)系。而UITGCF算法忽略此間接關(guān)系,對(duì)用戶偏好分析粒度略差,推薦效果略低于本文算法。
最后,為得到收斂的用戶物品標(biāo)簽權(quán)重,將更新后的用戶標(biāo)簽權(quán)重和物品標(biāo)簽權(quán)重迭代相乘,可更準(zhǔn)確得到用戶的偏好。再利用改進(jìn)的物質(zhì)擴(kuò)散方法計(jì)算用戶間相似度,并提高了推薦質(zhì)量。
4 結(jié)語(yǔ)
本文算法利用標(biāo)簽信息以及評(píng)分信息構(gòu)建了用戶標(biāo)簽權(quán)重矩陣和物品標(biāo)簽權(quán)重矩陣,更準(zhǔn)確地描述出用戶對(duì)物品的評(píng)價(jià)和需求。在推薦系統(tǒng)中,通常是給用戶一個(gè)個(gè)性化的Top-N推薦列表,因此將兩矩陣相乘來(lái)獲取用戶與物品之間的聯(lián)系。最后,利用改進(jìn)的物質(zhì)擴(kuò)散方法選取目標(biāo)用戶的候選集,根據(jù)候選集評(píng)分行為預(yù)測(cè)目標(biāo)用戶的物品評(píng)分,最后根據(jù)評(píng)分高低為目標(biāo)用戶生成推薦列表。實(shí)驗(yàn)結(jié)果表明在Top-N推薦對(duì)比實(shí)驗(yàn)中,該算法能有效提高推薦性能。在整體上,本文算法在召回率、準(zhǔn)確率以及F1值上均優(yōu)于對(duì)比算法。