• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    融合評(píng)分傾向度和雙重預(yù)測(cè)的協(xié)同過(guò)濾推薦算法*

    2017-10-12 03:40:18萍,李鏘,關(guān)欣,呂
    計(jì)算機(jī)與生活 2017年10期
    關(guān)鍵詞:雙重相似性協(xié)同

    孫 萍,李 鏘,關(guān) 欣,呂 杰

    天津大學(xué) 電子信息工程學(xué)院,天津 300072

    融合評(píng)分傾向度和雙重預(yù)測(cè)的協(xié)同過(guò)濾推薦算法*

    孫 萍,李 鏘+,關(guān) 欣,呂 杰

    天津大學(xué) 電子信息工程學(xué)院,天津 300072

    Abstract:Collaborative filtering recommendation system suffers from series data sparsity problem.To solve the problem,this paper proposes a collaborative filtering recommendation method by combining rating preference and dual prediction.In the stage of calculating the nearest neighbors,to improve the calculation method of similarity,rating preference is introduced firstly.Then,in the stage of generating recommendation,a dual prediction method is proposed which is based on the user and the item nearest neighbors to predict the user preference more accurately.The experimental results on the MovieLens-1M data set indicate that the proposed method can relieve the influence of rating data sparsity on recommended results,significantly reduce the mean absolute error and effectively improve the recommendation precision.

    Key words:recommendation system;collaborative filtering;user preference;rating prediction

    協(xié)同過(guò)濾推薦算法面臨著嚴(yán)重的數(shù)據(jù)稀疏性問(wèn)題,提出一種融合評(píng)分傾向度和雙重預(yù)測(cè)的協(xié)同過(guò)濾推薦算法以解決該問(wèn)題。在選擇最近鄰階段,引入評(píng)分傾向度來(lái)改進(jìn)相似性度量方法,更加準(zhǔn)確地得到最近鄰居集;在推薦生成階段,利用基于用戶最近鄰和基于項(xiàng)目最近鄰的雙重預(yù)測(cè)方法來(lái)進(jìn)行評(píng)分預(yù)測(cè),提高預(yù)測(cè)的準(zhǔn)確度。通過(guò)在MovieLens-1M數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明:該算法能夠緩解數(shù)據(jù)稀疏性對(duì)推薦結(jié)果的影響,有效降低平均絕對(duì)誤差,提高推薦準(zhǔn)確率。

    推薦系統(tǒng);協(xié)同過(guò)濾;用戶偏好;評(píng)分預(yù)測(cè)

    1 引言

    伴隨大數(shù)據(jù)時(shí)代的到來(lái),信息過(guò)載問(wèn)題日益嚴(yán)重,在面對(duì)眾多可選項(xiàng)時(shí),用戶會(huì)感到困惑。在此背景下,推薦系統(tǒng)應(yīng)運(yùn)而生,它們可以有效地為在線用戶處理信息過(guò)載問(wèn)題,已成為電子商務(wù)的得力助手。

    目前,推薦系統(tǒng)大致可以分為基于內(nèi)容的推薦系統(tǒng)、協(xié)同過(guò)濾(collaborative filtering,CF)推薦系統(tǒng)和混合推薦系統(tǒng)3個(gè)主要類別[1]?;趦?nèi)容的推薦算法,假設(shè)用戶在過(guò)去和將來(lái)有相似的偏好,或者用戶的偏好與個(gè)性相關(guān)。協(xié)同過(guò)濾推薦算法是目前發(fā)展最成熟和應(yīng)用最廣泛的推薦技術(shù),主要包括基于內(nèi)存的協(xié)同過(guò)濾和基于模型的協(xié)同過(guò)濾。其中基于內(nèi)存的協(xié)同過(guò)濾又分為基于用戶的協(xié)同過(guò)濾(user-based CF)和基于項(xiàng)目的協(xié)同過(guò)濾(item-based CF)[2]。推薦算法的模型包括聚類模型和貝葉斯網(wǎng)絡(luò)模型。協(xié)同過(guò)濾算法假設(shè)過(guò)去具有相似偏好的用戶未來(lái)也會(huì)有相似的偏好,通過(guò)挖掘用戶過(guò)去的行為記錄尋找相似的用戶或項(xiàng)目,然后利用相似的用戶或項(xiàng)目來(lái)預(yù)測(cè)當(dāng)前用戶的偏好,從而為用戶推薦感興趣的項(xiàng)目,亞馬遜商城的推薦算法就是依此產(chǎn)生的[3]?;趦?nèi)存的協(xié)同過(guò)濾無(wú)需分析信息資源的內(nèi)容,可以發(fā)現(xiàn)用戶潛在的興趣,而且可解釋性強(qiáng),易實(shí)現(xiàn),因此得到廣泛的研究和應(yīng)用,其也是本文的主要研究對(duì)象。混合推薦系統(tǒng),即結(jié)合不同的協(xié)同過(guò)濾方法從而產(chǎn)生新的推薦算法。Liu等人[4]利用網(wǎng)絡(luò)服務(wù)相似性計(jì)算模型,集成基于用戶與基于項(xiàng)目的推薦算法,開發(fā)出混合協(xié)同過(guò)濾推薦技術(shù)。

    隨著互聯(lián)網(wǎng)科技的發(fā)展,推薦系統(tǒng)在電子商務(wù)、電影和視頻網(wǎng)站、社交網(wǎng)絡(luò)、互聯(lián)網(wǎng)廣告、個(gè)性化閱讀、信息檢索、移動(dòng)應(yīng)用、旅游、交通等眾多領(lǐng)域[5-7]得到廣泛應(yīng)用。

    盡管協(xié)同過(guò)濾推薦取得了很大成功,但面臨著嚴(yán)重的數(shù)據(jù)稀疏性問(wèn)題[2]。在實(shí)際應(yīng)用中,用戶和項(xiàng)目規(guī)模不斷增加,數(shù)量巨大,但用戶通常只會(huì)對(duì)少量項(xiàng)目進(jìn)行關(guān)注或評(píng)分,造成用戶-項(xiàng)目評(píng)分矩陣的維度不斷增加,數(shù)據(jù)稀疏性問(wèn)題愈發(fā)嚴(yán)重;常常出現(xiàn)由于用戶間的共同評(píng)分項(xiàng)目過(guò)少,無(wú)法準(zhǔn)確計(jì)算二者的相似性;在評(píng)分預(yù)測(cè)中,由于最近鄰用戶評(píng)分的缺失,難以準(zhǔn)確預(yù)測(cè)評(píng)分。

    本文針對(duì)上述問(wèn)題,提出了一種融合評(píng)分傾向度和雙重預(yù)測(cè)的協(xié)同過(guò)濾推薦算法。算法主要分為三步:首先計(jì)算融合了評(píng)分傾向度的用戶相似性和項(xiàng)目相似性;然后確定最近鄰用戶集和最近鄰項(xiàng)目集;最后動(dòng)態(tài)選擇基于最近鄰用戶集和最近鄰項(xiàng)目集的雙重預(yù)測(cè)方法進(jìn)行評(píng)分預(yù)測(cè)。相比傳統(tǒng)的userbased CF,本文算法具有以下優(yōu)點(diǎn):(1)引入評(píng)分傾向度,綜合考慮了用戶評(píng)分、用戶間共同評(píng)分項(xiàng)目和評(píng)分差異對(duì)用戶相似性的影響,能更真實(shí)地反映用戶間的相似性。(2)綜合考慮了用戶最近鄰和項(xiàng)目最近鄰在評(píng)分預(yù)測(cè)中的作用,使評(píng)分預(yù)測(cè)更精確。在公開數(shù)據(jù)集MovieLens上的實(shí)驗(yàn)表明:本文算法有效改善了數(shù)據(jù)稀疏性問(wèn)題,能夠降低平均絕對(duì)誤差,提高推薦準(zhǔn)確率,并在一定程度上緩解了冷啟動(dòng)問(wèn)題。

    本文組織結(jié)構(gòu)如下:第2章簡(jiǎn)要回顧傳統(tǒng)協(xié)同過(guò)濾推薦算法并分析存在的問(wèn)題;第3章提出了一種融合評(píng)分傾向度和雙重預(yù)測(cè)的協(xié)同過(guò)濾推薦算法;第4章進(jìn)行實(shí)驗(yàn)并分析實(shí)驗(yàn)結(jié)果;第5章總結(jié)全文。

    2 基本理論

    2.1 推薦模型

    傳統(tǒng)的基于用戶的協(xié)同過(guò)濾算法主要分為3個(gè)階段:用戶偏好建模,選擇最近鄰居集,推薦生成。傳統(tǒng)協(xié)同過(guò)濾算法中用戶對(duì)項(xiàng)目評(píng)分表示用戶的偏好,評(píng)分值一般為1~5之間的整數(shù),評(píng)分值越大表示用戶對(duì)項(xiàng)目越喜歡,評(píng)分值為空表示用戶u未對(duì)項(xiàng)目i評(píng)分,評(píng)分值缺失,因此帶來(lái)數(shù)據(jù)稀疏性問(wèn)題。用戶在項(xiàng)目空間上的偏好分布可以用一個(gè)m×n階用戶-項(xiàng)目的評(píng)分矩陣R表示,m表示用戶的個(gè)數(shù),n表示項(xiàng)目的個(gè)數(shù),行向量R(u)為用戶u的評(píng)分集合Iu,列向量R(i)為所有用戶對(duì)項(xiàng)目i的評(píng)分集合Ui。

    傳統(tǒng)的協(xié)同過(guò)濾算法在評(píng)分矩陣R上計(jì)算用戶(項(xiàng)目)間的相似性,然后選擇相似性最大的用戶(項(xiàng)目)作為最近鄰用戶(項(xiàng)目)集,常用的相似性度量方法有余弦相似性、Pearson相關(guān)性。設(shè)用戶ua和ub之間的相似度為sim(ua,ub),則兩種相似性的計(jì)算方法如式(1)、式(2)所示。

    式中,Iab={i∈I|rai≠ ?,rbi≠ ?},表示用戶a和用戶b的共同評(píng)分項(xiàng)目集;rai和rbi分別表示用戶ua和ub對(duì)項(xiàng)目i的評(píng)分值;和分別表示用戶ua和ub的評(píng)分均值。如果求項(xiàng)目ia和ib之間的相似性,則公式修正如下:

    式中,Uab={u∈U|rua≠ ?,rub≠ ?},表示對(duì)項(xiàng)目a和項(xiàng)目b共同評(píng)分的用戶集;表示用戶的評(píng)分均值。

    推薦生成過(guò)程的關(guān)鍵是評(píng)分預(yù)測(cè),即通過(guò)利用最近鄰居集來(lái)預(yù)測(cè)目標(biāo)用戶對(duì)當(dāng)前項(xiàng)目的偏好,則評(píng)分預(yù)測(cè)計(jì)算方法表示如下:

    對(duì)于基于項(xiàng)目的協(xié)同過(guò)濾算法,公式修正如下:

    2.2 傳統(tǒng)協(xié)同過(guò)濾問(wèn)題分析

    傳統(tǒng)協(xié)同過(guò)濾算法中,由于評(píng)分?jǐn)?shù)據(jù)的稀疏性問(wèn)題,在利用傳統(tǒng)相似性度量方法計(jì)算相似性時(shí),無(wú)法真實(shí)反映用戶間的相似性。例如:假設(shè)用戶a和用戶b分別對(duì)200個(gè)項(xiàng)目進(jìn)行評(píng)分,但只有一個(gè)共同評(píng)分項(xiàng)目,且評(píng)分相同,按Pearson相關(guān)系數(shù)計(jì)算,二者相似度為1,顯然這是不準(zhǔn)確的。而且在評(píng)分預(yù)測(cè)階段,由于數(shù)據(jù)稀疏性問(wèn)題,導(dǎo)致缺失最近鄰用戶對(duì)當(dāng)前項(xiàng)目的評(píng)分?jǐn)?shù)據(jù),難以充分利用最近鄰用戶進(jìn)行評(píng)分預(yù)測(cè)。

    針對(duì)以上問(wèn)題,國(guó)內(nèi)外學(xué)者提出了許多改進(jìn)算法,主要分為基于內(nèi)存的方法和基于模型的方法。Sarwar等人將信息檢索領(lǐng)域的奇異值分解技術(shù)(singular value decomposition,SVD)引入到推薦系統(tǒng)[8-9],將高維的評(píng)分矩陣R拆分成低維的近似矩陣,利用數(shù)據(jù)中的潛在關(guān)系觀察用戶或項(xiàng)目間的相似信息。該方法在一定條件下,可以過(guò)濾掉數(shù)據(jù)中存在的噪聲,提高推薦準(zhǔn)確度,但該方法容易導(dǎo)致有用信息丟失,在某些情況下推薦質(zhì)量較差。Hofmann等人將概率潛在語(yǔ)義分析(probabilistic latent semantic analysis,pLSA)引入推薦系統(tǒng)[10-11],該算法利用隱含變量發(fā)現(xiàn)用戶社區(qū)和評(píng)分?jǐn)?shù)據(jù)里隱藏的興趣,并按照興趣對(duì)用戶進(jìn)行劃分,能獲得比較高的準(zhǔn)確率。Breese等人提出了一種矩陣填充技術(shù)[12-13],將缺失的評(píng)分?jǐn)?shù)據(jù)填充為一個(gè)缺省值,以此來(lái)緩解數(shù)據(jù)稀疏性問(wèn)題,但由于缺省值的設(shè)置存在誤差,導(dǎo)致評(píng)分預(yù)測(cè)不準(zhǔn)確,降低推薦準(zhǔn)確率。為了有效利用評(píng)分?jǐn)?shù)據(jù)之外的其他信息,避免評(píng)分?jǐn)?shù)據(jù)稀疏性對(duì)用戶相似度計(jì)算的影響,有學(xué)者提出將上下文信息、用戶信任網(wǎng)絡(luò)等引入到推薦系統(tǒng)中。文獻(xiàn)[14]將用戶附加信息,如性別、年齡等引入到推薦系統(tǒng)中,在一定程度上緩解了數(shù)據(jù)稀疏性問(wèn)題。文獻(xiàn)[15-16]進(jìn)而提出了一種上下文感知推薦算法,將上下文信息融入到推薦系統(tǒng)中,包括用戶上下文信息,如性別、年齡、職業(yè)、心情等;環(huán)境上下文信息,如位置、天氣等時(shí)間上下文信息,社會(huì)化網(wǎng)絡(luò)等。但該方法面臨著獲取上下文信息困難,而且?guī)?lái)更加嚴(yán)重的數(shù)據(jù)稀疏性等問(wèn)題。Quan[17]提出加入用戶個(gè)性改善用戶模型的推薦算法,該算法可以在一定程度上緩解數(shù)據(jù)稀疏問(wèn)題,但是加重了系統(tǒng)的計(jì)算負(fù)擔(dān)。Gupta等人[18]提出協(xié)同過(guò)濾與人口統(tǒng)計(jì)學(xué)相結(jié)合的推薦算法,該算法可以有效解決數(shù)據(jù)稀疏、冷啟動(dòng)等問(wèn)題,且算法的擴(kuò)展性強(qiáng),但是算法實(shí)現(xiàn)過(guò)程較復(fù)雜,計(jì)算量大,在實(shí)際應(yīng)用中可能會(huì)受到限制。本文針對(duì)上述方法中存在的問(wèn)題,引入評(píng)分傾向度改善相似度的計(jì)算,并利用動(dòng)態(tài)選擇基于用戶最近鄰和基于項(xiàng)目最近鄰的雙重預(yù)測(cè)方法來(lái)進(jìn)行評(píng)分預(yù)測(cè),提出一種融合評(píng)分傾向度和雙重預(yù)測(cè)的協(xié)同過(guò)濾推薦算法。

    3 融合評(píng)分傾向度和雙重預(yù)測(cè)的協(xié)同過(guò)濾推薦算法

    本文算法的主要思想是利用用戶的評(píng)分傾向度更加準(zhǔn)確地計(jì)算用戶的相似性,并在評(píng)分預(yù)測(cè)階段采用動(dòng)態(tài)選擇基于項(xiàng)目和基于用戶的雙重評(píng)分預(yù)測(cè)。本文將此算法命名為PDCF(collaborative filtering recommendation method combining rating preference and dual prediction)算法,下面詳細(xì)介紹PDCF算法的主要內(nèi)容。

    3.1 基于評(píng)分傾向度的相似度

    本文2.2節(jié)已經(jīng)指出,由于數(shù)據(jù)的稀疏性,用戶間的共同評(píng)分項(xiàng)目過(guò)少,在利用傳統(tǒng)相似性度量方法計(jì)算用戶或項(xiàng)目間相似性時(shí),常常出現(xiàn)無(wú)法真實(shí)反映用戶間相似性的問(wèn)題。例如表1,顯示了當(dāng)前用戶Alice和其他用戶的評(píng)分?jǐn)?shù)據(jù)。

    Table 1 User rating dataset表1 用戶評(píng)分?jǐn)?shù)據(jù)庫(kù)

    如果利用Pearson相關(guān)系數(shù)求當(dāng)前用戶Alice和用戶u1和u2的相似性,則分別為sim(Alice,u1)=1,sim(Alice,u2)=0.707,即當(dāng)前用戶Alice和用戶u2的相似性比和用戶u1的相似性低。顯然這是不正確的,因?yàn)楫?dāng)前用戶Alice和用戶u2有兩個(gè)共同評(píng)分項(xiàng),說(shuō)明項(xiàng)目的關(guān)注傾向度更加趨于一致,而且共同評(píng)分差異小,綜合起來(lái)說(shuō)明二者評(píng)分傾向度更加一致,二者的相似度應(yīng)該比和用戶u1的相似度大。

    首先,如果用戶間共同評(píng)分項(xiàng)目占二者所有評(píng)分過(guò)的項(xiàng)目比例越大,則二者對(duì)項(xiàng)目的關(guān)注傾向度越一致,二者的相似性也應(yīng)該更大,因此引入Jaccard系數(shù)來(lái)計(jì)算用戶對(duì)項(xiàng)目的關(guān)注傾向度Pi,具體計(jì)算方法如下:

    式中,Ia和Ib分別表示用戶a和b的評(píng)分項(xiàng)目集合。將Pi(ua,ub)乘以二者的Pearson相關(guān)系數(shù),即sim2(ua,ub)=Pi(ua,ub)×sim(ua,ub),來(lái)改進(jìn)上述缺陷,可以計(jì)算得到sim2(Alice,u1)=0.2,sim2(Alice,u2)=0.354。雖然sim2(Alice,u2)比原來(lái)的小,但當(dāng)前用戶Alice和用戶u2的相似性比和用戶u1的相似性提高了77%,顯然這更符合實(shí)際情況??紤]用戶對(duì)項(xiàng)目的關(guān)注傾向度雖然在一定程度上緩和了數(shù)據(jù)稀疏性,但也存在不足。因?yàn)榧词箖蓚€(gè)用戶對(duì)項(xiàng)目的關(guān)注傾向度相似,但如果評(píng)分存在較大不同,說(shuō)明二者的偏好也不一致,所以對(duì)Jaccard系數(shù)進(jìn)行改進(jìn),使得用戶對(duì)項(xiàng)目的關(guān)注傾向度一致,而且評(píng)分也趨于相似時(shí),二者的相似性才更大。

    定義1(評(píng)分傾向度)用P(ua,ub)和P(ia,ib)分別表示兩個(gè)用戶間和兩個(gè)項(xiàng)目間的評(píng)分傾向度,則計(jì)算公式如下:

    將用戶的評(píng)分傾向度融入到用戶或項(xiàng)目的相似度計(jì)算過(guò)程,則得到基于評(píng)分傾向度的相似性度量方法,具體計(jì)算公式如下:

    式中,P(ua,ub)表示用戶間的評(píng)分傾向度;sim3(ua,ub)和sim3(ia,ib)表示分別利用式(2)和式(3)求得的用戶間和項(xiàng)目間的皮爾森相關(guān)系數(shù)。

    最后,利用式(9)再次計(jì)算當(dāng)前用戶Alice和用戶u1和u2的相似性,分別為sim(Alice,u1)=0.16,sim(Alice,u2)=0.318。即雖然sim(Alice,u2)也有所減小,但當(dāng)前用戶和用戶u2的相似性比和用戶u1的相似性高98%,用此方法計(jì)算得到的最近鄰用戶更準(zhǔn)確。

    3.2 選擇最近鄰居集

    3.1節(jié)詳細(xì)介紹了基于用戶間評(píng)分傾向度的相似性度量方法,在本文PDCF算法中,首先利用式(9)和式(10)計(jì)算用戶相似度和項(xiàng)目相似度,然后選擇相似度最大的作為最近鄰居集。

    3.3 評(píng)分預(yù)測(cè)

    傳統(tǒng)協(xié)同過(guò)濾推薦系統(tǒng)利用式(4)和式(5)進(jìn)行評(píng)分預(yù)測(cè),但由于數(shù)據(jù)的稀疏性,導(dǎo)致缺失最近鄰用戶對(duì)當(dāng)前項(xiàng)目的評(píng)分,難以進(jìn)行評(píng)分預(yù)測(cè)。為了充分利用最近鄰用戶集并提高評(píng)分預(yù)測(cè)的準(zhǔn)確度,本文借鑒矩陣填充技術(shù)的思想,用預(yù)測(cè)值填充缺失的數(shù)據(jù)。同時(shí)為了緩解新填充數(shù)據(jù)帶來(lái)新的誤差,本文提出雙重預(yù)測(cè)方法來(lái)進(jìn)行評(píng)分預(yù)測(cè)。首先動(dòng)態(tài)監(jiān)測(cè)最近鄰用戶對(duì)當(dāng)前項(xiàng)目的評(píng)分,當(dāng)最近鄰用戶對(duì)當(dāng)前項(xiàng)目的評(píng)分缺失時(shí),利用基于項(xiàng)目的協(xié)同過(guò)濾方法確定當(dāng)前項(xiàng)目的最近鄰項(xiàng)目集,并預(yù)測(cè)最近鄰用戶對(duì)當(dāng)前項(xiàng)目的評(píng)分,然后將此預(yù)測(cè)評(píng)分設(shè)置為最近鄰用戶對(duì)當(dāng)前項(xiàng)目的評(píng)分。最后再利用基于用戶的預(yù)測(cè)方法進(jìn)行評(píng)分預(yù)測(cè)。

    假設(shè)目標(biāo)用戶為ua,當(dāng)前項(xiàng)目為i,目標(biāo)用戶的最近鄰用戶集為Na,用戶b為最近鄰用戶集中的任一用戶,則用戶b對(duì)當(dāng)前項(xiàng)目的評(píng)分rbi為:

    式中,Na表示用戶a的最近鄰用戶集;sim(ua,ub)為利用式(9)求得的用戶間的相似度。

    3.4 PDCF推薦算法描述

    輸入:用戶-項(xiàng)目評(píng)分矩陣Rm×n。

    輸出:目標(biāo)用戶的top-N推薦列表。

    步驟1計(jì)算基于評(píng)分傾向度的用戶相似度。先利用式(7)確定用戶間的評(píng)分傾向度矩陣Pu,然后利用式(9)確定基于評(píng)分傾向度的用戶相似度矩陣Sp。

    步驟2生成目標(biāo)用戶的K個(gè)最近鄰用戶。利用用戶的相似度矩陣Sp,按照top-N最近鄰選擇策略為目標(biāo)用戶選擇最近鄰居集N。

    步驟3掃描所有最近鄰用戶對(duì)當(dāng)前項(xiàng)目的評(píng)分,如果評(píng)分為空值,則利用式(10)計(jì)算項(xiàng)目相似度,確定當(dāng)前項(xiàng)目的最近項(xiàng)目集,然后將利用式(11)求得的預(yù)測(cè)值填充為最近鄰用戶對(duì)當(dāng)前項(xiàng)目的評(píng)分。

    步驟4計(jì)算目標(biāo)用戶對(duì)所有未評(píng)分項(xiàng)目的偏好。利用式(12)預(yù)測(cè)目標(biāo)用戶對(duì)當(dāng)前項(xiàng)目的評(píng)分。

    步驟5生成目標(biāo)用戶的推薦項(xiàng)目集Ir,根據(jù)目標(biāo)用戶對(duì)未評(píng)分項(xiàng)目的偏好,選擇預(yù)測(cè)評(píng)分值前n個(gè)最大的項(xiàng)目作為top-N推薦列表推薦給目標(biāo)用戶。

    4 實(shí)驗(yàn)及結(jié)果分析

    4.1 數(shù)據(jù)集及實(shí)驗(yàn)環(huán)境

    本文使用美國(guó)明尼蘇達(dá)大學(xué)的Grouplens研究組提供的MovieLens-1M數(shù)據(jù)集。該數(shù)據(jù)集包含了6 040個(gè)用戶對(duì)3 952部電影的1 000 209條評(píng)分記錄,評(píng)分值為1~5的整數(shù),1表示最不喜歡,5表示最喜歡;每個(gè)用戶至少對(duì)20部電影進(jìn)行評(píng)分,數(shù)據(jù)的稀疏度為95.81%。

    為了驗(yàn)證推薦算法的推薦質(zhì)量,本文采用5折交叉驗(yàn)證的方法,將數(shù)據(jù)集按照80%和20%的比例隨機(jī)分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集。

    本文實(shí)驗(yàn)環(huán)境為:Windows7 32位操作系統(tǒng),2 GB內(nèi)存,Intel?CoreTM2 Duo CPU E7500@2.93 GHz,實(shí)驗(yàn)程序基于python2.7開發(fā)。

    4.2 評(píng)價(jià)指標(biāo)

    為了驗(yàn)證推薦算法的推薦質(zhì)量,實(shí)驗(yàn)使用平均絕對(duì)誤差(mean absolute error,MAE)和推薦準(zhǔn)確率Pu作為評(píng)價(jià)指標(biāo)。

    MAE通過(guò)計(jì)算所有測(cè)試用戶對(duì)測(cè)試項(xiàng)目的預(yù)測(cè)評(píng)分和實(shí)際評(píng)分的平均誤差大小來(lái)衡量推薦系統(tǒng)的質(zhì)量。MAE越小,推薦系統(tǒng)質(zhì)量越好,MAE越大,推薦系統(tǒng)質(zhì)量越差。計(jì)算方法如下:

    式中,Tu表示測(cè)試用戶集;Ti表示測(cè)試項(xiàng)目集,|表示測(cè)試項(xiàng)目的個(gè)數(shù);prui表示用戶對(duì)項(xiàng)目i的預(yù)測(cè)評(píng)分;rui表示用戶對(duì)項(xiàng)目i的真實(shí)評(píng)分。

    Pu是評(píng)價(jià)top-N推薦質(zhì)量的重要指標(biāo),通過(guò)計(jì)算top-N推薦列表中的項(xiàng)目在用戶top-N評(píng)分項(xiàng)目列表中的個(gè)數(shù)占所有推薦項(xiàng)目的比例來(lái)衡量推薦系統(tǒng)的質(zhì)量。具體計(jì)算方法如下:

    式中,Tu表示測(cè)試用戶集;Ir表示用戶的top-N推薦列表;表示用戶的top-N評(píng)分列表。

    4.3 實(shí)驗(yàn)結(jié)果及分析

    本文共設(shè)計(jì)了4組實(shí)驗(yàn),分別從基于用戶上下文信息的相似度、基于用戶評(píng)分傾向度的相似度、動(dòng)態(tài)選擇基于用戶和基于項(xiàng)目的評(píng)分預(yù)測(cè)以及CPCF算法的有效性四方面來(lái)驗(yàn)證本文CPCF算法的性能。為了便于描述實(shí)驗(yàn)結(jié)果,本文采用表2中的縮寫來(lái)表示對(duì)應(yīng)的算法,采用k表示最近鄰用戶的個(gè)數(shù)。

    Table 2 Method proposed in this paper and methods for comparison表2 本文算法和擬比較算法

    4.3.1 評(píng)分傾向度的有效性

    該實(shí)驗(yàn)主要驗(yàn)證基于用戶評(píng)分傾向度的相似度計(jì)算方法對(duì)推薦質(zhì)量的影響。實(shí)驗(yàn)結(jié)果如圖1和圖2所示。表3、表4分別表示基于評(píng)分傾向度的相似度計(jì)算方法與余弦相似性方法、Pearson方法相比,MAE降低比例和Pu提高比例。

    Fig.1MAEcomparison of collaborative filtering methods with cos,Pearson and Rp-Pearson圖1 分別采用cos、Pearson和Rp-Pearson相似度的推薦算法MAE對(duì)比圖

    Fig.2Pucomparison of collaborative filtering methods with cos,Pearson and Rp-Pearson圖2 分別采用cos、Pearson和Rp-Pearson相似度的推薦算法Pu對(duì)比圖

    如圖1所示,在不同數(shù)量的最近鄰用戶的條件下,基于用戶評(píng)分傾向度的相似性計(jì)算方法(Rp-Pearson)與余弦相似性方法和Pearson方法相比,MAE最小,且改善效果非常明顯。當(dāng)最近鄰用戶從10增加到30時(shí),MAE急劇降低;當(dāng)最近鄰個(gè)數(shù)從30逐漸增加到150時(shí),MAE逐漸降低,并趨于平緩。通過(guò)表3可以更加清晰地看出,與余弦相似性方法和Pearson方法相比,采用基于用戶評(píng)分傾向度的方法MAE均明顯降低,分別平均降低69.08%和60.85%。

    如圖2所示,確定top-N的個(gè)數(shù)為10的情況下,取不同數(shù)量的最近鄰用戶時(shí),基于用戶評(píng)分傾向度的推薦準(zhǔn)確率最高,當(dāng)最近鄰個(gè)數(shù)從10增加到80時(shí),推薦準(zhǔn)確率逐漸升高,此后再增加最近鄰個(gè)數(shù),推薦準(zhǔn)確率達(dá)到最大值。通過(guò)表4可以更加清晰地看出,與余弦相似性方法和Pearson方法相比,采用基于用戶評(píng)分傾向度的方法Pu均明顯提高,與余弦相似性方法和Pearson方法相比,推薦準(zhǔn)確率平均分別提高42.56%和8.29%。由以上分析可知,基于用戶評(píng)分傾向度的相似性算法與余弦方法和Pearson方法相比,可以有效緩解數(shù)據(jù)的稀疏性,降低平均絕對(duì)誤差,提高推薦準(zhǔn)確率。

    Table 3MAEreduction percentage compared with different similarity methods表3 不同相似度計(jì)算方法的MAE降低比例

    Table 4Puraise percentage compared with different similarity methods表4 不同相似度計(jì)算方法的Pu提高比例

    4.3.2 雙重預(yù)測(cè)的有效性

    本實(shí)驗(yàn)主要驗(yàn)證在評(píng)分預(yù)測(cè)階段雙重預(yù)測(cè)的有效性,實(shí)驗(yàn)結(jié)果如圖3~圖5所示。其中圖3為不同相似度計(jì)算方法在僅基于用戶的評(píng)分預(yù)測(cè)和融合了雙重預(yù)測(cè)的協(xié)同過(guò)濾推薦算法的MAE的對(duì)比圖。由于圖3中一部分曲線重合,故圖4將動(dòng)態(tài)選擇基于用戶和基于項(xiàng)目的評(píng)分預(yù)測(cè)方法的MAE對(duì)比圖單獨(dú)畫出。表5、表6分別表示對(duì)于不同推薦算法,融合了雙重預(yù)測(cè)的方法后,MAE降低比例和Pu提高比例。

    Fig.3MAEcomparison of collaborative filtering methods with different similarity圖3 不同相似度的協(xié)同過(guò)濾算法的MAE對(duì)比圖

    Fig.4MAEcomparison of different similarity methods after combining dynamic prediction圖4 不同算法融合動(dòng)態(tài)預(yù)測(cè)后的MAE對(duì)比圖

    由圖3、圖4和表5可以看出,對(duì)于余弦方法、Pearson方法,在不同數(shù)量的最近鄰用戶的條件下,融合了雙重預(yù)測(cè)的協(xié)同過(guò)濾推薦算法MAE均最小,平均分別降低62.94%、52.09%,改善效果明顯。對(duì)于基于用戶評(píng)分傾向度的推薦方法,當(dāng)最近鄰個(gè)數(shù)K<60時(shí),融合了雙重預(yù)測(cè)的協(xié)同過(guò)濾推薦算法MAE較低,當(dāng)K≥60時(shí),MAE逐漸趨于一致,二者基本持平,平均降低了10.05%。由圖5、表6可以看到,在top-10推薦中,對(duì)于余弦方法、Pearson方法和基于用戶評(píng)分傾向度的協(xié)同過(guò)濾方法,在不同數(shù)量的最近鄰用戶的條件下,融合了雙重預(yù)測(cè)的協(xié)同過(guò)濾方法的推薦準(zhǔn)確率均最高,平均分別提高了13.07%、4.25%、3.02%。綜合以上分析可以得知,動(dòng)態(tài)選擇基于用戶和基于項(xiàng)目的方法,可以緩解數(shù)據(jù)的稀疏性,降低預(yù)測(cè)誤差,提高預(yù)測(cè)準(zhǔn)確率。

    Fig.5Pucomparison of collaborative filtering methods with different similarity圖5 不同相似度的協(xié)同過(guò)濾算法的Pu對(duì)比圖

    Table 5MAEreduction percentage of different similarity methods after combining dynamic prediction表5 融合雙重預(yù)測(cè)后不同相似度計(jì)算方法的MAE降低比例

    Table 6Puraise percentage of different similarity methods after combining dynamic prediction表6 融合雙重預(yù)測(cè)后不同相似度計(jì)算方法的Pu提高比例

    4.3.3 PDCF算法的有效性

    通過(guò)上述兩組實(shí)驗(yàn),可以確定本文提出的基于評(píng)分傾向度的算法和雙重預(yù)測(cè)方法均可以減低預(yù)測(cè)誤差,提高推薦準(zhǔn)確率。本實(shí)驗(yàn)主要驗(yàn)證融合了上述兩種方法的PDCF算法效果,實(shí)驗(yàn)結(jié)果如圖6和圖7所示。表7、表8分別表示PDCF算法與余弦相似性方法、Pearson方法相比,MAE降低比例和Pu提高比例。

    由圖6可以看出,PDCF算法與余弦相似性方法、Pearson方法相比,在不同數(shù)量最近鄰用戶的條件下,MAE均最小。由表7可以更加直觀地看出,PDCF算法和余弦方法、Pearson方法相比,MAE均顯著降低,整體分別平均降低了72.53%、64.61%。由圖7可以看出,在top-10推薦中,DPCF算法和余弦相似性方法、Pearson方法的協(xié)同過(guò)濾推薦算法相比,在不同最近鄰用戶個(gè)數(shù)的情況下,推薦準(zhǔn)確率均最高,推薦更加準(zhǔn)確。通過(guò)表8可以看出,PDCF算法和余弦方法相比,Pu得到了很大提高,平均提高幅度為46.93%;PDCF算法和Pearson方法相比,Pu也得到不同程度的提高,平均改善率為11.57%。綜合以上分析,CPCF算法可以有效緩解數(shù)據(jù)的稀疏性,降低預(yù)測(cè)誤差,提高推薦準(zhǔn)確率。

    5 結(jié)論

    協(xié)同過(guò)濾推薦技術(shù)是應(yīng)用最廣泛和最成功的推薦技術(shù),但面臨數(shù)據(jù)稀疏性和冷啟動(dòng)等問(wèn)題的嚴(yán)峻挑戰(zhàn),導(dǎo)致推薦質(zhì)量較差,不能滿足企業(yè)和用戶的需求。

    本文針對(duì)傳統(tǒng)協(xié)同過(guò)濾算法的不足,提出基于用戶評(píng)分傾向度的相似性計(jì)算方法,與余弦、Pearson等相似度計(jì)算方法相比,能更加真實(shí)地計(jì)算用戶間的相似性。為了進(jìn)一步緩解數(shù)據(jù)稀疏性的影響,在評(píng)分預(yù)測(cè)階段提出動(dòng)態(tài)選擇基于用戶和基于項(xiàng)目的雙重預(yù)測(cè)方法,進(jìn)而提出一種融合用戶上下文信息和雙重預(yù)測(cè)的協(xié)同過(guò)濾算法(PDCF)。實(shí)驗(yàn)結(jié)果表明,PDCF算法可以有效緩解數(shù)據(jù)稀疏性,提高預(yù)測(cè)準(zhǔn)確度和推薦準(zhǔn)確度,改善推薦質(zhì)量。

    Fig.6MAEcomparison of collaborative filtering methods with cos,Pearson and PDCF圖6 分別采用cos、Pearson and PDCF相似度的推薦算法MAE對(duì)比圖

    Fig.7Pucomparison of collaborative filtering methods with cos,Pearson and PDCF圖7 分別采用cos、Pearson和PDCF相似度的推薦算法Pu對(duì)比圖

    Table 7MAEreduction percentage compared with different similarity methods表7 不同相似度計(jì)算方法的MAE降低比例

    Table 8Puraise percentage compared with different similarity methods表8 不同相似度計(jì)算方法的Pu提高比例

    [1]Revankar O S,Haribhakta Y V.Survey on collaborative filtering technique in recommendation system[J].International Journal ofApplication or Innovation in Engineering&Management,2015,3(4):85-91.

    [2]Burke R,Felfernig A,G?ker M H.Recommender systems:an overview[J].AI Magazine,2011,32(3):13-18.

    [3]Linden G,Smith B,York J.Amazon.com recommendations:item-to-item collaborative filtering[J].IEEE Internet Computing,2003,7(1):76-80.

    [4]Jiang Yechun,Liu Jianxun,Tang Mingdong,et al.An effective Web service recommendation method based on personalized collaborative filtering[C]//Proceedings of the 2011 IEEE International Conference on Web Services,Washington,Jul 4-9,2011.Washington:IEEE Computer Society,2011:211-218.

    [5]West J D,Wesley-Smith I,Bergstrom C T.A recommendation system based on hierarchical clustering of an articlelevel citation network[J].IEEE Transactions on Big Data,2016,2(2):113-123.

    [6]He Yaobin,Zhang Fan,Li Ye,et al.Multiple routes recommendation system on massive taxi trajectories[J].Tsinghua Science and Technology,2016,21(5):510-520.

    [7]Jiang Shuhui,Qian Xueming,Mei Tao,et al.Personalized travel sequence recommendation on multi-source big socialmedia[J].IEEE Transactions on Big Data,2016,2(1):43-56.

    [8]Sarwar B,Karypis G,Konstan J,et al.Application of dimensionality reduction in recommender system—a case study[R].Minneapolis,USA:University of Minnesota,2000.

    [9]Koren Y,Bell R,Volinsky C.Matrix factorization techniques for recommender systems[J].Computer,2009,42(8):30-37.

    [10]Hofmann T,Puzicha J.Latent class models for collaborative filtering[C]//Proceedings of the 16th International Joint Conference on Artificial Intelligence,Stockholm,Sweden,Jul 31-Aug 6,1999.San Francisco,USA:Morgan Kaufmann Publishers Inc,1999:688-693.

    [11]Hofmann T.Latent semantic models for collaborative filtering[J].ACM Transactions on Information Systems,2004,22(1):89-115.

    [12]Breese J S,Heckerman D,Kadie C.Empirical analysis of predictive algorithms for collaborative filtering[C]//Proceedings of the 14th Conference on Uncertainty in Artificial Intelligence,Madison,USA,Jul 24-26,1998.San Francisco,USA:Morgan Kaufmann Publishers Inc,1998:43-52.

    [13]Degemmis M,Lops P,Semeraro G.A content-collaborative recommender that exploits WordNet-based user profiles for neighborhood formation[J].User Modeling and User-Adapted Interaction,2007,17(3):217-255.

    [14]Pazzani M J.A framework for collaborative,content-based and demographic filtering[J].Artificial Intelligence Review,1999,13(5/6):393-408.

    [15]Adomavicius G,Sankaranarayanan R,Sen S,et al.Incorporating contextual information in recommender systems using a multidimensional approach[J].ACM Transactions on Information Systems,2005,23(1):103-145.

    [16]Adomavicius G,Tuzhilin A.Context-aware recommender systems[M]//Recommender Systems Handbook.Secaucus,USA:Springer-Verlag New York,Inc,2011:217-253.

    [17]Quan Zhichao.Collaborative filtering recommendation based on user personality[C]//Proceedings of the 6th International Conference on Information Management,Innovation Management and Industrial Engineering,Xi'an,China,Nov 23-24,2013.Piscataway,USA:IEEE,2013:307-310.

    [18]Gupta J,Gadge J.A framework for a recommendation system based on collaborative filtering and demographics[C]//Proceedings of the 2014 International Conference on Circuits,Systems,Communication and Information Technology Applications,Mumbai,India,Apr 4-5,2014.Piscataway,USA:IEEE,2014:300-304.

    Collaborative Filtering Recommendation Method Combining Rating Preference and Dual Prediction*

    SUN Ping,LI Qiang+,GUAN Xin,LV Jie
    School of Electronic Information Engineering,Tianjin University,Tianjin 300072,China

    A

    TN911.7

    +Corresponding author:E-mail:liqiang@tju.edu.cn

    SUN Ping,LI Qiang,GUAN Xin,et al.Collaborative filtering recommendation method combining rating preference and dual prediction.Journal of Frontiers of Computer Science and Technology,2017,11(10):1642-1651.

    ISSN 1673-9418 CODEN JKYTA8

    Journal of Frontiers of Computer Science and Technology

    1673-9418/2017/11(10)-1642-10

    10.3778/j.issn.1673-9418.1608002

    E-mail:fcst@vip.163.com

    http://www.ceaj.org

    Tel:+86-10-89056056

    *The National Natural Science Foundation of China under Grant No.61401307(國(guó)家自然科學(xué)基金);the Postdoctoral Science Foundation of China under Grant No.2014M561184(中國(guó)博士后科學(xué)基金);the Application Infrastructure and Cutting-Edge Technology Research Projects of Tianjin under Grant No.15JCYBJC17100(天津市應(yīng)用基礎(chǔ)與尖端技術(shù)研究項(xiàng)目).

    Received 2016-08,Accepted 2016-12.

    CNKI網(wǎng)絡(luò)優(yōu)先出版:2016-12-21,http://www.cnki.net/kcms/detail/11.5602.TP.20161221.1128.002.html

    SUN Ping was born in 1990.She is an M.S.candidate at Tianjin University.Her research interests include recommending system and machine learning,etc.

    孫萍(1990—),女,河北三河人,天津大學(xué)人工智能實(shí)驗(yàn)室碩士研究生,主要研究領(lǐng)域?yàn)橥扑]系統(tǒng),機(jī)器學(xué)習(xí)等。

    LI Qiang was born in 1974.He received the Ph.D.degree in signal and information processing from Tianjin University in 2003.Now he is a professor and Ph.D.supervisor at Tianjin University.His research interests include intelligence information processing,filter design,digital system and micro-system design,etc.

    李鏘(1974—),男,山西太原人,2003年于天津大學(xué)獲得博士學(xué)位,現(xiàn)為天津大學(xué)教授、博士生導(dǎo)師,主要研究領(lǐng)域?yàn)橹悄苄畔⑻幚恚瑸V波器設(shè)計(jì),數(shù)字系統(tǒng)和微系統(tǒng)設(shè)計(jì)等。

    GUAN Xin was born in 1977.She received the Ph.D.degree from Tianjin University in 2009.Now she is a lecturer at School of Electronic Information Engineering,Tianjin University.Her research interests include music information retrieval,statistical learning and convex optimization,etc.

    關(guān)欣(1977—),女,河北石家莊人,2009年于天津大學(xué)獲得博士學(xué)位,現(xiàn)為天津大學(xué)講師,主要研究領(lǐng)域?yàn)橐魳沸盘?hào)檢索,統(tǒng)計(jì)學(xué)習(xí),凸優(yōu)化等。

    LV Jie was born in 1991.He is an M.S.candidate at Tianjin University.His research interests include recommending system and machine learning,etc.

    呂杰(1991—),男,河南駐馬店人,天津大學(xué)碩士研究生,主要研究領(lǐng)域?yàn)橥扑]系統(tǒng),機(jī)器學(xué)習(xí)等。

    猜你喜歡
    雙重相似性協(xié)同
    自然與成長(zhǎng)的雙重變奏
    一類上三角算子矩陣的相似性與酉相似性
    蜀道難:車與路的協(xié)同進(jìn)化
    淺析當(dāng)代中西方繪畫的相似性
    化解“雙重目標(biāo)”之困
    “四化”協(xié)同才有出路
    汽車觀察(2019年2期)2019-03-15 06:00:50
    三醫(yī)聯(lián)動(dòng) 協(xié)同創(chuàng)新
    低滲透黏土中氯離子彌散作用離心模擬相似性
    “雙重打擊”致恐龍滅絕
    協(xié)同進(jìn)化
    凉山| 砚山县| 巴东县| 台南县| 山丹县| 无棣县| 交口县| 朝阳区| 敦化市| 政和县| 南投县| 东明县| 甘谷县| 乌拉特前旗| 洪洞县| 黑山县| 搜索| 广宁县| 左权县| 木里| 韩城市| 柳州市| 岳阳市| 高台县| 叙永县| 开江县| 安康市| 临海市| 永州市| 阿图什市| 平塘县| 楚雄市| 西充县| 新营市| 金乡县| 桃江县| 南郑县| 平南县| 随州市| 大安市| 峨眉山市|