陳盛慶 龔 俊
寧波大紅鷹學(xué)院,浙江 寧波 315175
?
淺談協(xié)同過(guò)濾算法
陳盛慶龔俊
寧波大紅鷹學(xué)院,浙江寧波315175
隨著近年來(lái)中國(guó)互聯(lián)網(wǎng)的飛速發(fā)展,社會(huì)信息很快的趨向于數(shù)字化、網(wǎng)絡(luò)化,通過(guò)各種互聯(lián)網(wǎng)絡(luò)獲取信息的人迅速增加。在如今高度信息化的社會(huì),人們獲取信息的重要途徑是互聯(lián)網(wǎng)。在這樣的大環(huán)境下推薦算法應(yīng)運(yùn)而生,為了針對(duì)能更快的查找到所需的信息,提出了一種基于內(nèi)容相似度的知識(shí)協(xié)同過(guò)濾推送算法。本文介紹了協(xié)同過(guò)濾算法的知識(shí)框架和這個(gè)算法存在的問(wèn)題和解決方案對(duì)推薦算法的發(fā)展有一定的意義。
協(xié)同過(guò)濾;知識(shí)推送;內(nèi)容相似度;個(gè)性化推薦
隨著互聯(lián)網(wǎng)的迅速發(fā)展,互聯(lián)網(wǎng)信息的日益增長(zhǎng)與大量用戶的需求形成了巨大矛盾。面對(duì)紛雜的信息資源我們感到無(wú)所適從,人們需要花費(fèi)大量的時(shí)間去搜索信息才能從互聯(lián)網(wǎng)中搜索到自己說(shuō)需要的信息。所以有越來(lái)越多的人在查詢信息都會(huì)去使用一些有推薦算法的大型的搜索引擎,并且這些搜索引擎成為了人們生活與工作中的必備工具。
搜索引擎的搜索原理是:當(dāng)用戶搜索信息時(shí),搜索引擎就在數(shù)據(jù)庫(kù)中進(jìn)行無(wú)差別的搜索,找到相應(yīng)的信息按一定順序反饋給讀者。眾所周知,搜索引擎只是一種“一對(duì)多”的工具,它往往只能區(qū)分不同的搜索語(yǔ)句,忽略了重要的用戶信息和他們的所需信息。為了能按照用戶的興趣點(diǎn)和需求,為了給用戶提供快捷而準(zhǔn)確的推薦服務(wù),完善當(dāng)前的內(nèi)容推送算法是勢(shì)在必行。
協(xié)同過(guò)濾算法是當(dāng)今眾多的推薦系統(tǒng)運(yùn)用最為成熟的和最普遍的一個(gè)推薦算法。它的顧名思義就是通過(guò)用戶對(duì)網(wǎng)站的訪問(wèn)與網(wǎng)站間的互動(dòng)例如:評(píng)價(jià)和留言等記錄通過(guò)計(jì)算推薦并反饋給用戶,使用戶更快,更有效率的找到自己所需的信息。
基于項(xiàng)目的協(xié)同過(guò)濾和基于用戶的協(xié)同過(guò)濾是如今協(xié)同過(guò)濾算法中運(yùn)用最多的。該算法是依據(jù)不同的用戶對(duì)每個(gè)物品的評(píng)分向量之間的相似度的計(jì)算,然后搜索當(dāng)前用戶的附近用戶,最后根據(jù)最近的用戶對(duì)項(xiàng)目的評(píng)分如果相似度相對(duì)較高則推薦給當(dāng)前用戶。
基于用戶的協(xié)同過(guò)濾推薦算法的步驟可分為以下幾點(diǎn):
(一)建立用戶模型:協(xié)同過(guò)濾算法的輸入的數(shù)據(jù)通常用一個(gè)m*n的矩陣R來(lái)表示用戶的評(píng)價(jià),其中的n表示有多少個(gè)項(xiàng)目,m表示用戶數(shù),Rxy表示第x個(gè)用戶對(duì)第y個(gè)物品的評(píng)分值。這個(gè)評(píng)分值可以表示用戶的隱形的數(shù)據(jù),比如對(duì)商品的購(gòu)買次數(shù)等的隱形的數(shù)據(jù),還可以用來(lái)表示對(duì)商品的評(píng)價(jià)。
(二)尋找最近用戶:通過(guò)尋找周圍的鄰居與目標(biāo)用戶的進(jìn)行相似度匹配。并且通過(guò)鄰居用戶與目標(biāo)用戶對(duì)物品的評(píng)分值進(jìn)行比較與計(jì)算,算出最近用戶與目標(biāo)用戶最近似的集。
(三)產(chǎn)生推薦物品:基于項(xiàng)目的協(xié)同過(guò)濾是按照用戶的歷史的偏好數(shù)據(jù)(如商品瀏覽記錄和購(gòu)買記錄),然后計(jì)算用戶瀏覽和購(gòu)買的各物品之間的相似性,最后把產(chǎn)生與用戶感興趣的物品相類似的物品推薦給用戶。在某些大型的購(gòu)物軟件上,已經(jīng)不同程度的運(yùn)用到推薦算法。如Taobao,Tmall在用戶瀏覽一些商品或者購(gòu)買商品后系統(tǒng)會(huì)推薦給你一些符合算法的商品。
雖然協(xié)同過(guò)濾在購(gòu)物網(wǎng)站推薦系統(tǒng)中的得到了大量的運(yùn)用,但是算法不是完美,對(duì)于協(xié)同過(guò)濾算法來(lái)說(shuō),一直存在系統(tǒng)延伸性問(wèn)題,數(shù)據(jù)稀疏性問(wèn)題,冷啟動(dòng)問(wèn)題和這三大基本問(wèn)題。
稀疏性問(wèn)題:表面上需要用戶的評(píng)價(jià)矩陣來(lái)對(duì)用戶信息的表示實(shí)際上用戶在商城的購(gòu)買率占商城的商品總量不足1%,所以所形成的矩陣將會(huì)很稀疏。在數(shù)據(jù)量大而且數(shù)據(jù)稀疏難以找到最近鄰居用戶集,和響應(yīng)時(shí)間會(huì)很長(zhǎng)。
冷啟動(dòng)問(wèn)題:冷啟動(dòng)問(wèn)題,也可以看成是數(shù)據(jù)稀疏性問(wèn)題的的一種特別的情況。傳統(tǒng)的協(xié)同過(guò)濾推薦,簡(jiǎn)單來(lái)說(shuō),是指通過(guò)類似的用戶或物品計(jì)算,從而得到推薦的項(xiàng)目。但是,協(xié)同過(guò)濾沒(méi)有辦法對(duì)這個(gè)項(xiàng)目預(yù)測(cè)、評(píng)分以及推薦,原因在于每次出現(xiàn)一個(gè)新的項(xiàng)目不存在用戶的評(píng)價(jià)。而且由于新項(xiàng)目的出現(xiàn)時(shí)期不長(zhǎng),用戶評(píng)價(jià)會(huì)相對(duì)較少,這就造成了推薦內(nèi)容的準(zhǔn)確性也比較差。
可擴(kuò)展性問(wèn)題:推薦系統(tǒng)的可擴(kuò)展性是制約協(xié)同過(guò)濾推薦算法的重要因素。隨著用戶的飛速增加和信息量的迅速擴(kuò)大,算法的響應(yīng)時(shí)間會(huì)隨這兩個(gè)因素增加而變長(zhǎng)。
基于以上的問(wèn)題,可以通過(guò)采用將協(xié)同過(guò)濾算法與基于內(nèi)容算法相結(jié)合的推薦方法,利用基于內(nèi)容推薦算法對(duì)相似度較大項(xiàng)目的計(jì)算彌補(bǔ)協(xié)同過(guò)濾推薦在新項(xiàng)目推薦方面的不足,從而可以相對(duì)有效的解決系統(tǒng)的冷啟動(dòng)和數(shù)據(jù)的稀疏性問(wèn)題。
該組合算法通過(guò)以下三步就可以做到:首先,利用基于內(nèi)容算法的推薦項(xiàng)目分析找到與新項(xiàng)目相似的項(xiàng)目;其次,對(duì)新項(xiàng)目進(jìn)行評(píng)分。完成這步可以基于用戶對(duì)找出的相似項(xiàng)目的評(píng)價(jià)判斷新項(xiàng)目的評(píng)分值;最后,計(jì)算最終的項(xiàng)目預(yù)測(cè)評(píng)分。想要得到評(píng)分可以用傳統(tǒng)的協(xié)同過(guò)濾算法,計(jì)算出鄰居用戶,從而對(duì)最終項(xiàng)目評(píng)分并使新項(xiàng)目參與到推薦中來(lái)。
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)民的人數(shù)越來(lái)越多,網(wǎng)站的用戶人數(shù)的持續(xù)增長(zhǎng)和站點(diǎn)的結(jié)構(gòu)、內(nèi)容復(fù)雜度越來(lái)越高,單純的基于協(xié)同過(guò)濾的推薦系統(tǒng)已經(jīng)不能滿足用戶的需求,該算法面臨著以下要解決的問(wèn)題:
(一)提高算法的可拓展性:雖然協(xié)同過(guò)濾算法能夠容易的為用戶提供個(gè)性化的推薦,但是對(duì)于商務(wù)網(wǎng)站,尤其是大型的商務(wù)網(wǎng)站,需要同時(shí)給大量用戶提供推薦服務(wù),對(duì)系統(tǒng)的響應(yīng)率和響應(yīng)速度要求很高,該算法要提高系統(tǒng)的響應(yīng)率,為用戶提供快速的推薦;另一方面還要考慮到系統(tǒng)的存儲(chǔ)空間的問(wèn)題,應(yīng)減少推薦系統(tǒng)運(yùn)行對(duì)系統(tǒng)的負(fù)擔(dān)。
(二)提高對(duì)個(gè)性化的推薦的質(zhì)量:用戶得到的推薦產(chǎn)品要與用戶興趣產(chǎn)品相似。如果用戶多次得到的推薦產(chǎn)品不是自己想要的將不會(huì)使用該推薦系統(tǒng)。但是推薦算法的響應(yīng)率與推薦的質(zhì)量是相矛盾的,要提高響應(yīng)率就必須犧牲推薦的質(zhì)量。所以要解決和協(xié)調(diào)這兩個(gè)要求讓協(xié)調(diào)過(guò)濾推薦算法更加完善。
一個(gè)完善的推薦算法可以快速的幫助用戶在紛雜的信息資源中搜索到自己說(shuō)需要的信息,不僅可以提高用戶對(duì)網(wǎng)站的信任度從而增加收益,而且提高了用戶的搜索時(shí)間成本。當(dāng)前社會(huì)上對(duì)推薦系統(tǒng)有龐大的需求得到了很大的關(guān)注。推薦系統(tǒng)已經(jīng)廣泛的運(yùn)用在電子商務(wù),視頻網(wǎng)站,音樂(lè)網(wǎng)站等。在廣泛的應(yīng)用中會(huì)慢慢的發(fā)現(xiàn)算法的問(wèn)題和解決方法,算法會(huì)越來(lái)越完善。
[1]徐紅艷,杜文剛.一種基于多屬性評(píng)分的協(xié)同過(guò)濾算法[J].遼寧大學(xué)學(xué)報(bào):自然科學(xué)版,2015,42(2):136-142.
[2]孟祥武,胡勛,王立才,張玉潔.移動(dòng)推薦系統(tǒng)及其應(yīng)用[J].軟件學(xué)報(bào),2013,24(1):91-108.
TP311.13
A
1006-0049-(2016)15-0149-01