張正風(fēng) 強(qiáng)承魁 段素峰
摘要:大數(shù)據(jù)時(shí)代,各類影視資源紛紛涌現(xiàn),“信息過(guò)載”問(wèn)題在影視行業(yè)愈發(fā)凸顯,有效的電影推薦算法是解決這個(gè)問(wèn)題的關(guān)鍵。本文首先總結(jié)了電影推薦的主流推薦算法,主要有協(xié)同過(guò)濾、基于內(nèi)容的推薦和混合推薦三類算法,然后比較分析了幾種推薦算法的優(yōu)缺點(diǎn)。最后,針對(duì)推薦算法的發(fā)展方向,又對(duì)基于上下文的推薦算法進(jìn)行了簡(jiǎn)單的介紹。
關(guān)鍵詞:電影推薦;協(xié)同過(guò)濾;基于內(nèi)容的推薦;混合推薦
Abstract:In the era of big data, all kinds of film and television resources have emerged, and the problem of "information overload" has become increasingly prominent in the film and television industry. Effective film recommendation algorithm is the key to solve this problem. This paper first summarizes the mainstream recommendation algorithms of film recommendation, including collaborative filtering, content-based recommendation and hybrid recommendation, and then compares and analyzes the advantages and disadvantages of several recommendation algorithms. Finally, according to the development direction of recommendation algorithm, the context based recommendation algorithm is briefly introduced.
Key words:Movie recommendation; collaborative filtering; content-based recommendation; hybrid recommendation
1引言
近年來(lái),影視行業(yè)搭乘互聯(lián)網(wǎng)的快車,發(fā)展迅速,數(shù)量和種類增長(zhǎng)快速。面對(duì)令人眼花繚亂的海量影視資源,“電影過(guò)載”問(wèn)題日益凸顯,用戶需要花費(fèi)大量的時(shí)間尋找自己感興趣的電影,并且用戶對(duì)觀影的要求也更加多樣化。如何提升用戶滿意度,進(jìn)而增加用戶黏度是視頻門戶網(wǎng)站當(dāng)前面臨的巨大挑戰(zhàn)。由此可見,提升個(gè)性化電影推薦算法性能的研究具有重要意義。
2電影推薦算法研究
推薦系統(tǒng)能在大數(shù)據(jù)時(shí)代有效的解決信息獲取泛濫的問(wèn)題。在日常生活中,輔助人們做出決策。傳統(tǒng)推薦算法通常分為四類:協(xié)同過(guò)濾推薦、基于內(nèi)容的推薦、基于人口統(tǒng)計(jì)學(xué)的推薦和混合推薦。
2.1基于協(xié)同過(guò)濾的推薦算法
協(xié)同過(guò)濾是推薦算法中的經(jīng)典,也是當(dāng)前應(yīng)用最廣泛的推薦算法,其思想可以概括為“物以類聚,人以群分”[1],是“集體智慧”的體現(xiàn)。例如,用戶想要看電影,但沒有明確觀影對(duì)象時(shí),通常會(huì)讓興趣類似的朋友推薦電影,這就體現(xiàn)了協(xié)同過(guò)濾的思想。協(xié)同過(guò)濾分支眾多,通常來(lái)說(shuō)可分為三類。
(1)基于用戶的協(xié)同過(guò)濾推薦算法
此算法原理簡(jiǎn)單,就是從用戶的角度出發(fā),從大量用戶中尋找與目標(biāo)用戶有相似興趣的用戶群進(jìn)行推薦[2]。下面以基于用戶的電影推薦為例,介紹一下推薦的流程。如圖1,當(dāng)對(duì)張三推薦時(shí),張三和王五都看過(guò)電影《算死草》和《百變星君》,而張三和李四沒有相同的觀影記錄,顯然張三和王五的觀影偏好更相似,故將王五觀看過(guò)的電影《少林足球》推薦給張三。
(2)基于物品的協(xié)同過(guò)濾推薦算法
基于物品的協(xié)同過(guò)濾[3]從物品的角度出發(fā),通過(guò)尋找與目標(biāo)用戶有關(guān)系的物品的相似物品進(jìn)行推薦,一定程度上緩解了上述問(wèn)題。如圖2是一個(gè)基于物品推薦的簡(jiǎn)單例子。在這個(gè)例子中,用戶喜歡《速度與激情8》和《敢死隊(duì)》兩部電影,然后推薦系統(tǒng)會(huì)分別找出與這兩部電影最相似的三部電影,根據(jù)公式計(jì)算用戶對(duì)每一部電影的感興趣程度。例如,計(jì)算用戶對(duì)《哥斯拉》的興趣度。因?yàn)檫@部電影和《速度與激情8》以及《敢死隊(duì)》的相似度分別為0.4和0.5.考慮到用戶對(duì)《速度與激情8》的興趣度是1.3,對(duì)《敢死隊(duì)》的興趣度是0.9,所以用戶對(duì)《哥斯拉》的興趣度為1.3*0.4+0.9*0.5=0.97。將用戶對(duì)每一部電影的興趣度計(jì)算出來(lái),選擇興趣度最大的電影推薦給用戶。
2.2基于內(nèi)容的推薦算法
基于內(nèi)容的推薦算法是最早被使用的推薦算法,是在信息檢索和信息過(guò)濾的基礎(chǔ)上發(fā)展而來(lái),其原理就是根據(jù)用戶有過(guò)消費(fèi)行為物品的類別、標(biāo)簽、評(píng)論等相關(guān)信息找到與之相似的物品推薦給用戶,原理簡(jiǎn)單,可解釋性強(qiáng)[6]。因?yàn)榛趦?nèi)容的推薦算法只需根據(jù)物品特征計(jì)算相似度,且不需要其他用戶信息,故不存在冷啟動(dòng)和新物品推薦問(wèn)題。該算法主要用于文本領(lǐng)域。拿使用此算法的視頻推薦系統(tǒng)為例,如圖3所示,當(dāng)給用戶A推薦電影時(shí),因?yàn)椋脩鬉喜歡電影A,所以系統(tǒng)通過(guò)比較電影A、電影B和電影C的類型和主演,發(fā)現(xiàn)電影A和電影C都屬于“喜劇”類型,且主演都有王寶強(qiáng),故認(rèn)為電影A與電影C更相似,所以將電影C推薦給用戶A。
2.3基于人口統(tǒng)計(jì)學(xué)的推薦算法
此推薦算法簡(jiǎn)單、容易實(shí)現(xiàn)。簡(jiǎn)而言之,就是根據(jù)用戶的基本信息進(jìn)行推薦。通常,用戶的基本信息包括年齡、職業(yè)、民族、性別和家庭地址等數(shù)據(jù)。根據(jù)用戶的基本信息將用戶劃分成不同類別,同一類的用戶相似,同屬于多個(gè)類的用戶相似度更高[8]。如圖4是一個(gè)簡(jiǎn)單的基于人口統(tǒng)計(jì)學(xué)推薦系統(tǒng)原理圖。在這個(gè)例子中,Lisa和Ketty年齡相仿、性別相同且都是學(xué)生,因此認(rèn)為L(zhǎng)isa和Ketty的興趣有高度的相似性,可以認(rèn)為Ketty很可能喜歡Lisa喜歡的物品A,所以可以推薦給Ketty。通過(guò)這個(gè)例子可以看出,基于人口統(tǒng)計(jì)學(xué)的推薦算法僅需要用戶的基本信息,所以可以應(yīng)用到各種領(lǐng)域的推薦系統(tǒng)中。