劉 帥, 劉嬋娟
(1. 廣州大學(xué) 計(jì)算科技研究院, 廣東 廣州 510006; 2. 大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024)
隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)字音樂(lè)成為當(dāng)前主流消費(fèi)內(nèi)容.然而其海量的音樂(lè)數(shù)據(jù)大大超出了受眾的承受能力,在海量曲庫(kù)中尋找個(gè)人喜歡的音樂(lè)可能引發(fā)用戶信息疲勞.為了提升用戶體驗(yàn),音樂(lè)推薦系統(tǒng)應(yīng)運(yùn)而生[1].近年來(lái),研究者們提出了很多相關(guān)的算法和解決方案以提高推薦系統(tǒng)的性能和體驗(yàn),對(duì)音樂(lè)推薦系統(tǒng)的發(fā)展做出了重要貢獻(xiàn).
根據(jù)第45次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[2],截至2020年3月28日,我國(guó)網(wǎng)民規(guī)模為9.04億,手機(jī)網(wǎng)民規(guī)模為8.97億,網(wǎng)民中使用手機(jī)上網(wǎng)的比例高達(dá)99.3%.移動(dòng)互聯(lián)網(wǎng)大規(guī)模普及的同時(shí),帶來(lái)了海量信息和數(shù)據(jù),信息過(guò)載的問(wèn)題日趨嚴(yán)重,從而促進(jìn)了搜索引擎和推薦系統(tǒng)的蓬勃發(fā)展.
推薦系統(tǒng)是一種繪制用戶畫(huà)像、預(yù)測(cè)用戶愛(ài)好,以避免信息過(guò)載,為用戶提供個(gè)性化服務(wù)的方法.隨著推薦算法的成熟,推薦系統(tǒng)的應(yīng)用也成為近年的熱點(diǎn),并在各個(gè)領(lǐng)域發(fā)揮著越來(lái)越重要的作用,音樂(lè)領(lǐng)域也不例外[3].好的推薦系統(tǒng)可以吸引更多用戶加入,與用戶產(chǎn)生共鳴,從而創(chuàng)造經(jīng)濟(jì)價(jià)值.
傳統(tǒng)的推薦方法主要包括協(xié)同過(guò)濾、基于內(nèi)容的推薦、基于標(biāo)簽的推薦、基于上下文的推薦、基于深度學(xué)習(xí)的推薦和混合推薦.
用戶使用音樂(lè)平臺(tái)的時(shí)候,會(huì)看到海量的音樂(lè)作品,為了盡快找到自己心儀的作品,用戶可能會(huì)選擇查看排行榜或者詢問(wèn)朋友,看看別人在聽(tīng)什么歌曲,喜歡什么歌曲,然后選擇一些名列前茅的歌曲收聽(tīng).這樣的方式可以擴(kuò)展為找到和該用戶歷史興趣相似的用戶,將他們最近聽(tīng)過(guò)和收藏過(guò)的歌曲作為推薦結(jié)果推送給用戶,推薦的結(jié)果會(huì)更加有參考價(jià)值,這種方法就是基于協(xié)同過(guò)濾的推薦.協(xié)同過(guò)濾是經(jīng)典的推薦算法,如矩陣因子分解方法,其數(shù)據(jù)的來(lái)源是用戶的歷史交互數(shù)據(jù).協(xié)同過(guò)濾的應(yīng)用非常廣泛,但同時(shí)也面臨著數(shù)據(jù)稀疏和冷啟動(dòng)等問(wèn)題,同時(shí),由于協(xié)同過(guò)濾的模型所限,在特征提取方面存在著很多不足,從而會(huì)限制推薦系統(tǒng)的準(zhǔn)確率[4].
基于內(nèi)容的推薦方法是通過(guò)提取物品特征,將用戶已選擇過(guò)(如點(diǎn)擊、收藏、不感興趣和單曲循環(huán)等操作)的物品與其他物品計(jì)算相似度,將相似度較高的物品以列表的形式推薦給用戶.而傳統(tǒng)的協(xié)同過(guò)濾所使用的特征是人工添加的,制約了該方法的性能及其擴(kuò)展性.
基于標(biāo)簽的推薦則是利用用戶對(duì)物品打上的標(biāo)簽來(lái)分析用戶的偏好,但這種推薦方法更適用于樂(lè)于打標(biāo)簽的用戶.而且,由于用戶打標(biāo)簽是一種主觀意愿的表達(dá),為了實(shí)現(xiàn)標(biāo)簽的客觀性,可以通過(guò)網(wǎng)站官方對(duì)歌曲或歌單打上客觀標(biāo)簽來(lái)補(bǔ)足.與此同時(shí),基于標(biāo)簽的推薦會(huì)存在一定的數(shù)據(jù)稀疏和冷啟動(dòng)的問(wèn)題.
混合推薦是將多種推薦方法取長(zhǎng)補(bǔ)短,來(lái)克服冷啟動(dòng)和數(shù)據(jù)稀疏問(wèn)題.移動(dòng)互聯(lián)網(wǎng)的普及,使得用戶的數(shù)據(jù)信息變得更加具體、更加多樣化,包括用戶的評(píng)分、為物品所打的標(biāo)簽、所處的位置、與智能終端的交互等.但由于上述數(shù)據(jù)存在著信息規(guī)模大、數(shù)據(jù)非結(jié)構(gòu)化和來(lái)源廣泛等問(wèn)題,如何有效地利用這些數(shù)據(jù)仍然面臨著挑戰(zhàn)[5-6].
近年來(lái),深度學(xué)習(xí)在多個(gè)方面取得突破,同時(shí)為推薦系統(tǒng)帶來(lái)了新的機(jī)遇.一方面,由于深度學(xué)習(xí)所使用的是深層次的神經(jīng)網(wǎng)絡(luò),因此,可以從大量數(shù)據(jù)中學(xué)習(xí)提取特征,能夠用多維度、多層次的特征來(lái)表示用戶和物品;另一方面,深度學(xué)習(xí)能夠?qū)⒉煌S度、不同層次的數(shù)據(jù)表征到同一個(gè)隱空間,更加便于處理復(fù)雜數(shù)據(jù),提取更接近本質(zhì)的特征.在此基礎(chǔ)上融合了傳統(tǒng)的推薦方法,能夠有效地挖掘數(shù)據(jù)特征,在一定程度上可以解決傳統(tǒng)推薦系統(tǒng)中的數(shù)據(jù)稀疏和冷啟動(dòng)問(wèn)題[7].近年來(lái),基于深度學(xué)習(xí)的推薦系統(tǒng)研究成為新的研究趨勢(shì).
移動(dòng)互聯(lián)網(wǎng)的迅速發(fā)展為人們的生活帶來(lái)了便利,日常生活內(nèi)容大都可以在網(wǎng)絡(luò)上完成,如訂外賣(mài)、打車(chē)、聽(tīng)音樂(lè)、看電影及網(wǎng)購(gòu)等,同時(shí)也帶來(lái)了海量的數(shù)據(jù),這些行為數(shù)據(jù)對(duì)研究人們的偏好大有益處.但是海量的內(nèi)容同樣會(huì)困擾用戶,難以在巨大的信息庫(kù)中找到自己感興趣的內(nèi)容,因此,推薦系統(tǒng)正在變得越來(lái)越重要.例如,在線視頻門(mén)戶Netflix中有80%的點(diǎn)擊量來(lái)自推薦[8],知名視頻網(wǎng)站YouTube大約有60%的點(diǎn)擊量來(lái)自于推薦[9].推薦系統(tǒng)的廣泛應(yīng)用,為用戶和平臺(tái)帶來(lái)了更加良性的關(guān)系,好的推薦系統(tǒng)可以實(shí)現(xiàn)用戶和平臺(tái)雙贏.對(duì)用戶而言,可以從枯燥繁瑣的尋找中解脫出來(lái);對(duì)平臺(tái)而言,可以使用戶更加依賴平臺(tái),從而成為穩(wěn)定的用戶群體,平臺(tái)可以通過(guò)提供付費(fèi)服務(wù)和廣告投放得到利潤(rùn).
移動(dòng)互聯(lián)網(wǎng)和移動(dòng)終端的普及帶來(lái)了數(shù)以億計(jì)的網(wǎng)民群體,但對(duì)于音樂(lè)這樣的藝術(shù)作品,不同的用戶之間的品味和喜好各不相同,因此,為了擴(kuò)大平臺(tái)的用戶群、增強(qiáng)用戶黏性,音樂(lè)個(gè)性化服務(wù)已成為當(dāng)前在線音樂(lè)平臺(tái)的核心競(jìng)爭(zhēng)力之一,如網(wǎng)易云音樂(lè)、QQ音樂(lè)及國(guó)外的iTunes、Spotify等.
一個(gè)好的音樂(lè)推薦系統(tǒng),需要有效地結(jié)合音頻特征、用戶及平臺(tái)所打標(biāo)簽、用戶交互等方面,來(lái)使推薦系統(tǒng)更加精準(zhǔn),用戶體驗(yàn)更加良好.本文著力于概述音樂(lè)推薦系統(tǒng)目前主要的研究方法以及面臨的問(wèn)題和挑戰(zhàn).
一個(gè)好的推薦算法可以取得良好的準(zhǔn)確率、召回率,這些指標(biāo)是衡量推薦系統(tǒng)性能的重要因素.推薦系統(tǒng)的研究大都集中于如何提升算法的推薦效果.
二十世紀(jì)90年代,為了解決郵件過(guò)濾的問(wèn)題,協(xié)同過(guò)濾算法隨之誕生,從此推薦系統(tǒng)的研究進(jìn)入了飛速發(fā)展的階段.隨著推薦系統(tǒng)的影響日益擴(kuò)大,ACM主辦了推薦系統(tǒng)會(huì)議RecSys,會(huì)議致力于推動(dòng)推薦系統(tǒng)的發(fā)展,其論文涵蓋了推薦系統(tǒng)的各個(gè)方面.在此之后,Netflix采用大賽的形式征集可以有效提高電影預(yù)測(cè)準(zhǔn)確率的算法,由于比賽所使用的數(shù)據(jù)集開(kāi)源,也有力推動(dòng)了電影推薦算法的發(fā)展.與此同時(shí),人工智能各個(gè)領(lǐng)域之間相互影響、相互促進(jìn),其他領(lǐng)域的突破性成果也促進(jìn)了推薦系統(tǒng)的發(fā)展.
音樂(lè)推薦系統(tǒng)常用的方法有協(xié)同過(guò)濾、基于評(píng)論、基于內(nèi)容、基于標(biāo)簽、基于上下文、基于深度學(xué)習(xí)和混合推薦等方法.
協(xié)同過(guò)濾的基本思想是“物以類(lèi)聚,人以群分”,將喜好相似度高的用戶作為一個(gè)群體,并將群體內(nèi)其他成員所喜歡的物品作為推薦列表推送給用戶,這就是基于用戶的協(xié)同過(guò)濾;基于物品的協(xié)同過(guò)濾是將相似的物品推薦給相似的用戶.傳統(tǒng)的協(xié)同過(guò)濾利用的不是物品的本身特征,而是用戶和物品的交互數(shù)據(jù),因此,引入深度學(xué)習(xí)方法可以挖掘出潛在特征,以使得推薦結(jié)果更加符合用戶偏好.其中,主要有基于受限玻爾茲曼機(jī)[10]和自動(dòng)編碼器[11-12]等方法,文獻(xiàn)[12]將評(píng)分矩陣作為輸入,預(yù)測(cè)結(jié)果即為編碼器輸出.而文獻(xiàn)[11]認(rèn)為由于評(píng)分和輔助信息的稀疏性質(zhì),學(xué)習(xí)到的潛在因素效果受到限制,提出了一種基于深度學(xué)習(xí),將概率矩陣分解和自動(dòng)編碼器相結(jié)合的可擴(kuò)展框架.
協(xié)同過(guò)濾分為基于物品和基于用戶兩類(lèi),由于兩種方法都不直接利用物品本身內(nèi)容的相似度,因此,有很強(qiáng)的擴(kuò)展性,這種方法可以不受物品類(lèi)別的限制應(yīng)用于各個(gè)方面,所以在推薦系統(tǒng)發(fā)展的初期廣受青睞.
傳統(tǒng)的協(xié)同過(guò)濾只利用了用戶和物品的交互信息,除此之外還有諸多可利用的上下文信息,如位置、天氣、特殊的節(jié)日和音樂(lè)平臺(tái)內(nèi)的操作日志,如最近收藏的歌曲、最近單曲循環(huán)的歌曲、新建的歌單及用戶停留時(shí)長(zhǎng),為了實(shí)現(xiàn)更加精準(zhǔn)的推薦,可以將這些信息都融入?yún)f(xié)同過(guò)濾.Hansen等[13]采用列表中歌曲同時(shí)出現(xiàn)的概率來(lái)衡量歌曲間的相似度,歌曲同時(shí)出現(xiàn)的概率越大,則歌曲越相似.Pampalk等[14]提出通過(guò)以種子歌曲為主創(chuàng)建啟發(fā)式隨機(jī)列表,基于音頻相似度為用戶推薦,并融入用戶交互操作(如“跳過(guò)”“喜歡”等)進(jìn)一步完善推薦列表.實(shí)驗(yàn)證明,該方法能夠明顯降低用戶對(duì)推薦歌曲的不滿意度.文獻(xiàn)[14]和[15]通過(guò)“喜歡”“跳過(guò)”等用戶交互信息來(lái)實(shí)時(shí)調(diào)整各類(lèi)音樂(lè)特征在實(shí)際應(yīng)用環(huán)境中所占的比例,使得用戶有更高的滿意度.Park等[16]認(rèn)為用戶喜歡的音樂(lè)與位置、天氣等上下文信息緊密相關(guān),因此,提出一種情境感知音樂(lè)推薦系統(tǒng)CA-MRS,該系統(tǒng)利用模糊系統(tǒng)、貝葉斯網(wǎng)絡(luò)和效用理論來(lái)針對(duì)當(dāng)前情境實(shí)現(xiàn)更加精準(zhǔn)的推薦.
傳統(tǒng)的協(xié)同過(guò)濾分別通過(guò)計(jì)算用戶或者物品的相似性來(lái)進(jìn)行推薦,如基于物品的協(xié)同過(guò)濾是通過(guò)共同喜好的用戶計(jì)算物品之間的相似度.1998年,Amazon公司首次將基于物品的推薦系統(tǒng)服務(wù)大規(guī)模應(yīng)用[17].
以下為三種相似度的計(jì)算方式:
(1)Pearson相關(guān)系數(shù),如下公式所示:
(2)余弦相似性,如下公式所示:
(3)Jaccard相似性,如下公式所示:
協(xié)同過(guò)濾的兩種方法從本質(zhì)上來(lái)說(shuō),都是以交互信息為核心,因此,面臨著數(shù)據(jù)稀疏的問(wèn)題,數(shù)據(jù)量越大,數(shù)據(jù)稀疏帶來(lái)的影響也越大.為了克服數(shù)據(jù)稀疏帶來(lái)的負(fù)面影響,基于模型的協(xié)同過(guò)濾應(yīng)運(yùn)而生.其中,文獻(xiàn)[18]和[19]都是基于矩陣分解的模型,文獻(xiàn)[18]提出了SVD模型,認(rèn)為矩陣因子分解模型生成的推薦效果優(yōu)于經(jīng)典的最近鄰技術(shù),并且加入了隱反饋、時(shí)間效應(yīng)和置信度等因素.文獻(xiàn)[19]提出了CF算法交替最小二乘加權(quán)正則化(ALS-WR),實(shí)驗(yàn)證明,ALS-WR的性能(均方根誤差)隨功能數(shù)量和ALS迭代數(shù)量的增加而單調(diào)提高.但基于模型的算法只能處理線性特征.在現(xiàn)實(shí)要處理的數(shù)據(jù)中,充斥著非線性的因素,后來(lái)出現(xiàn)了一些新的算法,如因子分解機(jī)[20]就是這類(lèi)算法的擴(kuò)展.
音樂(lè)是一種以聲音為媒介的藝術(shù)形式,是一種包含著情感、風(fēng)格和宗教等的文化表達(dá),聽(tīng)眾對(duì)不同音樂(lè)之間的偏好大相徑庭,因此,個(gè)性化推薦十分重要.評(píng)論作為用戶對(duì)該音樂(lè)的直接評(píng)價(jià),從評(píng)論中可以發(fā)現(xiàn)用戶的興趣偏好、對(duì)歌曲本身的評(píng)價(jià)、對(duì)這種音樂(lè)風(fēng)格的評(píng)價(jià)以及對(duì)音樂(lè)派別的偏好.
Mandel等[21]設(shè)計(jì)了一個(gè)基于網(wǎng)絡(luò)的游戲MajorMiner,測(cè)量了可訓(xùn)練二進(jìn)制分類(lèi)器以提取標(biāo)簽內(nèi)容,進(jìn)而實(shí)現(xiàn)基于標(biāo)簽的推薦.Kaji等[22]使用歌詞和注釋來(lái)發(fā)現(xiàn)音樂(lè)種類(lèi)及用戶口味之間的相似性.它根據(jù)基于內(nèi)容的方法結(jié)合用戶的喜好和情況生成一個(gè)播放列表,通過(guò)“喜歡”“跳過(guò)”等用戶交互數(shù)據(jù)來(lái)實(shí)時(shí)改變播放列表,以更加符合用戶偏好.
基于評(píng)論的音樂(lè)推薦優(yōu)勢(shì)在于,首先,評(píng)論是用戶感受的直觀表達(dá),相比于其他方法,與用戶真實(shí)理解之間有更小的歧義[23];其次,可以實(shí)時(shí)獲取用戶的情感狀態(tài),以形成跟隨用戶情緒變化的推薦,因此,時(shí)效性較強(qiáng).
然而,基于評(píng)論的推薦也面臨冷啟動(dòng)和長(zhǎng)尾效應(yīng)等問(wèn)題.首先,要有大量樂(lè)于評(píng)論的用戶來(lái)填充評(píng)論區(qū),對(duì)于沒(méi)有足夠樂(lè)于評(píng)論的用戶的平臺(tái)則無(wú)法使用這種方法;其次,熱門(mén)歌曲會(huì)吸引更多用戶來(lái)評(píng)論,而相對(duì)冷門(mén)的歌曲本身曝光率較低,得到評(píng)論的概率會(huì)比較低,可能難以提取足夠的信息進(jìn)行推薦.
音頻內(nèi)容本身包含著吸引用戶的特征,如節(jié)奏、旋律和樂(lè)器等影響用戶偏好的因素,因此,有效提取出對(duì)用戶產(chǎn)生吸引的本質(zhì)特征是重中之重.早期基于內(nèi)容的推薦是通過(guò)音頻處理方法(如離散傅里葉變換)等方法處理音頻數(shù)據(jù)來(lái)提取特征,其中涉及一些常用的音樂(lè)特征參數(shù),包括頻率中心、短時(shí)平均能量、過(guò)零率、梅爾頻率倒譜系數(shù)及帶寬等[24-25].
(1)頻率中心
頻率中心是指頻率在信號(hào)功率譜中的加權(quán)平均值.公式如下:
其中,F(xiàn)(w)是經(jīng)過(guò)離散傅里葉變換得到的幀頻譜,w=fs/2,fs是采樣頻率.
(2)短時(shí)平均能量
短時(shí)平均能量指在一個(gè)固定的短時(shí)區(qū)間內(nèi),音頻信號(hào)幀內(nèi)采樣點(diǎn)信號(hào)所累積能量的平均值.公式如下:
(3)過(guò)零率
過(guò)零率表示語(yǔ)音信號(hào)波穿過(guò)橫軸的次數(shù).廣泛用于區(qū)分高低頻段[26],公式如下:
其中,sgn[]為符號(hào)函數(shù),即
(4)均方根
(5)節(jié)拍直方圖
節(jié)拍直方圖可以直觀地表示節(jié)拍和節(jié)奏的變化[27].首先,利用小波變換得到原始音頻信號(hào)的一系列子頻帶,公式如下:
然后,對(duì)子頻帶分別進(jìn)行低通濾波、下采樣操作得到時(shí)域上的振幅包絡(luò)線,再對(duì)其求和,結(jié)合自相關(guān)函數(shù)分析,將得到的前5個(gè)峰值相加即得到節(jié)拍直方圖.
(6)梅爾頻率倒譜系數(shù):
梅爾頻率倒譜系數(shù)是組成梅爾頻率倒譜(基于聲音頻率的非線性梅爾刻度的對(duì)數(shù)能量頻譜的線性變換)的系數(shù),它源于音頻片段的倒頻譜.
(7)帶寬
帶寬表示音頻信號(hào)所占有的頻率寬度,這個(gè)寬度由傳輸信號(hào)的最高頻率和最低頻率決定,兩者之差就是帶寬值.
音樂(lè)作為一種藝術(shù)形式,吸引用戶、與用戶產(chǎn)生共鳴的因素有很多,其中最重要的就是音頻本身的特征,如語(yǔ)言、旋律、樂(lè)器、流派、歌詞和音樂(lè)人等.因此,根據(jù)音頻本身來(lái)進(jìn)行推薦,推薦效果會(huì)更加精準(zhǔn).
在實(shí)際應(yīng)用中,實(shí)現(xiàn)基于內(nèi)容的音樂(lè)推薦主要分為以下四個(gè)部分:
(1)繪制用戶畫(huà)像,用戶畫(huà)像包括用戶的年齡、性別、國(guó)籍、聽(tīng)歌偏好及與系統(tǒng)的交互信息等;
(2)將音樂(lè)embedding為相應(yīng)的特征向量;
(3)按選定的推薦方法生成候選集;
(4)將用戶畫(huà)像、音樂(lè)的特征向量按照推薦方法建模,在候選集中以TopN的方式為用戶推薦相似度高的音樂(lè)列表.
用戶畫(huà)像是用戶信息的數(shù)據(jù)化,其目的是為了更加貼合用戶的喜好和使用習(xí)慣,用戶畫(huà)像也與用戶所處情境密切相關(guān).為了更加準(zhǔn)確地描繪出音樂(lè)作品,第一步需要提取盡可能多的會(huì)影響用戶偏好的特征,使得推薦更加符合用戶需求.音頻形式可以通過(guò)卷積神經(jīng)網(wǎng)絡(luò)來(lái)提取特征,這部分就是特征工程,特征工程的目的就是將音頻embedding為特征向量;第二步是生成候選集,這一步的目的在于簡(jiǎn)化處理問(wèn)題的規(guī)模,在保證推薦效果的前提下減小計(jì)算量;第三步是排序,排序需要用到前兩步的結(jié)果,利用用戶畫(huà)像及音頻的特征向量作為排序的依據(jù),以用戶交互數(shù)據(jù)來(lái)訓(xùn)練回歸模型.文獻(xiàn)[28]提出了一種潛在因素模型,該模型通過(guò)濾波器組處理音頻,濾波器通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取梅爾頻譜系數(shù)[29].梅爾頻譜系數(shù)是可以用于表示人的聽(tīng)覺(jué)效應(yīng)的特征,基于梅爾頻譜特征建??梢詫W(xué)習(xí)到潛在的與用戶偏好相關(guān)的特征,并證明了使用潛在特征可以給出相比于協(xié)同過(guò)濾更加明確的推薦,而且在一定程度上克服了冷啟動(dòng)的問(wèn)題.因此,梅爾頻譜系數(shù)廣泛應(yīng)用于音頻信息分析等領(lǐng)域[30].文獻(xiàn)[31]提出另外一種重要的音頻特征——色度向量,可用于判斷音階,從而使推薦效果更加精準(zhǔn).
基于內(nèi)容推薦的優(yōu)勢(shì)在于推薦的依據(jù)來(lái)源于物品的本身屬性,可以有效地避免冷啟動(dòng)和長(zhǎng)尾效應(yīng)問(wèn)題,但其面臨著特征提取難度高、計(jì)算復(fù)雜、難以挖掘用戶的潛在興趣等問(wèn)題.
基于標(biāo)簽的推薦本質(zhì)上是根據(jù)標(biāo)簽之間的相似度來(lái)為用戶推薦物品.標(biāo)簽最常見(jiàn)的用法是,用戶會(huì)為自己感興趣的物品打上一些標(biāo)簽,這些標(biāo)簽可以作為分類(lèi)的依據(jù),也是用戶個(gè)人偏好的反映.因此,標(biāo)簽數(shù)據(jù)成為推薦系統(tǒng)獲得用戶偏好的一個(gè)新來(lái)源,這些標(biāo)簽是用戶表達(dá)主觀判斷想法的一種方式,是一種較為主觀的方法.但有些電商網(wǎng)站也會(huì)給用戶或商品打上一些客觀的標(biāo)簽,例如經(jīng)常網(wǎng)購(gòu)數(shù)碼產(chǎn)品的用戶,就會(huì)被打上“數(shù)碼達(dá)人”的標(biāo)簽,在今后的推薦中,可以更多地向該用戶推薦數(shù)碼類(lèi)產(chǎn)品.如國(guó)外著名音樂(lè)網(wǎng)站Last.fm,會(huì)通過(guò)分析用戶的聽(tīng)歌行為為用戶推薦個(gè)性化的音樂(lè).由于音樂(lè)屬于流媒體,分析音頻內(nèi)容較為復(fù)雜,因此,Last.fm引入了標(biāo)簽系統(tǒng),用戶可以在聽(tīng)音樂(lè)時(shí)對(duì)音樂(lè)或歌手打標(biāo)簽.歌曲標(biāo)簽的來(lái)源一般有兩個(gè):專業(yè)音樂(lè)人打的標(biāo)簽和音樂(lè)所屬歌單的標(biāo)簽.當(dāng)用戶創(chuàng)建一個(gè)歌單時(shí),會(huì)為歌單打標(biāo)簽,這些標(biāo)簽也可以作為這個(gè)歌單里歌曲的標(biāo)簽.歌單是用戶主觀創(chuàng)造的,在一定程度上表達(dá)了用戶的偏好信息,這些標(biāo)簽便可以更緊密地將用戶和歌曲連接起來(lái)[32].
Nanopoulos等[33]提出了使用三階張量對(duì)社交標(biāo)簽數(shù)據(jù)進(jìn)行建模的方法,這些張量捕獲了用戶、標(biāo)簽和音樂(lè)項(xiàng)目等三個(gè)方面之間的相關(guān)性,該模型通過(guò)高階奇異值分解發(fā)現(xiàn)潛在結(jié)構(gòu),可以提供更加準(zhǔn)確和個(gè)性化的推薦.Kim[34]從標(biāo)簽數(shù)據(jù)中提取出情感的類(lèi)別,在此基礎(chǔ)上提出基于情感標(biāo)簽的音樂(lè)推薦方法.
標(biāo)簽作為連接用戶與物品之間的紐帶,增加了推薦系統(tǒng)的可解釋性和多樣性,但基于標(biāo)簽的推薦方法同樣面臨著無(wú)法解決冷啟動(dòng)和數(shù)據(jù)稀疏性的問(wèn)題.
為了不向用戶推薦不合時(shí)宜的物品,推薦系統(tǒng)需要對(duì)用戶所處的情境有一定的感知能力,應(yīng)結(jié)合用戶的情感變化、節(jié)日等影響用戶聽(tīng)歌習(xí)慣的信息來(lái)進(jìn)行推薦.其中,時(shí)間效應(yīng)是最重要的因素,用戶的興趣會(huì)隨著時(shí)間推移而發(fā)生變化.時(shí)間效應(yīng)對(duì)用戶的興趣偏好變化以及推薦系統(tǒng)的效果有著直接的影響,主要表現(xiàn)在以下四個(gè)方面:①偏好遷移:隨著時(shí)間的推移,用戶的偏好、興趣發(fā)生改變;②生命周期,即事物合理存在的時(shí)間周期;③季節(jié)效應(yīng):事物的流行度與季節(jié)是強(qiáng)相關(guān)的,反映時(shí)間本身對(duì)用戶偏好的影響;④節(jié)日選擇:不同的節(jié)日會(huì)對(duì)用戶的選擇產(chǎn)生影響[32].Shen等[35]提出了一種人格與情感相結(jié)合的專注模型(PEIA),該模型充分利用社交媒體數(shù)據(jù),結(jié)合用戶穩(wěn)定的興趣偏好,即個(gè)性以及短期的興趣偏好愛(ài)好——情感建模,該模型充分利用了個(gè)性化的用戶特征、情感化的用戶特征等多方面屬性的音樂(lè)特征,實(shí)驗(yàn)證明,該模型取得了良好的推薦效果.
由于音頻信號(hào)處理需要耗費(fèi)大量的計(jì)算資源,所提取的特征和用戶的主觀感受之間有著較大的差距,因此,研究者們將目光轉(zhuǎn)向了基于上下文的推薦.上下文指的是用戶在與音樂(lè)平臺(tái)交互期間及其前后所產(chǎn)生的交互數(shù)據(jù),如播放次數(shù)、用戶評(píng)價(jià)等[36].Markus[37]提出了以用戶為中心,基于位置感知的推薦方法,根據(jù)音樂(lè)上下文和用戶上下文來(lái)推斷用戶喜好的方法.Yapriady等[38]首先通過(guò)年齡、性別和國(guó)籍等三類(lèi)個(gè)人信息計(jì)算當(dāng)前用戶和其他用戶的相似度權(quán)值Da,u:
其中,
然后結(jié)合Da,u和Pearson相關(guān)系數(shù)來(lái)預(yù)測(cè)當(dāng)前用戶a對(duì)歌曲i的喜好程度.其中,ru,i為用戶u對(duì)歌曲i的評(píng)分,N是用戶總數(shù),a為當(dāng)前用戶,rm為五分制評(píng)分體系的中值3[36].
基于上下文特征的推薦系統(tǒng)不能單獨(dú)作為推薦系統(tǒng)使用,但是可以極大地提高推薦的效率和準(zhǔn)確率[36],缺點(diǎn)是存在冷啟動(dòng)和數(shù)據(jù)稀疏的問(wèn)題,且推薦結(jié)果的多樣性不足.
在過(guò)去的幾十年里,深度學(xué)習(xí)取得了巨大的成功.深度學(xué)習(xí)取得的大幅進(jìn)步極大地改變了推薦體系結(jié)構(gòu),也極大地提高了推薦系統(tǒng)的性能.基于深度學(xué)習(xí)的推薦系統(tǒng)使用了深度神經(jīng)網(wǎng)絡(luò),可以有效地表達(dá)非線性的抽象關(guān)聯(lián),表征復(fù)雜關(guān)系,推薦效果更加突出.
Oord等[28]提出一種使用卷積神經(jīng)網(wǎng)絡(luò)從音頻信號(hào)中提取特征的方法,即使用矩陣分解的方法得到音樂(lè)的特征向量,將音頻信號(hào)embedding為特征向量,該神經(jīng)網(wǎng)絡(luò)可以檢測(cè)到和弦、樂(lè)器等音頻固有特征,有效克服了基于歷史數(shù)據(jù)推薦不能提取用戶興趣特征的缺陷.
深度學(xué)習(xí)使用多層網(wǎng)絡(luò)來(lái)發(fā)現(xiàn)用戶和歌曲之間深層次的關(guān)系,并將用戶與歌曲并向量化表示用戶或物品.此外,深度學(xué)習(xí)還可以學(xué)習(xí)到用戶信息以及物品信息的多維度特征,例如文本、音頻、視頻等內(nèi)容的深層次特征,從而獲得更好的推薦效果.最初基于深度學(xué)習(xí)的推薦系統(tǒng)源于受限玻爾茲曼機(jī)算法[10].近年來(lái),由于硬件的進(jìn)步與深度學(xué)習(xí)算法的日趨成熟,基于深度學(xué)習(xí)推薦系統(tǒng)的研究也取得了大幅進(jìn)步.Covington等[39]提出了一種基于Wide & Deep神經(jīng)網(wǎng)絡(luò)的YouTube視頻推薦系統(tǒng).Okura等[40]提出了基于RNN的新聞推薦,并將其應(yīng)用于Yahoo的新聞推薦系統(tǒng).Li 等[11]提出一個(gè)自動(dòng)編碼與協(xié)同過(guò)濾相結(jié)合的框架,該模型的損失函數(shù)公式如下:
βL(Y,V)+γL(X,U).
損失函數(shù)的第一部分是矩陣分解部分的損失,第二部分是矩陣分解的正則化項(xiàng),第三部分和第四部分分別表示用戶側(cè)和物品側(cè)自動(dòng)編碼器的損失函數(shù).自動(dòng)編碼器將編碼器編碼用于輸入,編碼向量則分別對(duì)應(yīng)矩陣U和矩陣V.
YouTube是世界上規(guī)模最大的視頻網(wǎng)站,其推薦系統(tǒng)也卓有成效. Covington 等[39]在2016年發(fā)表了使用Wide & Deep神經(jīng)網(wǎng)絡(luò)做YouTube推薦的技術(shù)細(xì)節(jié).該論文所述的YouTube推薦系統(tǒng)主要由兩部分構(gòu)成:產(chǎn)生候選集和對(duì)候選集進(jìn)行排序.通過(guò)多層網(wǎng)絡(luò)產(chǎn)生候選集,其為用戶U(場(chǎng)景C)在視頻庫(kù)V中預(yù)測(cè)出視頻的類(lèi)別是i,公式如下所示:
其中,vi表示視頻的特征向量,u表示用戶的特征向量.候選集可以在C的情境下,利用用戶信息學(xué)習(xí)到用戶和視頻的特征,并embedding為向量.使用Word Embedding方式將用戶的觀看歷史、搜索記錄向量化,并結(jié)合用戶本身的特征信息以及視頻的其他特征作為神經(jīng)網(wǎng)絡(luò)的輸入,使用ReLU作為激活函數(shù),然后通過(guò)兩個(gè)全連接層學(xué)習(xí)用戶和視頻的特征向量,產(chǎn)生TopN的候選集.排序是將連續(xù)的類(lèi)別特征歸一化,然后通過(guò)幾層ReLU輸出結(jié)果.
基于深度學(xué)習(xí)的推薦方法及優(yōu)勢(shì)在于利用深度模型學(xué)習(xí)到深層次的特征及潛在的用戶和物品之間的關(guān)聯(lián),同時(shí)也面臨著可解釋性差、超參數(shù)調(diào)優(yōu)難度較大等方面的問(wèn)題.
由于各個(gè)推薦方法都存在自己的缺陷,因此,將多種推薦方法融合,取長(zhǎng)補(bǔ)短,成為大勢(shì)所趨,同時(shí)也可以獲得更好的推薦結(jié)果.利用混合推薦算法,能夠更好地避免當(dāng)前主流推薦算法存在的冷啟動(dòng)和數(shù)據(jù)稀疏性問(wèn)題.
混合型推薦系統(tǒng)一般可分為三類(lèi)[41]:①將基于內(nèi)容和基于協(xié)同過(guò)濾的推薦使用線性組合等方法融合;②將一種方法融入另一種方法中;③將兩種方法做前期融合得到一個(gè)統(tǒng)一的推薦結(jié)果.另外,文獻(xiàn)[42]顯示,結(jié)合豐富的上下文數(shù)據(jù),如消費(fèi)記錄、評(píng)分、標(biāo)簽等數(shù)據(jù)有利于推薦更符合用戶當(dāng)前情境的音樂(lè).推薦系統(tǒng)另一個(gè)重要方面是透明度,如果推薦系統(tǒng)只提供推薦結(jié)果而沒(méi)有對(duì)推薦原因的解釋,用戶難以產(chǎn)生對(duì)推薦系統(tǒng)的信任.因此,系統(tǒng)應(yīng)增加對(duì)推薦的解釋,明確告知用戶推薦理由,從而增強(qiáng)用戶的信任度和參與感[43].關(guān)于對(duì)推薦結(jié)果的解釋有兩種常用的方法,即激勵(lì)法和滿足法[44].文獻(xiàn)[43]認(rèn)為好的解釋能說(shuō)服用戶樂(lè)于參與到推薦系統(tǒng)中,文獻(xiàn)[44]則認(rèn)為好的解釋能讓用戶更易接受推薦結(jié)果.Bilgic等[44]提出了三種解釋方法:①基于關(guān)鍵詞:主要適用于基于內(nèi)容的推薦系統(tǒng),通過(guò)提取音頻特征,將音頻特征相似的音樂(lè)通過(guò)關(guān)鍵詞的形式作為推薦的解釋;②基于近鄰:主要適用于基于協(xié)同過(guò)濾的推薦系統(tǒng),將相似用戶的選擇作為推薦理由;③基于影響:將用戶過(guò)往對(duì)某物品的評(píng)論及評(píng)分作為推薦理由.實(shí)驗(yàn)結(jié)果顯示,基于關(guān)鍵詞和影響的解釋方式效果更為明顯,而基于近鄰的解釋可能導(dǎo)致用戶因被推薦對(duì)象的過(guò)高評(píng)價(jià)而不信任系統(tǒng)[36].
由于在基于內(nèi)容的推薦中,提取出的底層音頻特征和用戶理解之間存在較大的差距,即底層音頻特征難以具體全面地表征歌曲本身.因此,從音頻信號(hào)中獲取情感等高級(jí)的音樂(lè)特征成為了新的趨勢(shì).Feng等[45]認(rèn)為音樂(lè)與情緒緊密相關(guān),并建立模型訓(xùn)練反向傳播神經(jīng)網(wǎng)絡(luò)分類(lèi)器,通過(guò)節(jié)奏和發(fā)音兩個(gè)特征來(lái)檢測(cè)情緒.在常規(guī)節(jié)奏的基礎(chǔ)上計(jì)算相對(duì)節(jié)奏,公式如下:
其中,s和f分別表示整首歌曲中節(jié)奏的最快值和最慢值.
平均靜率ASR及短時(shí)間平均能量avgSTE計(jì)算公式如下:
其中,N為單位時(shí)間內(nèi)的幀數(shù),STE(n)為第n幀的短時(shí)能量,ρ為常數(shù),a(k)為第k幀中時(shí)間點(diǎn)k所對(duì)應(yīng)的信號(hào)幅度.然后對(duì)歌曲進(jìn)行情感分類(lèi),包含快樂(lè)、悲傷、憤怒和恐懼四類(lèi).
文獻(xiàn)[46]數(shù)量化地度量了興趣度.Silbershatz等[47]將主觀的用戶興趣度定義為用戶偏好因新物品產(chǎn)生的變化,即“不可預(yù)測(cè)性”,客觀度量了用戶的主觀感受,并提出對(duì)興趣度I的度量公式:
其中,α為用戶想法,E為新的根據(jù),ε為支持用戶想法的原本根據(jù),p(α|ε)是對(duì)α的信心,p(α|E,ε)為根據(jù)E對(duì)用戶想法做出的新判斷[36].
數(shù)據(jù)是推薦系統(tǒng)的基石,一個(gè)優(yōu)質(zhì)的數(shù)據(jù)集可以對(duì)推薦算法起到至關(guān)重要的作用,有助于實(shí)驗(yàn)的順利進(jìn)行和算法的有效驗(yàn)證.本章將介紹音樂(lè)推薦系統(tǒng)中常用的幾個(gè)數(shù)據(jù)集:Million Song Dataset數(shù)據(jù)集、Last.fm數(shù)據(jù)集、FMA數(shù)據(jù)集和HetRec 2011數(shù)據(jù)集.
Million Song Dataset(MSD)包含了100萬(wàn)首歌曲的信息,總量約280GB.使用了h5的文件壓縮格式,并提供了一些code用于讀取.每首歌對(duì)應(yīng)一個(gè)文件,字段包括歌曲的方方面面,如 artist_id,artist_name,title,tempo等[48].
Last.fm是一個(gè)音樂(lè)網(wǎng)站,提供了音樂(lè)推薦的數(shù)據(jù)集[49].該數(shù)據(jù)集包含了用戶對(duì)藝術(shù)家的喜歡列表和播放次數(shù)交互數(shù)據(jù)及所打標(biāo)簽.
Last.fm數(shù)據(jù)集可以從GroupLens網(wǎng)站下載,分別有1 K users和360 K users兩個(gè)規(guī)模,該數(shù)據(jù)集包含7個(gè)文件,分別是README,artists.dat, tags.dat,user_artists.dat,user_friends.dat,user_taggedartists.dat和user_taggedartists-timestamps.dat.
FMA是一個(gè)開(kāi)放的有音頻的數(shù)據(jù)集,F(xiàn)MA以161個(gè)流派的分級(jí)分類(lèi)法,提供來(lái)自16 341位藝術(shù)家和14 854張專輯的106 574條曲目共917 GB音頻.該數(shù)據(jù)集提供了全長(zhǎng)和高質(zhì)量的音頻、預(yù)先計(jì)算的功能、軌道和用戶級(jí)別的元數(shù)據(jù)、標(biāo)簽以及諸如傳記之類(lèi)的自由格式文本[49].
壓縮文件fma_metadata.zip(342 MB)中囊括了所有曲目的所有元數(shù)據(jù)和功能,共包含四個(gè)條目:①tracks.csv:包含106 574條音軌的元數(shù)據(jù),例如ID、標(biāo)題、藝術(shù)家、流派、標(biāo)簽和播放次數(shù);②genres.csv:包含163個(gè)流派ID及其名稱和父級(jí)(用于推斷流派);③features.csv:使用librosa提取的常用功能;④echonest.csv:由Echonest(現(xiàn)在為Spotify)提供的音頻功能,用于13 129條音軌的子集.
通過(guò)FMA可以得到各種大小的MP3編碼音頻數(shù)據(jù):①fma_small.zip:8 000首30 s曲目,8種平衡類(lèi)型(類(lèi)似GTZAN)(7.2 GB);②fma_medium.zip:25 000首30 s曲目,16種不平衡類(lèi)型(22 GB);③fma_large.zip:30 s的106 574首曲目,161種不平衡類(lèi)型(93 GB);④fma_full.zip:106 574個(gè)未修飾的曲目,161個(gè)不平衡的類(lèi)型(879 GB).
這是2011年HetRec會(huì)議發(fā)布的從Last.fm獲取的數(shù)據(jù)集[49].它包含社會(huì)好友關(guān)系及標(biāo)簽信息.數(shù)據(jù)集內(nèi)容統(tǒng)計(jì)數(shù)據(jù)如下:1 892 users,17 632 artists,12 717個(gè)好友關(guān)系,92 834 user-listened artist relations,11 946 tags,186 479 tag assignments (tas),i.e., tuples [user, tag, artist].
本章介紹了四種常用數(shù)據(jù)集.其中,Million Song Dataset數(shù)據(jù)集、Last.fm數(shù)據(jù)集及HetRec 2011數(shù)據(jù)集既適用于基于標(biāo)簽的推薦場(chǎng)景,也適用于社交關(guān)系類(lèi)的推薦場(chǎng)景.而FMA數(shù)據(jù)集包含音頻信息,適用于基于內(nèi)容和基于標(biāo)簽的推薦.
關(guān)于推薦系統(tǒng)的研究還面臨著一些關(guān)鍵問(wèn)題和挑戰(zhàn).下面就冷啟動(dòng)、評(píng)價(jià)指標(biāo)難以統(tǒng)一、針對(duì)移動(dòng)終端的音樂(lè)推薦以及特征提取和選擇等問(wèn)題展開(kāi)分析.
目前,有關(guān)推薦系統(tǒng)的研究方法,都需要借助于用戶物品及其交互行為等大規(guī)模的歷史數(shù)據(jù)集來(lái)進(jìn)行推薦,而對(duì)于沒(méi)有用戶積累的平臺(tái)或網(wǎng)站則面臨著冷啟動(dòng)的問(wèn)題.冷啟動(dòng)是指對(duì)于新的網(wǎng)站、平臺(tái)或面臨新加入用戶的情況下,由于沒(méi)有大量用戶的歷史交互數(shù)據(jù),在設(shè)計(jì)推薦系統(tǒng)的時(shí)候無(wú)法使用需大量歷史數(shù)據(jù)訓(xùn)練的推薦方法.
解決冷啟動(dòng)的關(guān)鍵是如何在沒(méi)有歷史數(shù)據(jù)的基礎(chǔ)上做出讓用戶滿意的推薦內(nèi)容.冷啟動(dòng)問(wèn)題的類(lèi)型主要分為三大類(lèi):①用戶冷啟動(dòng):由于新用戶沒(méi)有與平臺(tái)的歷史交互數(shù)據(jù),無(wú)法對(duì)用戶興趣進(jìn)行建模,需要解決如何給新用戶做個(gè)性化推薦的問(wèn)題;②物品冷啟動(dòng):由于新物品沒(méi)有與用戶產(chǎn)生過(guò)交互,需要解決如何將新的物品推薦給可能對(duì)它感興趣的用戶的問(wèn)題;③系統(tǒng)冷啟動(dòng):新平臺(tái)沒(méi)有用戶和用戶交互的歷史數(shù)據(jù),只存在物品信息,需要解決如何推薦物品的問(wèn)題.由于冷啟動(dòng)需要在沒(méi)有歷史數(shù)據(jù)的情況下進(jìn)行推薦,問(wèn)題就在于系統(tǒng)沒(méi)有用戶和物品數(shù)據(jù)的情況下做算法推薦分析,因此,用戶冷啟動(dòng)和物品冷啟動(dòng)需要優(yōu)先解決.
對(duì)于冷啟動(dòng)的解決方法有:①將熱門(mén)物品推薦給用戶;②利用用戶注冊(cè)時(shí)填寫(xiě)的偏好信息;③利用用戶上下文信息;④利用第三方數(shù)據(jù);⑤利用用戶和系統(tǒng)間的交互;⑥利用物品內(nèi)容屬性;⑦利用平臺(tái)的標(biāo)簽數(shù)據(jù)[32].其中,熱門(mén)物品排行榜在實(shí)際場(chǎng)景中應(yīng)用范圍最為廣泛,如微博的“熱搜”和美團(tuán)的美食頻道會(huì)把附近的商家根據(jù)熱度排序展示給新用戶.
RecSys 2017會(huì)議上,Oramas等[50]著力于解決如何推薦缺乏歷史交互數(shù)據(jù)的藝術(shù)家,通過(guò)使用深度網(wǎng)絡(luò)體系結(jié)構(gòu),將文本和音頻信息與用戶反饋數(shù)據(jù)相結(jié)合,以解決這個(gè)音樂(lè)推薦中的物品冷啟動(dòng)問(wèn)題.
目前,很多音樂(lè)推薦系統(tǒng)都是通過(guò)點(diǎn)擊率、轉(zhuǎn)化率、網(wǎng)站成交額和召回率度量推薦結(jié)果或者產(chǎn)生一個(gè)TopN推薦列表.以上的評(píng)價(jià)指標(biāo)本質(zhì)上都是基于預(yù)測(cè)準(zhǔn)確率.因此,當(dāng)前系統(tǒng)的評(píng)價(jià)結(jié)構(gòu)過(guò)于單一.
針對(duì)這一問(wèn)題,出現(xiàn)了一些新的評(píng)測(cè)指標(biāo)如新穎性[51]以及驚喜度[52]等.通過(guò)最優(yōu)化其中一個(gè)評(píng)測(cè)指標(biāo),同時(shí)綜合其他指標(biāo)進(jìn)行推薦,使得推薦效果更加符合用戶需求.Celma[53]提出流行度長(zhǎng)尾尾部的音樂(lè)可能更加讓用戶覺(jué)得新穎.假設(shè)S表示用戶集合,那么用戶u的推薦列表的新穎性定義如下[54]:
其中,R是一個(gè)TopN函數(shù),Ru,20表示把推薦列表中前20項(xiàng)推薦給用戶u,popi表示對(duì)音樂(lè)偏好程度的預(yù)期.
文獻(xiàn)[55]和文獻(xiàn)[56]提出用戶需求還應(yīng)包括意外和驚喜,并提出驚喜度以度量推薦者系統(tǒng)生成推薦列表的偶然性.驚喜度是指推薦結(jié)果與所使用的推薦方法得出的用戶偏好不同,但用戶對(duì)結(jié)果感到滿意.一般通過(guò)Unserendipity來(lái)度量驚喜度,公式如下:
Unserendipity=
其中,cosSim(i,h)的值是指用戶歷史興趣Hu和新的推薦結(jié)果之間的平均相似度,表示推薦結(jié)果和用戶歷史興趣的相似程度,相似程度越小,則推薦的驚喜度越大.Zhang等[57]認(rèn)為理想的推薦系統(tǒng)應(yīng)模仿可信賴的朋友或?qū)<业男袨?,并在此基礎(chǔ)上提出了Auralist推薦框架,在準(zhǔn)確性、多樣性、新穎性和偶然性等四個(gè)因素之間取得平衡.使用“偶然發(fā)現(xiàn)”的新穎性算法,演示了一種將偶然性、新穎性和多樣性成功注入建議中的方法,同時(shí)限制了對(duì)準(zhǔn)確性的影響.研究結(jié)果顯示,Auralist框架對(duì)偶然性的重視提高了用戶滿意度.
隨著移動(dòng)互聯(lián)網(wǎng)的飛速發(fā)展,用戶通過(guò)移動(dòng)終端使用音樂(lè)推薦服務(wù)已成為新的趨勢(shì).當(dāng)前的音樂(lè)推薦系統(tǒng)依賴音頻特征和用戶歷史交互日志來(lái)進(jìn)行音樂(lè)推薦,忽略了用戶所處情境對(duì)用戶選擇音樂(lè)的影響,而導(dǎo)致推薦的滯后性明顯[58].用戶所處情境主要包括用戶訪問(wèn)推薦系統(tǒng)的時(shí)間、地點(diǎn)、心情、天氣和當(dāng)前活動(dòng)等,人受不同的情境影響,對(duì)一首歌的感受也會(huì)發(fā)生變化.因此,根據(jù)情境因素推薦音樂(lè),有利于做出更加準(zhǔn)確的推薦.
Wang等[59]利用通過(guò)移動(dòng)設(shè)備收集的上下文信息來(lái)滿足用戶的短期音樂(lè)播放需求,并提出一種概率模型,結(jié)合上下文信息與音樂(lè)內(nèi)容以提供日?;顒?dòng)的音樂(lè)推薦.Braunhofer等[60]提出一個(gè)基于情境感知的音樂(lè)推薦系統(tǒng),該系統(tǒng)能夠考慮在特定時(shí)刻影響用戶偏好的情境條件(如用戶的心情或位置)來(lái)做出推薦,開(kāi)發(fā)了一種移動(dòng)應(yīng)用程序,可以為每個(gè)訪問(wèn)感興趣的地點(diǎn)提出路線并播放推薦的音樂(lè),并做出實(shí)時(shí)評(píng)估.研究表明,這種情況下推薦的音樂(lè)更加適合感興趣的地點(diǎn),用戶的滿意度也更高.
由于移動(dòng)設(shè)備的智能化以及高度依賴性,移動(dòng)智能終端能夠?qū)崟r(shí)捕捉用戶聽(tīng)音樂(lè)時(shí)的情境信息,及時(shí)獲取大量上下文數(shù)據(jù),可以更加具體地感知用戶所處的情境.因此,如何在實(shí)現(xiàn)移動(dòng)環(huán)境下基于情景感知的音樂(lè)推薦系統(tǒng)中提升用戶體驗(yàn),增加用戶黏性,將成為下一個(gè)研究熱點(diǎn).
音樂(lè)是一種表達(dá)情感的藝術(shù)形式,其情感表達(dá)作為音樂(lè)的高階屬性,是用戶偏好的重要影響因素,很難被流派、旋律、節(jié)奏等低層次的音頻特征完整地表示出來(lái).因此,如何縮小所提取的特征與音樂(lè)情感屬性及用戶理解之間的差距成為亟待解決的問(wèn)題[3].
本文從對(duì)音樂(lè)信息處理方法的角度對(duì)當(dāng)前音樂(lè)推薦研究成果進(jìn)行了較為全面的概述,指出當(dāng)前研究中存在冷啟動(dòng)難以有效推薦、評(píng)測(cè)指標(biāo)唯準(zhǔn)確率論、缺乏對(duì)用戶行為和需求的系統(tǒng)研究以及提取的特征與音樂(lè)情感屬性及用戶理解之間差距較大的問(wèn)題.本文認(rèn)為可以從冷啟動(dòng)、拓展評(píng)價(jià)指標(biāo)、移動(dòng)終端的音樂(lè)推薦及音頻特征提取和選擇等方面展開(kāi)研究與探討.