景民昌
[摘要]美國計算機學(xué)會每年舉辦的RecSys年會是最重要的推薦系統(tǒng)國際會議之一,其內(nèi)容體現(xiàn)了當(dāng)前推薦系統(tǒng)研究的熱點和發(fā)展趨勢。本文分析RecSys2014年會的論文內(nèi)容和主題,從推薦系統(tǒng)的新應(yīng)用、情景敏感推薦、冷啟動和混合推薦、安全和用戶隱私、推薦系統(tǒng)評估、多樣性和新穎性、推薦理論和方法、排序和Top-N推薦、矩陣分解等9個方面對會議進行綜述,總結(jié)當(dāng)前推薦系統(tǒng)研究的特點,認(rèn)為混合推薦是未來推薦系統(tǒng)研究的主要方向。
[關(guān)鍵詞]推薦系統(tǒng);ACM RecSys;熱點主題
[中圖分類號]TP311
[文獻標(biāo)識碼]A
[文章編號]1008-0821(2015)04-0041-05
自1992年帕洛阿爾托研究中心的Tapestry系統(tǒng)引入?yún)f(xié)同過濾的思想和概念以來,推薦系統(tǒng)日益引起人們的關(guān)注。推薦系統(tǒng)(RS:Recommender System)是能主動地發(fā)現(xiàn)用戶當(dāng)前或潛在的信息需求,并主動推送信息給用戶的一種Web信息系統(tǒng)。在信息爆炸時代,推薦系統(tǒng)是解決用戶“信息過載”的一種有效手段,已被成功應(yīng)用于電子商務(wù)、社交網(wǎng)絡(luò)、多媒體等眾多領(lǐng)域。
由于推薦系統(tǒng)實際應(yīng)用效果顯著,近年來國際學(xué)術(shù)界與其相關(guān)的研究極為活躍。推薦系統(tǒng)研究的頂級會議是美國計算機學(xué)會(ACM)每年舉辦的RecSys年會,該會議自2007年以來已在世界各地(美國、瑞士、西班牙、愛爾蘭、中國香港等)舉辦了8屆,并成為全球關(guān)于推薦系統(tǒng)研究最重要的交流渠道和把脈其最新進展的重要窗口。
最近一次ACM RecSys年會于2014年10月6~10日于美國硅谷(第8屆)舉辦,共收錄各國學(xué)者研究論文55篇,內(nèi)容基本涵蓋了當(dāng)前RS研究的主流領(lǐng)域,既有對傳統(tǒng)領(lǐng)域的深入探討,也有對新領(lǐng)域的探索;既有對實踐和技術(shù)的應(yīng)用研究,也有推薦基本理論和方法的探析。本文逐一研讀了本次會議論文,并按照主題分類進行綜述,以期了解和掌握目前國際上推薦系統(tǒng)研究的熱點與發(fā)展趨勢,為國內(nèi)推薦系統(tǒng)研究提供借鑒。
1 會議主題分析
2014RecSys年會論文按主題可分為9個方面:新應(yīng)用、情景推薦、冷啟動推薦、安全和隱私、推薦系統(tǒng)評估、多樣性和新穎性、推薦方法和理論、排序和Top-N推薦、矩陣分解推薦方法等。
1.1新應(yīng)用
推薦系統(tǒng)產(chǎn)生于快速發(fā)展的互聯(lián)網(wǎng)環(huán)境中,與理論研究相比,商業(yè)化實踐更為人們所關(guān)注,歷次ACM RecSys會議都把實踐應(yīng)用作為會議的重要主題之一。2014年會展示了推薦系統(tǒng)在兒童圖書推薦、社交媒體、學(xué)術(shù)論文同行評議、MOOC、數(shù)據(jù)挖掘流程設(shè)計以及旅游指導(dǎo)、房屋租賃、健康顧問等諸多方面的應(yīng)用。例如,PeraMS等針對現(xiàn)有圖書推薦系統(tǒng)缺乏專門面向兒童閱讀推薦的功能缺陷,設(shè)計和開發(fā)了一個模擬圖書館讀者咨詢服務(wù)的圖書推薦系統(tǒng)(Rabbit),該系統(tǒng)不僅考慮了兒童讀者的閱讀能力,也考慮了圖書所包含的情感因素。Liu X等通過在論文和評議專家之間構(gòu)建關(guān)聯(lián)圖,開發(fā)了一個學(xué)術(shù)論文同行評議的專家推薦系統(tǒng),增強了論文評議系統(tǒng)的功能。
1.2情景敏感推薦
情景敏感推薦系統(tǒng)(CARS)是近幾年推薦系統(tǒng)研究的熱點。情景也稱之為上下文(Context),指的是用戶模型中的額外信息(如位置、時間、天氣等),利用情景信息可以提高推薦系統(tǒng)的推薦精度。
本次會議的一些論文在推薦系統(tǒng)適應(yīng)動態(tài)情景方面做了深入研究。如,Hariri N等開發(fā)了一個交互式推薦系統(tǒng),系統(tǒng)根據(jù)用戶行為動態(tài)地適應(yīng)情景變化,匹配用戶最近的興趣喜好,為其生成更合適的推薦結(jié)果,系統(tǒng)的獨特之處是包含了一個“情景變化偵測器”,負(fù)責(zé)探測用戶行為的變化,一旦檢測到有重大改變時,推薦系統(tǒng)就優(yōu)先采用用戶最新行為信息來重建情景模型。而Braunhofer M等則通過在系統(tǒng)中設(shè)置“情景開關(guān)”的方法解決推薦系統(tǒng)的情景適應(yīng)性問題。
1.3冷啟動推薦
由于推薦系統(tǒng)中的新用戶(或新項目)的評分?jǐn)?shù)據(jù)稀少,系統(tǒng)很難為其產(chǎn)生推薦,這就是所謂的冷啟動推薦問題。在基于協(xié)同過濾和基于矩陣分解的推薦算法中,冷啟動問題尤其嚴(yán)重。
冷啟動問題通常采用混合推薦方法或融合其他數(shù)據(jù)源來解決。如,混合內(nèi)容過濾方法和協(xié)同過濾方法、融合用戶評論與評分?jǐn)?shù)據(jù)、在協(xié)同過濾算法中引入用戶的人口統(tǒng)計學(xué)信息(如性別、年齡、位置等)以及社會網(wǎng)絡(luò)信息(如Facebook好友關(guān)系、空間主頁等)、利用Web日志信息中的用戶瀏覽路徑等。
另外,動態(tài)情景敏感策略也有助于解決冷啟動問題,如,Tang L等提出對不同情景策略進行組合,在多種預(yù)設(shè)情景上層構(gòu)建“元情景”(Meta-Context),“元情景”根據(jù)新用戶與推薦系統(tǒng)交互產(chǎn)生的反饋信息,選擇相對合適的情景為新用戶推薦其感興趣的網(wǎng)頁,該方法在原理上類似于元搜索引擎。而Braunhofer M等在不同的情景算法中設(shè)置“情景開關(guān)”,當(dāng)系統(tǒng)偵測到不同的冷啟動情景時(如新用戶或新項目),則會轉(zhuǎn)換到適宜的算法。
1.4安全和隱私
推薦系統(tǒng)是可以帶來實在經(jīng)濟效益的。正因如此,其可能受到惡意攻擊并不為奇,安全和隱私是每一屆會議的主要議題之一。
Seminario C E等從攻擊者的角度,提出了“強項目”攻擊模型(PIA),并通過實驗?zāi)M,證明PIA不僅可以成功攻擊基于SVD和基于用戶的協(xié)同推薦系統(tǒng),也可以成功攻擊基于項目的協(xié)同過濾推薦系統(tǒng),研究結(jié)果為推薦系統(tǒng)的攻擊檢測提供指導(dǎo)。Bhagat S等研究了用戶隱私的“善意”挖掘方法,設(shè)計了一個基于矩陣分解的貝葉斯分類器,僅根據(jù)少量的評分?jǐn)?shù)據(jù)就能推測用戶的二元屬性信息(如類別,性別等),從而為推薦系統(tǒng)構(gòu)建用戶興趣模型提供輔助信息。
1.5推薦系統(tǒng)評估
由于設(shè)計目標(biāo)、實施算法、評價策略等方面不同,且一些場合可能還需要人工參與,推薦系統(tǒng)目前尚沒有一個公認(rèn)的標(biāo)準(zhǔn)對其真實效果和作用進行評估。本次年會,Said A等在相同的評價環(huán)境下對不同的推薦算法作了對比,提出了一個評估推薦系統(tǒng)的指標(biāo)體系。Yi X等利用用戶在網(wǎng)頁上的停留時間來量化評估用戶對網(wǎng)頁的興趣度,提出如何對不同設(shè)備和情景下的停留時間進行標(biāo)準(zhǔn)化處理的方法。endprint
推薦系統(tǒng)評估也包括對用戶評分真實性的評估。Krishnan S等研究了社會影響偏見(SIB)對用戶真實評分的影響,提出在推薦系統(tǒng)中設(shè)置學(xué)習(xí)、分析、緩解3個階段來降低SIB效應(yīng)。
1.6推薦多樣性和新穎性
多樣性是從推薦系統(tǒng)角度看RS的一種特性,即盡可能使全部或大多數(shù)項目都得到推薦,而不只局限于少數(shù)項目;新穎性是從用戶角度看RS的一種特性,即推薦結(jié)果對用戶來說應(yīng)該是新奇而又感興趣的。
Vargas S等從推薦任務(wù)的反方向思考,通過將用戶推薦給項目的方式,增強商品推薦的銷售多樣性。Adamopoulos P等在協(xié)同過濾近鄰選擇過程中,考慮目標(biāo)用戶和候選近鄰的相似級別,確定k近鄰的權(quán)重,從而提高推薦結(jié)果的多樣性。Ekstrand M D等通過用戶實驗研究了用戶對推薦結(jié)果的滿意度和新穎性、多樣性之間的相關(guān)關(guān)系。Noia T D等根據(jù)項目的內(nèi)容屬性計算多樣性,將推薦算法生成的Top-N結(jié)果重新進行計算排序,以增強推薦結(jié)果的多樣性。
另外,Vargas S等發(fā)現(xiàn),推薦項目的類別(如電影分類、圖書類別、音樂類別等)屬性也可以用來增強推薦系統(tǒng)的多樣性。
1.7推薦方法和理論
推薦系統(tǒng)研究雖然已取得了豐碩成果,但是仍有許多問題需要進一步研究。本次會議在推薦新算法的設(shè)計和傳統(tǒng)算法的改進、用戶興趣建模、信任推薦等方面都有新的研究成果展示。
另外,會議在跨域推薦、群組推薦方面也有一些和以往經(jīng)驗不同的新發(fā)現(xiàn)。如,大部分推薦算法都假設(shè)評分矩陣中的缺失值是隨機分布的,而Kim Y D等認(rèn)為實際情況并非如此,缺失數(shù)據(jù)的分布其實是依賴于用戶、項目以及評分值的,并提出一個貝葉斯兩項式混合模型,利用非隨機分布的評分?jǐn)?shù)據(jù)預(yù)測用戶評分。跨域推薦可以在源RS和目標(biāo)RS之間共享推薦信息,Cremonesi P等研究了跨域推薦的數(shù)據(jù)特征后,認(rèn)為所謂的密碼本傳遞方法(CBT)并不能在沒有重疊項目(或用戶)的源域和目標(biāo)域之間實現(xiàn)跨域推薦。
1.8排序和Top-N推薦
推薦結(jié)果以何種方式展示給用戶非常重要,其中,推薦列表的排序、推薦數(shù)量的確定是兩個主要的研究內(nèi)容。Vanchinathan H P等利用用戶或項目之間的相似度解決推薦列表的排序問題。Gueye M等設(shè)計了一個無參數(shù)的優(yōu)化標(biāo)簽列表大小的算法,本質(zhì)是通過舍棄一些不相關(guān)的標(biāo)簽來提高推薦精度和效率。Naamani-Dery L等采用迭代算法啟發(fā)用戶興趣,來縮小群組推薦的Top-N列表規(guī)模。而Liu X等則通過線上、線下組件分別計算新、老項目的影響力,為用戶生成Top-N推薦。
1.9矩陣分解推薦方法
矩陣分解是當(dāng)前最有效的推薦算法之一。矩陣分解過程中,計算項目的得分并排序是一個非常耗時的過程,會議的一些論文在如何提高算法的計算效率和可擴展性方面提出了新的方法和思路。
在矩陣分解算法中如何引入其它信息(如情景、信任等),也是矩陣分解推薦方法的研究重點。分解機(Factor-ization Machine)和情景特征的結(jié)合,時間維度、評分聚類、隱式信任關(guān)系等在矩陣分解推薦算法中的應(yīng)用在本次會議中都有成果展示。
另外,也有論文研究了矩陣分解推薦算法在一般概率分布上的應(yīng)用,從而拓展了矩陣分解推薦算法的應(yīng)用范圍。
2 當(dāng)前推薦系統(tǒng)研究的特點
ACM RecSys是國際上推薦系統(tǒng)研究的頂級會議,其研究內(nèi)容理所當(dāng)然地反映著推薦系統(tǒng)的前沿和熱點。綜合來看,2014年推薦系統(tǒng)研究具有“新”、“深”、“合”的特點。
2.1“新”:新技術(shù)、新應(yīng)用、新發(fā)現(xiàn)不斷出現(xiàn)
2014年ACM RecSys年會最大的特點是“新”,各種新技術(shù)、新發(fā)現(xiàn)、新應(yīng)用不斷出現(xiàn)。例如,組合情景策略解決冷啟動問題、“強項目”攻擊模型、用戶評分SIB的緩解方法、用戶自生成分類的推薦方法等都是較新的技術(shù);評分矩陣的缺失值并非隨機分布、CBT方法在跨域推薦的缺陷性等也是會議的新發(fā)現(xiàn);而新應(yīng)用更是會議的重點,推薦系統(tǒng)從來就是一個實踐性很強的領(lǐng)域,正是因為其在眾多行業(yè),如電子商務(wù)、新聞、音樂、電影、Apps的應(yīng)用收到了實際效益,才被研究人員們廣為關(guān)注。本次年會除了對一些傳統(tǒng)的推薦應(yīng)用有進一步的深入研究外,也出現(xiàn)了許多新應(yīng)用,如MOOC中的問題推薦、社交網(wǎng)絡(luò)上的好友推薦和專業(yè)技能標(biāo)簽推薦、學(xué)術(shù)論文同行評議的專家推薦、數(shù)據(jù)挖掘流程設(shè)計的操作符推薦等。
2.2“深”:推薦理論和方法不斷深入
推薦系統(tǒng)研究發(fā)展至今,已取得了非常豐碩的成果,理論基礎(chǔ)和技術(shù)體系逐漸成形,研究已不再局限于基礎(chǔ)問題和淺層問題的探討,而是已深入到推薦系統(tǒng)研究所涉及的方方面面。如,雖然情景敏感推薦方法、矩陣分解推薦方法仍是非常熱門的研究領(lǐng)域,但是研究已不再是方法的簡單介紹和粗淺應(yīng)用,而是已深入到了推薦方法的細(xì)節(jié)研究。例如,設(shè)計“情景變化偵測器”探測用戶興趣的重大變化、“元情景”解決用戶冷啟動問題、一般概率分布上的矩陣分解方法等都是對推薦方法非常深入的探討。
2.3“合”:推薦算法不斷混合,推薦數(shù)據(jù)源不斷融合
各種推薦方法都有其優(yōu)、缺點,單一方法無法解決推薦系統(tǒng)的所有問題,其研究越來越趨向組合不同技術(shù)實現(xiàn)混合推薦。大量的混合推薦方法研究出現(xiàn)于本次年會論文中,例如,內(nèi)容過濾和協(xié)同過濾的混合、基于項目和基于用戶的協(xié)同過濾算法的混合、情景敏感和矩陣分解推薦算法的混合、多種情景算法的混合、線上和線下推薦方法的混合等。
經(jīng)典推薦系統(tǒng)利用的數(shù)據(jù)源只有用戶的評分?jǐn)?shù)據(jù),然而由于評分?jǐn)?shù)據(jù)的稀疏性降低了推薦系統(tǒng)的精確度,一些研究人員開始考慮將其它信息源引入到推薦系統(tǒng),與評分?jǐn)?shù)據(jù)融合來提高推薦精度。如,評分?jǐn)?shù)據(jù)和評論文本的融合、評分?jǐn)?shù)據(jù)和用戶其它信息(人口學(xué)、社交網(wǎng)絡(luò))的融合、評分?jǐn)?shù)據(jù)和項目類別的融合等。
3 結(jié)語
本文從推薦系統(tǒng)的重要國際會議ACM RecSys角度,分析了當(dāng)前推薦系統(tǒng)研究的熱點和發(fā)展趨勢,認(rèn)為當(dāng)前國際上的推薦系統(tǒng)研究無論是理論基礎(chǔ)、還是實踐應(yīng)用都已經(jīng)取得了非常多的成果,而基于多種方法混合、多種數(shù)據(jù)源融合的混合推薦將是未來推薦系統(tǒng)研究的主要方向。
另外,值得注意的是,從55篇年會論文的來源國家看,歐美國家占了絕大部分,而我國僅有香港地區(qū)2篇論文被會議接收,反映出我國(尤其是大陸地區(qū))對該會議尚不夠重視或研究實力稍遜。鑒于該會議在推薦系統(tǒng)研究領(lǐng)域的重要程度,建議我國學(xué)者加強對該會議的了解和參與力度。
(本文責(zé)任編輯:馬卓)endprint