王濤+李明
摘要:推薦系統(tǒng)是商業(yè)領(lǐng)域的重要組成部分,深度學(xué)習(xí)在信息檢索和推薦系統(tǒng)方面得到廣泛的應(yīng)用,深度學(xué)習(xí)下的推薦系統(tǒng)更能抽象出用戶的興趣因子、項目特性以及歷史信息,提高推薦的準(zhǔn)確性。因此將深度學(xué)習(xí)與推薦系統(tǒng)的相結(jié)合成為推薦系統(tǒng)的一個新熱點,該文通過對深度學(xué)習(xí)在推薦系統(tǒng)上應(yīng)用的一些思想進行了解析,并對深度學(xué)習(xí)在推薦系統(tǒng)中的應(yīng)用進行了展望。
關(guān)鍵詞:深度學(xué)習(xí);神經(jīng)網(wǎng)絡(luò);推薦系統(tǒng)
中圖分類號:TP393 文獻標(biāo)識碼:A 文章編號:1009-3044(2017)25-0180-02
隨著網(wǎng)絡(luò)信息量的爆炸式增長和用戶數(shù)目的日益增多,滿目琳瑯的商品如何在用戶選擇時脫穎而出,推薦系統(tǒng)作為一種有用的信息過濾工具,來引導(dǎo)用戶以個性化的方式發(fā)現(xiàn)他們可能感興趣的商品或需求,緩解用戶信息量過載的問題。過去的推薦系統(tǒng)中運用機器學(xué)習(xí)的方法通過對用戶偏好、項目特征、歷史信息以及其他一些附加信息(如時間和空間數(shù)據(jù)),通過矩陣模型建立用戶興趣形成打分機制,從而為用戶生成推薦列表。推薦模型主要分為協(xié)同過濾、基于內(nèi)容的推薦和混合推薦系統(tǒng)[1]。然而,這些模型在處理數(shù)據(jù)稀疏性和冷啟動問題有各自的局限性,通過衡量推薦結(jié)果的準(zhǔn)確度來決定推薦質(zhì)量的好壞[2]?;谏疃葘W(xué)習(xí)推薦系統(tǒng),克服了傳統(tǒng)模型的障礙,深度學(xué)習(xí)可以有效地捕獲非線性和非平凡的用戶項關(guān)系,并能夠?qū)⒏鼜?fù)雜的抽象編碼作為更高層的數(shù)據(jù)表示。此外,它還可以從豐富的可訪問數(shù)據(jù)源(如上下文、文本和視覺信息)中捕捉數(shù)據(jù)本身之間錯綜復(fù)雜的關(guān)系,從而提高推薦質(zhì)量。
1 深度學(xué)習(xí)
深度學(xué)習(xí)是機器學(xué)習(xí)一個新的研究領(lǐng)域,深度學(xué)習(xí)的概念由Hinton等人于2006年提出[3]。近年來,在圖像處理、語音識別和自、然語言處理等方面取得了革命性的進展。深度學(xué)習(xí)的原理是樣本數(shù)據(jù)通過一定的訓(xùn)練模型進而得到包含多個層級的深度網(wǎng)絡(luò)結(jié)構(gòu),得到的深度網(wǎng)絡(luò)結(jié)構(gòu)層次中有大量的單一元素(即神經(jīng)元),每個神經(jīng)元又與其他多個神經(jīng)元相連接,相連神經(jīng)元之間權(quán)值在學(xué)習(xí)過程中不斷地進行修改[4],由深度學(xué)習(xí)所得到的深度網(wǎng)絡(luò)結(jié)構(gòu)符合神經(jīng)網(wǎng)絡(luò)的特征[5]。目前學(xué)者們已經(jīng)給出前饋深度神經(jīng)網(wǎng)絡(luò)、反饋深度神經(jīng)網(wǎng)絡(luò)、雙向深度神經(jīng)網(wǎng)絡(luò)等模型。深度學(xué)習(xí)其本質(zhì)在于構(gòu)建含有多隱層的機器學(xué)習(xí)架構(gòu)模型,通過大規(guī)模數(shù)據(jù)進行訓(xùn)練,得到大量更具代表性的特征信息。從而對樣本進行分類和預(yù)測,提高分類和預(yù)測的精度。將深度學(xué)習(xí)應(yīng)用在推薦系統(tǒng)上,最常見的在于基于內(nèi)容的深度學(xué)習(xí)推薦。
2 深度學(xué)習(xí)中的推薦系統(tǒng)
(1) 多層感知器的推薦系統(tǒng)
神經(jīng)網(wǎng)絡(luò)一般包含組成網(wǎng)絡(luò)輸入層的一組輸入、一個或多個具有計算節(jié)點的隱藏層和一個具有計算節(jié)點的輸出層,處理過程是一層層地前向進行的,這類人工神經(jīng)網(wǎng)絡(luò)通常稱為多層感知機(MLP),MLP代表簡單感知機的概化神經(jīng)網(wǎng)絡(luò)中的每個神經(jīng)元模型通常包含一個非線性的激活函數(shù),S型曲線或者雙曲線函數(shù)。在應(yīng)用多層感知機做推薦時,運用神經(jīng)協(xié)同過濾推薦算法[6]捕捉用戶和項目之間的非線性關(guān)系,形成用戶偏好和項目特性之間的雙向交互。例如,矩陣分解將評分矩陣分解為低維潛在用戶空間和低維潛在項目空間。
(2) 自編碼器的推薦系統(tǒng)
自編碼器是一種無監(jiān)督的模型試圖重建在輸出層的輸入數(shù)據(jù)。一般來說中間層作為輸入數(shù)據(jù)的顯著特征表示。常用做自編碼器的推薦系統(tǒng)主要是發(fā)現(xiàn)用戶的潛在特征,在用戶評分矩陣做評分預(yù)測時,輸入時使用已經(jīng)評分的部分,通過自編碼器學(xué)習(xí)恒等函數(shù)獲得數(shù)據(jù)的深層次表達,然后再利用這組表達去重構(gòu)評分矩陣缺失的部分即得到預(yù)測值,從而進行推薦。
(3) 卷積神經(jīng)網(wǎng)絡(luò)的推薦系統(tǒng)
卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)包括特征提取層和特征映射層,特征提取層的各個神經(jīng)元輸入上與前一層局部接受域互相連接,并提取該局部的特征。特征映射層中網(wǎng)絡(luò)上的每個計算層是由多個特征映射相互組成,每個特征映射為一個平面,平面上所有神經(jīng)元其權(quán)值相等。將卷積神經(jīng)網(wǎng)絡(luò)(CNN)應(yīng)用推薦系統(tǒng)的研究工作中,一類是把CNN等神經(jīng)網(wǎng)絡(luò)作為特征提取器,從圖片、文本等輔助信息中提取特征向量,再融合到傳統(tǒng)的如BPR, PMF等基于矩陣分解的推薦系統(tǒng)模型中來提升推薦性能。另一類是深度合作神經(jīng)網(wǎng)絡(luò)[7]通過構(gòu)建了兩個并行的CNN模型,一個以用戶發(fā)表的評論文本作為輸入,提取用戶的行為特征;另一個以商品收到的評論文本作為輸入,學(xué)習(xí)商品的特性。在兩個CNN模型的輸出層之上有一個共享層,使用FM來建模用戶的特征與商品的特征之間的關(guān)聯(lián)關(guān)系,從而將用戶向量和商品向量映射到相同的特征空間。同時對用戶特征和商品特征進行提取,再通過因子分解機來預(yù)測用戶對商品的評分值,從而對用戶進行推薦。
(4) 深度語義相似性模型的推薦系統(tǒng)
深層語義相似性模型[8],又稱深層結(jié)構(gòu)的語義模型,是一種常見的連續(xù)測量語義相似性的語義空間和實體的語義表征深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),直接訓(xùn)練搜索目標(biāo),而不是像自動編碼器那些學(xué)習(xí)無監(jiān)督的目標(biāo)使用深度模型,能更好地提取語義特征。深度語義相似模型做推薦主要用于搜索引擎和搜索廣告等方面較多。搜索引擎和搜索廣告最重要的是解決問題的語義相似度,這里主要體現(xiàn)在兩個方面:召回和排序。深層語義相似性模型的原理很簡單,通過搜索引擎里Query 和Title的海量的點擊曝光日志,用DNN把Query和Title表達為低緯語義向量,并通過cosine距離來計算兩個語義向量的距離,最終訓(xùn)練出語義相似度模型。
(5) 受限玻爾茲曼機的推薦系統(tǒng)
受限玻爾茲曼機(Restricted Boltzmann Machine,簡稱RBM)實質(zhì)是一個編碼解碼器,RBM可以把原始輸入數(shù)據(jù)從可視層映射到隱藏層從而得到原始輸入數(shù)據(jù)的隱因子向量表示,這一過程為編碼過程。利用得到的隱藏層向量重新映射回可視層,得到新的可視層數(shù)據(jù),這個過程稱為解碼過程。從而使解碼后的結(jié)果能和原始數(shù)據(jù)盡量接近,解碼后不但能得到已評分物品的新評分?jǐn)?shù)據(jù),還可以對未評分物品得分情況進行預(yù)測,使得未評分物品的分?jǐn)?shù)從高到低的排序給用戶形成推薦列表。大多數(shù)關(guān)于深層模型和推薦結(jié)合的工作都集中在傳統(tǒng)的協(xié)同過濾用戶-項目模型上。受到深度學(xué)習(xí)模型在特征提取和特征探測上的啟發(fā),利用多層波茲曼機和傳統(tǒng)方法結(jié)合形成的新的推薦算法模型,通過對原始數(shù)據(jù)抽象特征提取,將原有M*N的數(shù)據(jù)抽象提取M*K的特征數(shù)據(jù),在再結(jié)合傳統(tǒng)最近鄰方法進行打分預(yù)測,從而對用戶進行推薦。endprint
3 結(jié)束語
近年來,深度學(xué)習(xí)思想運用在推薦系統(tǒng)上提高了深層推薦的準(zhǔn)確性,而系統(tǒng)中大量項目和用戶關(guān)系的可擴展性仍是值得研究的方向。挖掘深層次的用戶-項目關(guān)系,才能使推薦系統(tǒng)更加人性化,提高推薦的效率。
參考文獻:
[1] Gediminas Adomavicius and Alexander Tuzhilin.Toward the next generation of recommender systems: A survey of the state-of-the-art and possible extensions. IEEE transactions on knowledge and data engineering 17,6 (2005):734-749.
[2] 朱郁筱,呂琳媛.推薦系統(tǒng)評價指標(biāo)綜述[J].電子科技大學(xué)學(xué)報,2012(02):163-175
[3] HINTON G.E,OSINDERO S,TEH Y.W.A fast learning algorithm for deep belief nets[J].Neural Computation,2006,18( 7):1527-1554.
[4] 尹寶才,王文通,王立春.深度學(xué)習(xí)研究綜述[J].北京工業(yè)大學(xué)學(xué)報.2015(01)
[5] PSALTIS D,SIDERIS A,YAMAMURA A.Amultilayered neural network controller[J].IEEE Control Systems Magazine,1988,8(2):17-21.
[6] Xiangnan He, Lizi Liao, Hanwang Zhang, Liqiang Nie, Xia Hu, and Tat-Seng Chua. 2017. Neural collaborative filtering. In Proceedings of the 26th International Conference on World Wide Web. International World Wide Web Conferences Steering Committee, 173-182.
[7] Lei Zheng, Vahid Noroozi, and Philip S. Yu. 2017. Joint Deep Modeling of Users and Items Using Reviews for Recommendation. In Proceedings of the Tenth ACM International Conference on Web Search and Data Mining (WSDM 17). ACM, New York, NY, USA, 425-434.
[8] Po-Sen Huang, Xiaodong He, Jianfeng Gao, Li Deng, Alex Acero, and Larry Heck. 2013. Learning deep structured semantic models for web search using clickthrough data. In Proceedings of the 22nd ACM international conference on Conference on information & knowledge management. ACM, 2333-2338.endprint