顧秋陽(yáng),琚春華,吳功興
研究與開(kāi)發(fā)
基于自編碼器與多模態(tài)數(shù)據(jù)融合的視頻推薦方法
顧秋陽(yáng)1,琚春華2,吳功興2
(1. 浙江工業(yè)大學(xué)管理學(xué)院,浙江 杭州 310023;2. 浙江工商大學(xué),浙江 杭州 310018)
現(xiàn)今常用的線性結(jié)構(gòu)視頻推薦方法存在推薦結(jié)果非個(gè)性化、精度低等問(wèn)題,故開(kāi)發(fā)高精度的個(gè)性化視頻推薦方法迫在眉睫。提出了一種基于自編碼器與多模態(tài)數(shù)據(jù)融合的視頻推薦方法,對(duì)文本和視覺(jué)兩種數(shù)據(jù)模態(tài)進(jìn)行視頻推薦。具體來(lái)說(shuō),所提方法首先使用詞袋和TF-IDF方法描述文本數(shù)據(jù),然后將所得特征與從視覺(jué)數(shù)據(jù)中提取的深層卷積描述符進(jìn)行融合,使每個(gè)視頻文檔都獲得一個(gè)多模態(tài)描述符,并利用自編碼器構(gòu)造低維稀疏表示。本文使用3個(gè)真實(shí)數(shù)據(jù)集對(duì)所提模型進(jìn)行了實(shí)驗(yàn),結(jié)果表明,與單模態(tài)推薦方法相比,所提方法推薦性能明顯提升,且所提視頻推薦方法的性能優(yōu)于基準(zhǔn)方法。
自編碼器;多模態(tài)表示;數(shù)據(jù)融合;視頻推薦
隨著信息技術(shù)的不斷發(fā)展,用戶和企業(yè)對(duì)推薦方法的需求不斷提升[1]。推薦方法已在許多領(lǐng)域獲得成功應(yīng)用(包括商品推薦、音樂(lè)推薦、電影推薦等),主要通過(guò)學(xué)習(xí)用戶歷史信息得到其偏好,以生成相關(guān)推薦列表,這一過(guò)程也被稱(chēng)為top-推薦。近年,國(guó)內(nèi)外學(xué)者已提出了若干個(gè)top-推薦算法[2-6],主要可分為潛空間算法(latent space method,LSM)和基于鄰域的算法(又分為基于用戶或目標(biāo)的方法)?,F(xiàn)已證明潛空間算法是解決推薦排名問(wèn)題的最優(yōu)方法,而鄰域算法則能夠更好地進(jìn)行top-推薦問(wèn)題[7]。而基于用戶與目標(biāo)的兩種推薦方法中,基于目標(biāo)的鄰域方法是通過(guò)預(yù)先定義的度量方式計(jì)算得到目標(biāo)間的相似性進(jìn)行推薦的方法,顯然優(yōu)于基于用戶的推薦方法[8]。
但當(dāng)對(duì)目標(biāo)的描述處于稀疏高維空間時(shí),基于目標(biāo)的推薦算法存在歐氏距離(由于高維數(shù)據(jù)的稀疏性,將低維空間中的距離度量函數(shù)應(yīng)用到高維空間時(shí),隨著維數(shù)的增加,數(shù)據(jù)對(duì)象之間距離的對(duì)比性將不復(fù)存在,其有效性大大降低)和維數(shù)膨脹(當(dāng)維數(shù)越來(lái)越多時(shí),數(shù)據(jù)計(jì)算量迅速上升,所需的空間樣本數(shù)會(huì)隨維數(shù)的增加而呈指數(shù)增長(zhǎng),分析和處理多維數(shù)據(jù)的復(fù)雜度和成本呈指數(shù)級(jí)增長(zhǎng))等方面的困難,也會(huì)出現(xiàn)推薦結(jié)果非個(gè)性化、精度不高等問(wèn)題[4]。有學(xué)者引入了稀疏線性方法(sparse linear method,SLIM)以解決和緩解上述困難和問(wèn)題。當(dāng)目標(biāo)的相關(guān)信息(如電影描述等)不斷增加時(shí),Ning等[9]認(rèn)為應(yīng)充分利用這些信息,而不是僅關(guān)注由用戶過(guò)去信息組成的偏好。但其關(guān)注的始終是目標(biāo)描述的單一模態(tài),即文本信息模態(tài)。而現(xiàn)實(shí)網(wǎng)絡(luò)信息存在多種輸入渠道,包括配有情節(jié)和架構(gòu)的視頻與帶有說(shuō)明文字和標(biāo)簽的圖片等。每種模態(tài)的統(tǒng)計(jì)特征都大為不同,如何將其有效結(jié)合起來(lái)進(jìn)行推薦是現(xiàn)今學(xué)術(shù)界的一大困難。例如,當(dāng)給一張圖片配上說(shuō)明文本時(shí),文本往往會(huì)對(duì)一些從圖片中無(wú)法直接得到的信息(如地點(diǎn)、人名和事件等)進(jìn)行描述。故研究如何基于多模態(tài)數(shù)據(jù)融合方法進(jìn)行目標(biāo)推薦十分重要。
本文提出了一種基于自編碼器與多模態(tài)數(shù)據(jù)融合的視頻推薦方法,其中的關(guān)鍵問(wèn)題是如何對(duì)不同模態(tài)的信息進(jìn)行有效組合,以便向用戶提供目標(biāo)信息的推薦。與現(xiàn)今學(xué)術(shù)界常用的方法不同,本文通過(guò)兩種數(shù)據(jù)模態(tài)來(lái)制定視頻推薦方法——視覺(jué)(即圖像序列等)模態(tài)和文本(即標(biāo)簽、標(biāo)題和描述等)模態(tài),它們構(gòu)成了視頻的基本數(shù)據(jù)。在本文所提的多模態(tài)數(shù)據(jù)融合推薦方法中,數(shù)據(jù)由不同的輸入模態(tài)組成,且各模態(tài)的表示方式也各不相同。如圖像通常通過(guò)像素強(qiáng)度或特征提取器的輸出結(jié)果進(jìn)行呈現(xiàn),它們都為實(shí)值且分布密集;相反,文本信息傾向于以離散的稀疏文本向量來(lái)呈現(xiàn),故要找到各模態(tài)間的關(guān)系非常困難。一個(gè)好的多模態(tài)表示項(xiàng)目首先需滿足在某些模態(tài)缺失的情況下,也須能得出最終結(jié)果;且其結(jié)果必須有利于目標(biāo)間的相似性計(jì)算。
本文所提基于自編碼器與多模態(tài)數(shù)據(jù)融合的視頻推薦算法可較好地滿足以上條件。自編碼器是一種自主全連接的單隱層神經(jīng)網(wǎng)絡(luò),其目的是從無(wú)標(biāo)記的數(shù)據(jù)集中進(jìn)行學(xué)習(xí)[11]。傳統(tǒng)的自編碼器常用于特征學(xué)習(xí)或維數(shù)約簡(jiǎn),本文使用自編碼器來(lái)融合來(lái)自多個(gè)模態(tài)的目標(biāo)信息。本文的主要貢獻(xiàn)如下,首先,設(shè)計(jì)了一種基于自編碼器的多模態(tài)推薦架構(gòu),有效融合文本與視覺(jué)兩種模態(tài)的數(shù)據(jù),顯著提升了視頻推薦性能。其次,本文所提視頻推薦模型可有效避免單模態(tài)數(shù)據(jù)缺失帶來(lái)的不能得到推薦結(jié)果的情況。再次,本文所提視頻推薦方法首先使用詞袋和TF-IDF方法來(lái)描述文本數(shù)據(jù),并將所得特征與從視覺(jué)數(shù)據(jù)中提取的深層卷積描述符進(jìn)行融合,以使每個(gè)視頻文檔都獲得一個(gè)多模態(tài)描述符,并利用自編碼器構(gòu)造低維稀疏表示,有效提升了推薦技術(shù)的可行性。最后,基于多個(gè)具有明顯特征的真實(shí)數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),證明了本文所提架構(gòu)的有效性。
近年,隨著電子商務(wù)網(wǎng)站的不斷流行,學(xué)術(shù)界在用戶信息及產(chǎn)品推薦上已做出了許多突破??蓪⒋祟?lèi)推薦算法分為3類(lèi):考慮用戶個(gè)人信息及其偏好的協(xié)同過(guò)濾算法、基于內(nèi)容及相似性的算法以及基于用戶偏好和內(nèi)容的算法。
首先對(duì)協(xié)同過(guò)濾視頻推薦算法進(jìn)行介紹。Davidson等[12]發(fā)明了一種針對(duì)Youtube的視頻推薦方法。假設(shè)用戶觀看或點(diǎn)贊了某個(gè)視頻,該視頻就為此用戶的相關(guān)視頻,之后可以使用關(guān)聯(lián)規(guī)則基于該用戶的相關(guān)視頻進(jìn)行推薦。Zhou等[13]證明了視頻推薦是YouTube上視頻瀏覽量的最重要來(lái)源之一。而Linden 等[14]在Amazon網(wǎng)站上嘗試使用協(xié)同過(guò)濾算法和分組技術(shù),旨在向其客戶進(jìn)行有效的產(chǎn)品推薦。此外,Ahmed等[15]通過(guò)對(duì)用戶偏好分類(lèi)來(lái)進(jìn)行視頻推薦。
基于內(nèi)容的過(guò)濾算法是現(xiàn)今應(yīng)用最為廣泛的推薦算法[16]。這類(lèi)方法的一個(gè)關(guān)鍵特征是用戶建模過(guò)程。與其他推薦方法相比,這類(lèi)算法能夠顯著提高推薦質(zhì)量,其根據(jù)用戶購(gòu)買(mǎi)的物品對(duì)其偏好進(jìn)行測(cè)算。某些內(nèi)容可能對(duì)提高推薦的準(zhǔn)確度有較強(qiáng)影響,如標(biāo)簽、消息和多媒體信息等[17]。故基于內(nèi)容的過(guò)濾算法對(duì)視頻推薦非常重要,這是由于該算法結(jié)合了來(lái)自Web2.0環(huán)境中用戶的多源信息?,F(xiàn)已有幾種推薦系統(tǒng)使用了這類(lèi)算法,其中某些利用文檔標(biāo)題進(jìn)行推薦[18],另外一些利用文檔中的文本信息進(jìn)行推薦[19]。
還有一些學(xué)者使用混合推薦算法,將協(xié)同過(guò)濾算法與基于內(nèi)容的過(guò)濾算法相結(jié)合。Kim等[20]證實(shí)了這種混合過(guò)濾算法能提高推薦質(zhì)量。在其使用的推薦算法中,使用標(biāo)簽信息來(lái)推斷用戶偏好,尤其當(dāng)用戶(冷啟動(dòng)新用戶)的相關(guān)信息很少或沒(méi)有信息時(shí),標(biāo)簽?zāi)軌驗(yàn)橥扑]提供一些線索。此外,Yang等[21]提出了一種混合算法,將評(píng)價(jià)與電影的文本信息相結(jié)合以實(shí)現(xiàn)推薦。其中,文本信息由電影標(biāo)簽和流派表示。Zhang等[28]使用另一種混合算法來(lái)進(jìn)行視頻推薦,其利用視頻內(nèi)容(標(biāo)題和描述)訓(xùn)練神經(jīng)網(wǎng)絡(luò),并利用模糊算子將其結(jié)果與用戶的個(gè)人資料相結(jié)合,從而做出推薦。
Bobadilla等[1]提出利用物品重要性來(lái)提高推薦質(zhì)量。為了衡量目標(biāo)的重要性,使用一些標(biāo)準(zhǔn),如通過(guò)瀏覽量和/或評(píng)論的數(shù)量來(lái)判斷目標(biāo)的受歡迎程度等。還通過(guò)分析最受歡迎的Twitter話題,對(duì)Twitter上的分享視頻進(jìn)行推薦。Beutel等[23]利用用戶狀態(tài)(如時(shí)間和設(shè)備類(lèi)型等)來(lái)提高推薦準(zhǔn)確性。電影推薦系統(tǒng)旨在通過(guò)使用諸如類(lèi)型和影片名稱(chēng)等內(nèi)容信息為其用戶推薦新電影。黃立威等[24]通過(guò)自深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)獲得的描述符,與顏色和紋理的描述符相結(jié)合實(shí)現(xiàn)推薦。參考文獻(xiàn)[25-26]使用了神經(jīng)網(wǎng)絡(luò)的不同架構(gòu)來(lái)表示影片內(nèi)容。這些研究的目標(biāo)是改進(jìn)目標(biāo)內(nèi)容的表現(xiàn)形式,從而提高推薦質(zhì)量。Cheng等[27]提出了不同的表示方法,其使用一種基于神經(jīng)網(wǎng)絡(luò)來(lái)改進(jìn)用戶與目標(biāo)間關(guān)系的表示。
還有一些研究考慮了多種模態(tài)維度的數(shù)據(jù),如視頻幀和文本元數(shù)據(jù),并將其結(jié)合起來(lái)進(jìn)行推薦,這些方法被稱(chēng)為多模態(tài)推薦系統(tǒng)。如Zhang等[28]提出了一種深度學(xué)習(xí)方法,以便結(jié)合多種維度的信息(圖像、文本和評(píng)分等)進(jìn)行產(chǎn)品推薦。而Li等[29]提出了基于音頻和圖像特征(顏色)的多模態(tài)視頻推薦方法。另外,為計(jì)算視頻間的相似度,使用了余弦距離函數(shù);考慮推薦系統(tǒng)中的信息稀疏,提出了一種基于自編碼器的推薦方法;為實(shí)現(xiàn)推薦,使用了分層貝葉斯模態(tài)的變分自編碼器,以使得其能夠在潛在概率變化下對(duì)每個(gè)項(xiàng)目進(jìn)行表示。
通過(guò)上述對(duì)現(xiàn)有研究成果的梳理發(fā)現(xiàn),關(guān)于視頻推薦方法的研究已受到國(guó)內(nèi)外學(xué)者的重視并得到豐富的研究成果。上述研究成果雖對(duì)本文具有一定的借鑒意義,但也存在一些不足:(1)現(xiàn)有參考文獻(xiàn)中的視頻推薦方法多使用單模態(tài)數(shù)據(jù)實(shí)現(xiàn)視頻推薦(如王娜等[30]),較少有將多模態(tài)數(shù)據(jù)融合進(jìn)行視頻推薦的參考文獻(xiàn)記錄。(2)現(xiàn)有參考文獻(xiàn)多只對(duì)推薦方法進(jìn)行了改進(jìn),沒(méi)有考慮其所提方法在高維數(shù)據(jù)等計(jì)算情況中的適用性(如蘇賦等[31]),本文利用自編碼器構(gòu)造低維稀疏表示,有效提升了推薦技術(shù)的可行性。(3)現(xiàn)有關(guān)于基于視覺(jué)數(shù)據(jù)的推薦方法多使用特征提取方法實(shí)現(xiàn)推薦(如Felipe等[32]),很少有使用詞袋和TF-IDF方法先進(jìn)行描述文本數(shù)據(jù),并將所得特征與視覺(jué)數(shù)據(jù)中提取的深層卷積描述符進(jìn)行融合的參考文獻(xiàn)記錄。
本文認(rèn)為應(yīng)設(shè)計(jì)基于自編碼器的多模態(tài)推薦架構(gòu),有效融合文本與視覺(jué)兩種模態(tài)的數(shù)據(jù),顯著提升視頻推薦性能。使用詞袋和TF-IDF方法來(lái)描述文本數(shù)據(jù),并將所得特征與從視覺(jué)數(shù)據(jù)中提取的深層卷積描述符進(jìn)行融合,使每個(gè)視頻文檔都獲得一個(gè)多模態(tài)描述符,并利用自編碼器構(gòu)造低維稀疏表示,有效提升了推薦技術(shù)的可行性。最后,基于多個(gè)具有明顯特征的真實(shí)數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),證明本文所提架構(gòu)能有效提升推薦的精度與效率。故本文將文本與視覺(jué)兩種模態(tài)數(shù)據(jù)進(jìn)行融合,以期在現(xiàn)實(shí)生活中提升視頻推薦效率,為有關(guān)部門(mén)進(jìn)行視頻監(jiān)控與推薦服務(wù)提供參考。
表1 本文使用的參數(shù)符號(hào)與定義
目標(biāo)問(wèn)題包括根據(jù)用戶的偏好(根據(jù)矩陣推斷)和從項(xiàng)目中提取的描述性的邊信息確定最符合用戶興趣的前個(gè)項(xiàng)目。
如Cremonesi等[33]所討論的,本文應(yīng)考慮評(píng)分預(yù)測(cè)問(wèn)題,包括預(yù)測(cè)用戶給項(xiàng)目的評(píng)分。由此,可基于預(yù)測(cè)的評(píng)分對(duì)項(xiàng)目進(jìn)行排序,以最終生成推薦列表。正如Cremonesi等[33]所指出的,top-推薦是模擬真實(shí)推薦系統(tǒng)的最佳建模方法。故在本文框架中,將為用戶生成top-個(gè)最相關(guān)項(xiàng)目的推薦列表。
值得注意的是,SLIM只能用于處理單模態(tài)數(shù)據(jù),不能直接用于多模態(tài)信息處理。故在本文中,對(duì)SLIM進(jìn)行了改善,引入了一種新的推薦算法,使其能夠同時(shí)對(duì)多種模態(tài)數(shù)據(jù)進(jìn)行處理。
自編碼器作為無(wú)監(jiān)督全連接的隱層神經(jīng)網(wǎng)絡(luò),其目的是對(duì)未標(biāo)記的數(shù)據(jù)集進(jìn)行學(xué)習(xí)[11]。本文希望在訓(xùn)練中將輸入數(shù)據(jù)復(fù)制到輸出時(shí),得到的隱藏層能夠呈現(xiàn)有用的屬性。本文將隱藏層中的表示同來(lái)自不同模態(tài)的信息進(jìn)行融合,以得到一個(gè)新的項(xiàng)目表示,用于構(gòu)建代表用戶偏好的推薦模型。自編碼通常是由輸入層、隱藏層和重構(gòu)層組成的前饋神經(jīng)網(wǎng)絡(luò)進(jìn)行搭建,隱藏層將目標(biāo)值設(shè)置為與輸入層相同。通用自編碼器框架如圖1所示。
圖1 通用自編碼器框架
而解碼器則是將得到的表示映射回原始輸入重構(gòu)層。故存在另一個(gè)映射函數(shù)定義為如式(7)所示。
3.3.1 欠完備自編碼器
欠完備自編碼器試圖通過(guò)使隱藏層的維度小于輸入層的維度來(lái)找到有用的數(shù)據(jù)表示。故其目的是迫使自編碼器學(xué)習(xí)一個(gè)欠完備的表示,在此過(guò)程中捕獲訓(xùn)練數(shù)據(jù)最顯著的特征。這一學(xué)習(xí)過(guò)程可以簡(jiǎn)單描述為最小化損失函數(shù)如式(8)所示。
3.3.2 稀疏自編碼器
3.3.3 去噪自編碼器
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)為一種特殊的神經(jīng)網(wǎng)絡(luò),其目的是在網(wǎng)格狀拓?fù)浣Y(jié)構(gòu)中處理數(shù)據(jù)[34]。卷積神經(jīng)網(wǎng)絡(luò)已成功地應(yīng)用于圖像[35]、圖形[36]和時(shí)間序列[37]數(shù)據(jù)處理中。卷積網(wǎng)絡(luò)是在其至少一層中使用卷積的神經(jīng)網(wǎng)絡(luò)。故其訓(xùn)練方法包括通過(guò)卷積濾波器層反向傳播、恢復(fù)和池化等其他操作。卷積神經(jīng)網(wǎng)絡(luò)的關(guān)鍵數(shù)學(xué)運(yùn)算稱(chēng)為卷積運(yùn)算,其為一種專(zhuān)門(mén)學(xué)習(xí)數(shù)據(jù)局部平穩(wěn)屬性的線性運(yùn)算。
本節(jié)描述了本文所提推薦方法的基本架構(gòu),以基于項(xiàng)目的多種模態(tài)和用戶偏好(即評(píng)分)向用戶進(jìn)行項(xiàng)目推薦。本模型將項(xiàng)目的不同多模態(tài)高維模態(tài)移動(dòng)到一個(gè)低維潛空間中,接收不同模態(tài)的輸入項(xiàng)目(在本文中項(xiàng)目為視頻)。本文假定項(xiàng)目會(huì)隨少數(shù)解釋變量而共同變化,故不能直接被觀察到,本文將這些解釋變量稱(chēng)作隱性因素[38]。圖2表示將多維數(shù)據(jù)映射到公共潛空間的思想。其中,圖2左邊為嵌入文本和圖像的形式從其來(lái)源到一個(gè)潛在空間,而圖2右邊為項(xiàng)目和用戶映射到公共空間的示例。
本文提出用降維方法根據(jù)特定的準(zhǔn)則從高維數(shù)據(jù)中發(fā)現(xiàn)和提取這些潛在因素。通過(guò)將這些項(xiàng)目的表示映射到一個(gè)低維潛在空間中,并自動(dòng)降低了模態(tài)的稀疏性。然后利用這種新的低維項(xiàng)目表示來(lái)計(jì)算項(xiàng)目對(duì)間的相似度,最終提高推薦質(zhì)量。
圖3表示本文所提推薦方法的框架。首先,本文假設(shè)使用的數(shù)據(jù)集包含以下內(nèi)容:用戶偏好歷史記錄,即用戶對(duì)視頻進(jìn)行的評(píng)分記錄;項(xiàng)目集,即種不同的模態(tài)表示形式。然后將該數(shù)據(jù)集分成兩個(gè)數(shù)據(jù)集,即訓(xùn)練集和測(cè)試集。當(dāng)處于訓(xùn)練模式時(shí),本文所提推薦方法構(gòu)建了一個(gè)推薦模型,該模型表示用戶的偏好模式;而在測(cè)試模式中,使用先前訓(xùn)練過(guò)的推薦模型向用戶推薦不在訓(xùn)練集中的項(xiàng)目。
圖2 多模態(tài)數(shù)據(jù)融合在推薦系統(tǒng)中的應(yīng)用實(shí)例
圖3 多模式數(shù)據(jù)融合的推薦框架
其框架中包含兩個(gè)模塊:邊信息構(gòu)建和推薦引擎。邊信息構(gòu)建通過(guò)處理項(xiàng)目的視覺(jué)和文本特征并計(jì)算其間的相似性來(lái)創(chuàng)建邊信息矩陣。推薦引擎為用戶生成了一個(gè)top-推薦列表。
邊信息構(gòu)建模塊包含與項(xiàng)目表示相關(guān)的兩個(gè)重要任務(wù)。首先,本文詳細(xì)說(shuō)明如何根據(jù)原始特征來(lái)表示項(xiàng)目。故本文展示了如何組合不同模態(tài)的信息,各個(gè)模態(tài)都以原始特征表示,從而為數(shù)據(jù)集中的所有項(xiàng)目提供一個(gè)新的表示形式。最后,該模塊輸出的是邊信息矩陣,正如在第3.2節(jié)提到的,稀疏線性推薦模態(tài)引入了項(xiàng)目間的相似性矩陣(具體如第4.2節(jié)所述),提高了推薦的質(zhì)量。
4.1.1 特征提取
本文考慮了兩種模態(tài)來(lái)對(duì)項(xiàng)目進(jìn)行表示,即文本表示和視覺(jué)表示。本文的重點(diǎn)是視頻推薦,故將視頻的標(biāo)題和情節(jié)看作文本信息,并將視頻幀看作視覺(jué)信息。
其次,對(duì)視覺(jué)幀建模進(jìn)行介紹。關(guān)于視覺(jué)特征,本文首先提取給定視頻的幀集。由于每個(gè)視頻需要用相同數(shù)量的特征進(jìn)行表示,故考慮集合中最小的視頻,以均勻的采樣間隔從中選擇幀。以使有一個(gè)視頻的代表性樣本,同時(shí)減少此特征提取過(guò)程的計(jì)算成本。
4.1.2 特征轉(zhuǎn)換
在這個(gè)模塊中,通過(guò)融合多個(gè)模態(tài)來(lái)執(zhí)行特征轉(zhuǎn)換,為項(xiàng)目構(gòu)建一個(gè)新的表示形式。在執(zhí)行該融合后,每個(gè)視頻被表示為矩陣中的行f?;谧跃幋a器與多模態(tài)數(shù)據(jù)融合的推薦框架如圖4所示,本文提出了3種基于自編碼器的體系結(jié)構(gòu)來(lái)進(jìn)行這種新項(xiàng)目表示的學(xué)習(xí)。自編碼器由于其簡(jiǎn)單性和高效性,能夠在各種條件下進(jìn)行特征學(xué)習(xí),本文在多模態(tài)數(shù)據(jù)融合的推薦推薦方法中利用了這種特性。
關(guān)于本文提出的3個(gè)融合多模態(tài)數(shù)據(jù)的體系結(jié)構(gòu),其原理是利用模態(tài)間和模態(tài)內(nèi)的語(yǔ)義相關(guān)性。在3個(gè)體系結(jié)構(gòu)中,都計(jì)算了一個(gè)潛在的項(xiàng)目表示,這些項(xiàng)目在一個(gè)公共空間中組合為不同的模態(tài)。
共享單層自編碼器(shared single-layered autoencoder,S-SLAE)架構(gòu)指直接地使用自編碼器進(jìn)行新數(shù)據(jù)表示學(xué)習(xí)的架構(gòu)。本文將文本和視覺(jué)模態(tài)連接起來(lái),作為特定自編碼器的輸入。并將該自編碼器的隱藏層作為輸入項(xiàng)的新表示,以保持模態(tài)間的語(yǔ)義關(guān)系。最后得到了一個(gè)自編碼器,在一個(gè)單一層次的體系結(jié)構(gòu)中,可以在模態(tài)間共享。
圖4 基于自編碼器與多模態(tài)數(shù)據(jù)融合的推薦框架
獨(dú)立單層自編碼器(independent single-layer autoencoder,I-SLAE)架構(gòu)指使用自編碼器來(lái)探索數(shù)據(jù)中的模態(tài)內(nèi)語(yǔ)義關(guān)系。具體地說(shuō),每一個(gè)模態(tài)都是用不同的編碼器來(lái)處理的,即對(duì)每一個(gè)模態(tài)都有一個(gè)不同的特征學(xué)習(xí)過(guò)程。將從每個(gè)自編碼器學(xué)習(xí)到的新表示進(jìn)行連接,以構(gòu)建新的項(xiàng)目表示。此處的每個(gè)模態(tài)都有獨(dú)立的自編碼器,且仍然在體系結(jié)構(gòu)中保留一個(gè)單層。
雙層自編碼器(two-layered autoencoder,TLAE)架構(gòu)指通過(guò)同時(shí)利用模態(tài)間和模態(tài)內(nèi)的語(yǔ)義關(guān)系來(lái)結(jié)合前述兩種體系的結(jié)構(gòu)。為了實(shí)現(xiàn)這一目的,本文提出了一個(gè)雙層體系結(jié)構(gòu),以不同的方式進(jìn)行信息融合。在底層,和獨(dú)立單層自編碼體系一樣,使用不同的自編碼器來(lái)學(xué)習(xí)模態(tài)間的語(yǔ)義關(guān)系;在頂層,先將學(xué)習(xí)到的表示連接起來(lái),并使用不同的自編碼器來(lái)探索模態(tài)間的語(yǔ)義關(guān)系。
值得注意的是,在獨(dú)立單層自編碼器和雙層自編碼器中,能夠并行化模態(tài)內(nèi)學(xué)習(xí)的步驟,這在處理大規(guī)模數(shù)據(jù)集時(shí)非常重要。最后,本文所提自編碼器中的所有訓(xùn)練都為無(wú)監(jiān)督的,而在項(xiàng)目無(wú)標(biāo)簽的情況下,這是本文的一個(gè)重要優(yōu)勢(shì)。
本文結(jié)合前文中討論的概念對(duì)推薦模塊進(jìn)行詳細(xì)介紹。首先,定義SLIM的聚集系數(shù)矩陣表示項(xiàng)目特征空間的函數(shù)。故可直接在矩陣(也稱(chēng)為邊信息矩陣)中展現(xiàn)項(xiàng)目間的相似性。這種方法的優(yōu)點(diǎn)是能夠捕獲項(xiàng)目間基于特征的關(guān)系。值得關(guān)注的是,本文所提方法不像SLIM那樣只考慮一種模態(tài),而是能夠考慮任意數(shù)量的項(xiàng)目模態(tài),這是本文的重要優(yōu)勢(shì)之一,這在數(shù)據(jù)稀疏和冷啟動(dòng)的情況下尤為明顯。
首先,本文利用矩陣給出的項(xiàng)目表示形式,構(gòu)造項(xiàng)目間的相似性矩陣。如前所述,矩陣通過(guò)使用自編碼器融合模態(tài),擁有項(xiàng)目的新表示形式。值得關(guān)注的是,本文使用新的項(xiàng)目表示形式可以避免原始項(xiàng)描述的稀疏性(如用于文本模態(tài)的詞袋等)。最初提出稀疏線性模型時(shí),使用一次范數(shù)來(lái)控制模型復(fù)雜度和避免過(guò)擬合。本文還使用此范數(shù),通過(guò)在非稀疏維度中表示項(xiàng)目來(lái)強(qiáng)調(diào)稀疏性問(wèn)題。
算法1 本文所提多模態(tài)數(shù)據(jù)融合推薦方法
Require Matrices R and F, and item similarity function g
(4)end for
(5)end for
coefficient matrix
(9)end for
本文所提推薦方法是靈活的,這是由于可設(shè)置輸入為:(1)通過(guò)矩陣融合的任何模態(tài);(2)項(xiàng)目間的相似度函數(shù)(此處使用余弦函數(shù)進(jìn)行相似度計(jì)算)。該算法的工作分兩個(gè)步驟:第一步,根據(jù)給定的相似度函數(shù)識(shí)別項(xiàng)目對(duì)間的相似性(第1~5行)。第二步,計(jì)算聚集系數(shù)矩陣,并在此遵循SLIM的優(yōu)化方案,運(yùn)用坐標(biāo)下降法來(lái)求得矩陣(第6~9行)。
本文實(shí)驗(yàn)中使用了來(lái)自電影推薦領(lǐng)域常用的3個(gè)真實(shí)數(shù)據(jù)集。其中包括兩個(gè)版本的MovieLens數(shù)據(jù)集(關(guān)于電影評(píng)分的數(shù)據(jù)集):MovieLens-1M和MovieLens-10M。除此之外,本文團(tuán)隊(duì)利用Python工具分別利用API爬取豆瓣的真實(shí)用戶評(píng)分?jǐn)?shù)據(jù)集作為實(shí)驗(yàn)的基礎(chǔ)數(shù)據(jù),爬取時(shí)間為2019年8月19日至2020年1月24日。表2為經(jīng)過(guò)數(shù)據(jù)預(yù)處理后的數(shù)據(jù)集統(tǒng)計(jì)結(jié)果。MovieLens-1M數(shù)據(jù)集包括來(lái)自3 582個(gè)視頻的6 383個(gè)用戶的1 023 839條評(píng)分?jǐn)?shù)據(jù)。MovieLens-10M數(shù)據(jù)集包含來(lái)自8 923個(gè)視頻的75 124個(gè)用戶的11 293 834條評(píng)級(jí)數(shù)據(jù)。豆瓣數(shù)據(jù)集包含2 694個(gè)用戶對(duì)2 445個(gè)視頻的601 543條評(píng)級(jí)數(shù)據(jù)。在上述數(shù)據(jù)集中,為創(chuàng)建用戶—項(xiàng)目矩陣,當(dāng)用戶對(duì)該視頻的評(píng)分至少為4星及4星以上時(shí),則認(rèn)為該視頻與該用戶相關(guān),并從數(shù)據(jù)庫(kù)中提取相關(guān)電影的預(yù)告片進(jìn)行分析,其中豆瓣數(shù)據(jù)集中的視頻長(zhǎng)度較短。
表2 實(shí)驗(yàn)使用數(shù)據(jù)集統(tǒng)計(jì)
本文參照參考文獻(xiàn)[42]的做法,選取top-的歸一化折現(xiàn)累積增益(NDCG@)作為判斷標(biāo)準(zhǔn),其常用于衡量推薦與理想排名間的接近程度,具體計(jì)算方法如式(14)所示。在此得出的為100次迭代后的平均度量結(jié)果。
本文對(duì)第3.3節(jié)中介紹的3種自編碼器(欠完備自編碼器、稀疏自編碼器和去噪自編碼器)進(jìn)行了實(shí)例化。還測(cè)試了原始特征的級(jí)聯(lián),本文稱(chēng)之為非自編碼特征融合(non-autoencoder feature fusion,NOAE)。最后,為從視頻幀中進(jìn)行原始視覺(jué)特征的提取,本文使用了現(xiàn)今最先進(jìn)的卷積網(wǎng)絡(luò),即AOP框架下的interception-V3算法[40]。為實(shí)現(xiàn)這一點(diǎn),本文使用倒數(shù)第二個(gè)全連接層的輸出表示視頻的單個(gè)幀,其維度為2 048。
為比較本文所提基準(zhǔn)方法與經(jīng)典推薦方法和現(xiàn)今前沿推薦方法相比的優(yōu)劣,選取下列推薦方法作為基準(zhǔn)進(jìn)行比較。
(1)貝葉斯個(gè)性化排名矩陣分解推薦方法(the Bayesian personalized ranking matrix factorization recommendation approach,BPRMF)是目前最先進(jìn)的基于排名的top-推薦方法之一[5]。
(2)加權(quán)正則化矩陣分解(weighted regularized matrix factorization,WRMF)將用戶評(píng)級(jí)作為二進(jìn)制值,并考慮觀察到的評(píng)級(jí)和未觀察到的評(píng)級(jí)的不同機(jī)密值,從而對(duì)該模型進(jìn)行擬合[2]。
(3)稀疏線性方法(sparse linear method,SLIM)使用一個(gè)稀疏線性模型來(lái)進(jìn)行項(xiàng)目推薦,通過(guò)其他項(xiàng)目的集合來(lái)計(jì)算新項(xiàng)目的評(píng)分[9]。
(4)協(xié)同主題回歸(collaborative topic regression,CTR)模型是一種同時(shí)進(jìn)行主題建模和協(xié)同過(guò)濾的生成式推薦模型。該方法側(cè)重于在學(xué)習(xí)語(yǔ)義主題的過(guò)程中從項(xiàng)目描述中挖掘文本信息[6]。
(5)協(xié)同變分自編碼器推薦方法(collaborative variational autoencoder recommendation approach,CVAE)是一種將變分自編碼器集成到概率矩陣分解中的層次貝葉斯模型,用其學(xué)習(xí)概率潛在變量來(lái)表示項(xiàng)目?jī)?nèi)容信息[41]。
(6)聯(lián)合表示學(xué)習(xí)(joint representation learning,JRL)是一種最新的推薦方法,將多個(gè)證據(jù)源結(jié)合起來(lái),以產(chǎn)生與產(chǎn)品推薦有關(guān)的前個(gè)項(xiàng)目。
本文為每種模態(tài)的數(shù)據(jù)來(lái)源(圖像、評(píng)論文本和評(píng)分等)創(chuàng)建了深層表示。為對(duì)文本進(jìn)行表示,使用了Le等[42]提出的方法,并使用Jia等[43]提出的方法對(duì)圖形進(jìn)行表示,即由在包含1 200 000張ImageNet的圖像數(shù)據(jù)集中進(jìn)行預(yù)先訓(xùn)練的Caffe深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行表示。本文對(duì)用戶對(duì)所有物品的評(píng)分及所有用戶對(duì)項(xiàng)目的評(píng)分進(jìn)行了深度學(xué)習(xí)表示。為了結(jié)合這些數(shù)據(jù),增加了一個(gè)新的層,然后結(jié)合成對(duì)學(xué)習(xí)排序方法生成一個(gè)top-推薦列表。
5.4.1 總體績(jī)效
圖5 測(cè)試數(shù)據(jù)集中不同推薦方法的NDCG@N值
由圖5可知,本文所提AE-MDF推薦方法較其他推薦方法具有更好的性能。JRL方法也具有較好的表現(xiàn),而B(niǎo)PRMF方法性能較差,這是由于其只考慮了用戶評(píng)分,而忽略了項(xiàng)目描述內(nèi)容。本文所提AE-MDF推薦方法與基準(zhǔn)方法JRL相比,性能在不同的數(shù)據(jù)集中提升了7%~32%不等。尤其是在最大的數(shù)據(jù)集MovieLens-10M數(shù)據(jù)集中,JRL方法與本文所提AE-MDF方法性能最為接近。而圖6的不同數(shù)據(jù)集中的視頻推薦算法精度也證明了本文所提視頻推薦方法的優(yōu)越性。
圖6 測(cè)試數(shù)據(jù)集中不同推薦方法的精度值
圖7 使用不同模態(tài)數(shù)據(jù)實(shí)例化的情況下的NDCG@N值
由圖7還可看出,在所有數(shù)據(jù)集中基于視覺(jué)推薦的表現(xiàn)要比基于文本的推薦效果更好。另外,基于文本推薦可能有助于改進(jìn)推薦結(jié)果,這是由于多模態(tài)協(xié)同推薦比單獨(dú)使用兩種模式效果更好。這一點(diǎn)在豆瓣數(shù)據(jù)集中表現(xiàn)得尤為明顯。圖8報(bào)告了不同數(shù)據(jù)集中使用不同模態(tài)數(shù)據(jù)實(shí)例化的情況下的Precision值,由結(jié)果可知本文所提多模態(tài)融合的視頻推薦方法相對(duì)具有更優(yōu)的精度。
圖8 使用不同模態(tài)數(shù)據(jù)實(shí)例化的情況下的精度值
表3 本文所提推薦方法在使用不同自編碼器時(shí)的NDCG@10值
注:加粗項(xiàng)為每列最佳項(xiàng)。
5.4.2 自編碼器類(lèi)型
為呈現(xiàn)不同類(lèi)型的自編碼器對(duì)本文所提AE-MDF推薦方法的影響,在最簡(jiǎn)單的共享單層自編碼架構(gòu)下進(jìn)行實(shí)驗(yàn)。表3列出了本文所提模型使用不同自編碼器時(shí)(欠完備自編碼器(UAE)、去噪自編碼器(DAE)和稀疏自編碼器(SAE)),在不同數(shù)據(jù)集中的NDCG@10值。本文還在不使用自編碼器(NOAE)的情況下提供了不同模態(tài)數(shù)據(jù)的NDCG@10值。
從表3結(jié)果可知,對(duì)單獨(dú)模態(tài)而言,使用視覺(jué)信息時(shí)的性能要優(yōu)于使用文本描述時(shí)的性能。另外,在使用多模態(tài)數(shù)據(jù)時(shí),文本信息與視覺(jué)信息相結(jié)合效果要優(yōu)于使用任何單獨(dú)模態(tài)的性能。在MovieLens-1M和豆瓣數(shù)據(jù)集中,稀疏自編碼器在所有模態(tài)上都取得了比其他方法更好的表現(xiàn);而對(duì)于MovieLens-10M數(shù)據(jù)集,雖然稀疏自編碼器表現(xiàn)較好,但欠完備自編碼器在視覺(jué)模態(tài)和多模態(tài)表示方面表現(xiàn)優(yōu)于任何其他自編碼器。
5.4.3 數(shù)據(jù)融合結(jié)構(gòu)
本文對(duì)使用不同組合的自編碼器對(duì)多模態(tài)數(shù)據(jù)金融融合的方式進(jìn)行實(shí)驗(yàn)。如第4.1.2節(jié)所述,本文提出了3種基于自編碼器的不同結(jié)構(gòu)對(duì)多模態(tài)數(shù)據(jù)進(jìn)行融合。為實(shí)現(xiàn)這一點(diǎn),本文使用了稀疏自動(dòng)編碼器,這是由于其在第5.4.2節(jié)中的性能效果最好。圖9表示本文所提AE-MDF推薦方法在不同特征轉(zhuǎn)換結(jié)構(gòu)下的性能,同時(shí)給出了僅使用多模態(tài)數(shù)據(jù)(即當(dāng)不使用自動(dòng)編碼器進(jìn)行不同模態(tài)的數(shù)據(jù)融合)的NDCG@值。
圖9 不同特征轉(zhuǎn)換結(jié)構(gòu)的NDCG@N值
當(dāng)對(duì)MoiveLens-1M和MoiveLens-10M數(shù)據(jù)集進(jìn)行處理時(shí),最佳策略是使用獨(dú)立單層自編碼器來(lái)挖掘數(shù)據(jù)中的模態(tài)語(yǔ)義關(guān)系,這是由于在這兩張數(shù)據(jù)集中有足夠多的視頻信息可供提取模態(tài)信息。當(dāng)對(duì)豆瓣數(shù)據(jù)集進(jìn)行處理時(shí),使用雙層自編碼器架構(gòu)可獲得最優(yōu)結(jié)果。在此情況下,可利用模態(tài)內(nèi)和模態(tài)間的語(yǔ)義關(guān)系克服該數(shù)據(jù)集內(nèi)視頻太短的問(wèn)題。
本文提出了一種基于自編碼器與多模態(tài)數(shù)據(jù)融合的推薦方法。提出3種架構(gòu)來(lái)進(jìn)行項(xiàng)目的多模態(tài)表示(本文使用的模態(tài)包括文本和視覺(jué),其中本文使用Inception卷積神經(jīng)網(wǎng)絡(luò)算法進(jìn)行視覺(jué)模態(tài)特征提?。?,并展示了如何使用多模態(tài)數(shù)據(jù)融合項(xiàng)目表示來(lái)提高推薦的質(zhì)量。值得注意的是,本文提出的視頻推薦方法非常靈活,除文本與視覺(jué)還可以使用其他類(lèi)型的模態(tài)數(shù)據(jù)進(jìn)行融合推薦。最后,在3個(gè)不同特征的真實(shí)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),對(duì)本文所提架構(gòu)進(jìn)行驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,本文所提AE-MDF推薦方法優(yōu)于其他基準(zhǔn)算法。
盡管本文已提出了上述具有重要意義的發(fā)現(xiàn),但還是具有一些局限性,其中一些可能會(huì)為未來(lái)的進(jìn)一步研究指明方向:首先,可對(duì)圖像的其他原始特征表示進(jìn)行研究,并分析其對(duì)本文所提方法性能的影響。其次,可嘗試增加其他模態(tài)(如音頻等)的數(shù)據(jù)到模型中,以進(jìn)一步提升其對(duì)視頻的推薦性能。最后,可針對(duì)其他推薦領(lǐng)域(如社交網(wǎng)絡(luò)、產(chǎn)品和音樂(lè)等)進(jìn)行研究和算法優(yōu)化。
[1]BOBADILLA J, ORTEGA F, HERNANDO A, et al. Recommender systems survey[J]. Knowledge-based systems, 2013(46): 109-132.
[2]HU Y, KOREN Y, VOLINSKY C. Collaborative filtering for implicit feedback datasets[C]//Proceedings of 2008 Eighth IEEE International Conference on Data Mining. Piscataway: IEEE Press, 2008: 263-272.
[3]LI Z, PENG J Y, GENG G H, et al. Video recommendation based on multi-modal information and multiple kernel[J]. Multimedia Tools and Applications, 2015, 74(13): 4599-4616.
[4]NING X, KARYPIS G. Slim: sparse linear methods for top-n recommender systems[C]//Proceedings of 2011 IEEE 11th International Conference on Data Mining. Piscataway: IEEE Press, 2011: 497-506.
[5]RENDLE S, FREUDENTHALER C, GANTNER Z, et al. Bpr: Bayesian personalized ranking from implicit feedback. UAI’09[J]. Arlington, Virginia, United States, 2009: 452-461.
[6]WANG C, BLEI D M. Collaborative topic modeling for recommending scientific articles[C]//Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2011: 448-456.
[7]KABBUR S, NING X, KARYPIS G. Fism: factored item similarity models for top-recommender systems[C]//Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2013: 659-667.
[8]DESHPANDE M, KARYPIS G. Item-based top-n recommendation algorithms[J]. ACM Transactions on Information Systems, 2004, 22(1): 143-177.
[9]NING X, KARYPIS G. Sparse linear methods with side information for top-recommendations[C]//Proceedings of the Sixth ACM Conference on Recommender Systems. New York: ACM Press, 2012: 155-162.
[10]任永功, 楊柳, 劉洋. 基于熱擴(kuò)散影響力傳播的社交網(wǎng)絡(luò)個(gè)性化推薦算法[J]. 模式識(shí)別與人工智能, 2019, 32(8): 746-757.
REN Y G, YANG L, LIU Y. Heat diffusion influence propagation based personalized recommendation algorithm for social network[J]. Pattern Recognition and Artificial Intelligence, 2019, 32(8): 746-757.
[11]RUMELHART D E, HINTON G E, WILLIAMS R J. Learning representations by back-propagating errors[J]. Nature, 1986, 323(6088): 533-536.
[12]DAVIDSON J, LIEBALD B, LIU J, et al. The YouTube video recommendation system[C]//Proceedings of the Fourth ACM Conference on Recommender Systems. New York: ACM Press, 2010: 293-296.
[13]ZHOU R, KHEMMARAT S, GAO L. The impact of YouTube recommendation system on video views[C]//Proceedings of the 10th ACM SIGCOMM Conference on Internet Measurement. New York: ACM Press, 2010: 404-410.
[14]LINDEN G, SMITH B, YORK J. Amazon. com recommendations: Item-to-item collaborative filtering[J]. IEEE Internet Computing, 2003, 7(1): 76-80.
[15]AHMED M, IMTIAZ M T, KHAN R. Movie recommendation system using clustering and pattern recognition network[C]//Proceedings of 2018 IEEE 8th Annual Computing and Communication Workshop and Conference (CCWC). Piscataway: IEEE Press, 2018: 143-147.
[16]BEEL J, GIPP B, LANGER S, et al. paper recommender systems: a literature survey[J]. International Journal on Digital Libraries, 2016, 17(4): 305-338.
[17]BOBADILLA J, HERNANDO A, ORTEGA F, et al. Collaborative filtering based on significances[J]. Information Sciences, 2012, 185(1): 1-17.
[18]LAO N, COHEN W W. Relational retrieval using a combination of path-constrained random walks[J]. Machine Learning, 2010, 81(1): 53-67.
[19]NASCIMENTO C, LAENDER A H F, DA SILVA A S, et al. A source independent framework for research paper recommendation[C]//Proceedings of the 11th Annual International ACM/IEEE Joint Conference on Digital Libraries. New York: ACM Press, 2011: 297-306.
[20]KIM H N, JI A T, HA I, et al. Collaborative filtering based on collaborative tagging for enhancing the quality of recommendation[J]. Electronic Commerce Research and Applications, 2010, 9(1): 73-83.
[21]YANG C, CHEN X, LIU L, et al. A hybrid movie recommendation method based on social similarity and item attributes[C]// Proceedings of International Conference on Sensing and Imaging. Heidelberg: Springer, 2018: 275-285.
[22]CHRISTAKOU C, VRETTOS S, STAFYLOPATIS A. A hybrid movie recommender system based on neural networks[J]. International Journal on Artificial Intelligence Tools, 2007, 16(5): 771-792.
[23]BEUTEL A, COVINGTON P, JAIN S, et al. Latent cross: making use of context in recurrent recommender systems[C]//Proceedings of the Eleventh ACM International Conference on Web Search and Data Mining. New York: ACM Press, 2018: 46-54.
[24]黃立威, 江碧濤, 呂守業(yè), 等. 基于深度學(xué)習(xí)的推薦系統(tǒng)研究綜述[J]. 計(jì)算機(jī)學(xué)報(bào), 2018, 41(7): 1619-1647.
HUANG L W, JIANG B T, LV S Y, et al. A review of recommendation Systems based on deep learning[J]. Journal of Computer Science, 2018, 41(7): 1619-1647.
[25]COVINGTON P, ADAMS J, SARGIN E. Deep neural networks for youtube recommendations[C]//Proceedings of the 10th ACM Conference on Recommender Systems. New York: ACM Press, 2016: 191-198.
[26]FAN Y, WANG Y, YU H, et al. Movie recommendation based on visual features of trailers[C]//Proceedings of International Conference on Innovative Mobile and Internet Services in Ubiquitous Computing. Heidelberg: Springer, 2017: 242-253.
[27]CHENG H T, KOC L, HARMSEN J, et al. Wide & deep learning for recommender systems[C]//Proceedings of the 1st Workshop on Deep Learning for Recommender Systems. [S.l.:s.n.], 2016: 7-10.
[28]ZHANG Y, AI Q, CHEN X, et al. Joint representation learning for top-recommendation with heterogeneous information sources[C]//Proceedings of the 2017 ACM on Conference on Information and Knowledge Management. New York: ACM Press, 2017: 1449-1458.
[29]LI Z, PENG J Y, GENG G H, et al. Video recommendation based on multi-modal information and multiple kernel[J]. Multimedia Tools and Applications, 2015, 74(13): 4599-4616.
[30]王娜, 何曉明, 劉志強(qiáng), 等. 一種基于用戶播放行為序列的個(gè)性化視頻推薦策略[J]. 計(jì)算機(jī)學(xué)報(bào), 2020, 43(1): 123-135.
WANG N, HE X M, LIU Z Q, et al. Personalized video recommendation strategy based on user’s playback behavior sequence[J]. Journal of Computer Science, 2020, 43(1): 123-135.
[31]蘇賦, 呂沁, 羅仁澤. 基于深度學(xué)習(xí)的圖像分類(lèi)研究綜述[J]. 電信科學(xué), 2019, 35(11): 58-74.
SU F, LV Q, LUO R Z. Review of image classification based on deep learning[J]. Telecommunications Science, 2019, 35(11): 58-74.
[32]FELIPE L A, CONCEIC A L C, Pádua A L A C, et al Multimodal data fusion framework based on autoencoders for top-recommender systems[J]. Applied Intelligence, 2019, 49(9). 3267-3282.
[33]CREMONESI P, KOREN Y, TURRIN R. Performance of recommender algorithms on top-recommendation tasks[C]// Proceedings of the fourth ACM conference on Recommender systems. New York: ACM Press, 2010: 39-46.
[34]LECUN Y, BOSER B, DENKER J S, et al. Backpropagation applied to handwritten zip code recognition[J]. Neural computation, 1989, 1(4): 541-551.
[35]NASCIMENTO G, LARANIEIRA C, BRAZ V, et al. A robust indoor scene recognition method based on sparse representation[C]//Proceedings of Iberoamerican Congress on Pattern Recognition. Heidelberg: Springer, 2017: 408-415.
[36]DEFFERRARD M, BRESSON X, VANDERGHEYNST P. Convolutional neural networks on graphs with fast localized spectral filtering[C]//Advances in Neural Information Processing Systems.[S.l.:s.n.], 2016: 3844-3852.
[37]YANG J, NGUYEN M N, SAN P P, et al. Deep convolutional neural networks on multichannel time series for human activity recognition[C]//Proceedings of Twenty-Fourth International Joint Conference on Artificial Intelligence. [S.l.:s.n.],2015: 3995-4001.
[38]CUNNINGHAM J P, BYRON M Y. Dimensionality reduction for large-scale neural recordings[J]. Nature Neuroscience, 2014, 17(11): 1500-1509.
[39]BAEZA-YATES R, RIBEIRO-NETO B. Modern information retrieval[M]. New York: ACM Press, 1999.
[40]SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2016: 2818-2826.
[41]RUSSAKOVSKY O, DENG J, SU H, et al. Imagenet large scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(3): 211-252.
[42]LE Q, MIKOLOY T. Distributed representations of sentences and documents[C]//Proceedings of International Conference on Machine Learning. [S.l.:s.n.], 2014: 1188-1196.
[43]JIA Y, SHELHAMER E, DONAHUE J, et al. Caffe: Convolutional architecture for fast feature embedding[C]//Proceedings of the 22nd ACM International Conference on Multimedia. New York: ACM Press, 2014: 675-678.
[44]胡春華, 童小芹, 梁偉. 基于信任和不信任關(guān)系的實(shí)值受限玻爾茲曼機(jī)推薦算法[J]. 系統(tǒng)工程理論與實(shí)踐, 2019, 39(7): 1817-1830.
HU C H, TONG X X, LIANG W. The real-value restricted Boltzmann machine recommendation algorithm based on trust-distrust relationship[J]. Systems Engineering-Theory & Practice, 2019, 39(7): 1817-1830.
[45]肖云鵬, 孫華超, 戴天驥, 等. 一種基于云模型的社交網(wǎng)絡(luò)推薦系統(tǒng)評(píng)分預(yù)測(cè)方法[J]. 電子學(xué)報(bào), 2018, 46(7): 1762-1767.
XIAO Y P, SUN H C, DAI T J, et al. A rating prediction method based on cloud model in social recommendation system[J]. Acta Electronica Sinica, 2018, 46(7): 1762-1767.
Fusion of auto encoders and multi-modal data based video recommendation method
GU Qiuyang1, JU Chunhua2, WU Gongxing2
1. Zhejiang University of Technology, School of Management, Hangzhou 310023, China 2.Zhejiang Gongshang University, Hangzhou 310018, China
Nowadays, the commonly used linear structure video recommendation methods have the problems of non-personalized recommendation results and low accuracy, so it is extremely urgent to develop high-precision personalized video recommendation method. A video recommendation method based on the fusion of autoencoders and multi-modal data was presented. This method fused two data including text and vision for video recommendation. To be specific, the method proposed firstly used bag of words and TF-IDF methods to describe text data, and then fused the obtained features with deep convolutional descriptors extracted from visual data, so that each video document could get a multi-modal descriptors, and constructed low-dimensional sparse representation by autoencoders. Experiments were performed on the proposed model by using three real data sets. The result shows that compared with the single-modal recommendation method, the recommendation results of the proposed method are significantly improved, and the performance is better than the reference method.
autoencoder, multi-modal representation, data fusion, video recommendation
TP391
A
10.11959/j.issn.1000?0801.2021031
2020?04?30;
2021?01?30
顧秋陽(yáng),guqiuyang123@163.com
國(guó)家自然科學(xué)基金資助項(xiàng)目(No.71571162);浙江省社會(huì)科學(xué)規(guī)劃重點(diǎn)課題項(xiàng)目(No.20NDJC10Z);國(guó)家社會(huì)科學(xué)基金應(yīng)急管理體系建設(shè)研究專(zhuān)項(xiàng)(No.20VYJ073);浙江省哲學(xué)社會(huì)科學(xué)重大課題項(xiàng)目(No.20YSXK02ZD)
The National Natural Science Foundation of China (No.71571162), The Social Science Planning Key Project of Zhejiang Province (No.20NDJC10Z), The National Social Science Fund Emergency Management System Construction Research Project (No.20VYJ073), Zhejiang Philosophy and Social Science Major Project (No.20YSXK02ZD)
顧秋陽(yáng)(1995? ),男,浙江工商大學(xué)博士生,主要研究方向?yàn)橹悄苄畔⑻幚怼?shù)據(jù)挖掘、電子商務(wù)與物流優(yōu)化等。
琚春華(1962? ),男,博士,浙江工商大學(xué)教授、博士生導(dǎo)師,主要研究方向?yàn)橹悄苄畔⑻幚?、?shù)據(jù)挖掘、電子商務(wù)與物流優(yōu)化等。
吳功興(1974? ),男,博士,浙江工商大學(xué)副教授,主要研究方向?yàn)橹悄苄畔⑻幚?、?shù)據(jù)挖掘、電子商務(wù)與物流優(yōu)化等。