高廣尚
桂林理工大學(xué) 商學(xué)院,廣西 桂林541004
現(xiàn)實(shí)生活中,人類通過(guò)快速掃描全局圖像,獲得需要重點(diǎn)關(guān)注的目標(biāo)區(qū)域,得到注意力焦點(diǎn),然后對(duì)這一區(qū)域投入更多注意力,以獲取更多所需關(guān)注目標(biāo)的細(xì)節(jié)信息,同時(shí)抑制其他無(wú)用信息。這是人類利用有限的注意力資源從大量信息中快速篩選出高價(jià)值信息的手段,是人類在長(zhǎng)期進(jìn)化中形成的一種生存機(jī)制,極大地提高了視覺(jué)信息處理的效率與準(zhǔn)確性。而深度學(xué)習(xí)中的注意力機(jī)制(attention machanism,AM)本質(zhì)上與人類的選擇性視覺(jué)注意力機(jī)制類似,其目的也是從眾多信息中選擇出對(duì)當(dāng)前任務(wù)目標(biāo)更關(guān)鍵的信息[1]。具體來(lái)說(shuō),深度學(xué)習(xí)中注意力機(jī)制的作用就是通過(guò)神經(jīng)網(wǎng)絡(luò)自主學(xué)習(xí)出一組權(quán)重系數(shù),并以動(dòng)態(tài)加權(quán)方式來(lái)強(qiáng)化重要信息并同時(shí)抑制非重要信息,從而使得模型可以在任務(wù)的每個(gè)步驟上專注于輸入信息的必要部分[2-3]。近年來(lái),注意力機(jī)制逐漸成為深度學(xué)習(xí)中最值得關(guān)注和深入了解的核心技術(shù)之一[4-8],并在推薦系統(tǒng)社區(qū)中獲得了極大歡迎[6,9-16]。在深度學(xué)習(xí)推薦模型中,注意力機(jī)制能幫助模型抓住最具信息量的特征,推薦最具代表性的物品。
目前,注意力機(jī)制已在點(diǎn)擊率預(yù)測(cè)、多媒體推薦、評(píng)分預(yù)測(cè)和群體與捆綁推薦等經(jīng)典推薦場(chǎng)景中得到了應(yīng)用,且被證明在提高推薦性能方面具有諸多優(yōu)勢(shì):(1)一步到位地進(jìn)行全局關(guān)系捕獲,并關(guān)注數(shù)據(jù)的局部關(guān)系;(2)對(duì)長(zhǎng)期依賴關(guān)系有更強(qiáng)的捕捉能力;(3)具有更高的并行性,能減少模型訓(xùn)練時(shí)間;(4)具有更高的可擴(kuò)展性和魯棒性;(5)結(jié)構(gòu)比較簡(jiǎn)單且參數(shù)較少;(6)能在一定程度上提高模型的可解釋性;(7)可以快速提取稀疏數(shù)據(jù)的重要特征及其依賴關(guān)系[17-19]。鑒于此,本文在GoogleScholar 和CNKI 中分別以關(guān)鍵詞“Attention Machanism”和“注意力機(jī)制”,并不限定時(shí)間范圍進(jìn)行文獻(xiàn)檢索,通過(guò)閱讀標(biāo)題和摘要獲取文獻(xiàn)研究主題后,篩選得到中文文獻(xiàn)26 篇,英文文獻(xiàn)61 篇。經(jīng)過(guò)精讀并利用追溯法,本文最終對(duì)49 篇有代表性的重點(diǎn)文獻(xiàn)進(jìn)行系統(tǒng)梳理,其中英文文獻(xiàn)43 篇,中文文獻(xiàn)6 篇。通過(guò)文獻(xiàn)調(diào)研,并考慮到注意力機(jī)制本身可以不依賴特定框架而能單獨(dú)處理推薦任務(wù),本文僅從注意力機(jī)制及其變種這一角度出發(fā),并基于一些有代表性的推薦場(chǎng)景,對(duì)現(xiàn)有研究中深度學(xué)習(xí)推薦模型如何利用注意力機(jī)制及其變種,來(lái)對(duì)不同的項(xiàng)目(Item)或特征施加不同的權(quán)重進(jìn)行系統(tǒng)梳理、歸納和總結(jié),分析其中的研究成果及存在的問(wèn)題,并在此基礎(chǔ)上提出該領(lǐng)域中需要進(jìn)一步研究的科學(xué)問(wèn)題,以期為未來(lái)融合注意力機(jī)制的深度學(xué)習(xí)推薦模型研究提供一定的理論與實(shí)踐指導(dǎo)。
Mnih等[20]最初提出了注意力機(jī)制概念,并認(rèn)為它通過(guò)計(jì)算輸入數(shù)據(jù)的權(quán)重,來(lái)突出某個(gè)關(guān)鍵輸入對(duì)輸出的影響,如圖1所示。圖1中,注意力機(jī)制網(wǎng)絡(luò)框架中的輸入包含5 個(gè)數(shù)據(jù)(x1,x2,x3,x4和x5),經(jīng)過(guò)端到端的訓(xùn)練后,每個(gè)數(shù)據(jù)將會(huì)得到一個(gè)適當(dāng)?shù)臋?quán)重(注意力得分),權(quán)重wi的取值是基于訓(xùn)練階段在以輸出為目標(biāo)的前提下xi與輸出的相關(guān)性而決定的,這些權(quán)重組合在一起可形成一個(gè)概率分布向量。
圖1 注意力機(jī)制網(wǎng)絡(luò)框架Fig.1 Network of attention mechanism
注意力機(jī)制是一種通用的思想和技術(shù),不依賴于任何模型,即注意力機(jī)制可以用于任何模型。根據(jù)注意力得分的計(jì)算方法不同,現(xiàn)有研究將注意力機(jī)制分為標(biāo)準(zhǔn)注意力機(jī)制(vanilla attention machanism,業(yè)界常說(shuō)的注意力機(jī)制)、協(xié)同注意力機(jī)制(co-attention mechanism)、自注意力機(jī)制(self-attention mechanism)、層級(jí)注意力機(jī)制(hierarchical attention mechanism)和多頭注意力機(jī)制(multi-head attention mechanism)等若干變種。值得說(shuō)明的是,以往研究中涉及到的商品、產(chǎn)品、服務(wù)、信息和項(xiàng)目等概念可統(tǒng)稱為物品。
標(biāo)準(zhǔn)注意力機(jī)制的基本思想是對(duì)每個(gè)輸入項(xiàng)分配一個(gè)權(quán)重,通過(guò)權(quán)重大小來(lái)表示模型對(duì)該輸入項(xiàng)關(guān)注程度。本文從點(diǎn)擊率預(yù)測(cè)、多媒體推薦、評(píng)分預(yù)測(cè)和群體與捆綁推薦等經(jīng)典推薦應(yīng)用場(chǎng)景方面,來(lái)分析其如何利用標(biāo)準(zhǔn)注意力機(jī)制來(lái)提高推薦性能。
點(diǎn)擊率預(yù)測(cè)是指根據(jù)給定廣告或物品、用戶和大量的上下文情況等信息,對(duì)用戶點(diǎn)擊偏好進(jìn)行預(yù)測(cè)。點(diǎn)擊率預(yù)測(cè)中利用注意力機(jī)制旨在解決不同交互特征應(yīng)具有不同的重要性權(quán)重這一問(wèn)題。為預(yù)測(cè)用戶對(duì)物品的興趣,因子分解機(jī)(factorization machines,F(xiàn)M)通過(guò)充分考慮用戶與物品之間的交互來(lái)實(shí)現(xiàn)這一目標(biāo)。具體來(lái)說(shuō),因子分解機(jī)通過(guò)在不同的特征向量之間各自做一次乘積操作來(lái)進(jìn)行特征之間的交互(即二個(gè)特征同時(shí)交互),但它對(duì)每個(gè)特征賦予相同的權(quán)重[21],即僅以線性方式組合特征,并沒(méi)有考慮特征之間的非線性關(guān)系。相較而言,神經(jīng)因子分解機(jī)(neural factorization machines,NFM)充分結(jié)合了因子分解機(jī)提取的二階線性特征和神經(jīng)網(wǎng)絡(luò)提取的高階非線性特征,但它對(duì)所有交互特征也一視同仁,并沒(méi)有考慮不同交互特征對(duì)結(jié)果的影響程度,因而損失了大量有價(jià)值的信息[22]。事實(shí)上,不同的交互特征對(duì)預(yù)測(cè)結(jié)果的影響程度并不相同。例如,在預(yù)測(cè)一位男性用戶是否會(huì)購(gòu)買一款鍵盤的可能性時(shí),“性別=男&購(gòu)買歷史中包含鼠標(biāo)”這一交互特征,很可能比“性別=男&用戶年齡=30”這一交互特征更為重要。鑒于此,為學(xué)習(xí)到二階特征交互的重要性,即學(xué)習(xí)特征之間的相互作用的權(quán)重,Xiao等[9]在神經(jīng)因子分解機(jī)的基礎(chǔ)上提出了注意力因子分解機(jī)(attention factorization machines,AFM),它通過(guò)將注意力機(jī)制引入雙線性交互池化操作中,進(jìn)一步提升神經(jīng)因子分解機(jī)的表示能力和可解釋性。然而,AFM 對(duì)非零特征數(shù)量具有較高的平方級(jí)復(fù)雜度。
多媒體推薦是指視頻、圖像等方面的推薦。多媒體推薦中利用注意力機(jī)制旨在解決隱式反饋信息被忽略、跨站興趣捕獲等問(wèn)題。Chen 等[1]指出現(xiàn)有大多數(shù)協(xié)同過(guò)濾系統(tǒng)忽略了用戶與多媒體內(nèi)容交互的隱式反饋信息,并認(rèn)為在用戶與多媒體內(nèi)容的各種交互中,存在著組件級(jí)(component-level)、物品級(jí)(item-level)隱式反饋信息。其中,組件級(jí)隱式反饋是指用戶對(duì)物品中的不同組件(例如視頻中某一幀、圖像中某一區(qū)域)的偏好是未知的;物品級(jí)隱式反饋是指用戶對(duì)物品(視頻、圖像等)的偏好是未知的。鑒于此,作者在基于用戶的協(xié)同過(guò)濾(user-based CF)基礎(chǔ)上提出了注意力協(xié)同過(guò)濾模型(attentive collaborative filtering,ACF)以充分利用這些隱式反饋信息。其中,注意力協(xié)同過(guò)濾模型通過(guò)兩個(gè)注意力模塊來(lái)區(qū)分不同物品在聚合時(shí)的重要性權(quán)重:(1)組件級(jí)注意力模塊,用于為每個(gè)用戶從多媒體內(nèi)容中捕捉最具信息量的特征,即用于表示每個(gè)用戶對(duì)每個(gè)物品的不同的組件的偏好是有區(qū)別的,最終得到的物品的內(nèi)容向量是針對(duì)每個(gè)用戶的個(gè)性化內(nèi)容向量;(2)物品級(jí)注意力模塊,用于選擇最具代表性的物品來(lái)描述用戶,即最終得到用戶特征向量,以用于進(jìn)行評(píng)分預(yù)測(cè)。簡(jiǎn)單來(lái)說(shuō),注意力協(xié)同過(guò)濾模型通過(guò)注意力機(jī)制將組件級(jí)和物品級(jí)隱式反饋信息聚合在一起,得到多媒體內(nèi)容的表示。通過(guò)對(duì)組件應(yīng)用注意力機(jī)制,ACF模型能更好地學(xué)習(xí)多媒體內(nèi)容上用戶的偏好,進(jìn)而使得推薦更加個(gè)性化。盡管ACF模型可以無(wú)縫集成到具有隱式反饋的經(jīng)典CF 模型中,但它未考慮高階組件級(jí)注意力機(jī)制。類似地,Yan 等[23]認(rèn)為現(xiàn)有的網(wǎng)絡(luò)視頻系統(tǒng)根據(jù)用戶在自己網(wǎng)站上的觀看歷史向用戶推薦視頻。然而,由于許多用戶在多個(gè)網(wǎng)站上觀看視頻,這種方法無(wú)法捕獲這些用戶在不同網(wǎng)站上的興趣。為捕獲跨站點(diǎn)及特定站點(diǎn)的用戶興趣,作者研究了基于大規(guī)模真實(shí)數(shù)據(jù)集的多站點(diǎn)用戶瀏覽行為,并發(fā)現(xiàn)用戶興趣由跨站點(diǎn)一致性部分(cross-site consistent part)和具有不同重要性的站點(diǎn)特定部分(site-specific part)組成,繼而在此基礎(chǔ)上提出了深度注意力概率因式分解模型(deep attentive probabilistic factorization,DeepAPF),以利用深度學(xué)習(xí)方法來(lái)逼近這種復(fù)雜的用戶視頻交互。具體來(lái)說(shuō),該模型通過(guò)注意力網(wǎng)絡(luò)學(xué)習(xí)非均勻重要性權(quán)重,來(lái)準(zhǔn)確捕捉跨站點(diǎn)和特定站點(diǎn)的用戶興趣,還能學(xué)習(xí)復(fù)雜的用戶-視頻交互。然而,該模型需要建模跟平臺(tái)有關(guān)的獨(dú)特偏好。
評(píng)分預(yù)測(cè)是指根據(jù)用戶和物品的歷史記錄來(lái)預(yù)測(cè)用戶對(duì)物品的評(píng)分。評(píng)分預(yù)測(cè)中利用注意力機(jī)制旨在準(zhǔn)確地捕獲用戶對(duì)不同物品各個(gè)方面(aspect)的關(guān)注?,F(xiàn)實(shí)中,用戶在寫(xiě)評(píng)論的時(shí)候,更傾向于在他們關(guān)注的特征上去評(píng)論,這樣可以提取出用戶的偏好和產(chǎn)品特征。Cheng等[24]認(rèn)為不同的用戶對(duì)不同物品各個(gè)方面的關(guān)注程度是不一樣的,例如,對(duì)于蘋(píng)果手機(jī),用戶可能更關(guān)注高像素、低耗量等,而對(duì)于廉價(jià)手機(jī),用戶可能更關(guān)注通訊質(zhì)量等,然而現(xiàn)有的方法都沒(méi)有考慮到這一情形。鑒于此,為學(xué)習(xí)評(píng)論中用戶的偏好和物品的特征,作者提出了基于方面級(jí)(aspect-level)的自適應(yīng)注意力評(píng)分預(yù)測(cè)模型(adaptive aspect attention-based neural collaborative filtering model,A3NCF),以準(zhǔn)確捕獲用戶在同一方面對(duì)不同物品的偏好的權(quán)重。簡(jiǎn)單來(lái)說(shuō),A3NCF 模型參考了AFM 模型,并引入注意力機(jī)制來(lái)捕獲用戶對(duì)目標(biāo)物品各方面的注意力,即增強(qiáng)區(qū)分不同方面的重要程度的能力。然而,該模型并未對(duì)比較過(guò)程中所采用的物品哪些方面作進(jìn)一步說(shuō)明。
群體推薦(group recommendation)主要是指為群體用戶推薦物品(例如向同事群推薦一個(gè)餐館),它不僅需要聚合群體成員的偏好,還需要正確理解群體決策過(guò)程,因?yàn)樵谌后w決策過(guò)程中,用戶傾向于追隨一小部分用戶的決策,其中這一小部分用戶就是傳說(shuō)中的意見(jiàn)領(lǐng)袖或領(lǐng)域?qū)<?。群體推薦中利用注意力機(jī)制旨在對(duì)群體中的不同成員進(jìn)行權(quán)重分配,權(quán)重越高表明用戶越重要,因此他們對(duì)于群體的最終決策越重要。Vinh等[25]提出使用注意力機(jī)制來(lái)捕獲群體中每個(gè)用戶的影響權(quán)重,然后讓模型能基于其成員的加權(quán)偏好來(lái)向群體推薦物品。值得說(shuō)明的是,由于注意力機(jī)制可以動(dòng)態(tài)調(diào)整群體中每個(gè)用戶的權(quán)重,因而它也提供了一個(gè)新的靈活的方法來(lái)對(duì)復(fù)雜的群體決策過(guò)程進(jìn)行建模。該方法沒(méi)有將諸如社交關(guān)系、文本信息(例如事件描述)或時(shí)間信息等輔助信息納入上下文中,來(lái)學(xué)習(xí)注意力模型。
捆綁推薦(bundle recommendation)主要是指對(duì)用戶推薦商品集合。捆綁推薦利用注意機(jī)制旨在學(xué)習(xí)一捆(bundle)的表示。Chen 等[26]認(rèn)為大多研究主要關(guān)注給用戶推薦單個(gè)物品,然而在很多真實(shí)應(yīng)用場(chǎng)景中,平臺(tái)需要給用戶展示物品集合,例如營(yíng)銷策略中會(huì)將多個(gè)物品打包在一起銷售。為此,作者提出了深度注意力多任務(wù)模型(deep attentive multi-task,DAM)以對(duì)用戶和物品的集合進(jìn)行建模,該模型具有兩個(gè)特殊設(shè)計(jì):(1)因式分解注意力網(wǎng)絡(luò)用于對(duì)商品的嵌入進(jìn)行聚合,進(jìn)而得到捆綁表示;(2)通過(guò)多任務(wù)處理方式來(lái)對(duì)用戶捆綁交互和用戶商品交互聯(lián)合建模,避免了用戶捆綁交互的不足。實(shí)驗(yàn)結(jié)果表明,其中的注意力機(jī)制可以有效地為每個(gè)用戶學(xué)習(xí)一個(gè)個(gè)性化的權(quán)重。然而,該方法沒(méi)有考慮物品共現(xiàn)信息(有些產(chǎn)品是存在互補(bǔ)關(guān)系的,如你買網(wǎng)球拍,一般會(huì)買個(gè)網(wǎng)球)、時(shí)間因素(用戶的興趣很容易隨時(shí)間變化)。
協(xié)同注意力機(jī)制的基本思想是同時(shí)對(duì)多個(gè)輸入序列進(jìn)行操作,并共同學(xué)習(xí)它們的注意力權(quán)重,以捕獲這些輸入之間的交互[27]。它能更好地捕捉不同屬性(特征)之間的交互關(guān)系。本文從可解釋性推薦、知識(shí)增強(qiáng)推薦和評(píng)論文本推薦等經(jīng)典推薦應(yīng)用場(chǎng)景方面,來(lái)分析其如何利用協(xié)同注意力機(jī)制來(lái)提高推薦性能。
可解釋性推薦中利用協(xié)同注意力機(jī)制旨在遴選出對(duì)推薦與解釋生成任務(wù)來(lái)說(shuō)都很重要的點(diǎn)評(píng)及概念,作為兩個(gè)任務(wù)共有的知識(shí)。Chen 等[28]認(rèn)為在推薦的同時(shí)提供文本解釋可有效獲得用戶的信賴,增加推薦系統(tǒng)的說(shuō)服力與滿意度等,而解決這個(gè)問(wèn)題的關(guān)鍵是要對(duì)用戶與物品之間的深層次交互進(jìn)行顯式、可解釋的建模,并將建模結(jié)果作為約束直接影響解釋生成和推薦結(jié)果。鑒于此,受認(rèn)知科學(xué)相關(guān)啟發(fā),作者提出了一種基于協(xié)同注意力機(jī)制的多任務(wù)學(xué)習(xí)模型(co-attentive multi-task learning,CAML),其中的層級(jí)多指針協(xié)同注意力機(jī)制選擇器(multi-pointer co-attention selector)將僅對(duì)重要信息進(jìn)行保留。具體來(lái)說(shuō),每個(gè)指針(pointer)對(duì)應(yīng)兩層協(xié)同注意力機(jī)制網(wǎng)絡(luò),分別選擇一個(gè)用戶或商品概念。以選擇用戶概念為例,第一層協(xié)同注意力機(jī)制網(wǎng)絡(luò)利用點(diǎn)評(píng)編碼計(jì)算用戶點(diǎn)評(píng)在商品歷史點(diǎn)評(píng)中的相關(guān)程度。在篩選出用戶最重要的點(diǎn)評(píng)后,點(diǎn)評(píng)將被展開(kāi)到概念(concept)這一層次,接著利用第二層協(xié)同注意力機(jī)制網(wǎng)絡(luò)計(jì)算每個(gè)概念的作用,選擇點(diǎn)評(píng)中最為重要的概念作為對(duì)用戶點(diǎn)評(píng)信息的補(bǔ)充。值得說(shuō)明的是,CAML模型沒(méi)有解決推薦系統(tǒng)的冷啟動(dòng)問(wèn)題。
知識(shí)增強(qiáng)推薦中利用協(xié)同注意力機(jī)制旨在更好地捕捉不同屬性(特征)之間的交互關(guān)系。Yang 等[29]認(rèn)為現(xiàn)有大多數(shù)基于注意力機(jī)制的推薦模型在生成用戶的表示時(shí)應(yīng)用了粗粒度的注意力機(jī)制,少數(shù)改進(jìn)的模型盡管在注意力模塊中加入了物品的屬性(特征)信息,即融入物品的相關(guān)知識(shí),但仍然僅在用戶表示這一端應(yīng)用了注意力機(jī)制。鑒于此,作者提出了一種在用戶表示端與物品表示端協(xié)同應(yīng)用(物品)屬性級(jí)注意力機(jī)制的深度學(xué)習(xí)推薦模型,稱為屬性級(jí)協(xié)同注意力模型(attributelevel co-attention model,ACAM),其主要特征為:(1)物品與用戶的初始表示基于知識(shí)圖譜中物品屬性的表示(向量),而非單一的隨機(jī)初始化向量;(2)內(nèi)建協(xié)同注意力機(jī)制模塊,通過(guò)捕獲不同屬性之間的關(guān)聯(lián)來(lái)增強(qiáng)用戶和物品的表示,這是考慮到不同的物品屬性(特征)之間可能存在相關(guān)性。例如,電影屬性中,演員史泰龍與動(dòng)作題材高度相關(guān),而演員鞏俐與導(dǎo)演張藝謀也很相關(guān)。因此,利用屬性相關(guān)性來(lái)增強(qiáng)用戶或物品表示,能更加精確地揭示目標(biāo)用戶和候選物品之間的潛在關(guān)系,從而提升推薦性能。簡(jiǎn)單來(lái)說(shuō),ACAM模型首先用細(xì)粒度的屬性嵌入來(lái)表示用戶和物品,然后通過(guò)屬性級(jí)的協(xié)同注意力模塊同時(shí)增強(qiáng)用戶表示和物品表示。但是,該模型沒(méi)有考慮用戶與物品之間的高階非線性關(guān)系。
評(píng)論文本推薦中利用協(xié)同注意力機(jī)制旨在從用戶評(píng)論以及與商品相關(guān)的評(píng)論中抽取出重要的評(píng)論信息,以學(xué)習(xí)用戶與商品的表示。Tay等[3]認(rèn)為在預(yù)測(cè)用戶對(duì)商品的評(píng)分時(shí),并不是用戶寫(xiě)過(guò)的所有評(píng)論以及商品的所有評(píng)論都同等重要,而應(yīng)通過(guò)兩者的交互來(lái)篩選出最重要的評(píng)論,提取最有用的信息,進(jìn)而幫助更好地進(jìn)行評(píng)分預(yù)測(cè)和推薦。為找到更加有用的評(píng)論,即對(duì)評(píng)論加上一個(gè)重要性權(quán)重,作者提出了多指針協(xié)同注意力網(wǎng)絡(luò)(multi-pointer co-attention network,MPCN),該網(wǎng)絡(luò)能夠?qū)⒂脩羯唐方换サ亩鄠€(gè)視圖結(jié)合起來(lái)。該網(wǎng)絡(luò)能從用戶和商品評(píng)論中提取重要的評(píng)論,然后逐字逐句地匹配它們,這不僅可以將最有用的評(píng)論用于預(yù)測(cè),還可以進(jìn)行更深入的單詞級(jí)交互。具體來(lái)說(shuō),該網(wǎng)絡(luò)通過(guò)協(xié)同注意力機(jī)制在評(píng)論級(jí)(review-level)和字符級(jí)(word-level)上對(duì)用戶評(píng)論和與商品相關(guān)的評(píng)論進(jìn)行選擇,選擇最重要的一條或若干條評(píng)論來(lái)對(duì)用戶和當(dāng)前商品進(jìn)行表示。然而,該網(wǎng)絡(luò)僅僅局限在淺層線性特征層面,而且用戶特征和商品的高級(jí)抽象特征未被充分挖掘。
自注意力機(jī)制的基本思想是利用輸入項(xiàng)之間相互關(guān)系,自行決定分配輸入項(xiàng)權(quán)重大小,即對(duì)于每個(gè)輸入項(xiàng)所分配的權(quán)重大小取決于輸入項(xiàng)間的相互作用[30]。本文從可解釋性推薦、序列推薦和用戶行為推薦等經(jīng)典推薦應(yīng)用場(chǎng)景方面,來(lái)分析其如何利用自注意力機(jī)制來(lái)提高推薦性能。
可解釋性推薦中利用自注意力機(jī)制旨在為用戶的交互商品分配注意力權(quán)重。Yu 等[31]提出了一個(gè)名為NAIRS的神經(jīng)注意力可解釋推薦系統(tǒng),其中的自注意力機(jī)制可以區(qū)分不同交互商品對(duì)用戶概要(user profile)的重要性,即可以根據(jù)與用戶偏好相關(guān)的意圖重要性來(lái)計(jì)算用戶概要中歷史商品的注意力得分。通過(guò)學(xué)習(xí)到的注意力得分,NAIRS可以根據(jù)用戶的歷史偏好為他們提供高質(zhì)量的個(gè)性化推薦。總結(jié)來(lái)說(shuō),NAIRS具有兩方面特征:(1)通過(guò)自注意機(jī)制來(lái)學(xué)習(xí)用戶的表示形式,而不是針對(duì)特定商品計(jì)算注意力得分;(2)在實(shí)踐中,可以基于預(yù)先計(jì)算的用戶表示來(lái)實(shí)時(shí)推薦商品。用戶的興趣是短暫的,并且在長(zhǎng)時(shí)間和短時(shí)間內(nèi)都會(huì)發(fā)生變化,但NAIRS并沒(méi)有考慮在用戶的交互商品中捕獲長(zhǎng)期和短期興趣。
序列推薦是指給用戶推薦在不久的將來(lái)可能會(huì)發(fā)生交互行為的商品。序列推薦中利用自注意力機(jī)制旨在從用戶歷史行為中推斷商品之間的關(guān)系。Lv 等[32]認(rèn)為現(xiàn)有的序列推薦中存在兩個(gè)問(wèn)題:(1)用戶在一個(gè)會(huì)話(session)中可能存在多個(gè)興趣傾向;(2)用戶長(zhǎng)期偏好可能無(wú)法與當(dāng)前會(huì)話興趣有效融合。事實(shí)上,長(zhǎng)期行為多樣且復(fù)雜,因此與短期行為密切相關(guān)的行為應(yīng)保留融合。鑒于此,作者提出了序列深度匹配模型(sequential deep matching,SDM),它能融合用戶的長(zhǎng)期與短期行為,在長(zhǎng)期行為中挖掘用戶對(duì)物品屬性的偏好(例如類目、品牌、店鋪等),在短期行為中結(jié)合自注意力機(jī)制過(guò)濾掉會(huì)話內(nèi)部的一些誤點(diǎn)擊行為(casual click),并挖掘用戶在會(huì)話內(nèi)的多方面興趣,最后構(gòu)造出自適應(yīng)的融合長(zhǎng)短期興趣的用戶表示。然而,SDM 模型沒(méi)有考慮多個(gè)交織興趣的影響,因?yàn)橛脩敉ǔT谝粋€(gè)會(huì)話中同時(shí)具有多個(gè)興趣,并且這些興趣可能是交織的。類似地,Zhang 等[33]提出了一個(gè)序列感知推薦模型AttRec,該模型利用自注意力機(jī)制來(lái)為用戶短期行為模式的依賴關(guān)系和重要性建模,同時(shí)該模型也使用度量學(xué)習(xí)(metric learning)保留了用戶的長(zhǎng)久興趣。具體來(lái)說(shuō),通過(guò)自注意力機(jī)制,模型可以在用戶交互歷史中評(píng)估每個(gè)物品的相關(guān)性權(quán)重,從而更好地學(xué)習(xí)用戶短期興趣的表示。然而,AttRec 模型沒(méi)有充分考慮用戶交互行為的序列,因?yàn)橛脩粼诓煌瑫r(shí)間交互的項(xiàng)目對(duì)用戶興趣的反映具有不同的意義。
Zhang等[34]認(rèn)為現(xiàn)有的序列推薦通常只考慮商品之間的轉(zhuǎn)換模式,而忽略了商品特征之間的轉(zhuǎn)換模式,并指出利用商品層次的序列不能揭示完整序列模式的特性,顯式和隱式特征層次的序列有助于提取完整序列的模式。為此,作者提出了特征層次的深層自注意力網(wǎng)絡(luò)(feature-level deeper self-attention network,F(xiàn)DSA),該網(wǎng)絡(luò)首先通過(guò)標(biāo)準(zhǔn)注意力機(jī)制,利用不同權(quán)重將多種異質(zhì)商品特征集成為特征序列,然后基于商品層面序列和特征層面序列,分別利用獨(dú)立的自注意力模塊對(duì)商品轉(zhuǎn)換模式和特征轉(zhuǎn)換模式進(jìn)行建模,接下來(lái),將這兩個(gè)模塊的輸出進(jìn)行集成,得到一個(gè)全連接層,然后用于推薦下一個(gè)商品。然而,F(xiàn)DSA網(wǎng)絡(luò)沒(méi)有考慮如何直接地進(jìn)行特征間的信息交互。此外,Zhang 等[35-36]在序列推薦中通過(guò)自注意力機(jī)制來(lái)估計(jì)用戶交互歷史中每個(gè)商品的權(quán)重,進(jìn)而學(xué)習(xí)到用戶短期興趣的更準(zhǔn)確表示。
用戶行為推薦中利用自注意力機(jī)制旨在對(duì)行為間的互相影響進(jìn)行建模。Zhou等[37]認(rèn)為在電商領(lǐng)域中,一個(gè)用戶可能瀏覽、購(gòu)買、收藏商品,領(lǐng)取、使用優(yōu)惠券、點(diǎn)擊廣告、搜索關(guān)鍵詞、寫(xiě)評(píng)論或者觀看商家提供的商品介紹視頻等,這些不同的行為為人們更全面地理解一個(gè)用戶提供了不同的視角。然而,面對(duì)用戶如此異構(gòu)、多樣化的行為,現(xiàn)有推薦模型很難做到更精確的推薦。在這樣的背景下,作者提出了一個(gè)通用的基于自注意力機(jī)制的用戶異構(gòu)行為框架ATRank,以試圖將所有類型的行為投射到多個(gè)潛在的語(yǔ)義空間中,并通過(guò)自注意力機(jī)制對(duì)行為產(chǎn)生影響。其中,框架利用自注意力機(jī)制來(lái)對(duì)行為間的互相影響進(jìn)行建模。具體來(lái)說(shuō),其中的自注意力機(jī)制用于將用戶的每一個(gè)行為從一個(gè)客觀的表示轉(zhuǎn)換成一個(gè)用戶記憶中的表示??陀^的表示是指,例如用戶A、B做了同樣一件事,這個(gè)行為本身的表示可能是相同的,但這個(gè)行為在A、B的記憶中其強(qiáng)度、清晰度可能是完全不一樣的,因?yàn)锳、B 的其他行為不同。然而,ATRank框架仍然需要領(lǐng)域?qū)<业奶卣鞴こ毯图軜?gòu)工程。
層級(jí)注意力機(jī)制的基本思想是在具有自然層次化結(jié)構(gòu)的輸入序列的不同層次結(jié)構(gòu)上應(yīng)用注意力機(jī)制,使得低層次抽象的特征表示作為高層次抽象的輸入[38-39]。本文從長(zhǎng)短期序列推薦和評(píng)論文本推薦等經(jīng)典推薦應(yīng)用場(chǎng)景方面,來(lái)分析其如何利用層級(jí)注意力機(jī)制來(lái)提高推薦性能。
長(zhǎng)短期(long and short-term)序列推薦中利用層級(jí)注意力機(jī)制旨在自動(dòng)為用戶分配商品的不同影響(權(quán)重)以捕捉動(dòng)態(tài)特性,并通過(guò)層次結(jié)構(gòu)來(lái)結(jié)合用戶的長(zhǎng)期和短期偏好。Ying 等[38]認(rèn)為用戶的長(zhǎng)期興趣是隨時(shí)間而變化的,不同的商品對(duì)下一次購(gòu)買行為的影響是不一樣的,且對(duì)于不同用戶,相同商品對(duì)下一次購(gòu)買也有不同的影響。鑒于此,作者提出了序列層級(jí)注意力網(wǎng)絡(luò)(sequential hierarchical attention network,SHAN)來(lái)解決下一個(gè)商品推薦問(wèn)題。其中,作者首先將用戶和商品嵌入低維密集空間,然后利用注意力機(jī)制計(jì)算用戶長(zhǎng)期集合中商品的不同權(quán)值,并用權(quán)值對(duì)商品向量進(jìn)行壓縮以生成用戶長(zhǎng)期表示。之后,作者使用另一個(gè)注意力機(jī)制來(lái)耦合用戶的序列行為和長(zhǎng)期表示,以生成用戶的高級(jí)混合表示。用戶嵌入向量作為兩個(gè)注意力網(wǎng)絡(luò)中的上下文信息,以計(jì)算不同用戶的不同權(quán)重。SHAN網(wǎng)絡(luò)假定每個(gè)用戶對(duì)商品的偏好分布是扁平的,然而,這一假設(shè)忽略了用戶意圖和用戶偏好之間的層次差別,導(dǎo)致其在描述特定意圖偏好方面能力有限。
評(píng)論文本推薦中利用層級(jí)注意力機(jī)制旨在單詞級(jí)和語(yǔ)句級(jí)上識(shí)別評(píng)論文本中最重要的部分。Xing 等[40]認(rèn)為現(xiàn)有研究結(jié)合了用戶和產(chǎn)品信息來(lái)生成評(píng)論表示,然而這些方法只考慮了單詞級(jí)別的評(píng)論文本信息,沒(méi)有考慮語(yǔ)義級(jí)別的評(píng)論文本信息。鑒于此,作者提出了一種基于用戶和產(chǎn)品評(píng)論的層級(jí)注意力模型(HAUP)以從用戶評(píng)分和用戶評(píng)論文本中聯(lián)合學(xué)習(xí)用戶和物品信息。該模型首先構(gòu)造一個(gè)層級(jí)雙向門控循環(huán)單元(bidirectional gated recurrent unit,Bi-GRU),其中包括單詞和句子級(jí)別的評(píng)論信息。Bi-GRU結(jié)構(gòu)可以處理評(píng)論文本中的長(zhǎng)期依賴關(guān)系。然后,在構(gòu)建評(píng)論文本表示時(shí),在單詞和句子級(jí)別應(yīng)用注意力機(jī)制以識(shí)別最重要的內(nèi)容。最后,將生成的潛在用戶和產(chǎn)品表示合并到相同的向量空間中以估計(jì)評(píng)分。HAUP 模型沒(méi)有考慮到評(píng)論集合中單條評(píng)論的有效性。
多頭注意力機(jī)制的基本思想是并行地運(yùn)行多個(gè)注意力層(“多頭”),然后將它們的輸出拼接起來(lái),再對(duì)結(jié)果進(jìn)行線性變換[30]。本文從跨媒體關(guān)鍵詞預(yù)測(cè)和點(diǎn)擊率預(yù)測(cè)等經(jīng)典推薦應(yīng)用場(chǎng)景方面,來(lái)分析其如何利用多頭注意力機(jī)制來(lái)提高推薦性能。
跨媒體關(guān)鍵詞預(yù)測(cè)中利用多頭注意力機(jī)制旨在捕獲復(fù)雜的跨媒體交互信息。Wang等[41]認(rèn)為當(dāng)前大多數(shù)工作都集中在文本建模上,忽略了相關(guān)的圖像特征。具體來(lái)說(shuō),由于社交媒體的非正式風(fēng)格,跨媒體關(guān)鍵詞預(yù)測(cè)帶來(lái)了獨(dú)特的差異,主要體現(xiàn)在兩個(gè)方面:(1)文本圖像關(guān)系相當(dāng)復(fù)雜;(2)社交媒體圖像通常呈現(xiàn)出更多樣化的分布,并且包含光學(xué)字符的概率要高得多,因此為有效處理帶來(lái)了障礙。鑒于此,作者探討了基于文本和圖像聯(lián)合建模的多媒體關(guān)鍵詞預(yù)測(cè)模型M3H-Att(multimodality multi-head attention)。首先為了對(duì)齊社交媒體中的文本和圖像特征,作者設(shè)計(jì)了一個(gè)多模態(tài)、多頭注意力框架去捕獲復(fù)雜的跨媒體交互信息,接著以字符特征和圖像屬性的形式來(lái)連接圖像、文字這兩種不同的模態(tài),以彌補(bǔ)它們之間的語(yǔ)義鴻溝。實(shí)驗(yàn)結(jié)果表明,作者提出的模型優(yōu)于傳統(tǒng)的基于協(xié)同注意力機(jī)制的技術(shù)。M3H-Att模型沒(méi)有考慮圖像中存在大量的無(wú)關(guān)噪聲像素,沒(méi)有考慮從現(xiàn)有的海量圖文數(shù)據(jù)上學(xué)習(xí)模態(tài)之間的信息轉(zhuǎn)化關(guān)系。
點(diǎn)擊率預(yù)測(cè)中利用多頭注意力機(jī)制旨在對(duì)輸入特征的不同順序的特征組合進(jìn)行建模。Song 等[42]認(rèn)為點(diǎn)擊率預(yù)測(cè)非常具有挑戰(zhàn)性,主要體現(xiàn)在兩個(gè)方面:(1)輸入特征(如用戶id、用戶年齡、商品id 和商品類別等)通常是稀疏高維的;(2)有效的預(yù)測(cè)通常依賴于高階組合特征(cross features,又稱交互特征),由領(lǐng)域?qū)<沂止ぬ幚矸浅:臅r(shí),很難窮舉。因此,致力于尋找稀疏高維原始特征的低維表示及其有意義的組合將是點(diǎn)擊率預(yù)測(cè)的研究重點(diǎn)。鑒于此,作者提出了一種稱為AutoInt的模型來(lái)自動(dòng)學(xué)習(xí)輸入特征的高階特征交互。具體來(lái)說(shuō),作者將數(shù)值和分類特征都映射到相同的低維空間中。然后,提出了帶有殘差連接的多頭注意力機(jī)制,以對(duì)低維空間中的特征相互作用進(jìn)行顯式建模。最后,利用多頭注意力機(jī)制的不同層來(lái)對(duì)輸入特征的不同順序的特征組合進(jìn)行建模。AutoInt模型未能充分挖掘有意義的高階交叉特征。其中的組合只是找到了關(guān)系相近的特征,而關(guān)系相近的特征進(jìn)行組合并不一定是合適的方式,也就是說(shuō)多頭注意力機(jī)制能做到有意義的特征組合,但卻不能說(shuō)明關(guān)系不相近的特征的意義就不大。
類似地,Xiao等[10]認(rèn)為用戶在一個(gè)時(shí)間點(diǎn)的興趣是多樣的,而潛在的主要興趣是通過(guò)行為來(lái)表示的,潛在主要興趣的轉(zhuǎn)變會(huì)導(dǎo)致最終的行為變化。因此,建模和跟蹤潛在的多重興趣將是有益的。鑒于此,對(duì)于點(diǎn)擊率預(yù)測(cè)任務(wù),作者提出了深度多興趣網(wǎng)絡(luò)模型(deep multi-interest network,DMIN)來(lái)捕獲用戶潛在的多興趣。具體來(lái)說(shuō),DMIN模型由兩部分組成:(1)行為細(xì)化層,使用多頭注意力機(jī)制對(duì)用戶歷史行為進(jìn)行提煉,即捕捉更好的用戶歷史商品表示;(2)多興趣提取層,實(shí)現(xiàn)用戶多興趣的抽取。然而,DMIN模型沒(méi)有考慮到一個(gè)用戶的興趣變化可以通過(guò)其他用戶的興趣變化來(lái)預(yù)測(cè),更具體地說(shuō),相似的用戶會(huì)朝著相似的方向改變他們的興趣。
簡(jiǎn)單來(lái)說(shuō),注意力機(jī)制就是對(duì)每個(gè)輸入項(xiàng)分配一個(gè)權(quán)重。其主要目標(biāo)是讓神經(jīng)網(wǎng)絡(luò)在執(zhí)行預(yù)測(cè)任務(wù)時(shí)可以多關(guān)注輸入中相關(guān)部分,少關(guān)注不相關(guān)部分。表1對(duì)文中所述注意力機(jī)制在邏輯思路、優(yōu)勢(shì)、局限性和適用場(chǎng)景這四個(gè)方面進(jìn)行了詳細(xì)比較。
表1 注意力機(jī)制詳細(xì)比較Table 1 Detailed comparison of attention mechanism
深度學(xué)習(xí)推薦系統(tǒng)是深度學(xué)習(xí)技術(shù)在商業(yè)社會(huì)的一項(xiàng)成功應(yīng)用,它通過(guò)從海量數(shù)據(jù)中篩選出對(duì)用戶最有價(jià)值的數(shù)據(jù),從而讓用戶更高效地接觸對(duì)自己有意義的內(nèi)容,進(jìn)而提高整個(gè)商業(yè)流程的效率[43-44]。而注意力機(jī)制能幫助推薦模型快速抓住最具信息量的特征,推薦最具代表性的物品,同時(shí)一定程度上增強(qiáng)模型的可解釋性等。鑒于此,本文針對(duì)一些有代表性的推薦場(chǎng)景,探討研究了深度學(xué)習(xí)推薦模型如何利用注意力機(jī)制及其變種來(lái)對(duì)不同的項(xiàng)目或特征施加不同的權(quán)重以提升推薦效率,為下一步的深入研究打下良好基礎(chǔ)。注意力機(jī)制或許是未來(lái)深度學(xué)習(xí)的核心要素,但目前融合注意力機(jī)制的深度學(xué)習(xí)推薦模型在推薦系統(tǒng)上的應(yīng)用還處于比較初級(jí)的階段,尤其是技術(shù)上的發(fā)展較慢于計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理領(lǐng)域等。展望未來(lái),為進(jìn)一步激勵(lì)將融合注意力機(jī)制的深度學(xué)習(xí)用于推薦系統(tǒng),本文認(rèn)為注意力機(jī)制技術(shù)在推薦多樣性、推薦可解釋性和多種輔助信息(side information)融合等方面仍存在一些開(kāi)放性問(wèn)題值得探討。
(1)有效實(shí)現(xiàn)推薦多樣性
推薦結(jié)果多樣性是指推薦模型為每個(gè)目標(biāo)用戶推薦類別多樣化的物品。推薦結(jié)果多樣性可以被視為雙目標(biāo)優(yōu)化問(wèn)題,即最大化推薦列表的整體相關(guān)性,并盡量減少列表中物品之間的相似性?,F(xiàn)實(shí)應(yīng)用中,推薦結(jié)果多樣性不僅能向用戶推薦彼此相似度低的物品,還能開(kāi)闊用戶認(rèn)知視野、激發(fā)用戶潛在興趣等,甚至能使用戶更好地發(fā)現(xiàn)具有“新穎性”的物品,進(jìn)而增加冷門物品被推薦的機(jī)會(huì)(避免長(zhǎng)尾現(xiàn)象)。總結(jié)來(lái)說(shuō),推薦結(jié)果多樣性對(duì)優(yōu)化點(diǎn)擊轉(zhuǎn)化效率、用戶體驗(yàn)、瀏覽深度、停留時(shí)長(zhǎng)、回訪、留存等目標(biāo)至關(guān)重要?,F(xiàn)有研究中,提升推薦結(jié)果多樣性的思路主要有三種:①召回階段策略??梢匀诤喜煌扑]召回算法的推薦結(jié)果,即多路召回。②精排階段策略。精排模型中加入用戶、物品和環(huán)境特征,實(shí)現(xiàn)在不同的維度的多樣性。通常來(lái)說(shuō),特征越豐富個(gè)性化越強(qiáng),同時(shí)多樣性越強(qiáng)。③重排序階段策略。在推薦流程前面的召回、過(guò)濾、粗排和精排階段的基礎(chǔ)上,進(jìn)一步找到商品集中相關(guān)性和多樣性最大的子集,從而作為推薦給用戶的商品集,工業(yè)界的代表性方法有:最大邊界相關(guān)算法(maximal marginal relevance,MMR)[45];行列式點(diǎn)過(guò)程(determinantal point process,DPP)[46]、個(gè)性化重排序模型(personalized re-ranking model,PRM)等,這類方法都是基于貪心的策略,容易陷入局部最優(yōu)解,且都需要額外的參數(shù)來(lái)平衡多樣性與準(zhǔn)確率。盡管現(xiàn)有的推薦結(jié)果多樣性方法已取得不錯(cuò)的效果,但其仍然存在固有的局限性:①?zèng)]有考慮領(lǐng)域級(jí)別和用戶級(jí)別的多樣性分布差異[47]。首先,即使用戶的興趣比較固定(多樣性較低),這些方法仍然會(huì)給用戶推薦一個(gè)多樣化的結(jié)果。其次,現(xiàn)有方法的推薦策略不會(huì)隨著領(lǐng)域的不同而做出改變。②假設(shè)用戶意圖是靜態(tài)的,并且需要預(yù)先告知具體的用戶意圖[48]。因此,在保證推薦準(zhǔn)確率的前提下,如何從用戶多樣性偏好角度,利用注意力機(jī)制來(lái)挖掘反映在用戶行為序列中的多個(gè)潛在用戶意圖,然后為用戶意圖生成一個(gè)準(zhǔn)確且多樣性的推薦列表,將是推薦模型未來(lái)研究的熱點(diǎn)和新的發(fā)展方向。
(2)幫助促進(jìn)推薦可解釋性
推薦可解釋性指的是推薦模型在為用戶提供推薦的同時(shí),也提供直接的推薦理由?,F(xiàn)實(shí)應(yīng)用中,給用戶提供有價(jià)值的推薦解釋往往是很重要的,這不僅能夠加深用戶對(duì)產(chǎn)品的理解和信賴,提升用戶體驗(yàn)和用戶選擇推薦物品的概率,還能提升模型透明度(模型為什么會(huì)做出如此決策等)和用戶對(duì)模型的信任和接受程度等[49]。盡管現(xiàn)在的推薦模型具備一定程度的可解釋性,但仍存在以下兩個(gè)問(wèn)題:①給出的解釋通常是以相關(guān)歷史交互物品的形式來(lái)產(chǎn)生,其中的相似性是通過(guò)在系統(tǒng)內(nèi)定義每個(gè)物品的潛在權(quán)重來(lái)獲得,這讓報(bào)告為相似的兩個(gè)物品可能被終端用戶認(rèn)為不是這樣的,并且與提供解釋的最初動(dòng)機(jī)相矛盾;②通常僅能捕獲部分用戶偏好和物品屬性信息,無(wú)法識(shí)別出與被推薦物品密切相關(guān)的用戶特征,這將導(dǎo)致推理和準(zhǔn)確性有限。事實(shí)上,缺乏合理的解釋已成為模型在現(xiàn)實(shí)推薦任務(wù)中進(jìn)一步發(fā)展和應(yīng)用的主要障礙之一[28]。因此,如何利用注意力機(jī)制從生成策略,密度控制和維度優(yōu)化等方面來(lái)動(dòng)態(tài)識(shí)別最能代表不同用戶的特征,以便在產(chǎn)生相關(guān)的推薦物品的同時(shí),提供被證明是合理的解釋,將是一個(gè)值得探索的方向之一。
(3)快速融合多種輔助信息
輔助信息中所包含的信息量可以有效彌補(bǔ)用戶歷史交互信息的稀疏或缺失,因此同時(shí)利用這些信息將能更好地發(fā)現(xiàn)用戶的個(gè)性化偏好,從而給推薦效率帶來(lái)顯著提升[50]。在實(shí)際應(yīng)用中,除了大量的用戶與物品的交互歷史數(shù)據(jù)之外,還有豐富的用戶畫(huà)像(例如年齡、性別、興趣偏好等)、物品屬性(例如物品類別、描述、價(jià)格等)、上下文信息(例如當(dāng)前會(huì)話信息、位置信息等)和知識(shí)圖譜[51]等輔助信息,它們往往具有多模態(tài)、數(shù)據(jù)異構(gòu)、大規(guī)模、數(shù)據(jù)稀疏和分布不均勻等復(fù)雜特征。很顯然,要想提高推薦的精準(zhǔn)度或增強(qiáng)推薦算法的挖掘能力,就必須要求推薦模型應(yīng)盡可能多地融合輔助信息,并具有很強(qiáng)的擴(kuò)展性。然而現(xiàn)有大多數(shù)推薦模型對(duì)輔助信息缺乏深入理解,主要體現(xiàn)在以下三個(gè)方面:①輔助信息本身存在較為復(fù)雜的多源異構(gòu)特征;②沒(méi)有考慮任何不同類型和任何數(shù)量的屬性的組合;③沒(méi)有計(jì)算屬性間的高階交叉特征。因此,如何利用注意力機(jī)制實(shí)現(xiàn)早期融合各部分信息,使各部分相互補(bǔ)充、相互啟發(fā),從而將輔助信息統(tǒng)一嵌入到物品的潛在語(yǔ)義空間中,進(jìn)而形成語(yǔ)義豐富的更精確的物品表示,最終增強(qiáng)模型的擴(kuò)展性并提高推薦性能,將是未來(lái)學(xué)術(shù)界的探索方向和研究重點(diǎn)。