鄔 俊, 劉 林, 盧香葵, 羅芳媛
(1.北京交通大學計算機與信息技術學院,北京 100044;2.數(shù)字化學習技術集成與應用教育部工程研究中心,北京 100039;3.交通大數(shù)據(jù)與人工智能教育部重點實驗室,北京 100044)
評論感知評分回歸(review-aware rating regression, R3)是構建電商推薦系統(tǒng)的核心技術之一.該技術通過機器學習建立從文本評論到數(shù)值評分的統(tǒng)計推理模型,實現(xiàn)對用戶信息需求的細粒度感知以及對商品受眾群體的精準定位,是企業(yè)制定市場區(qū)隔與定向營銷策略的重要依據(jù),能夠為管理者提供輔助決策支持[1].過去十余年里,學者們提出大量R3 方法,諸如早期基于主題模型(latent dirichle allocation, LDA)[2]與矩陣分解(matrix factorization, MF)[3]的淺層學習方法[4],以及當下以TextCNN[5]為基礎同時結合各種注意力機制的深度學習方法[6-7].然而,這些方法僅把文本評論當作輔助信息,用以豐富用戶和物品的特征表達,卻忽視了其在增強推薦系統(tǒng)可解釋性方面的潛在價值.
可解釋推薦是提升用戶對平臺信任度和滿意度的重要技術途徑.伴隨著神經(jīng)計算語言模型的迅猛發(fā)展,基于文本生成的可解釋推薦技術逐漸成為學術界和工業(yè)界共同關注的焦點.一種常見思路是采取注意力機制,從歷史評論中挑選出對評分回歸貢獻較大的句子或單詞[8-9].另一種思路是采取多任務學習機制,在評分預測的同時生成解釋文本[10].盡管這些方法取得了一定成功,但未能充分考慮用戶歷史評論與當前評分回歸任務之間的情感一致性,容易產(chǎn)生帶有情感沖突的解釋文本.例如,當前預測評分為2分時(表示用戶對物品的不太滿意),而解釋文本中卻出現(xiàn)了諸如“很喜歡,強烈推薦”等贊許性詞匯.這種預測評分與解釋文本之間的情感沖突會嚴重影響用戶對推薦系統(tǒng)的信任度和滿意度.
有鑒于此,提出一種基于情感可控文本生成的可解釋推薦(emotion controlling text generation towards explainable R3,E2R3)框架,該框架由評分回歸模型和解釋生成模型串聯(lián)而成.E2R3 主張根據(jù)評分回歸結果甄選出與之具有一致性情感的歷史評論,以此作為解釋生成模型的輸入語料,從而避免預測評分與生成文本之間發(fā)生情感沖突.同時,通過多任務學習設置,評分回歸模型和解釋生成模型可以相互影響,實現(xiàn)漸進式協(xié)同優(yōu)化.四個真實電商數(shù)據(jù)集上的實驗結果與案例分析表明,所提出E2R3方案在評分回歸精度和解釋文本生成質量兩個方面均優(yōu)于現(xiàn)有主流方法.
本小節(jié)簡要介紹評論感知評分回歸和推薦解釋文本生成兩個研究領域的國內外研究現(xiàn)狀,并對其存在問題及可能取得突破的方向進行重點剖析.
評論感知評分回歸任務自被提出以來就受到了廣泛的關注,學者們在該領域進行了不同的嘗試和探索.Ling等[11]提出將隱主題模型和矩陣分解技術結合的RMR 模型,將基于內容的推薦方法與協(xié)同過濾方法無縫結合;Zheng 等[12]從評論中學習用戶和物品表示,并基于因子分解機模型提出DeepCoNN 模型;Chen 等[8]利用卷積神經(jīng)網(wǎng)絡(CNN)提取評論級特征,并通過注意力機制為不同評論賦予差異性權重,以學習在不同的用戶-物品交互下評論重要性等級.類似地,Dong 等[6]提出的AHN 模型,Luo 等[7]提出的NRCMA 模型分別提出使用分層式注意力及跨模態(tài)式注意力機制實現(xiàn)有效的評分回歸.Pugoy 等提出的BENEFICT[9]和ESCOFILT[13]均使用BERT 模型對評論文本編碼,分別通過自注意力機制和K-均值聚類算法獲取評論句子級重要性,并結合深度神經(jīng)網(wǎng)絡預測推薦評分.雖然上述方法在評論感知評分回歸領域取得了不錯的效果,但尚未充分探究評論文本在提高推薦系統(tǒng)可解釋性方面所蘊含的潛在價值.
可解釋推薦旨在為用戶提供推薦結果的同時,提供有效的推薦解釋,以提高推薦置信度和用戶滿意度.文本作為最直接的語義媒介,目前是推薦解釋的主要形式.因此,實現(xiàn)自動化的推薦解釋文本生成成為目前學者的研究重點.主流的方法有抽取式和生成式兩種方式.Chen等[8]提出的NARRE 方法和Pugoy等[9]提出的BENEFICT 方法分別使用CNN 和BERT 編碼評論文本,之后利用注意力機制從歷史評論中抽取高權重的評論級或句子級內容作為推薦解釋,在不引入額外的生成模塊的同時提供推薦解釋.但抽取式方法難以生成新穎的文本,抽取文本內容往往過于相似.與之相對的生成式方法是通過引入語言模型進行文本生成,如Dong 等[14]提出一種注意力增強的長短期記憶網(wǎng)絡(LSTM),實現(xiàn)了“屬性到序列”的文本生成方式;Li等提出的NRT 方法[15]和NETE 方法[16]分別使用門控循環(huán)網(wǎng)絡(GRU)和門控融合循環(huán)網(wǎng)絡(GFRU)將評分結果和評論文本進行聯(lián)合編碼以生成推薦解釋;Chen等[10]提出的CAML 模型利用互注意力機制,在多任務框架下聯(lián)合學習評分回歸和解釋生成任務,以探究兩個任務的協(xié)同促進能力;Hada等[17]提出一個插件式解釋生成模塊ReXPlug,高效地實現(xiàn)了在大語言模型上的可控文本生成.盡管上述工作已經(jīng)可以生成流利可讀的解釋文本,但是它們在考慮回歸評分與生成文本之間的情感一致性上存在局限.
本節(jié)將詳細介紹所提出的E2R3模型.具體而言,首先定義了可解釋的評論感知評分回歸問題以及相關符號系統(tǒng),然后闡述模型構成和訓練方式.
給定推薦系統(tǒng)中的用戶集合U和物品集合I,表示用戶和物品之間的交互訓練集,其中N表示訓練集大小.每一個元素(u,i,rui,eui)∈X 記錄了用戶u對物品i的評分rui和評論(解釋)eui.此外,在評論感知推薦中還需要考慮用戶的歷史評論,令表示用戶u的歷史評論列表,表示用戶給出的對應評分列表.類似的,物品i收到的歷史評論和對應評分列表分別定義為
給定一對用戶和物品u∈U,i∈I,可解釋的評論感知推薦目標是預測用戶對物品的偏好評分,并生成相應的解釋文本,這分別對應著評分回歸任務和解釋生成任務.
E2R3 模型整體架構如圖1 所示,主要由評分預測器和解釋生成器兩部分構成,分別對應著問題定義中的兩個任務.其中評分預測器以用戶u和物品i以及它們的歷史評論列表Vu,Vi作為輸入,輸出用戶對物品的預測評分;解釋生成器基于預測評分,利用原始語料庫數(shù)據(jù)生成情感敏感評論摘要作為解釋文本,且生成的解釋文本具有一定表達差異性,能夠有效克服過度同質化問題.下面具體介紹這兩個組成部分.
圖1 E2R3模型架構Fig.1 Model architecture of E2R3
2.2.1 評分預測器
評分預測器模塊如圖1 左半部分所示,由嵌入層,融合層和全連接層組成.首先,使用深度神經(jīng)編碼器對給定用戶和物品的歷史評論進行編碼,提取有效的語義信息.然后,使用融合層將用戶和物品的評論嵌入和ID嵌入進行融合.最后,利用堆疊的全連接層進行特征轉換,并輸出預測評分.
1) 嵌入層
嵌入層主要用于學習用戶和物品的評論嵌入和ID嵌入.對于ID嵌入,研究者們已在相關工作[1,3,18]中證實了它們對于提升模型能力,如表示學習和個性化推薦能力,具有顯著作用.受此啟發(fā),本模型使用用戶和物品的ID隱向量來描述其個性化特征,分別表示為pu∈Rd和qi∈Rd,其中d表示隱向量的維度.利用文本編碼器對用戶和物品的歷史評論進行編碼聚合,學習其相應的語義特征.E2R3 以層次化方式按詞級、評論級、用戶/物品級順序逐層學習語義特征.具體來說,先將用戶u的每條評論eu·∈Vu輸入到預訓練的文本編碼器中,取編碼器最后一層的輸出作為融合了上下文信息的詞表示.對于一條評論euk,編碼器的輸出結果為矩陣Euk∈Rck×cd,其中ck表示第k條評論中的單詞個數(shù),cd為文本編碼器的輸出向量維度.然后通過對評論中的單詞進行平均池化將詞級嵌入聚合成評論級嵌入,并通過進一步加權聚合成用戶級嵌入,數(shù)學形式可表述為
其中:AvgPool(·)表示對詞級嵌入的平均池化方法.用戶u的語義特征為gu∈Rcd.使用類似的方法,可以計算物品i的語義特征gi.
2) 融合層
融合層對用戶和物品的ID 嵌入和語義嵌入進行融合,得到完整的用戶和物品表示,之后再對用戶和物品表示進行融合,獲取當前用戶-物品對的交互特征.具體來說,將上述得到的語義特征gu/gi和ID 特征qu/qi組合,獲得用戶/物品表示hu/hi,即hu=[gu;qu],hi=[gi;qi].之后將用戶表示hu和物品表示hi進行組合,得到交互級特征hui=[hu;hi],用于后續(xù)的特征轉換.
3) 全連接層
全連接層主要實現(xiàn)特征轉換并輸出評分回歸的結果.在這一層中,用戶-物品對的交互特征被輸入到多層感知機(MLP)中,以學習它們之間的高階非線性關系.參照He等[18]提出的NCF算法,E2R3采用塔形結構的MLP,即底層具有最多的神經(jīng)元,后續(xù)隱層神經(jīng)元逐漸減少.通過這種塔狀結構,MLP可以學習到更抽象的特征交互關系.這部分可以表示為
其中:Wl和bl表示第l層感知機的權重矩陣和偏置向量;ReLU 函數(shù)為神經(jīng)網(wǎng)絡的激活函數(shù).最后,將第L層的輸出vL送入最后一個線性層來預測當前用戶u對物品i的評分,即
針對評分回歸任務,使用均方誤差損失(MSE Loss)作為目標函數(shù),并在訓練集上進行優(yōu)化,MSE Loss可以表示為
其中:X為訓練集;rui表示用戶u對物品i評分的真實值.
2.2.2 解釋生成器
1) 選擇策略
用戶和物品的評論與不同的評分相關,評分從低到高分別對應著用戶從消極到積極的不同情感.如果這些情感不加以區(qū)分就直接用做推薦解釋的輸入語料,則生成的解釋將不可避免地與預測評分產(chǎn)生情感沖突問題.所提出的選擇策略旨在通過顯式區(qū)分歷史評論中的細粒度情感解決該問題,該策略利用評分預測器輸出的預測評分,在歷史評論列表中選擇具有相同或相似評分的評論作為與推薦目標情感接近的語料內容.選擇策略的具體算法流程如算法1所示,通過引入一個掩碼向量m∈{0,1}l,其中l(wèi)為歷史評論個數(shù),mt=1表示評論t被選擇為情感相似語料,否則表示未被選擇.經(jīng)選擇后的評論列表Vsu,Vsi將和預測評分具有高度的情感一致性.
算法 1 選擇策略輸入: 評論列表Vu和Vi,對應的評分列表Ru和Ri,預測評分rui,評論最小選擇數(shù)量δ.輸出: 情感一致性評論子集列表V su 和V si.1: for ob in {u,i} do 2: m ←0, b ←0; // 初始化掩碼向量和偏置.3: while SUM(m)<δ do // SUM(m)表示m中1的個數(shù).4: for t=1,2,…,|Vob| do // |Vob|為Vob長度.5: if Rob[t] == ■■ui+0.5 ±b then 6: mt ←1;7: end if 8: end for 9: b ←b+1;10: end while 11: V sob ←Vob ?m;12: end for 13: return V su,V si;
2) 擾動策略
對于上述選擇策略,當同一用戶(物品)與不同物品(用戶)交互且預測評分相同時,面臨一個挑戰(zhàn):在用戶(物品)側產(chǎn)生的評論語料完全相同,這引入了極大的數(shù)據(jù)相似性,可能導致生成的解釋文本高度同質化,損害用戶體驗.因此,為了增強評論聚合文檔的多樣性,進一步引入了擾動策略.該策略通過使用隨機的順序聚合被選擇出來的評論,形成文檔級語料,一方面可以避免因為固定的聚合順序所帶來的先驗錯誤,另一方面也可以通過提高輸入語料上下文的差異促使大語言模型生成更多樣化的表達.E2R3采用的擾動方法為Knuth-Durstenfeld洗牌算法[19],該算法可在線性時間復雜度內完成等概率的隨機洗牌.經(jīng)隨機聚合后的文檔級語料定義為dui,dui為上下文敏感的語言模型提供了高質量的輸入文本,從而緩解了生成文本過度相似的問題.
3) 策略增強的BART模型
與目前基于RNN 的現(xiàn)有方法不同,本方法采用了遷移學習的方式,將預訓練語言模型應用到解釋生成任務中.已有研究表明[20-21],遷移學習在提升摘要性能方面具有重要作用,而解釋生成任務與文本摘要任務在本質上具有相同的目標,即從冗余文本中提取關鍵信息并以抽象的形式進行總結.因此,選擇了目前在文本摘要領域表現(xiàn)出色的預訓練語言模型BART[22]作為生成模塊的基礎模型,并通過引入本章提出的選擇和擾動策略來對BART 模型進行策略式增強.與標準的BART 模型相比,增強后的模型具有更細粒度的情感對齊能力和多樣性的文本生成能力,從而產(chǎn)生更高質量的摘要式解釋.
本工作在商品推薦評論數(shù)據(jù)集上對經(jīng)過策略增強的BART 模型進行微調,以生成與推薦場景相匹配的解釋文本.具體來說,給定的評論列表Vu和Vi,對應的評分列表Ru和Ri,預測評分,以及評論最小選擇數(shù)量δ,增強后的BART 通過生成情感敏感的摘要式解釋,向用戶u呈現(xiàn)與物品i相關的解釋.對于解釋生成任務,使用負對數(shù)似然(negative log-likelihood,NLL)損失作為損失函數(shù).在第t個時間步,模型生成的單詞為ot,對應的標簽詞為,T為序列長度,則NLL可以表示為
在推理階段,針對已訓練的模型,采用束搜索方法尋找具有最大對數(shù)似然和的最佳序列.
對于模型訓練,E2R3將評分回歸任務和解釋生成任務結合在一個統(tǒng)一的學習框架中,旨在使兩個任務相互促進,相互補充,且能夠保持評分模塊與生成模塊對于用戶-物品交互信息捕獲的一致性,平衡考慮評分回歸的準確性和解釋生成的質量.聯(lián)合優(yōu)化的目標函數(shù)可以表示為
其中:LR為式(5)中的評分回歸任務損失;LE為式(6)中的解釋生成任務損失;Θ表示模型中的全部可學習參數(shù);λe和λl為損失項權重,用于平衡不同損失的重要性.整個學習框架可以使用反向傳播算法在端到端范式中進行優(yōu)化.
首先介紹所使用的數(shù)據(jù)集、基準方法、評價指標等實驗設置,然后通過大量實驗嘗試回答以下研究問題,以評估所提出E2R3方案.
問題1相比于基準方法,E2R3在評分回歸和解釋生成兩項任務上表現(xiàn)如何?
問題2相比同樣使用文本生成的可解釋推薦方法,E2R3是否能夠通過情感引導進一步改善所生成的解釋文本質量?
問題3E2R3所采用的兩個核心策略對模型的影響是什么?
為了全面驗證E2R3的有效性,使用來自電商領域不同商品類目的四個亞馬遜數(shù)據(jù)集,它們具有不同數(shù)據(jù)規(guī)模和密度,包括Patio Lawn and Garden, Digital Music, Clothing Shoes and Jewelry 和Movies and TV.這些數(shù)據(jù)集已在之前文獻中被廣泛使用[8,15-16],統(tǒng)計信息如表1所示.
表1 數(shù)據(jù)集統(tǒng)計信息Tab.1 Statistics of the datasets
為了更好地說明所提出方案的有效性,實驗中將E2R3與六種基準方法進行了比較分析:1)MF[3]通過矩陣分解獲得用戶和物品在共享隱空間的向量表征,并通過向量內積實現(xiàn)評分回歸;2)NeuMF[18]結合了矩陣分解與多層感知機的技術優(yōu)勢,同時借助低階和高階特征交互,以期更好地擬合評分;3)NARRE[8]通過雙塔結構的神經(jīng)網(wǎng)絡,從文本評論中獨立學習用戶和物品的向量表征,同時結合注意力機制評估不同文本內容的有用性;4)NRT[15]使用門控循環(huán)單元(GRU),將預測評分編碼與評論編碼融合,生成提示文本作為推薦解釋;5) NETE[16]利用文本中的特征詞生成模板指導的推薦解釋;6)ESCOFILT[13]利用預訓練的BERT 模型提取評論語料中的句子級表示,并對這些表示進行聚類,將聚類中心的句子作為推薦解釋.前三種為經(jīng)典評分回歸方法,后三種為可解釋推薦方法.
針對評分回歸任務,使用均方誤差(MSE)評測模型性能,該指標用于度量預估評分與真實評分之間偏差,MSE值越低說明回歸性能越好.對于解釋生成任務,綜合測評了生成文本相對于標簽文本的忠誠性以及生成文本間的差異性.對于忠誠性,分別采用Rouge 系列指標(Rouge-1,Rouge-2 和Rouge-L)和BERTScore測評生成文本與標簽文本間的表達相似性和語義相似性.對于差異性,采用Distinct系列指標(Distinct-1和Distinct-2)衡量生成的解釋文本之間的差異性.對于解釋生成任務所使用的六個測評指標,其值越大說明生成文本質量越高.
實驗數(shù)據(jù)按照“訓練集∶驗證集∶測試集=8∶1∶1”比例進行劃分.模型訓練階段,使用Adam優(yōu)化方法,初始學習率設置為10-4.超參數(shù)最小評論數(shù)δ在[1,3,5,8]中進行測試,權重參數(shù)λe在[0.3, 0.5, 0.8, 1.0]中搜索;經(jīng)測試,δ=5和λe=0.5時,模型取得最佳性能.關于模型正則化,丟棄率設置為0.5,L2正則化系數(shù)λl=10-4.
表2顯示了E2R3方案與其他基準方法在MSE指標上的性能對比,其中“改進(%)”表示E2R3相對于最優(yōu)的對比方法所取得的性能改進.通過比較分析,本小節(jié)得出以下幾點結論.首先,相對于純評分回歸方法(MF、NeuMF),使用了文本評論的R3方法(NARRE、NRT、NETE、ESCOFILT、E2R3)大多數(shù)情況下表現(xiàn)出更優(yōu)越的性能.這表明使用評論數(shù)據(jù)對于提高評分回歸準確性具有積極作用.其次,對比五種R3 方法,伴有解釋文本生成的幾種R3 方案(NRT、NETE、ESCOFILT、E2R3)性能更勝一籌.這說明多任務學習有助于進一步優(yōu)化推薦性能.最后,在四種可解釋R3方法中,E2R3在絕大多數(shù)情況下都取得了最佳的性能.尤其在具有多元商品類目的數(shù)據(jù)集(Patio Lawn and Garden 和Clothing Shoes and Jewelry)上,E2R3 分別取得了2.90%和6.03%的性能提升,而僅在單一類目數(shù)據(jù)集Digital Music 上有0.38%的下跌,這表明E2R3在復雜類目場景下更具優(yōu)勢,能夠更好地學習用戶的綜合偏好,實現(xiàn)更準確的評分回歸.
表2 E2R3與基準方法在四個數(shù)據(jù)集上的評分回歸結果對比Tab.2 Results of E2R3 compared with other baselines on four datasets in terms of rating regression task
表3 展示了對四種方法所生成解釋文本的定量分析結果.由實驗結果可知,在絕大多數(shù)情況下,E2R3 各項指標均優(yōu)于其他三種方法,表明E2R3 生成的解釋文本與真實文本之間的內容重疊度、語義一致性,以及生成文本間的表達差異性上都具有優(yōu)勢.就Rouge-L 指標而言,E2R3 較最先進的對比方法有3.67%~24.53%的性能提升,而對于Distinct-2 指標,E2R3 有8.45%~22.44%的提升.這證明了E2R3 所生成的解釋文本更貼近真實文本,且生成內容之間較其他方法更具備多樣性.在BERT Score指標上,E2R3 在絕大多數(shù)情況下都能取得最優(yōu)效果,與最先進的基線對比,在Patio Lawn and Garden,Digital Music 和Clothing Shoes and Jewelry 三個數(shù)據(jù)集上分別提升0.24%,0.60%和0.59%;僅在Movies and TV 數(shù)據(jù)集上稍有不足,主要原因是該數(shù)據(jù)集中商品類目較為單一,且評論/評分數(shù)據(jù)量較大,基線方法已表現(xiàn)良好;而在多元類目數(shù)據(jù)集上,E2R3 均能取得最優(yōu)性能,進一步證實了本方法對復雜場景更具優(yōu)勢.
表3 E2R3與基準方法在四個數(shù)據(jù)集上的文本生成質量對比Tab.3 Results of E2R3 compared with other baselines on four datasets in terms of text generation task
為了進一步驗證解釋文本質量,通過案例分析對比E2R3 與基準方法所生成解釋與真實文本之間的差異,以及生成文本與預測評分之間的情感一致性.限于篇幅,此處僅展示和分析了在Clothing Shoes and Jewelry 數(shù)據(jù)集上的部分實驗案例.表4 展示了四種解釋性R3 方法所產(chǎn)生的預估評分及解釋文本.通過結果比對不難發(fā)現(xiàn),NRT 和NETE 均傾向于生成帶有積極情感的解釋文本,即使在預估評分表現(xiàn)出“中性(2~4 分)”甚至“消極情感(小于2 分)”的情況下,可見直接將預測評分作為解釋生成器的輸入特征難以實現(xiàn)對生成內容情感的有效控制.相比之下,ESCOFILT 和E2R3 都能夠生成具有豐富情感的解釋文本,但通過案例1 可見,ESCOFILT 以“先解釋再評分”的方式面臨一個嚴重問題:“主題句”的生成僅依靠文本特征分布,脫離于評分的控制.當“主題句”與真實文本情感差距過大時,將導致預測評分嚴重偏差.如案例1 中ESCOFILT 方法抽取到的“主題句”存在過多的積極情感內容,這是在真實文本中沒有出現(xiàn)的,也因此導致了預測評分為3.8 分,與真實評分1.0 偏差過大.E2R3 方法在兩個案例中預測評分都與真實評分最為接近,且在第一個案例(低分案例)中沒有出現(xiàn)積極情感內容,在第二個案例(中等評分案例)中積極情感內容和消極情感內容能實現(xiàn)與真實文本的類似的均等長度,這也是ESCOFILT 方法在案例2 中不能實現(xiàn)的.總的來說,E2R3 方法能夠通過情感引導的方法生成高質量的推薦解釋.
表4 幾種方法的解釋文本與預估評分之間情感一致性對比Tab.4 Comparisons among several methods in terms of emotional consistency between generated texts and estimated ratings
為了驗證E2R3 所采用的兩個核心策略在解釋生成任務中的有效性,將E2R3 與其兩個退化版本(E2R3 w/o P 和E2R3 w/o SP)進行性能對比,其中w/o P 表示去除擾動策略,w/o SP 表示同時移除選擇和擾動策略.消融實驗主要從生成文本的表達差異性以及與真實評論之間的語義相似性兩個維度進行比較,結果如表5所示.不出所料,E2R3在Distinct指標上明顯優(yōu)于E2R3 w/o P,這說明擾動策略對于提高生成文本的差異性具有顯著的效果.值得注意的是,由于擾動策略并非是針對語義層面提出,故在E2R3 在Movies and TV 數(shù)據(jù)集上的BERTScore 指標略低于E2R3 w/o P.同時,E2R3 在所有指標上都比E2R3 w/o SP 表現(xiàn)更好,說明考慮評分和評論之間的情感一致性對于生成語義明確的解釋文本是有必要的.綜上,E2R3所采用選擇和擾動策略效果顯著,能夠明顯改善解釋文本質量.
表5 E2R3與其退化版本在Distinct和BERTScore指標上的性能對比Tab.5 Results of E2R3 compared with its degenerated versions in terms of Distinct and BERTScore Metrics
提出基于情感可控文本生成的可解釋推薦框架E2R3,根據(jù)評分回歸結果引導評論語料選擇并據(jù)此生成解釋文本,避免了評分預測任務與解釋生成任務之間發(fā)生情感沖突.通過多任務學習設置,實現(xiàn)了評分回歸模型與解釋生成模型之間的雙向互通和協(xié)同優(yōu)化.實驗結果與案例分析驗證了E2R3的有效性.在未來工作中,將深入結合推薦場景設計自監(jiān)督學習任務,使得預訓練語言模型能夠更好地適配于下游應用.此外,計劃將基于可控文本生成的可解釋推薦系統(tǒng)研究思路擴展至其它場景,如社交推薦系統(tǒng)、興趣點推薦系統(tǒng)等.