摘 要: 隨著互聯(lián)網(wǎng)用戶數(shù)量迅猛增長,產(chǎn)生了大量用戶生成內(nèi)容,出現(xiàn)了信息過載現(xiàn)象.考慮用戶生成數(shù)據(jù),建立用戶興趣偏好模型,同時聯(lián)合交互式進(jìn)化計算,提出用戶行為驅(qū)動偏好代理模型輔助的交互式個性化進(jìn)化搜索算法,幫助用戶從海量搜索空間中搜尋符合用戶潛在需求和興趣偏好的項目或內(nèi)容.利用用戶交互行為、評分?jǐn)?shù)據(jù)和項目類別信息,構(gòu)建基于受限玻爾茲曼機(jī)的用戶偏好感知模型,抽取用戶偏好特征;從進(jìn)化優(yōu)化的角度,設(shè)計基于用戶偏好的代理模型及其進(jìn)化策略,生成含用戶偏好的新個體,并預(yù)測進(jìn)化個體適應(yīng)值,引導(dǎo)進(jìn)化優(yōu)化過程;根據(jù)新增用戶生成內(nèi)容和模型管理機(jī)制,動態(tài)更新各模型,及時跟蹤用戶偏好,順利完成個性化進(jìn)化搜索.通過大量真實世界數(shù)據(jù)集的實驗,驗證了所提算法處理動態(tài)個性化搜索和推薦任務(wù)的可行性及有效性.
關(guān)鍵詞: 交互式進(jìn)化計算;代理模型;用戶生成內(nèi)容;受限玻爾茲曼機(jī);個性化搜索
中圖分類號:TP391"" 文獻(xiàn)標(biāo)志碼:A"""" 文章編號:1673-4807(2024)02-065-08
Preference surrogate-assisted interactive personalized evolutionarysearch algorithm based on user behaviors
Abstract:With the rapid growth of the number of users on internet, a lot of user-generated contents (UGCs) has been generated, and there has been information overload. This paper makes full use of UGCs to build a user interest preference model, and proposes a preference surrogate-assisted interactive personalized evolutionary search algorithm based on user behaviors. Combing the interactive evolutionary computing, it helps users search for the items that meet their potential needs and interest preferences from a massive search space. By using interaction behaviors, ratings and item category information, a user preference perception model based on restricted Boltzmann machine is constructed to extract the user preference features. From the perspective of evolutionary optimization, a surrogate model based on the user preference and its evolutionary strategies is designed to generate new individuals with the user preference, and predict the fitness value of new individuals to guide the evolutionary optimization process. Meanwhile, according to new UGCs and model management mechanism, these models are dynamically updated to timely track the user preference for the personalized evolutionary search. Through a large number of experiments in the real-world datasets, the feasibility and effectiveness of the proposed algorithm are verified in dynamic personalized search and recommendation tasks.
Key words:interactive evolutionary optimization, surrogate model, user-generated contents, restricted Boltzmann machine, personalized search
隨著互聯(lián)網(wǎng)和電子商務(wù)技術(shù)的蓬勃發(fā)展,用戶數(shù)量呈現(xiàn)快速增長的態(tài)勢,產(chǎn)生了各式各樣的海量數(shù)據(jù),蘊含了豐富的用戶興趣愛好及個性化信息[1-3].個性化搜索和推薦算法充分挖掘用戶歷史行為數(shù)據(jù),建立用戶興趣模型與行為模式,幫助用戶從海量搜索空間中搜尋符合用戶潛在需求和興趣偏好的項目或內(nèi)容,將用戶可能感興趣的內(nèi)容(如:商品、音樂、微博、新聞等)以個性化項目列表的形式推薦給用戶,提升用戶的使用體驗與電子商務(wù)平臺的商業(yè)利益,實現(xiàn)供需雙贏.
面向含用戶生成內(nèi)容(user-generated content, UGCs)的個性化搜索問題中,用戶偏好和意圖難以建立明確定義的數(shù)學(xué)模型或目標(biāo)函數(shù)描述表示,需依據(jù)用戶的認(rèn)知經(jīng)驗和個性化偏好,對待搜索任務(wù)進(jìn)行定性分析、評價和決策,且用戶滿意解的界定是非常主觀且因人而異的,其搜索結(jié)果和推薦效果則完全由用戶偏好主觀決定,展現(xiàn)了該類問題具有主觀性、模糊性、不確定性及不一致性.此外,用戶的興趣偏好是多種多樣的,可能將隨著時間推移、環(huán)境遷移和信息量增加等多種因素影響,用戶需求和興趣偏好逐漸清晰,甚至有可能發(fā)生動態(tài)變化.用戶參與個性化搜索過程的交互式進(jìn)化計算(interactive evolutionary computations, IECs)能夠有效利用用戶對于具體優(yōu)化問題的主觀評價與決策,將人類智能信息與傳統(tǒng)進(jìn)化計算相結(jié)合,是處理上述這類復(fù)雜定性指標(biāo)優(yōu)化問題的有效途徑及可行方法.
已有個性化搜索和推薦算法的相關(guān)研究具有一定的參考價值及借鑒作用.文獻(xiàn)[4]利用貝葉斯模型描述用戶偏好分布,使用區(qū)間數(shù)值化表示用戶偏好關(guān)系,訓(xùn)練徑向基函數(shù)神經(jīng)網(wǎng)絡(luò),提出交互式進(jìn)化計算處理個性化搜索.文獻(xiàn)[5]整合用戶歷史交互行為,提出基于注意力機(jī)制的用戶行為模型框架,有效處理推薦問題.文獻(xiàn)[6]根據(jù)用戶隱式偏好信息的不確定性,考慮推薦過程和結(jié)果的精確性與多樣性,提出基于貝葉斯Mallows模型的多樣性個性化推薦算法.文獻(xiàn)[7]利用知識圖提取項目屬性作為邊信息,用戶和項目由一組屬性嵌入表示,并建立屬性級協(xié)同注意力機(jī)制,捕獲不同屬性間的相關(guān)性,增強用戶表示與項目表示,提出知識增強的推薦模型.文獻(xiàn)[8]考慮時間動態(tài)性,利用時間窗口設(shè)置不同粒度的時間因子,進(jìn)行動態(tài)建模,并設(shè)計樣本數(shù)據(jù)生成和存取策略,提出基于時間動態(tài)性的場感知分解機(jī)模型.文獻(xiàn)[9]采用遺傳算法處理用戶與項目隱因子優(yōu)化問題,將增強指數(shù)機(jī)制融入個體選擇策略,并依據(jù)尋找重要隱因子的思想設(shè)計變異過程,提出滿足差分隱私保護(hù)的矩陣分解推薦算法.文獻(xiàn)[10]利用輕量級圖卷積方法,建模用戶和項目的異構(gòu)交互,并整合鄰域信息,提出基于異構(gòu)鄰域聚合的協(xié)同過濾推薦算法.上述研究工作從不同方面試圖改進(jìn)現(xiàn)有個性化搜索和推薦算法的不足.這些方法均假設(shè)所有數(shù)據(jù)是已知且充足的,整合UGCs數(shù)據(jù)建立用戶興趣模型,而模型訓(xùn)練復(fù)雜度較大.另一方面,相比于海量UGCs,相關(guān)有用信息過于稀疏,同時用戶的興趣偏好具有動態(tài)演化特性,所構(gòu)建的模型將對于用戶行為的理解有較大的片面性,不能完全準(zhǔn)確地代表用戶真實意圖,從而難以適應(yīng)實際個性化搜索和推薦任務(wù)的應(yīng)用場景.
文中挖掘并利用歷史用戶交互行為和含用戶偏好的項目屬性信息,構(gòu)建描述用戶潛在需求及個性化偏好的基于受限玻爾茲曼機(jī)(restriced Boltzmann machines, RBM)用戶偏好感知模型,抽取用戶偏好特征;在分布估計算法(estimation of distribution algorithms, EDA)框架下,利用已訓(xùn)練好的RBM用戶偏好感知模型,設(shè)計基于用戶偏好的EDA采樣概率模型,表達(dá)待搜索項目與用戶偏好之間的非線性關(guān)系,驅(qū)動進(jìn)化優(yōu)化過程生成含用戶偏好的新個體;同時,根據(jù)用戶偏好感知模型的能量函數(shù),設(shè)計基于用戶偏好的代理模型,有效預(yù)測用戶偏好行為,部分代替用戶真實評價,估計進(jìn)化個體適應(yīng)值;根據(jù)新增用戶交互行為和相關(guān)信息,利用模型管理機(jī)制,動態(tài)更新用戶偏好感知模型及其相應(yīng)模型,提出了用戶行為驅(qū)動偏好代理模型輔助的交互式個性化進(jìn)化搜索算法,處理復(fù)雜網(wǎng)絡(luò)環(huán)境下面向含UGCs的個性化搜索和推薦任務(wù).將所提理論與方法應(yīng)用于真實世界數(shù)據(jù)集,通過大量實驗展示了所提算法的可行性及有效性.
1 面向含用戶生成內(nèi)容個性化搜索問題的數(shù)學(xué)描述
面向含UGCs的個性化搜索任務(wù)是在海量多源異構(gòu)用戶生成數(shù)據(jù)構(gòu)成的動態(tài)演化可行域空間中,搜尋符合用戶潛在需求和個性化興趣偏好的優(yōu)化目標(biāo),為用戶進(jìn)行個性化項目推薦,即其本質(zhì)上是一類復(fù)雜動態(tài)定性指標(biāo)優(yōu)化問題.這里,面向含UGCs的個性化搜索問題的目標(biāo)函數(shù)fu(x)定義為:
式中:U=u1,u2,…,uU是用戶集合,U為用戶數(shù)量;X={x1,x2,…,x|X|}為項目集合(可行解空間),通常X很大且稀疏,|X|表示項目數(shù)量;項目(解)xi含有n個決策變量,表示為xi={xi1,xi2,…,xin};用戶u對于項目x的偏好程度為fu(x),其無法用具體數(shù)學(xué)函數(shù)精確表示,由用戶u的認(rèn)知經(jīng)驗和興趣偏好決定,且在個性化搜索過程中可能發(fā)生動態(tài)變化.
2 用戶行為驅(qū)動偏好代理模型輔助的交互式個性化進(jìn)化搜索算法
2.1 算法框架
用戶行為驅(qū)動偏好代理模型輔助的交互式個性化進(jìn)化搜索算法(preference surrogate-assisted interactive personalized evolutionary search algorithm based on user behaviors, PSIPESA)的基本流程如圖1.
所提算法主要包括4部分:
(1) 基于用戶交互行為的RBM用戶偏好感知模型:根據(jù)UGCs信息,構(gòu)建含用戶偏好的優(yōu)勢群體,訓(xùn)練基于RBM的用戶偏好感知模型,抽取用戶偏好特征.
(2) 基于用戶偏好的EDA采樣概率模型:在IEDA進(jìn)化框架下,設(shè)計基于用戶偏好的采樣概率模型,生成含用戶偏好的新個體,并在搜索空間中匹配新的可行解,構(gòu)成下一代種群,推進(jìn)進(jìn)化優(yōu)化過程.
(3) 基于用戶偏好的代理模型:根據(jù)用戶偏好感知模型,設(shè)計用戶評價代理模型,估計進(jìn)化個體的適應(yīng)值,并依據(jù)精英選擇策略,生成用戶可能感興趣的項目推薦列表,提交給用戶進(jìn)行評價.
(4) 模型管理模塊:根據(jù)新增UGCs,利用模型管理機(jī)制,動態(tài)更新優(yōu)勢群體、用戶偏好感知模型、概率模型及代理模型,有效引導(dǎo)個性化進(jìn)化搜索過程.
2.2 基于用戶交互行為的RBM用戶偏好感知模型
在個性化搜索過程中,考慮用戶偏好的不確定性及動態(tài)性,充分挖掘這些用戶生成數(shù)據(jù),分析用戶興趣偏好的發(fā)展與演化,建立表達(dá)用戶需求和愛好的用戶偏好感知模型,提取用戶偏好特征,為個性化搜索和推薦服務(wù).
根據(jù)用戶歷史交互行為數(shù)據(jù),篩選含當(dāng)前用戶偏好的項目集合構(gòu)成優(yōu)勢群體D,如:若用戶對于某項目的評分或排名高于閾值,通常意味著用戶喜歡該項目,則將該項目歸入優(yōu)勢群體;若用戶瀏覽項目,獲得較長瀏覽時間的項目劃入優(yōu)勢群體.將優(yōu)勢群體D作為EDA進(jìn)化優(yōu)化框架下的初始種群Pop(0)={xi,i=1,2,…,|D|},種群規(guī)模為|D|.關(guān)于種群中進(jìn)化個體的編碼,項目(個體)x由n個屬性描述,表示為決策變量的二進(jìn)制編碼x=x1,x2,…,xn,其中,第i個決策變量xi取值為1或0,1表示該項目具有該屬性,0表示無該屬性.項目(個體)包含了用戶的興趣偏好,若進(jìn)化個體x的第i個決策變量xi=1,表示用戶對于含有屬性i的項目感興趣.
根據(jù)優(yōu)勢群體在搜索空間中的決策變量屬性分布信息,利用RBM模型的隱式表達(dá)能力和特征提取能力,擬合基于用戶交互行為的定性指標(biāo)決策變量之間的高階非線性關(guān)系,構(gòu)建RBM用戶偏好感知模型,捕捉用戶偏好特征.基于用戶交互行為的RBM用戶偏好感知模型的結(jié)構(gòu)示意圖如圖2.
基于用戶交互行為的RBM用戶偏好感知模型具有兩層網(wǎng)絡(luò)結(jié)構(gòu):可見層v包含n個可見單元,表示項目(個體)的n個屬性,vi為第i個可見單元狀態(tài);隱層h含有m個隱單元,表示用戶偏好特征,hj為第j個隱單元狀態(tài).其中,可見單元和隱單元均為二值變量.
可見單元和隱單元的條件分布概率分別為:
式中:Wij為可見單元i與隱單元j之間的連接權(quán)重;ai和bj分別為可見單元i和隱單元j的偏置.
對于一組給定狀態(tài)(v,h),基于用戶交互行為的RBM用戶偏好感知模型的系統(tǒng)能量函數(shù)為:
式中:θ={W,a,b}表示模型參數(shù),均為實數(shù).
通過RBM模型CD學(xué)習(xí)算法[11],將種群中進(jìn)化個體的二進(jìn)制基因編碼x={x1,x2,…,xn},作為訓(xùn)練數(shù)據(jù)集T={(xi,f(xi)),i=1,2,…,|D|},輸入基于用戶交互行為的RBM用戶偏好感知模型的可見層單元v={v1,v2,…,vn},訓(xùn)練用戶偏好感知模型,捕捉用戶偏好信息的高階非線性關(guān)聯(lián)關(guān)系,獲得含優(yōu)良解基因分布特征表示的RBM模型參數(shù)θ={W,a,b}.
2.3 基于用戶偏好的EDA采樣概率模型
在IEDA進(jìn)化優(yōu)化框架下,構(gòu)建基于用戶偏好的EDA采樣概率模型Pu(x)為:
Pu(x)=[p(x1=1),p(x2=1),…,p(xn=1)](7)
通過對可觀察用戶生成數(shù)據(jù)的概率估計,基于用戶偏好的EDA采樣概率模型Pu(x)建模用戶興趣偏好選擇傾向,將個性化搜索問題轉(zhuǎn)化為用戶偏好行為發(fā)生概率最大化問題.
隨機(jī)采樣概率模型Pu(x),生成含用戶偏好的新個體.隨機(jī)采樣公式為:
式中:xi是新個體x的第i個決策變量屬性值;random(0,1)是取值在0,1之間的隨機(jī)數(shù).
此外,在更新進(jìn)化種群的過程中,分配一個較小的概率(如:10%),采樣非優(yōu)勢群體,與上述生成的新個體共同構(gòu)成下一代進(jìn)化種群Popg={xi,i=1,2,…,D},避免過早產(chǎn)生進(jìn)化早熟現(xiàn)象.在保證種群信息多樣性的同時,驅(qū)動種群朝著優(yōu)良解集的方向進(jìn)化.
由于在進(jìn)化計算中使用了進(jìn)化個體編碼解技術(shù),使得采樣生成的許多新個體可能無法匹配搜索空間中的實際項目.因此,需根據(jù)新個體與待搜索項目的基因相似性,匹配相同或相似的項目可行解,構(gòu)成待推薦項目集合S.
2.4 基于用戶偏好的代理模型
式中:Eθ(x,h)表示進(jìn)化個體x在RBM用戶偏好感知模型中的能量函數(shù)值;maxEθ和minEθ分別為待推薦項目集合S中個體的最大和最小能量函數(shù)值.
值的N個優(yōu)良個體,生成滿足用戶需求且用戶可能感興趣的個性化項目推薦列表TopN,提交給用戶進(jìn)行交互式評價.
在個性化進(jìn)化搜索過程中,收集真實交互式用戶評價信息,衡量代理模型的預(yù)測精度,并根據(jù)新增用戶生成數(shù)據(jù),更新用戶偏好感知模型、概率模型和代理模型,及時跟蹤用戶偏好的動態(tài)變化,指導(dǎo)交互式個性化搜索的方向,順利完成個性化搜索和推薦任務(wù).
3 實驗結(jié)果與分析
3.1 實驗環(huán)境
為了驗證所提個性化搜索算法的綜合性能,采用真實世界通用數(shù)據(jù)集MovieLens[12]和Amazon [13]進(jìn)行實驗與分析.數(shù)據(jù)集統(tǒng)計信息描述如表1.
實驗環(huán)境中處理器為Intel(R) Xeon(R) Gold 6248R CPU @ 3.00GHz和256GB RAM,實驗平臺使用Python 3.8開發(fā).采用均方根誤差(root mean square error, RMSE)[14-15]、命中率(hit ratio, HR)[15]、平均準(zhǔn)確率(average precision, AP)和平均準(zhǔn)確率均值(mean average precision, MAP)[15]等評價指標(biāo),客觀展示個性化搜索和推薦算法的預(yù)測精度與推薦性能.
3.2 用戶偏好感知模型和偏好代理模型的性能
將所提算法去除進(jìn)化優(yōu)化框架,簡化為用戶行為驅(qū)動偏好代理模型輔助的個性化進(jìn)化搜索算法(preference surrogate-assisted personalized evolutionary search algorithm based on user behaviors,PSPESA),與其他推薦方法進(jìn)行對比實驗.對比算法包括:隨機(jī)推薦算法(Random)、基于項目流行度的推薦算法(Popularity)、基于用戶的協(xié)同過濾算法(user-based collaborative filtering,UserCF) [16]、基于項目的協(xié)同過濾算法(item-based collaborative filtering,ItemCF) [16]、BPR [17]、SVD [18]和RBM[19]算法.協(xié)同過濾算法的相似用戶(項目)數(shù)量設(shè)置為10.BPR和SVD算法的隱因子數(shù)量分別設(shè)置為64和20.所提PSIPESA算法的實驗參數(shù)設(shè)置如表2.實驗參數(shù)根據(jù)經(jīng)驗值或?qū)嶒炘O(shè)定.
為了保障對比實驗的客觀性和公正性,在各實驗數(shù)據(jù)集中選擇較為活躍的1 000名用戶及其相關(guān)信息.隨機(jī)選取10名測試用戶進(jìn)行個性化搜索和推薦實驗,按照時間戳順序重新排列測試用戶的交互行為數(shù)據(jù),以前70%和后30%的比例劃分訓(xùn)練和測試數(shù)據(jù)集.實驗中,各算法獨立運行10次,使用RMSE、HR@10、MAP@10、HR@20、MAP@20和時間花費(s)6種性能評價指標(biāo),計算所有測試用戶的平均評價指標(biāo).統(tǒng)計平均實驗結(jié)果如表3.
利用Bonferroni校正進(jìn)行Kruskal-Wallis檢驗,分析各組實驗結(jié)果之間的分布差異.若所提算法與對比算法具有顯著性差異(漸進(jìn)顯著性plt;0.05),則將該對比算法的實驗結(jié)果標(biāo)記為“*”,最優(yōu)值加粗表示.
通過觀察對比實驗結(jié)果,得出以下結(jié)論:
(1) 對比實驗中,PSPESA算法總體上取得了相對較好的預(yù)測準(zhǔn)確性和推薦效果.在ML-l-s數(shù)據(jù)集中,所提算法取得了最優(yōu)RMSE值,而在其他數(shù)據(jù)集中SVD算法獲得了最小RMSE值.這主要是因為SVD通過訓(xùn)練集中的實際項目評分進(jìn)行了有監(jiān)督學(xué)習(xí),使得其獲得較高的預(yù)測準(zhǔn)確性,而PSPESA采用了未使用實際用戶評分值的無監(jiān)督訓(xùn)練,因而,所提算法關(guān)于RMSE指標(biāo)的表現(xiàn)不如SVD,但是也取得了能夠與基于有監(jiān)督學(xué)習(xí)的推薦算法相比較的實驗結(jié)果.除了SVD外,PSPESA的RMSE值明顯優(yōu)于其他對比算法.基于協(xié)同過濾的推薦算法(包括基于用戶和基于項目的協(xié)同過濾)的評分預(yù)測誤差RMSE最大,主要是數(shù)據(jù)集的稀疏性嚴(yán)重影響了協(xié)同過濾算法的預(yù)測準(zhǔn)確性.另外,雖然Popularity算法是一類簡單的非個性化搜索算法,但是在各數(shù)據(jù)集實驗中取得了甚至比協(xié)同過濾和基于RBM推薦算法高的預(yù)測準(zhǔn)確率,展示了本實驗將其作為基線算法的必要性.
(2) 所提算法能夠?qū)⒋阉黜椖窟M(jìn)行良好排序,其將用戶感興趣的項目排在推薦列表的前面,給予用戶優(yōu)良的搜索瀏覽體驗,獲得了較好的命中率和平均準(zhǔn)確率均值.例如,在Kindle數(shù)據(jù)集中,相比與其他對比算法,PSPESA獲得了最優(yōu)HR@10、MAP@10、HR@20和MAP@20值.所提算法取得了最優(yōu)HR@10值0.030 9,高于次優(yōu)SVD算法6.55%,且高于Random算法33.77%,高于Popularity算法366.77%,高于UserCF算法426.41%,高于ItemCF算法503.52%,高于BPR算法8.80%,高于RBM算法423.73%;[JP3]同時,也取得了最優(yōu)MAP@10值0.968.基于無監(jiān)督學(xué)習(xí)的PSPESA算法訓(xùn)練時不依賴于用戶具體評分值,充分利用用戶隱式偏好行為,獲得了良好的搜索性能、推薦效果及用戶滿意度.
(3) 從搜索時間花費來看,除了Random算法,PSPESA算法的時間花費顯著低于其他對比算法.說明所提算法利用基于RBM的用戶偏好感知模型和基于用戶偏好的進(jìn)化優(yōu)化策略,有效降低了計算代價及運行時間,而同時并未明顯降低算法的預(yù)測性能、尋優(yōu)能力和推薦效果.UserCF和ItemCF算法的時間消耗總體上高于其他算法,主要是因為基于協(xié)同過濾的推薦方法需計算所有用戶或項目間的相似性,會消耗大量計算時間,[JP3]且隨著數(shù)據(jù)集中用戶或項目數(shù)量的增加,協(xié)同過濾算法的運行時間將急劇增加.BPR算法在個性化推薦過程中需要增加額外信息,如:遵循一定的采樣策略獲得用戶不喜歡的項目,因而其訓(xùn)練數(shù)據(jù)集增多,運行時間也將加長.SVD和RBM算法將花費大量時間計算用戶和項目的隱表示,其時間消耗也相對較大.因此,盡管所提算法在一些評估指標(biāo)中未取得最優(yōu)值,但總體上具備較好的預(yù)測準(zhǔn)確性和搜索效率,且當(dāng)可行域搜索空間十分巨大時,所提算法時間花費的優(yōu)勢將會更加顯著.
綜上所述,PSPESA算法利用用戶交互行為數(shù)據(jù),構(gòu)建RBM用戶偏好感知模型,抽取用戶偏好特征,并聯(lián)合用戶偏好代理模型,預(yù)測待推薦項目的評分,花費了較少時間進(jìn)行有效的個性化項目推薦.
在Apps數(shù)據(jù)集中,以測試用戶“ASXYFYCPIP232”為例,進(jìn)一步展示BPR、SVD和PSPESA算法分別進(jìn)行個性化搜索和推薦過程,實驗結(jié)果如圖3.
從圖3可以看出,用戶交互行為驅(qū)動的PSPESA算法的預(yù)測性能和個性化推薦效果總體上優(yōu)于BPR和SVD算法.另外,當(dāng)訓(xùn)練數(shù)據(jù)量逐漸增加時,各類個性化推薦算法的預(yù)測精度與推薦性能都有一定程度的提升,說明充分挖掘用戶歷史交互行為數(shù)據(jù)能夠有效提高個性化搜索和推薦算法的綜合性能.
3.3 RBM偏好代理IEDA算法的綜合性能
為了展示交互式個性化進(jìn)化搜索算法的性能,將PSPESA算法與聯(lián)合交互式進(jìn)化計算的PSIPESA算法進(jìn)行對比實驗.在數(shù)據(jù)集中,隨機(jī)選擇10位用戶進(jìn)行交互式個性化搜索過程,將用戶交互行為數(shù)據(jù)的前50%作為訓(xùn)練數(shù)據(jù)集,剩余50%作為測試數(shù)據(jù)集.另外,對于PSIPESA算法,訓(xùn)練數(shù)據(jù)集的前20%作為初始?xì)v史交互數(shù)據(jù),后30%分割為10份作為每次進(jìn)化迭代的新增用戶交互行為數(shù)據(jù).實驗中,PSPESA和PSIPESA算法分別獨立運行10次,計算平均性能評價指標(biāo).圖4為Apps數(shù)據(jù)集中的實驗結(jié)果.
從圖4看出,PSIPESA算法總體上優(yōu)于PSPESA算法.雖然PSIPESA算法的RMSE值略有不足,但是其HR@10和HR@20分別提高了10.99%和3.24%,MAP@10和MAP@20分別提高了11.34%和4.99%.實驗結(jié)果說明聯(lián)合交互式
EDA的PSIPESA取得了推薦準(zhǔn)確率和用戶滿意度的提升,這是合理且有效的.此外,在個性化搜索實驗過程中,實際上PSPESA比PSIPESA算法使用了更多的訓(xùn)練數(shù)據(jù),從而其評分預(yù)測準(zhǔn)確率較高也是可以理解的.
為了進(jìn)一步驗證PSIPESA算法處理個性化搜索和推薦任務(wù)的綜合性能,將所提算法與其他IECs算法進(jìn)行對比實驗,如:傳統(tǒng)IEDA、RBM輔助的交互式遺傳算法(RBM-assisted interactive genetic algorithm,RBMIGA)、RBFIEDA[4]和EGEDA[20]算法.RBMIGA采用中間交叉(交叉概率為0.8)和單點變異(變異概率為0.3).各算法分別獨立運行10次,計算平均評價指標(biāo).利用Bonferroni校正進(jìn)行Kruskal-Wallis檢驗,分析各組實驗結(jié)果之間的分布差異,方法同上小節(jié).實驗結(jié)果如表4.由于在IEDA和EGEDA算法中未構(gòu)造代理模型預(yù)測項目評分,所以這兩種算法的實驗結(jié)果中沒有平均RMSE值.
通過觀察實驗結(jié)果,得出以下結(jié)論:
(1) PSIPESA算法獲得了較好的預(yù)測準(zhǔn)確性和推薦效果,相比與其他對比算法,在各評價指標(biāo)上具有顯著提升.例如:在Apps數(shù)據(jù)集中,所提算法取得最優(yōu)平均RMSE值1.650,優(yōu)于次優(yōu)算法0.78%;平均HR@10、HR@20和MAP@20分別取得了0.052 5、0.815和0.758,高于次優(yōu)算法0.38%、7.10%和1.88%.在部分?jǐn)?shù)據(jù)集中,雖然所提算法的一些評價指標(biāo)未取得最優(yōu)值,但綜合比較其仍舊獲得了最優(yōu)綜合性能.
(2) 大部分情況下,PSIPESA算法的平均HR和MAP值優(yōu)于其他對比算法,說明在交互式評價環(huán)境中所提算法能夠幫助用戶盡快搜尋到其滿意解,進(jìn)行良好的個性化項目推薦列表排序,提高了搜索效率、推薦效果和用戶滿意度.
綜上所述,所提算法為個性化搜索和推薦任務(wù)建立了一整套體系,分析用戶交互行為數(shù)據(jù),構(gòu)建用戶偏好感知模型,挖掘深層次的潛在用戶偏好特征及其動態(tài)演化規(guī)律;建立基于用戶偏好的EDA采樣概率模型和評價代理模型,預(yù)測項目評分,進(jìn)行個性化項目推薦;根據(jù)用戶體驗、反饋評價等客觀評估指標(biāo),利用模型管理機(jī)制,引導(dǎo)交互式個性化進(jìn)化搜索的前進(jìn)方向,具備良好的有效性、穩(wěn)定性及可擴(kuò)展性.
4 結(jié)論
文中以面向含UGCs的個性化搜索和推薦任務(wù)為背景,聯(lián)合推薦技術(shù)中的用戶興趣建模和基于代理模型的IECs算法,以用戶體驗為中心,研究用戶行為驅(qū)動偏好代理模型輔助的交互式個性化進(jìn)化搜索算法,將其應(yīng)用于個性化搜索這類復(fù)雜動態(tài)定性指標(biāo)優(yōu)化問題.后續(xù)將進(jìn)一步深入挖掘UGCs信息,構(gòu)建更精確的用戶偏好感知模型和基于用戶偏好的進(jìn)化優(yōu)化策略,提高個性化進(jìn)化搜索算法的探索能力、尋優(yōu)效率和推薦效果.
參考文獻(xiàn)(References)
[1] 吳信東, 盛紹靜, 蔣婷婷, 等. 從知識圖譜到數(shù)據(jù)中臺:華譜系統(tǒng) [J].自動化學(xué)報, 2020, 46(10): 2045-2059.
[2] 吳信東,李嬌,周鵬,等.碎片化家譜數(shù)據(jù)的融合技術(shù)[J].軟件學(xué)報, 2021, 32(9): 2816-2836.
[3] 于皓,張杰,吳明輝,等.領(lǐng)域知識圖譜快速構(gòu)建和應(yīng)用框架[J].智能系統(tǒng)學(xué)報, 2021, 16(5): 871-884.
[4] CHEN Y, SUN X Y, GONG D W, et al. Personalized search inspired fast interactive estimation of distribution algorithm and its application [J]. IEEE Transactions on Evolutionary Computation, 2017, 21(4): 588-600.
[5] ZHOU C, BAI J, SONG J, et al.ATRank: An attention-based user behavior modeling framework for recommendation [C]∥ Thirty-Second AAAI Conference on Artificial Intelligence.USA:ACM, 2018.
[6] LIU Q, REINER A H, FRIGESSI A, et al. Diverse personalized recommendations with uncertainty from implicit preference data with the Bayesian Mallows Model [J]. Knowledge-Based Systems, 2019, 186: 104960.
[7] YANG D, SONG Z, XUE L, et al. A knowledge-enhanced recommendation model with attribute-level co-attention[C]∥ Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval.USA:ACM," 2020: 1909-1912.
[8] 燕彩蓉,黃顏,徐光偉,等.基于時間動態(tài)性的場感知分解機(jī)模型[J].控制與決策, 2020, 35(1): 169-173.
[9] 王永,冉珣,尹恩民,等.滿足差分隱私保護(hù)的矩陣分解推薦算法[J].電子科技大學(xué)學(xué)報, 2021, 50(3): 405-413.
[10] 夏鴻斌,陸煒,劉淵.基于異構(gòu)鄰域聚合的協(xié)同過濾推薦算法[J].模式識別與人工智能, 2021, 34(8): 712-722.
[11] HINTON G E. Training products of experts by minimizing contrastive divergence [J]. Neural Computation, 2002,14(8):1771-1800.
[12] HARPER F M, KONSTAN J A. The movielens datasets: History and context [J]. ACM Transactions on Interactive Intelligent Systems, 2016, 5(4):1-19.
[13] LI J, WANG Y, MCAULEY J. Time interval aware self-attention for sequential recommendation[C]∥Proceedings of the 13th International Conference on Web Search and Data Mining. USA:ACM, 2020: 322-330.
[14] RICCI F, ROKACH L, SHAPIRA B. Introduction to recommender systems handbook [M]. Recommender Systems Handbook. Boston :Springer, 2011: 1-35.
[15] PARRA D, SAHEBI S. Recommender systems: Sources of knowledge and evaluation metrics [M]. Advanced Techniques in Web Intelligence-2. Berlin: Springer, 2013: 149-175.
[16] CREMONESI P, KOREN Y, TURRIN R. Performance of recommender algorithms on top-n recommendation tasks [C]∥ Proceedings of the Fourth ACM Conference on Recommender Systems. USA:ACM, 2010: 39-46.
[17] RENDLE S, FREUDENTHALER C, GANTNER Z, et al. BPR: Bayesian personalized ranking from implicit feedback [C]∥ Proceedings of the 25th Conference on Uncertainty in Artificial Intelligence. Corvallis :AUAI Press, 2009:452-461.
[18] 王曉耘, 李賢, 袁媛. 基于因子分解機(jī)和隱馬爾可夫的推薦算法[J]. 計算機(jī)技術(shù)與發(fā)展, 2019, 29(6): 85-89.
[19] SALAKHUTDINOV R, MNIH A, HINTON G. Restriced Boltzmann machines for collaborative filtering [C]∥ Proceedings of the 24th International Conference on Machine Learning. Corvallis, USA:ACM, 2007: 791-798.
[20] LIANG Y, REN Z, YAO X, et al. Enhancing Gaussian estimation of distribution algorithm by exploiting evolution direction with archive [J]. IEEE Transactions on Cybernetics, 2020, 50(1):140-152.