• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于知識感知采樣的神經(jīng)協(xié)同過濾

    2022-07-14 09:01:24鐘裔靈
    電視技術(shù) 2022年6期
    關(guān)鍵詞:正例采樣器損失

    鐘裔靈,朵 琳

    (昆明理工大學 信息工程與自動化學院,云南 昆明 650500)

    0 引言

    作為緩解信息過載的有效手段,推薦系統(tǒng)在電商、音樂及短視頻等領(lǐng)域得到了廣泛應(yīng)用。傳統(tǒng)的推薦方法包括基于協(xié)同過濾的推薦、基于內(nèi)容的推薦以及混合推薦方法?;趨f(xié)同過濾的推薦利用用戶對項目的評分數(shù)據(jù),通過相似度計算或建模的方式來進行推薦。由于依賴于評分數(shù)據(jù),往往存在數(shù)據(jù)稀疏和冷啟動問題?;趦?nèi)容的推薦利用用戶生成內(nèi)容(評論、標簽等),通過計算內(nèi)容相似度來進行推薦。由于未使用評分數(shù)據(jù),所以不存在數(shù)據(jù)稀疏的問題,但依舊存在新用戶冷啟動的問題。目前,對于推薦系統(tǒng)的研究主要致力于如何使用不同的數(shù)據(jù)進行混合推薦,來緩解數(shù)據(jù)稀疏和冷啟動問題,以提高推薦的準確性。通過使用深度學習模型代替?zhèn)鹘y(tǒng)的簡單模型,提供非線性建模能力和有效的內(nèi)容特征提取能力,往往能獲得更好的推薦性能。然而,這些研究大多忽略了自然噪聲的影響。

    用戶與項目沒有發(fā)生交互行為(用戶對項目的點擊、瀏覽、收藏等行為),存在兩種可能:一種可能是用戶知道但不喜歡該項目,另一種可能是用戶不知道該項目的存在。這種項目的曝光偏差使得數(shù)據(jù)無法完全表達用戶的真實想法,為推薦模型的訓練引入了自然噪聲,影響了推薦的準確性。大多數(shù)的研究工作通過執(zhí)行負采樣來緩解這個問題。隨機采樣[1]是按照一定的采樣比從沒有觀察到交互行為的項目中隨機均勻地進行采樣?;陧椖苛餍卸鹊牟蓸覽2]是根據(jù)項目的流行度來進行隨機非均勻地采樣。這種隨機的采樣策略,可能把用戶知道但不喜歡的項目篩選出來,而排除了用戶不知道但可能喜歡的項目。雖然執(zhí)行了負采樣,但對推薦性能的提升非常有限。一些研究者利用其他的輔助數(shù)據(jù)來改進采樣器,如查看但未點擊和點擊但未購買[3]的數(shù)據(jù)。但由于這類數(shù)據(jù)規(guī)模有限,對推薦性能的提升效果不佳,甚至比上述隨機的采樣策略效果更差。有研究者利用采樣器和推薦器之間的對抗訓練[4]來獲取高質(zhì)量的負樣本,在參數(shù)優(yōu)化上表現(xiàn)出比隨機采樣更好的性能,但該方法的缺陷在于可能把正例誤認為是高質(zhì)量的負例。

    基于知識圖譜的負采樣策略[5]利用項目與項目之間共同的知識實體,尋找高質(zhì)量的負例來與正例匹配,從而提升推薦模型的性能。該方法能夠有效緩解誤采樣問題,通過確保采樣負例的真實性,從而提高推薦的準確性,獲得了比上述方法更好的性能表現(xiàn)。但是,為了減小算法的時間復雜度,該方法在確定候選負例集后,選擇了候選負例集中的最后一個元素作為負例來優(yōu)化推薦模型。然而,最后一個候選負例并不一定是最佳負例,通過改進采樣策略,可以進一步提升推薦性能。為了簡化整個模型,該方法使用了推薦領(lǐng)域最為經(jīng)典和簡單的矩陣分解模型作為推薦器。然而,簡單的線性建模無法有效地擬合用戶與項目之間復雜的交互關(guān)系,通過使用更加優(yōu)秀的推薦模型作為推薦器,可以進一步提升推薦質(zhì)量。此外,僅采樣一個負例與正例匹配,通過成對損失來優(yōu)化推薦模型,這種固定的采樣比也限制了推薦模型的性能。

    本文的研究工作圍繞基于知識圖譜的負采樣策略展開,從3 個方面對該方法做了改進。

    (1)設(shè)計了一個獎勵函數(shù),對候選負例集中的元素評分,根據(jù)評分高低選擇與正例匹配的最佳負例,然后通過最大化累積獎勵函數(shù)期望來優(yōu)化采樣器。目的是尋找更真實的負例來訓練推薦器,提升推薦性能。

    (2)使用神經(jīng)協(xié)同過濾作為推薦器,以取代矩陣分解模型。神經(jīng)協(xié)同過濾是一個雙通道推薦模型,一個通道在矩陣分解的基礎(chǔ)上引入邏輯函數(shù)作為激活函數(shù),將輸出結(jié)果限制在[0,1]的范圍內(nèi),賦予了模型概率學解釋。另一個通道利用多層感知機學習用戶和項目之間復雜的交互關(guān)系,代替了矩陣分解中的內(nèi)積,提高了非線性建模能力。通過線性與非線性的結(jié)合,獲得了比矩陣分解更好的推薦性能。

    (3)為了能靈活地控制采樣比,用逐點損失代替成對損失來優(yōu)化推薦器,以獲得更好的推薦性能。在真實數(shù)據(jù)集上進行了廣泛實驗,以驗證所提方法的有效性。

    1 推薦框架

    本文提出一種新的推薦框架——基于知識感知采樣的神經(jīng)協(xié)同過濾(Neural Collaborative Filtering Based on Knowledge-Aware Sampling,NCFKAS),框架包括一個推薦器和一個采樣器??傮w而言,采樣器負責尋找高質(zhì)量的負例作為訓練數(shù)據(jù),推薦器負責訓練推薦模型,同時將預測分數(shù)反饋給采樣器作為獎勵來強化學習。

    1.1 推薦器

    推薦器的任務(wù)是利用用戶正例和采樣得到的負例來訓練推薦模型。文獻[5]使用的是矩陣分解模型,該模型用用戶潛在特征向量和項目潛在特征向量的內(nèi)積來表示用戶與項目之間的交互關(guān)系。由于矩陣分解模型屬于線性建模,而線性建模無法擬合用戶與項目之間的非線性交互關(guān)系。于是,本文采用神經(jīng)協(xié)同過濾作為推薦器。

    神經(jīng)協(xié)同過濾是一個雙通道推薦模型。一個通道是廣義矩陣分解(Generalized Matrix Factorization,GMF),在矩陣分解的基礎(chǔ)上增加一個邏輯函數(shù)作為激活函數(shù),將輸出限制在[0,1]的范圍內(nèi),賦予了模型概率學解釋。具體公式如下:

    式中:pu,qi分別是用戶和項目潛在特征向量,hT是連接權(quán)重,aout是激活函數(shù),為邏輯函數(shù)。

    另一個通道是多層感知機(Multilayer Perceptron,MLP),低層的輸出作為高層的輸入,任務(wù)是學習一個復雜的非線性函數(shù)來擬合用戶與項目之間的交互關(guān)系,具體公式如下:

    式中:Wx,ax,bx分別是x層感知機的權(quán)重矩陣、激活函數(shù)、偏置向量,σ也是激活函數(shù),這里的激活函數(shù)統(tǒng)一使用ReLU。

    神經(jīng)協(xié)同過濾的最終輸出為:

    通過線性與非線性的結(jié)合,神經(jīng)協(xié)同過濾極大地提升了推薦的性能。

    文獻[5]采用成對損失優(yōu)化推薦模型,該方法存在的缺陷在于僅采樣一個負例與正例匹配,無法靈活地控制采樣比來進一步提升推薦性能。于是,本文通過最小化逐點損失來優(yōu)化推薦模型,損失函數(shù)如下:

    1.2 采樣器

    1.2.1 構(gòu)建知識圖譜

    本文利用用戶對項目的隱式反饋和項目的知識信息來構(gòu)建知識圖譜。圖譜中的每一個節(jié)點e代表一個用戶u、項目i或知識實體k,圖譜中的每一條邊代表用戶u與項目i存在交互行為或項目i具有某個知識實體k。利用多個圖卷積層來更新每個節(jié)點e的表示形式,在第l個圖卷積層中,以節(jié)點e為起始節(jié)點接收其相鄰節(jié)點的信息并更新其向量表示。更新公式如下:

    1.2.2 知識感知采樣

    將知識圖譜作為采樣環(huán)境,將采樣作為馬爾科夫決策過程M={S,A,P,R},其中S={s}是探索狀態(tài),A={a}是探索動作,P是狀態(tài)轉(zhuǎn)移矩陣,R是獎勵函數(shù)。在第t步探索操作中,st=(u,et)表示用戶u當前的狀態(tài),即用戶u訪問節(jié)點et。at=(et→→et+1)表示從項目et經(jīng)過知識實體到達項目et+1的兩跳路徑。給定狀態(tài)st下的動作at,則向st+1的狀態(tài)轉(zhuǎn)移為:p(st+1=(u,et+1)|st=(u,et),at=(et→→et+1))=1。探索過程可以形式化為{s0,a1,s1,…,at,st},其中s0=(u,i)表示用戶u的初始狀態(tài)。

    經(jīng)過t次探索操作之后,確定了一個候選負例集C={e1,e1,…,et},其中et表示第t個探索操作找到的候選負例。原來的采樣策略[5]將最后一個探索操作找到的候選負例作為正式負例,然而,最后一個候選負例并不一定是最佳負例。有的正例經(jīng)過一個探索操作就找到了最佳負例,有的負例經(jīng)過多個探索操作才能找到最佳負例。由于并沒有相關(guān)的理論依據(jù)來證明哪一個候選負例就是最佳負例,為了確保采樣的真實性,進一步提升推薦的準確性,本文設(shè)計了一個獎勵函數(shù),來評價每一個候選負例的質(zhì)量。獎勵函數(shù)如下:

    式中:R(e?)表示候選負例e?的得分,f(u,j)表示用戶u對負例j的預測評分,g(i,j)表示正例i和負例j的相似度。

    預測評分的計算公式如下:

    相似度的計算公式如下:

    式中:n(i),n(j)分別表示項目i,j具有的知識實體數(shù)量,n(i∩j)表示項目i,j同時具有的知識實體數(shù)量。

    預測評分衡量了用戶與負例之間的匹配度。預測評分越高,用戶與負例的匹配度就越高。質(zhì)量越高的負例促使推薦模型為其產(chǎn)生更高的預測評分。通過這樣一種反饋機制,來衡量負例的質(zhì)量。相似度衡量了正例與負例之間的匹配度,相似度越高,正例與負例的匹配度就越高。類似于基于項目的協(xié)同過濾推薦,為目標用戶推薦偏好項目的相似項目。

    此外,考慮到僅選取得分最高的一個候選負例作為正式負例來優(yōu)化推薦模型,不符合一個正例存在多個負例的實際情況,制約了推薦性能的發(fā)揮,因此,本文允許選擇得分最高的n個候選負例作為正式負例,來與正例匹配,用逐點損失代替原來的成對損失來優(yōu)化推薦模型,并評估n對推薦性能的影響。通過最大化累積獎勵函數(shù)期望,來優(yōu)化采樣器參數(shù)Θs,如下:

    2 實 驗

    2.1 實驗設(shè)置

    2.1.1 數(shù)據(jù)集描述

    本文利用網(wǎng)上公開的Amazon-book 數(shù)據(jù)集來進行NCF-KAS 算法的驗證實驗。Amazon-book 是亞馬遜電商平臺上關(guān)于書籍的電商數(shù)據(jù),其中包含了70 679 個用戶對24 985 個項目的847 733 條交互數(shù)據(jù)。使用的用戶輔助信息為年齡、性別、職業(yè)等,項目輔助信息為作者、類別、出版社等。

    2.1.2 基準線

    由于文獻[5]已經(jīng)通過大量實驗證明了其方法的優(yōu)越性,而本文的研究工作是針對該方法在采樣器、推薦器、損失函數(shù)三方面的改進,因此本文采用控制變量的原則來進行對比實驗。即在推薦器、損失函數(shù)相同的情況下,僅對比不同采樣器下的推薦性能,以此類推,以驗證本文所提的每一處改進都有其意義。參與對比的采樣器為知識圖譜策略網(wǎng)絡(luò)[5](KGpolicy)和知識感知采樣(KAS),參與對比的推薦器為矩陣分解[5](MF)和神經(jīng)協(xié)同過濾(NCF),參與對比的損失函數(shù)為成對損失[5](BPR)和逐點損失(CEL)。

    2.1.3 性能指標

    評價推薦質(zhì)量的性能指標為召回率(recall@K)和歸一化折扣累積增益(ndcg@K)。在沒有特別說明的情況下,本文將K設(shè)置為10。對于測試集中的每一個用戶,觀察所有的正例項目,并評估推薦器在整個項目空間中對正例項目進行排名的性能,報告每個測試集中所有用戶的平均指標。

    2.1.4 參數(shù)設(shè)置

    將所有推薦器和采樣器的嵌入大小固定為64,用Adam 來優(yōu)化模型,使用Xavier 初始化采樣器參數(shù)。本文使用經(jīng)過預訓練的MF 和NCF 來與采樣器匹配,從而加速模型訓練。對于超參數(shù),本文進行網(wǎng)格搜索以找到每個模型的最佳設(shè)置,根據(jù)搜索推薦器和采樣器的學習率,以L2 正則系數(shù)搜索;用兩個圖卷積層來進行圖形學習,即式(8)、式(9)中的l=2。將負例的個數(shù)n設(shè)置為1 到10 的整數(shù),并在3.2.3 節(jié)報告其性能。

    2.2 性能比較

    2.2.1 知識圖譜策略網(wǎng)絡(luò)與知識感知采樣的性能對比

    在這組實驗中,統(tǒng)一使用神經(jīng)協(xié)同過濾作為推薦器,用逐點損失作為損失函數(shù),比較了在知識圖譜策略網(wǎng)絡(luò)、知識感知采樣下的推薦性能。記錄了在數(shù)據(jù)集上獲得的最佳性能,如表2 所示。

    表1 不同采樣策略對比

    實驗結(jié)果表明,本文提出的知識感知采樣相比于原來的知識圖譜策略網(wǎng)絡(luò),在數(shù)據(jù)集上的所有性能指標都有明顯提升。對于Amazon-book 數(shù)據(jù)集,recall@10 提升了3.47%,ndcg@10 提升了4.52%。本文將這種改進歸因于以下兩個方面:

    (1)通過利用知識圖譜中項目與知識實體間豐富的關(guān)系,特別是高階連通性,使得知識感知采樣能有效地避免誤采樣問題,從而找到更高質(zhì)量的負例;

    (2)通過獎勵函數(shù)對候選負例的進一步篩選,使得負例與正例在內(nèi)容和評分兩個方面都具有較高的相似度,為推薦器的訓練提供了較大的梯度貢獻。

    總體而言,實驗驗證了本文所提的采樣策略對于提升推薦性能的有效性。

    2.2.2 矩陣分解與神經(jīng)協(xié)同過濾的性能對比

    在這組實驗中,統(tǒng)一使用知識感知采樣作為采樣器,用逐點損失作為損失函數(shù),比較了在矩陣分解和神經(jīng)協(xié)同過濾下的推薦性能。記錄了在數(shù)據(jù)集上獲得的最佳性能,如表2 所示。

    表2 不同推薦策略對比

    實驗結(jié)果表明,神經(jīng)協(xié)同過濾相比于矩陣分解,在數(shù)據(jù)集上的所有性能指標都有明顯提升。對于Amazon-book 數(shù)據(jù)集,recall@10 提升了2.31%,ndcg@10 提升了3.13%。本文將這種改進歸因于以下兩個方面:

    (1)非線性建模比線性建模更有效地擬合用戶與項目之間復雜的交互關(guān)系;

    (2)神經(jīng)協(xié)同過濾通過線性與非線性的結(jié)合,進一步提升了推薦性能。

    總體而言,實驗驗證了本文使用神經(jīng)協(xié)同過濾作為推薦器對于提升推薦性能的有效性。

    2.2.3 成對損失與逐點損失的性能對比

    在這組實驗中,統(tǒng)一使用知識感知采樣作為采樣器,神經(jīng)協(xié)同過濾作為推薦器,比較了在成對損失和逐點損失下的推薦性能。記錄了負例數(shù)從1 到10 的推薦性能,實驗結(jié)果如圖1 所示。

    圖1 不同損失函數(shù)對比

    實驗結(jié)果表明,在所有性能指標上,逐點損失在優(yōu)化推薦模型上表現(xiàn)出比成對損失更好的性能。本文將這種改進歸因于以下兩個方面:

    (1)成對損失利用一個正例與一個負例匹配來優(yōu)化推薦器,這種固定的采樣比限制了推薦性能的發(fā)揮;

    (2)逐點損失可以靈活地控制采樣比,更加符合一個正例對應(yīng)多個負例的真實情況,從而提升推薦性能。

    此外注意到,Amazon-book 數(shù)據(jù)集在4 個負例的情況下達到最佳性能。這就意味著,采樣比并不是越大越好。達到最佳性能后,繼續(xù)增大采樣比,將導致推薦性能下降,這是由于后面的采樣引入了低價值的負例??傮w而言,實驗驗證了本文利用逐點損失作為損失函數(shù)對于提升推薦性能的有效性。

    3 結(jié)語

    本文提出了一種新的推薦框架——基于知識感知采樣的神經(jīng)協(xié)同過濾。在知識圖譜策略網(wǎng)絡(luò)的基礎(chǔ)之上,對采樣器、推薦器、損失函數(shù)做了改進:設(shè)計了一個獎勵函數(shù)來衡量候選負例的質(zhì)量,從而更有效地獲取高質(zhì)量的負例;使用神經(jīng)協(xié)同過濾作為推薦器,通過結(jié)合線性建模和非線性建模來提升推薦性能;利用逐點損失作為損失函數(shù),突破了成對損失的固定采樣比對于推薦性能的限制。在三個真實數(shù)據(jù)集上的廣泛實驗驗證了所提方法的有效性。

    基于深度學習的推薦方法不僅能夠挖掘用戶和項目深層次本質(zhì)特征,還能有效融合多源異構(gòu)數(shù)據(jù)。在后續(xù)的工作中,將嘗試引入其他輔助信息,如用戶評論、時間信息等,以進一步提升推薦質(zhì)量。另外,對于用戶而言,實時性可能是比準確性更加重要的性能指標,為此,將進一步探索實現(xiàn)實時推薦的方法。

    猜你喜歡
    正例采樣器損失
    小學生舉例表現(xiàn)與概念理解的相關(guān)性研究
    少問一句,損失千金
    胖胖損失了多少元
    粉塵采樣器檢定和校準證書中不確定度區(qū)別
    基于概念形成的教學研究
    玉米抽穗前倒伏怎么辦?怎么減少損失?
    高中數(shù)學概率教學中的誤區(qū)與應(yīng)對策略分析
    一般自由碰撞的最大動能損失
    PM2.5小流量采樣器數(shù)據(jù)采集與導出系統(tǒng)優(yōu)化研究
    機械工程師(2015年9期)2015-02-26 08:38:20
    基于VB的PM2.5采樣器數(shù)據(jù)處理軟件的研究
    機械工程師(2015年9期)2015-02-26 08:38:15
    天津市| 周口市| 青神县| 洛浦县| 元朗区| 德格县| 嵊泗县| 宝山区| 涿鹿县| 祁阳县| 嘉定区| 上虞市| 万源市| 彭水| 龙游县| 高雄市| 逊克县| 金堂县| 阿坝| 浮梁县| 宾阳县| 临洮县| 金山区| 楚雄市| 湟中县| 穆棱市| 南昌县| 视频| 故城县| 赤峰市| 馆陶县| 平定县| 河津市| 曲沃县| 滦平县| 景德镇市| 内江市| 辰溪县| 大荔县| 成都市| 泾川县|