胡蝶 鄧璇
(湖北大學(xué),湖北武漢 430062)
在互聯(lián)網(wǎng)時(shí)代飛速發(fā)展的今天,伴隨著日益高漲的科研熱度,學(xué)術(shù)論文數(shù)量呈現(xiàn)爆炸性增長(zhǎng)趨勢(shì),導(dǎo)致信息過(guò)載的問(wèn)題。推薦系統(tǒng)能幫助科研人員更快了解其領(lǐng)域的最新前沿。因此,向研究人員有效地推薦感興趣的論文已經(jīng)越來(lái)越受關(guān)注?,F(xiàn)有的論文推薦方法主要可以分為基于內(nèi)容的推薦方法協(xié)同過(guò)濾的推薦方法和混合推薦方法三類[1-4]。雖然以上方法已得到廣泛應(yīng)用,它們也存在著一些缺陷。首先,這些方法都存在冷啟動(dòng)問(wèn)題。其次,基于協(xié)同過(guò)濾的系統(tǒng)在面向海量論文時(shí),由于數(shù)據(jù)稀疏性會(huì)產(chǎn)生較差性能。
為了解決這些問(wèn)題,本文提出了一個(gè)標(biāo)題-摘要注意力機(jī)制語(yǔ)義網(wǎng)絡(luò)來(lái)捕捉標(biāo)題與摘要之間的語(yǔ)義關(guān)系,從而獲取用戶潛在興趣進(jìn)行論文推薦。它由兩個(gè)基于注意力機(jī)制的子網(wǎng)絡(luò)組成,即詞級(jí)和句級(jí)子網(wǎng)絡(luò)。具體來(lái)說(shuō),在詞級(jí)子網(wǎng)絡(luò)中,我們提出了一個(gè)基于注意力機(jī)制的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)[5],通過(guò)考慮摘要中的詞相對(duì)于標(biāo)題中詞的重要性來(lái)學(xué)習(xí)句級(jí)表示。在句級(jí)子網(wǎng)絡(luò)中,將門控遞歸單元網(wǎng)絡(luò)與記憶網(wǎng)絡(luò)進(jìn)行集成[6],以挖掘摘要與標(biāo)題和每個(gè)句子之間的關(guān)系,從而構(gòu)建用戶偏好。
假設(shè)存在N位科研人員、M篇論文。用來(lái)表示科研人員集合;表示論文集合。mi表示用戶偏好向量;cj是文本向量?;贑hen等[7]人對(duì)推薦系統(tǒng)中融合組合特征的研究,定義了用戶和物品的特征表示:
其中:pi為第i位用戶的特征表示,qj為第j個(gè)物品的特征表示;α,β∈[0,1],代表語(yǔ)義嵌入向量的重要程度。對(duì)于用戶i,我們計(jì)算出物品j的排序得分:
采用pair-wise[8]作為目標(biāo)函數(shù)來(lái)對(duì)用戶進(jìn)行偏好的偏序建模,得到Top-N論文推薦列表。
基于上文提到的詞級(jí)和句級(jí)的子網(wǎng)絡(luò)結(jié)構(gòu),構(gòu)建出基于注意力機(jī)制的融合網(wǎng)絡(luò)模型。模型整體框架如圖1所示。
圖1 融合網(wǎng)絡(luò)推薦算法的整體框架Fig.1 The overall framework of recommendation algorithm in converged networks
圖1展示了整個(gè)融合網(wǎng)絡(luò)模型算法的流程,其中主要包括LSTM 網(wǎng)絡(luò)構(gòu)成的基于注意力機(jī)制的詞級(jí)子網(wǎng)絡(luò)、GRU網(wǎng)絡(luò)與鍵值對(duì)記憶網(wǎng)絡(luò)構(gòu)成的基于注意力機(jī)制的句級(jí)子網(wǎng)絡(luò),以及通過(guò)pair-wise算法學(xué)習(xí)得到最后的推薦列表。
考慮到句子中的有序詞語(yǔ)序列是學(xué)習(xí)其特征的重要依據(jù),采用LSTM對(duì)詞序列進(jìn)行建模。用表示標(biāo)題中詞的集合;Wy={wy,1,wy,2,…,wy,m}表示摘要中詞的集合。這些詞嵌入向量作為L(zhǎng)STM網(wǎng)絡(luò)的輸入,并且賦予相同權(quán)重θ,迭代更新公式為:
為了更進(jìn)一步探索標(biāo)題和摘要的詞相關(guān)性,基于注意力機(jī)制[9-10],提出了一種衡量句子中詞語(yǔ)相對(duì)重要性的方法:
式中:m是摘要中句子的長(zhǎng)度,為累計(jì)相似性評(píng)分。最后,將標(biāo)題t與摘要句子A作為句級(jí)子網(wǎng)絡(luò)的輸入。
本文認(rèn)為論文摘要能詳細(xì)解釋標(biāo)題的含義。我們首先引入了GRU來(lái)捕獲標(biāo)題和摘要的語(yǔ)義關(guān)系,用標(biāo)題特征t初始化整個(gè)網(wǎng)絡(luò):
(1)數(shù)據(jù)集:基于論文資源共享平臺(tái)的CiteULike-a數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。(2)評(píng)價(jià)指標(biāo):采用P@N、MRR和NDCG衡量推薦質(zhì)量。
考慮到語(yǔ)義權(quán)重參數(shù)α、β的選取也對(duì)模型的結(jié)果具有一定的影響。經(jīng)過(guò)反復(fù)測(cè)試,選取了具有代表性的結(jié)果,如圖2所示。
圖2 語(yǔ)義參數(shù)對(duì)模型的影響結(jié)果Fig.2 The effect of semantic parameters on the model
從圖2中可得出,在α=0.4、β=0.6時(shí)模型的性能最佳,即內(nèi)在嵌入和語(yǔ)義嵌入的適當(dāng)組合能更好地獲取偏好,完成推薦。
表1所示,基于對(duì)最優(yōu)參數(shù)的選取,我們還從四個(gè)評(píng)價(jià)指標(biāo)的角度,比較了3種基準(zhǔn)方法與本文的融合網(wǎng)絡(luò)模型的推薦性能,驗(yàn)證本模型是否相對(duì)于其他推薦模型效果更優(yōu)。
表1 基于citeulike-a 數(shù)據(jù)集的比較結(jié)果Tab.1 Comparison results based on citeulike-a dataset
結(jié)果表明:我們的融合網(wǎng)絡(luò)模型在所有評(píng)價(jià)指標(biāo)中都優(yōu)于其他模型。并且,由于數(shù)據(jù)的高度稀疏性,BPR算法性能最差。
在本文中提出了一個(gè)基于注意力機(jī)制的融合網(wǎng)絡(luò)來(lái)捕捉標(biāo)題和摘要之間的語(yǔ)義相關(guān)性,并應(yīng)用于論文推薦系統(tǒng)。在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證實(shí)其達(dá)到了較好的性能。在今后的研究中,將進(jìn)一步探索論文中的圖表標(biāo)題、結(jié)語(yǔ)等其他信息,研究其對(duì)提升推薦系統(tǒng)性能的重要性。