張金柱,蔣霖琪,王 玥,孔 捷,高 揚
1.南京理工大學(xué) 經(jīng)濟管理學(xué)院,南京210094
2.南京理工大學(xué),南京210094
隨著圖書資源的不斷豐富,讀者獲取感興趣圖書的難度不斷增大,圖書推薦技術(shù)隨之產(chǎn)生。圖書推薦技術(shù)利用用戶信息、圖書信息以及用戶歷史行為信息來預(yù)測用戶可能感興趣的圖書,主動地進行圖書推薦,使得用戶可以快速、準確地獲得相關(guān)圖書,節(jié)約大量時間[1]。此外,優(yōu)質(zhì)的圖書推薦方法也能夠幫助圖書銷售平臺提升其精準化推薦的能力,從而增強核心競爭能力。
圖書推薦主要包括以下三種方法,分別是基于內(nèi)容的、基于協(xié)同過濾的和基于關(guān)聯(lián)規(guī)則的圖書推薦[1]?;趦?nèi)容的圖書推薦主要根據(jù)用戶過去借閱或購買的圖書,為用戶推薦與歷史書目相似的圖書;基于協(xié)同過濾的圖書推薦則根據(jù)用戶偏好或圖書相似性進行圖書推薦;基于關(guān)聯(lián)規(guī)則的圖書推薦根據(jù)用戶購買或者借閱的記錄,從中選取頻繁共同出現(xiàn)的圖書形成圖書組合,根據(jù)組合向目標用戶推薦圖書[2]。這三種方法在圖書推薦方面取得了較好的效果,但利用的圖書特征項還稍顯單一,仍需進一步擴充和綜合利用其他多種圖書特征項提高推薦的準確性和效果,并區(qū)分和明晰不同特征對于圖書推薦的貢獻程度和影響。此外,這些方法推薦的圖書在內(nèi)容上都極為相似,缺乏多樣性,無法為用戶提供多樣化的選擇,難以滿足用戶的潛在興趣和需求。因此,本文希望在推薦過程中充分擴展和融合多種圖書特征及其關(guān)聯(lián)關(guān)系,提高推薦的準確性,并從語義相關(guān)角度為讀者推薦種類多樣的圖書。
網(wǎng)絡(luò)表示學(xué)習(xí)能夠?qū)⒕W(wǎng)絡(luò)中的節(jié)點以及節(jié)點間的關(guān)聯(lián)關(guān)系進行語義融合,進而將網(wǎng)絡(luò)中的節(jié)點表示為稠密低維向量,作為多種分類、聚類和鏈路預(yù)測任務(wù)的輸入,并取得了較好的效果[3]?;诖?,本文綜合利用圖書、關(guān)鍵詞、作者、購買者、類別和出版社等多種特征及其多維關(guān)聯(lián)關(guān)系,引入網(wǎng)絡(luò)表示學(xué)習(xí)方法對它們進行語義融合,形成圖書的語義向量表示,進而借助向量相似度指標計算圖書相關(guān)性,從語義相關(guān)角度提高圖書推薦的準確性和多樣性,明晰不同特征對于圖書推薦的貢獻程度和影響。
本部分首先介紹圖書推薦的基本方法,分別從基于內(nèi)容的推薦、基于協(xié)同過濾的推薦以及基于關(guān)聯(lián)規(guī)則的推薦共三個方面展開;接著介紹網(wǎng)絡(luò)表示學(xué)習(xí)的常用模型與方法,介紹異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)在推薦中的應(yīng)用。
根據(jù)推薦算法的工作機制,圖書推薦可分為基于內(nèi)容的推薦、基于協(xié)同過濾的推薦以及基于關(guān)聯(lián)規(guī)則的推薦[2]。
基于內(nèi)容的推薦技術(shù)(content-based recommendations,CB)是最早被使用的推薦算法[4],它根據(jù)用戶過去購買或者借閱的圖書,為用戶推薦與歷史書目相似的圖書。基于內(nèi)容的推薦簡單有效,結(jié)果直觀,容易理解,取得了較好的效果[4]。由于該算法主要考慮圖書內(nèi)容,兩本圖書間的內(nèi)容相似性是作為推薦與否的重要依據(jù)[5],因此只會為用戶推薦與過去相似的圖書,推薦同質(zhì)化較為嚴重,而且存在語言的語義模糊性問題;此外,用戶對于圖書的評價以及圖書的重要性較難體現(xiàn)在該方法中?;趨f(xié)同過濾的推薦技術(shù)(collaborative filtering recommendations,CF)是現(xiàn)如今應(yīng)用最為廣泛的推薦方法[6]。它根據(jù)用戶的偏好發(fā)現(xiàn)圖書的相似性,或者根據(jù)圖書特征發(fā)現(xiàn)用戶的相似性,然后再基于這些相似性進行推薦。該算法可以有效利用其他用戶的偏好信息,但是隨著用戶數(shù)目的增大,用戶興趣相似度計算起來也越來越復(fù)雜,時間和空間復(fù)雜度與用戶數(shù)接近于平方關(guān)系;且在實際應(yīng)用中,用戶的歷史偏好信息是用稀疏矩陣存儲,計算復(fù)雜度高,對于新圖書或新用戶存在“冷啟動”的問題?;陉P(guān)聯(lián)規(guī)則的推薦技術(shù)(association rule,AR)[7]是根據(jù)用戶購買或者借閱的記錄,利用支持度和置信度挖掘頻繁共同出現(xiàn)的圖書組合,利用生成的圖書組合向用戶推薦圖書。該算法只需用戶的圖書購買記錄,對數(shù)據(jù)的要求簡單,但該算法中最小支持度和最小置信度是人為設(shè)置,較難找到最優(yōu)值;此外,由于采用用戶的數(shù)據(jù),不可避免地存在冷啟動和數(shù)據(jù)稀疏性的問題,并且熱門暢銷的圖書容易被過度頻繁地推薦。
以上三種推薦方法從不同角度在不同領(lǐng)域進行了大量圖書推薦研究,并取得了較好的效果,但是這些方法所用信息還需進一步擴展和融合,圖書的關(guān)鍵詞、類別、作者、出版社等可能對圖書推薦產(chǎn)生作用的特征尚未加入進來;尤為重要的是,多種特征及其關(guān)聯(lián)關(guān)系尚需進一步融合實現(xiàn)綜合利用,從而提高圖書推薦的準確性。此外,這些方法推薦的圖書在內(nèi)容上都較為相似,尚需從潛在需求角度提高圖書推薦的多樣性。
網(wǎng)絡(luò)表示學(xué)習(xí)是復(fù)雜網(wǎng)絡(luò)與深度學(xué)習(xí)的交叉融合,可以將網(wǎng)絡(luò)節(jié)點轉(zhuǎn)化為低維稠密實值向量,并將其用作已有的多種機器學(xué)習(xí)算法的輸入[3]。
針對異構(gòu)網(wǎng)絡(luò)的特點,學(xué)者們以同構(gòu)網(wǎng)絡(luò)中的deepwalk[8]和node2vec[9]算法為基礎(chǔ),從不同角度形成和改進了異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)模型,部分研究在推薦系統(tǒng)上驗證了方法的效果和效率。Yu 等人[10]基于元路徑的潛在特征來表示用戶和物品之間沿不同類型路徑的相關(guān)性,利用異構(gòu)信息網(wǎng)絡(luò)中不同類型的實體關(guān)系,提出了一種隱式反饋的推薦框架。Zhao 等人[11]提出NERM(network embedding based recommendation model)模型,該模型利用用戶的物品打分記錄和打標簽記錄構(gòu)建異構(gòu)網(wǎng)絡(luò),通過表示學(xué)習(xí)算法學(xué)習(xí)各節(jié)點的向量,根據(jù)相似度計算以實現(xiàn)物品推薦。Zhang等人[12]基于用戶的評分信息構(gòu)建用戶-物品及用戶-用戶網(wǎng)絡(luò),利用node2vec方法學(xué)習(xí)用戶節(jié)點的向量表示,將潛在社交關(guān)系融入推薦排序模型中,結(jié)果顯示在評分預(yù)測推薦場景中取得不錯效果。Shi等人[13]提出基于異構(gòu)信息網(wǎng)絡(luò)表示學(xué)習(xí)的推薦方法HERec,用于挖掘網(wǎng)絡(luò)中用戶和物品的潛在結(jié)構(gòu)與表示,并在豆瓣電影、豆瓣圖書等數(shù)據(jù)集上驗證了該方法的有效性,但其融合的特征尚需擴展。李樹青等人[14]根據(jù)讀者借閱記錄構(gòu)建異構(gòu)網(wǎng)絡(luò),設(shè)計算法以測度圖書推薦質(zhì)量,從而為圖書推薦服務(wù)提供了良好的推薦客體,并以高校圖書館借閱記錄為實驗數(shù)據(jù),驗證了算法可以有效提高讀者滿意度。
異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)的部分算法已經(jīng)在推薦系統(tǒng)上驗證了模型的有效性和效率,提高了語義表達效果,降低了計算復(fù)雜度,然而,這些模型尚未根據(jù)圖書推薦這一具體任務(wù),針對性地設(shè)計、擴展和綜合利用多種圖書特征項及其關(guān)聯(lián)關(guān)系,形成語義相關(guān)視角下的特定圖書推薦方法。
本文首先選取多種圖書特征構(gòu)建圖書異構(gòu)網(wǎng)絡(luò),定義特征間的多維關(guān)聯(lián)關(guān)系,并基于異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)方法,融合多種圖書特征信息,構(gòu)建每本圖書的語義向量表示;然后,從語義關(guān)聯(lián)角度,通過余弦相似度計算圖書之間的相關(guān)程度,實現(xiàn)圖書推薦;最后,利用均方根誤差、平均絕對誤差等指標,比較異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)方法與傳統(tǒng)協(xié)同過濾方法以及deepwalk 算法對于圖書推薦的準確性,在類別和內(nèi)容多樣性兩個方面比較推薦圖書的相關(guān)性差異。
圖書異構(gòu)網(wǎng)絡(luò)構(gòu)建包括圖書特征提取以及多維關(guān)聯(lián)關(guān)系定義。如圖1所示,圖書特征包括圖書b(book)、購買者u(user)、類別c(category)、作者a(author)和出版社p(publisher)以及表示圖書內(nèi)容信息的關(guān)鍵詞k(keyword)等。特征間的多維關(guān)聯(lián)關(guān)系以多種基本關(guān)聯(lián)關(guān)系為基礎(chǔ)進行拼接和擴展,其中五種基本關(guān)聯(lián)關(guān)系為圖書分別與購買者、類別、出版社、作者、關(guān)鍵詞來形成,即bu或ub,bc 或cb,bp 或pb,ba 或ab 以及bk 或kb,并由此可以擴展形成多種關(guān)聯(lián)關(guān)系類型,如ub和ba形成uba的關(guān)聯(lián)關(guān)系,ub、ba,ab和bu形成ubabu的關(guān)聯(lián)關(guān)系。出于效率考慮,以及越長的路徑對于圖書推薦的作用可能越小,本文選取長度小于或等于5的路徑作為圖書特征間的多維關(guān)聯(lián)關(guān)系。
圖1 圖書異構(gòu)網(wǎng)絡(luò)Fig.1 Heterogeneous network of books
圖書特征間的多維關(guān)聯(lián)關(guān)系為圖書提供了豐富的語義信息,可以通過網(wǎng)絡(luò)表示學(xué)習(xí)形成圖書的語義向量表示。首先,在圖書特征間通過隨機游走生成特征間的多維復(fù)雜關(guān)聯(lián)關(guān)系序列。與一般的隨機游走不同,圖書推薦隨機游走根據(jù)特征間的關(guān)聯(lián)關(guān)系類型對游走路徑進行了約束和限制,使得路徑與圖書密切相關(guān),并且便于之后的融合表示。游走路徑生成和約束的公式化表達如公式(1)所示[13]:
其中,nx為游走路徑的第x個節(jié)點,v的類型為Tm,是類型為Tm+1的節(jié)點v的鄰居。例如關(guān)聯(lián)關(guān)系“bub”約束了游走時經(jīng)過的節(jié)點類型為圖書、購買者和圖書,且游走順序滿足“圖書→購買者→圖書”。當一名購買者購買了多本圖書時,這些被購買的圖書便通過該名購買者產(chǎn)生了語義關(guān)聯(lián),表明這些圖書可能具有一定的相關(guān)性;同樣的,當多名購買者購買了多本不同的圖書時,如圖2 所示,通過圖書購買關(guān)系使得圖書之間具備了多種語義關(guān)聯(lián),如圖書B1和B4通過U1和U2形成了關(guān)聯(lián)路徑B1U1B4和B1U2B4,圖書B3和B4通過U2和U3形成了關(guān)聯(lián)路徑B3U2B4和B3U3B4。依此類推,通過約束隨機游走可以產(chǎn)生多種關(guān)聯(lián)類型、多種長度的關(guān)聯(lián)序列。
圖2 約束隨機游走下的圖書購買者關(guān)聯(lián)路徑示例Fig.2 Example of book-user association path under constrained random walk
其次,本文利用圖書特征項序列得到的路徑信息,對每一條路徑通過目標優(yōu)化函數(shù)公式(2)來學(xué)習(xí)圖書節(jié)點的語義向量表示,其中Nv是路徑下圖書節(jié)點v的鄰居,采用隨機梯度下降算法優(yōu)化目標函數(shù)。
最后,對于一個圖書節(jié)點v,可以學(xué)習(xí)到該圖書節(jié)點的一系列表示,通過融合函數(shù)公式(3)對學(xué)習(xí)到的圖書節(jié)點表示進行融合轉(zhuǎn)換,其中為圖書節(jié)點v在第l條路徑下的表示,P為路徑集合,是圖書節(jié)點對于第p條路徑的偏好權(quán)重,Ap和bp分別表示第l條路徑下的變化矩陣和偏置向量,經(jīng)過融合后得到圖書的低維稠密向量表示。
圖書異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)將圖書特征項及其多種關(guān)聯(lián)關(guān)系融合表示為圖書的語義向量后,就可以借助多種向量相似度計算指標和方法,計算圖書之間的語義相似性,進而實現(xiàn)圖書推薦。
向量間相似度計算的方法很多,其中代表性的方法有余弦相似度、歐氏距離、Jaccard系數(shù)、馬氏距離等。本文采用余弦距離來計算圖書向量間的相似度。以x=(x1,x2,…,xn)T和y=(y1,y2,…,yn)T分別表示兩本圖書的向量,相似度計算公式如式(4)所示:
本文選擇使用常用的平均絕對誤差MAE(mean absolute error)和均方根誤差RMSE(root mean squared error)方法來評價推薦準確度,通過計算預(yù)測的用戶評分與實際用戶評分之間的偏差度量,可以直觀地度量推薦結(jié)果的準確性,MAE、RMSE 越小則說明推薦效果越好。計算公式如(5)、(6)所示,其中ri,j是用戶i對于圖書j的實際評分,r′i,j是用戶i對于圖書j的預(yù)測評分,Dtest是指測試集上的評分數(shù)據(jù)。
圖書推薦不僅僅需要通過高準確率來滿足用戶,還需從多樣性角度滿足用戶的潛在興趣和需求,而這也是語義相關(guān)視角下的圖書推薦的作用和優(yōu)勢。因此,本文從類別和內(nèi)容多樣性兩個角度對圖書推薦多樣性進行評測。
(1)類別多樣性的評價指標借助學(xué)科交叉測度中的多樣性指標(diversity)[15]來實現(xiàn),具體包括學(xué)科豐富度(varity)、平衡性(balance)和差異度(disparity),其中學(xué)科豐富度是指涵蓋學(xué)科數(shù)量的多少,平衡性是指學(xué)科占比的均衡性,差異度是指學(xué)科間的差異性[15]。對應(yīng)到圖書推薦的多樣性,將分別從類別豐富度NC(number of category)、平衡性SE(shannon entropy)以及類別差異度SIM(similarity)三個方面進行評價分析。如公式(7)~(9)所示:
Ci表示推薦圖書的所屬類別,pi表示不同圖書類別的概率分布,ci、cj表示基于word2vec的圖書類別語義向量表示,S(ci,cj)是兩本圖書i、j所屬類別之間的相似度。
(2)對于內(nèi)容多樣性的評價指標,選取差異度SIM作為衡量推薦圖書內(nèi)容層次多樣性的指標。如公式(10)所示,bi、bj是基于doc2vec 的推薦圖書摘要內(nèi)容向量表示,S(bi,bj)是兩本圖書i、j之間的相似度。
本文以亞馬遜圖書數(shù)據(jù)集為基礎(chǔ),輔以爬蟲技術(shù)獲取圖書的作者、出版社以及摘要中抽取的關(guān)鍵詞,擴展圖書特征項并構(gòu)建圖書異構(gòu)網(wǎng)絡(luò),基于異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)方法得到每本圖書的向量表示,進而基于余弦相似度計算圖書之間的相關(guān)度,然后基于RMSE、MAE指標比較異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)方法與協(xié)同過濾方法以及deepwalk算法對于圖書推薦的準確性,從類別和摘要內(nèi)容多樣性兩個層次比較推薦圖書的相關(guān)性,從而驗證異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)方法在圖書推薦運用中的可行性和有效性,最后通過定量比較融合不同元路徑后的推薦結(jié)果,以探究不同圖書特征對推薦結(jié)果的影響。
本文通過擴展亞馬遜圖書數(shù)據(jù)集中的圖書特征項,形成本文的實驗數(shù)據(jù)。首先從中提取已有圖書特征項,如圖書異構(gòu)網(wǎng)絡(luò)中所涉及到的圖書b、購買者u、圖書類別c 節(jié)點;在此基礎(chǔ)上,利用網(wǎng)絡(luò)爬蟲方法獲取圖書作者a、出版社p 以及從摘要中抽取的表示圖書內(nèi)容的關(guān)鍵詞k,擴展形成完整的數(shù)據(jù)集。其中,關(guān)鍵詞抽取通過RAKE 算法(rapid automatic keyword extraction)來實現(xiàn)[16],每篇文章中選取排名前5的關(guān)鍵詞作為其表示。最終,實驗數(shù)據(jù)集包含28 382個用戶、2 301本圖書、11 124個關(guān)鍵詞、55 個圖書類別、2 106 個作者及927 個出版社。表1列出了實驗中涉及的五種基本關(guān)聯(lián)關(guān)系和對應(yīng)路徑的統(tǒng)計信息。
表1 實驗數(shù)據(jù)統(tǒng)計Table 1 Statistics of experimental data
本文將異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)的方法運用在圖書推薦這個問題上,并將推薦效果與現(xiàn)在最為主流的協(xié)同過濾推薦方法以及deepwalk方法進行對比,結(jié)果如表2所示。
表2 實驗結(jié)果對比Table 2 Comparison of experimental results
對于本實驗數(shù)據(jù),將評分數(shù)據(jù)按不同比例分成訓(xùn)練集和測試集,設(shè)置了不同的訓(xùn)練樣本百分比,分別在80%、70%、60%、50%的數(shù)據(jù)集上進行訓(xùn)練,在對應(yīng)余下的數(shù)據(jù)集上進行測試,實驗結(jié)果如表2 所示。結(jié)果顯示,異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)的方法分別在80%、70%、60%、50%訓(xùn)練集情況下,圖書推薦上的MAE 指標均低于協(xié)同過濾方法以及基于deepwalk 的推薦方法。在訓(xùn)練樣本80%的情況下,異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)的方法在圖書推薦上的RMSE 也同樣取得了最優(yōu)的效果;在訓(xùn)練樣本為70%、60%、50%情況下,deepwalk 圖書推薦上的RMSE指標反而略微優(yōu)于異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí),其原因可能是deepwalk 的輸入網(wǎng)絡(luò)同樣是包含了所有圖書屬性特征以及多維關(guān)聯(lián)關(guān)系的異構(gòu)網(wǎng)絡(luò),并在deepwalk中當作同一節(jié)點類型進行了訓(xùn)練,間接增加了圖書間的關(guān)聯(lián)關(guān)系??傮w來看,異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)所預(yù)測的即在圖書推薦的應(yīng)用上異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)的效果是比較優(yōu)秀的,采用異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)模型進行推薦具有更好的推薦效果,提高了推薦的準確性。
大多數(shù)推薦方法所推薦的圖書可能在類別上具有單調(diào)性,內(nèi)容上存在重復(fù)性,難以滿足用戶的多樣性需求和可能的潛在興趣,因此,下面將從多樣性角度出發(fā)對推薦結(jié)果進行相關(guān)性比較和分析,更全面地對推薦結(jié)果進行評估。
3.3.1 類別多樣性角度
圖書推薦的類別多樣性將從類別豐富度、平衡性以及類別相似度三個方面進行評價分析。針對每一本圖書的推薦結(jié)果,取其前n本作為最相關(guān)的圖書,當n等于1、3、5、7、9 時,計算平均類別數(shù)average_NC、平均信息熵average_SE、平均類別相似度average_SIMcategory,結(jié)果如表3所示。
表3 圖書推薦的類別多樣性比較結(jié)果Table 3 Comparison results of diversity of recommended book categories
平均類別數(shù)隨著n的變化如圖3(a)所示,可以發(fā)現(xiàn),隨著推薦圖書數(shù)量的增多,推薦圖書的類別也隨之增加。異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)推薦的平均圖書類別數(shù)目均多于基于內(nèi)容和協(xié)同過濾方法,即異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)推薦的圖書更加多元化,推薦書目的類別更加豐富。平均信息熵和平均類別相似度指標所反應(yīng)的結(jié)論和平均類別數(shù)指標基本一致,如圖3(b)和圖3(c)所示,其中,平均類別相似度越低,表明推薦圖書類別的差異越大。值得一提的是,異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)方法隨著推薦圖書數(shù)量的增加,平均類別相似度逐漸變大,這從側(cè)面反映了異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)方法首先推薦的可能是與原圖書類別差異較大的類別的圖書,并隨著數(shù)量增加,推薦的圖書類別越來越相似。
圖3 類別多樣性統(tǒng)計結(jié)果Fig.3 Statistics of category diversity
以ASIN碼為“078510870X”的圖書Ultimate Marvel Team-Up為例具體說明,此書的類別為“Children’s Books”,推薦的前10 本圖書如表4 所示,分別計算NC、SE、SIM這三個多樣性指標,結(jié)果如表5所示。
表4 圖書Ultimate Marvel Team-Up的圖書推薦類別Table 4 Recommended categories of Ultimate Marvel Team-Up
表5 推薦圖書類別多樣性比較結(jié)果Table 5 Comparison results of diversity for recommended book categories
根據(jù)表4 可以發(fā)現(xiàn),基于內(nèi)容的方法推薦了4 個類別的圖書,其中“Children’s Books”類別圖書共有6 本,協(xié)同過濾所推薦的圖書種類只有3 種,其中,“Literature&Fiction”的類別有6 本,“Science Fiction &Fantasy”類別3 本,推薦的書本以小說文學(xué)類為主;而異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)方法推薦的類別多達7 種,其中,“Children’s Books”“Comics &Graphic Novels”及“Literature &Fiction”類別的圖書各2本,推薦的圖書包含但又不限于兒童、小說文學(xué)類別,該方法推薦的圖書更多元化,類別更豐富。表5的指標計算結(jié)果同樣證實了該結(jié)論。
3.3.2 從內(nèi)容多樣性角度
針對每一本圖書的前n個推薦結(jié)果作為最相關(guān)的圖書,抽取這n本書的摘要內(nèi)容,利用doc2vec進行語義表示,分別計算圖書兩兩之間的內(nèi)容相似度,并對其求平均得到平均內(nèi)容相似度。如果平均內(nèi)容相似度越小,表明推薦結(jié)果列表中的圖書越不相似,推薦結(jié)果的多樣性就越好。
不同推薦方法推薦的圖書與原圖書的內(nèi)容相似度如表6 所示??梢钥吹?,基于內(nèi)容、基于協(xié)同過濾方法所推薦的圖書平均內(nèi)容相關(guān)性這一指標比較穩(wěn)定,分別保持在0.96和0.92左右,這說明無論推薦圖書的數(shù)量如何變化,基于內(nèi)容及協(xié)同過濾指標所推薦的圖書在內(nèi)容上都與原圖書相似度很高;而基于異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)方法所推薦的圖書平均內(nèi)容相似度保持在0.87,低于其他兩種方法,這同樣說明了相比之下,基于異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)方法所推薦的圖書在內(nèi)容上更加豐富。
表6 推薦圖書內(nèi)容相關(guān)性總體比較結(jié)果Table 6 Comparison results of overall correction for recommended book content
圖4 內(nèi)容多樣性結(jié)果變化Fig.4 Results of change for content diversity
同樣地,以ASIN碼為“078510870X”的圖書Ultimate Marvel Team-Up為例進行分析,結(jié)果如表7所示。從內(nèi)容語義層面的相似度指標顯示,異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)算法所推薦的圖書內(nèi)容更加多樣。
表7 推薦圖書內(nèi)容多樣性比較結(jié)果Table 7 Results of diversity comparison of recommended books
上述結(jié)果顯示,無論是在類別層面還是在內(nèi)容層面上,協(xié)同過濾方法所推薦的圖書都是更加相似,協(xié)同過濾更多地強調(diào)相似性;而異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)推薦的結(jié)果類別更加豐富,內(nèi)容更加多元,更多地強調(diào)相關(guān)性?;诋悩?gòu)網(wǎng)絡(luò)表示的推薦不僅具有高準確率,而且所推薦的圖書更加多樣,注重相關(guān)性,能更好地滿足用戶的潛在興趣。
不同圖書特征對圖書推薦的貢獻度和影響可能不同,本文通過逐步融合不同特征形成的關(guān)聯(lián)關(guān)系,結(jié)合多種評測指標,評估圖書特征對于圖書推薦的貢獻度和影響。本文首先選定和某個特征相關(guān)的路徑信息,然后逐一將其他特征相關(guān)的關(guān)聯(lián)關(guān)系加入到現(xiàn)有路徑中,通過計算評估指標的變化發(fā)現(xiàn)特征項對于圖書推薦的影響。具體實驗流程如下:首先選定購買者相關(guān)的路徑,即“ubu”和“bub”這一組元路徑;隨后在此基礎(chǔ)上加入圖書作者相關(guān)的路徑,即融合“ubabu”和“bab”路徑;依次加入主題詞相關(guān)路徑“ubkbu”與“bkb”、圖書類別特征路徑“ubcbu”與“bcb”以及出版社特征路徑“ubpbu”與“bpb”。每個步驟中均分別計算均方根誤差和平均絕對誤差兩個指標用于評估圖書推薦效果,結(jié)果如表8所示。
表8 圖書特征影響Table 8 Results of effect for book characteristics
由表8可以看出,隨著圖書特征的逐步融入,RMSE、MAE 兩個指標都有所降低,說明推薦效果逐步得到改善,但是隨著融入的圖書特征信息越來越多,RMSE、MAE 這兩個指標卻有所上升,效果不僅沒有得到改進反而下降,這可能是因為一些路徑包含噪音或與現(xiàn)有路徑有沖突。由此可知,并非融入圖書特征信息越豐富,模型越復(fù)雜就能達到更好的效果,在構(gòu)建異構(gòu)網(wǎng)絡(luò)模型時應(yīng)是有選擇地融入重要特征,通過甄選少量高質(zhì)量的圖書特征及其路徑來控制模型的復(fù)雜度,同時能夠較大地提高推薦的準確性。
在此基礎(chǔ)上,通過單獨計算每種特征及其關(guān)聯(lián)關(guān)系下的圖書推薦效果,可以判斷每種特征項對于圖書推薦的貢獻程度。本文分別把購買者、關(guān)鍵詞、類別、作者和出版社相關(guān)的路徑信息加入到圖書異構(gòu)網(wǎng)絡(luò)關(guān)聯(lián)模型中,計算均方根誤差RMSE和平均絕對誤差MAE,結(jié)果如表9 所示。由于平均絕對誤差MAE 和均方根誤差RMSE值越小,表明效果越好,因此,對圖書推薦貢獻程度從高到低的特征依次為作者、關(guān)鍵詞、類別、購買者和出版社,這也為特征項選取提供了思路和方法。
表9 不同圖書特征推薦效果比較Table 9 Comparison of recommendation effects of different book features
為了提高圖書推薦的準確性和多樣性,滿足用戶可能的潛在需求,本文通過融合更多的圖書特征信息,構(gòu)建圖書異構(gòu)網(wǎng)絡(luò),引入網(wǎng)絡(luò)表示學(xué)習(xí)方法,從語義相關(guān)的角度設(shè)計了圖書推薦方法,利用平均絕對誤差、均方根誤差等定量指標評估推薦的準確性,利用豐富度、均衡性、差異度等指標分析圖書推薦的多樣性。在擴展的亞馬遜圖書數(shù)據(jù)集上的實證結(jié)果表明,相較于協(xié)同過濾,該方法的均方根誤差、平均絕對誤差最多分別降低了19.52%、20.51%,相較于deepwalk,該方法的均方根誤差、平均絕對誤差最多分別降低了0.17%和2.9%,準確性得到較大提高;多樣性評測指標也顯示該方法推薦的圖書種類更多元、內(nèi)容更豐富,多樣性同樣得到了提高;明晰了不同特征對圖書推薦的貢獻程度,從高到低依次為作者、關(guān)鍵詞、類別、購買者和出版社。
該方法在圖書推薦方面取得了一定的效果,但由于是初步研究和探索,在以下方面仍需進一步深入研究。首先,可以通過獲取和融合更多的特征類型,以進一步提高推薦的準確性和全面性;其次,本文僅擴展了亞馬遜圖書數(shù)據(jù)集并驗證了異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)方法融合多種圖書特征項的有效性,尚需擴展研究方法和研究領(lǐng)域,在多種平臺和圖書資源上進行推薦并進行方法驗證。