王 丹 田廣強(qiáng) 王福忠
①(黃河交通學(xué)院智能工程學(xué)院 焦作 454950)
②(河南理工大學(xué)電氣工程與自動化學(xué)院 焦作 454000)
給定用戶u ∈U,活動s ∈S,用戶間的信任分為直接信任和間接信任。所謂直接信任只涉及用戶兩者,而間接信任會牽扯第三者。用戶間的信任度越接近1,表明兩者之間越信任,反之亦然。在社交網(wǎng)絡(luò)中,用戶被信任的人數(shù)越多表明用戶的可信度越高。本文借助Page rank算法構(gòu)建用戶直接信任度
圖1 信任網(wǎng)絡(luò)
圖2 具有社會地位影響力的信任網(wǎng)絡(luò)
基于矩陣分解的協(xié)同過濾模型具有良好的可擴(kuò)展性和推薦精度,得到了越來越多的關(guān)注和研究。這里采用低秩概率矩陣分解(Probabilistic Matrix Factorization, PMF)作為本文推薦的框架,利用該框架對用戶-活動評分矩陣進(jìn)行分解,將用戶偏好和活動特征映射到同一潛在低秩空間中,然后利用低秩特征矩陣對用戶評分缺失進(jìn)行預(yù)測。
綜上分析了用戶間的信任度、用戶社會地位影響力以及用戶的同質(zhì)性,本文將這些權(quán)重因素融入矩陣分解中。圖3為融合用戶間信任關(guān)系的矩陣分解示意圖。
根據(jù)文獻(xiàn)[14],假設(shè)用戶和活動的隱特征向量服從高斯先驗分布
圖3 矩陣分解示意圖
本文算法目的是為某個城市中的用戶推薦感興趣的活動或項目,為了驗證本文算法的有效性和優(yōu)越性,以豆瓣和Ciao為實驗數(shù)據(jù)來源。在豆瓣上選擇北京市2018年1月1日~2019年12月31日期間用戶評價的活動或項目為實驗數(shù)據(jù),豆瓣用戶可以對自己所感興趣的書籍、電影、電視劇、音樂進(jìn)行評價,其中在北京數(shù)據(jù)集上共有15384名用戶,相互信任關(guān)系141556條,產(chǎn)生的有效評分70146條,評分信息的稀疏度為98.32%,用戶社交關(guān)系的稀疏度為99.88%。
Ciao是著名的歐洲消費(fèi)點評網(wǎng)站,網(wǎng)站用戶不僅可以瀏覽其他用戶的評論還可以對其參與的商品進(jìn)行評價。本文所采用的實驗數(shù)據(jù)來自Tang等人[15]獲取的1999年~2011年間的項目評分和社交數(shù)據(jù)。其中共有7357名用戶,評分記錄278483條,相互信任關(guān)系111781條,評分信息的稀疏度為99.96%,用戶社交關(guān)系的稀疏度為99.59%。
平均絕對誤差(Mean Absolute Error, MAE)和均方差誤差(Root Mean Squared Error, RMSE)是目前推薦領(lǐng)域最為常見評價方法
心理學(xué)表明,少年兒童的好奇心強(qiáng),容易對周圍陌生的事物產(chǎn)生濃厚的興趣,由于兒童的閱歷淺、頭腦中的疑問較多,愛問“為什么”因此,科學(xué)課教師要根據(jù)一般兒童的年齡和心理特點,尤其要了解所教學(xué)生的情況和特點,不能吝嗇自己的語言,而應(yīng)用贊美的話調(diào)動學(xué)生,用鼓勵的話語使學(xué)生感到興奮,精心設(shè)計出學(xué)生喜愛科學(xué)探究活動,引領(lǐng)學(xué)生踏上科學(xué)探究學(xué)習(xí)之路。
參考文獻(xiàn)[16-20]對文中的參數(shù)設(shè)定如表1所示。
用戶社會影響力和同質(zhì)性是影響推薦的重要因素,參數(shù)λW,λH大小決定著用戶行為和地位對信任用戶的滲透力。這里在豆瓣北京和Ciao數(shù)據(jù)集上測試參數(shù)λW,λH與推薦評價指標(biāo)MAE間的關(guān)系。當(dāng)其他調(diào)節(jié)參數(shù)設(shè)置為0時,社會影響力調(diào)節(jié)參數(shù)λW與平均絕對誤差MAE的關(guān)系如圖4所示。
由圖4可知,在豆瓣北京和Ciao數(shù)據(jù)集上隨著參數(shù)λW的增大,推薦評價指標(biāo)MAE值先降后增。并且訓(xùn)練數(shù)據(jù)越多,得到的推薦精度就越高,預(yù)測誤差就越小。在豆瓣北京數(shù)據(jù)集上λW=5時MAE取得最小值,算法此時獲得最好的預(yù)測結(jié)果;在Ciao數(shù)據(jù)集上λW=4時MAE取得最小值,綜上所述,本文將用戶社會影響力調(diào)節(jié)參數(shù)λW設(shè)置為5。當(dāng)其他調(diào)節(jié)參數(shù)設(shè)置為0時,同質(zhì)性調(diào)節(jié)參數(shù)λH與平均絕對誤差MAE的關(guān)系如下。
由圖5可以看出,在豆瓣北京和Ciao數(shù)據(jù)集上參數(shù)λH與MAE的變化趨勢是一致的,即隨著λH的不斷增大,平均絕對誤差MAE先下降后增大。并且隨著訓(xùn)練數(shù)據(jù)的增多,平均絕對誤差MAE越小,推薦預(yù)測精度越高。在豆瓣北京數(shù)據(jù)集上λH=0.35時平均絕對誤差MAE取得最小值;在Ciao數(shù)據(jù)集上λH=0.7時MAE取得最小值。為了使獲得的推薦精度最優(yōu),我們這里折中取值λH=0.5,雖然此時在不同的數(shù)據(jù)集上不能獲得最優(yōu)結(jié)果,但能獲得平均最優(yōu)。
為了降低偏差對預(yù)測精度的影響,本文引入兩個正則項分別對用戶特征和活動特征進(jìn)行約束,約束參數(shù)φ和φ分別用于控制用戶特征和活動特征受近鄰的影響程度。圖6和圖7分別為正則項約束參數(shù)φ和φ與平均絕對誤差MAE間的關(guān)系。
由圖6可知,在豆瓣北京數(shù)據(jù)集上,隨著用戶特征正則項約束參數(shù)φ的增大,平均絕對誤差MAE大致的走勢是先降低后增大,在0.05≤φ ≤0.08之間,平均絕對誤差MAE振蕩上升;在Ciao數(shù)據(jù)集上,隨著用戶特征正則項約束參數(shù)φ的增大,平均絕對誤差MAE也是先降低后增大。并且隨著訓(xùn)練數(shù)據(jù)的增多,平均絕對誤差MAE越小,算法的推薦預(yù)測精度越高。在豆瓣北京數(shù)據(jù)集上時正則項約束參數(shù)φ=0.048時平均絕對誤差MAE取得最小值;在Ciao數(shù)據(jù)集上正則項約束參數(shù)φ=0.03時MAE取得最小值。綜合取用戶特征正則項約束參數(shù)φ=0.048。
表1 參數(shù)設(shè)置
圖4 不同數(shù)據(jù)集上參數(shù)λW與MAE關(guān)系
圖5 不同數(shù)據(jù)集上參數(shù)λ H與MAE關(guān)系
圖7為豆瓣北京和Ciao數(shù)據(jù)集上,活動特征正則項約束參數(shù)φ與平均絕對誤差MAE間的關(guān)系。隨著正則項約束參數(shù)φ取值的增大,平均絕對誤差MAE呈“W”狀波動變化。在豆瓣北京數(shù)據(jù)集上當(dāng)φ=0.1時平均絕對誤差MAE取得最小值;在Ciao數(shù)據(jù)集上,正則項約束參數(shù)φ=0.102時,平均絕對誤差MAE取得最小值。并且隨著訓(xùn)練數(shù)據(jù)的增多,平均絕對誤差MAE越小,算法的推薦預(yù)測精度越高。綜合取用戶特征正則項約束參數(shù)φ=0.01。上述兩個正則項約束參數(shù)既不能取值太大,也不能取值太小,取值太大則會控制學(xué)習(xí)的進(jìn)度,取值太小就無法起到約束的作用。
隱特征矩陣維度d也是影響算法性能的因素之一,維度太大可表征的隱藏信息就越多,但引入噪聲信息的可能也越大,若維度太小,就無法全面挖掘深層隱藏信息,為此選擇恰當(dāng)?shù)木S度至關(guān)重要。
圖6 不同數(shù)據(jù)集上參數(shù)φ 與MAE關(guān)系
圖7 不同數(shù)據(jù)集上參數(shù)φ 與MAE關(guān)系
圖8 不同數(shù)據(jù)集上維度d 與MAE關(guān)系
從圖8曲線走勢可知,在豆瓣北京數(shù)據(jù)集上,隨著隱特征矩陣維度d的增大,平均絕對誤差MAE先降低后增大后期增幅緩慢,其中維度d=15時,平均絕對誤差MAE取得最小值;在Ciao數(shù)據(jù)集上,隨著隱特征矩陣維度d的增大,平均絕對誤差MAE先降低后緩慢增加,其中維度d=20時,平均絕對誤差MAE取得最小值。無論在豆瓣北京數(shù)據(jù)集上還是在Ciao數(shù)據(jù)集上,當(dāng)隱特征矩陣維度大于一定閾值后,不僅不會降低平均絕對誤差,反而緩慢增加,這也側(cè)面反映出隱含特征所能表達(dá)的信息是有限的,徒增特征矩陣的維度,不僅不能提升推薦的準(zhǔn)確率,反而會引入一些不必要的噪聲,降低推薦的精度。
本文仿真實驗的硬件環(huán)境為:I n t e l(R)Core(TM) i5-9400F@4.1 GHz, RAM: 4 GB,軟件環(huán)境為:Windows 7操作系統(tǒng),Python編程實現(xiàn)。對比實驗從兩個方面進(jìn)行:一是對比分析各算法的有效性;二是對比本算法與同類算法對冷啟動的敏感性。實驗采用八折交叉驗證,即將每3個月的活動數(shù)據(jù)作為子數(shù)據(jù)集,這樣的數(shù)據(jù)劃分主要考慮到同一季度內(nèi)由于氣候和環(huán)境的相似,活動項目能聚類出現(xiàn)。
這里將文獻(xiàn)[1 7](M I M F C F)、文獻(xiàn)[1 2](ISSMF)、文獻(xiàn)[19](CSIT)、文獻(xiàn)[21](RSNMF)、文獻(xiàn)[22](PMF)、文獻(xiàn)[23](AODR)、文獻(xiàn)[24](CANCF)和文獻(xiàn)[25](AutoTrustRec)作為對比算法,MIMFCF,ISSMF,CSIT,RSNMF和PMF等5種算法為傳統(tǒng)推薦算法,AODR, CA-NCF, AutoTrustRec等3種為深度學(xué)習(xí)推薦模型。其中MIMFCF提出了兩個有效矩陣分解框架,一個集成流形正則化,一個集成動態(tài)Tikhonov圖正則化;基于二者深入挖掘用戶-項目矩陣的內(nèi)在信息;ISSMF利用整體社交網(wǎng)絡(luò)結(jié)構(gòu)信息和用戶的評分信息推導(dǎo)特定領(lǐng)域社交網(wǎng)絡(luò)結(jié)構(gòu),借助Pagerank計算用戶在特定領(lǐng)域的社會地位,并將其融入矩陣分解;CSIT將用戶信任朋友的影響引入矩陣分解模型中,借助聚類舒緩數(shù)據(jù)稀疏問題;RSNMF為基于正則項約束的非負(fù)矩陣分解算法;AODR使用深度學(xué)習(xí)從評論文本提取評分矩陣,引入張量因子分解計算加權(quán)意見,然后融合擴(kuò)展協(xié)作過濾技術(shù)改進(jìn)推進(jìn)系統(tǒng);CA-NCF提出了一種混合算法來追溯和重新利用預(yù)篩選上下文信息,并將獲得的新維度用于深度學(xué)習(xí)協(xié)作過濾;AutoTrustRec利用深度架構(gòu)來學(xué)習(xí)隱藏的用戶和項目表示,使用自動編碼器中的共享層將直接和間接信任值反饋神經(jīng)網(wǎng)絡(luò)。
為了進(jìn)一步驗證本文算法與其他同類算法的有效性,以平均絕對誤差MAE和均方差誤差RMSE作為評價標(biāo)準(zhǔn),分別在豆瓣北京和Ciao數(shù)據(jù)集上進(jìn)行對比實驗,結(jié)果如圖9所示。
從圖9(a)上可以看出,當(dāng)確定特征維度時,本文算法(MWFPMF)的平均絕對誤差是最低的,其次是CSIT, MIMFCF, RSNMF, ISSMF和PMF;特別當(dāng)特征維度d=15時,本文算法的平均絕對誤差MAE取得最小值,至少低于其他5種算法8.24%,此時獲得的推薦精度最佳。當(dāng)增加特征維度,即d=20時各算法的平均絕對誤差不僅沒有降低,反而增大了,這是由于隨著特征維度的增加,其能表達(dá)的隱含特征信息加大,無形中引入了噪聲,反而降低了算法推薦的準(zhǔn)確率。圖9(b)中可知,在Ciao數(shù)據(jù)集上隨著特征維度的增大,各算法的推薦準(zhǔn)確率在提升,當(dāng)特征維度d=20時,各算法推薦精度達(dá)到最高值,此時本文算法的平均絕對誤差至少低于其他5種算法6.58%。
圖10的變化趨勢與圖9基本一致,從圖10(a)可知:在確定維度上,本文算法的均方差誤差相較于其他5種算法是最低的,其中當(dāng)特征維度d=15時,本文算法的均方差誤差RMSE取得最小值,至少低于其他5種算法7.83%,所得到的推薦精度最高;圖10(b)中可知,在Ciao數(shù)據(jù)集上隨著特征維度的增大,各算法的均方差誤差RMSE在降低,當(dāng)特征維度d=20時,各算法的均方差誤差達(dá)到最小值,此時本文算法的均方差誤差至少低于其他5種算法6.27%。
圖9 不同數(shù)據(jù)集上維度d 與MAE關(guān)系
為了進(jìn)一步驗證本算法對冷啟動用戶推薦的精度,這里將用戶評分項目少于3個歸為冷啟動用戶,分別從豆瓣北京和Ciao數(shù)據(jù)集上抽取冷啟動用戶,以平均絕對誤差MAE和均方差誤差RMSE作為推薦評價標(biāo)準(zhǔn),驗證各算法對冷啟動用戶的推薦性能。
通過表2推薦評價指標(biāo)對比可知,在豆瓣北京數(shù)據(jù)集上本文算法對冷啟動用戶推薦的平均絕對誤差相較于CSIT, MIMFCF, RSNMF, ISSMF,PMF等5種傳統(tǒng)推薦算法分別降低了5.64%, 8.92%,11.07%, 20.02%和22.05%,相較于AODR, CANCF, AutoTrustRec等3種深度學(xué)習(xí)推薦模型平均絕對誤差分別僅降低了0.9%, 2.82%和6.78%;對冷啟動用戶推薦的均方差誤差相較于CSIT, MIMFCF, RSNMF, ISSMF, PMF等5種傳統(tǒng)推薦算法分別降低了8.08%, 10.55%, 13.41%, 20.19%和24.27%,相較于AODR, CA-NCF, Auto-TrustRec等3種深度學(xué)習(xí)推薦模型均方差誤差分別僅降低了3.01%, 4.02%和8.61%。
在Ciao數(shù)據(jù)集上本文算法對冷啟動用戶推薦的平均絕對誤差相較于CSIT, MIMFCF, RSNMF,ISSMF, PMF等5種傳統(tǒng)推薦算法分別降低了7.34%, 9.51%, 12.42%, 19.15%和22.03%,相較于AODR, CA-NCF, AutoTrustRec等3種深度學(xué)習(xí)推薦模型平均絕對誤差分別僅降低了0.89%, 2.45%和7.57%;對冷啟動用戶推薦的均方差誤差相較于CSIT, MIMFCF, RSNMF, ISSMF, PMF等5種傳統(tǒng)推薦算法分別降低了8.52%, 9.58%, 15.52%,22.69%和26.56%,相較于AODR, CA-NCF, Auto-TrustRec等3種深度學(xué)習(xí)推薦模型均方差誤差分別僅降低了3.35%, 4.5%和9.11%。
通過以上對比可知,傳統(tǒng)矩陣分解推薦模型PMF, ISSMF和RSNMF效果較差,這是由于傳統(tǒng)模型僅依賴用戶對活動項目的評分并沒有充分利用用戶間信任去拓展分析信任用戶間的興趣偏好,面對稀疏數(shù)據(jù),無法進(jìn)一步提高推薦的精準(zhǔn)性;推薦模型CSIT和MIMFCF的推薦性能較傳統(tǒng)矩陣分解推薦模型PMF, ISSMF, RSNMF有較大的提升,這是因為它們集成了1種或多種社交關(guān)系到矩陣分解中,通過深入挖掘信任用戶間的隱含關(guān)聯(lián),以求準(zhǔn)確獲取目標(biāo)用戶的興趣偏好,一定程度上提高了推薦的精準(zhǔn)度。AODR, CA-NCF和AutoTrustRec 3種深度學(xué)習(xí)推薦算法從不同角度借助深度學(xué)習(xí)挖掘有限的用戶評論信息,同時融合加權(quán)意見, 上下文信息等手段進(jìn)一步提高了推薦精準(zhǔn)度,相比其他5種傳統(tǒng)算法推薦精度有一定提高,但本文對冷啟動用戶融合多權(quán)重因素借助低秩概率矩陣進(jìn)行深入分解,隱匿關(guān)聯(lián)信息的挖掘更為充分,推薦性能更為優(yōu)異。
圖10 不同數(shù)據(jù)集上維度d 與RMSE關(guān)系
表2 各算法對冷啟動用戶的推薦性能比較
為了進(jìn)一步對比分析傳統(tǒng)推薦算法與深度學(xué)習(xí)推薦模型的性能,這里分別取豆瓣北京和Ciao數(shù)據(jù)集1%, 50%和100%的數(shù)據(jù)量進(jìn)行測試。由于1%的數(shù)據(jù)量偏少,為了充分利用有限數(shù)據(jù),防止過擬合,在1%數(shù)據(jù)集上采用5折交叉驗證,而50%和100%數(shù)據(jù)集上隨機(jī)選擇80%的數(shù)據(jù)用于訓(xùn)練,剩余20%用作測試。以平均絕對誤差MAE和均方差誤差RMSE作為評價標(biāo)準(zhǔn),結(jié)果如下:
由于圖11和圖12可以得出,數(shù)據(jù)集測試比例逐漸增大時,各算法推薦的平均絕對誤差MAE和均方差誤差RMSE隨之降低,表明算法的推薦精度在提高。在豆瓣北京數(shù)據(jù)集上,本文算法推薦的平均絕對誤差MAE和均方差誤差RMSE都低于CSIT,MIMFCF, RSNMF, ISSMF, PMF等5種傳統(tǒng)推薦算法,推薦精度明顯高于5種傳統(tǒng)推薦算法;與AODR, CA-NCF, AutoTrustRec等3種深度學(xué)習(xí)推薦模型相比,本文算法在數(shù)據(jù)集比例較低時(1%數(shù)據(jù)量),平均絕對誤差MAE和均方差誤差RMSE均低于3種深度學(xué)習(xí)推薦模型,表現(xiàn)出了優(yōu)秀的推薦效果,這是由于本文推薦算法融合用戶間信任度、用戶社會地位影響力和用戶同質(zhì)性等多權(quán)重因素,借助低秩概率矩陣分解對用戶-活動進(jìn)行了深入充分的挖掘,在有限測試數(shù)據(jù)量下一定程度上提高了推薦精度。隨著測試數(shù)據(jù)集比例的增大,3種深度學(xué)習(xí)推薦模型的推薦精度提升較快,當(dāng)以全部數(shù)據(jù)測試推薦時,AODR推薦算法的平均絕對誤差MAE與本文算法接近。
在Ciao數(shù)據(jù)集上獲得的結(jié)果與在豆瓣北京數(shù)據(jù)集上基本一致,但在以全部數(shù)據(jù)測試推薦時,AODR推薦算法的平均絕對誤差MAE和均方差誤差RMSE略低于本文推薦算法。綜上可知本文推薦算法較適用于冷啟動或數(shù)據(jù)量較小的推薦場合。
圖11 豆瓣北京數(shù)據(jù)集上各算法評價指標(biāo)
圖12 Ciao數(shù)據(jù)集上各算法評價指標(biāo)
用戶間的信任度、同質(zhì)性以及在一定范圍內(nèi)的影響力會影響其他用戶的決策。本文從社會認(rèn)知理論著手,將用戶間信任度、用戶社會地位影響力和用戶同質(zhì)性3因素融入低秩概率矩陣分解中,構(gòu)建多權(quán)重因素的低秩概率矩陣分解推薦模型。本文推薦模型不僅對一般用戶有較高的推薦精度,冷啟動用戶也取得了不錯的結(jié)果。在現(xiàn)實生活中,用戶間的信任、同質(zhì)性以及社會影響力會隨著時間變化而變化,如何隨時更新多屬性權(quán)重,融入深度學(xué)習(xí)模型中,將是文章下一步的研究重點。