摘要:隨著互聯(lián)網(wǎng)與數(shù)據(jù)處理技術(shù)的迅速發(fā)展,網(wǎng)絡(luò)信息的與日俱增,增加了用戶從網(wǎng)絡(luò)中快速獲取有用信息的難度,而個(gè)性化推薦可以根據(jù)用戶的自身屬性與歷史行為數(shù)據(jù),為其推薦可能感興趣的信息或商品,對(duì)人們?nèi)粘I町a(chǎn)生了深遠(yuǎn)影響。本文在基于證據(jù)理論的置信協(xié)同推薦算法的基礎(chǔ)上,改進(jìn)組合規(guī)則,建立改進(jìn)置信推薦模型,選取Epinions評(píng)分?jǐn)?shù)據(jù)進(jìn)行測(cè)試,并對(duì)不同改進(jìn)模型的準(zhǔn)確度進(jìn)行檢驗(yàn)。
關(guān)鍵詞:推薦系統(tǒng);證據(jù)理論:不確定評(píng)分
中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)35-0207-03
網(wǎng)絡(luò)平臺(tái)中的購(gòu)物推薦搜索引擎為用戶提供可能感興趣的商品,但海量信息存在使得搜索結(jié)果中往往會(huì)包含一些用戶不期望的冗余信息。個(gè)性化推薦在這種需求背景下應(yīng)運(yùn)而生,它為人們提供了一種全新的獲取信息模式。推薦方法是一種信息過(guò)濾系統(tǒng),用于預(yù)測(cè)用戶對(duì)物品的“評(píng)分”或“偏好”。推薦的物品包括:電影、音樂(lè)、新聞、書(shū)籍、學(xué)術(shù)論文、搜索查詢以及其他產(chǎn)品。本文基于證據(jù)理論的置信協(xié)同推薦算法,引入軟評(píng)分方法,用軟評(píng)分機(jī)制度量用戶對(duì)物品評(píng)價(jià)的不確定性,結(jié)合K鄰近算法計(jì)算用戶的近鄰用戶圈,用改進(jìn)證據(jù)組合規(guī)則將圈中用戶的商品評(píng)分進(jìn)行融合,建立改進(jìn)證據(jù)組合規(guī)則的置信協(xié)同推薦模型,最后將融合后評(píng)分高的物品推薦給目標(biāo)用戶。最后用數(shù)據(jù)Epinions驗(yàn)證改進(jìn)模型的有效性。
1 相關(guān)理論基礎(chǔ)
定義1設(shè)Θ={θ1,θ2,…θn}表示X所有可能取值的完備集合,且Θ內(nèi)的所有元素是兩兩互斥的,稱Θ為X的辨識(shí)框架。證據(jù)理論是建立在冪集2Θ={A:A∈Θ}上的。
定義2設(shè)Θ是X的辨識(shí)框架,則從集合2Θ到[0,1]的映射m為2Θ上的基本信度分配(BBA)函數(shù),如果滿足:
式中m(A)是事件A的信度分配,表示對(duì)A的信任程度。對(duì)空集中分配的基本信度代表了辨識(shí)框架的不一致性和不完整性。
定義3(D-S證據(jù)組合規(guī)則)設(shè)m1和m2是辨識(shí)框架Q下的兩個(gè)證據(jù)E1和E2相對(duì)應(yīng)的BBA,焦元為A,∈Θ,則合成規(guī)則為:
定義4(Dubois和Prade合成規(guī)則)設(shè)m1和m2是辨識(shí)框架Q下的兩個(gè)證據(jù)E1和E2相對(duì)應(yīng)的BBA,焦元分別為Ai和Bj,則合成規(guī)則為:
定義5(Smets合成規(guī)則)設(shè)m1和m2是辨識(shí)框架Q下的兩個(gè)證據(jù)E1和E2相對(duì)應(yīng)的BBA,焦元分別為A1和A2,則合成規(guī)則為:
2 基于改進(jìn)證據(jù)組合規(guī)則的置信協(xié)同推薦算法
近年來(lái),許多研究表明,在利用D-S合成規(guī)則進(jìn)行證據(jù)推理時(shí),會(huì)出現(xiàn)不符合常識(shí)的結(jié)論,直接影響推理決策的正確性和可靠性。為了更好地融合不同用戶對(duì)物品的評(píng)分,改進(jìn)合成規(guī)則,引入DP合成規(guī)則和Smets合成規(guī)則,建立改進(jìn)證據(jù)組合規(guī)則的置信協(xié)同推薦算法。其步驟如下:
1)軟評(píng)分生產(chǎn)機(jī)制:根據(jù)偏概率模型(Partial probabilitymodels)和冪集方法(Power set approach),將傳統(tǒng)“硬評(píng)分”數(shù)據(jù)轉(zhuǎn)換成“軟評(píng)分”。
2)社區(qū)挖掘:通過(guò)用戶關(guān)系網(wǎng)利用標(biāo)簽傳播算法(LPA)對(duì)用戶進(jìn)行社區(qū)分類,在各社區(qū)中分別計(jì)算用戶的相似度,利用改進(jìn)的KNN算法篩選近鄰用戶。
3)信息融合:用不同的證據(jù)組合規(guī)則將近鄰用戶的物品評(píng)分進(jìn)行融合,將融合后評(píng)分高的物品推薦給待推薦的用戶。
3 實(shí)例分析
本文選取Epinions數(shù)據(jù)集,其中包含硬評(píng)分和用戶關(guān)系兩個(gè)部分組成。在硬評(píng)分部分,評(píng)分值由低到高為1到5,步長(zhǎng)為1,每個(gè)用戶都至少評(píng)價(jià)了20個(gè)物品,并且在用戶關(guān)系網(wǎng)中,每個(gè)用戶至少認(rèn)識(shí)10位其他用戶。該測(cè)試的數(shù)據(jù)集一共有40163位用戶,評(píng)價(jià)了139738件物品,一共產(chǎn)生了664824條評(píng)分記錄。這40163位用戶的信任關(guān)系有487183層。
3.1 D-S合成規(guī)則下的推薦過(guò)程
利用標(biāo)簽傳播算法(LPA)將40163名用戶劃分為4個(gè)社團(tuán)。不同社團(tuán)的部分用戶展示在表1中。
利用D-S證據(jù)理論對(duì)各個(gè)物品的評(píng)分進(jìn)行融合,得到表2物品推薦表。
計(jì)算平均絕對(duì)誤差(DS-MAE)和混淆矩陣(DS-Recall)值評(píng)價(jià)推薦模型的準(zhǔn)確度。DS-MAE值越小說(shuō)明出錯(cuò)的概率越小,也就是測(cè)評(píng)的結(jié)果越好,準(zhǔn)確度越高。在實(shí)驗(yàn)結(jié)果中,期望較高的回收率,DS-Recall值越大時(shí),說(shuō)明準(zhǔn)確度越高。
先將數(shù)據(jù)分為10組,再分別計(jì)算出結(jié)果準(zhǔn)確度,10個(gè)測(cè)試組的平均絕對(duì)誤差(DS-MAE)的平均值為0.7748,回收率(DS-Recall)的平均值0.5335。
3.2不同合成規(guī)則下改進(jìn)推薦算法的結(jié)果對(duì)比
對(duì)證據(jù)理論的置信協(xié)同推薦模型進(jìn)行改進(jìn),引入DP合成規(guī)則和Smets合成規(guī)則,建立改進(jìn)證據(jù)組合規(guī)則的置信協(xié)同推薦模型。在模型改進(jìn)的基礎(chǔ)上分別計(jì)算不同合成規(guī)則下推薦結(jié)果準(zhǔn)確度,并與D-S組合規(guī)則結(jié)果進(jìn)行對(duì)比分析。
利用Smets合成規(guī)則得DS-MAE的平均值為0.680,DS-Recall的平均值為0.547,使用Smets合成規(guī)則以后DS-MAE減少,DS-Recall增加,這說(shuō)明整體的準(zhǔn)確度也會(huì)增高。
DP合成規(guī)則的DS-MAE的平均值為0.477,DS-Recall的平均值為0.577,使用DP合成規(guī)則以后DS-MAE明顯減少,DS-Recall增加,這說(shuō)明通過(guò)DP的合成規(guī)則,推薦的準(zhǔn)確度有了大幅度的提高。
表3展示了使用不同的合成規(guī)則以后得到的DS-MAE值和DS-Recall值,通過(guò)比較可以發(fā)現(xiàn),使用DP合成規(guī)則之后整體的準(zhǔn)確率得到提高。
4 結(jié)論
社交網(wǎng)絡(luò)的不確定性信息處理方法是推薦系統(tǒng)研究的熱點(diǎn)和難點(diǎn)。本文在證據(jù)理論框架下,引入軟評(píng)分系統(tǒng),結(jié)合了社團(tuán)識(shí)別算法和K近鄰算法,提出ECR算法,對(duì)物品進(jìn)行推薦并對(duì)數(shù)據(jù)的靈敏度進(jìn)行檢驗(yàn)。考慮到傳統(tǒng)D-S組合規(guī)則的局限性,本文引入新的合成規(guī)則和推薦算法ECR-Sm和ECR-DP來(lái)提高推薦準(zhǔn)確度。在這些算法的研究基礎(chǔ)上,對(duì)數(shù)據(jù)集Epinions進(jìn)行測(cè)試并評(píng)估測(cè)試準(zhǔn)確度,結(jié)果表明改進(jìn)的合成規(guī)則推薦模型的準(zhǔn)確率得到提高。
參考文獻(xiàn):
[1]Shafer G A.Mathematical Theory of Evidence [M]. Princeton,New Jersey: Princeton University Press,1976.
[2]Wickramarathne TL et al.CoFiDS:A belief-theoretic ap-proach for automated collaborative filtering[J]. IEEE Transac-tions on Knowledge and Data Engineering. 2011,23(2):175-189.
[3]江濤.基于DS證據(jù)理論的信息融合算、法[J].計(jì)算機(jī)科學(xué),2013(40):120-124.
[4]雷蕾,王曉丹.結(jié)合SVM與DS證據(jù)理論的信息融合分類方法[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(11):114-117.
【通聯(lián)編輯:唐一東】
收稿日期:2019-08-20
基金項(xiàng)目:陜西省教育廳專項(xiàng)科學(xué)研究計(jì)劃(19JK0330)
作者簡(jiǎn)介:馬麗娜(1986-),女,研究生學(xué)歷,西安財(cái)經(jīng)大學(xué)行知學(xué)院,講師,研究領(lǐng)域?yàn)榻y(tǒng)計(jì)數(shù)據(jù)分析。