彭慧潔
(上海工程技術(shù)大學(xué) 管理學(xué)院,上海 201620)
融合多維信息的協(xié)同過(guò)濾算法研究
彭慧潔
(上海工程技術(shù)大學(xué) 管理學(xué)院,上海 201620)
針對(duì)信息時(shí)代背景下出現(xiàn)“信息過(guò)載”現(xiàn)象,而用戶難以獲取所需要信息的問(wèn)題。在傳統(tǒng)基于用戶的協(xié)同過(guò)濾算法基礎(chǔ)上,文中考慮了用戶社交關(guān)系和用戶情境信息,分析并構(gòu)建了基于用戶的SC-UI用戶興趣模型。以期在改進(jìn)算法基礎(chǔ)上,解決數(shù)據(jù)稀疏性問(wèn)題,同時(shí)提高推薦精度。實(shí)驗(yàn)結(jié)果證明,文中提出的改進(jìn)協(xié)同過(guò)濾算法,高于傳統(tǒng)的基于用戶的協(xié)同過(guò)濾算法。
協(xié)同過(guò)濾算法;信息推薦;移動(dòng)情境;SC-UI模型;推薦精度
隨著信息技術(shù)和移動(dòng)智能設(shè)備的普及應(yīng)用,“信息過(guò)載”現(xiàn)象日益突出,用戶很難隨時(shí)隨地實(shí)時(shí)得到自己需要的信息,因此具有實(shí)時(shí)感知用戶興趣能力的推薦系統(tǒng)至關(guān)重要。推薦系統(tǒng)由用戶興趣模塊、項(xiàng)目模塊和推薦算法模塊形成的統(tǒng)一整體,其中用戶興趣模塊是確保推薦系統(tǒng)準(zhǔn)確度的核心模塊。
關(guān)于移動(dòng)信息環(huán)境下的個(gè)性化信息推薦研究,王茜等人[1]將用戶對(duì)項(xiàng)目屬性的偏好代替了用戶對(duì)項(xiàng)目的評(píng)分,借助用戶偏好數(shù)學(xué)期望預(yù)測(cè)模型,提出了以用戶對(duì)項(xiàng)目屬性為評(píng)分標(biāo)準(zhǔn)的協(xié)同過(guò)濾推薦算法。李映等人[2]通過(guò)改進(jìn)了皮爾遜相關(guān)系數(shù)的用戶相似度計(jì)算方法,融入到混合協(xié)同過(guò)濾推薦算法中,取得了較好的推薦效果。張莉等人[3]為更準(zhǔn)確刻畫用戶間相似性改進(jìn)了用戶相似度計(jì)算,提出了改進(jìn)的預(yù)測(cè)用戶評(píng)分方法。吳毅濤等人[4]借助梯形模糊評(píng)分模型計(jì)算用戶間相似度,在傳統(tǒng)的協(xié)同過(guò)濾算法的基礎(chǔ)上擴(kuò)展了對(duì)評(píng)分中模糊域的研究。高榕等人[5]對(duì)LBSN中興趣點(diǎn)個(gè)性化信息推薦進(jìn)行了研究,融入興趣點(diǎn)有關(guān)的非結(jié)構(gòu)化評(píng)論信息,提出了興趣點(diǎn)推薦GeoSoRev模型。于是,針對(duì)當(dāng)前推薦系統(tǒng)中缺少融入用戶情境信息和社交關(guān)系對(duì)用戶興趣進(jìn)行深入全面的理解,本文以緩解用戶冷啟動(dòng)問(wèn)題為出發(fā)點(diǎn),利用LBSN中用戶社交關(guān)系信息、情境信息和用戶屬性信息構(gòu)建SC-UI用戶興趣模型,并設(shè)計(jì)相關(guān)算法產(chǎn)生信息推薦。防止推薦出現(xiàn)過(guò)擬合問(wèn)題,以期提高推薦效果和準(zhǔn)確度。
隨著用戶所處環(huán)境的不同,用戶興趣的表達(dá)不斷地發(fā)生著變化。因此實(shí)時(shí)獲取用戶的狀態(tài)才能更好地了解用戶的需求,為目標(biāo)用戶推薦其喜歡的項(xiàng)目信息。本文從信息的廣度和深度對(duì)用戶所處的信息環(huán)境進(jìn)行了分析,并構(gòu)建了基于用戶的SC-UI用戶興趣模型。
1.1 基于“用戶-項(xiàng)目”興趣矩陣信息
用戶-項(xiàng)目評(píng)分矩陣的數(shù)據(jù)來(lái)源是用戶在消費(fèi)后對(duì)項(xiàng)目按照一定的結(jié)構(gòu)標(biāo)準(zhǔn)的針對(duì)性評(píng)價(jià),對(duì)某一用戶來(lái)說(shuō),評(píng)分分?jǐn)?shù)的高低表現(xiàn)為用戶的喜好程度的高低。該類信息結(jié)構(gòu)性明顯,通常情況下,是按照用戶的整體體驗(yàn)偏好程度對(duì)項(xiàng)目進(jìn)行的打分,只通過(guò)簡(jiǎn)單的分?jǐn)?shù)就可以直觀地反映出用戶的喜好,通過(guò)該類信息簡(jiǎn)單明了,但是由于用戶和項(xiàng)目巨大的數(shù)量,該類數(shù)據(jù)的稀疏性程度越來(lái)越嚴(yán)重,越來(lái)越多的項(xiàng)目評(píng)分信息空白,造成了難以把握用戶的興趣偏好,該類問(wèn)題的存在也是本文融合多維信息進(jìn)行刻畫用戶興趣的原因。用戶-項(xiàng)目評(píng)分矩陣信息表示如表1所示。
表1 用戶-項(xiàng)目評(píng)分矩陣示例
其中,“?”表示評(píng)分缺失值。根據(jù)用戶和項(xiàng)目數(shù)量形成m×n評(píng)分矩陣,每一行代表某一用戶對(duì)所有項(xiàng)目的評(píng)分,每一列代表每一項(xiàng)目中所有用戶的評(píng)分;rnm表示m第n個(gè)項(xiàng)目在所用用戶m中的評(píng)分均值;rnm表示第m個(gè)用對(duì)所有項(xiàng)目n的評(píng)分均值。
1.2 基于信息結(jié)構(gòu)的異構(gòu)化特點(diǎn)
信息數(shù)據(jù)內(nèi)容信息日益豐富的同時(shí),其結(jié)構(gòu)正在向異構(gòu)化方向發(fā)展。隨著移動(dòng)設(shè)備及相關(guān)技術(shù)的發(fā)展,相比傳統(tǒng)環(huán)境用戶發(fā)布的信息更為復(fù)雜,主要體現(xiàn)在信息內(nèi)容的復(fù)雜化和信息結(jié)構(gòu)的復(fù)雜化。各式各樣的信息類型,使得用戶在選擇自己喜歡的信息內(nèi)容的同時(shí),開(kāi)始逐漸關(guān)心信息的載體,有結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)。通過(guò)判斷用戶對(duì)不同結(jié)構(gòu)信息的偏好,為其推送不僅符合其內(nèi)容偏好的信息,而且為其推送符合閱讀習(xí)慣的信息形式。根據(jù)用戶隱式瀏覽信息的歷史記錄,得到不同用戶對(duì)信息結(jié)構(gòu)的偏好,通過(guò)分析異構(gòu)化信息對(duì)用戶和信息推薦的影響,可以提高異構(gòu)信息資源利用率,提高信息的推薦精度。非結(jié)構(gòu)化信息、半結(jié)構(gòu)化信息和結(jié)構(gòu)化信息之間存在一定的聯(lián)系,不同信息類型是關(guān)于同一主題內(nèi)容,只是以不同的形式展現(xiàn)。針對(duì)用戶 對(duì)異構(gòu)化信息形式的喜好種類以數(shù)學(xué)模型進(jìn)行建模如下
(1)
其中,Pu為用戶u對(duì)不同結(jié)構(gòu)信息的偏好;i為用戶瀏覽的信息。
1.3 基于人口統(tǒng)計(jì)特征用戶屬性信息
基于用戶人口統(tǒng)計(jì)特征信息是具有明顯結(jié)構(gòu)化的描述性信息,該類信息資料詳細(xì),通常情況下,在用戶初始注冊(cè)賬號(hào)時(shí)會(huì)按照提示信息填寫個(gè)人信息,該部分含有大量的隱含信息,如用戶所在的地理位置,年齡大小以及學(xué)歷信息等,這些統(tǒng)計(jì)信息可以在一定程度上將用戶劃分為不同的類別,如對(duì)于碩士學(xué)歷的用戶的消費(fèi)觀念和關(guān)注的信息內(nèi)容,不同于學(xué)歷為小學(xué)或初中的用戶,同時(shí)具有類似統(tǒng)計(jì)信息的用戶很可能具有類似的信息偏好。于是,用戶的描述性的個(gè)人信息對(duì)信息的個(gè)性化推薦起到很好的指引和過(guò)濾的作用。本文將該類信息統(tǒng)一形式表示為(userID,year-of-birth,gender,post,education,tags)。
1.4 基于用戶情境信息的興趣分析
基于移動(dòng)設(shè)備和定位技術(shù)的發(fā)展,來(lái)源于用戶的信息具有移動(dòng)性、即時(shí)性和多樣性。如何在推薦過(guò)程中有效地融入用戶情境信息,提高推薦精度。該部分對(duì)用戶情境進(jìn)行建模分析,以期降低數(shù)據(jù)稀疏性問(wèn)題的同時(shí),滿足用戶在移動(dòng)環(huán)境下的個(gè)性化信息需求,如用戶在查詢消費(fèi)地點(diǎn)位置時(shí),更傾向于選擇距離自己近的位置;用戶急于處理事務(wù),需要在短時(shí)間內(nèi)到達(dá)某一地點(diǎn),更傾向于選擇最為快捷時(shí)間最短的交通方式;若是用戶為了游玩,則更傾向于選擇沿途風(fēng)景優(yōu)美的交通方式。因此,同一用戶會(huì)在不同的情景狀態(tài)下產(chǎn)生不同的信息需求,了解并把握用戶所在的狀態(tài),在用戶固定興趣的基礎(chǔ)上融入基于情境的動(dòng)態(tài)因素,可以更精確地推薦信息。由于用戶情境信息復(fù)雜,包含著多維度情境,不同維度的情境可能對(duì)用戶在信息選擇時(shí)有效,有的可能并沒(méi)有作用[6]。將包含用戶多維情境信息集合C(Context)表示如下
C=
(2)
其中,cn代表用戶不同維度的情境。如某一用戶的情境信息示例如下C=
1.5 融合社交關(guān)系的用戶興趣分析
基于社交關(guān)系網(wǎng)絡(luò)信息的興趣分析主要用于發(fā)現(xiàn)鄰居用戶。源于“人以群分,物以類聚”的特點(diǎn),存在好友關(guān)系的用戶之間必定有類似的興趣偏好,本文通過(guò)Foursquare服務(wù)平臺(tái)中的追隨者(Followers)關(guān)系,用戶通過(guò)添加附近通訊錄、Facebook和Twitter等社交平臺(tái)的好友關(guān)系,將基于社交網(wǎng)絡(luò)關(guān)系的好友關(guān)系融入到基于位置服務(wù)的服務(wù)平臺(tái)中。通過(guò)添加好友可以查看追隨者的建議、評(píng)分和用戶個(gè)人飲食偏好,然后該用戶可以根據(jù)追隨者的建議和歷史消費(fèi)評(píng)價(jià),選擇消費(fèi)地點(diǎn)及相關(guān)的信息。此外,F(xiàn)oursquare服務(wù)平臺(tái)還可以添加喜歡的口味(Tastes),然后該系統(tǒng)就會(huì)將與該口味相關(guān)的的信息推送到用戶的界面。由于項(xiàng)目共同特征詞形成的相關(guān)關(guān)系網(wǎng)絡(luò),如口味相同的菜品之間的關(guān)系。若將所有菜品以口味劃分,則所有菜品可以表示為:T=(Taste1,Taste2,…,TasteN),每一口味(Taste)代表具有該特征的一系列菜品。在稀疏的數(shù)據(jù)中,根據(jù)用戶信息中的 標(biāo)簽篩選一系列相關(guān)的菜品直接進(jìn)行推薦。但是,在通過(guò)標(biāo)簽篩選菜品時(shí),如口味是辣,系統(tǒng)是不可能把所有的含辣的菜品推薦給用戶,而是需要通過(guò)從父類別到子類別上下遞推。
鑒于以上對(duì)用戶信息環(huán)境的分析,通過(guò)融合用戶相關(guān)的不同信息,將融合后的多維信息設(shè)計(jì)推薦算法,根據(jù)不同的用戶信息資源,比較用戶之間的相似度,找到目標(biāo)用戶的相鄰用戶,根據(jù)相鄰用戶的興趣判斷目標(biāo)用戶的興趣偏好的信息推薦模式[7]。
圖1 基于用戶協(xié)同過(guò)濾模式預(yù)測(cè)用戶評(píng)分示例
本文改進(jìn)的用戶協(xié)同過(guò)濾模式在歷史評(píng)分?jǐn)?shù)據(jù)的基礎(chǔ)上,通過(guò)線性融合用戶社交關(guān)系信息相似度sims(u,v),用戶情境相似度simC(u,v),用戶屬性相似度simU(u,v),項(xiàng)目屬性相似度戶情境simI(u,v)
sim(u,v)=αsims+βsimC+φsimU+εsimI
(3)
其中,α,β,φ,ε分別根據(jù)各分支相似度的權(quán)重賦予大小不同的數(shù)值,α,β,φ,ε∈(0,1),α+β+φ+ε=1。根據(jù)前面用戶興趣建模分析,得到用戶間屬性相似度、社交關(guān)系緊密度和用戶情境相似度,根據(jù)在計(jì)算過(guò)程中各信息的在所有信息的所占比重,確定權(quán)重值。從而得到用戶間的相似度。構(gòu)造有效的鄰居集合是推薦質(zhì)量的關(guān)鍵,本文就一用戶生成的信息環(huán)境確定基于不同信息標(biāo)準(zhǔn)構(gòu)建相鄰用戶集合,確定未知的“用戶-項(xiàng)目”評(píng)分。以Foursquare中用戶所在的信息環(huán)境為例設(shè)計(jì)改進(jìn)算法為:
算法 改進(jìn)的用戶協(xié)同過(guò)濾算法簡(jiǎn)化。
輸入 用戶需要預(yù)測(cè)評(píng)分的LBSN用戶信息。
輸出 用戶對(duì)項(xiàng)目評(píng)分的缺失值。
(1)確定該用戶是否存在Followers,若存在,信息抽取其相鄰用戶的對(duì)項(xiàng)目的評(píng)分的均值作為該用戶的評(píng)分,算法結(jié)束。否則,進(jìn)入下一步;
(2)判斷用戶類別,若為初始用戶,對(duì)用戶屬性信息進(jìn)行數(shù)據(jù)預(yù)處理,并系統(tǒng)識(shí)別或者信息抽取該用戶的情境信息,將用戶屬性與情境信息相結(jié)合,得到目標(biāo)項(xiàng)目信息;
(3)該用戶若為模式用戶,通過(guò)該用戶的歷史評(píng)分?jǐn)?shù)據(jù)與該系統(tǒng)中所有其他用戶的評(píng)分?jǐn)?shù)據(jù)比較,得到TOP-K相似用戶(相鄰用戶),將相鄰用戶項(xiàng)目的評(píng)分情況綜合分析作為該用戶對(duì)項(xiàng)目的預(yù)測(cè)評(píng)分;
(4)根據(jù)預(yù)測(cè)評(píng)分高低生成推薦主題和用戶對(duì)信息結(jié)構(gòu)化信息偏好類型Pu,生成推薦列表。
考慮社交關(guān)系和情境信息的預(yù)測(cè)模型,是將各種信息整合在一起的啟發(fā)式計(jì)算,即Rating=R(Social,Context,User,Item),其其對(duì)預(yù)測(cè)評(píng)分的影響作用在用戶相似度計(jì)算中 。由該算法得出,主要有三部流程構(gòu)成。其中,通過(guò)不同方式尋找到目標(biāo)用戶的相鄰用戶集后,得到目標(biāo)用戶的相鄰用戶,然后根據(jù)近鄰用戶的已知評(píng)分預(yù)測(cè)目標(biāo)用戶的項(xiàng)目評(píng)分,基于用戶的評(píng)分預(yù)測(cè)計(jì)算公式[8]
(4)
本文采用情境信息豐富的LBSN典型代表Foursquare信息環(huán)境,數(shù)據(jù)集中的用戶信息、評(píng)論信息、地位位置、社交關(guān)系可以有效地驗(yàn)證該算法的準(zhǔn)確度。借助均方根誤差(RMSE)計(jì)算并比較推薦精度,計(jì)算公式[9]為
(5)
傳統(tǒng)基于用戶的協(xié)同過(guò)濾算法與本文改進(jìn)的SC-UI協(xié)同過(guò)濾算法實(shí)證比較,結(jié)果如表2所示。
表2 傳統(tǒng)算法與改進(jìn)算法結(jié)果對(duì)比
RMSE值越小,推薦精度越高。通過(guò)表2數(shù)據(jù)可得,改進(jìn)后的推薦算法由于傳統(tǒng)的推薦算法。
本文提出了基于用戶的改進(jìn)協(xié)同過(guò)濾算法,考慮了多維度信息對(duì)用戶興趣的影響,并基于不同信息特點(diǎn)構(gòu)建興趣模型,改進(jìn)的算法很好地解決了協(xié)同過(guò)濾算法中用戶冷啟動(dòng)問(wèn)題,但是未對(duì)項(xiàng)目屬性特征深入了解,對(duì)于項(xiàng)目冷啟動(dòng)問(wèn)題尚需進(jìn)一步研究與討論。在個(gè)性化推薦領(lǐng)域中,移動(dòng)情境信息對(duì)用戶偏好的影響研究剛剛起步,并在不斷的探索中。
[1] 王茜,楊莉云,楊德禮.面向用戶偏好的屬性值評(píng)分分布協(xié)同過(guò)濾算法[J].系統(tǒng)工程學(xué)報(bào),2010,25(4):561-568.
[2] 李映,李玉龍,王陽(yáng)萍.一種改進(jìn)的混合協(xié)同過(guò)濾推薦算法[J].電子科技,2016,29(4):45-48.
[3] 張莉,秦桃,滕丕強(qiáng).一種改進(jìn)的基于用戶聚類的協(xié)同過(guò)濾算法[J].情報(bào)科學(xué),2014,32(10):24-27,32.
[4] 吳毅濤,張興明,王興茂,等.基于用戶模糊相似度的協(xié)同過(guò)濾算法[J].通信學(xué)報(bào),2016,37(1):198-206.
[5] 高榕,李晶,杜博,等.一種融合情景和評(píng)論信息的位置社交網(wǎng)絡(luò)興趣點(diǎn)推薦模型[J].計(jì)算機(jī)研究與發(fā)展,2016,53(4):752-763.
[6] 喬磊.基于多維情境的移動(dòng)信息服務(wù)個(gè)性化推薦算法研究[D].北京:北京交通大學(xué),2016.
[7] 王明佳,韓景倜,韓松喬.基于模糊聚類的協(xié)同過(guò)濾算法[J].計(jì)算機(jī)工程,2012,38(24):50-52.
[8] 曾子明,李鑫.移動(dòng)環(huán)境下基于情境感知的個(gè)性化信息推薦[J].情報(bào)雜志,2012,31(8):166-170.
[9] 李貴,陳盛紅,韓子陽(yáng),等.基于協(xié)同過(guò)濾的位置感知推薦[J].計(jì)算機(jī)科學(xué),2014,41(11A):340-346.
The Research on Collaborative Filtering Algorithm of Multi-dimensional Information
PENG Huijie
(School of Management,Shanghai University of Engineering Science, Shanghai 201620,China)
This paper is under the background of information age appear "information overload" phenomenon and solves the problem that the user is difficult to get needed information. Based on the traditional collaborative filtering algorithm, this paper analyes and builds the SC-UI model based on the users’ interest considering the users’ social relationship and situation .This paper is to solve the data sparseness and improve the recommendation accuracy on the basis of improved model. The experimental results show that the proposed improved collaborative filtering algorithm get higher scores than the traditional collaborative filtering algorithm.
collaborative filtering algorithms; information recommendation; mobile situation; SC-UI model; recommend precision
2016- 10- 05
彭慧潔(1989-),女,碩士研究生。研究方向:數(shù)據(jù)挖掘,信息推薦。
10.16180/j.cnki.issn1007-7820.2017.02.011
TP391
A
1007-7820(2017)02-042-04