• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      Twitter社交網(wǎng)絡(luò)用戶(hù)行為理解及個(gè)性化服務(wù)推薦算法研究

      2020-07-18 04:13:06于亞新張宏宇
      關(guān)鍵詞:耦合矩陣區(qū)域

      于亞新 劉 夢(mèng) 張宏宇

      (東北大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 沈陽(yáng) 110169)(醫(yī)學(xué)影像智能計(jì)算教育部重點(diǎn)實(shí)驗(yàn)室(東北大學(xué)) 沈陽(yáng) 110169)

      隨著互聯(lián)網(wǎng)的快速發(fā)展,社交網(wǎng)成為了人們生活中不可或缺的工具,同時(shí),無(wú)線(xiàn)通信與位置采集技術(shù)使得社交網(wǎng)的發(fā)展更為全面.例如Twitter、微博等,用戶(hù)不僅可以發(fā)表tweets、微博等來(lái)分享他們的觀點(diǎn)、日常生活,還可以在興趣點(diǎn)(如娛樂(lè)場(chǎng)所、餐廳、商場(chǎng)等)發(fā)表帶有地理位置的狀態(tài),展示具體的活動(dòng).這些信息不僅真實(shí)展現(xiàn)了人們的生活,也從側(cè)面反映了他們的興趣習(xí)慣以及生活需求.如何利用社交網(wǎng)的用戶(hù)數(shù)據(jù)發(fā)現(xiàn)用戶(hù)行為規(guī)律,同時(shí)根據(jù)用戶(hù)行為理解用戶(hù)需求從而為用戶(hù)推薦滿(mǎn)足需求的服務(wù)地點(diǎn),已成為當(dāng)前的研究熱點(diǎn)之一.

      由于用戶(hù)發(fā)布的信息大多帶有時(shí)間戳、地理位置、文本等信息,導(dǎo)致了“4W”的信息布局,即某個(gè)用戶(hù)(who)在某個(gè)時(shí)間(when)、某個(gè)地點(diǎn)(where)產(chǎn)生了某種行為(what),對(duì)應(yīng)4個(gè)不同層次的信息[1].這些信息反映了用戶(hù)的行為模式和需求.基于用戶(hù)需求為用戶(hù)進(jìn)行個(gè)性化的服務(wù)推薦,這方面的研究還較少.

      目前社交網(wǎng)個(gè)性化推薦面臨著一些新的挑戰(zhàn).

      1) 短文本下主題難于捕捉.社交網(wǎng)數(shù)據(jù)由于文本長(zhǎng)度短、關(guān)鍵特征非常稀疏,導(dǎo)致主題挖掘困難.傳統(tǒng)的主題挖掘方法直接應(yīng)用到短文本上效果不佳.

      2) 地理位置過(guò)于稀疏.一方面用戶(hù)發(fā)布的帶有地理位置的文本數(shù)據(jù)較少;另一方面1條文本僅帶有1個(gè)地理位置,導(dǎo)致用戶(hù)地理位置數(shù)據(jù)稀疏,造成了用戶(hù)活動(dòng)區(qū)域挖掘困難.

      3) 行為要素間依賴(lài)關(guān)系缺少融合.用戶(hù)的行為要素包括活動(dòng)時(shí)間、內(nèi)容和區(qū)域,不同用戶(hù)在不同時(shí)間段有不同的活動(dòng)區(qū)域和內(nèi)容,四者間存在依賴(lài)關(guān)系.缺少對(duì)依賴(lài)關(guān)系的融合將導(dǎo)致用戶(hù)行為理解的片面性.

      4) 服務(wù)地點(diǎn)屬性間的耦合性考慮不足.傳統(tǒng)推薦算法假設(shè)地點(diǎn)屬性間、地點(diǎn)屬性?xún)?nèi)部不存在相互影響關(guān)系,屬性值服從獨(dú)立同分布.但實(shí)際上屬性間、屬性?xún)?nèi)部存在相互影響的關(guān)系,是非獨(dú)立同分布的.對(duì)屬性間耦合性的忽略導(dǎo)致了推薦結(jié)果不準(zhǔn)確.

      基于上述問(wèn)題,本文重點(diǎn)研究社交網(wǎng)用戶(hù)行為理解并完成了服務(wù)地點(diǎn)的推薦,主要貢獻(xiàn)有4個(gè)方面:

      1) 利用社交網(wǎng)目標(biāo)用戶(hù)的文本時(shí)間戳、內(nèi)容,提出了用戶(hù)-時(shí)間-活動(dòng)模型(user-time-activity model, UTAM),挖掘用戶(hù)活動(dòng)時(shí)間和內(nèi)容,解決了短文本下主題難于捕捉的問(wèn)題;利用目標(biāo)用戶(hù)的文本時(shí)間戳、地理標(biāo)簽提出了用戶(hù)-時(shí)間-區(qū)域模型(user-time-region model, UTRM),挖掘用戶(hù)活動(dòng)時(shí)間和區(qū)域,解決了地理位置過(guò)于稀疏導(dǎo)致的活動(dòng)區(qū)域難以挖掘的問(wèn)題.

      2) 利用社交網(wǎng)中大眾數(shù)據(jù)的文本內(nèi)容和簽到服務(wù)地點(diǎn),提出了挖掘活動(dòng)和服務(wù)對(duì)應(yīng)關(guān)系的ASTM.

      3) 將用戶(hù)的活動(dòng)區(qū)域與服務(wù)地點(diǎn)間的距離以及地點(diǎn)屬性間的耦合性融合到矩陣分解中,提出了基于耦合和距離的矩陣分解(matrix factorization based on couple & distance, MFCD),旨在實(shí)現(xiàn)精準(zhǔn)個(gè)性化服務(wù)場(chǎng)所推薦.

      4) 使用真實(shí)的tweets數(shù)據(jù)集進(jìn)行大量的實(shí)驗(yàn)評(píng)估推薦效果,實(shí)驗(yàn)表明優(yōu)于傳統(tǒng)推薦算法.

      1 相關(guān)工作

      社交網(wǎng)用戶(hù)行為理解是當(dāng)前研究熱點(diǎn)之一,大量關(guān)于行為理解的模型和方法被提出.通常社交網(wǎng)用戶(hù)行為理解包括4個(gè)方面:用戶(hù)、活動(dòng)時(shí)間、活動(dòng)區(qū)域和活動(dòng)內(nèi)容.

      基于文本語(yǔ)義(活動(dòng)內(nèi)容)和基于位置(活動(dòng)區(qū)域)等是研究用戶(hù)行為理解的主要手段.基于語(yǔ)義的用戶(hù)行為理解主要是通過(guò)對(duì)用戶(hù)的文本信息進(jìn)行研究,從文本中提取出用戶(hù)的行為;基于位置的用戶(hù)行為理解主要是根據(jù)用戶(hù)的位置信息,將位置軌跡相似的用戶(hù)聚成一簇.然而,由于用戶(hù)的信息中有用的信息相比于龐大的數(shù)據(jù)量過(guò)于稀疏,并且僅僅針對(duì)于上述的方法來(lái)對(duì)用戶(hù)行為進(jìn)行分析會(huì)有很大的片面性,使得這些方法在對(duì)用戶(hù)進(jìn)行行為理解的效果難以有更好的突破.

      文獻(xiàn)[2-3]僅利用時(shí)間和地理位置2個(gè)方面,研究社交網(wǎng)用戶(hù)移動(dòng)性和時(shí)間的關(guān)系;文獻(xiàn)[4-5]考慮了用戶(hù)、位置、內(nèi)容3個(gè)方面,文獻(xiàn)[4]基于LDA(latent Dirichlet allocation),提出了1個(gè)考慮位置坐標(biāo)和語(yǔ)義信息的模型,假設(shè)每一個(gè)文檔的內(nèi)容主題和活動(dòng)區(qū)域分別基于全局的和用戶(hù)特定的主題、區(qū)域分布進(jìn)行抽??;文獻(xiàn)[6]提出了基于CRF(Chinese restaurant franchise)的模型研究用戶(hù)的活動(dòng)區(qū)域;文獻(xiàn)[7]從4個(gè)方面進(jìn)行用戶(hù)行為理解,但是沒(méi)有考慮到短文本、地理位置稀疏等對(duì)模型帶來(lái)的影響.

      目前,在用戶(hù)行為理解后進(jìn)行服務(wù)等推薦的研究較少.個(gè)性化推薦方法主要有基于內(nèi)容推薦、基于協(xié)同過(guò)濾推薦、基于隱語(yǔ)義推薦、基于關(guān)聯(lián)規(guī)則推薦、基于效用推薦、基于知識(shí)推薦和組合推薦.

      2 問(wèn)題定義

      表1給出了本文使用的符號(hào)列表和描述.

      1) 非獨(dú)立同分布.在概率論中,非獨(dú)立同分布指隨機(jī)過(guò)程中,隨機(jī)變量X1和X2服從同一分布,但X1的取值會(huì)影響X2的取值,同樣X(jué)2的取值也會(huì)影響X1的取值.這種變量取值間互相影響的關(guān)系稱(chēng)為耦合性.圖1描述了推薦系統(tǒng)中用戶(hù)、項(xiàng)目屬性間的耦合關(guān)系.其中,I代表項(xiàng)目集合,A代表屬性集合,Z代表項(xiàng)目的屬性值集合.在一個(gè)屬性Aj內(nèi)部,不同的屬性值Zlj和Zkj存在依賴(lài)關(guān)系,同時(shí)屬性Ai的屬性值Zli也受另外的屬性Aj的屬性值影響[8].

      2)LDA主題模型.LDA是一種文檔主題生成模型,由參數(shù)α和β確定,α反映了文檔集合中隱含主題間的相對(duì)強(qiáng)弱,β刻畫(huà)所有隱含主題自身的概率分布.圖2給出了LDA模型的生成過(guò)程[9].其中θm表示文檔主題的概率分布,φk表示特定主題下特征詞的概率分布.wm,n代表第m篇文檔中的第n個(gè)詞語(yǔ),Zm,n代表wm,n所屬的主題.

      Table 1 Symbol List表1 符號(hào)列表

      Fig. 1 Attributes coupling of items圖1 項(xiàng)目屬性耦合關(guān)系

      Fig. 2 Structure of LDA圖2 LDA結(jié)構(gòu)圖

      定義1.推薦地點(diǎn)屬性空間.F=I,H,Z表示推薦地點(diǎn)的屬性空間.其中I={I1,I2,…,Io}是推薦地點(diǎn)集合,H={H1,H2,…,Ho}是地點(diǎn)的非空屬性集合,Z表示所有服務(wù)地點(diǎn)的屬性值集合,Zi,j表示地點(diǎn)i在屬性j上的值.

      (1)

      其中,|gj(x)={oi|Zi,j=x,1≤j≤M,1≤i≤N}|是屬性Hj對(duì)應(yīng)屬性值為x的所有服務(wù)的個(gè)數(shù).

      定義3.屬性耦合相似度ECLS.表示2個(gè)服務(wù)地點(diǎn)在某個(gè)屬性下的耦合相似度(coupled location similarity, CLS),即在某個(gè)屬性所有取值下的屬性?xún)?nèi)耦合相似度:

      (2)

      問(wèn)題1.行為理解.給定用戶(hù)U發(fā)布的tweets集合D,得到用戶(hù)的4W行為模式(u,s,z,r),表示用戶(hù)u在時(shí)間段s的活動(dòng)內(nèi)容集合和活動(dòng)區(qū)域集合.

      問(wèn)題2.個(gè)性化服務(wù)地點(diǎn)推薦.給定用戶(hù)行為模式(u,s,z,r)、服務(wù)場(chǎng)所集合Pl、為用戶(hù)推薦滿(mǎn)足其興趣的場(chǎng)所列表c.

      3 用戶(hù)行為理解模型

      利用攜帶時(shí)間戳、地理位置的短文本數(shù)據(jù),能夠挖掘出用戶(hù)的行為模式[1],即用戶(hù)在某個(gè)時(shí)間段的活動(dòng)內(nèi)容和區(qū)域.該模式存在一定規(guī)律:1) 活動(dòng)位置具有相對(duì)聚簇性[10].2)活動(dòng)區(qū)域和內(nèi)容具有時(shí)效性.比如圖3揭示了某個(gè)用戶(hù)訪問(wèn)過(guò)的位置具有相對(duì)聚簇性,圖4則揭示了某個(gè)用戶(hù)訪問(wèn)過(guò)的區(qū)域具有時(shí)效性.在圖3中,白色的點(diǎn)表示用戶(hù)在工作日訪問(wèn)過(guò)的位置,黑色的點(diǎn)表示用戶(hù)周末訪問(wèn)過(guò)的位置,通過(guò)圖3中的聚簇性可以發(fā)現(xiàn)該用戶(hù)在不同時(shí)間段有頻繁訪問(wèn)的活動(dòng)區(qū)域.在圖4中,工作日被劃分成3個(gè)時(shí)間段,可以看出該用戶(hù)在工作日的不同時(shí)段,訪問(wèn)過(guò)的活動(dòng)區(qū)域不同,因此時(shí)間對(duì)用戶(hù)活動(dòng)區(qū)域確有一定影響.

      Fig. 3 Visited locations of a user圖3 某用戶(hù)訪問(wèn)過(guò)的位置

      Fig. 4 Visited time of locations in weekdays圖4 某用戶(hù)在工作日訪問(wèn)過(guò)的位置

      根據(jù)上述分析,用戶(hù)、時(shí)間、行為、地理位置4個(gè)方面存在依賴(lài)關(guān)系,為此,本文提出了2種行為理解模型:1)用戶(hù)-時(shí)間-活動(dòng)模型(user-time-activity model, UTAM);2)用戶(hù)-時(shí)間-區(qū)域模型(user-time-region model, UTRM).前者理解用戶(hù)的活動(dòng)內(nèi)容,后者主要理解用戶(hù)的活動(dòng)區(qū)域.下面,分別對(duì)這2個(gè)模型加以詳細(xì)闡述.

      3.1 用戶(hù)時(shí)間活動(dòng)模型UTAM

      3.1.1 UTAM結(jié)構(gòu)

      用戶(hù)活動(dòng)內(nèi)容與時(shí)間存在依賴(lài)關(guān)系.例如一個(gè)上班族周末可能會(huì)有更多的娛樂(lè)活動(dòng),看電影逛街等,而工作日更多的是與工作相關(guān)的行為如中午購(gòu)買(mǎi)咖啡.所以,將用戶(hù)活動(dòng)時(shí)間分成4類(lèi):T1(周末),T2(工作日06:00—12:00),T3(工作日12:00—18:00)和T4(工作日18:00—06:00).針對(duì)目標(biāo)用戶(hù)數(shù)據(jù)集D,將相同用戶(hù)在相同時(shí)間段發(fā)布的tweets放到同一個(gè)文檔Du,t中.

      LDA主題模型適合處理長(zhǎng)文本,由于Du,t的長(zhǎng)度較短,傳統(tǒng)LDA不再適用,因此本文對(duì)此進(jìn)行改進(jìn),對(duì)于Du,t中的每1條tweet采樣自同一個(gè)主題,提出了UTAM行為理解模型,該模型的Du,t服從Dirchlet分布、其主題服從Multi分布,圖5給出了UATM的結(jié)構(gòu)圖.其中,v是已知詞條,表示u在時(shí)間段t發(fā)布的第i條文本中的第n個(gè)詞語(yǔ);Zu,t,j表示用戶(hù)u在時(shí)間段t的第j個(gè)主題;φm,θu,t分別表示潛在主題m的詞語(yǔ)分布和u在時(shí)間段t的主題分布.通過(guò)φm可以計(jì)算出u在Du,t中各個(gè)潛在主題的概率,通過(guò)θu,t可以計(jì)算出v在主題m下出現(xiàn)的概率.

      Fig. 5 The graphical model of UTAM圖5 用戶(hù)-時(shí)間-活動(dòng)模型結(jié)構(gòu)圖

      3.1.2 參數(shù)估計(jì)

      給定Du,s,并根據(jù)經(jīng)驗(yàn)設(shè)定Dirchlet分布、Multi分布的先驗(yàn)參數(shù)α和β,則根據(jù)Gibbs采樣[11]可以計(jì)算出變Z,φ,θ:

      (3)

      (4)

      3.2 用戶(hù)時(shí)間區(qū)域模型(UTRM)

      3.2.1 UTRM結(jié)構(gòu)

      用戶(hù)活動(dòng)區(qū)域與時(shí)間存在依賴(lài)關(guān)系.與UTAM對(duì)時(shí)間處理的方式相同,將時(shí)間劃分成4類(lèi),將用戶(hù)u在時(shí)間段t訪問(wèn)過(guò)的地理位置放到同一個(gè)Gu,t中.由于tweets中地理位置信息相對(duì)比較稀疏,因此Gu,t短文本特性更加明顯,不適合使用傳統(tǒng)主題模型解決,因此本文提出了基于位置對(duì)組合的用戶(hù)-時(shí)間-區(qū)域模型UTRM.

      文獻(xiàn)[12]提出詞對(duì)主題模型(biterm topic model, BTM)用于文本單詞的主題挖掘,本文借鑒該模型對(duì)地理位置進(jìn)行處理.UTRM的結(jié)構(gòu)如圖6所示,該模型是3層結(jié)構(gòu),分別對(duì)應(yīng)位置對(duì)、區(qū)域和位置,位置對(duì)-區(qū)域假設(shè)為Dirichlet分布,區(qū)域-位置假設(shè)為Multi分布.生成位置對(duì)的過(guò)程是將Gu,t中無(wú)序的2個(gè)位置作為一個(gè)共現(xiàn)位置對(duì),|L|個(gè)位置共生成|LB|個(gè)共現(xiàn)位置對(duì).li,lj是位置對(duì)中的2個(gè)不同位置,?是所有位置對(duì)共享的區(qū)域分布,φ是每個(gè)區(qū)域?qū)?yīng)的位置分布,另外γ和λ都是Dirichlet先驗(yàn)分布的超參數(shù).

      Fig. 6 The graphical model of UTRM圖6 用戶(hù)-時(shí)間-區(qū)域模型結(jié)構(gòu)圖

      UTRM模型生成位置對(duì)的過(guò)程:

      1) 選擇?~Dir(λ);

      2) 對(duì)于每一個(gè)區(qū)域r∈R:選擇φr~Dir(γ);

      3) 對(duì)于每一個(gè)位置對(duì)l=(li,lj)∈LB:

      ① 選擇1個(gè)區(qū)域r~Multi(θ);

      ② 選擇2個(gè)位置li,lj~Multi(φr).

      UTRM模型生成語(yǔ)料庫(kù)中位置對(duì)的過(guò)程如上所示.對(duì)于位置對(duì)集合Lb中的每一個(gè)位置對(duì)l=(li,lj),先從整個(gè)位置對(duì)集合共享的?中抽取1個(gè)區(qū)域r,r~Multi(θ),然后從區(qū)域r下抽取2個(gè)位置li,lj,即li,lj~Multi(φr).

      由于該模型是對(duì)整個(gè)語(yǔ)料庫(kù)進(jìn)行建模,所以不能直接得出Gu,t的區(qū)域概率分布.為了推理出該分布,假設(shè)Gu,t的區(qū)域概率分布等于從該文檔中生成位置對(duì)的區(qū)域概率的期望值.其中p(r|b,d)表示位置對(duì)b采樣自主題r的概率.

      (5)

      3.2.2 UTRM參數(shù)估計(jì)

      給定Gu,t,根據(jù)經(jīng)驗(yàn)設(shè)定Dirchlet分布的先驗(yàn)參數(shù)λ和γ,根據(jù)Gibbs采樣推斷隱含變量?和φ:

      (6)

      根據(jù)區(qū)域下位置對(duì)出現(xiàn)的次數(shù),可以估計(jì)出區(qū)域-位置的分布和語(yǔ)料庫(kù)的區(qū)域分布:

      (7)

      (8)

      從大眾文本挖掘出來(lái)的活動(dòng)內(nèi)容能夠反映出大眾的興趣、需求,從而影響了服務(wù)的選擇[13].所以大眾活動(dòng)與服務(wù)間存在對(duì)應(yīng)關(guān)系,且這種對(duì)應(yīng)關(guān)系具有客觀性[14].如活動(dòng)是吃飯,與之對(duì)應(yīng)的服務(wù)是餐館而不是商場(chǎng),那么推薦的服務(wù)地點(diǎn)應(yīng)是具體的餐館.通過(guò)分析大眾tweets文本及簽到地點(diǎn)數(shù)據(jù),能夠挖掘出這種對(duì)應(yīng)關(guān)系[14].

      大眾發(fā)布的tweets詞語(yǔ)能組成語(yǔ)義相關(guān)的活動(dòng),服務(wù)能組成功能相關(guān)的主題.為了得到活動(dòng)和服務(wù)地點(diǎn)間的對(duì)應(yīng)關(guān)系,本文提出了活動(dòng)-服務(wù)主題模型(activity-to-service topic model, ASTM).

      4.1 ASTM結(jié)構(gòu)

      ASTM生成大眾文本、地點(diǎn)的過(guò)程:

      對(duì)于集合Pu中的每一個(gè)用戶(hù)u:

      1) 選擇ψu(yù)~Dir(ξ).

      2) 對(duì)于Pd中的每一個(gè)詞w,選擇活動(dòng)x~Mul(ψu(yù)),選擇詞分布χx~Dir(μ),選擇詞語(yǔ)w~Mul(χx).

      3) 對(duì)于Pg中的每一個(gè)服務(wù)地點(diǎn)c,選擇活動(dòng)y~Mul(ψu(yù)),選擇活動(dòng)-主題分布πy~Dir(μ),選擇主題e~Mul(πy),選擇服務(wù)地點(diǎn)分布δe~Dir(ε),選擇服務(wù)地點(diǎn)c~Mul(δe).

      Fig. 7 The graphical model of ASTM圖7 活動(dòng)服務(wù)主題模型結(jié)構(gòu)圖

      對(duì)大眾Pu發(fā)布的tweets數(shù)據(jù)集,將大眾u發(fā)布的所有tweets放到文檔Pd中,所有簽到地點(diǎn)c放到Pg中.ASTM結(jié)構(gòu)圖如圖7所示.假設(shè)文檔Pd的活動(dòng)服從Dirchlet分布,活動(dòng)x的詞服從Dirchlet分布,主題z的服務(wù)服從Dirchlet分布.其中,w是Pd中已知詞條,c是Pg中已知服務(wù)地點(diǎn),ψu(yù)表示Pd的活動(dòng)分布,χx表示活動(dòng)x的詞分布,πy表示活動(dòng)y對(duì)應(yīng)的主題分布,δt表示主題t的服務(wù)地點(diǎn)分布.μ,ξ,η,ε是模型的超參數(shù).

      對(duì)于大眾Pu發(fā)布的數(shù)據(jù)集,ASTM執(zhí)行圖7所示的生成過(guò)程.對(duì)于Pd中的每一個(gè)詞條,從活動(dòng)的多項(xiàng)式分布ψu(yù)中生成活動(dòng)x,在x下采樣一個(gè)詞w;對(duì)于Pg中的每一個(gè)服務(wù)地點(diǎn),先采樣一個(gè)活動(dòng)y,根據(jù)πy采樣生成主題e,在e下采樣一個(gè)服務(wù)地點(diǎn)c.

      4.2 ASTM參數(shù)估計(jì)

      同樣采用Gibbs采樣進(jìn)行模型參數(shù)估計(jì).具體來(lái)說(shuō),由3個(gè)方程來(lái)更新主題x,y,t.首先:

      p(xi=a|x,y,e,w,c)=
      p(xi=a|x,y,wi=w)∝

      (9)

      p(yj=a|y,x,e,w,c)=
      p(yj=a|y,x,tj=d)∝

      (10)

      p(ej=d|e,x,y,w,c)=
      p(ej=d|e,yj=a,cj=c)∝

      (11)

      當(dāng)Markov鏈得到收斂狀態(tài)之后,通過(guò)式(12)~(15)進(jìn)行參數(shù)更新.

      (12)

      (13)

      (14)

      (15)

      5 個(gè)性化服務(wù)推薦算法MFCD

      在實(shí)際生活中,用戶(hù)更偏向于訪問(wèn)與自己活動(dòng)區(qū)域較近或在自己活動(dòng)區(qū)域內(nèi)的地點(diǎn),所以服務(wù)地點(diǎn)與用戶(hù)活動(dòng)區(qū)域的物理距離影響了用戶(hù)訪問(wèn)該服務(wù)的可能性.另外,傳統(tǒng)推薦算法忽略了服務(wù)屬性?xún)?nèi)的耦合性,導(dǎo)致推薦結(jié)果不準(zhǔn)確.基于此,本文將用戶(hù)活動(dòng)區(qū)域與服務(wù)地點(diǎn)間物理距離、服務(wù)屬性?xún)?nèi)耦合性融合到推薦算法中,提出了MFCD推薦算法.首先利用UTAM和UTRM模型得到了用戶(hù)4W元組,其中包括某用戶(hù)在某個(gè)時(shí)間段的活動(dòng)區(qū)域向量和活動(dòng)內(nèi)容向量;然后,利用ASTM模型得到的大眾活動(dòng)內(nèi)容向量和服務(wù)地點(diǎn)之間的關(guān)系,計(jì)算得到用戶(hù)在某個(gè)時(shí)間段的活動(dòng)向量和服務(wù)地點(diǎn)之間的關(guān)系,構(gòu)成用戶(hù)-服務(wù)地點(diǎn)矩陣;最后,在用戶(hù)-服務(wù)矩陣的基礎(chǔ)上,融合用戶(hù)活動(dòng)區(qū)域與服務(wù)地點(diǎn)之間的距離以及服務(wù)地點(diǎn)屬性間的耦合性,形成了MFCD推薦算法.

      5.1 用戶(hù)服務(wù)矩陣

      通過(guò)UTAM和UTRM這2個(gè)模型可以得到用戶(hù)u的4W元組(u,s,z,r),其中u∈U,s∈S,z表示長(zhǎng)度為|L|的活動(dòng)向量,向量元素為u參加對(duì)應(yīng)活動(dòng)的概率;r表示長(zhǎng)度為|R|的區(qū)域向量,向量元素為u在對(duì)應(yīng)區(qū)域的概率.由于每個(gè)用戶(hù)不可能參加所有活動(dòng),因此給定一個(gè)閾值th,則z中活動(dòng)其概率均≥th,由此構(gòu)成用戶(hù)-活動(dòng)矩陣A|U|×|L|.通過(guò)類(lèi)似方法,還可以構(gòu)成用戶(hù)-區(qū)域矩陣B|U|×|R|.

      根據(jù)用戶(hù)活動(dòng)和大眾活動(dòng)的詞分布和φ,χ,使用JS(Jensen-Shannon)距離[15]和KL(Kullback-Leibler )距離[16]利用式(16)計(jì)算出|L|個(gè)用戶(hù)活動(dòng)和|PL|個(gè)大眾活動(dòng)間的相似度,并取概率值大于th的活動(dòng)構(gòu)成活動(dòng)相似度矩陣C|L|×|PL|.

      (16)

      通過(guò)ASTM模型中的活動(dòng)-主題分布πy及主題-服務(wù)分布δt,由于一個(gè)活動(dòng)不能涵蓋所有主題,同樣一個(gè)主題不能涵蓋所有服務(wù),因此取分布中概率大的構(gòu)成活動(dòng)-服務(wù)矩陣M.

      通過(guò)上述4個(gè)矩陣A,B,C,M的乘積運(yùn)算,最終得到稀疏的用戶(hù)-服務(wù)矩陣R.

      5.2 服務(wù)活動(dòng)區(qū)域間物理距離計(jì)算

      用戶(hù)活動(dòng)區(qū)域是由一系列地理位置組成,該活動(dòng)區(qū)域與服務(wù)的物理距離D會(huì)影響用戶(hù)訪問(wèn)該服務(wù)地點(diǎn)的可能性S.一般而言,D越大則S越??;反之,D越小S越大.基于此,將服務(wù)-活動(dòng)區(qū)域距離D納入矩陣分解,于是S=|1-D|.

      對(duì)于推薦服務(wù)地點(diǎn)集合Pl中的每一個(gè)地點(diǎn),計(jì)算其與用戶(hù)區(qū)域中多個(gè)地點(diǎn)間的距離,并將其進(jìn)行歸一化,得到距離差D.

      5.3 服務(wù)屬性耦合相似性計(jì)算

      大多數(shù)推薦算法假設(shè)用戶(hù)、項(xiàng)目的屬性服從獨(dú)立同分布,即屬性間以及屬性值間是相互獨(dú)立的,不存在互相影響的關(guān)系[8,17-19].但實(shí)際上大多屬性都是或多或少的互相影響,彼此間存在耦合性.

      本文假設(shè)服務(wù)屬性服從非獨(dú)立同分布,屬性值存在相互影響的耦合關(guān)系,并將這種耦合關(guān)系整合到矩陣分解算法中,進(jìn)而提高推薦質(zhì)量.

      5.4 個(gè)性化服務(wù)推薦MFCD

      矩陣分解模型常用形式是:N=PQT.將矩陣N轉(zhuǎn)化為了2個(gè)淺層因子P,Q的乘積,其中N|U|×|PL|,P|U|×d,Q|PL|×d,d是淺層因子的維度[20].

      由于距離的影響以及耦合性的存在,為了提高推薦準(zhǔn)確度,本文提出了MFCD方法.

      (17)

      其中,Su i表示用戶(hù)u的活動(dòng)區(qū)域與簽到地點(diǎn)i的距離1-Du i,N′(i)表示與簽到地點(diǎn)i相似度較高的前T個(gè).該模型在優(yōu)化過(guò)程中加入了另外2項(xiàng)規(guī)則化因子來(lái)篩選預(yù)測(cè)相似度較高的用戶(hù)和服務(wù)地點(diǎn).采樣用梯度下降法進(jìn)行優(yōu)化更新,進(jìn)而計(jì)算出最優(yōu)的P和Q:

      (18)

      (19)

      其中,Iu,i標(biāo)識(shí)用戶(hù)u對(duì)簽到地點(diǎn)是否有過(guò)概率,Su,i表示用戶(hù)u和簽到地點(diǎn)i之間的距離,ECLS(i,j)表示簽到地點(diǎn)i和j的耦合相似度,N′(i)則表示與簽到地點(diǎn)i相似的地點(diǎn)集合,可通過(guò)設(shè)置閾值等方式選擇前T個(gè).

      最后,得到矩陣R,對(duì)于每一個(gè)用戶(hù)u,即矩陣R中的每一行,將結(jié)果排序,取值較大的前M個(gè)服務(wù)組成列表c推薦給該用戶(hù).

      6 實(shí)驗(yàn)與分析

      本節(jié)將在真實(shí)的Twitter數(shù)據(jù)集上驗(yàn)證本次研究提出模型的參數(shù)敏感性、推薦有效性及推薦質(zhì)量.介紹了實(shí)驗(yàn)環(huán)境及實(shí)驗(yàn)數(shù)據(jù),介紹了實(shí)驗(yàn)的評(píng)估標(biāo)準(zhǔn),給出了相關(guān)實(shí)驗(yàn)結(jié)果及對(duì)實(shí)驗(yàn)結(jié)果的分析.

      6.1 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)

      本文采用真實(shí)的Twitter數(shù)據(jù)集,共6 058個(gè)用戶(hù),137 830條文本.Twitter支持第3方的位置共享服務(wù)如Foursquare.Foursquare上的用戶(hù)可以在Twitter上分享簽到.利用Foursquare將在真實(shí)POI有過(guò)簽到且次數(shù)大于10次的用戶(hù)作為大眾用戶(hù),進(jìn)行數(shù)據(jù)清理,去除被訪問(wèn)次數(shù)少于10次的POI及用戶(hù),同時(shí)采集POI的屬性信息.其他用戶(hù)作為目標(biāo)用戶(hù),去除發(fā)布文本數(shù)量少于3次的用戶(hù)-數(shù)據(jù)的統(tǒng)計(jì)如表2所示:

      Table 2 Statistics of Twitter Datasets表2 Twitter數(shù)據(jù)集統(tǒng)計(jì)

      6.2 評(píng)價(jià)指標(biāo)

      由于用戶(hù)行為理解模型UTAM,UTRM是基于LDA主題模型的,故采用2個(gè)常用的LDA評(píng)價(jià)指標(biāo),即困惑度(perplexity)和平均余弦相似性(average cosine similarity,ACS),分別記為per和QACS.

      1) 困惑度[21].perplexity是當(dāng)前最常用的度量語(yǔ)言模型性能好壞的評(píng)測(cè)指標(biāo),困惑度越小意味著模型效果越好.其中,p(wd)表示文檔d中的詞匯的生成概率,Nd表示為文檔d中所有的詞匯.

      2) 平均余弦相似性ACS[22].ACS是所有主題向量之間的余弦相似性的平均值,該值越小,模型效果越好,其計(jì)算為

      (20)

      (21)

      另外,為了評(píng)估MFCD算法的效果,本文采用推薦系統(tǒng)常用的2個(gè)指標(biāo)[23]:平均絕對(duì)誤差(mean absolute error,MAE)和均方根誤差(root mean squared error,RMSE).其中MAE記為JMAE,RMSE記為IRMSE:

      (22)

      (23)

      最后在我們的對(duì)比方法中,采用2種指標(biāo)精確率Precision@K和召回率Recall@K來(lái)評(píng)估服務(wù)地點(diǎn)推薦的質(zhì)量.其定義為:

      (24)

      (25)

      其中,U是用戶(hù)集合,K是推薦給用戶(hù)的服務(wù)地點(diǎn)的數(shù)量;R(u)是推薦給用戶(hù)的top-k列表;T(u)是用戶(hù)實(shí)際訪問(wèn)的服務(wù)地點(diǎn)數(shù)量.

      6.3 實(shí)驗(yàn)結(jié)果

      6.3.1節(jié)測(cè)試了UTAM,UTRM模型和MFCD算法的參數(shù),確定了模型最優(yōu)的參數(shù).6.3.2節(jié)測(cè)試了MFCD模型推薦效果,實(shí)驗(yàn)結(jié)果表明MFCD優(yōu)于傳統(tǒng)的推薦算法.6.3.3節(jié)測(cè)試了本文提出推薦方法的質(zhì)量.

      6.3.1 參數(shù)敏感性測(cè)試

      1) 用戶(hù)行為理解模型參數(shù)

      采用困惑度和ACS兩個(gè)評(píng)價(jià)指標(biāo)查找最優(yōu)的活動(dòng)數(shù)目K和區(qū)域數(shù)目R.

      UTAM模型的困惑度和ACS隨活動(dòng)數(shù)目選擇的變化趨勢(shì)如圖8所示:

      Fig. 8 The influence of activity number on USAM圖8 活動(dòng)主題數(shù)目對(duì)USAM模型的影響

      在圖8(a)中,隨著活動(dòng)數(shù)目的增加,困惑度呈現(xiàn)先降低后升高的趨勢(shì),在K=50時(shí)困惑度最低.產(chǎn)生這種現(xiàn)象的原因是:當(dāng)活動(dòng)數(shù)目較少時(shí),很多潛在的活動(dòng)并沒(méi)有挖掘出;當(dāng)活動(dòng)數(shù)目較大時(shí),出現(xiàn)過(guò)擬合現(xiàn)象,即有一部分活動(dòng)是重復(fù)的.在圖8(b)中剛開(kāi)始ACS呈現(xiàn)下降的趨勢(shì),當(dāng)活動(dòng)數(shù)k=50時(shí),ACS達(dá)到最低,之后ACS呈現(xiàn)上升趨勢(shì).綜合看圖8(a)和圖8(b),當(dāng)活動(dòng)數(shù)k=50時(shí),USAM模型最穩(wěn)定.

      USRM模型的困惑度和ACS隨區(qū)域數(shù)目的變化趨勢(shì)如圖9所示.在圖9(a)中,開(kāi)始困惑度較高,隨著區(qū)域數(shù)目的增加,困惑度下降較明顯,當(dāng)R=150時(shí),困惑度最低,之后緩慢增加.產(chǎn)生這種現(xiàn)象的原因是:當(dāng)區(qū)域數(shù)目R<150時(shí),很多潛在的區(qū)域并沒(méi)有發(fā)現(xiàn);當(dāng)R>150時(shí),有一部分重合,出現(xiàn)過(guò)擬合現(xiàn)象.在圖9(b)中,ACS隨區(qū)域數(shù)目的增加,變化不明顯,但也呈現(xiàn)出先降后升的趨勢(shì),當(dāng)R=150時(shí)ACS最低.綜合考慮,當(dāng)R=150時(shí),困惑度和ACS都是最低的,這時(shí)UTRM模型的結(jié)構(gòu)最穩(wěn)定.

      Fig. 9 The influence of regions number on USRM圖9 區(qū)域數(shù)目對(duì)USRM模型的影響

      2) 活動(dòng)-服務(wù)模型參數(shù)

      為了得到最優(yōu)的活動(dòng)主題數(shù)和服務(wù)主題數(shù),同樣采用perplexity和ACS指標(biāo).

      圖10展示了主題數(shù)的變化對(duì)活動(dòng)模型的影響,當(dāng)活動(dòng)主題數(shù)為70、服務(wù)主題數(shù)為130時(shí),困惑度的值最低;當(dāng)活動(dòng)主題數(shù)為80,70,服務(wù)數(shù)為50,80,130,ACS的值較低,在圖10中使用了顏色最深的(紅色)柱形進(jìn)行標(biāo)注.圖11展示了主題數(shù)對(duì)服務(wù)模型的影響,當(dāng)活動(dòng)主題數(shù)為80,70且服務(wù)主題數(shù)為50,130時(shí),困惑度值較低;當(dāng)活動(dòng)數(shù)為70時(shí),ACS的值較低,如圖11中顏色最深的(紅色)柱形所示.綜合考慮,當(dāng)活動(dòng)主題數(shù)為60、服務(wù)主題數(shù)為130時(shí)模型效果較優(yōu).

      Fig. 10 The influence of topic number on behavior model圖10 活動(dòng)、服務(wù)主題數(shù)對(duì)活動(dòng)模型的影響

      Fig. 11 The influence of topic number on service model圖11 活動(dòng)、服務(wù)主題數(shù)對(duì)服務(wù)模型的影響

      參數(shù)ρ是耦合項(xiàng)正則化權(quán)重,作用是調(diào)整地點(diǎn)間耦合性對(duì)預(yù)測(cè)結(jié)果的影響.為了選取合適的參數(shù),觀察在不同取值下的推薦效果.這里僅展示ρ在0~1之間的變化.圖12展示了RMSE變化情況.由圖12可知,參數(shù)ρ的取值會(huì)影響矩陣分解的性能,在實(shí)際應(yīng)用中要根據(jù)實(shí)際情況選擇合適的參數(shù),因?yàn)楫?dāng)我們推薦一些服務(wù)地點(diǎn)給用戶(hù)后,用戶(hù)的主觀評(píng)價(jià)可能占據(jù)著主導(dǎo)的作用,也可能用戶(hù)更看重它近鄰的參考意見(jiàn)或者選擇跟自己需求最大的服務(wù)地點(diǎn)更相似的地點(diǎn).

      Fig. 12 RMSE of CDMF by changing parameter ρ圖12 調(diào)整ρ算法RMSE變化情況

      另外一個(gè)參數(shù)是通過(guò)耦合相似度得到某地點(diǎn)的相似集合,選取相似度較高的前T個(gè),參數(shù)T對(duì)算法有一定影響.圖13可以看出在當(dāng)前數(shù)據(jù)集下,隨著T的數(shù)目增加,RMSE逐漸降低,當(dāng)T=30時(shí)RMSE最小,之后達(dá)到飽和趨于平穩(wěn).

      Fig. 13 RMSE of CDMF by changing parameter T圖13 調(diào)整T算法RMSE變化情況

      6.3.2 推薦系統(tǒng)性能測(cè)試

      本文使用了地理位置的類(lèi)型特征,如Coffee Shop,Park,Restaurant等,利用用戶(hù)活動(dòng)區(qū)域計(jì)算距離,地點(diǎn)屬性信息計(jì)算相似度,訓(xùn)練MFCD完成推薦.

      為了評(píng)價(jià)MFCD的有效性,將該模型和基礎(chǔ)矩陣分解(Basic MF)、帶偏差的矩陣分解(With Biases MF)模型進(jìn)行比較.對(duì)于每個(gè)方法都設(shè)置了不同的淺層因子維度,分別是5,10,50,梯度下降步長(zhǎng)因子設(shè)置為0.001,正則化權(quán)重ν=0.005,ρ=0.1.從圖14,15可以看出,隨著淺層因子維度d的增加,RMSE,MAE呈減小趨勢(shì),且MFCD的結(jié)果優(yōu)于Basic MF和With Biases MF.d并不是越大越好,過(guò)大容易產(chǎn)生過(guò)擬合現(xiàn)象.

      Fig. 14 The result of RMSE圖14 RMSE評(píng)價(jià)結(jié)果

      Fig. 15 The result of MAE圖15 MAE評(píng)價(jià)結(jié)果

      6.3.3 推薦質(zhì)量測(cè)試

      本節(jié)采用準(zhǔn)確率及召回率2個(gè)指標(biāo)對(duì)推薦質(zhì)量進(jìn)行測(cè)試.分別測(cè)試了當(dāng)為用戶(hù)推薦的服務(wù)地點(diǎn)數(shù)量為10,30,50這3種情況時(shí),對(duì)應(yīng)的準(zhǔn)確率和召回率變化情況.圖16展示了隨著推薦數(shù)量d的增加,準(zhǔn)確率呈現(xiàn)下降趨勢(shì).由于用戶(hù)實(shí)際訪問(wèn)的服務(wù)地點(diǎn)是固定的,所以隨著推薦數(shù)量的增加,準(zhǔn)確率會(huì)呈現(xiàn)下降趨勢(shì).圖17展示了隨著推薦數(shù)量的增加,召回率呈現(xiàn)上升趨勢(shì).從圖16和圖17中可以看出,MFCD的推薦質(zhì)量都是優(yōu)于傳統(tǒng)的矩陣分解推薦算法.

      Fig. 16 The result of Precision@K圖16 Precision@K評(píng)價(jià)結(jié)果

      Fig. 17 The result of Recall@K圖17 Recall@K評(píng)價(jià)結(jié)果

      7 結(jié)束語(yǔ)

      為了理解用戶(hù)的行為規(guī)律,基于LDA主題模型,綜合考慮用戶(hù)行為發(fā)生的時(shí)間、活動(dòng)內(nèi)容、活動(dòng)區(qū)域提出了UTAM,UTRM模型.其中UTAM解決了短文本導(dǎo)致的活動(dòng)內(nèi)容難于捕捉的問(wèn)題;UTRM模型解決了地理位置稀疏導(dǎo)致的活動(dòng)區(qū)域難于挖掘的問(wèn)題.另外將距離和服務(wù)地點(diǎn)耦合性融合到矩陣分解算法中,改進(jìn)目標(biāo)函數(shù),提高了推薦算法的有效性.下一步的研究工作中,我們將把用戶(hù)的屬性信息,如年齡、居住地等信息,融合到矩陣分解推薦算法中,考慮用戶(hù)屬性間的耦合相似性,進(jìn)一步提高推薦質(zhì)量.

      猜你喜歡
      耦合矩陣區(qū)域
      非Lipschitz條件下超前帶跳倒向耦合隨機(jī)微分方程的Wong-Zakai逼近
      初等行變換與初等列變換并用求逆矩陣
      關(guān)于四色猜想
      分區(qū)域
      基于“殼-固”耦合方法模擬焊接裝配
      大型鑄鍛件(2015年5期)2015-12-16 11:43:20
      矩陣
      南都周刊(2015年4期)2015-09-10 07:22:44
      矩陣
      南都周刊(2015年3期)2015-09-10 07:22:44
      矩陣
      南都周刊(2015年1期)2015-09-10 07:22:44
      基于嚴(yán)重區(qū)域的多PCC點(diǎn)暫降頻次估計(jì)
      求解奇異攝動(dòng)Volterra積分微分方程的LDG-CFEM耦合方法
      城固县| 盐城市| 长寿区| 宁蒗| 柘荣县| 安岳县| 山东| 卢湾区| 内乡县| 崇阳县| 和龙市| 尖扎县| 盐山县| 定州市| 滦平县| 大兴区| 苗栗县| 宣武区| 琼中| 九寨沟县| 罗江县| 惠东县| 普定县| 称多县| 陆河县| 壤塘县| 南宫市| 边坝县| 宁远县| 卢氏县| 苏州市| 拜城县| 恩平市| 田林县| 上犹县| 策勒县| 东明县| 定襄县| 新龙县| 侯马市| 新密市|