孫海真, 謝穎華
?
基于情景和瀏覽內(nèi)容的層次性用戶興趣建模①
孫海真, 謝穎華
(東華大學(xué)信息科學(xué)與技術(shù)學(xué)院, 上海 201620)
用戶興趣建模是個(gè)性化服務(wù)的核心, 考慮到情景信息對(duì)用戶偏好的影響, 對(duì)融和情景信息的用戶行為日志數(shù)據(jù)進(jìn)行深入研究, 提出了一種基于情景信息的用戶興趣建模方法. 該方法首先通過計(jì)算情景相似度來獲得用戶當(dāng)前情景的近似情景集; 對(duì)“用戶-興趣項(xiàng)-情景”三維模型采用情景預(yù)過濾的方法降維處理. 然后根據(jù)用戶瀏覽內(nèi)容得到用戶興趣主題, 分析頁面內(nèi)容得到每種主題的興趣關(guān)鍵詞, 建立基于層次向量空間模型的用戶興趣模型. 實(shí)驗(yàn)結(jié)果表明, 本文提出的基于情景信息的用戶興趣模型對(duì)用戶興趣的預(yù)測(cè)誤差控制在9%以內(nèi), 是有效的.
用戶興趣模型; 情景; 用戶瀏覽內(nèi)容; 文本聚類; TF-IDF
個(gè)性化服務(wù)利用用戶預(yù)先提供的數(shù)據(jù)或是利用數(shù)據(jù)挖掘等技術(shù)從用戶的歷史記錄中收集用戶偏好, 幫助用戶獲取感興趣的信息, 避免了用戶瀏覽大量無關(guān)資源而浪費(fèi)時(shí)間. 用戶興趣模型的建立是個(gè)性化服務(wù)的核心, 資源推薦的準(zhǔn)度和廣度, 完全取決于用戶建模表征用戶興趣的準(zhǔn)確度和潛在用戶興趣的挖掘度.
用戶興趣建模一般包括兩方面內(nèi)容: 通過記錄和分析用戶瀏覽行為、瀏覽內(nèi)容及用戶反饋等收集用戶信息并從中挖掘用戶興趣; 用合適的方法表示用戶興趣, 即建立用戶興趣模型, 并隨用戶興趣變化動(dòng)態(tài)更新用戶興趣模型[1].
傳統(tǒng)的基于用戶瀏覽行為的用戶興趣建模大部分只考慮用戶和項(xiàng)目兩個(gè)維度, 在一些融合諸如時(shí)間或位置情景的個(gè)性化服務(wù)中誤差較大, 而基于情景信息的用戶興趣建??捎行У奶岣叽髷?shù)據(jù)時(shí)代個(gè)性化服務(wù)的精準(zhǔn)度. 例如, Koren提出一種融入用戶時(shí)間情景信息的推薦模型timeSVD++, 并將該算法在Netflix電影評(píng)分?jǐn)?shù)據(jù)集上進(jìn)行試驗(yàn), 結(jié)果表明該模型的推薦精確度較未融入時(shí)間用戶情境矩陣分解模型有了顯著的提高[2]. Si等人通過設(shè)定推薦系統(tǒng)服務(wù)中的用戶情景信息為在線時(shí)刻、位置及心情三種類型, 并結(jié)合用戶所感興趣的主題關(guān)鍵詞, 應(yīng)用矢量模型構(gòu)建了用戶偏好模式, 來研究手機(jī)終端上關(guān)于圖書的推薦服務(wù)問題[3]. Liu等采用本體模型來表示用戶情景信息, 并計(jì)算其用戶情景信息之間的距離[4]. Shi提出一種基于情緒特征的物品相似度的矩陣分解方法對(duì)情緒用戶特征進(jìn)行用戶偏好建模[5]. 胡慕海對(duì)位置、時(shí)間、用戶心情等多種用戶情景信息, 提出了一個(gè)應(yīng)用信息熵提取用戶情景偏好特征的建模方式, 并通過超圖模型將用戶進(jìn)行細(xì)分, 最后通過超圖分割技術(shù)對(duì)用戶偏好和用戶偏好漂移進(jìn)行識(shí)別與建模[6]. 王立才專門對(duì)情緒這類情景結(jié)合認(rèn)知心理學(xué)的知識(shí)通過基于張量和高階奇異值分解技術(shù)(Higher-order Singular Value Decomposition, HOSVD)進(jìn)行用戶偏好建模[7].
綜上所述, 情景化機(jī)制已經(jīng)引起了國內(nèi)外學(xué)者的廣泛關(guān)注, 他們通過對(duì)用戶位置、時(shí)間、業(yè)務(wù)需求的情景化挖掘, 基于不同的資源對(duì)象和情景來探討用戶興趣的變化. 但這些研究主要集中在情景維度的某個(gè)方面, 缺少對(duì)用戶興趣表示及情景機(jī)制的完整描述. 本文的目的在于建立基于情景信息的用層次性戶興趣模型. 通過將用戶情景進(jìn)行系統(tǒng)的分類和識(shí)別, 將情景影響因子加入到用戶興趣建模過程中, 改進(jìn)用戶興趣度的計(jì)算方法, 最后根據(jù)訓(xùn)練集和測(cè)試集的興趣誤差來驗(yàn)證模型的有效性.
1.1 用戶興趣三維建模
目前用戶興趣建模大多停留在二維上, 即用戶維和項(xiàng)目維[8], 最終的用戶興趣度由用戶和項(xiàng)目決定, 沒有涉及到情景, 如時(shí)間、地點(diǎn)等. 本文加入情景維度來描述用戶興趣, 三維模型如圖1所示.
圖1 用戶興趣三維模型
“用戶-興趣項(xiàng)-情景”三維模型是一個(gè)三維的向量空間, 每個(gè)維度分別由各自的屬性值組成的向量來表示, 圖中表示的就是在情景A下用戶101對(duì)于興趣項(xiàng)04的興趣度. 可將用戶興趣模型形式化的表示為一個(gè)三元組:
1.2 基于層次的向量空間模型
本文基于情景的用戶興趣模型表示方法主要是對(duì)向量空間模型表示法(VSM)[9]進(jìn)行改進(jìn), 由于傳統(tǒng)的VSM表示方法是把所有種類的用戶興趣記錄在同一個(gè)向量里, 并且很少考慮到用戶所處的情景, 這樣會(huì)導(dǎo)致不同情景、不同類別的興趣特征項(xiàng)相互影響, 降低個(gè)性化服務(wù)的質(zhì)量.
針對(duì)上述出現(xiàn)的問題, 本文基于情景信息提出層次性向量空間模型來表示用戶興趣. 其基本思想是: 1)將用戶訪問日志根據(jù)情景屬性進(jìn)行分類. 2)分別分析不同情景下的用戶訪問日志, 計(jì)算用戶瀏覽網(wǎng)頁的次數(shù), 按照新聞、視頻、調(diào)查、論壇、購物、社交、游戲給用戶興趣歸類, 得到用戶的興趣主題. 3)通過頁面URL獲取頁面內(nèi)容信息, 提取文檔中的關(guān)鍵詞作為特征項(xiàng)用VSM來描述用戶興趣.
具體如圖2所示, 底層是用戶興趣關(guān)鍵詞, 第二層是劃分的用戶興趣主題, 第三層是用戶所處的情景, 最上一層是用戶.
圖2 基于層次的用戶興趣模型表示結(jié)構(gòu)圖
如果用戶在情景A下有個(gè)不同的類別偏好, 即用戶有個(gè)興趣主題, 那么情景A下用戶興趣模型可表示為如下結(jié)構(gòu)的向量:
其中,T為第個(gè)主題特征向量,W為主題權(quán)重,n為第個(gè)主題包含文檔實(shí)例數(shù)量(),W初始化如下:
(2)
若T類包含個(gè)興趣關(guān)鍵詞條, 則T可表示為:
2.1 情景建模
2.1.1 情景模型定義及分類
情景維度模型是表示情景綜合信息的模型, 用戶偏好會(huì)隨所處情景(如時(shí)間、地點(diǎn)、環(huán)境、用戶狀態(tài)等)的不同而發(fā)生變化, 因此建立用戶興趣模型時(shí)需要考慮到用戶情景.
研究分析顧君忠[10]對(duì)情景信息的分類方法, 本文將情景信息劃分為3個(gè)情景維度, 表示為= {,,}.
(1) 用戶情景(User Context)指用戶的概要信息、社會(huì)地位等. 從用戶的信息表中我們可以獲得用戶的年齡、性別、職業(yè)等信息. 用戶維情景可以表示為={,,}.
(2) 時(shí)間情景(Time Context)指用戶與系統(tǒng)發(fā)生交互的時(shí)間, 可根據(jù)具體需要按照不同的分層粒度對(duì)時(shí)間情景進(jìn)行組織. 時(shí)間維情景可以表示為= {,,,,,}. 其中={“”, “”, “”, “”, “”, “”, “”};= {“”, “”}.
(3) 空間情景(Spatial Context)指用戶與系統(tǒng)發(fā)生交互時(shí)所處地點(diǎn)的相關(guān)信息. 可以表示為={,}.
不同的情景信息對(duì)用戶興趣的影響程度不盡相同, 因此在建立模型之前需要分析與用戶興趣密切相關(guān)的有效情景, 在情境建模時(shí)可以視具體情況適當(dāng)減少或增加一些維度.
2.1.2 情景預(yù)過濾
情景預(yù)過濾(contextual pre-filtering)是利用當(dāng)前情景信息過濾掉與當(dāng)前情景無關(guān)的用戶數(shù)據(jù), 從而構(gòu)建與當(dāng)前情景相關(guān)的數(shù)據(jù)集合[11]. 簡(jiǎn)單來說, 如果分析一個(gè)只在星期六上網(wǎng)的人的興趣, 則只需過濾出每周六的所有用戶的評(píng)測(cè)數(shù)據(jù)來構(gòu)造興趣模型即可, 然而這種方法存在缺點(diǎn), 太精確的情景信息可能不夠?qū)嵱? 比如, 對(duì)于星期六或者星期日去看電影的用戶來說, 情景信息其實(shí)差別不大; 但與星期三(工作日)相比, 那就不同. 所以在過濾情景信息時(shí), 不應(yīng)該把周日的數(shù)據(jù)也給過濾掉. 此外, 精確過濾后的數(shù)據(jù)量相對(duì)來說有所減少, 導(dǎo)致數(shù)據(jù)稀疏問題. 因此在實(shí)際興趣建模過程中會(huì)使用情景泛化處理來解決上述問題.
本文在建立用戶興趣模型前首先通過時(shí)間情景對(duì)用戶瀏覽行為的日志數(shù)據(jù)進(jìn)行預(yù)過濾, 考慮到過度細(xì)化的缺陷, 時(shí)間維情景劃分方式為:= {“”, “”}.
2.1.3 情景后過濾
情景后過濾(contextual post-filtering)不會(huì)在輸入數(shù)據(jù)和建模時(shí)考慮情景信息, 而是在生成用戶興趣項(xiàng)列表時(shí)根據(jù)情景信息進(jìn)行如下處理: 1)過濾掉不相關(guān)的興趣項(xiàng). 2)調(diào)整列表中興趣項(xiàng)的排序.
例如采用傳統(tǒng)的用戶興趣建模方法得到用戶興趣列表, 假設(shè)用戶對(duì)新聞?lì)惖木W(wǎng)站感興趣, 考慮到用戶所處的空間情景(如城市), 可以直接過濾掉與當(dāng)前情景關(guān)聯(lián)概率小的項(xiàng)目, 得到情景優(yōu)化后的興趣列表.
2.2 基于PV提取用戶興趣主題
網(wǎng)頁瀏覽次數(shù) PV(Page View)[12]是統(tǒng)計(jì)互聯(lián)網(wǎng)用戶瀏覽網(wǎng)頁的次數(shù), 通過分析url的類別, 歸類得到用戶興趣主題.
url訪問頻率uf(url visit frequency): 表示url被用戶訪問的頻繁程度, 計(jì)算公式如下:
其中u表示第條url的值,為用戶訪問的所有url集合. uf大的url說明用戶訪問頻繁, 對(duì)這類網(wǎng)站的興趣度越高.
2.3 基于網(wǎng)頁內(nèi)容提取用戶興趣關(guān)鍵詞
2.3.1 文本特征項(xiàng)的提取
在對(duì)文檔進(jìn)行特征提取之前, 需要先進(jìn)行文本信息的預(yù)處理――特征詞條的選擇. 從自然語言理解的角度來看, 名詞及名詞短語、動(dòng)詞及動(dòng)詞短語是一個(gè)文本的核心, 它們的簡(jiǎn)單組合可以作為整個(gè)文檔的簡(jiǎn)單表示. 本文采用中國科學(xué)院計(jì)算機(jī)研究所研制的漢語分詞系統(tǒng)NLPIR進(jìn)行分詞[13].
對(duì)頁面文檔進(jìn)行處理并提取特征詞的步驟如下:
(1) 通過頁面URL獲取頁面內(nèi)容信息, 清除頁面中網(wǎng)頁標(biāo)簽信息, 進(jìn)行頁面清洗, 將其轉(zhuǎn)化為文本文檔;
(2) 調(diào)用字典模塊對(duì)文檔進(jìn)行分詞, 將文檔轉(zhuǎn)化為詞序列;
(3) 根據(jù)停用詞表去除詞序列中的停用詞;
(4) 計(jì)算每一個(gè)詞的權(quán)重;
(5) 根據(jù)權(quán)值大小對(duì)詞進(jìn)行降序排列, 選取前個(gè)詞作文檔的特征詞集合.
2.3.2 TF-IDF算法計(jì)算關(guān)鍵詞權(quán)重
一個(gè)文檔集中的某個(gè)文檔, 對(duì)于中的關(guān)鍵詞來說,在中除了之外的其它文檔中出現(xiàn)的次數(shù)越少,對(duì)于的區(qū)分度就越高. 因此, 如果中有兩個(gè)關(guān)鍵詞和, 它們?cè)谥谐霈F(xiàn)在頻率一樣, 而在文檔集合中的其它文檔中出現(xiàn)地次數(shù)比少, 則對(duì)于文檔來說,的權(quán)重應(yīng)該大于的權(quán)重. 即: 一個(gè)關(guān)鍵詞的權(quán)重與它在一個(gè)文檔中出現(xiàn)的頻率(Term Frenquency)成正比, 與它在文檔集中其它文檔中出現(xiàn)的頻率(Inverse document frequency)成反比[14], 該計(jì)算方式表示為:
其中,(,)為詞在文本中的權(quán)重,(,)為詞在文本中的詞頻,為訓(xùn)練文本的總數(shù),為訓(xùn)練文本集中出現(xiàn)詞語的文本數(shù), 分母為歸一化因子.
2.3.3 改進(jìn)的文本特征聚類算法
文言文中定語后置的這幾種形式,只要用心識(shí)記、揣摩,遇到實(shí)際問題時(shí)細(xì)心明辨,靈活處理,就不會(huì)被表面的形式蒙蔽,弄懂它的意思進(jìn)而把它準(zhǔn)確地譯成現(xiàn)代漢語。
在基于瀏覽內(nèi)容進(jìn)行數(shù)據(jù)挖掘分析中, 由于用于挖掘的數(shù)據(jù)源是文本文檔集合, 而挖掘的目的是發(fā)現(xiàn)用戶的興趣類型及興趣濃度. 采用K-means 方法進(jìn)行聚類分析時(shí), 由于預(yù)先不知道用戶的興趣種類, 即不知道進(jìn)行K-means 聚類的值, 因此無法直接采用. 而且K-means方法中初始聚類中心的選取直接影響到最后的聚類結(jié)果, 并且很容易陷入局部最優(yōu)解. 層次凝聚法能夠生成層次化的嵌套簇, 準(zhǔn)確度較高. 但在每次合并時(shí), 需要全局地比較所有簇之間的相似度, 并選出最佳的2個(gè)簇, 因此執(zhí)行速度較慢, 不適合大量文件的集合.
綜合考慮這兩種聚類方法的優(yōu)缺點(diǎn), 提出一種改進(jìn)的文本聚類方法, 具體過程如下:
(5) 選擇一個(gè)未聚類的單個(gè)成員簇, 重復(fù)步驟(3)和(4), 開始新一輪的聚類, 直到所有的單個(gè)成員簇都參與了聚類, 最終聚成類;
算法流程圖如下:
圖4 改進(jìn)的文本聚類算法流程圖
3.1 實(shí)驗(yàn)步驟
本文采用的數(shù)據(jù)集是CNNIC(http://cnnicdata. datatang.com/)數(shù)據(jù)堂提供的數(shù)據(jù)集. 該數(shù)據(jù)集包含用戶連續(xù)4周內(nèi)訪問電腦軟件及瀏覽網(wǎng)頁的行為日志. 實(shí)驗(yàn)原始數(shù)據(jù)總時(shí)長為28天: 取前21天數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)(Training Data), 用以預(yù)測(cè)后7天(測(cè)試數(shù)據(jù), Test Data)用戶的興趣分布.
Step1. 情景信息預(yù)過濾: 將用戶瀏覽網(wǎng)頁的行為日志按時(shí)間情景分為工作日和周末兩類.
Step2. 數(shù)據(jù)預(yù)處理: 從用戶行為日志中過濾出用戶ID、瀏覽的網(wǎng)址及用戶瀏覽次數(shù).
Step3. 提取用戶興趣主題: 統(tǒng)計(jì)數(shù)據(jù)集合中域名級(jí)別的網(wǎng)站, 分析網(wǎng)站的類別, 過濾掉搜索網(wǎng)站、導(dǎo)航網(wǎng)站等不能明確反映用戶興趣愛好的網(wǎng)站, 得到新聞、視頻、調(diào)查、論壇、購物、社交、游戲七大興趣主題.
Step4. 提取興趣關(guān)鍵詞: 將每種主題的url轉(zhuǎn)化為文本文檔, 采用NLPIR進(jìn)行分詞, 通過TF-IDF算法計(jì)算關(guān)鍵詞的權(quán)重, 將文本文檔用向量表示, 并進(jìn)行聚類分析, 得到每個(gè)主題下關(guān)鍵詞的權(quán)重, 進(jìn)而得到每種主題的權(quán)重, 建立基于層次的用戶興趣模型.
3.2 實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)中抽取三個(gè)用戶的瀏覽行為特征, 采用第二章的方法分析訓(xùn)練數(shù)據(jù)集, 得到用戶對(duì)每種主題的興趣度, 如表1所示.
表1 用戶對(duì)興趣主題的興趣度
從表1中可以看出用戶101在工作日對(duì)于新聞和購物類比較感興趣, 周末增加了社交類的興趣; 用戶102在工作日對(duì)購物類有著濃厚的興趣, 周末轉(zhuǎn)向了調(diào)查類的網(wǎng)站; 用戶103在工作日對(duì)新聞和社交比較感興趣, 周末新增了視頻類的興趣. 因此在個(gè)性化服務(wù)中考慮到情景信息可以發(fā)現(xiàn)用戶不同情景下的興趣傾向, 從而改善用戶的體驗(yàn).
對(duì)測(cè)試數(shù)據(jù)集進(jìn)行分析得到每種主題的誤差如表2所示.
表2 興趣主題的絕對(duì)誤差
從表2中可以看出, 根據(jù)前面提到的興趣度計(jì)算方法計(jì)算得到的用戶興趣度與測(cè)試集中用戶興趣度絕對(duì)誤差控制在9%以內(nèi), 由此可以驗(yàn)證本文提出的基于情景信息的用戶興趣模型是合理及有效的.
本文將情景信息融和到用戶興趣建模過程中, 結(jié)合情景預(yù)過濾的思想, 將用戶興趣三維模型降維處理, 建立基于層次的向量空間模型, 并改進(jìn)文本特征聚類算法. 分析訓(xùn)練集和測(cè)試集的用戶興趣, 得到用戶興趣預(yù)測(cè)誤差, 實(shí)驗(yàn)結(jié)果表明誤差控制在9%以內(nèi), 表明該算法的可行性和有效性. 目前只考慮到單維度的靜態(tài)情景信息, 下一步的工作將研究多維度情景和動(dòng)態(tài)情景對(duì)用戶興趣的影響.
1 南智敏.基于網(wǎng)頁興趣度的用戶興趣模型體系研究[碩士學(xué)位論文].上海:復(fù)旦大學(xué),2012.
2 Koren Y. Collaborative filtering with temporal dynamics. Communications of the ACM, 2010, 53(4): 89–97.
3 Si H, Kawahara Y, Kurasawa H, et al. A context-aware collaborative filtering algorithm for real world oriented content delivery service. Proc. of ubiPCMM, 2005.
4 Liu D, Meng XW, Chen JL. A framework for context-aware service recommendation. 10th International Conference on Advanced Communication Technology (ICACT 2008). IEEE. 2008, 3. 2131–2134.
5 Shi Y, Larson M, Hanjalic A. Mining mood-specific movie similarity with matrix factorization for context-aware recommendation. Proc. of the Workshop on Context-Aware Movie Recommendation. ACM. 2010. 34–40.
6 胡慕海.面向動(dòng)態(tài)情境的信息推薦方法及系統(tǒng)研究[博士學(xué)位論文].武漢:華中科技大學(xué),2011.
7 王立才.上下文感知推薦系統(tǒng)若千關(guān)鍵技術(shù)研究[博士學(xué)位論文].北京:北京郵電大學(xué),2012.
8 邢曉兵.面向用戶興趣的用戶瀏覽行為分析方法及應(yīng)用[碩士學(xué)位論文].沈陽:東北大學(xué),2013.
9 郝水龍,吳共慶,胡學(xué)鋼.基于層次向量空間模型的用戶興趣表示及更新.南京大學(xué)學(xué)報(bào),2012,2:190–197.
10顧君忠.情景感知計(jì)算.華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2009,5:1–20,145.
11 劉海鷗.云環(huán)境用戶情景興趣的移動(dòng)商務(wù)推薦模型及應(yīng)用研究[博士學(xué)位論文].秦皇島:燕山大學(xué),2013.
12 趙釹森.基于用戶行為的動(dòng)態(tài)推薦系統(tǒng)算法研究及實(shí)現(xiàn)[碩士學(xué)位論文].成都:電子科技大學(xué),2013.
13 ICTCLAS中文分詞系統(tǒng)官方網(wǎng)站.http://ictclas.org/.
14 蔣晨.基于用戶情景感知的動(dòng)態(tài)興趣模型及其應(yīng)用[碩士學(xué)位論文].武漢:華中師范大學(xué),2014.
Hierarchical User Interest Modeling Based on Context and Browse Content
SUN Hai-Zhen, XIE Ying-Hua
(School of Information Science and Technology, Donghua University, Shanghai 201620, China)
The user’s interest model is the core component in a personalized services system. Considering the impact of context information on user interests, this paper deeply studies the user behavior log data based on context information, and proposes a user interest modeling method based on context information. First, we get the user’s context set by calculating the context similarity, and reduce the dimension of the “user-interest item-context” 3D model through the method of context pre-filtering. Second, user browsing content forms interest topic, and web page content forms interest keyword. Then a hierarchical vector space model is set up based on the user profile. The experimental result shows that the prediction error of user interest degree is controlled within 9%, which is effective.
user interest model; context; user browsing content; text clustering; TF-IDF
2016-04-06;收到修改稿時(shí)間:2016-05-05
[10.15888/j.cnki.csa.005509]