• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      融合異質網絡與主題模型的方面分預測

      2018-01-08 08:42:12吉余崗李依桐
      計算機應用 2017年11期
      關鍵詞:異質預測算法

      吉余崗,李依桐,石 川

      (1.北京郵電大學 計算機學院,北京 100876; 2.智能通信軟件與多媒體北京市重點實驗室(北京郵電大學),北京 100876)

      融合異質網絡與主題模型的方面分預測

      吉余崗1,2,李依桐1,2,石 川1,2*

      (1.北京郵電大學 計算機學院,北京 100876; 2.智能通信軟件與多媒體北京市重點實驗室(北京郵電大學),北京 100876)

      針對傳統方面分預測模型只考慮內容信息而缺乏對評論網絡結構的分析,提出了融合異質信息網絡和主題模型構建方面分預測算法(HINToAsp)。首先,從意見短語角度構建了評論主題挖掘模型(Phrase-PLSA),有效整合評論信息和評分信息進行方面主題挖掘;進而,考慮用戶、評論和商品之間的結構信息,提出了在“用戶-評論-商品”異質信息網絡上的主題傳播模型模型,用于刻畫用戶特性、商品屬性;最后,基于隨機游走框架有效整合內容信息和結構信息,進行精準的方面分預測。通過在大眾點評(Dianping)和TripAdvisor數據集上和四元組PLSA(QPLSA)、高斯分布的情緒評估(GRAOS)模型及情緒均衡主題模型(SATM)的準確度對比實驗,證明了HINToAsp算法的有效性,可以更好地用于商品的推薦系統。

      方面分預測;異質信息網絡;主題模型;結構信息;推薦系統

      0 引言

      近年來,電商平臺和團購網站蓬勃發(fā)展,逐漸改變了人們的生活和消費方式。在這些平臺上,用戶可以通過打分和撰寫評論來對商品的各方面質量進行評價, 商品的評價信息會極大影響后續(xù)消費者的流量[1]。為了從這些大量的評價信息中快速總結出商品各方面的質量優(yōu)劣進而用于商品推薦,人們開始關注方面分預測研究。

      方面分預測的主要任務是預測用戶對商品各方面的評分。為了實現有效的方面分預測,通常需要選擇有效的文本表示模型來表征文字評論信息。而主題模型因其低維密實和解釋性強等原因,受到研究者的青睞[2-3]。

      傳統的主題模型,如概率潛在語義分析(Probabilistic Latent Analysis,PLSA)[4]和潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)[5]等,常用于分析單詞的主題分布,因此,這些模型用于挖掘評論主題時,忽視評論中意見短語強烈的主題指向。針對評論信息的特性,Lu等[6]提出一種改進的PLSA模型來識別評論短語的主題。

      當前,方面分預測算法多從內容信息角度來提取特征,如總分和評論的主題分布,卻忽視用戶和商品間的關聯特征。而用戶對不同商品的不同評分和評論,實際上構建出一個典型的異質信息網絡(Heterogeneous Information Network,HIN)[7], 而HIN中包含了豐富的結構特征,廣泛用于解決推薦系統問題[8]。

      鑒于前人的研究,本文考慮內容信息和結構信息,提出融合異質信息網絡和主題模型的方面分預測算法HINToAsp。首先,從評論短語和總分角度構建了一種Phrase-PLSA模型,用于識別短語的主題;然后,提出了一種基于評論行為的異質信息網絡,通過評論的主題分布傳遞給用戶和商品來刻畫用戶特性和商品屬性;最后,在隨機游走框架下將內容信息和結構信息有效整合后預測方面分。

      本文主要貢獻如下:

      1)基于用戶對商品的評論數據,構建了評論行為的異質信息網絡,有效刻畫用戶特性和商品屬性;

      2)分別基于Phrase-PLSA和HIN來發(fā)現評論數據的內容信息和結構信息,并提出了一種隨機游走框架將兩者有效整合;

      3)在中文和英文評論數據集上不同規(guī)模的方面分預測實驗,有效證明了所提算法的有效性和泛化性能。

      1 相關工作

      結合評論和評分信息成為解決方面分預測的關鍵技術。

      Zheng等[9]提出一種評價表達模式的LDA (Appraisal-Expression-Patterns-based LDA,AEP-LDA)模型,自動從評論中提取方面詞;Wang等[10]提出潛在方面評分分析模型(Latent Aspect Rating Analysis Model,LARAM)算法,從方面級角度分析評論中的觀點,并以此來預測用戶對各方面的評分;文獻[11]提出通過外部知識、總分分布以及情感詞語詞典等同步提取方面主題及對應評分;Li等[12]提出了一種考慮用戶評分偏好影響的PLSA模型。但這些模型普遍只考慮了文本內容信息,忽視了評論網絡中豐富的結構信息。

      異質信息網絡常用于建模社會媒體系統中不同類型的對象和對象間繁雜的交互關系。許多推薦方法通過HIN來整合各類信息:Shi等[13]提出了異質網絡上的電影推薦系統(Heterogeneous network Recommendation,HeteRecom),通過元路徑包含的語義信息計算電影之間的相似性; Yu等[14]基于元路徑隱藏特征建模用戶和商品之間的內在聯系,分別從全局及個性化角度設計推薦模型; Sun等[15]提出了在科研學術網絡上主題建模,并構建科研學術異質網絡用于挖掘論文作者相似性; 張邦佐等[16]提出融合異質信息網絡和矩陣分解進行總分預測。這些研究表明,在異質信息網絡上的結構信息是可靠合理的。

      2 PLSA和HIN

      2.1 PLSA模型

      PLSA模型通過期望最大化(Expectation Maximization, EM)算法學習相關參數。圖1是PLSA的概率圖模型。

      圖1 PLSA模型概率圖Fig. 1 Probabilistic graph of PLSA model

      圖1中,d表示一篇文檔,z表示隱含主題或方面,w表示文檔中的詞語。p(di)表示文檔di出現的概率,p(zk|di)表示文檔di中出現主題z為k的概率,是一個多項分布。p(wj|zk)表示主題k下出現詞語wj的概率,也是一個多項分布。圖1中d、w為可觀測變量,主題z為隱藏變量,則可觀測數據(di,wj)的聯合概率分布如下:

      (1)

      其中:i∈{1,2,…,M},M為文檔集大小,j∈{1,2,…,N},N為詞的總數,k∈{1,2,…,K},K表示主題總數。通過EM算法來學習式(1)中的參數p(wj|zk)和p(zk|di)。

      2.2 HIN概念

      異質信息網絡是一種以有向圖為數據結構的特殊的信息網絡,可以包含多類型對象以及多類型的邊。

      定義1 異質信息網絡。給定一個模式(A,R),其中A表示實體集,R表示關系集。信息網絡被定義為有向圖G=(V,E),其中對象類型映射函數為Φ:V→A,關系類型映射函數為Ψ:E→R。每個對象v∈V屬于某一特定的對象類型Φ(v)∈A,每條邊e∈E屬于某一特定的關系類型Ψ(e)∈R。當對象種類|A|>1或關系種類|R|>1時,此網絡即為異質信息網絡。

      異質信息網絡可以有效融合更多的結構信息、包含更豐富的語義,是數據挖掘領域的一個新的方向,異質信息網絡用于推薦時,可以更加細致地描述用戶和商品間的關系。

      3 HINToAsp算法

      方面分預測的主要挑戰(zhàn)是評論的文本建模以及和評分的結合。本文提出一種基于異質信息網絡和主題模型的方面分預測算法(Aspect rating prediction method based on Heterogeneous Information Network and Topic model, HINToAsp),分別從內容信息和結構信息兩個角度構建了Phrase-PLSA和Review HIN模型。通過Phrase-LDA,以短語為單位構建主題模型,挖掘出短語的主題分布;進而通過Review HIN充分考慮用戶和商品間的鏈接信息,有效刻畫用戶行為特性和商品屬性;通過隨機游走框架將兩部分結合一起。模型結構如圖2所示。

      圖2 HINToAsp模型Fig. 2 HINToAsp model

      其中,陰影框表示Review HIN的網絡模式,陰影框中箭頭表示鏈路連接關系;右側為Phrase-PLSA概率圖模型。涉及的概念定義如下。

      用戶(User):用戶u表示用戶集合U中的一人。

      物品(Item):物品s表示物品集合S中的一個商品(如大眾點評數據中的餐館)。

      評論(Review):評論d表示用戶u對物品s的文本評價信息。

      短語(Phrase):由從評論d中抽取的一對詞語〈h,m〉組成,h表示先行詞,m表示修飾詞。

      先行詞(Head Term):先行詞h描述方面信息。

      修飾詞(Modifier Term):修飾詞m描述情感信息。

      總評分(Overall Rating):每條評論d對應的總評分r,通常為1~5的整數評分。

      方面(Aspect):方面z表示物品s的一個屬性或方面。

      方面評分(Aspect Rating):方面評分az表示物品s在z方面的打分。

      3.1 Phrase-PLSA模型

      本文提出一種改進的Phrase-PLSA模型,用于融合評論和評分等內容信息進行主題挖掘和方面分預測,圖3為對應的概率圖。

      圖3 改進的Phrase-PLSA模型概率圖Fig. 3 Probabilistic graph of improved Phrase-PLSA model

      Phrase-PLSA采用EM算法推導參數迭代計算公式,詳細推導過程如下。

      E步中,需要構造下界函數L0,計算公式如下:

      (2)

      q(zk)=p(zk|h,m,r,d;Λold)=

      (3)

      因此,每次迭代過程中,式(2)中的const只與上一輪的結果有關,只需最大化L即可:

      lgp(hjh,mjm,rs,di,zk|Λ)

      (4)

      其中:p(hjh,mjm,rs,di,zk|Λ)=p(mjm|rs,zk)p(hjm|zk)p(zk|di)p(rs|di)p(di),Nh為先行詞總數,Nm表示修飾詞總數。

      (5)

      計算得到:

      p(mjm|rs,zk) ∝

      n(hjh,mjm,rs,di)p(zk|hjh,mjm,rs,di;Λold)

      (6)

      因此p(mjm|rs,zk)的更新函數為:

      p(mjm|rs,zk)=

      (7)

      同理,其他參數的更新函數為:

      p(hjh|zk)=

      (8)

      (9)

      (10)

      (11)

      3.2 評論異質信息網絡

      在購物或消費過程中,不同用戶對不同商品撰寫對應的評論文本,這種行為構成了一種評論網絡,如圖4(a)所示。本文提出構建基于評論的異質網絡,其模式如圖4(b)所示。網絡中有用戶(U)、商品(S)、評論(D)等三種類型的節(jié)點,同時包含了多種元路徑及其蘊含的物理意義,如u1d1s1表示用戶u1對商品s1撰寫評論d1。

      圖4 評論異質信息網絡及其模式Fig. 4 Structure of Review HIN and its’ schema

      主題在評論D和與其相關的用戶U和商品S間傳播。給定一條評論的主題分布p(zk|di),一個用戶u的主題分布按式(12)計算:

      (12)

      其中:Du表示由u撰寫的評論集合。相似地,一個商品s的主題分布的計算公式如下:

      (13)

      另一方面,主題分布也可以從用戶U和商品S傳播到評論D中。根據通過主題模型估算出的評論的內在主題分布,提出如下主題傳播算法:

      (14)

      其中:di是用戶u對商品s的評價。ξ表示主題傳播過程中,傳播偏好參數,用于調節(jié)Phrase-PLSA中挖掘的主題分布和Review HIN上傳播的主題分布的權重影響:ξ為0表示算法僅考慮Review HIN部分;ξ為1表示算法僅考慮Phrase-PLSA部分,稱之為HINToAsps。

      3.3 方面識別和方面分預測

      為驗證模型有效性,需要將預測的方面評分與真實的方面評分對比。由于預測方面應當與語料庫中的要求的方面相對應,因此在構建模型時需要給每個方面預設部分先驗詞語,如后文4.1節(jié)。

      在實驗中,方面z加入先驗知識,計算公式為:

      p(hjm|zk)=

      (15)

      其中:τ(hjm,zk)表示詞語的先驗信息,當hjm的主題為zk時,τ(hjm,zk)=1,否則τ(hjm,zk)=0。

      方面識別 根據從模型中學習的參數,基于式(16)計算出對應的phrase屬于的方面。

      (16)

      方面分預測 給定若干短語{〈h,m〉}所描述的實體e時,預測方面z上的得分az。預測公式如下:

      (17)

      3.4 統一模型

      融合HIN和Phrase-PLSA的HINToAsp算法的具體步驟如下。

      輸入 評論集D,對應評論短語集{〈h,m〉},集合R,用戶集U,商品集S,評論短語先驗信息;

      輸出 每個phrase屬于的主題及對應評分。

      1) 隨機初始化p(mjm|rs,zk)、p(hjh|zk)、p(zk|di)、p(di)、p(rs|di)依據式(15)更新p(hjm|zk)。

      2) E步:計算給定參數p(mjm|rs,zk)、p(hjh|zk)、p(zk|di)、p(rs|di)、p(di)時隱藏變量的后驗概率,即p(hjh,mjm,rs,di,zk|Λ)。

      3) M步:最大化下界函數L0,根據式(7)~(11)更新參數p(mjm|rs,zk)、p(hjh|zk)、p(zk|di)、p(rs|di)、p(di)。

      4) 返回步驟2)繼續(xù)迭代,直至收斂結束迭代。

      5) 依據式(16)計算得到在Phrase-PLSA上挖掘的評論短語主題。

      6) 根據式(12)~(13)將評論集合的主題傳遞給與其相關的用戶集U和商品集S。

      7) 根據式(14)將用戶U和商品(如餐館)S的主題分布傳播到相關的評論集合D。

      8) 返回步驟5)繼續(xù)迭代直至收斂結束迭代。

      9) 固定p(zk|di),重復步驟2)~4)的EM迭代,直至收斂結束迭代。

      10) 依據式(16),(17)計算融合Phrase-PLSA和HIN信息,得到每條評論短語的主題及對應評分。

      4 實驗與分析

      本章在大眾點評(Dianping)和TripAdvisor的數據集上進行了不同規(guī)模的實驗,驗證了HINToAsp的有效性和泛化性能。

      4.1 數據預處理及參數設置

      實驗選取數據集為大眾點評和TripAdvisor應用上采集的數據集。大眾點評是一個集合餐飲娛樂等商家的中文社會媒體平臺,消費者可以在上面對商家的“口味”“服務”“環(huán)境”等方面評分,并撰寫評論。與“大眾點評”相似,TripAdvisor上用戶的評價包括了總分,英文評論以及在“價值”(Value)“服務”(Service)和“食物”(Food)方面上評分。數據集的統計信息如表1所示。

      數據預處理 主要是從評價中抽取短語,由于兩個數據集是不同語言的,所以需要不同的預處理過程。TripAdvisor數據集的預處理過程與文獻[1]相似,過程為:1)利用POS(Part-Of-Speech) Tagging標注詞性;2)根據詞性標注及文獻[1]中的規(guī)則提取短語;3)采用Porter Stemmer進行詞根還原。而處理大眾點評數據集時,不需要詞根還原,但在標注詞性之前需要分詞。本文采用Word Segmenter中文分詞工具。

      先驗信息 本文選取先驗評論短語見表2。

      表2 兩個數據集上的先驗詞語Tab. 2 Prior terms of two datasets

      4.2 評價指標及對比實驗

      實驗采用均方根誤差(Root Mean Square Error, RMSE)和皮爾遜相關系數(Pearson Correlation Coefficient, PCC)兩個評價指標來評價模型有效性。其中: RMSE用于衡量預測值和真實值之間的誤差,值越小則算法效果越好;PCC用于衡量集合數據之間的線性關系,比較預測值和實際值是否有相同的趨勢變化,值越接近于1則相關性越強。RMSE和PCC的計算公式如下:

      (18)

      (19)

      本文實驗和三個方面分預測的代表性方法四元組PLSA(Quad-tuples PLSA,QPLSA)[17]、高斯分布的情緒評估(Gaussian distribution for RAting Over Sentiments,GRAOS)模型[18]及情緒均衡主題模型(Sentiment-Aligned Topic Model,SATM)[11]進行了準確度效果對比;此外,還對比了只使用主題模型而忽略異質網絡的HINToAsp的模型,稱之為

      HINToAsps。

      QPLSA提出了一個四元組概率隱藏語義分析模型,四元組是指先行詞、修飾詞、實體和評分; GRAOS是一個半監(jiān)督的LDA模型。模型從帶有總評分的訓練數據中挖掘出帶有打分的方面信息,用于分析未被打分的數據的總評分; SATM提出了情感排列主題模型,引入了情感詞典和總評分分布這兩類額外的信息用于評分預測。

      4.3 準確性實驗

      采用RMSE評價模型方面分預測的準確性,設定主題個數K=3,實驗在規(guī)模分別為25%、50%、75%、100%數據集上進行實驗,實驗結果見表3。其中,HINToAsp的參數ξ的取值為4.4節(jié)中的最優(yōu)取值,在大眾點評數據集中ξ設置為0.9,TripAdvisor數據集中ξ設置為0.85。

      表3 實驗結果Tab. 3 Experimental resilt

      由表3比較后發(fā)現,相對于對比的方法,在兩個數據集合的各規(guī)模數據集上,HINToAsp模型的RMSE的數值均最小,預測精度最高。而沒有引入HIN的HINToAsps效果和QPLSA、SATM模型的效果持平,比GRAOS算法效果差。據此,驗證了引入結構信息能夠有效提高評分預測的準確性,以及HINToAsp模型的有效性。此外,在大部分情況下,HINToAsp模型預測結果的PCC值更好,將方面評分預測問題擴展為方面推薦問題時,HINToAsp算法可以取得更好的效果,推薦的結果更接近真實排名。

      綜合分析表3,盡管GRAOS在預測精度上效果也比較好,但是其PCC值是幾個模型中最差的,而本文算法效果在兩個指標上的效果均最好。

      4.4 參數實驗

      在HINToAsp模型中,給定參數ξ調節(jié)主題挖掘模型和主題傳播模型的貢獻度。ξ取值為0至1中的實數。當ξ=1時,主題傳播模型不生效,只使用主題挖掘模型部分。參數ξ的取值由參數實驗決定。實驗結果見圖5。

      由圖5(a)可知,大眾點評數據集上,ξ=0.9時,取得最好的效果,ξ=1時,模型效果不是最好,因此可見,不能盲目使用結構信息。由圖5(b)可知, TripAdvisor數據集上ξ=0.85時取得最好預測效果。

      5 結語

      本文提出了一種基于異質信息網絡和主題模型的方面分預測算法HINToAsp。從內容信息和結構信息角度分別構建了基于PLSA的主題挖掘模型以及基于HIN的主題傳播模型;充分考慮了評論、評分等文本信息以及用戶和商品之間構成的鏈接信息。本文通過和其他算法如QPLSA、SATM的對比,驗證了HINToAsp算法的有效性。參數實驗表明,恰當引入結構信息可以更加高效地進行評分預測和在評分預測基礎上的推薦任務。

      圖5 參數實驗結果Fig. 5 Parameter experimental results

      References)

      [1] MOGHADDAM S, ESTER M. On the design of LDA models for aspect-based opinion mining[C]// Proceedings of the 21st ACM International Conference on Information and Knowledge Management. New York: ACM, 2012: 803-812.

      [2] 林曉勇, 代苓苓, 史晟輝, 等. 基于主題模型的矩陣分解推薦算法[J]. 計算機應用, 2015, 35(S2): 122-124.(LIN X Y, DAI L L, SHI S H, et al. Matrix factorization recommendation based on topic model [J]. Journal of Computer Applications, 2015, 35(S2): 122-124.)

      [3] 王春龍, 張敬旭. 基于 LDA 的改進 K-means 算法在文本聚類中的應用[J]. 計算機應用, 2014, 34(1): 249-254. (WANG C L, ZHANG J X. Improved K-means algorithm based on latent Dirichlet allocation for text clustering[J]. Journal of Computer Applications, 2014, 34(1): 249-254.)

      [4] HOFMANN T. Probabilistic latent semantic indexing[C]//Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 1999: 50-57.

      [5] BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3(1): 993-1022.

      [6] LU Y, ZHAI C X, SUNDARESAN N. Rated aspect summarization of short comments[C]// Proceedings of the 18th International Conference on World Wide Web. New York: ACM, 2009: 131-140.

      [7] SUN Y, HAN J, ZHAO P, et al. RankClus: integrating clustering with ranking for heterogeneous information network analysis[C]// Proceedings of the 12th International Conference on Extending Database Technology: Advances in Database Technology. New York:ACM, 2009: 565-576.

      [8] SHI C, LI Y, ZHANG J, et al. A survey of heterogeneous information network analysis[J]. IEEE Transactions on Knowledge and Data Engineering, 2017, 29(1): 17-37.

      [9] ZHENG X, LIN Z, WANG X, et al. Incorporating appraisal expression patterns into topic modeling for aspect and sentiment word identification[J]. Knowledge-Based Systems, 2014, 61(2): 29-47.

      [10] WANG H, LU Y, ZHAI C X. Latent aspect rating analysis without aspect keyword supervision[C]// Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2011: 618-626.

      [11] WANG H, ESTER M. A sentiment-aligned topic model for product aspect rating prediction[EB/OL].[2016- 11- 20]. http://www.anthology.aclweb.org/D/D14/D14-1126.pdf.

      [12] LI Y, SHI C, ZHAO H, et al. Aspect mining with rating bias[C]// Proceedings of the 2016 Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Berlin: Springer International Publishing, 2016: 458-474.

      [13] SHI C, ZHOU C, KONG X, et al. HeteRecom: a semantic-based recommendation system in heterogeneous networks[C]// Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2012: 1552-1555.

      [14] YU X, REN X, SUN Y, et al. Personalized entity recommendation: a heterogeneous information network approach[C]// Proceedings of the 7th ACM International Conference on Web Search and Data Mining. New York: ACM, 2014: 283-292.

      [15] SUN Y, HAN J. Mining heterogeneous information networks: a structural analysis approach[J]. ACM SIGKDD Explorations Newsletter, 2013, 14(2): 20-28.

      [16] 張邦佐, 桂欣, 何濤,等. 一種融合異構信息網絡和評分矩陣的推薦新算法[J]. 計算機研究與發(fā)展, 2014, 51(S2):69-75.(ZHANG B Z, GUI X, HE T, et al. A novel recommender algorithm on fusion heterogeneous information network and rating matrix[J]. Journal of Computer Research and Development, 2014, 51(S2): 69-75.)

      [17] LUO W, ZHUANG F, ZHAO W, et al. QPLSA: Utilizing quad-tuples for aspect identification and rating[J]. Information Processing and Management, 2015, 51(1): 25-41.

      [18] LUO W, ZHUANG F, CHENG X, et al. Ratable aspects over sentiments: predicting ratings for unrated reviews[C]// Proceedings of the 2014 IEEE International Conference on Data Mining. Piscataway, NJ: IEEE, 2014: 380-389.

      This work is partially supported by the National Natural Science Foundation of China (61375058), the National Basic Research Program (973 Program) of China (2013cb329606), the Co-construction Project of Beijing Municipal Commission of Education.

      JIYugang, born in 1993, Ph. D. candidate. His research interests include data mining, machine learning.

      LIYitong, born in 1992, M. S. Her research interests include data mining, machine learning.

      SHIChuan, born in 1978. Ph. D., professor. His research interests include data mining, machine learning, evolutionary computing.

      Aspectratingpredictionbasedonheterogeneousnetworkandtopicmodel

      JI Yugang1,2, LI Yitong1,2, SHI Chuan1,2*

      (1.SchoolofComputerScience,BeijingUniversityofPostsandTelecommunications,Beijing100876,China;2.BeijingKeyLaboratoryofIntelligentTelecommunicationSoftwareandMultimedia
      (BeijingUniversityofPostsandTelecommunications),Beijing100876,China)

      Concerning the problem that traditional aspect rating prediction methods just pay attention to textual information while ignoring the structural information in the review network, a novel Aspect rating prediction method based on Heterogeneous Information Network and Topic model (HINToAsp) was proposed for effectively integering textual information and structural information. Firstly, a new review topic model of opinion phrases called Phrase-PLSA (Phrase-based Probabilistic Latent Semantic Analysis) was put forward to integrate textual information of reviews and ratings for mining aspect topics. And then, considering the rich structural information among users, reviews, and items, a topic propagation model was designed by the aid of constructing “User-Review-Item” heterogeneous information network. Finally, a random walk framework was used to combine textual information and structural information effectively, which insured an accurate aspect rating prediction. The experimental results on both Dianping corpora and TripAdvisor corpora demonstrate that HINToAsp is more effective than recent methods like the Quad-tuples PLSA (QPLSA) model, the Gaussian distribution for RAting Over Sentiments (GRAOS) model and the Sentiment-Aligned Topic Model (SATM), and has better performance on recommendation system.

      aspect rating prediction; Heterogeneous Information Network (HIN); topic model; structural information; recommendation system

      2017- 05- 11;

      2017- 05- 31。

      國家自然科學基金資助項目(61375058);國家973計劃項目(2013cb329606);北京市教育委員會共建項目。

      吉余崗(1993—),男,江蘇泰州人,博士研究生,CCF會員,主要研究方向:數據挖掘、機器學習; 李依桐(1992—),女,北京人,碩士,主要研究方向:數據挖掘、機器學習; 石川(1978—),男,北京人,教授,博士,CCF會員,主要研究方向:數據挖掘、機器學習、演化計算。

      1001- 9081(2017)11- 3201- 06

      10.11772/j.issn.1001- 9081.2017.11.3201

      (*通信作者電子郵箱shichuan@bupt.edu.cn)

      TP391

      A

      猜你喜歡
      異質預測算法
      無可預測
      黃河之聲(2022年10期)2022-09-27 13:59:46
      選修2-2期中考試預測卷(A卷)
      選修2-2期中考試預測卷(B卷)
      基于MapReduce的改進Eclat算法
      Travellng thg World Full—time for Rree
      進位加法的兩種算法
      不必預測未來,只需把握現在
      一種改進的整周模糊度去相關算法
      隨機與異質網絡共存的SIS傳染病模型的定性分析
      Ag2CO3/Ag2O異質p-n結光催化劑的制備及其可見光光催化性能
      华容县| 阜阳市| 白朗县| 饶阳县| 大兴区| 乌审旗| 桂阳县| 毕节市| 山东| 盘锦市| 信丰县| 宣城市| 南安市| 常山县| 乌拉特中旗| 昭觉县| 连州市| 遂溪县| 溆浦县| 磴口县| 通州区| 遂宁市| 北海市| 山东省| 抚远县| 土默特左旗| 赞皇县| 东安县| 霍城县| 青冈县| 永寿县| 农安县| 新巴尔虎左旗| 太仓市| 兴山县| 天全县| 夏河县| 高碑店市| 突泉县| 旅游| 巍山|