• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于LDA主題模型的標簽推薦方法研究

      2016-02-15 07:07:12
      現代情報 2016年2期
      關鍵詞:社會化文檔標簽

      張 亮

      (武漢工程大學管理學院,湖北武漢430205)

      基于LDA主題模型的標簽推薦方法研究

      張 亮

      (武漢工程大學管理學院,湖北武漢430205)

      針對現有的標簽推薦方法存在的推薦準確率不高與效果不理想等問題,本文提出了基于LDA主題模型的社會化標簽推薦方法。該方法利用LDA主題建模技術將傳統(tǒng)的基于對象間關系的推薦方法擴展到融合對象間關系與資源內容特征的統(tǒng)一推薦。實驗結果表明,該方法取得了理想的預期效果,能夠顯著提高標簽推薦的質量與效果。

      標簽推薦;LDA主題模型;推薦方法

      標簽作為Web2.0時代信息分類與索引的重要組織方式,其主要原因在于Web2.0強調以用戶為中心、用戶參與的互聯網開放式架構理念,網絡信息的產生、發(fā)布從傳統(tǒng)的網站管理者轉移到普通的網絡用戶身上;但由于普通用戶對專業(yè)的信息分類體系缺乏了解,基于傳統(tǒng)的固定分類體系的信息組織方法難以適應Web2.0時代的信息發(fā)布與組織模式。標簽系統(tǒng)作為傳統(tǒng)分類方法的替代,其隨意、靈活、無等級劃分的特征使得用戶能夠很容易利用該系統(tǒng)進行Web2.0上的信息分類與組織,成為Web2.0時代網絡信息的重要組織方式[1]。隨著社會化標注系統(tǒng)的快速發(fā)展,用戶在使用這類系統(tǒng)進行資源標注時,通常會選擇其他用戶或自己已使用過的標簽進行資源推薦,而由于社會化標簽創(chuàng)建的隨意性和個性化,難以保證標簽的準確性和可用性,且隨著用戶數量和資源規(guī)模的增長,標簽數量也隨之增多,致使標簽系統(tǒng)中存在大量模糊的、可信度低的標簽。為解決這些問題,目前的研究主要集中在標簽推薦領域,即利用高效的標簽推薦方法提升資源所附帶標簽的質量[2]?,F有的標簽推薦方法主要分為3類:

      (1)基于資源內容的標簽推薦方法?;谫Y源內容的標簽推薦方法從標注資源所具備的屬性特征出發(fā),通過提取描述資源內容的關鍵詞作為標簽推薦的依據。由于該方法在處理過程中僅僅利用了資源本身的信息,沒有兼顧相似資源、鄰居用戶等信息,無法發(fā)揮標簽的社會化特性,在實際運用過程中的準確率與效率并不理想[3]。

      (2)基于協同過濾的標簽推薦方法。基于協同過濾的標簽推薦方法利用協同過濾技術獲取相似資源、鄰居用戶等標簽信息,實現對目標資源的推薦,如Hotho等[4]提出的FolkRank方法利用社會化標注系統(tǒng)中用戶、標簽、資源三者之間存在的關聯信息對標簽進行排序,根據排序結果進行協同推薦;Mishne[5]提出的AutoTag方法利用相似度計算獲取與目標資源內容相似的資源,并將相似資源的標簽進行聚類、排序,根據排序結果實現協同推薦。這類方法的關鍵是準確獲取相似資源的標簽信息,然后從已有的標簽庫中查找到相似標簽進行推薦,故該方法的推薦效果會受到候選標簽庫規(guī)模、標簽相似度計算方法準確度的影響[6]。

      (3)基于標簽語義的標簽推薦方法?;跇撕炚Z義的標簽推薦方法利用用戶、標簽、資源三者之間蘊含的語義關系獲取推薦標簽所需的知識并運用到推薦任務中,提高標簽推薦的準確性與推薦效果,如Adrian[7]提出的ConTag方法將本體思想運用到標簽推薦之中,通過將用戶、標簽、資源三者之間的關系表達成RDF格式進行文檔主題建模,實現基于語義主題的標簽推薦;Marchetti等[8]提出的Semkey方法將語義網與協同過濾技術相結合進行基于語義協作的標簽推薦。

      這些標簽推薦方法在一定程度上提高了標簽推薦的準確性與效率,改善了社會化標簽系統(tǒng)的質量和效果。但這些方法主要利用對象間關系進行標簽推薦,忽略了資源本身的特征信息,當用戶、標簽、資源之間的關系比較稀疏時,會嚴重制約標簽推薦的準確度與效果。針對這些問題,本文研究和設計了一種基于LDA(Latent Dirichlet Allocation,LDA)主題模型的標簽推薦方法。該方法綜合考慮用戶、標簽、資源之間的潛在關系及資源內容特性,利用LDA主題模型將用戶、標簽、資源及資源內容進行關聯,實現標簽系統(tǒng)中對象間關系與資源內容的融合分析與綜合推薦。

      1 LDA主題模型原理

      LDA主題模型是一個以“文檔-主題-關鍵詞”為層次結構、通過加入Dirichlet先驗分布來解決PLSA主題模型中存在的過擬合現象的三層貝葉斯概率模型,其基本思想是[9]假設任何文本都可以表示成一系列主題的混合分布,記為P(z);同時任意主題都是關鍵詞列表中所有單詞的概率分布,記為P(w z),則一個文本中每個關鍵詞的概念分布為:

      LDA主題模型認為文檔是若干關鍵詞的集合,在構建主題模型過程中不考慮任何語法或詞語出現的順序關系,利用該模型產生文檔的貝葉斯網絡圖如圖1所示。

      圖1 LDA的貝葉斯網絡圖

      圖1 中,隨機變量θ表示目標文檔中的主題分布向量,隱含變量z表示目標文檔分配在每個關鍵詞上的N維主題向量,用來體現文檔與關鍵詞之間的潛在關系,w表示目標文檔中關鍵詞的向量表示,α、β分別表示文檔和關鍵詞滿足相應的Dirichlet分布時的參數。

      利用LDA模型進行文檔主題建模時的核心問題是估計隱含變量的概率分布情況,即獲取目標文檔中隱含主題分布和各隱含主題的關鍵詞分布,其處理過程描述如下:

      (1)獲取文檔d中每個主題發(fā)生的概率θd,即抽取服從Dirichlet(α)分布的θd值,其中α是Dirichlet分布的參數;

      (2)獲取文檔d中每個關鍵詞wi的抽樣主題zi,即從θd的多項式分布中抽取滿足條件的zi:P(ziα);

      (3)獲取文檔d中所有關鍵詞的向量表示wi,即從zj的多項式分布中抽取滿足條件的wi:P(wizj,β)。

      上述處理過程中,β主要用來描述特定主題條件下生成的某個關鍵詞的概率,是以主題數目K和特征關鍵詞V組成的二維向量空間為表現形式,即β=K×V,且βij=P(wj=1zi=1)。對于給定的語料庫D,LDA主題建模過程就是通過z和θ的值獲取使得P(Dα,β)極大化時參數α和β的值,通過這些參數值得到文檔的主題分布情況以及所有關鍵詞所屬的主題類別。由于z和θ均為潛在變量,通過直接計算是無法得到的,常用的方法是通過吉布斯抽樣、變分貝葉斯、最大似然估計等方法進行參數估計[10]。

      2 基于LDA主題模型的標簽推薦方法

      將LDA主題模型運用到社會化標簽推薦方法中的典型研究包括Harvey等[11]提出的基于LDA主題建模的TTM方法,該方法將標簽系統(tǒng)中的用戶、標簽、資源分別構建相應的主題模型,使其可以估計用戶與資源的主題分布情況以及標簽關鍵詞的主題分布;Subram等[12]將資源的相似性視為依條件概率的隨機過程,并將其融入到標簽主題的建模中,在此基礎上提出了基于Regularized LDA主題建模的標簽推薦方法,驗證了LDA主題模型在標簽推薦方面具有很好的可擴展性。本文在這些研究的基礎上,將LDA主題模型融入社會化標簽推薦方法之中,研究和設計了基于LDA主題模型的社會化標簽推薦方法。本文方法與這些已有方法的區(qū)別主要體現在本文方法將社會化標注系統(tǒng)中的用戶、標簽、資源及資源內容特征進行融合分析,構建統(tǒng)一的LDA主題模型,使標簽推薦從傳統(tǒng)的分析對象間關系擴展到融合關系與資源內容特征的綜合分析,實現基于關系與內容特征的主題建模與推薦,該方法的貝葉斯網絡圖如圖2所示。

      圖2 基于LDA主題模型的標簽推薦貝葉斯網絡圖

      圖2 中,D表示文檔資源的總數,N表示文檔資源中資源內容特征關鍵詞的總數,M表示資源標簽中關鍵詞的總數,K表示所有文檔資源中包含的主題總數,L表示所有標簽中包含的主題總數。利用該模型進行主題建模的過程如下:

      (1)針對任意文檔資源di,抽取服從Dirichlet(α)分布的θci和θti,其中,θci表示文檔資源di中主題為k的概率,主要針對文檔資源本身內容特征獲取主題;θti表示文檔資源di的標簽中關鍵詞的主題為l的概率,主要針對文檔資源標簽中的關鍵詞獲取主題;

      (2)針對文檔資源本身內容特征,選取服從Dirichlet(β)分布的δk,其中,δk表示對于給定的主題k,所能得到的所有資源特征關鍵詞的概率;針對文檔資源標簽中的關鍵詞,選擇服從Dirichlet(β)分布的φl,其中,φl表示對于給定的主題l,所能得到的所有標簽關鍵詞的概率;

      (3)針對文檔資源di中的所有內容特征關鍵詞,根據抽取的θci得到相應的主題zc,再根據δzc選擇主題詞wc;針對文檔資源di標簽中的所有標簽關鍵詞,根據抽取的θti得到相應的主題zt,再根據φzt選擇主題詞wt。

      針對上述過程中出現的參數,本文采用吉布斯抽樣方法[13]進行參數學習,并通過將文檔資源內容和資源標簽進行分割成獨立的文檔單元實現參數估計,相應的參數估計方法為:

      上述公式中各變量的含義如表1所示:

      表1 參數估計方法中各變量含義

      利用上述方法進行主題建模和參數估計后,則對于任意文檔資源di被用戶u*創(chuàng)作的概率可以表示為:

      對于文檔資源di中標簽t出現的概率可以表示為:

      則綜合文檔資源內容和標簽關鍵詞的統(tǒng)一推薦可以表示為:

      3 實驗與結果分析

      本文采用對比實驗法來檢驗所提出的基于LDA主題模型的標簽推薦方法的準確性與效果。

      3.1 實驗數據來源

      實驗數據選自美國Minnesota大學計算機科學與工程學院的GroupLens項目組收集的MovieLens10M100K數據集[14]。該數據集含有movies.dat、ratings.dat、tags.dat 3個文件,其中,movies.dat文件主要存儲電影的編號ID、名稱Title和類別Genres信息,ragings.dat文件主要存儲用戶對電影的評分Rating和評分時間Timestamp信息,tags.dat文件主要存儲用戶對電影標記的標簽Tag和標記時間Timestamp信息。

      3.2 實驗環(huán)境與測評指標

      實驗環(huán)境為處理器為Inter(R)Core(TM)4CPU 4400 2.0GHz,內存4G,硬盤500G,操作系統(tǒng)為Windows 7,編程語言為Java(JDK 1.6.2)。實驗測評指標選擇標簽推薦領域常用的推薦準確率(Precision,P)、推薦召回率(Recall,R)、F1值,其計算方法為:

      其中,TP表示推薦結果與人工評價都認為應該具有的標簽數量,FP表示推薦結果具有但人工評價認為不該具有的標簽數量,FN表示推薦結果沒有但人工評價認為應該具有的標簽數量。

      3.3 實驗過程與結果

      本文選擇標簽推薦領域常用的FolkRank方法、Hosvd-Direct方法、TTM方法作為參照方法進行對比實驗。實驗結果如表2所示。

      表2 實驗結果

      3.4 實驗結果分析

      通過上述實驗結果可以看出,本文提出的基于LDA主題模型的標簽推薦方法在推薦準確率、推薦召回率、F1值等測評指標上的結果值明顯優(yōu)于現有的標簽推薦方法,能夠在實際運用過程中提供更好的標簽推薦服務。其主要原因在于本文方法綜合運用用戶、標簽、資源及資源內容特征進行統(tǒng)一主題建模,能夠在傳統(tǒng)的基于對象關系分析的推薦方法的基礎上融入資源內容特征,實現基于對象關系和內容特征的綜合推薦,故能夠取得比傳統(tǒng)推薦方法更好的實驗效果。

      通過將每個主題下的標簽按照概率進行降序排列,同時記錄各主題下的標簽集,可以得到該主題的直觀標簽表示,表3給出了其中5個主題的前8個推薦標簽。

      表3 部分主題與推薦標簽

      4 結束語

      標簽是Web2.0時代信息分類與組織的重要方式,是以用戶為中心、用戶參與創(chuàng)建互聯網內容的主要表現形式。本文針對現有的標簽推薦方法存在的推薦準確性不高和推薦效果不理想等問題,提出了基于LDA主題模型的社會化標簽推薦方法。該方法利用LDA主題建模技術將社會化標注系統(tǒng)中的用戶、標簽、資源及資源內容特征進行統(tǒng)一主題建模,將傳統(tǒng)的基于對象間關系的推薦擴展到基于對象間關系和資源內容特征的綜合推薦。通過在真實的測試數據集上進行實驗后表明,融合對象間關系與資源內容特征的推薦方法明顯優(yōu)于現有的標簽推薦方法,能夠顯著地提高標簽推薦的質量和效果。

      [1]張斌,張引,高克寧,等.融合關系與內容分析的社會標簽推薦[J].軟件學報,2012,23(3):476-488.

      [2]Seitlinger P,Kowald D,Trattner C,et al.Recommending tags with a model of human categorization[C].Proceedings of the 22ndACM international conference on Conference on information&knowledge management.ACM,2013:2381-2386.

      [3]王海雷,俞學寧.基于隨機游走算法的社會化標簽的用戶推薦[J].計算機工程與設計,2013,34(7):2388-2391.

      [4]Hotho A,Jaschke R,Schmitz C.Information Retrieval in Folksomomies:Search and Ranking[M].Berlin:Springer,2006:411-426.

      [5]Mishne G.AutoTag:A Collaborative Approach to Automated Tag Assignment for Weblog Posts[C].Proceedings of the 15thInternational Conference on World Wide Web,2006:953-954.

      [6]趙亞楠,董晶,董佳梁.基于社會化標注的博客標簽推薦方法[J].計算機工程與設計,2012,33(12):4609-4613.

      [7]Adrian B,Sauermann L,Roth-Berghofer T.Contag:A Semantic Tag Recommendation System[J].Journal of University Computer Science,2007,36(7):297-304.

      [8]Marchetti A,Tescono M,Ronzano F.SemKey:A Semanitc Collaborative Tagging System[C].Proceedings of the 16thInternational Conference on World Wide Web,2007:8-12.

      [9]Blei D M,Ng A Y,Jordan M I.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003,3(4-5):993-1022.

      [10]唐曉波,王洪艷.基于潛在狄利克雷分配模型的微博主題演化分析[J].情報學報,2013,32(3):281-287.

      [11]Harvey M,Baillie M,Ruthven I,et al.Tripartite Hidden Topic Models for Personalized Tag Suggestion[C].Proceedings of the 32ndEuropean Conference on IR Research,2010:432-443.

      [12]Subram V,Pandian S C.Topic ontology-based efficient tag recommendation approach for blogs[J].International Journal of Computational Science and Engineering,2014,9(3):177-187.

      [13]Heinrich G.Parameter Estimation for Text Analysis[OL].http:∥www.arbylon.net/publications/text-est.pdf,2015-12-10.

      [14]GroupLens Research.MovieLens Data Sets[OL].http:∥www.grouplens.org/node/73/,2015-09-15.

      (本文責任編輯:孫國雷)

      Research on Tagging Recommendation Method Based on LDA Topic Model

      Zhang Liang
      (School of Management,Wuhan Institute of Technology,Wuhan Hubei 430205,China)

      This paper proposes a social tagging recommendation method based on LDA topic model to solve the problems of accuracy and effect in existing tagging recommendation method.This method extends the traditional tagging recommendation method based on the relation of objects to combine analysis of the relation of objects and the content of resource by using of LDA modeling technology.The experiment result shows that this methods gets a good expectant performance and dramatically improve the quality and efficiency of tagging recommendation.

      tagging recommendation;LDA topic model;recommendation method

      10.3969/j.issn.1008-0821.2016.02.010

      G203

      A

      1008-0821(2016)02-0053-04

      2015-12-13

      張 亮(1973-),男,講師,博士,研究方向:語義web與數據挖掘。

      猜你喜歡
      社會化文檔標簽
      熊蜂可以進行社會化學習
      有人一聲不吭向你扔了個文檔
      牽手校外,堅持少先隊社會化
      少先隊活動(2021年5期)2021-07-22 08:59:48
      行政權社會化之生成動因闡釋
      無懼標簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      基于RI碼計算的Word復制文檔鑒別
      標簽化傷害了誰
      高校學生體育組織社會化及路徑分析
      體育科技(2016年2期)2016-02-28 17:06:14
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      临城县| 荆门市| 多伦县| 开阳县| 毕节市| 托克逊县| 兴业县| 北票市| 阜南县| 凌海市| 乐清市| 昌黎县| 大同县| 新巴尔虎左旗| 察哈| 玛沁县| 噶尔县| 绥江县| 封开县| 西安市| 梧州市| 梁河县| 平江县| 广安市| 烟台市| 宜宾市| 淄博市| 宜丰县| 徐汇区| 富蕴县| 望城县| 东山县| 获嘉县| 金门县| 策勒县| 内乡县| 北宁市| 华安县| 乐陵市| 太谷县| 武城县|