• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于概率主題模型的景點(diǎn)知識(shí)挖掘及其可視化

      2016-09-29 17:40:26徐潔范玉順白冰
      計(jì)算機(jī)應(yīng)用 2016年8期
      關(guān)鍵詞:旅游文本可視化噪聲

      徐潔 范玉順 白冰

      摘要:針對旅游文本噪聲多、景點(diǎn)多且展示不直觀的問題,提出一種基于概率主題模型的景點(diǎn)主題模型。模型假設(shè)同一篇文檔涉及多個(gè)具有相關(guān)關(guān)系的景點(diǎn),引入“全局景點(diǎn)”過濾噪聲語義,并利用Gibbs采樣算法估計(jì)最大似然函數(shù)的參數(shù),獲取目的地景點(diǎn)的主題分布。實(shí)驗(yàn)通過對景點(diǎn)主題特征進(jìn)行聚類,評估聚類效果從而間接評價(jià)模型訓(xùn)練效果,并定性分析“全局景點(diǎn)”對模型的作用。實(shí)驗(yàn)結(jié)果表明,該模型對旅游文本的建模效果優(yōu)于基準(zhǔn)算法TF-IDF與隱含狄利克雷分布(LDA),且“全局景點(diǎn)”的引入對建模效果有明顯的改善作用。最后通過景點(diǎn)關(guān)聯(lián)圖的方式對實(shí)驗(yàn)結(jié)果進(jìn)行可視化展示。

      關(guān)鍵詞:概率主題模型;旅游文本;噪聲;Gibbs采樣;可視化

      中圖分類號(hào):TP391

      文獻(xiàn)標(biāo)志碼:A

      0引言

      Web 2.0技術(shù)及在線旅游代理(Online Travel Agent, OTA)的飛速發(fā)展導(dǎo)致旅游數(shù)據(jù)爆炸性增長。如何有效地從海量旅游數(shù)據(jù)中挖掘出有用的信息并以直觀方式進(jìn)行展示成為當(dāng)前的迫切需求。

      近年來,對旅游數(shù)據(jù)的挖掘工作多集中于對旅游照片及相應(yīng)元數(shù)據(jù)、標(biāo)簽的研究,如文獻(xiàn)[1-2]等利用Flickr網(wǎng)站用戶上傳的海量旅游照片及標(biāo)簽信息對景點(diǎn)進(jìn)行聚類分析;文獻(xiàn)[3]從Panoramio[4]網(wǎng)站采集照片聚成地標(biāo),并為每個(gè)地標(biāo)找到最具代表性的照片與標(biāo)簽等。隨著文本數(shù)據(jù)挖掘的快速發(fā)展,旅游文本數(shù)據(jù)相關(guān)的研究工作方興未艾,相關(guān)研究工作通??煞譃閮深悾丛~頻分析法和主題挖掘法。詞頻分析法利用詞頻統(tǒng)計(jì)結(jié)果進(jìn)行文本分析,如文獻(xiàn)[5]采用詞頻分析法刻畫目的地旅游感知形象,文獻(xiàn)[6]利用內(nèi)容分析法(Content Analysis, CA)獲取目的地語義網(wǎng)絡(luò)分析圖等。該類方法將單詞視為單純的文本符號(hào),無法識(shí)別其中的語義信息。主題挖掘法采用或擴(kuò)展隱含狄利克雷分布(Latent Dirichlet Allocation, LDA)[7],利用潛在主題識(shí)別語義信息,從而提高文本數(shù)據(jù)挖掘的效果,如文獻(xiàn)[8-9]提出一種地點(diǎn)主題(Location-Topic, LT)模型用于挖掘目的地的主題分布信息,以文本標(biāo)簽形式生成目的地概述。然而旅游目的地由景點(diǎn)組成,目的地特征由景點(diǎn)的類型與特征構(gòu)成,同一文本可能涉及不同景點(diǎn),這些景點(diǎn)間具有地理位置、主題等關(guān)聯(lián)關(guān)系(如圖1方框標(biāo)注),上述方法對地點(diǎn)劃分粒度較大且沒有考慮景點(diǎn)關(guān)聯(lián)關(guān)系。另外,旅游文本中常包含時(shí)間、門票、電話等與景點(diǎn)主題特征相關(guān)性不大的信息,即“噪聲語義”(如圖1橢圓標(biāo)注),多數(shù)主題挖掘方法沒有考慮噪聲語義消除問題,LT模型雖可利用“全局主題”過濾噪聲語義,但模型復(fù)雜度較高。為充分利用景點(diǎn)間的關(guān)聯(lián)關(guān)系,有效消除噪聲語義,本文提出一種簡單的基于概率主題模型的景點(diǎn)主題模型(Scenic spots-Topic Model with Global Scenic spot,GS-STM)以無監(jiān)督地從旅游文本中挖掘景點(diǎn)主題分布信息,并以景點(diǎn)關(guān)聯(lián)圖的形式展示旅游目的地的景點(diǎn)類型與主題特征。

      1相關(guān)工作

      1.1概率主題模型

      概率主題模型是針對文本中隱含主題的一種建模方法。由于不需要對文檔進(jìn)行人工標(biāo)注及可自動(dòng)分析主題的特點(diǎn),概率主題模型已被成功運(yùn)用到多種文本挖掘問題中。它的主要思想是認(rèn)為文檔是若干主題的混合分布,而每個(gè)主題又是一個(gè)關(guān)于單詞的概率分布。

      自提出以來,概率主題模型經(jīng)歷了潛在語義分析(Latent Sematic Analysis, LSA)[11]、概率潛在語義分析(probabilistic Latent Sematic Analysis, pLSA)[12]、LDA、 分層狄利克雷過程(Hierarchical Dirichlet Process, HDP)[13]等階段的發(fā)展,目前以LDA應(yīng)用最為廣泛。LDA是一種生成模型:對于新文檔中的每個(gè)單詞,通過主題的分布隨機(jī)得到文檔的某個(gè)主題,然后通過該主題中單詞的分布隨機(jī)得到一個(gè)單詞。

      如圖2所示,LDA是典型的有向概率圖模型[14],超參數(shù)α反映了文檔集合中隱含主題間的相對強(qiáng)弱,超參數(shù)β刻畫所有隱含主題自身的概率分布。

      1.2可視化模型

      可視化技術(shù)因具備直觀、易理解的特點(diǎn)被廣泛應(yīng)用于各個(gè)領(lǐng)域,它用二維或三維圖像的方式展現(xiàn)數(shù)據(jù),便于發(fā)現(xiàn)數(shù)據(jù)的分布特征及其中蘊(yùn)含的模式特征[15]。圖是一種典型的數(shù)據(jù)結(jié)構(gòu),很多數(shù)據(jù)均可通過圖來表達(dá)。

      力導(dǎo)向模型(force directed model)是一種基于物理方法的可視化模型。該模型將圖類比為一個(gè)虛擬的物理系統(tǒng),圖的各個(gè)節(jié)點(diǎn)看作系統(tǒng)中的質(zhì)點(diǎn),節(jié)點(diǎn)之間的邊看作節(jié)點(diǎn)間的相互作用力(同時(shí)包括引力和斥力)。模型將胡克定律作為基本算法,每次迭代,節(jié)點(diǎn)向所受合力的方向移動(dòng),經(jīng)足夠的迭代后,系統(tǒng)達(dá)到平衡,此時(shí)系統(tǒng)中的能量達(dá)到最小,圖的可視化顯示最為美觀。

      力導(dǎo)向算法基本過程如下:

      1)隨機(jī)分布初始節(jié)點(diǎn)位置;

      2)分別計(jì)算局部區(qū)域內(nèi)邊的引力和斥力所產(chǎn)生的兩端節(jié)點(diǎn)的單位位移;

      3)累加步驟2)得到的所有節(jié)點(diǎn)的單位位移;

      4)重復(fù)步驟2)、3)直到達(dá)到理想效果。

      2景點(diǎn)主題模型

      本章介紹GS-STM,并采用Gibbs采樣[16]算法對模型進(jìn)行求解,從而獲得景點(diǎn)與主題、主題與單詞之間的概率分布。

      從圖4可以看出,三種基于概率主題模型的方法——GS-STM、STM、LDA的DBI值均低于TF-IDF,說明基于概率主題模型的方法能夠有效利用文檔中的語義信息;不同主題數(shù)下,GS-STM、STM的DBI值均高于LDA,說明考慮文檔中多個(gè)景點(diǎn)對提升模型建模效果是有效的;而GS-STM的DBI值總是高于STM,說明全局景點(diǎn)的引入能明顯改善模型建模效果。

      3.3.2定性分析

      分別采用GS-STM、STM對旅游文本進(jìn)行訓(xùn)練,結(jié)果顯示當(dāng)主題數(shù)為80時(shí),訓(xùn)練效果最好。設(shè)定主題數(shù)為80,STM得到80個(gè)主題,而GS-STM方法得到68個(gè)有效主題、12個(gè)無效主題。

      表2~4分別列出了GS-STM訓(xùn)練得到的5個(gè)“有效主題”“無效主題”及STM得到的5個(gè)主題,每個(gè)主題顯示5個(gè)

      最相關(guān)單詞和5個(gè)最相關(guān)景點(diǎn)。

      表2中,“有效主題”對應(yīng)特定景點(diǎn)類型,如“運(yùn)動(dòng)”“購物”“電影”等主題。具有地理相關(guān)或主題相關(guān)關(guān)系的景點(diǎn)被列入同一主題,如Topic#38中,“鳥巢”“奧林匹克體育中心”等體育場館被列入同一主題,同時(shí)與之地理鄰近且主題相關(guān)的“奧林匹克森林公園”等也被列入同一主題。

      表3中,從主題最相關(guān)單詞角度看,各主題中單詞多為“噪聲語義”,如Topic#32中,“門票”“電話”“世界”等在多數(shù)景點(diǎn)介紹文檔中均有出現(xiàn);從主題最相關(guān)景點(diǎn)角度看,各主題中全局景點(diǎn)概率最大,且遠(yuǎn)高于其他景點(diǎn),因而利用全局景點(diǎn)將該類主題設(shè)為“無效景點(diǎn)”是合理有效的。

      表4中,Topic#8Ⅱ和Topic#19Ⅱ分別對應(yīng)表5中的“購物”主題和“電影”主題,即Topic#4和Topic#75,對比主題相關(guān)單詞構(gòu)成可見,Topic#8Ⅱ和Topic#19Ⅱ中的“電話”“核心”等單詞并不能準(zhǔn)確描述并區(qū)分主題,GS-STM通過全局景點(diǎn)將這些詞歸屬到“無效主題”(Topic#17,Topic#32)中,從而有效減少主題描述單詞中的噪聲語義,使得主題描述單詞更準(zhǔn)確有效;Topic#55Ⅱ、Topic#67Ⅱ、Topic#78Ⅱ所示主題中的單詞并不能準(zhǔn)確描述相關(guān)景點(diǎn),實(shí)為“無效主題”,STM不能識(shí)別。

      5結(jié)語

      本文基于概率主題模型提出了一種景點(diǎn)主題模型,用以無監(jiān)督地從海量的旅游文本中挖掘景點(diǎn)類型與主題特征。模型中引入“全局景點(diǎn)”以過濾噪聲語義及無效主題。聚類實(shí)驗(yàn)表明,該模型可利用旅游文本中多景點(diǎn)關(guān)聯(lián)關(guān)系更準(zhǔn)確地捕捉景點(diǎn)主題特征,且“全局景點(diǎn)”的引入能明顯改善模型訓(xùn)練效果。另外,本文利用復(fù)雜網(wǎng)絡(luò)圖對模型訓(xùn)練結(jié)果進(jìn)行可視化展示,形成旅游目的地景點(diǎn)關(guān)聯(lián)圖。

      由于概率主題模型發(fā)展迅速,本文后續(xù)研究擬基于HDP改進(jìn)景點(diǎn)主題模型,自動(dòng)計(jì)算主題變量個(gè)數(shù),以期進(jìn)一步提高模型效果。

      參考文獻(xiàn):

      [1]KOFLER C, CABALLERO L, MENENDEZ M, et al. Near2me: an authentic and personalized social media-based recommender for travel destinations [C]// WSM 11: Proceedings of the 2011 3rd ACM SIGMM International Workshop on Social Media. New York: ACM, 2011:47-52.

      [2]CAO L, LUO J, GALLAGHER A, et al. A worldwide tourism recommendation system based on geotagged Web photos[C]// Proceedings of the 2010 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2010: 2274-2277.

      [3]JIANG K, WANG P, YU N. ContextRank: personalized tourism recommendation by exploiting context information of geotagged Web photos [C]// ICIG 11: Proceedings of the 2011 Sixth International Conference on Image and Graphics. Washington, DC: IEEE Computer Society, 2011: 931-937.

      [4]Panoramio [EB/OL]. [2015-12-10]. http://www.panoramio.com/.

      [5]王媛,許鑫,馮學(xué)鋼,等.基于文本挖掘的古鎮(zhèn)旅游形象感知研究——以朱家角為例[J].旅游科學(xué),2013,27(5):86-95. (WANG Y, XU X, FENG X G, et al. Research on tourists percieved image of ancient town using Web text mining methods: a case study of Zhujiajiao [J]. Tourism Science, 2013, 27(5): 86-95.)

      [6]方雅賢,宋文琴.基于網(wǎng)絡(luò)文本分析旅游目的地形象——以大連為例[J].旅游世界·旅游發(fā)展研究,2014(4):24-31.(FANG Y X, SONG W Q. Research of tourism destination image based on Web text analysis:a case study of Dalian[J]. Journal of Tourism Development, 2014(4):24-31.)

      [7]BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation [J]. Journal of Machine Learning Research, 2003, 3: 993-1022.

      [8]MA W-Y, WANG C, WANG J, et al. Mining geographic knowledge using a location aware topic model: US, US7853596[P]. 2010-12-14.

      http://xueshu.baidu.com/s?wd=paperuri%3A%28f871f2037dbb26c8cbbe6bd3fe4751d5%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Fwww.freepatentsonline.com%2F7853596.html&ie=utf-8&sc_us=11965384391652939608

      Publication Date: 12/14/2010

      Filing Date: 06/21/2007

      [9]HAO Q, CAI R, WANG X-J, et al. Generating location overviews with images and tags by mining user-generated travelogues [C]// MM 09: Proceedings of the 2009 17th ACM International Conference on Multimedia.New York: ACM, 2009: 801-804.

      [10]HAO Q, CAI R, WANG C, et al. Equip tourists with knowledge mined from travelogues [C]// WWW 10: Proceedings of the 2010 International Conference on World Wide Web. New York: ACM, 2010:401-410.

      [11]LANDAUER T K, DUMAIS S T. A solution to Platos problem: the latent semantic analysis theory of acquisition, induction, and representation of knowledge [J]. Psychological Review, 1997, 104(2): 211-240.

      [12]HOFMANN T. Probabilistic latent semantic analysis [C]// UAI 99: Proceedings of the Fifteenth Conference on Uncertainty in Artificial Intelligence. San Francisco, CA: Morgan Kaufmann, 1999: 289-296.

      [13]TEH Y W, JORDAN M I, BEAL M J, et al. Hierarchical Dirichlet processes [J]. Journal of the American Statistical Association, 2006, 101(476):1566-1581.

      [14]KOLLER D, FRIEDMAN N. Probabilistic Graphical Models: Principles and Techniques — Adaptive Computation and Machine Learning[M]. Cambridge, MA: MIT Press, 2011: 45-93.

      [15]周寧,吳佳鑫,張少龍.基于圖的Web信息可視化探析[J].情報(bào)學(xué)報(bào),2008,27(5):714-720. (ZHOU N, WU J X, ZHANG S L. Research on graph based Web information visualization [J]. Journal of the China Society for Scientific and Technical Information, 2008, 27(5): 714-720.)

      [16]CASELLA G, GEORGE E I. Explaining the Gibbs sampler [J]. American Statistician, 1992, 46(3): 167-174.

      [17]百度旅游[EB/OL]. [2015-11-10]. http://lvyou.baidu.com/. (Baidu Travel[EB/OL]. [2015-11-10]. http://lvyou.baidu.com/.)

      [18]WU H C, LUK R W P, WONG K F, et al. Interpreting TF-IDF term weights as making relevance decisions [J]. ACM Transactions on Information Systems, 2008, 26(3): Article No. 13.

      [19]周志華.機(jī)器學(xué)習(xí)[M].北京.清華大學(xué)出版社,2016:198-199. (ZHOU Z H. Machine Learning [M]. Beijing: Tsinghua University Press, 2016: 198-199)

      [20]ROSEN-ZVI M, GRIFFITHS T, STEYVERS M, et al. The author-topic model for authors and documents [C]// UAI 04: Proceedings of the 20th Conference on Uncertainty in Artificial Intelligence. Arlington, Virginia, US: AUAI Press, 2010: 487-494.

      [21]文益民,史一帆,蔡國永,等.個(gè)性化旅游推薦研究綜述[J].計(jì)算機(jī)科學(xué),2014.(WEN Y M, SHI Y F, CAI G Y, et al. A survey of personalized travel recommendation[J]. Computer Science, 2014)

      猜你喜歡
      旅游文本可視化噪聲
      基于CiteSpace的足三里穴研究可視化分析
      基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
      云南化工(2021年8期)2021-12-21 06:37:54
      噪聲可退化且依賴于狀態(tài)和分布的平均場博弈
      基于CGAL和OpenGL的海底地形三維可視化
      “融評”:黨媒評論的可視化創(chuàng)新
      傳媒評論(2019年4期)2019-07-13 05:49:14
      控制噪聲有妙法
      淺談張家界景區(qū)旅游文本的漢英翻譯
      戲劇之家(2016年21期)2016-11-23 22:05:27
      旅游景點(diǎn)名稱翻譯的原則與策略研究
      淺談旅游文本中四字短語的特點(diǎn)及英譯策略
      戲劇之家(2016年6期)2016-04-16 13:15:24
      一種基于白噪聲響應(yīng)的隨機(jī)載荷譜識(shí)別方法
      井陉县| 新巴尔虎左旗| 弥渡县| 大埔区| 竹北市| 阜宁县| 哈尔滨市| 苍南县| 确山县| 竹溪县| 高台县| 朝阳区| 辛集市| 微博| 昌吉市| 台东县| 铜川市| 丹寨县| 夏河县| 台江县| 巫山县| 贞丰县| 黎川县| 鸡东县| 五寨县| 武清区| 南城县| 高淳县| 玛纳斯县| 邵阳市| 大丰市| 财经| 梅州市| 乌海市| 措勤县| 温州市| 札达县| 霍城县| 齐齐哈尔市| 麻江县| 荥经县|