• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于主題模型和詞向量融合的微博文本主題聚類研究

      2021-10-21 03:10:43顏端武梅喜瑞楊雄飛等
      現(xiàn)代情報(bào) 2021年10期
      關(guān)鍵詞:博文短文語義

      顏端武 梅喜瑞 楊雄飛等

      DOI:10.3969/j.issn.1008-0821.2021.10.008

      [中圖分類號]TP391;G203 [文獻(xiàn)標(biāo)識碼]A

      [文章編號]1008—0821(2021)10—0067—08

      微博(Microblog)是根據(jù)用戶關(guān)系實(shí)現(xiàn)信息內(nèi)容傳播、共享以及獲取的在線社交媒體,是Web2.0技術(shù)產(chǎn)生的一種新興社交網(wǎng)絡(luò)形式,如國外的推特、國內(nèi)的新浪微博。用戶可以在微博平臺上隨時(shí)隨地發(fā)布文字、圖片、視頻以及鏈接等信息,克服了傳統(tǒng)媒介所帶來的時(shí)間與空間的限制。微博并不是單純的個(gè)人社交工具,而是網(wǎng)民發(fā)聲的多元化信息平臺,其內(nèi)容涉及廣泛,涵蓋政治、經(jīng)濟(jì)、文化、娛樂、體育、民生等各個(gè)方面。目前,越來越多的網(wǎng)民參與到微博平臺,以新浪微博為例,其2020年的第4季度財(cái)報(bào)顯示,截至2020年12月,新浪微博的月活躍用戶數(shù)已達(dá)5.21億,平均日活躍用戶數(shù)為2.25億。微博平臺具有用戶規(guī)模大、用戶活躍度高、信息類別多、信息傳播和更新速度快等特點(diǎn),極易在較短時(shí)間內(nèi)產(chǎn)生海量數(shù)據(jù),造成信息的爆炸式增長,給信息治理帶來了巨大挑戰(zhàn)。在信息化時(shí)代,傳統(tǒng)的人工治理方式已經(jīng)無法滿足人們的需求,且微博數(shù)據(jù)口語化以及短文本特征也為微博信息的管理和利用帶來了困難,因此,隨著微博的發(fā)展和普及,微博內(nèi)容挖掘引起了學(xué)術(shù)界的興趣。

      微博主題是對微博信息內(nèi)容的概括,是微博文本挖掘的重要研究方向。一般而言,網(wǎng)民在微博上發(fā)表的言論具有較強(qiáng)的話題中心性,通過分析一定時(shí)間內(nèi)的微博文本,可以掌握網(wǎng)民在該階段所關(guān)注的信息主題。根據(jù)文本內(nèi)容特征進(jìn)行微博主題聚類,能夠促進(jìn)網(wǎng)絡(luò)信息治理的效率提升,有助于政府部門掌握和解決民眾訴求,有助于企業(yè)了解用戶體驗(yàn)和危機(jī)公關(guān)。因此,如何準(zhǔn)確高效地表達(dá)微博文本特征并進(jìn)行微博主題聚類,已成為各界亟待解決的一個(gè)熱點(diǎn)問題。

      1相關(guān)工作

      文本主題聚類是話題檢測與跟蹤TDT(Topic Detection and Tracking)的子任務(wù),目前國內(nèi)外關(guān)于文本主題聚類的方法主要有兩種:文本主題建模和文本相似度聚類。

      文本主題建模通常根據(jù)詞匯出現(xiàn)在文檔中的概率以及詞匯之間的共現(xiàn)頻率對文檔集進(jìn)行建模,它通過概率生成模型從而識別潛在語義信息并發(fā)現(xiàn)文本主題。2003年,Blei D M等提出的潛在狄利克雷(Latent Dirichlet Allocation,LDA)模型是使用最廣泛的概率主題模型,其經(jīng)歷了潛在語義索引(Latent Semantic Index,LSI)模型、概率潛在語義索引(Probabilistic Latent Semantic Index,PLSI)模型等階段的發(fā)展,目前在文本挖掘領(lǐng)域已經(jīng)逐漸走向成熟.且在長文本的主題識別中取得了不錯(cuò)的效果,但應(yīng)用于微博文本數(shù)據(jù)時(shí),由于短文本數(shù)據(jù)稀疏、共現(xiàn)信息匱乏等特性而導(dǎo)致主題聚焦性差,難以發(fā)揮LDA主題模型的功效。為了解決該問題,一些學(xué)者針對微博等短文本的特點(diǎn),對標(biāo)準(zhǔn)LDA進(jìn)行改進(jìn),如Twitter-LDA、Labeled-LDAE、BTM、MB-LDA、RT-LDA、mixtureLDA以及MB-HDP等。Zhao W X等在LDA的基礎(chǔ)上引入推特用戶信息,構(gòu)建twitter-LDA模型并取得理想的結(jié)果。Ramage D等構(gòu)建了一個(gè)半監(jiān)督的Labeled-LDA模型。Yan X等將LDA的文檔一主題層替換為共現(xiàn)詞對從而構(gòu)建BTM詞對主題模型,解決了短文本數(shù)據(jù)稀疏問題。

      文本相似度聚類的核心思想是“依據(jù)特定的標(biāo)準(zhǔn)將文檔集劃分為不同的簇,使得同簇中的文本相似度盡可能大,不同簇中的文本相似度盡可能小”,該方法屬于無監(jiān)督范疇。文本聚類主要有劃分聚類、層次聚類、密度聚類以及網(wǎng)格聚類。文本向量表示對文本聚類效果至關(guān)重要,早期主要采用向量空間模型提取文本特征,通過One-Hot表示、TF-IDF等方法為特征詞賦予權(quán)重。當(dāng)采用向量空間模型進(jìn)行短文本特征提取時(shí),同一個(gè)詞語在不同微博中出現(xiàn)的概率往往很小,從而造成很多特征項(xiàng)權(quán)重為0,即出現(xiàn)數(shù)據(jù)稀疏和高維度等問題,難以呈現(xiàn)好的聚類效果。一些學(xué)者嘗試?yán)弥黝}模型抽取文本特征向量,將文本從高維詞向量空間映射到低維的語義空間,以解決數(shù)據(jù)高維稀疏問題。馬雯雯等利用潛在語義分析LSA提取微博文本特征,通過CURE算法和K-means算法發(fā)現(xiàn)微博話題。路榮等以LDA主題模型構(gòu)建推特?cái)?shù)據(jù)的主題空間向量,利用K-means和層次聚類識別話題。史劍虹等通過文檔—主題矩陣和K-means++算法進(jìn)行微博短文本聚類。近年來,Word2Vec、CNN、RNN等神經(jīng)網(wǎng)絡(luò)模型相繼被提出,也被用于文本特征的提取,這些方法受文本長度影響小,通過將文本訓(xùn)練為低維稠密的向量,生成文本的分布式表示。如張謙等、牛雪瑩、馬遠(yuǎn)浩等采用Word2Vec模型對短文本進(jìn)行向量化表示,提取詞匯的深層語義信息。

      然而,單一模型提取的特征向量往往不能充分表征文本內(nèi)容,需要結(jié)合其他模型構(gòu)造融合特征,豐富特征向量語義信息。李海磊等通過Biter_VSM模型和LDA主題模型生成微博文本的融合特征向量,實(shí)驗(yàn)結(jié)果表明,融合特征比單一特征具有更好的聚類性能。Baker S等結(jié)合CNN和Word2Vec模型提取癌癥數(shù)據(jù)集的特征并得到較好的分類效果。Word2Vec是訓(xùn)練詞向量的常用模型,由其構(gòu)建的文本向量實(shí)現(xiàn)了特征降維和上下文語義的表達(dá),但缺乏全局語義信息,而LDA主題模型側(cè)重文本集合整體語義特征的構(gòu)建,因此,兩種模型的結(jié)合可提高文本向量的表征能力。Moodv C E提出LDA2vec模型.通過詞向量和文檔向量之和創(chuàng)建上下文向量,預(yù)測上下文單詞,從而獲得可解釋的主題。Niu L等、Liu Y等提出Topic2vec模型,構(gòu)造詞匯在特定主題下的詞向量以及上下文環(huán)境中的詞向量。王婷婷等利用Word2Vec模型將LDA主題一詞匯分布矩陣轉(zhuǎn)變?yōu)橹黝}一詞向量矩陣,采用自適應(yīng)K-means聚類算法識別科技文獻(xiàn)主題。聶維民等利用卷積神經(jīng)網(wǎng)絡(luò)對新聞數(shù)據(jù)進(jìn)行分類,設(shè)計(jì)融合層機(jī)制將Word2Vec模型生成的字、詞向量和LDA主題模型生成的詞匯一主題向量融合為新的文本特征。

      還有學(xué)者通過將短文本擴(kuò)充為長文本來豐富文本的語義信息,實(shí)現(xiàn)主題聚類的效果提升。如Liu M、Yang Z等、Li X等采用外部知識庫(如領(lǐng)域詞典、維基百科等)進(jìn)行短文本擴(kuò)充;Hong L等、Mehrotra R等將推特文本合并為長文本進(jìn)行LDA主題建模。

      綜上,主題聚類的優(yōu)化提升主要涉及主題模型、文本向量和短文本擴(kuò)充3個(gè)途徑。其中,短文本擴(kuò)充的方式過度依賴外部知識庫,且操作復(fù)雜;改進(jìn)的LDA主題模型往往具有特定的使用范圍及局限,通用性不強(qiáng)。微博文本作為一種典型的短文本形式,在以往的微博聚類研究中對主題語義的針對性不夠,聚類效果還有進(jìn)一步提升空間。多特征融合是目前短文本主題聚類的新方向。本文綜合運(yùn)用LDA主題模型、Word2Vec詞向量模型以及TF-IDF權(quán)重測算方式,提出文本淺層特征和詞匯語義特征融合的微博文本主題聚類方法。該方法分別運(yùn)用LDA主題模型、Word2Vec詞向量模型提取微博的文本淺層特征和詞匯語義特征,運(yùn)用TF-IDF進(jìn)行詞向量的主題貢獻(xiàn)權(quán)重測算,并通過向量拼接獲得最終的融合特征,以解決短文本特征高維稀疏和語義缺失等問題。

      2 LDA與詞向量融合的主題聚類方法

      2.1思路與流程

      本文提出微博文本主題聚類方法,重點(diǎn)構(gòu)建文本的融合特征向量,提高特征向量的文本表示能力。首先采集微博文本構(gòu)建語料庫,并對數(shù)據(jù)集進(jìn)行清洗、人工標(biāo)注、分詞等預(yù)處理操作,然后從文本層面利用LDA主題模型提取主題向量.從詞匯層面利用Word2Vec模型提取詞向量,并利用TF-IDF計(jì)算詞向量權(quán)重,進(jìn)而構(gòu)建微博短文本的融合特征,實(shí)現(xiàn)文本淺層特征和詞匯語義特征的融合,最后通過K-means算法進(jìn)行文本主題聚類。此外,本文構(gòu)建4個(gè)對比實(shí)驗(yàn)(LDA+K-means、Word2Vec+K-means、TF-IDF+K-means、標(biāo)準(zhǔn)LDA主題模型)評估融合特征主題聚類方法的有效性。本文的研究框架如圖1所示。

      2.2微博文本收集及預(yù)處理

      以新浪微博為數(shù)據(jù)源,通過Python的Scrapy開源爬蟲框架和網(wǎng)頁解析技術(shù)設(shè)計(jì)微博數(shù)據(jù)采集程序,并輔以新浪微博API,獲得微博網(wǎng)頁的數(shù)據(jù)信息,每條微博信息包括3個(gè)字段:微博ID、話題標(biāo)簽以及微博文本。獲得微博原始數(shù)據(jù)后,通過預(yù)處理操作提高數(shù)據(jù)的可靠性和有效性,主要包括以下5個(gè)步驟:

      1)數(shù)據(jù)清洗:人工剔除無用、重復(fù)數(shù)據(jù);去除非中文數(shù)據(jù)以及圖片等多媒體信息。

      2)明確“主題標(biāo)簽”:在實(shí)驗(yàn)過程中需要對主題聚類的結(jié)果進(jìn)行評估,因此,每條微博文本在實(shí)驗(yàn)前都要具備明確的主題標(biāo)簽。本文通過3位專家分析微博內(nèi)容,并結(jié)合新浪微博自定義的話題標(biāo)簽,進(jìn)行人工標(biāo)注與審核。

      3)分詞:利用哈爾濱工業(yè)大學(xué)的開源中文分詞工具LTP對微博文本進(jìn)行分詞。

      4)去停用詞:根據(jù)停用詞表去除“轉(zhuǎn)發(fā)”“@”等停用詞。

      5)去高/低頻詞:去除詞頻為1的低頻詞,人工去除無意義的高頻詞,從而降低文本特征維度。

      2.3 LDA與詞向量融合的微博文本表示模型

      2.3.1利用LDA主題模型進(jìn)行文本淺層特征提取

      LDA主題模型是三層貝葉斯概率模型,該模型認(rèn)為文檔是主題的概率分布,而主題是詞匯的概率分布?;谠撍枷?,模型從文檔—主題、主題—詞匯兩個(gè)方面建模,描述文檔、詞匯以及主題三層結(jié)構(gòu)之間的生成關(guān)系,如圖2所示。

      其中,M表示語料庫的微博數(shù)量,N表示每條微博的詞匯量,α、β分別服從狄利克雷分布。LDA主題模型是文檔生成的逆過程,對于微博D,從先驗(yàn)概率分布抽樣產(chǎn)生其在主題上的概率分布θ,并根據(jù)文檔一主題分布采樣獲得微博D中第k個(gè)詞匯的主題z;對于主題z,從先驗(yàn)概率分布β抽樣產(chǎn)生其詞匯分布φ,并根據(jù)主題一詞匯分布φ抽樣生成詞匯w。

      LDA對語料庫中的所有文本進(jìn)行主題建模,根據(jù)文檔、主題、詞匯三者之間的概率分布關(guān)系,可以通過詞匯共現(xiàn)信息和概率值的估計(jì)發(fā)現(xiàn)文本的主題分布特征,從而發(fā)現(xiàn)文本的全局語義信息和特征表達(dá)。但模型在訓(xùn)練數(shù)據(jù)時(shí)將文檔中的詞匯視為相互獨(dú)立,忽略了上下文詞匯之間的語義關(guān)聯(lián),因而本質(zhì)上是對文本特征的淺層表達(dá)。本文采用LDA模型的文檔—主題分布來表征微博短文本的主題傾向性和全局語義。對于微博文本D,其文檔—主題特征表示如下:

      其中,lt表示微博D在第t個(gè)主題下的概率,t為向量的維度。

      2.3.2利用Word2Vec模型進(jìn)行詞匯語義特征提取

      Word2Vec詞向量模型是Mikolov T等于2013年提出的具有“輸入層—隱藏層—輸出層”的三層神經(jīng)網(wǎng)絡(luò)模型,主要用于文本詞向量學(xué)習(xí),有CBOW和Skip-gram兩種學(xué)習(xí)方式。如圖3所示,w(t)為目標(biāo)詞,其上下文詞匯為w(t-r)、w(t-r+1)、…、w(t-1)、w(t+1)、…、w(t+r-1)、w(t+r)。CBOW模型根據(jù)目標(biāo)詞的上下文預(yù)測目標(biāo)詞,而Skip-gram模型則根據(jù)目標(biāo)詞預(yù)測目標(biāo)詞的上下文。

      與LDA主題模型側(cè)重于文本集合的特征表達(dá)不同,Word2Vec模型通過將詞匯量化為低維空間中的稠密實(shí)值向量,從而實(shí)現(xiàn)文本詞匯的特征表達(dá)。Word2Vec模型生成的詞匯特征向量包含了鄰近詞匯的語義關(guān)聯(lián),可彌補(bǔ)短文本環(huán)境下特征表達(dá)的詞匯語義缺失。微博作為短文本,每條微博的詞匯量少,目標(biāo)詞匯的上下文語義信息缺失明顯,故本文選取Word2Vec模型的Skip-gram學(xué)習(xí)模式進(jìn)行微博語料集的詞向量生成。在此基礎(chǔ)上,針對微博文本D中的詞匯進(jìn)行詞向量映射,從而將該微博的文本特征表示為:

      其中,第k行表示微博D中詞匯wk所對應(yīng)的詞向量,t為詞向量的維度。

      2.3.3文本淺層特征和詞匯語義特征融合

      1)詞匯語義特征權(quán)重計(jì)算

      Word2Vec模型未體現(xiàn)詞匯對主題的貢獻(xiàn)度,導(dǎo)致非關(guān)鍵詞匯影響特征語義表達(dá),可通過TF-IDF值對Word2Vec詞向量加權(quán),提高詞向量對主題的區(qū)分能力。微博D中詞匯的權(quán)重特征如下所示:

      其中,tfidfk表示詞匯wk在軀干D中的權(quán)重,即其TF-IDF值。TF-IDF值越高,則詞匯的重要性越強(qiáng)。

      本文將詞向量與其對應(yīng)的TF-IDF值相乘,得到微博D的加權(quán)詞匯語義特征向量AT:

      2)特征向量拼接

      LDA主題模型和Word2Vec模型在向量化表達(dá)微博短文本時(shí),都有各自的側(cè)重點(diǎn):LDA的主題分布向量雖然可以從全局描述文本特征,但詞袋模型的特點(diǎn)導(dǎo)致無法挖掘深層語義信息;Word2Vec模型能夠深入了解序列詞匯之間的語義關(guān)聯(lián),但只關(guān)注一定范圍的鄰近詞匯關(guān)系,可能導(dǎo)致全局信息的缺失。因此,本文將LDA的文檔主題分布向量和文本加權(quán)詞向量縱向拼接,形成融合特征向量ATL:

      在維度層面,低維稠密的文本加權(quán)詞向量AT和文檔主題分布向量L縱向拼接后仍然是低維稠密向量,解決了短文本數(shù)據(jù)高維稀疏問題;在語義層面,向量拼接后的融合特征既包含文本全局語義,又包含詞匯順序信息和深層語義關(guān)聯(lián)信息,詞向量加權(quán)使得噪音詞匯的干擾降低。以融合特征表征文本,彌補(bǔ)LDA和詞向量兩者的缺點(diǎn),豐富了短文本向量的語義信息。

      K-means聚類算法簡單有效,計(jì)算的時(shí)間復(fù)雜度低,能夠快速處理大規(guī)模數(shù)據(jù)集。本文通過K-means算法對微博文本的特征向量進(jìn)行主題聚類,將內(nèi)容相近的文本聚為一個(gè)簇,每個(gè)簇表征一個(gè)微博主題。

      3實(shí)驗(yàn)對比及結(jié)果分析

      本文生成4種微博短文本特征向量:LDA文檔一主題向量、Word2Vec詞向量、TF-IDF權(quán)重向量以及融合特征向量,利用特征聚類和標(biāo)準(zhǔn)LDA主題模型進(jìn)行微博主題聚類的對比實(shí)驗(yàn)。

      3.1實(shí)驗(yàn)環(huán)境和數(shù)據(jù)準(zhǔn)備

      實(shí)驗(yàn)環(huán)境為2.5GHZ的CPU、8G內(nèi)存以及64位Windows10專業(yè)版操作系統(tǒng),開發(fā)工具為PyC-harm 2017。

      從新浪微博采集2019年6月份具有代表性的熱點(diǎn)話題作為原始語料庫,包括“高考成績”“中國擬立密碼法”“養(yǎng)老金上調(diào)”“重慶交通事故”“信用懲戒”等44個(gè)話題,累計(jì)6萬條微博。預(yù)處理后,共獲得48212條微博數(shù)據(jù)。

      3.2評估指標(biāo)

      模型效果的優(yōu)劣常采用精確率P、召回率R以及F1值3個(gè)標(biāo)準(zhǔn)進(jìn)行評估,其值越高,則模型效果越好。

      精確率又稱查準(zhǔn)率,指預(yù)測為主題i的微博中實(shí)際主題為i的比例。

      召回率又稱查全率,指實(shí)際主題為i的微博中被預(yù)測為主題i的微博比例。

      本文采用綜合評價(jià)指標(biāo)F1值衡量模型的主題聚類效果。首先,分別計(jì)算每個(gè)主題的精確率和召回率,再利用宏平均求得整個(gè)模型的精確率和召回率,最后求得模型的F1值。

      3.3特征提取模型參數(shù)設(shè)定

      Word2Vec詞向量模型的窗口大小設(shè)置為5,向量維度t為100維,對于沒有出現(xiàn)在該詞向量中的詞匯,其向量會被隨機(jī)初始化。LDA主題模型中,主題維度t設(shè)置為100,與Word2Vec詞向量維度保持一致,以便于特征的融合,α=50/主題維度t,β=0.001,Gibbs抽樣2 000次。

      3.4主題聚類算法參數(shù)設(shè)定

      K-means聚類算法和LDA主題模型在訓(xùn)練數(shù)據(jù)前要明確最佳的聚類主題數(shù)S。K-means聚類算法的S值設(shè)置為語料庫主題標(biāo)簽類別數(shù)目44。對于LDA主題模型,采用交叉驗(yàn)證法選擇最優(yōu)主題數(shù),令S分別取10、20、30、40……130、140、150等值,在不同S值下訓(xùn)練LDA主題模型,觀察模型F1值的變化,如圖4所示。選取最優(yōu)F1值的主題數(shù),故本文將LDA主題參數(shù)設(shè)置為80。

      3.5對比實(shí)驗(yàn)與分析

      針對微博短文本,分別通過LDA主題模型、Word2Vec詞向量模型以及TF-IDF權(quán)重測算方式構(gòu)建不同方法下的文本特征向量,按照式(5)生成微博文本融合特征。采用十折交叉驗(yàn)證法對數(shù)據(jù)集進(jìn)行訓(xùn)練和測試,對于K-means算法,分別對以上4種文本特征向量進(jìn)行主題聚類,F(xiàn)1值為69.2%、78.8%、74.0%和83.7%;對于標(biāo)準(zhǔn)LDA主題模型,F(xiàn)1值為64.5%。實(shí)驗(yàn)對比結(jié)果如表1所示。

      1)LDA+K-means主題聚類和標(biāo)準(zhǔn)LDA主題聚類的精確率、召回率以及F1值都較低。LDA模型將文本映射到低維語義空間提取文本淺層特征,雖然對微博文本數(shù)據(jù)進(jìn)行降維處理,但短文本共現(xiàn)信息匱乏而無法完整表達(dá)文本全局語義信息,且基于“詞袋模型”理論,忽視文本詞匯的序列性,所以僅用LDA主題模型對微博短文本進(jìn)行特征抽取難以充分發(fā)揮作用,不適合微博短文本的建模。

      2)Word2Vec通過模型訓(xùn)練將每個(gè)詞匯簡化為向量空間中的一個(gè)t維稠密詞向量,與傳統(tǒng)向量空間模型相比,Word2Vec模型構(gòu)造的文本特征向量實(shí)現(xiàn)了高效降維。此外,Word2Vec詞向量描述了詞匯之間的關(guān)聯(lián)關(guān)系,因?yàn)槭菍υ~匯的向量化,和基于共現(xiàn)信息的LDA主題模型相比,語義表達(dá)受文本長度影響小,性能優(yōu)于LDA主題模型,但未考慮文檔的全局語義信息和不同詞匯主題貢獻(xiàn)程度的差別,在精確率、召回率以及F1值3個(gè)方面和融合特征有一定的差距。

      3)TF-IDF計(jì)算詞匯權(quán)重信息構(gòu)建文本特征向量,因同一詞匯出現(xiàn)在不同微博短文本中的概率較低,導(dǎo)致大量的特征權(quán)重為0,造成短文本向量的高維稀疏性,且沒有考慮文本潛在語義信息,使得主題聚類的效果下降。

      4)融合特征+K-means主題聚類效果最好,精確率、召回率以及F1值均高于其他模型,達(dá)80%以上。融合特征一定程度上克服了微博短文本高維稀疏和語義缺失問題,能更加準(zhǔn)確、全面地表征微博文本信息。低維稠密詞向量和低維語義空間向量的拼接并未造成特征維度的大量增加,融合特征包含了文本全局語義信息和詞匯深層語義信息,同時(shí),詞向量TF-IDF加權(quán)也提升了主題聚類的準(zhǔn)確率。

      融合特征主題聚類結(jié)果如表2所示。對于主題明確的微博文本,如“高考成績”“中國擬立密碼法”等,準(zhǔn)確率可達(dá)90%左右。但對于主題較為相似的文本,實(shí)驗(yàn)結(jié)果出現(xiàn)較大偏差,如“重慶公交事故”和“別碰司機(jī)”,因兩者都為交通事故、交通規(guī)則方面的主題,常涉及“公交”“司機(jī)”“安全”等詞匯,且部分網(wǎng)民習(xí)慣將兩者聯(lián)系起來闡述自己的觀點(diǎn),所以在主題聚類過程中出現(xiàn)混淆,但該誤差在合理范圍內(nèi)。

      4結(jié)論與展望

      本文基于新浪微博短文本數(shù)據(jù),首先提出數(shù)據(jù)采集以及預(yù)處理方法,然后綜合考慮微博的文本淺層特征和詞匯語義特征兩個(gè)方面,結(jié)合LDA主題模型的文檔一主題分布特征和加權(quán)Word2Vec詞向量設(shè)計(jì)文本的融合特征表達(dá)公式,并通過K-means算法對文本進(jìn)行主題聚類實(shí)驗(yàn)。在對比實(shí)驗(yàn)中,與單一特征主題聚類、標(biāo)準(zhǔn)LDA主題聚類進(jìn)行比較,從精確率、召回率和F1值評估主題聚類方法,實(shí)驗(yàn)結(jié)果表明,融合特征在解決微博上下文語義缺失和數(shù)據(jù)稀疏高維等問題方面具有較好的效果。

      本文為微博主題聚類研究提供了一種新思路,但存在局限和不足之處。其一,實(shí)驗(yàn)數(shù)據(jù)主要針對微博文本數(shù)據(jù),對微博信息中的圖片、音頻、視頻等多媒體數(shù)據(jù)類型未能考慮;其二,實(shí)驗(yàn)對比著重分析單一特征和TF-IDF+Word2Vec+LDA融合特征的主題聚類效果,對于單一特征不同組合方式下的特征融合主題聚類及其優(yōu)化涉及不夠。因此,如何針對多模態(tài)微博數(shù)據(jù)進(jìn)行特征融合處理、如何優(yōu)化特征提取和主題聚類算法,在后續(xù)研究中還有待進(jìn)一步拓展和深入。

      (責(zé)任編輯:郭沫含)

      猜你喜歡
      博文短文語義
      第一次掙錢
      語言與語義
      KEYS
      Keys
      誰和誰好
      “上”與“下”語義的不對稱性及其認(rèn)知闡釋
      Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
      認(rèn)知范疇模糊與語義模糊
      打電話2
      短文改錯(cuò)
      吴旗县| 陇川县| 泾阳县| 蒙山县| 子洲县| 建宁县| 永丰县| 崇文区| 九龙城区| 额敏县| 东至县| 太白县| 榆社县| 平邑县| 渭南市| 鹿邑县| 蓝田县| 穆棱市| 新乡县| 水富县| 垣曲县| 科尔| 宝坻区| 武义县| 莆田市| 建阳市| 莒南县| 南投县| 伊通| 桃园县| 耿马| 手机| 永年县| 博湖县| 庆阳市| 石景山区| 兴和县| 库车县| 民乐县| 和平县| 桦甸市|