• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于主題模型和詞向量融合的微博文本主題聚類研究

    2021-10-21 03:10:43顏端武梅喜瑞楊雄飛等
    現(xiàn)代情報(bào) 2021年10期
    關(guān)鍵詞:博文短文語義

    顏端武 梅喜瑞 楊雄飛等

    DOI:10.3969/j.issn.1008-0821.2021.10.008

    [中圖分類號]TP391;G203 [文獻(xiàn)標(biāo)識碼]A

    [文章編號]1008—0821(2021)10—0067—08

    微博(Microblog)是根據(jù)用戶關(guān)系實(shí)現(xiàn)信息內(nèi)容傳播、共享以及獲取的在線社交媒體,是Web2.0技術(shù)產(chǎn)生的一種新興社交網(wǎng)絡(luò)形式,如國外的推特、國內(nèi)的新浪微博。用戶可以在微博平臺上隨時(shí)隨地發(fā)布文字、圖片、視頻以及鏈接等信息,克服了傳統(tǒng)媒介所帶來的時(shí)間與空間的限制。微博并不是單純的個(gè)人社交工具,而是網(wǎng)民發(fā)聲的多元化信息平臺,其內(nèi)容涉及廣泛,涵蓋政治、經(jīng)濟(jì)、文化、娛樂、體育、民生等各個(gè)方面。目前,越來越多的網(wǎng)民參與到微博平臺,以新浪微博為例,其2020年的第4季度財(cái)報(bào)顯示,截至2020年12月,新浪微博的月活躍用戶數(shù)已達(dá)5.21億,平均日活躍用戶數(shù)為2.25億。微博平臺具有用戶規(guī)模大、用戶活躍度高、信息類別多、信息傳播和更新速度快等特點(diǎn),極易在較短時(shí)間內(nèi)產(chǎn)生海量數(shù)據(jù),造成信息的爆炸式增長,給信息治理帶來了巨大挑戰(zhàn)。在信息化時(shí)代,傳統(tǒng)的人工治理方式已經(jīng)無法滿足人們的需求,且微博數(shù)據(jù)口語化以及短文本特征也為微博信息的管理和利用帶來了困難,因此,隨著微博的發(fā)展和普及,微博內(nèi)容挖掘引起了學(xué)術(shù)界的興趣。

    微博主題是對微博信息內(nèi)容的概括,是微博文本挖掘的重要研究方向。一般而言,網(wǎng)民在微博上發(fā)表的言論具有較強(qiáng)的話題中心性,通過分析一定時(shí)間內(nèi)的微博文本,可以掌握網(wǎng)民在該階段所關(guān)注的信息主題。根據(jù)文本內(nèi)容特征進(jìn)行微博主題聚類,能夠促進(jìn)網(wǎng)絡(luò)信息治理的效率提升,有助于政府部門掌握和解決民眾訴求,有助于企業(yè)了解用戶體驗(yàn)和危機(jī)公關(guān)。因此,如何準(zhǔn)確高效地表達(dá)微博文本特征并進(jìn)行微博主題聚類,已成為各界亟待解決的一個(gè)熱點(diǎn)問題。

    1相關(guān)工作

    文本主題聚類是話題檢測與跟蹤TDT(Topic Detection and Tracking)的子任務(wù),目前國內(nèi)外關(guān)于文本主題聚類的方法主要有兩種:文本主題建模和文本相似度聚類。

    文本主題建模通常根據(jù)詞匯出現(xiàn)在文檔中的概率以及詞匯之間的共現(xiàn)頻率對文檔集進(jìn)行建模,它通過概率生成模型從而識別潛在語義信息并發(fā)現(xiàn)文本主題。2003年,Blei D M等提出的潛在狄利克雷(Latent Dirichlet Allocation,LDA)模型是使用最廣泛的概率主題模型,其經(jīng)歷了潛在語義索引(Latent Semantic Index,LSI)模型、概率潛在語義索引(Probabilistic Latent Semantic Index,PLSI)模型等階段的發(fā)展,目前在文本挖掘領(lǐng)域已經(jīng)逐漸走向成熟.且在長文本的主題識別中取得了不錯(cuò)的效果,但應(yīng)用于微博文本數(shù)據(jù)時(shí),由于短文本數(shù)據(jù)稀疏、共現(xiàn)信息匱乏等特性而導(dǎo)致主題聚焦性差,難以發(fā)揮LDA主題模型的功效。為了解決該問題,一些學(xué)者針對微博等短文本的特點(diǎn),對標(biāo)準(zhǔn)LDA進(jìn)行改進(jìn),如Twitter-LDA、Labeled-LDAE、BTM、MB-LDA、RT-LDA、mixtureLDA以及MB-HDP等。Zhao W X等在LDA的基礎(chǔ)上引入推特用戶信息,構(gòu)建twitter-LDA模型并取得理想的結(jié)果。Ramage D等構(gòu)建了一個(gè)半監(jiān)督的Labeled-LDA模型。Yan X等將LDA的文檔一主題層替換為共現(xiàn)詞對從而構(gòu)建BTM詞對主題模型,解決了短文本數(shù)據(jù)稀疏問題。

    文本相似度聚類的核心思想是“依據(jù)特定的標(biāo)準(zhǔn)將文檔集劃分為不同的簇,使得同簇中的文本相似度盡可能大,不同簇中的文本相似度盡可能小”,該方法屬于無監(jiān)督范疇。文本聚類主要有劃分聚類、層次聚類、密度聚類以及網(wǎng)格聚類。文本向量表示對文本聚類效果至關(guān)重要,早期主要采用向量空間模型提取文本特征,通過One-Hot表示、TF-IDF等方法為特征詞賦予權(quán)重。當(dāng)采用向量空間模型進(jìn)行短文本特征提取時(shí),同一個(gè)詞語在不同微博中出現(xiàn)的概率往往很小,從而造成很多特征項(xiàng)權(quán)重為0,即出現(xiàn)數(shù)據(jù)稀疏和高維度等問題,難以呈現(xiàn)好的聚類效果。一些學(xué)者嘗試?yán)弥黝}模型抽取文本特征向量,將文本從高維詞向量空間映射到低維的語義空間,以解決數(shù)據(jù)高維稀疏問題。馬雯雯等利用潛在語義分析LSA提取微博文本特征,通過CURE算法和K-means算法發(fā)現(xiàn)微博話題。路榮等以LDA主題模型構(gòu)建推特?cái)?shù)據(jù)的主題空間向量,利用K-means和層次聚類識別話題。史劍虹等通過文檔—主題矩陣和K-means++算法進(jìn)行微博短文本聚類。近年來,Word2Vec、CNN、RNN等神經(jīng)網(wǎng)絡(luò)模型相繼被提出,也被用于文本特征的提取,這些方法受文本長度影響小,通過將文本訓(xùn)練為低維稠密的向量,生成文本的分布式表示。如張謙等、牛雪瑩、馬遠(yuǎn)浩等采用Word2Vec模型對短文本進(jìn)行向量化表示,提取詞匯的深層語義信息。

    然而,單一模型提取的特征向量往往不能充分表征文本內(nèi)容,需要結(jié)合其他模型構(gòu)造融合特征,豐富特征向量語義信息。李海磊等通過Biter_VSM模型和LDA主題模型生成微博文本的融合特征向量,實(shí)驗(yàn)結(jié)果表明,融合特征比單一特征具有更好的聚類性能。Baker S等結(jié)合CNN和Word2Vec模型提取癌癥數(shù)據(jù)集的特征并得到較好的分類效果。Word2Vec是訓(xùn)練詞向量的常用模型,由其構(gòu)建的文本向量實(shí)現(xiàn)了特征降維和上下文語義的表達(dá),但缺乏全局語義信息,而LDA主題模型側(cè)重文本集合整體語義特征的構(gòu)建,因此,兩種模型的結(jié)合可提高文本向量的表征能力。Moodv C E提出LDA2vec模型.通過詞向量和文檔向量之和創(chuàng)建上下文向量,預(yù)測上下文單詞,從而獲得可解釋的主題。Niu L等、Liu Y等提出Topic2vec模型,構(gòu)造詞匯在特定主題下的詞向量以及上下文環(huán)境中的詞向量。王婷婷等利用Word2Vec模型將LDA主題一詞匯分布矩陣轉(zhuǎn)變?yōu)橹黝}一詞向量矩陣,采用自適應(yīng)K-means聚類算法識別科技文獻(xiàn)主題。聶維民等利用卷積神經(jīng)網(wǎng)絡(luò)對新聞數(shù)據(jù)進(jìn)行分類,設(shè)計(jì)融合層機(jī)制將Word2Vec模型生成的字、詞向量和LDA主題模型生成的詞匯一主題向量融合為新的文本特征。

    還有學(xué)者通過將短文本擴(kuò)充為長文本來豐富文本的語義信息,實(shí)現(xiàn)主題聚類的效果提升。如Liu M、Yang Z等、Li X等采用外部知識庫(如領(lǐng)域詞典、維基百科等)進(jìn)行短文本擴(kuò)充;Hong L等、Mehrotra R等將推特文本合并為長文本進(jìn)行LDA主題建模。

    綜上,主題聚類的優(yōu)化提升主要涉及主題模型、文本向量和短文本擴(kuò)充3個(gè)途徑。其中,短文本擴(kuò)充的方式過度依賴外部知識庫,且操作復(fù)雜;改進(jìn)的LDA主題模型往往具有特定的使用范圍及局限,通用性不強(qiáng)。微博文本作為一種典型的短文本形式,在以往的微博聚類研究中對主題語義的針對性不夠,聚類效果還有進(jìn)一步提升空間。多特征融合是目前短文本主題聚類的新方向。本文綜合運(yùn)用LDA主題模型、Word2Vec詞向量模型以及TF-IDF權(quán)重測算方式,提出文本淺層特征和詞匯語義特征融合的微博文本主題聚類方法。該方法分別運(yùn)用LDA主題模型、Word2Vec詞向量模型提取微博的文本淺層特征和詞匯語義特征,運(yùn)用TF-IDF進(jìn)行詞向量的主題貢獻(xiàn)權(quán)重測算,并通過向量拼接獲得最終的融合特征,以解決短文本特征高維稀疏和語義缺失等問題。

    2 LDA與詞向量融合的主題聚類方法

    2.1思路與流程

    本文提出微博文本主題聚類方法,重點(diǎn)構(gòu)建文本的融合特征向量,提高特征向量的文本表示能力。首先采集微博文本構(gòu)建語料庫,并對數(shù)據(jù)集進(jìn)行清洗、人工標(biāo)注、分詞等預(yù)處理操作,然后從文本層面利用LDA主題模型提取主題向量.從詞匯層面利用Word2Vec模型提取詞向量,并利用TF-IDF計(jì)算詞向量權(quán)重,進(jìn)而構(gòu)建微博短文本的融合特征,實(shí)現(xiàn)文本淺層特征和詞匯語義特征的融合,最后通過K-means算法進(jìn)行文本主題聚類。此外,本文構(gòu)建4個(gè)對比實(shí)驗(yàn)(LDA+K-means、Word2Vec+K-means、TF-IDF+K-means、標(biāo)準(zhǔn)LDA主題模型)評估融合特征主題聚類方法的有效性。本文的研究框架如圖1所示。

    2.2微博文本收集及預(yù)處理

    以新浪微博為數(shù)據(jù)源,通過Python的Scrapy開源爬蟲框架和網(wǎng)頁解析技術(shù)設(shè)計(jì)微博數(shù)據(jù)采集程序,并輔以新浪微博API,獲得微博網(wǎng)頁的數(shù)據(jù)信息,每條微博信息包括3個(gè)字段:微博ID、話題標(biāo)簽以及微博文本。獲得微博原始數(shù)據(jù)后,通過預(yù)處理操作提高數(shù)據(jù)的可靠性和有效性,主要包括以下5個(gè)步驟:

    1)數(shù)據(jù)清洗:人工剔除無用、重復(fù)數(shù)據(jù);去除非中文數(shù)據(jù)以及圖片等多媒體信息。

    2)明確“主題標(biāo)簽”:在實(shí)驗(yàn)過程中需要對主題聚類的結(jié)果進(jìn)行評估,因此,每條微博文本在實(shí)驗(yàn)前都要具備明確的主題標(biāo)簽。本文通過3位專家分析微博內(nèi)容,并結(jié)合新浪微博自定義的話題標(biāo)簽,進(jìn)行人工標(biāo)注與審核。

    3)分詞:利用哈爾濱工業(yè)大學(xué)的開源中文分詞工具LTP對微博文本進(jìn)行分詞。

    4)去停用詞:根據(jù)停用詞表去除“轉(zhuǎn)發(fā)”“@”等停用詞。

    5)去高/低頻詞:去除詞頻為1的低頻詞,人工去除無意義的高頻詞,從而降低文本特征維度。

    2.3 LDA與詞向量融合的微博文本表示模型

    2.3.1利用LDA主題模型進(jìn)行文本淺層特征提取

    LDA主題模型是三層貝葉斯概率模型,該模型認(rèn)為文檔是主題的概率分布,而主題是詞匯的概率分布?;谠撍枷?,模型從文檔—主題、主題—詞匯兩個(gè)方面建模,描述文檔、詞匯以及主題三層結(jié)構(gòu)之間的生成關(guān)系,如圖2所示。

    其中,M表示語料庫的微博數(shù)量,N表示每條微博的詞匯量,α、β分別服從狄利克雷分布。LDA主題模型是文檔生成的逆過程,對于微博D,從先驗(yàn)概率分布抽樣產(chǎn)生其在主題上的概率分布θ,并根據(jù)文檔一主題分布采樣獲得微博D中第k個(gè)詞匯的主題z;對于主題z,從先驗(yàn)概率分布β抽樣產(chǎn)生其詞匯分布φ,并根據(jù)主題一詞匯分布φ抽樣生成詞匯w。

    LDA對語料庫中的所有文本進(jìn)行主題建模,根據(jù)文檔、主題、詞匯三者之間的概率分布關(guān)系,可以通過詞匯共現(xiàn)信息和概率值的估計(jì)發(fā)現(xiàn)文本的主題分布特征,從而發(fā)現(xiàn)文本的全局語義信息和特征表達(dá)。但模型在訓(xùn)練數(shù)據(jù)時(shí)將文檔中的詞匯視為相互獨(dú)立,忽略了上下文詞匯之間的語義關(guān)聯(lián),因而本質(zhì)上是對文本特征的淺層表達(dá)。本文采用LDA模型的文檔—主題分布來表征微博短文本的主題傾向性和全局語義。對于微博文本D,其文檔—主題特征表示如下:

    其中,lt表示微博D在第t個(gè)主題下的概率,t為向量的維度。

    2.3.2利用Word2Vec模型進(jìn)行詞匯語義特征提取

    Word2Vec詞向量模型是Mikolov T等于2013年提出的具有“輸入層—隱藏層—輸出層”的三層神經(jīng)網(wǎng)絡(luò)模型,主要用于文本詞向量學(xué)習(xí),有CBOW和Skip-gram兩種學(xué)習(xí)方式。如圖3所示,w(t)為目標(biāo)詞,其上下文詞匯為w(t-r)、w(t-r+1)、…、w(t-1)、w(t+1)、…、w(t+r-1)、w(t+r)。CBOW模型根據(jù)目標(biāo)詞的上下文預(yù)測目標(biāo)詞,而Skip-gram模型則根據(jù)目標(biāo)詞預(yù)測目標(biāo)詞的上下文。

    與LDA主題模型側(cè)重于文本集合的特征表達(dá)不同,Word2Vec模型通過將詞匯量化為低維空間中的稠密實(shí)值向量,從而實(shí)現(xiàn)文本詞匯的特征表達(dá)。Word2Vec模型生成的詞匯特征向量包含了鄰近詞匯的語義關(guān)聯(lián),可彌補(bǔ)短文本環(huán)境下特征表達(dá)的詞匯語義缺失。微博作為短文本,每條微博的詞匯量少,目標(biāo)詞匯的上下文語義信息缺失明顯,故本文選取Word2Vec模型的Skip-gram學(xué)習(xí)模式進(jìn)行微博語料集的詞向量生成。在此基礎(chǔ)上,針對微博文本D中的詞匯進(jìn)行詞向量映射,從而將該微博的文本特征表示為:

    其中,第k行表示微博D中詞匯wk所對應(yīng)的詞向量,t為詞向量的維度。

    2.3.3文本淺層特征和詞匯語義特征融合

    1)詞匯語義特征權(quán)重計(jì)算

    Word2Vec模型未體現(xiàn)詞匯對主題的貢獻(xiàn)度,導(dǎo)致非關(guān)鍵詞匯影響特征語義表達(dá),可通過TF-IDF值對Word2Vec詞向量加權(quán),提高詞向量對主題的區(qū)分能力。微博D中詞匯的權(quán)重特征如下所示:

    其中,tfidfk表示詞匯wk在軀干D中的權(quán)重,即其TF-IDF值。TF-IDF值越高,則詞匯的重要性越強(qiáng)。

    本文將詞向量與其對應(yīng)的TF-IDF值相乘,得到微博D的加權(quán)詞匯語義特征向量AT:

    2)特征向量拼接

    LDA主題模型和Word2Vec模型在向量化表達(dá)微博短文本時(shí),都有各自的側(cè)重點(diǎn):LDA的主題分布向量雖然可以從全局描述文本特征,但詞袋模型的特點(diǎn)導(dǎo)致無法挖掘深層語義信息;Word2Vec模型能夠深入了解序列詞匯之間的語義關(guān)聯(lián),但只關(guān)注一定范圍的鄰近詞匯關(guān)系,可能導(dǎo)致全局信息的缺失。因此,本文將LDA的文檔主題分布向量和文本加權(quán)詞向量縱向拼接,形成融合特征向量ATL:

    在維度層面,低維稠密的文本加權(quán)詞向量AT和文檔主題分布向量L縱向拼接后仍然是低維稠密向量,解決了短文本數(shù)據(jù)高維稀疏問題;在語義層面,向量拼接后的融合特征既包含文本全局語義,又包含詞匯順序信息和深層語義關(guān)聯(lián)信息,詞向量加權(quán)使得噪音詞匯的干擾降低。以融合特征表征文本,彌補(bǔ)LDA和詞向量兩者的缺點(diǎn),豐富了短文本向量的語義信息。

    K-means聚類算法簡單有效,計(jì)算的時(shí)間復(fù)雜度低,能夠快速處理大規(guī)模數(shù)據(jù)集。本文通過K-means算法對微博文本的特征向量進(jìn)行主題聚類,將內(nèi)容相近的文本聚為一個(gè)簇,每個(gè)簇表征一個(gè)微博主題。

    3實(shí)驗(yàn)對比及結(jié)果分析

    本文生成4種微博短文本特征向量:LDA文檔一主題向量、Word2Vec詞向量、TF-IDF權(quán)重向量以及融合特征向量,利用特征聚類和標(biāo)準(zhǔn)LDA主題模型進(jìn)行微博主題聚類的對比實(shí)驗(yàn)。

    3.1實(shí)驗(yàn)環(huán)境和數(shù)據(jù)準(zhǔn)備

    實(shí)驗(yàn)環(huán)境為2.5GHZ的CPU、8G內(nèi)存以及64位Windows10專業(yè)版操作系統(tǒng),開發(fā)工具為PyC-harm 2017。

    從新浪微博采集2019年6月份具有代表性的熱點(diǎn)話題作為原始語料庫,包括“高考成績”“中國擬立密碼法”“養(yǎng)老金上調(diào)”“重慶交通事故”“信用懲戒”等44個(gè)話題,累計(jì)6萬條微博。預(yù)處理后,共獲得48212條微博數(shù)據(jù)。

    3.2評估指標(biāo)

    模型效果的優(yōu)劣常采用精確率P、召回率R以及F1值3個(gè)標(biāo)準(zhǔn)進(jìn)行評估,其值越高,則模型效果越好。

    精確率又稱查準(zhǔn)率,指預(yù)測為主題i的微博中實(shí)際主題為i的比例。

    召回率又稱查全率,指實(shí)際主題為i的微博中被預(yù)測為主題i的微博比例。

    本文采用綜合評價(jià)指標(biāo)F1值衡量模型的主題聚類效果。首先,分別計(jì)算每個(gè)主題的精確率和召回率,再利用宏平均求得整個(gè)模型的精確率和召回率,最后求得模型的F1值。

    3.3特征提取模型參數(shù)設(shè)定

    Word2Vec詞向量模型的窗口大小設(shè)置為5,向量維度t為100維,對于沒有出現(xiàn)在該詞向量中的詞匯,其向量會被隨機(jī)初始化。LDA主題模型中,主題維度t設(shè)置為100,與Word2Vec詞向量維度保持一致,以便于特征的融合,α=50/主題維度t,β=0.001,Gibbs抽樣2 000次。

    3.4主題聚類算法參數(shù)設(shè)定

    K-means聚類算法和LDA主題模型在訓(xùn)練數(shù)據(jù)前要明確最佳的聚類主題數(shù)S。K-means聚類算法的S值設(shè)置為語料庫主題標(biāo)簽類別數(shù)目44。對于LDA主題模型,采用交叉驗(yàn)證法選擇最優(yōu)主題數(shù),令S分別取10、20、30、40……130、140、150等值,在不同S值下訓(xùn)練LDA主題模型,觀察模型F1值的變化,如圖4所示。選取最優(yōu)F1值的主題數(shù),故本文將LDA主題參數(shù)設(shè)置為80。

    3.5對比實(shí)驗(yàn)與分析

    針對微博短文本,分別通過LDA主題模型、Word2Vec詞向量模型以及TF-IDF權(quán)重測算方式構(gòu)建不同方法下的文本特征向量,按照式(5)生成微博文本融合特征。采用十折交叉驗(yàn)證法對數(shù)據(jù)集進(jìn)行訓(xùn)練和測試,對于K-means算法,分別對以上4種文本特征向量進(jìn)行主題聚類,F(xiàn)1值為69.2%、78.8%、74.0%和83.7%;對于標(biāo)準(zhǔn)LDA主題模型,F(xiàn)1值為64.5%。實(shí)驗(yàn)對比結(jié)果如表1所示。

    1)LDA+K-means主題聚類和標(biāo)準(zhǔn)LDA主題聚類的精確率、召回率以及F1值都較低。LDA模型將文本映射到低維語義空間提取文本淺層特征,雖然對微博文本數(shù)據(jù)進(jìn)行降維處理,但短文本共現(xiàn)信息匱乏而無法完整表達(dá)文本全局語義信息,且基于“詞袋模型”理論,忽視文本詞匯的序列性,所以僅用LDA主題模型對微博短文本進(jìn)行特征抽取難以充分發(fā)揮作用,不適合微博短文本的建模。

    2)Word2Vec通過模型訓(xùn)練將每個(gè)詞匯簡化為向量空間中的一個(gè)t維稠密詞向量,與傳統(tǒng)向量空間模型相比,Word2Vec模型構(gòu)造的文本特征向量實(shí)現(xiàn)了高效降維。此外,Word2Vec詞向量描述了詞匯之間的關(guān)聯(lián)關(guān)系,因?yàn)槭菍υ~匯的向量化,和基于共現(xiàn)信息的LDA主題模型相比,語義表達(dá)受文本長度影響小,性能優(yōu)于LDA主題模型,但未考慮文檔的全局語義信息和不同詞匯主題貢獻(xiàn)程度的差別,在精確率、召回率以及F1值3個(gè)方面和融合特征有一定的差距。

    3)TF-IDF計(jì)算詞匯權(quán)重信息構(gòu)建文本特征向量,因同一詞匯出現(xiàn)在不同微博短文本中的概率較低,導(dǎo)致大量的特征權(quán)重為0,造成短文本向量的高維稀疏性,且沒有考慮文本潛在語義信息,使得主題聚類的效果下降。

    4)融合特征+K-means主題聚類效果最好,精確率、召回率以及F1值均高于其他模型,達(dá)80%以上。融合特征一定程度上克服了微博短文本高維稀疏和語義缺失問題,能更加準(zhǔn)確、全面地表征微博文本信息。低維稠密詞向量和低維語義空間向量的拼接并未造成特征維度的大量增加,融合特征包含了文本全局語義信息和詞匯深層語義信息,同時(shí),詞向量TF-IDF加權(quán)也提升了主題聚類的準(zhǔn)確率。

    融合特征主題聚類結(jié)果如表2所示。對于主題明確的微博文本,如“高考成績”“中國擬立密碼法”等,準(zhǔn)確率可達(dá)90%左右。但對于主題較為相似的文本,實(shí)驗(yàn)結(jié)果出現(xiàn)較大偏差,如“重慶公交事故”和“別碰司機(jī)”,因兩者都為交通事故、交通規(guī)則方面的主題,常涉及“公交”“司機(jī)”“安全”等詞匯,且部分網(wǎng)民習(xí)慣將兩者聯(lián)系起來闡述自己的觀點(diǎn),所以在主題聚類過程中出現(xiàn)混淆,但該誤差在合理范圍內(nèi)。

    4結(jié)論與展望

    本文基于新浪微博短文本數(shù)據(jù),首先提出數(shù)據(jù)采集以及預(yù)處理方法,然后綜合考慮微博的文本淺層特征和詞匯語義特征兩個(gè)方面,結(jié)合LDA主題模型的文檔一主題分布特征和加權(quán)Word2Vec詞向量設(shè)計(jì)文本的融合特征表達(dá)公式,并通過K-means算法對文本進(jìn)行主題聚類實(shí)驗(yàn)。在對比實(shí)驗(yàn)中,與單一特征主題聚類、標(biāo)準(zhǔn)LDA主題聚類進(jìn)行比較,從精確率、召回率和F1值評估主題聚類方法,實(shí)驗(yàn)結(jié)果表明,融合特征在解決微博上下文語義缺失和數(shù)據(jù)稀疏高維等問題方面具有較好的效果。

    本文為微博主題聚類研究提供了一種新思路,但存在局限和不足之處。其一,實(shí)驗(yàn)數(shù)據(jù)主要針對微博文本數(shù)據(jù),對微博信息中的圖片、音頻、視頻等多媒體數(shù)據(jù)類型未能考慮;其二,實(shí)驗(yàn)對比著重分析單一特征和TF-IDF+Word2Vec+LDA融合特征的主題聚類效果,對于單一特征不同組合方式下的特征融合主題聚類及其優(yōu)化涉及不夠。因此,如何針對多模態(tài)微博數(shù)據(jù)進(jìn)行特征融合處理、如何優(yōu)化特征提取和主題聚類算法,在后續(xù)研究中還有待進(jìn)一步拓展和深入。

    (責(zé)任編輯:郭沫含)

    猜你喜歡
    博文短文語義
    第一次掙錢
    語言與語義
    KEYS
    Keys
    誰和誰好
    “上”與“下”語義的不對稱性及其認(rèn)知闡釋
    Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
    認(rèn)知范疇模糊與語義模糊
    打電話2
    短文改錯(cuò)
    成人午夜高清在线视频 | 国产精华一区二区三区| 久久久久久久精品吃奶| 国产午夜精品久久久久久| 国产又色又爽无遮挡免费看| 好男人电影高清在线观看| 欧美三级亚洲精品| 免费无遮挡裸体视频| 欧美性长视频在线观看| 亚洲av成人一区二区三| 黄片播放在线免费| 一卡2卡三卡四卡精品乱码亚洲| 精品一区二区三区四区五区乱码| 夜夜爽天天搞| 中文字幕另类日韩欧美亚洲嫩草| 欧美日韩中文字幕国产精品一区二区三区| 一进一出好大好爽视频| 色综合亚洲欧美另类图片| 中文字幕人成人乱码亚洲影| 日韩欧美国产一区二区入口| 午夜福利成人在线免费观看| tocl精华| 99riav亚洲国产免费| 欧美日韩中文字幕国产精品一区二区三区| 午夜福利18| 国产精品综合久久久久久久免费| 亚洲成人免费电影在线观看| 婷婷精品国产亚洲av| 香蕉久久夜色| 可以在线观看毛片的网站| 99国产精品99久久久久| 亚洲精品av麻豆狂野| 一级毛片精品| 可以在线观看毛片的网站| 亚洲 欧美一区二区三区| 丰满人妻熟妇乱又伦精品不卡| 校园春色视频在线观看| 久久精品国产99精品国产亚洲性色| 操出白浆在线播放| 久久久国产成人免费| 免费看十八禁软件| or卡值多少钱| 久久久水蜜桃国产精品网| 亚洲激情在线av| 91成人精品电影| 人人妻人人澡欧美一区二区| 国产男靠女视频免费网站| 每晚都被弄得嗷嗷叫到高潮| 亚洲中文字幕一区二区三区有码在线看 | 黑人欧美特级aaaaaa片| 校园春色视频在线观看| 可以免费在线观看a视频的电影网站| xxxwww97欧美| 欧美黄色淫秽网站| 日韩一卡2卡3卡4卡2021年| e午夜精品久久久久久久| 久久久国产成人精品二区| 人妻久久中文字幕网| 国产高清videossex| xxx96com| 一级毛片女人18水好多| 国产又黄又爽又无遮挡在线| 一级毛片女人18水好多| netflix在线观看网站| 99国产精品一区二区三区| 精品福利观看| 亚洲熟女毛片儿| 精品不卡国产一区二区三区| 国产一区二区三区视频了| 精品不卡国产一区二区三区| 久久精品91蜜桃| 日韩欧美 国产精品| ponron亚洲| 每晚都被弄得嗷嗷叫到高潮| 国产成人欧美| 天天躁夜夜躁狠狠躁躁| 国产成人系列免费观看| 巨乳人妻的诱惑在线观看| 国产男靠女视频免费网站| 亚洲自拍偷在线| 久久亚洲精品不卡| 少妇被粗大的猛进出69影院| 亚洲精品粉嫩美女一区| videosex国产| 天天添夜夜摸| 搡老妇女老女人老熟妇| 午夜福利在线观看吧| 国产亚洲av嫩草精品影院| 久久久国产成人免费| 美女 人体艺术 gogo| 国产日本99.免费观看| 日韩有码中文字幕| 国产成人一区二区三区免费视频网站| 日韩有码中文字幕| 国产精品亚洲av一区麻豆| 成熟少妇高潮喷水视频| 国产av一区在线观看免费| 一级毛片女人18水好多| 国内精品久久久久精免费| 免费一级毛片在线播放高清视频| 亚洲午夜理论影院| 不卡av一区二区三区| 又黄又粗又硬又大视频| 成人国产综合亚洲| 精品不卡国产一区二区三区| 久久精品人妻少妇| 女人高潮潮喷娇喘18禁视频| 久久狼人影院| 老汉色av国产亚洲站长工具| 国产三级黄色录像| 免费搜索国产男女视频| 18禁裸乳无遮挡免费网站照片 | 精品久久久久久成人av| 欧美乱码精品一区二区三区| 中文资源天堂在线| 亚洲一区中文字幕在线| 欧美精品亚洲一区二区| 亚洲成人久久性| 2021天堂中文幕一二区在线观 | 日韩有码中文字幕| 国产视频内射| 男女那种视频在线观看| 久久久久免费精品人妻一区二区 | 成人三级黄色视频| 黄片小视频在线播放| 欧美性猛交╳xxx乱大交人| 麻豆成人午夜福利视频| av福利片在线| 中文字幕久久专区| 亚洲三区欧美一区| 久久狼人影院| 俄罗斯特黄特色一大片| 久久亚洲真实| 久99久视频精品免费| 国产v大片淫在线免费观看| 正在播放国产对白刺激| 亚洲午夜理论影院| 黄色成人免费大全| 亚洲国产欧美日韩在线播放| www日本黄色视频网| 亚洲成av片中文字幕在线观看| 国产精品精品国产色婷婷| 色精品久久人妻99蜜桃| 美女 人体艺术 gogo| 女人被狂操c到高潮| 丁香六月欧美| 身体一侧抽搐| 最好的美女福利视频网| 国产精品久久久久久精品电影 | 亚洲国产精品久久男人天堂| 窝窝影院91人妻| 成年版毛片免费区| 12—13女人毛片做爰片一| 人人妻,人人澡人人爽秒播| 男女下面进入的视频免费午夜 | 国产av又大| 一卡2卡三卡四卡精品乱码亚洲| 久久 成人 亚洲| 日韩精品中文字幕看吧| 精品国产超薄肉色丝袜足j| 久久欧美精品欧美久久欧美| 国产高清激情床上av| 国产欧美日韩精品亚洲av| 制服丝袜大香蕉在线| 18禁裸乳无遮挡免费网站照片 | 国产精品野战在线观看| 手机成人av网站| 每晚都被弄得嗷嗷叫到高潮| 一级a爱片免费观看的视频| 国产一区二区激情短视频| 视频在线观看一区二区三区| 欧美日韩一级在线毛片| 久久久久精品国产欧美久久久| 免费一级毛片在线播放高清视频| 老熟妇乱子伦视频在线观看| 少妇粗大呻吟视频| 亚洲成人精品中文字幕电影| av在线播放免费不卡| 99精品欧美一区二区三区四区| 久久中文字幕人妻熟女| 一边摸一边抽搐一进一小说| 两人在一起打扑克的视频| xxx96com| 欧美国产精品va在线观看不卡| 女同久久另类99精品国产91| www.自偷自拍.com| 巨乳人妻的诱惑在线观看| 免费在线观看完整版高清| av视频在线观看入口| 精品一区二区三区四区五区乱码| 午夜久久久久精精品| 色综合婷婷激情| 欧美三级亚洲精品| av欧美777| 亚洲狠狠婷婷综合久久图片| 51午夜福利影视在线观看| 亚洲成av人片免费观看| 亚洲第一欧美日韩一区二区三区| 高潮久久久久久久久久久不卡| 国产黄片美女视频| av天堂在线播放| 深夜精品福利| 麻豆av在线久日| 亚洲一卡2卡3卡4卡5卡精品中文| 国产精品亚洲av一区麻豆| 免费观看精品视频网站| 一本大道久久a久久精品| 国产亚洲精品久久久久久毛片| 婷婷精品国产亚洲av在线| 亚洲久久久国产精品| 黄色视频,在线免费观看| 国产精品久久视频播放| x7x7x7水蜜桃| 亚洲在线自拍视频| 国产亚洲精品av在线| 夜夜看夜夜爽夜夜摸| 亚洲国产看品久久| 色综合站精品国产| 这个男人来自地球电影免费观看| 久久久久久亚洲精品国产蜜桃av| 91大片在线观看| 亚洲最大成人中文| 午夜两性在线视频| 久热爱精品视频在线9| 久久人人精品亚洲av| 亚洲成av片中文字幕在线观看| 男女之事视频高清在线观看| 高清毛片免费观看视频网站| 成人国语在线视频| 亚洲欧美日韩高清在线视频| 久久精品国产综合久久久| 欧美日韩黄片免| 久久99热这里只有精品18| 国产亚洲精品久久久久5区| 久99久视频精品免费| 久久国产精品人妻蜜桃| 美国免费a级毛片| 一区二区三区高清视频在线| 91麻豆精品激情在线观看国产| 成人亚洲精品一区在线观看| 久久久久国内视频| 狂野欧美激情性xxxx| 亚洲精品av麻豆狂野| 亚洲午夜精品一区,二区,三区| 国产精品影院久久| АⅤ资源中文在线天堂| 国产亚洲精品久久久久5区| 国产真实乱freesex| 日韩欧美在线二视频| 欧美乱码精品一区二区三区| 老熟妇仑乱视频hdxx| 亚洲,欧美精品.| 精品久久久久久久末码| 亚洲精品国产一区二区精华液| 国产亚洲精品一区二区www| av中文乱码字幕在线| 久久中文字幕人妻熟女| 久久伊人香网站| 亚洲三区欧美一区| 黄色女人牲交| 免费看美女性在线毛片视频| 99在线视频只有这里精品首页| 亚洲第一欧美日韩一区二区三区| 啦啦啦观看免费观看视频高清| 中文亚洲av片在线观看爽| 国产一区在线观看成人免费| 国产精品自产拍在线观看55亚洲| 真人一进一出gif抽搐免费| 精品久久久久久久久久久久久 | 亚洲专区国产一区二区| 国产精品久久久av美女十八| 欧美日韩中文字幕国产精品一区二区三区| 亚洲成av人片免费观看| 一本精品99久久精品77| 色老头精品视频在线观看| 婷婷精品国产亚洲av在线| 女性生殖器流出的白浆| 欧美zozozo另类| www国产在线视频色| 亚洲中文日韩欧美视频| 国产爱豆传媒在线观看 | 国产主播在线观看一区二区| 国内毛片毛片毛片毛片毛片| 亚洲成av人片免费观看| 国产在线精品亚洲第一网站| 黄色成人免费大全| 午夜a级毛片| 亚洲七黄色美女视频| 国产成人av教育| 人妻丰满熟妇av一区二区三区| 亚洲国产高清在线一区二区三 | 19禁男女啪啪无遮挡网站| 久久精品91无色码中文字幕| 99热这里只有精品一区 | 亚洲男人天堂网一区| 青草久久国产| 亚洲第一电影网av| 久久久久国产精品人妻aⅴ院| 成人国产一区最新在线观看| АⅤ资源中文在线天堂| 1024手机看黄色片| 久久热在线av| 欧美三级亚洲精品| 黄片小视频在线播放| 丝袜人妻中文字幕| 成人18禁在线播放| 亚洲五月色婷婷综合| 两个人免费观看高清视频| 成人午夜高清在线视频 | 成人国产一区最新在线观看| 琪琪午夜伦伦电影理论片6080| 美女 人体艺术 gogo| 黄色毛片三级朝国网站| 一区二区三区激情视频| 欧美黑人欧美精品刺激| 人人妻人人澡人人看| 成人欧美大片| 999久久久国产精品视频| 国产一区二区激情短视频| 亚洲人成伊人成综合网2020| 两性午夜刺激爽爽歪歪视频在线观看 | 天堂影院成人在线观看| 999久久久精品免费观看国产| 亚洲精品粉嫩美女一区| 国产日本99.免费观看| 久久精品亚洲精品国产色婷小说| 丁香欧美五月| 久久久久国内视频| 午夜久久久久精精品| 在线观看66精品国产| 黄色女人牲交| 一边摸一边抽搐一进一小说| 丰满人妻熟妇乱又伦精品不卡| 又紧又爽又黄一区二区| 一二三四社区在线视频社区8| 热99re8久久精品国产| 一级毛片高清免费大全| 天天躁夜夜躁狠狠躁躁| 国产午夜精品久久久久久| 首页视频小说图片口味搜索| 国产精品国产高清国产av| 91麻豆精品激情在线观看国产| 日日干狠狠操夜夜爽| 日本撒尿小便嘘嘘汇集6| 少妇熟女aⅴ在线视频| 亚洲成人国产一区在线观看| 香蕉国产在线看| 久久久久久久久中文| 午夜福利在线在线| 少妇裸体淫交视频免费看高清 | 少妇裸体淫交视频免费看高清 | 最近最新中文字幕大全免费视频| 在线播放国产精品三级| 欧美成人午夜精品| 深夜精品福利| 性欧美人与动物交配| 成年版毛片免费区| 国产精品,欧美在线| 亚洲色图 男人天堂 中文字幕| 亚洲欧美日韩高清在线视频| 成人国产一区最新在线观看| 91av网站免费观看| 美女扒开内裤让男人捅视频| 又黄又爽又免费观看的视频| 婷婷六月久久综合丁香| 1024手机看黄色片| 亚洲自偷自拍图片 自拍| 精品国产一区二区三区四区第35| 日本 欧美在线| 久久久久久久久免费视频了| 国产av在哪里看| 日韩av在线大香蕉| 久久国产精品人妻蜜桃| 亚洲全国av大片| 免费看美女性在线毛片视频| 日韩欧美在线二视频| 男女之事视频高清在线观看| 欧美另类亚洲清纯唯美| 亚洲一区二区三区色噜噜| 嫩草影院精品99| 精品久久久久久成人av| 999精品在线视频| av在线天堂中文字幕| 亚洲avbb在线观看| 国产一级毛片七仙女欲春2 | 男女那种视频在线观看| 国产午夜福利久久久久久| 国产三级黄色录像| 欧美色欧美亚洲另类二区| 欧美激情久久久久久爽电影| 欧美黄色片欧美黄色片| 很黄的视频免费| 亚洲国产精品合色在线| 欧美午夜高清在线| 国内精品久久久久久久电影| 亚洲国产精品合色在线| 亚洲,欧美精品.| 国产日本99.免费观看| 中文亚洲av片在线观看爽| 精品久久久久久久毛片微露脸| 欧美一级毛片孕妇| 亚洲精品在线美女| 男女之事视频高清在线观看| 久久久久精品国产欧美久久久| 久久久久久人人人人人| 精品免费久久久久久久清纯| 最新美女视频免费是黄的| 天天躁夜夜躁狠狠躁躁| 国产高清有码在线观看视频 | 久久精品成人免费网站| 精品高清国产在线一区| 国产精品久久久av美女十八| 99riav亚洲国产免费| 欧美日本视频| 国产一卡二卡三卡精品| 非洲黑人性xxxx精品又粗又长| 欧美精品啪啪一区二区三区| 久久久水蜜桃国产精品网| 少妇的丰满在线观看| 久久香蕉精品热| 黑丝袜美女国产一区| 日本在线视频免费播放| 日本免费一区二区三区高清不卡| 最近最新中文字幕大全免费视频| 九色国产91popny在线| 亚洲精品一区av在线观看| 一个人观看的视频www高清免费观看 | www.精华液| 午夜视频精品福利| 日韩av在线大香蕉| 黄色毛片三级朝国网站| 男人舔女人下体高潮全视频| 精品欧美国产一区二区三| 日本熟妇午夜| 哪里可以看免费的av片| 老司机午夜福利在线观看视频| 又紧又爽又黄一区二区| or卡值多少钱| 亚洲人成网站高清观看| 9191精品国产免费久久| 777久久人妻少妇嫩草av网站| 亚洲人成77777在线视频| 国产人伦9x9x在线观看| 亚洲精品一区av在线观看| 嫁个100分男人电影在线观看| 成人欧美大片| 国产精品香港三级国产av潘金莲| 久99久视频精品免费| 国产精品免费视频内射| 久久久国产精品麻豆| 久久伊人香网站| 久久久久亚洲av毛片大全| 91国产中文字幕| 欧美日韩瑟瑟在线播放| 精品久久久久久久毛片微露脸| 久久伊人香网站| 婷婷精品国产亚洲av在线| 99国产综合亚洲精品| 久久香蕉激情| 亚洲午夜精品一区,二区,三区| 亚洲av电影在线进入| 成人18禁在线播放| 在线视频色国产色| 久久久国产成人免费| 老熟妇乱子伦视频在线观看| 国产精品爽爽va在线观看网站 | 看片在线看免费视频| 国产av一区二区精品久久| 黄色片一级片一级黄色片| 亚洲专区国产一区二区| 国产精品av久久久久免费| 欧美成人免费av一区二区三区| 日本免费一区二区三区高清不卡| 99久久无色码亚洲精品果冻| 国产成人精品久久二区二区免费| 99热只有精品国产| 日本三级黄在线观看| 日韩精品青青久久久久久| 免费人成视频x8x8入口观看| 一本综合久久免费| 老汉色av国产亚洲站长工具| 国产精品久久电影中文字幕| 国产精品久久久久久亚洲av鲁大| 午夜精品在线福利| 婷婷精品国产亚洲av| 叶爱在线成人免费视频播放| 精品一区二区三区av网在线观看| 少妇被粗大的猛进出69影院| 亚洲成a人片在线一区二区| 老司机靠b影院| 亚洲一码二码三码区别大吗| 99国产精品99久久久久| 国产精品二区激情视频| 老司机午夜福利在线观看视频| 欧美又色又爽又黄视频| 男人操女人黄网站| 少妇 在线观看| 满18在线观看网站| 看黄色毛片网站| 久久久久久久久久黄片| 国产激情久久老熟女| 无遮挡黄片免费观看| 亚洲人成伊人成综合网2020| 每晚都被弄得嗷嗷叫到高潮| 黄片大片在线免费观看| 国产黄片美女视频| 黄频高清免费视频| 美国免费a级毛片| 国产亚洲欧美在线一区二区| 男女那种视频在线观看| 国产蜜桃级精品一区二区三区| 久久精品国产99精品国产亚洲性色| 久久久久久九九精品二区国产 | 日本 欧美在线| 欧美绝顶高潮抽搐喷水| 亚洲av电影在线进入| 久久 成人 亚洲| 欧美黄色片欧美黄色片| 黄色丝袜av网址大全| 一区福利在线观看| 免费看日本二区| 精品人妻1区二区| 99精品久久久久人妻精品| 亚洲三区欧美一区| 免费看十八禁软件| 日韩精品中文字幕看吧| 日本a在线网址| 搡老熟女国产l中国老女人| 哪里可以看免费的av片| 黄色a级毛片大全视频| 免费av毛片视频| 国产久久久一区二区三区| 国产又爽黄色视频| 欧美丝袜亚洲另类 | 日本成人三级电影网站| а√天堂www在线а√下载| 亚洲自偷自拍图片 自拍| 黄色视频,在线免费观看| 91在线观看av| 视频区欧美日本亚洲| 国产激情偷乱视频一区二区| АⅤ资源中文在线天堂| 人人澡人人妻人| 亚洲久久久国产精品| 人妻丰满熟妇av一区二区三区| 一二三四社区在线视频社区8| 男女那种视频在线观看| 亚洲成人国产一区在线观看| 一本精品99久久精品77| 色综合亚洲欧美另类图片| 日韩欧美国产在线观看| 欧美午夜高清在线| 亚洲在线自拍视频| 成人免费观看视频高清| 欧美日本视频| 亚洲七黄色美女视频| 日韩精品中文字幕看吧| 免费看十八禁软件| 老司机靠b影院| 国内精品久久久久久久电影| 亚洲全国av大片| 欧美日韩福利视频一区二区| 国产午夜福利久久久久久| 给我免费播放毛片高清在线观看| 动漫黄色视频在线观看| 久久久国产成人免费| 久久久久久人人人人人| 精品一区二区三区四区五区乱码| 国产男靠女视频免费网站| 中文字幕精品亚洲无线码一区 | 日韩欧美三级三区| 国产在线精品亚洲第一网站| 精品乱码久久久久久99久播| 午夜免费鲁丝| 国产av不卡久久| 高潮久久久久久久久久久不卡| 亚洲精品粉嫩美女一区| 日日爽夜夜爽网站| 90打野战视频偷拍视频| 在线观看舔阴道视频| 国产亚洲精品久久久久5区| 欧美绝顶高潮抽搐喷水| 日本a在线网址| 又黄又爽又免费观看的视频| 日韩av在线大香蕉| 久热爱精品视频在线9| 中国美女看黄片| 在线观看www视频免费| 男人操女人黄网站| 久久久久久九九精品二区国产 | 亚洲成av人片免费观看| 成人av一区二区三区在线看| 成年人黄色毛片网站| 每晚都被弄得嗷嗷叫到高潮| 18美女黄网站色大片免费观看| 亚洲中文字幕日韩| 精品欧美国产一区二区三| 国产一区二区三区视频了| 亚洲人成电影免费在线| 91字幕亚洲| 久久久国产成人精品二区| 日韩 欧美 亚洲 中文字幕| 国产激情久久老熟女| 亚洲激情在线av| 黄色a级毛片大全视频| 久久久久久久午夜电影| 欧美乱码精品一区二区三区| 日本a在线网址| 亚洲专区国产一区二区| 亚洲五月婷婷丁香| 国产爱豆传媒在线观看 | 亚洲成人久久爱视频| 最好的美女福利视频网| 欧美成人免费av一区二区三区| 国产主播在线观看一区二区|