劉夢(mèng)穎,王 勇
(北京工業(yè)大學(xué)信息學(xué)部,北京 100124)
隨著信息技術(shù)的快速發(fā)展以及社交網(wǎng)絡(luò)的興起,通過互聯(lián)網(wǎng)傳播的信息量更是呈爆炸式增長(zhǎng)。微博作為當(dāng)前國(guó)內(nèi)廣泛使用的社交媒體平臺(tái)之一,憑借其平臺(tái)的開放性已經(jīng)成為越來越多的網(wǎng)民表達(dá)自我情感、獲取時(shí)事新聞、討論社會(huì)輿論的重要平臺(tái)[1]。
目前,針對(duì)微博平臺(tái)的熱點(diǎn)話題發(fā)現(xiàn),眾多學(xué)者已經(jīng)開展了大量的研究工作。Chen等[2]通過計(jì)算每個(gè)單詞的TF-ID值,即使用單詞出現(xiàn)的頻率衡量其是否為熱詞,進(jìn)行熱點(diǎn)話題挖掘。路榮等[3]采用LDA模型對(duì)微博文本進(jìn)行隱主題建模,通過隱主題模型計(jì)算微博文本之間的相似度,進(jìn)行話題聚類。Ye等[4]將微博中的點(diǎn)贊、評(píng)論、轉(zhuǎn)發(fā)、時(shí)間、用戶權(quán)限等微博特征信息添加到主題模型中,利用這些特征計(jì)算每個(gè)微博的關(guān)注價(jià)值、權(quán)威價(jià)值和詞頻,構(gòu)造了微博新的主題模型MF-LDA,實(shí)驗(yàn)顯示具有更好的準(zhǔn)確性。陳珊珊[5]使用LDA模型來挖掘隱藏在數(shù)據(jù)中主題信息,使用主題信息來實(shí)現(xiàn)文本表示。Liu等[6]提出使用HowNet來擴(kuò)展文本中單詞的語義特征,以達(dá)到更好的聚類效果。為了進(jìn)一步解決文本表示模型的高維問題,有學(xué)者提出將頻繁詞集的概念[7]應(yīng)用于短文本聚類中,Zhang等[8]提出用挖掘的頻繁詞集作為特征來表示文本,并使用文本包含的頻繁詞集個(gè)數(shù)計(jì)算文本之間的相似度進(jìn)行聚類。徐雅斌等[9]針對(duì)微博這一特殊媒體進(jìn)行分析,提出使用頻繁詞集聚類FWSC(Frequent Words Sets Clustering)算法進(jìn)行微博話題發(fā)現(xiàn)。彭敏等[10]提出了一種聚類簇?cái)?shù)目自適應(yīng)的頻繁項(xiàng)集譜聚類算法CSA_SC,實(shí)現(xiàn)微博文本聚類與話題抽取。
由于微博文本具有篇幅較短、信息量少等特點(diǎn),傳統(tǒng)的話題發(fā)現(xiàn)方法僅僅考慮詞的統(tǒng)計(jì)關(guān)系而無法兼顧低頻描述詞,大大影響了短文本的聚類效果。再加上微博文本內(nèi)容隨意,一些用語一詞多義也增加了微博熱點(diǎn)話題發(fā)現(xiàn)的難度。因此,提出一種行之有效的中文微博熱點(diǎn)話題發(fā)現(xiàn)方法具有重要的現(xiàn)實(shí)意義。
本文在深入分析目前國(guó)內(nèi)外已有的熱點(diǎn)話題發(fā)現(xiàn)技術(shù)基礎(chǔ)上,研究其在短文本聚類結(jié)果和熱點(diǎn)話題評(píng)估等方面都不是很理想的原因,考慮在傳統(tǒng)的基于統(tǒng)計(jì)詞頻的方法基礎(chǔ)之上融入BERT句向量語義進(jìn)行主題聚類,通過改進(jìn)相似性度量的Affinity Propagation(AP)聚類算法進(jìn)行微博話題挖掘,并引入H指數(shù)進(jìn)行話題熱點(diǎn)評(píng)估分析,提出一種更適合微博熱點(diǎn)話題發(fā)現(xiàn)的方法。
本文提出的基于文本雙表示模型的微博熱點(diǎn)話題發(fā)現(xiàn)方法如圖1所示。首先,對(duì)微博數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理,然后對(duì)文本進(jìn)行頻繁詞集挖掘和BERT句向量表示,通過構(gòu)造FWS-BERT文本雙表示模型計(jì)算文本相似度進(jìn)行譜聚類,之后再對(duì)主題聚類結(jié)果進(jìn)行話題挖掘,最后通過話題描述詞進(jìn)行微博熱點(diǎn)話題評(píng)估。
圖1 基于文本雙表示模型的微博熱點(diǎn)話題發(fā)現(xiàn)方法流程
1.1.1 頻繁詞集挖掘
在文本中,經(jīng)常同時(shí)出現(xiàn)的特征詞往往存在一定的關(guān)聯(lián)性,同一主題下不同短文本之間包含的特征詞也經(jīng)常重復(fù)出現(xiàn)。因此,利用微博文本之間共有的特征詞數(shù)量來衡量微博文本相似度是目前普遍采用的一種標(biāo)準(zhǔn)。
本文采用韓家煒教授等人[11]提出的FP-Growth算法作為頻繁詞集挖掘算法。FP-Growth算法是頻繁模式挖掘領(lǐng)域的經(jīng)典算法,相比Apriori等算法在大數(shù)據(jù)集上較為高效。本文根據(jù)微博文本的數(shù)據(jù)量設(shè)置最小支持度,對(duì)清洗處理后的微博文本進(jìn)行頻繁詞集挖掘。相關(guān)定義如下:
定義1 文本集合。進(jìn)行數(shù)據(jù)預(yù)處理及特征詞匯篩選后的微博文本組成文本集合D={D1,D2,D3,…,Dn}。
定義2 最小支持度。文本集合D中所有特征詞集合T={t1,t2,t3,…,tn}。文檔Di包含的所有特征詞集合WDi∈T。詞集U為T的子集,U的支持度為support(U)=|{Di|U?WDi,Di∈D}|,表示包含詞集的文本數(shù)量??紤]到頻繁詞集挖掘算法效率對(duì)實(shí)驗(yàn)復(fù)雜度的影響,設(shè)置一個(gè)控制頻繁詞集數(shù)量的閾值θ,稱該閾值θ為最小支持度。
定義3 頻繁詞集。通過對(duì)數(shù)據(jù)文本集合D進(jìn)行FP-Growth頻繁詞集挖掘,得到大于設(shè)置的最小支持度閾值的頻繁詞集集合U={U1,U2,U3,…,Un},其中Ui表示每個(gè)頻繁詞集,每個(gè)頻繁詞集由多個(gè)詞語組成Ui={w1,w2,w3,…,wn}。
由于頻繁詞集長(zhǎng)度較短、信息量較小,難以依據(jù)傳統(tǒng)的文本相似度度量方法,如余弦相似度或歐氏距離來評(píng)估頻繁詞集之間的相似度。因此,本文采用Jaccard系數(shù)來度量微博文本之間的頻繁詞集相似度,如公式(1):
(1)
其中,Jaccard_Sim(Di,Dj)表示2個(gè)微博文本之間的相似度,分子表示2個(gè)文本所包含的頻繁詞集交集數(shù)量,分母表示2個(gè)文本所包含的頻繁詞集并集數(shù)量。
1.1.2 BERT句向量
BERT[12](Bidirectional Encoder Representation from Transformers)是2018年Google AI團(tuán)隊(duì)發(fā)布的一種新的語言模型,其結(jié)構(gòu)如圖2所示。BERT采用Transformer[13]編碼器作為模型核心結(jié)構(gòu),E1,E2,…,EN為模型的輸入向量,T1,T2,…,TN為模型的輸出向量。
圖2 BERT語言模型結(jié)構(gòu)
BERT作為一個(gè)多任務(wù)模型,其預(yù)訓(xùn)練過程是由2個(gè)自監(jiān)督任務(wù)組成,即掩碼語言模型(MLM)任務(wù)和句子連貫性判定(NSP)任務(wù)。MLM是指在訓(xùn)練的時(shí)候隨機(jī)將輸入語料中15%的詞遮蓋起來,然后通過上下文預(yù)測(cè)被遮蓋的詞,通過迭代訓(xùn)練可以學(xué)習(xí)到詞的上下文特征、語法結(jié)構(gòu)特征、句法特征等,保證了句子特征提取的全面性。NSP的任務(wù)是判斷某個(gè)句子X是否是另一個(gè)句子Y的下文,通過迭代訓(xùn)練學(xué)習(xí)到句子之間的關(guān)系。
BERT預(yù)訓(xùn)練語言模型拋棄了傳統(tǒng)的RNN和CNN,通過多層Transformer使用自注意力機(jī)制(self-attention)同時(shí)并行提取輸入序列中每個(gè)詞的特征,有效地解決了棘手的長(zhǎng)期依賴問題。與傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)相比,BERT模型使用雙向Transformer對(duì)當(dāng)前單詞的上下文信息做特征提取,能夠較完整地保存文本語義信息;同時(shí)BERT模型根據(jù)上下文信息動(dòng)態(tài)調(diào)整文本句向量能解決一詞多義問題。Transformer的網(wǎng)絡(luò)架構(gòu)如圖3所示。
圖3 Transformer網(wǎng)絡(luò)架構(gòu)
“BERT-Base,Chinese”是Google開源的BERT中文預(yù)訓(xùn)練模型,模型總參數(shù)大小為110 MB。為了將BERT預(yù)訓(xùn)練模型用在特定的微博領(lǐng)域,當(dāng)前通用的做法是在BERT預(yù)訓(xùn)練模型上繼續(xù)使用特定領(lǐng)域語料對(duì)該模型進(jìn)行繼續(xù)訓(xùn)練[14]。因此,本文使用海量的微博文本作為繼續(xù)訓(xùn)練BERT預(yù)訓(xùn)練模型的語料庫,使得到的BERT模型更加符合微博語言環(huán)境。將訓(xùn)練好的模型載入后,可以直接將微博文本輸出為768維的句向量。微博文本的BERT句向量語義相似度采用余弦距離來表示,2個(gè)向量夾角的余弦值越接近于1,代表2個(gè)向量越相近,2個(gè)文本越相似。如公式(2):
(2)
其中,Di、Dj表示由BERT模型訓(xùn)練而得到文本句向量。
1.1.3 構(gòu)建FWS-BERT文本雙表示模型
由于微博短文本的特殊性,目前單一的基于文本特征詞統(tǒng)計(jì)關(guān)系往往不能準(zhǔn)確表示文本內(nèi)容,容易發(fā)生相似度漂移現(xiàn)象,大大影響了短文本的聚類效果。因此本文選擇采用BERT文本句向量所計(jì)算的外部語義關(guān)系并將其融合到基于頻繁詞集計(jì)算文本相似度的方法中,構(gòu)建基于特征詞的統(tǒng)計(jì)關(guān)系和上下文語義關(guān)系的文本雙表示模型來處理微博文本,從更全面的角度對(duì)微博文本進(jìn)行表示。
最終文本相似度由頻繁詞集相似度(公式(1))和BERT句向量語義相似度(公式(2))這2個(gè)部分加權(quán)集成得到,如公式(3):
Sim(Di,Dj)=αJaccard_Sim(Di,Dj)+(1-α)Vec_Sim(Di,Dj)
(3)
其中,α是調(diào)節(jié)2種相似度所占比重的重要參數(shù),根據(jù)實(shí)驗(yàn)結(jié)果確定,0<α<1。
通過FWS-BERT文本雙表示模型構(gòu)建的微博文本融合相似度矩陣M如下:
(4)
其中,Simij表示由文本雙表示模型計(jì)算出的下標(biāo)為i與下標(biāo)為j的2個(gè)微博文本融合相似度。
最后,本文通過融合相似度矩陣M采用譜聚類算法[15]對(duì)微博文本進(jìn)行主題聚類。
對(duì)于聚類后每個(gè)主題下所有微博數(shù)據(jù)文本,本文使用FP-Growth算法分別設(shè)置不同的最小支持度對(duì)每個(gè)主題下文本進(jìn)行頻繁詞集挖掘,考慮到只有一個(gè)詞的頻繁詞集對(duì)話題表示意義不大,因此選取了長(zhǎng)度大于等于2的頻繁詞集作為每個(gè)主題的聚類結(jié)果。
為了準(zhǔn)確檢測(cè)到各個(gè)主題下的隱含話題,本文將MinHash算法[16]引入AP聚類算法[17]中,代替原有的歐氏距離度量來構(gòu)建頻繁詞集相似性矩陣進(jìn)行話題聚類。實(shí)驗(yàn)表明,本文在主題聚類結(jié)果上使用改進(jìn)相似性度量的AP聚類算法能有效地挖掘到各個(gè)主題下的隱含話題。
對(duì)于微博話題的熱度估計(jì),目前沒有一個(gè)統(tǒng)一的度量標(biāo)準(zhǔn)[18]。本文通過對(duì)微博話題傳播規(guī)律進(jìn)行分析,綜合考慮微博話題熱度的影響因素,通過引入文獻(xiàn)計(jì)量學(xué)中的H指數(shù)[19-21]并選取話題詞熱度和用戶參與度這2個(gè)維度進(jìn)行話題熱度值計(jì)算,綜合得出微博熱點(diǎn)話題。
1)話題詞熱度。首先將某個(gè)話題描述詞所在微博的被轉(zhuǎn)發(fā)數(shù)、被評(píng)論數(shù)、被點(diǎn)贊數(shù)分別從高到低進(jìn)行排序,直到前H篇微博的被轉(zhuǎn)發(fā)數(shù)、被評(píng)論數(shù)、被點(diǎn)贊數(shù)各不少于H,得到某話題描述詞的H指數(shù)。如公式(5):
(5)
其中,Hz、Hp、Hd分別是包含某話題詞所在微博的被轉(zhuǎn)發(fā)、被評(píng)論、被點(diǎn)贊的H指數(shù)。
2)用戶參與度。本文假設(shè)粉絲數(shù)達(dá)到10萬的用戶為大用戶。用戶參與度由包含話題詞的微博總條數(shù)、包含話題詞的微博參與用戶數(shù)和參與用戶中大用戶數(shù)量來度量。如公式(6):
(6)
其中,sum是包含某話題詞的微博總數(shù),sum_user是包含某話題詞的微博參與用戶數(shù),user_v是參與用戶中大用戶數(shù)。
設(shè)某話題包含k個(gè)話題詞,綜合話題詞熱度和用戶參與度得出話題的熱度計(jì)算如公式(7):
(7)
本文對(duì)新浪開放平臺(tái)API進(jìn)行分析,利用Python爬蟲技術(shù)在新浪微博上采集了2類數(shù)據(jù),第一類是隨機(jī)爬取的微博文本共3.609 GB,作為BERT語言模型的訓(xùn)練數(shù)據(jù);第二類是采用定主題的方式爬取了2020年11月5日至12月3日之間的微博數(shù)據(jù),包含微博內(nèi)容數(shù)據(jù)和微博用戶數(shù)據(jù)2個(gè)部分。
通過對(duì)微博內(nèi)容數(shù)據(jù)集進(jìn)行篩選,選取了新冠、5G、直播3個(gè)主題,每個(gè)主題下5個(gè)熱點(diǎn)話題,共5359條數(shù)據(jù),該數(shù)據(jù)集沒有進(jìn)行對(duì)主題及話題的人工標(biāo)注;與之對(duì)應(yīng)微博用戶數(shù)據(jù)集共4611條。數(shù)據(jù)集的詳細(xì)信息如表1~表3所示。
表1 新冠主題下話題數(shù)據(jù)詳細(xì)信息
表2 5G主題下話題數(shù)據(jù)詳細(xì)信息
表3 直播主題下話題數(shù)據(jù)詳細(xì)信息
本文使用Jieba分詞工具包實(shí)現(xiàn)分詞,并通過構(gòu)建停用詞表匹配去掉停用詞。利用TF-IDF[22-23]和TextRank[24]分別提取關(guān)鍵詞并進(jìn)行合并形成關(guān)鍵詞集合,使用該集合對(duì)微博文本進(jìn)行關(guān)鍵詞篩選,降低數(shù)據(jù)的稀疏性以及建模的維度。
2.2.1 FWS-BERT模型參數(shù)確定實(shí)驗(yàn)
在FWS-BERT文本雙表示模型中,α決定了計(jì)算文本相似度時(shí)頻繁詞集和BERT語義所占的比重,是影響微博主題聚類效果的重要參數(shù)。α取值較大時(shí),F(xiàn)WS-BERT模型過多地考慮微博文本的統(tǒng)計(jì)特征而忽略了上下文語義挖掘;α取值較小時(shí),由于微博短文本自身包含的信息量較少、上下文特征不足,F(xiàn)WS-BERT模型過多地關(guān)注短文本的語義信息,可能也不能很好地實(shí)現(xiàn)主題聚類。
為了達(dá)到更為理想的實(shí)驗(yàn)結(jié)果,本文在新冠、5G、直播3個(gè)主題的數(shù)據(jù)集上進(jìn)行主題聚類實(shí)驗(yàn)。本文采用輪廓系數(shù)(Silhouette Coefficient)作為實(shí)驗(yàn)結(jié)果評(píng)價(jià)標(biāo)準(zhǔn),記錄每個(gè)α值下多次聚類實(shí)驗(yàn)結(jié)果的輪廓系數(shù)平均值,如圖4所示。通過對(duì)比不同α值下的輪廓系數(shù)平均值,發(fā)現(xiàn)當(dāng)α值太大或太小時(shí)都不能達(dá)到較好的主題聚類實(shí)驗(yàn)效果,最終取α為0.6。
圖4 不同α值下的輪廓系數(shù)
2.2.2 FWS-BERT模型聚類有效性實(shí)驗(yàn)
為驗(yàn)證使用本文提出的FWS-BERT模型進(jìn)行主題聚類的有效性,采用輪廓系數(shù)和Calinski-Harabaz指數(shù)作為本實(shí)驗(yàn)的評(píng)價(jià)標(biāo)準(zhǔn),分別對(duì)比了以下4種文本表示方法:
1)FWS-BERT-S。本文的FWS-BERT模型譜聚類。
2)FWS-BERT-K。本文的FWS-BERT模型K-means聚類。
3)FWS-S?;陬l繁詞集的單一文本表示譜聚類。
4)LDA-S?;贚DA主題模型譜聚類。
在實(shí)驗(yàn)過程中,分別使用這4種方法在不同的數(shù)據(jù)量下進(jìn)行實(shí)驗(yàn),記錄不同方法在每次實(shí)驗(yàn)中聚類結(jié)果的輪廓系數(shù)和CH值。重復(fù)實(shí)驗(yàn)多次,記錄多個(gè)輪廓系數(shù)和CH值,并計(jì)算得到對(duì)應(yīng)文本表示方法的平均輪廓系數(shù)和平均CH值,實(shí)驗(yàn)結(jié)果如圖5和圖6如示。
圖5 不同數(shù)據(jù)量下4種聚類方法的輪廓系數(shù)
圖6 不同數(shù)據(jù)量下4種聚類方法的CH值
分析圖5、圖6的實(shí)驗(yàn)結(jié)果,在不同的數(shù)據(jù)量下,本文提出的FWS-BERT模型譜聚類結(jié)果在輪廓系數(shù)和CH值上均優(yōu)于基于LDA主題模型譜聚類算法和基于頻繁詞集的單一文本表示譜聚類算法,同時(shí)也表明使用譜聚類算法在微博短文本上的聚類效果要明顯優(yōu)于K-means算法。由于短文本中特征詞較少,在LDA主題模型中會(huì)出現(xiàn)數(shù)據(jù)稀疏性問題,單一的頻繁詞集表示雖然在一定程度上降低了短文本表示的維度,但由于該方法只考慮文本中特征詞的統(tǒng)計(jì)關(guān)系而忽略了上下文語義信息,僅僅使用頻繁詞集對(duì)文本進(jìn)行建模會(huì)大大影響聚類效果。本文提出的基于FWS-BERT的譜聚類算法既使用頻繁詞集挖掘考慮了短文本的統(tǒng)計(jì)信息,又通過BERT句向量中融入了更多的語法、詞法以及語義信息,從而能更準(zhǔn)確地表示文本中詞語之間的潛在語義關(guān)系,達(dá)到了很好的聚類實(shí)驗(yàn)效果。
2.2.3 話題聚類算法有效性對(duì)比
為了驗(yàn)證本文提出的改進(jìn)AP聚類算法對(duì)于微博話題聚類的有效性,本文設(shè)置了原始的AP聚類算法、經(jīng)典的K-means算法和本文提出的改進(jìn)AP算法進(jìn)行對(duì)比,其中原始的AP算法使用頻繁詞集作為文本表示,K-means算法分別使用TF-IDF(K-means1)和頻繁詞集(K-means2)文本表示。實(shí)驗(yàn)評(píng)價(jià)指標(biāo)仍采用輪廓系數(shù)和CH值。在實(shí)驗(yàn)過程中,將每個(gè)微博主題下所有文本數(shù)據(jù)當(dāng)成一個(gè)整體,分別對(duì)每個(gè)主題進(jìn)行話題聚類實(shí)驗(yàn),每組實(shí)驗(yàn)運(yùn)行多次,計(jì)算得到聚類結(jié)果的平均輪廓系數(shù)和平均CH值,觀察不同聚類算法在結(jié)果上的差異,實(shí)驗(yàn)結(jié)果如圖7、圖8所示。
圖7 不同主題下4種聚類方法的輪廓系數(shù)
圖8 不同主題下4種聚類方法的CH值
由圖7、圖8的實(shí)驗(yàn)結(jié)果可知,本文提出的改進(jìn)AP聚類算法在輪廓系數(shù)和CH值上均取得了較好的實(shí)驗(yàn)效果。首先,AP算法相比于經(jīng)典的K-means算法而言,不用事先指定每個(gè)主題下聚類的結(jié)果簇?cái)?shù)目,從而對(duì)話題檢測(cè)具有一定的靈活性?;陬l繁詞集的文本表示方法在一定程度上優(yōu)于TF-IDF,主要是頻繁詞集提取的文本特征更加完整,比TF-IDF能夠較為準(zhǔn)確的表示文本。同時(shí),實(shí)驗(yàn)結(jié)果表明,引入MinHash算法計(jì)算文本集合之間的相似度更加符合微博文本的特點(diǎn),能有效實(shí)現(xiàn)對(duì)各個(gè)主題下的微博話題檢測(cè)。
2.2.4 話題挖掘及熱度評(píng)估實(shí)驗(yàn)
本實(shí)驗(yàn)主要是驗(yàn)證本文提出的話題挖掘及話題熱度評(píng)估分析方法有效,實(shí)驗(yàn)前在微博熱搜搜索引擎上逐一使用關(guān)鍵詞“新冠”“5G”“直播”查詢每個(gè)主題下各個(gè)話題的熱度值并進(jìn)行記錄和排名。利用本文提出的基于改進(jìn)相似性度量的AP聚類算法對(duì)話題進(jìn)行挖掘,并使用公式(7)話題熱度計(jì)算公式分別計(jì)算每個(gè)主題下各個(gè)話題的熱度值,與所記錄的真實(shí)微博熱度排名進(jìn)行對(duì)比,驗(yàn)證本文方法的有效性。各個(gè)主題下話題表示、話題熱度真實(shí)值及實(shí)驗(yàn)結(jié)果如表4~表6所示。
表4 新冠主題下話題熱度真實(shí)值及實(shí)驗(yàn)結(jié)果
表5 5G主題下話題熱度真實(shí)值及實(shí)驗(yàn)結(jié)果
表6 直播主題下話題熱度真實(shí)值及實(shí)驗(yàn)結(jié)果
分析表4~表6的實(shí)驗(yàn)結(jié)果,各個(gè)主題下的話題描述詞基本能準(zhǔn)確描述話題內(nèi)容,沒有出現(xiàn)話題描述重疊、無法辨識(shí)話題內(nèi)容的現(xiàn)象。受到采集數(shù)據(jù)和聚類結(jié)果的影響,新冠主題和5G主題各個(gè)話題熱度值排名與真實(shí)的微博熱度值排名稍有偏差,直播主題下各個(gè)話題熱度值與真實(shí)的微博熱度值排名一致。本實(shí)驗(yàn)驗(yàn)證了本文提出的話題挖掘方法及話題熱度評(píng)估分析方法的有效性。
本文針對(duì)傳統(tǒng)的熱點(diǎn)話題發(fā)現(xiàn)方法中存在的單一文本表示不準(zhǔn)確、熱點(diǎn)話題發(fā)現(xiàn)效果差等問題,提出了一種切實(shí)可行的微博熱點(diǎn)話題發(fā)現(xiàn)方法,并通過實(shí)驗(yàn)證明了本文提出的方法在微博主題聚類、話題挖掘、話題熱度評(píng)估等方面是有效的,可為市場(chǎng)行業(yè)的調(diào)研、政府對(duì)輿論的預(yù)警和正確引導(dǎo)提供重要的參考。下一步將在更大規(guī)模的微博數(shù)據(jù)集上研究FWS-BERT模型中α取值問題,進(jìn)一步細(xì)化α取值梯度以得到更為理想的實(shí)驗(yàn)效果。