劉 濱 ,詹世源,劉 宇,雷曉雨,楊雨寬,陳伯軒,劉格格,高 歆,皇甫佳悅,陳 莉
(1.河北科技大學(xué)經(jīng)濟(jì)管理學(xué)院,河北石家莊 050018;2.河北科技大學(xué)大數(shù)據(jù)與社會(huì)計(jì)算研究中心,河北石家莊 050018;3.河北政法職業(yè)學(xué)院圖書館,河北石家莊 050061;4.電子科技大學(xué)格拉斯哥學(xué)院,四川成都 610000;5.南京警察學(xué)院信息技術(shù)學(xué)院,江蘇南京 210000;6.中國(guó)人民解放軍空軍預(yù)警學(xué)院,湖北武漢 430019)
評(píng)論文本泛在于文化、演藝、消費(fèi)等諸多平臺(tái),利用自然語(yǔ)言處理領(lǐng)域的主題模型,可以挖掘出各類意見(jiàn)或觀點(diǎn),輔以數(shù)據(jù)可視化技術(shù)[1-2],幫助產(chǎn)品或服務(wù)提供方準(zhǔn)確識(shí)別社會(huì)反饋并優(yōu)化品質(zhì)。LDA[3](latent dirichlet allocation)、pLSA[4](probabilistic latent semantic analysis)等主題模型通常采用Gibbs采樣或變分推斷等算法,從高維稀疏的文本特征空間中挖掘潛在主題信息[5]。然而,評(píng)論文本通常長(zhǎng)度短、語(yǔ)義稀疏、情感詞多且用詞較為隨意[6],致使LDA和pLSA的效果并不理想,出現(xiàn)模型泛化能力弱、主題詞可解釋性差等問(wèn)題。針對(duì)短文本特征空間高維稀疏的特征,研究人員提出了BTM[7](biterm topic model)和DMM[8](dirichlet multinomial mixture model)等模型。BTM通過(guò)在短文本集合中構(gòu)建詞對(duì),緩解了稀疏性問(wèn)題;而DMM模型假設(shè)每一篇短文本只有一個(gè)主題,且一篇文本中所有詞共享一個(gè)主題,使其適用于短文本處理[9]。然而,由于評(píng)論文本中詞匯共現(xiàn)信息不足,并且上述2個(gè)模型仍然以概率計(jì)算為核心,導(dǎo)致出現(xiàn)主題識(shí)別不準(zhǔn)確、缺乏深層語(yǔ)義理解等問(wèn)題。為此,阮光冊(cè)等[10]將深度學(xué)習(xí)模型與LDA主題模型相結(jié)合,提出融合Sentence-BERT和LDA的評(píng)論文本主題識(shí)別(SBERT-LDA)方法,取得了較好效果。然而,由于該方法使用K-means對(duì)特征融合后的向量進(jìn)行聚類,且將LDA的主題數(shù)作為k值,因而存在可解釋性較差、主題一致性較低等問(wèn)題;此外,由于K-means算法隨機(jī)選擇初始聚類中心,因而容易陷入局部最優(yōu)解的問(wèn)題。為此,本文提出基于密度Canopy的SBERT-LDA優(yōu)化方法(SBERT-LDA-DC),即采用基于密度Canopy的改進(jìn)K-means算法進(jìn)行向量聚類,并通過(guò)實(shí)驗(yàn)證明其效果。
評(píng)論文本主題識(shí)別是指對(duì)互聯(lián)網(wǎng)和在線社交媒體上的評(píng)論文本數(shù)據(jù),通過(guò)自然語(yǔ)言處理技術(shù),從文本中提取關(guān)鍵信息并推斷出評(píng)論的主題[11]。BLEI[12]認(rèn)為主題模型是一種統(tǒng)計(jì)方法,通過(guò)分析原始文本的詞語(yǔ)來(lái)發(fā)現(xiàn)貫穿其中的主題以及這些主題如何聯(lián)系,幫助人們理解文本文檔中的潛在主題。主題模型最早的代表為pLSA,隨后LDA主題模型對(duì)pLSA模型進(jìn)行了貝葉斯改進(jìn),假設(shè)文檔中主題的先驗(yàn)分布和主題中詞的先驗(yàn)分布都服從Dirichlet分布。然而,網(wǎng)絡(luò)評(píng)論文本具有數(shù)量多、噪聲大、文本規(guī)范性不高、長(zhǎng)度短等特點(diǎn),導(dǎo)致pLSA和LDA模型在短文本處理方面效果不佳。研究人員在LDA基礎(chǔ)上,分別從參數(shù)推斷方式、模型假設(shè)、主題數(shù)量等角度提出了改進(jìn)措施。BTM模型通過(guò)將2個(gè)詞語(yǔ)結(jié)合起來(lái),組成詞對(duì),建立了全局詞共現(xiàn)關(guān)系;DMM模型假設(shè)每個(gè)文本只包含一個(gè)潛在主題。這2種模型在一定程度上克服了短文本詞匯特征的稀疏問(wèn)題,然而社交網(wǎng)絡(luò)短文本中的詞匯共現(xiàn)信息匱乏,DMM和BTM在進(jìn)行主題推斷時(shí),僅能分析語(yǔ)料本身提供的信息,效果并不理想。LDA在主題識(shí)別過(guò)程中無(wú)法考慮時(shí)間因素,而有的文本數(shù)據(jù)會(huì)隨著時(shí)間推移發(fā)生動(dòng)態(tài)變化。例如關(guān)于某個(gè)熱點(diǎn)話題的討論,為了能夠?qū)Σ煌瑫r(shí)間階段的文本主題進(jìn)行追蹤,研究人員在LDA基礎(chǔ)上對(duì)時(shí)間維度進(jìn)行拓展,具有代表性的是DTM[13](dynamic topic models)模型和TOT[14](topic over time)模型,這些模型能夠揭示主題演變過(guò)程,適合對(duì)新興主題生命周期特征進(jìn)行動(dòng)態(tài)分析。
深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)研究熱點(diǎn),近年來(lái)在自然語(yǔ)言處理任務(wù)中取得了令人矚目的效果[15]。主題建模主要利用概率主題模型進(jìn)行多文檔全局文本語(yǔ)義分析,這種方法需要綜合考慮各個(gè)文檔之間的語(yǔ)義關(guān)系,目前大多數(shù)采用的方案仍然是概率主題模型。為了解決文本詞匯共現(xiàn)信息不豐富或領(lǐng)域知識(shí)匱乏等問(wèn)題,研究人員在傳統(tǒng)概率主題模型的基礎(chǔ)上,與先驗(yàn)知識(shí)相結(jié)合,包括領(lǐng)域知識(shí)、詞向量等,取得了不錯(cuò)的效果,其中比較具有代表性的就是將深度學(xué)習(xí)模型與LDA主題模型相結(jié)合進(jìn)行文本主題識(shí)別。楊恒等[16]選擇人工智能領(lǐng)域的專利數(shù)據(jù)作為研究對(duì)象,通過(guò)使用Word2Vec擴(kuò)展文本語(yǔ)料庫(kù),進(jìn)一步挖掘文本的語(yǔ)義知識(shí),增強(qiáng)LDA主題模型的效果。顏端武等[17]利用新浪微博發(fā)布的數(shù)據(jù),使用LDA文檔-主題分布特征和加權(quán)Word2Vec詞向量特征,構(gòu)建微博短文本的融合特征,通過(guò)K-means算法對(duì)這些特征進(jìn)行主題聚類。ZHOU等[18]提出了基于BERT-LDA聯(lián)合嵌入的主題聚類模型,該模型同時(shí)考慮上下文語(yǔ)義和主題信息,用于對(duì)財(cái)經(jīng)新聞進(jìn)行主題特征分析。ZHAO等[19]提出一種結(jié)合Word2Vec、基于主題的TF-IDF算法和改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)方法WTL-CNN對(duì)網(wǎng)絡(luò)新聞文本進(jìn)行主題分類;國(guó)顯達(dá)等[20]使用Word2Vec獲取電商平臺(tái)在線評(píng)論的詞向量,并利用Gaussian LDA模型獲得評(píng)論的主題分布,再利用主題分布計(jì)算評(píng)論的相似度矩陣,運(yùn)用聚類算法將相似的評(píng)論聚類在一起實(shí)現(xiàn)主題發(fā)現(xiàn)。綜上所述,將LDA與深度學(xué)習(xí)結(jié)合的主題模型,已經(jīng)成為評(píng)論文本主題識(shí)別的重要應(yīng)用技術(shù),這些模型通過(guò)神經(jīng)網(wǎng)絡(luò)更有效地捕捉上下文信息和文本數(shù)據(jù)的語(yǔ)義信息。可以看出,融合多個(gè)模型雖可以彌補(bǔ)單個(gè)模型的不足,提升整體模型的性能,但LDA結(jié)合詞嵌入Word2Vec的方法,將每個(gè)詞轉(zhuǎn)換為一個(gè)向量,忽略了上下文語(yǔ)境問(wèn)題,而評(píng)論文本有時(shí)候一句話就代表著一個(gè)主題,因此容易造成主題語(yǔ)義連貫性不強(qiáng)的問(wèn)題。李松繁等[21]采用BERT模型得到文本的句嵌入,在此基礎(chǔ)上對(duì)農(nóng)業(yè)領(lǐng)域前沿研究進(jìn)行主題識(shí)別。但是由于BERT句向量空間的各向異性,導(dǎo)致生成的詞向量在空間分布不均,而B(niǎo)ERT模型生成的句向量是對(duì)詞向量的平均池化,因此不適合用在文本相似度以及文本聚類等無(wú)監(jiān)督任務(wù)場(chǎng)景?;诖?劉晉霞等[22]通過(guò)Sentence-BERT預(yù)訓(xùn)練模型獲取句表征向量,采用二分K-means算法進(jìn)行聚類,實(shí)現(xiàn)了對(duì)專利的前沿主題抽取。
文獻(xiàn)[10]提出的SBERT-LDA方法,首先將Sentence-BERT得到的句子嵌入向量與LDA得到的概率主題向量進(jìn)行拼接,然后使用自編碼器將2個(gè)向量連接起來(lái),得到評(píng)論文本的特征向量,最后采用K-means算法對(duì)特征向量聚類,挖掘旅游景點(diǎn)評(píng)論數(shù)據(jù)中的主題。該方法通過(guò)將Sentence-BERT和LDA相結(jié)合,提升了評(píng)論文本主題的語(yǔ)義性,取得了較好的實(shí)驗(yàn)效果。但是該方法由于在對(duì)文本特征向量聚類時(shí)使用的算法為K-means,因此存在聚類結(jié)果容易陷入局部最優(yōu)解的缺陷[23],同時(shí)需要人工指定聚類個(gè)數(shù),即該方法依據(jù)LDA主題建模中的主題數(shù)量確定算法中聚類簇的數(shù)量k,存在解釋性較低的問(wèn)題。針對(duì)上述問(wèn)題,本文提出了基于密度Canopy的SBERT-LDA優(yōu)化方法(SBERT-LDA-DC),采用基于密度Canopy的改進(jìn)K-means算法,對(duì)潛在空間的向量進(jìn)行聚類,得到用戶評(píng)論文本的主題信息,從而避免了傳統(tǒng)K-means算法因人工設(shè)定k值和隨機(jī)初始化聚類中心引起的聚類結(jié)果不穩(wěn)定以及容易陷入局部最優(yōu)解的問(wèn)題;同時(shí),能夠更好地理解評(píng)論文本的語(yǔ)義特征,對(duì)主題的劃分也更加精準(zhǔn),具備更高的一致性。
2.1.1 LDA主題概率向量
LDA是一種貝葉斯概率模型,包括文檔、主題、詞3層,通過(guò)分析文檔集,能夠得到文檔集中每篇文檔的主題概率分布并用其進(jìn)行主題聚類或文本分類。LDA是一種典型的詞袋模型,即每篇文檔由一組詞構(gòu)成,詞與詞之間沒(méi)有先后順序關(guān)系。此外,LDA假設(shè)一篇文檔可以包含多個(gè)主題,文檔中的每個(gè)詞都由某一個(gè)主題生成。給定一個(gè)文檔集合,α是主題-文檔分布的先驗(yàn)參數(shù),它控制了每個(gè)文檔中主題的分布情況。具體來(lái)說(shuō),α決定了每個(gè)文檔包含哪些主題以及各個(gè)主題在文檔中的比例。β是主題-詞匯分布的先驗(yàn)參數(shù),它控制了每個(gè)主題中詞匯的分布情況,決定了每個(gè)主題包含哪些詞匯以及各個(gè)詞匯在主題中的比例。在文檔層中,N為一篇文檔中特征詞數(shù)量,θ為文檔對(duì)應(yīng)的主題向量,在特征詞層中w和z分別為指定的特征詞與主題[24]。LDA主題模型聯(lián)合概率表示如式(1)所示:
(1)
2.1.2 Sentence-BERT句子嵌入向量
Sentence-BERT是REIMERS等[25]基于BERT模型提出的預(yù)訓(xùn)練模型,是一種基于BERT的句子向量化方法,通過(guò)對(duì)比學(xué)習(xí)得到更好的句子向量表示。Sentence-BERT主要解決BERT語(yǔ)義相似度檢索的巨大時(shí)間開(kāi)銷和其句子表征不適用于非監(jiān)督任務(wù)如聚類、句子相似度計(jì)算等問(wèn)題。與Word2Vec和BERT模型相比,Sentence-BERT更適用于文本相似度度量、文本聚類等任務(wù)。Sentence-BERT使用孿生網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)孿生網(wǎng)絡(luò)獲取句向量表示,即將句子對(duì)輸入到參數(shù)共享的2個(gè)BERT模型中,在輸出結(jié)果上增加池化操作來(lái)獲得固定長(zhǎng)度的句向量。Sentence-BERT的提出者在文中定義了3種池化策略:1)直接使用CLS位置輸出的向量作為整句話的句向量;2)平均池化策略,將通過(guò)BERT模型得到的句子中所有的字向量的均值向量作為整句話的句向量;3)最大池化策略,將通過(guò)BERT模型得到的句子中所有的字向量對(duì)應(yīng)位置提取最大值作為整句話的句向量,之后將2個(gè)句向量進(jìn)行相似度比較,Sentence-BERT模型的目標(biāo)函數(shù)是最大化正樣本對(duì)的相似度,并最小化負(fù)樣本對(duì)的相似度,其模型結(jié)構(gòu)如圖1所示。
圖1 Sentence-BERT模型結(jié)構(gòu)Fig.1 Sentence-BERT model structure
針對(duì)文本分類任務(wù),Sentence-BERT模型的目標(biāo)函數(shù)將句子嵌入u和v以及差向量|u-v|三者拼接起來(lái),然后與可訓(xùn)練的權(quán)重向量Wt∈R3n×k相乘,見(jiàn)式(2):
o=softmax(Wt(u,v,|u-v|))。
(2)
最終優(yōu)化目標(biāo)通過(guò)最小化softmax的交叉熵?fù)p失函數(shù)實(shí)現(xiàn),其中n是句子嵌入的維數(shù),k是標(biāo)簽的數(shù)量。
2.1.3 特征向量拼接
LDA主題模型和Sentence-BERT模型在向量化表達(dá)評(píng)論文本時(shí)都有各自的側(cè)重點(diǎn),雖然LDA的主題分布向量可以全局描述文本特征,但受詞袋模型的限制,無(wú)法挖掘深層語(yǔ)義信息。相比之下,Sentence-BERT模型可以完成對(duì)評(píng)論文本全局語(yǔ)義信息的特征提取,給2個(gè)向量分別賦予不同的權(quán)重,得到拼接向量:
V={w1*Vt;w2*Vs}。
(3)
式中:w1表示LDA的主題分布向量的權(quán)重值;Vt表示LDA的主題分布向量;w2表示Sentence-BERT句嵌入向量的權(quán)重值;Vs表示Sentence-BERT句嵌入向量,“;”表示向量連接符號(hào)。此時(shí)得到的拼接向量處于稀疏的高維空間,向量維度存在較高的相關(guān)性,因此使用自編碼器將向量映射到一個(gè)低維的潛在空間,得到最終的融合特征向量。
2.1.4 基于密度Canopy的改進(jìn)K-means算法
為了提高K-means算法的準(zhǔn)確性和穩(wěn)定性,解決最合適的簇?cái)?shù)K和最佳初始種子的確定問(wèn)題,ZHANG等[26]提出了一種基于密度Canopy的改進(jìn)K-means算法。實(shí)驗(yàn)表明,與傳統(tǒng)K-means算法、基于Canopy的K-means算法、半監(jiān)督K-means++算法相比,基于密度Canopy的改進(jìn)K-means算法取得了更好的聚類結(jié)果,并且其對(duì)噪聲數(shù)據(jù)不敏感。該算法的具體流程如下:計(jì)算樣本數(shù)據(jù)集的密度、簇內(nèi)平均樣本距離和簇間距離,選擇密度最大采樣點(diǎn)作為第一聚類中心,將密度簇從數(shù)據(jù)集中剔除,定義樣本密度ρ(i)、簇內(nèi)樣本間平均距離a(i)的倒數(shù)、簇間距離的乘積作為權(quán)重乘積w,其他初始種子由剩余數(shù)據(jù)集中的最大權(quán)重乘積確定,直到數(shù)據(jù)集為空。
對(duì)于給定的數(shù)據(jù)集D={x1,x2,…,xn},數(shù)據(jù)集D中所有樣本元素的平均距離定義如式(4)所示:
(4)
數(shù)據(jù)集D中樣本元素i的密度定義如式(5)所示:
(5)
ρ(i)是滿足其他樣本到i點(diǎn)的距離小于MeanDis(D)條件的樣本數(shù)。滿足條件的樣本形成一個(gè)簇,簇內(nèi)樣本間平均距離定義如式(6)所示:
(6)
簇間距離s(i)表示樣本元素i與具有較高局部密度的另一個(gè)樣本元素j之間的距離,簇間距離s(i)的定義如式(7)所示:
(7)
權(quán)重乘積w的定義如式(8)所示:
(8)
圖2給出了SBERT-LDA的方法流程圖。首先對(duì)評(píng)論文本集進(jìn)行數(shù)據(jù)預(yù)處理,使用Sentence-BERT生成句子的嵌入向量,通過(guò)LDA主題模型獲得文本主題向量,再將2個(gè)向量進(jìn)行連接,構(gòu)建評(píng)論文本向量,最后使用K-means聚類方法提取類簇的主題。
本文提出的SBERT-LDA-DC方法流程如圖3所示。對(duì)SBERT-LDA方法中的評(píng)論文本向量聚類方法進(jìn)行改進(jìn),采用基于密度Canopy的改進(jìn)K-means算法,解決了K-means算法需要指定聚類個(gè)數(shù)和隨機(jī)選擇初始聚類中心、結(jié)果容易陷入局部最優(yōu)解的問(wèn)題。
圖3 SBERT-LDA-DC方法流程圖Fig.3 Flowchart of the SBERT-LDA-DC method
SBERT-LDA-DC方法由5個(gè)部分組成:1)對(duì)評(píng)論文本數(shù)據(jù)集進(jìn)行預(yù)處理,包括文本清洗,去掉非評(píng)論的噪聲文本以及文本中無(wú)意義的重復(fù)詞語(yǔ),對(duì)清洗后的文本依次進(jìn)行分詞、去停用詞處理;2)文本向量化,首先利用LDA模型對(duì)文本預(yù)處理后得到的語(yǔ)料庫(kù)進(jìn)行建模,得到每個(gè)評(píng)論文本的主題概率分布,即評(píng)論文本的主題向量,再通過(guò)Sentence-BERT模型得到評(píng)論文本的句嵌入向量;3)向量連接,對(duì)評(píng)論文本的主題向量和句子嵌入向量賦予不同權(quán)重,再將得到的向量連接;4)由于拼接向量處于稀疏的高維空間,向量維度存在較高的相關(guān)性,因此通過(guò)自編碼器將拼接向量映射到低維潛在空間,得到重構(gòu)之后的評(píng)論文本特征向量;5)通過(guò)基于密度Canopy的改進(jìn)K-means算法對(duì)特征向量進(jìn)行聚類,從聚類后的評(píng)論文本簇得到主題詞。相較于傳統(tǒng)K-means算法,基于密度Canopy的改進(jìn)K-means算法可以自適應(yīng)選擇聚類中心點(diǎn)和聚類數(shù)目,解決K-means算法由于隨機(jī)選取初始聚類中心容易陷入局部最優(yōu)的問(wèn)題。
本研究從大麥網(wǎng)(www.damai.cn)爬取了舞劇《永不消逝的電波》的4 146條用戶評(píng)價(jià),時(shí)間跨度為2019年4月至2023年5月。首先在數(shù)據(jù)預(yù)處理環(huán)節(jié)篩選出1 852條字?jǐn)?shù)在5~60之間的評(píng)論文本(通過(guò)查看評(píng)論發(fā)現(xiàn),字?jǐn)?shù)超過(guò)60時(shí)的大多數(shù)評(píng)論內(nèi)容會(huì)涉及劇情的討論,導(dǎo)致主題過(guò)于分散,因此將60設(shè)置為上限);然后對(duì)評(píng)論中出現(xiàn)的無(wú)意義重復(fù)文本,例如“好看好看好看”“震撼震撼震撼”等進(jìn)行整合處理,即將多個(gè)重復(fù)詞語(yǔ)替換為一個(gè);再對(duì)評(píng)論文本中的同義詞進(jìn)行處理,如演員“朱潔靜”在評(píng)論文本中的稱謂表現(xiàn)為“朱姐”“朱老師”“朱潔靜老師”等,本研究將其統(tǒng)一映射為“朱潔靜”,得到的評(píng)論文本長(zhǎng)度直方圖如圖4所示;最后使用Jieba分詞工具包對(duì)評(píng)論文本進(jìn)行分詞,使用停用詞表去除停用詞,獲得評(píng)論文本語(yǔ)料庫(kù)。
圖4 評(píng)論文本長(zhǎng)度直方圖Fig.4 Comment text length histogram
本文使用支持中文文本句嵌入構(gòu)建的Sentence-BERT預(yù)訓(xùn)練模型“distiluse-base-multilingual-cased-v1”,該模型下載自HuggingFace網(wǎng)站。通過(guò)該模型獲得評(píng)論文本的特征向量,其可以將句子映射到512維密集向量空間,使用該模型對(duì)1 852條評(píng)論文本進(jìn)行向量化處理,可以得到1 852×512維度的矩陣向量。采用LDA獲取評(píng)論文本的主題概率向量。為了獲取最適宜的評(píng)論文本主題數(shù)量,本研究使用主題一致性指標(biāo)CV(coherence value)來(lái)評(píng)估聚類效果的好壞。由圖5可以看出,隨著主題數(shù)的增加,一致性結(jié)果呈現(xiàn)波動(dòng)上升的趨勢(shì)。語(yǔ)義一致性在一定范圍內(nèi)最大時(shí),確定的主題數(shù)挖掘出的主題可以較好地表征數(shù)據(jù)集的主題。根據(jù)計(jì)算結(jié)果,最優(yōu)主題數(shù)分別為6,10,12,14和17個(gè),由于評(píng)論文本數(shù)據(jù)集的文本數(shù)量較小,因此當(dāng)主題數(shù)為6時(shí),主題的表達(dá)效果更好,綜合考慮SBERT-LDA-DC模型生成主題群效果和主題可解釋性,實(shí)驗(yàn)中選擇主題數(shù)k=6,采用LDA對(duì)評(píng)論文本進(jìn)行主題建模,獲得每個(gè)評(píng)論文本的主題概率向量,即每個(gè)評(píng)論文本對(duì)應(yīng)一個(gè)6維的向量表示。
圖5 主題一致性隨主題數(shù)量的變化情況Fig.5 Topic consistency changes with the number of topics
在分別獲得評(píng)論文本的句子嵌入向量以及主題概率向量后,對(duì)其賦予不同權(quán)重,其中句子嵌入向量權(quán)重為1,主題概率向量權(quán)重為5。將賦予權(quán)重后的向量進(jìn)行加權(quán)拼接,由于拼接向量處在稀疏的高維空間,因此使用自編碼器對(duì)拼接向量進(jìn)行無(wú)監(jiān)督學(xué)習(xí),使用訓(xùn)練好的自編碼器對(duì)拼接向量進(jìn)行特征壓縮,將拼接向量從518維壓縮至32維。
通過(guò)自編碼器將評(píng)論文本句子嵌入向量和主題概率向量的加權(quán)拼接向量壓縮得到低維向量,即每個(gè)評(píng)論文本對(duì)應(yīng)一個(gè)32維向量表示。為了對(duì)評(píng)論文本進(jìn)行主題識(shí)別,需要對(duì)評(píng)論文本向量矩陣進(jìn)行聚類分析,之后從聚類結(jié)果中提取上下文主題信息。對(duì)于向量聚類,本研究采用基于密度Canopy的改進(jìn)K-means算法,與K-means算法相比,該算法對(duì)噪聲數(shù)據(jù)不敏感且擁有更好的聚類效果,解決了傳統(tǒng)K-means算法需要人工指定聚類個(gè)數(shù)K和最佳初始種子的問(wèn)題。實(shí)驗(yàn)使用該聚類算法對(duì)評(píng)論文本向量進(jìn)行聚類,即先通過(guò)密度Canopy算法對(duì)評(píng)論文本向量進(jìn)行預(yù)聚類,將獲得的最優(yōu)值k=7以及對(duì)應(yīng)的7個(gè)初始聚類中心作為K-means算法的輸入?yún)?shù),然后按照K-means算法流程進(jìn)行聚類,最終將評(píng)論文本語(yǔ)料庫(kù)聚合成7個(gè)類簇。
使用UMAP降維算法對(duì)獲得的7個(gè)類簇的評(píng)論文本向量降維,將數(shù)據(jù)降維至二維進(jìn)行可視化展示,如圖6所示。
圖6 7個(gè)類簇分布的UMAP圖Fig.6 UMAP of 7 clusters distribution
從圖6可以看出,評(píng)論文本向量聚類得到的類簇不同主題之間邊界清晰,同一主題內(nèi)凝聚,進(jìn)一步驗(yàn)證了SBERT-LDA-DC在短文本具體聚類任務(wù)上具有較好的效果。
本研究在模型識(shí)別出的7個(gè)類簇的基礎(chǔ)上,將主題詞設(shè)置為8個(gè),各個(gè)類簇的主題信息如表1所示。
表1 各個(gè)類簇的主題信息Tab.1 Topic information for each cluster
由表1可以看出,用戶對(duì)舞劇《永不消逝的電波》的評(píng)論主題主要分為舞臺(tái)技術(shù)評(píng)價(jià)、舞臺(tái)效果、整體評(píng)價(jià)以及觀看前后的個(gè)人經(jīng)歷4個(gè)方面。其中觀眾對(duì)于舞臺(tái)技術(shù)評(píng)價(jià)的評(píng)論最多,“音樂(lè)” “布置” “燈光”等高頻詞匯反映了用戶對(duì)于舞臺(tái)技術(shù)的使用及其對(duì)觀看體驗(yàn)影響的看法。例如:“舞臺(tái)裝置、音樂(lè)燈光把氣氛烘托得挺不錯(cuò)的” “怎么有這么好看的舞劇?舞者、燈光、音樂(lè)把控得非常好”等。關(guān)于“舞臺(tái)效果”主題的評(píng)論,“舞臺(tái)效果” “情感” “氛圍” “感染力”等詞,說(shuō)明觀眾對(duì)于舞劇《永不消逝的電波》的主創(chuàng)團(tuán)隊(duì)所表現(xiàn)出的舞臺(tái)效果有比較深刻的印象,如“很震撼,舞蹈很美,舞臺(tái)效果很好,音樂(lè)非常好聽(tīng),有幾段情節(jié)特別感人” “很喜歡,氛圍很好,感染力十足!”。占比較少的主題為觀眾對(duì)于舞劇的整體評(píng)價(jià),如“完美的體驗(yàn),天花板級(jí)別的舞劇” “首席組的電波真的太好看了”,這類評(píng)論情感較為強(qiáng)烈,表達(dá)了用戶的滿意程度。最后是關(guān)于觀眾觀看舞劇前后的個(gè)人經(jīng)歷等,與舞劇本身的內(nèi)容評(píng)價(jià)相關(guān)性較小。例如:“跟朋友看完以后,會(huì)一起聊幾天的那種美” “兩年前一直想看,終于等到了合適的時(shí)間、合適的地點(diǎn)來(lái)看了”。
一致性度量是一種評(píng)估主題質(zhì)量的方法,其根據(jù)主題的可理解性進(jìn)行評(píng)估,通常應(yīng)用于通過(guò)主題模型計(jì)算得出的主題。主題一致性度量方法通?;谠~語(yǔ)之間的共現(xiàn)關(guān)系和相似度進(jìn)行計(jì)算。Gensim提供了4種計(jì)算主題連貫性的方法,即C_V,C_UCI,C_NPMI和U_Mass。這些方法能夠評(píng)估主題一致性,并給出一致性得分。一致性得分越高,表示主題模型能夠更好地理解評(píng)論文本的語(yǔ)義特征,對(duì)主題的劃分也更加精準(zhǔn)。與其他廣泛使用的主題一致性度量方法相比,C_V Coherence方法表現(xiàn)更優(yōu),因此本研究采用該指標(biāo)對(duì)不同方法計(jì)算出的主題質(zhì)量進(jìn)行了評(píng)估。
表2給出了使用SBERT-LDA(使用K-means算法進(jìn)行文本特征向量聚類)、SBERT-LDA-K-means++(使用K-means++算法進(jìn)行文本特征向量聚類)和SBERT-LDA-DC(使用基于密度Canopy的改進(jìn)K-means算法進(jìn)行文本特征向量聚類)3種方法的對(duì)比情況。實(shí)驗(yàn)使用Gensim包的Coher-enceModel來(lái)計(jì)算主題一致性,采用C_V方法進(jìn)行計(jì)算,結(jié)果如表2所示。
表2 實(shí)驗(yàn)結(jié)果Tab.2 Experimental results
由表2可見(jiàn),本文方法在數(shù)據(jù)集上得到的主題一致性指標(biāo)值最高,為0.379 32,相較于SBERT-LDA方法,本文一致性指標(biāo)值提升了22.9%;相較于“SBERT-LDA-K-means++”方法,一致性指標(biāo)值提升了6.0%。由此可見(jiàn),本文方法在無(wú)需指定聚類個(gè)數(shù)的同時(shí),在主題識(shí)別效果上也要優(yōu)于其他2種方法,從而驗(yàn)證了本文所提方法的有效性。
本文針對(duì)SBERT-LDA方法存在的不足,提出了SBERT-LDA-DC方法,通過(guò)采用密度Canopy改進(jìn)K-means算法,避免了傳統(tǒng)K-means算法因需要人工設(shè)定k值和隨機(jī)選擇初始聚類中心引起的聚類結(jié)果不穩(wěn)定以及容易陷入局部最優(yōu)解的問(wèn)題,使聚類結(jié)果盡可能接近全局最優(yōu)解。通過(guò)對(duì)比實(shí)驗(yàn)可以看到,本文方法在主題一致性上要優(yōu)于使用K-means對(duì)特征向量聚類的SBERT-LDA方法以及SBERT-LDA-K-means++方法。
本文方法能夠有效挖掘評(píng)論文本中具有語(yǔ)義信息的關(guān)鍵主題詞,識(shí)別評(píng)論文本中包含的主題信息。相較于K-means算法,基于密度Canopy的改進(jìn)K-means算法計(jì)算的復(fù)雜度更高,因此需要的計(jì)算資源也會(huì)更多。此外,可以使用評(píng)論文本對(duì)Sentence-BERT模型進(jìn)行微調(diào),使其更好地理解句子之間的語(yǔ)義關(guān)系,進(jìn)一步提高評(píng)論文本主題識(shí)別效果。未來(lái)將在模型復(fù)雜度、微調(diào)Sentence-BERT模型方面進(jìn)行改進(jìn),進(jìn)一步提高評(píng)論文本主題識(shí)別的效果和效率。