蘆子涵, 鄭中團
(上海工程技術(shù)大學(xué) 數(shù)理與統(tǒng)計學(xué)院, 上海 201600)
話題檢測與追蹤(Topic Detection and Tracking,TDT) 是美國國防高級研究計劃局(Defense Advanced Research Projects Agency,DARPA)于1996年開展的語言信息研究項目[1],曾在評測會議上對話題等相關(guān)要素進行了定義,認(rèn)為話題是由一個種子事件或活動,和全部與之直接關(guān)聯(lián)的后續(xù)事件和活動構(gòu)成[2]。 而在國內(nèi),曾有學(xué)者定義子話題為話題內(nèi)一組相關(guān)事件的集合,是話題內(nèi)所有事件集合的一個子集[3]。 近年來,突發(fā)事件時有發(fā)生。 譬如2022 年“3·20”東航航班墜機等事故災(zāi)難事件、2022 年6 月河北唐山打人等社會安全事件、2021 年“7·20”河南特大暴雨等自然災(zāi)害事件與至今仍時有發(fā)生的2020 年新冠肺炎疫情等公共衛(wèi)生事件。與此同時,隨著網(wǎng)民規(guī)模的擴大與社交平臺的普及,像新浪微博這樣傳播范圍廣、普及率高的社交網(wǎng)絡(luò)平臺逐漸成為突發(fā)事件的曝光口。 社會大眾可自由地在網(wǎng)絡(luò)平臺上發(fā)表自身對突發(fā)事件的看法或評論,從而形成網(wǎng)絡(luò)輿情。 由于突發(fā)事件具有不確定性、危害性等特點[4],通常會給社會大眾帶來負(fù)面的心理沖擊。 如若不能針對性地根據(jù)社會大眾對于某一突發(fā)事件所關(guān)注的不同子話題來引導(dǎo)積極的輿論走向,并建立輿情治理機制,則會放大社會大眾的負(fù)面情緒,引起不必要的激進言論,甚至?xí)φ畽C構(gòu)造成不良影響。 現(xiàn)有研究大多基于事件這一粒度進行話題聚類,而忽略了同一事件下不同側(cè)面的更細(xì)粒度子話題的研究。 因此,如何有效地挖掘某一事件中的潛在子話題,逐漸成為了新興研究熱點,也對輿情管控相關(guān)部門實現(xiàn)輿情精準(zhǔn)化管控具有重要現(xiàn)實意義。
本文針對以往話題聚類大多基于事件這一層次,而忽略了同一事件下更細(xì)粒度子話題的研究,且文本特征表示上缺乏上下文語義信息的缺陷,提出一種基于LDA 文檔-主題分布與Doc2Vec 句向量融合的文本表示方法與文本相似度計算方法,最后通過Single-Pass 增量聚類算法實現(xiàn)同一突發(fā)事件下子話題聚類。
目前,在話題挖掘領(lǐng)域,多以基于概率主題模型的話題發(fā)現(xiàn)、基于文本特征表示的話題聚類兩種為主要途徑與方法。 概率主題模型是對文本中隱含主題的一種非監(jiān)督建模方法,其認(rèn)為一篇文檔中的每個詞都是通過以一定概率選擇某個主題,并從這個主題中以一定概率選擇某個詞的方式得到的。 早期,為解決TF-IDF 文本模型的缺陷,利用奇異值分解將高維共現(xiàn)矩陣映射到低維潛在語義空間的潛在語義分析模型(Latent Semantic Analysis,LSA)被提出。 因其計算復(fù)雜度高且缺乏概率基礎(chǔ),Hofmann[5]在1999 年將LSA 的思想引入到概率模型中,提出概率潛在語義分析模型(Probabilistic Latent Semantic Analysis,PLSA)。 2003 年,Blei 等[6]基于貝葉斯思想,認(rèn)為文檔-主題概率分布是服從狄利克雷概率分布的隨機變量,提出了潛在狄利克雷模型(Latent Dirichlet Allocation,LDA)。 在話題挖掘領(lǐng)域,LDA 主題模型也成為目前最為成熟的概率主題模型。 由于概率主題模型以詞袋模型為基礎(chǔ),通常忽略了單詞與單詞之間的語義信息,導(dǎo)致語義缺失、主題可解釋性差等問題。 基于此,趙林靜等[7]通過HowNet 常識知識庫計算單詞間的語義相似度,來調(diào)整LDA 主題模型中的超參數(shù)β, 提出SS-LDA 模型以提高主題挖掘的精度。 居亞亞等[8]為解決LDA 主題模型語義連貫性較差等問題,在LDA框架下引入GRU 模型加入單詞—單詞和文檔—單詞語義相似度來引導(dǎo)建模,提出了SDS-TM 模型。閆盛楓[9]利用詞嵌入技術(shù)進行語義向量編碼,以此來合并同語義信息主題詞并調(diào)整主題詞分布及權(quán)重,增強了主題模型的語義表達(dá)性。 也有學(xué)者通過優(yōu)化LDA 主題建模結(jié)果實現(xiàn)子話題的挖掘。 如:周楠等[10]基于PLSA 模型得到每個子話題下不同的詞頻分布,通過相似子話題合并、子話題更新優(yōu)化主題建模結(jié)果,解決了傳統(tǒng)方法的子話題區(qū)分度差等缺陷。 夏麗華等[11]將概率主題模型融合詞共現(xiàn)關(guān)系,提出GPLSA 方法對原始子話題進行合并與更新,解決了描述同一產(chǎn)品的文檔十分相似,難以保證子話題差異性的問題。
聚類是一種十分重要的非監(jiān)督學(xué)習(xí)技術(shù),其任務(wù)是按照某種標(biāo)準(zhǔn)或數(shù)據(jù)的內(nèi)在性質(zhì)及規(guī)律實現(xiàn)樣本的聚類[12]。 在話題挖掘領(lǐng)域,話題聚類基于文本的特征表示或文本間的相似度,將目標(biāo)文檔分為若干個簇,使得每個簇內(nèi)文本間的相似度盡可能高,不同簇間文本的相似度盡可能低。 因而,眾多研究者基于文本特征表示或文本相似度進行話題發(fā)現(xiàn)。 史劍虹等[13]利用隱主題模型挖掘微博內(nèi)容中隱含主題—文檔分布作為文本特征表示,并基于K-means++聚類實現(xiàn)話題發(fā)現(xiàn)。 顏端武等[14]針對微博文本高維稀疏與上下文語義缺失等問題,以LDA 文檔—主題分布特征和加權(quán)Word2Vec 詞向量特征構(gòu)建文本融合特征,并通過K-means 聚類實現(xiàn)主題聚類。肖巧翔等[15]提出一種基于Word2Vec 擴充文本和LDA 主題模型的Web 服務(wù)聚類方法,將短文本主題建模轉(zhuǎn)化為長文本主題建模,進而通過K-means 算法更準(zhǔn)確地實現(xiàn)了服務(wù)內(nèi)容主題聚類。 趙愛華等[16]針對子話題間文本相似度高的特點,引入主題特征詞相關(guān)性分析,提出一種改進的文本相似度計算方法,并基于Single-Pass 增量聚類實現(xiàn)新聞話題子話題挖掘。 李湘東等[17]針對LDA 建模結(jié)果較泛化的缺陷,將LDA 建模結(jié)果主題—特征詞分布作為文本較粗粒度的特征,將TF-IDF 向量作為文本較細(xì)粒度的特征來融合表示文檔,采用知網(wǎng)語義詞典得到文本相似度,通過Single-Pass 聚類實現(xiàn)國內(nèi)各地時事新聞子話題劃分。
綜上,子話題挖掘多以LDA 主題模型建模、LDA 主題模型建模結(jié)果優(yōu)化、基于文本特征表示的話題聚類為主要方法。 其中,對于評論短文本LDA主題模型具有文本向量高維稀疏、缺乏上下文語義信息等缺陷;改進的LDA 主題模型以引入外部知識庫來修改超參數(shù)β來引導(dǎo)建模,通用性低且計算復(fù)雜度高。 基于文本特征表示的話題聚類多以事件為層次進行主題發(fā)現(xiàn),而忽略了同一事件下更細(xì)粒度、更深層次的子話題聚類研究。 基于此,本文提出一種基于LDA 文檔-主題分布與Doc2Vec 句向量融合的文本特征表示方法與文本相似度計算方法,通過Single-Pass 增量聚類算法實現(xiàn)同一突發(fā)事件下子話題聚類。 一方面,上述文本融合特征不僅通過LDA 文檔—主題分布提取了全局主題信息,同時也通過句向量的構(gòu)建提取了局部上下文語義信息以補充LDA 主題模型語義信息的缺乏。 另一方面,不同于大多話題所基于的事件層次,針對同一事件下子話題相似度高、區(qū)分度低的問題,本文給出了一種同一事件下更細(xì)粒度、更深層次的子話題聚類方法。
主題模型是一種用來發(fā)現(xiàn)一系列文檔中隱含主題的無監(jiān)督統(tǒng)計模型,認(rèn)為一篇文檔中的每個詞都是以一定概率而選擇某個主題,并從該主題中以一定概率而選擇某個詞所生成的。 如圖1 所示,LDA主題模型是2003 年被Blei 等人[6]提出的文檔—主題—單詞的三層貝葉斯主題模型。 該模型以詞袋模型為基礎(chǔ),認(rèn)為一篇文檔是由詞所組成的集合,而詞與詞之間沒有語義聯(lián)系與順序。 其能夠?qū)⒁黄臋n表示為隱含主題的多項分布,即該文檔屬于每個主題的概率;將主題表示為詞集上的多項分布,即該主題下各個詞出現(xiàn)的概率。 與其他概率主題模型不同的是,LDA 主題模型基于貝葉斯思想,認(rèn)為文檔—主題分布θd的先驗分布為Dirichlet 分布,即θd =。 主題—詞分布βk的先驗分布為Dirichlet 分布,即βk =。
圖1 LDA 主題模型Fig.1 LDA topic model
在LDA 主題模型中,通常使用Gibbs 采樣算法[18]來進行求解。α,η作為已知的先驗輸入,目標(biāo)是得到各個zd,n、wd,n對應(yīng)的整體文檔—主題分布與主題—詞分布。
為表達(dá)整條文本評論或整篇文檔的特征,常將由Word2Vec 得到的詞向量進行向量拼接,此方法導(dǎo)致信息損失較大,得到的新向量不能涵蓋豐富語義信息內(nèi)容[19];或?qū)⒂蒞ord2Vec 得到的詞向量進行平均求和,但此方法未考慮到詞與詞之間的語序信息,一定程度上忽略了文本上下文語義信息。Mikolov 等 人[20]在Word2Vec 的 基 礎(chǔ) 上 提 出 了Doc2Vec 模型, 以期構(gòu)建文檔的向量化表示。Word2Vec 模型本質(zhì)上一個具有輸入層、隱藏層、輸出層的三層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其包含CBOW(Continue Bag of Words)與Skip-Gram 兩種學(xué)習(xí)模型。 CBOW模型根據(jù)所輸入的目標(biāo)詞上下文單詞的One-Hot向量表示來輸出對目標(biāo)詞的預(yù)測,而Skip-Gram 則是輸入當(dāng)前詞來預(yù)測上下文詞。
與Word2Vec 不同的是,Doc2Vec 模型在訓(xùn)練過程中增加了段落向量Paragraph id,進而可以結(jié)合上下文詞訓(xùn)練文本,從而得到句向量和文本向量[21]。在Doc2Vec 模型中,段落向量與單詞一樣首先將被映射成一個句向量Paragraph Vector,其次將段落向量與上下文詞語所映射成的向量累加或拼接起來,作為輸出層的輸入。 由于Paragraph Vector 在同一個文檔的每一次訓(xùn)練中是共享的,因此隨著文檔每次滑動窗口取上下文單詞訓(xùn)練的過程中,Paragraph Vector 作為輸入層向量的一部分每次都將被訓(xùn)練,向量所儲存的段落信息將會越來越準(zhǔn)確。 Doc2Vec模型同樣包含PV-DM(Distributed Memory)與PVDBOW(Distributed Bag of Words)兩種學(xué)習(xí)模型。 本文擬采用PV-DM 模型,如圖2 所示。 PV-DM 模型根據(jù)所輸入目標(biāo)詞的上下文單詞來預(yù)測目標(biāo)詞,而PV-DBOW 則是輸入當(dāng)前詞來預(yù)測上下文詞。
圖2 Doc2Vec 模型Fig.2 The model of Doc2vec
本文針對同一突發(fā)事件下子話題具有相似度高而區(qū)分度低的特點,同時考慮到LDA 主題模型以詞袋模型為基礎(chǔ),其構(gòu)建的單一主題特征常忽略文本語義信息的問題,重點構(gòu)建基于文本主題特征與文本語義特征的文本融合特征向量,并對上述兩種不同特征的文本相似度進行線性結(jié)合,從而通過Single-Pass 增量聚類實現(xiàn)突發(fā)事件下子話題聚類。首先,以新浪微博平臺為數(shù)據(jù)來源,爬取突發(fā)事件評論文本構(gòu)建語料庫,并對數(shù)據(jù)進行清洗、分詞、去停用詞等預(yù)處理;其次,在全局主題層面通過LDA 主題模型提取文檔—主題分布以表達(dá)文本主題特征,在局部語義層面通過Doc2Vec 模型提取文檔句向量以表達(dá)文本語義特征,從而構(gòu)建文本融合特征;然后將基于KL 距離與余弦相似度線性結(jié)合計算融合特征相似度,以度量文本相似度;最后通過Single-Pass 增量聚類實現(xiàn)子話題聚類。 具體流程如圖3 所示。
圖3 研究思路與流程Fig.3 Research process
假設(shè)預(yù)處理后的突發(fā)事件評論文本語料庫D ={d1,d2,…,dn},其中n為語料庫中評論文本的數(shù)目。 首先,通過LDA 主題模型提取文本主題特征。LDA 主題模型所提取的主題信息為T ={t1,t2,…,tk},K為主題個數(shù),通常由人為自主設(shè)定,本文將采用困惑度這一指標(biāo)來確定最優(yōu)主題個數(shù)。 本文采用Gibbs 采樣算法求解LDA 主題模型,在初始時刻為每個單詞隨機地賦予主題,其次,對于每個文本d中的每個詞,通過Gibbs 采樣公式獲取其所對應(yīng)的主題。 Gibbs 采樣公式如式(1)所示:
其中,n(dk)表示在第d個文本中第k個主題詞的個數(shù),n(kv)表示第k個主題中第v個詞的個數(shù)。
重復(fù)上述采樣過程直至Gibbs 采樣收斂,即可得到所有詞的采樣主題。通過統(tǒng)計每個文本d對應(yīng)詞的主題計數(shù), 每個文本d可表示為θd ={(t1,θt1) ,(t2,θt2) ,…,(tk,θtk)} 的 文 檔—主 題 分布,完成文本主題特征的提取。 其次,通過Doc2Vec模型提取文本語義特征。 本文采用Doc2Vec 中的PV-DM 模型,使用Python 中Gensim 庫的Doc2Vec接口來訓(xùn)練語料庫,從而得到語料庫中每個文本d的句向量表示Sd =[s(d,1),s(d,2),…,s(d,m)].
由于基于詞袋模型的LDA 主題模型所提取的主題特征往往忽略了文本語義信息,而Doc2Vec 模型所訓(xùn)練的文本句向量能夠補充性地提取上下文語義信息,彌補LDA 主題特征的這一缺陷。 因此,本文將基于LDA 主題模型與Doc2Vec 模型所提取文本主題特征與文本語義特征進行橫向拼接,構(gòu)建文本融合特征矩陣ST。
文本相似度的計算是子話題聚類的前提,本文將基于KL 散度與余弦相似度計算文本主題概率分布相似度與句向量相似度,并將二者進行線性組合,從而得到本文所構(gòu)建的融合特征相似度,即文本相似度,式(2):
其中,di與dj表示評論文本。
3.3.1 基于KL 距離的文本主題特征相似度
KL 距離(Kullback-Leibler Divergence,KL)用來衡量相同事件空間里的兩個概率分布的差異情況,又被稱為相對熵。 在本文中,評論文本di的文檔—主題分布表示為p(t),評論文本dj的文檔—主題分布表示為q(t),p(t) 與q(t) 的概率分布越相似,則兩者之間的KL距離越?。?6]。p(t) 與q(t) 之間的KL距離如式(3) 所示:
考慮到KL距離具有非對稱性,交換p(t) 與q(t) 的位置后結(jié)果大不相同,參考文獻(xiàn)[9]的做法,可采用公式(4)計算文檔—主題概率分布之間的距離:
3.3.2 基于余弦相似度的文本語義特征相似度
針對通過Doc2Vec 模型訓(xùn)練所提取的表征文本語義特征的句向量,采用余弦相似度來計算文本語義特征相似度,如式(5)所示。
其中,Sdi、Sdj為評論文本di、dj的文本語義特征。
本文采用Single-Pass 增量聚類[22]實現(xiàn)子話題聚類,該算法是話題檢測中一種常用算法,又稱單通道法。 在Single-Pass 算法中,需要自主預(yù)設(shè)一個聚類閾值,對于所輸入的評論文本,計算當(dāng)前評論文本與已有話題聚類簇之間的相似度,若相似度大于預(yù)設(shè)的聚類閾值,則將該評論文本判為已有話題聚類簇;否則,將該評論文本作為簇核心創(chuàng)建新的話題簇。 本文將所構(gòu)建的文本融合特征與文本相似度計算嵌入Single-Pass 聚類算法中,具體算法流程見表1。
表1 子話題聚類算法流程Tab.1 The process of sub-topic clustering algorithm
本文將以新浪微博為數(shù)據(jù)來源,以“鄭州地鐵7.20 事件”為突發(fā)事件評論語料庫進行3 組實驗。第一組實驗采用困惑度(Perplexity)評價指標(biāo),得出1~10 個主題下的困惑度值,從而確定最優(yōu)主題數(shù);第二組實驗采用F1 值尋找能夠使F1 值達(dá)到最高的聚類閾值,從而確定最佳聚類閾值σ; 第三組實驗生成3 種評論文本特征向量,其中包括LDA 文檔—主題分布向量、Doc2Vec 句向量以及本文的融合特征向 量, 采 用查 準(zhǔn) 率(Precision)、 召 回 率(Recall) 與F1 值對比3 種文本特征向量子話題聚類效果,以驗證基于本文融合特征子話題聚類的有效性。
2021 年7 月20 日,河南鄭州發(fā)生罕見特大暴雨。 當(dāng)日晚19 時左右,據(jù)鄭州本地廣播官方微博@MyRadio 發(fā)布的微博稱,鄭州地鐵5 號線雨水倒灌,車廂內(nèi)積水已到達(dá)乘客胸部,數(shù)名乘客被困。 隨后該條微博被澎湃新聞官方微博@澎湃新聞轉(zhuǎn)發(fā),轉(zhuǎn)發(fā)人次5.2 萬,評論人次3.7 萬,事件爆發(fā)。 截至當(dāng)日晚間22 時左右,消防救援人員陸續(xù)疏散被困人員500 余人。 7 月21 日上午,鄭州地鐵官方發(fā)布稱此次事件導(dǎo)致12 人遇難。 隨后,兩名個人用戶發(fā)布博文稱有乘客鄒某、沙某仍失聯(lián)。 26 日,乘客鄒某、沙某確認(rèn)遇難。 27 日上午,鄭州官方發(fā)布此次事件最終導(dǎo)致14 人遇難,再次引起一波輿論高潮。 2022年1 月21 日,國務(wù)院調(diào)查組調(diào)查認(rèn)定鄭州地鐵5 號線亡人系責(zé)任事件,是造成重大人員傷亡與財產(chǎn)損失的突發(fā)事件。
本文以“鄭州地鐵5 號線”、“多人被困”等為關(guān)鍵詞,以2021 年7 月20 日19 時—2021 年7 月31日22 時為時間區(qū)間,每2 小時為一個時間段,利用Gooseeker 集搜客數(shù)據(jù)抓取器采集數(shù)據(jù),共采集到6 657條評論文本作為語料庫。 每條評論文本包含5個字段:用戶ID、發(fā)布時間、評論內(nèi)容、點贊數(shù)與評論數(shù)。 對語料庫進行以下預(yù)處理操作:
(1)數(shù)據(jù)清洗。 去除與話題不相關(guān)的評論文本,剔除特殊字符如表情、評論圖片等;
(2)人工標(biāo)注。 結(jié)合鄭州地鐵5 號線事件期間微博熱搜內(nèi)容,對評論文本進行話題標(biāo)注,以便后續(xù)有效性驗證;
(3)分詞。 采用Python 中Jieba 庫對評論文本進行分詞,同時加載分詞詞典以識別該事件特定詞;
(4)去停用詞。 根據(jù)停用詞表去除標(biāo)點符號、語氣助詞等詞語。
本文采用查準(zhǔn)率(Precision)、召回率(Recall)、F1 值來對比3 種文本特征向量子話題聚類效果,其值越高,說明方法效果越好。
查準(zhǔn)率(Precision) 是指預(yù)測為屬于子話題Ci的評論文本中,實際屬于子話題Ci的評論文本比例;召回率(Recall) 為實際屬于子話題Ci的評論文本中,被預(yù)測為屬于子話題Ci的評論文本比例。
其中,C為子話題簇個數(shù)。
整體聚類效果采用F1 對各個子話題的聚類效果求平均的方式來度量。
4.3.1 實驗1 確定最優(yōu)話題個數(shù)
在LDA 主題模型提取文本主題特征中,主題個數(shù)的選取能夠直接影響到特征提取效果。 若僅依賴人為設(shè)定,LDA 主題模型的性能將無法保證。 因此,本實驗采用困惑度(Perplexity)評價指標(biāo)來確定最優(yōu)主題個數(shù)。 困惑度常被用來衡量概率分布或概率模型樣本的優(yōu)劣性[23]。 在自然語言處理中,可用于LDA 主題模型,確定最優(yōu)主題個數(shù),如式(8)所示:
其中,V表示語料庫D中所有詞的集合;N表示語料庫中評論文本的數(shù)量;Wd表示評論文本d中的詞;Md表示每個評論文本d中的詞數(shù);p(Wd) 表示文本中詞出現(xiàn)的概率。
實驗中根據(jù)“鄭州地鐵7.20 事件”期間新浪微博熱搜詞條,擬定1 ~10 區(qū)間內(nèi)的整數(shù)為實驗主題數(shù),得到困惑度變化如圖4 所示。
圖4 確定最優(yōu)主題個數(shù)Fig.4 The determination of the optimal number of topics
通常情況下,困惑度隨著主題數(shù)量的增加而呈現(xiàn)遞減的規(guī)律。 困惑度越小,意味著主題模型的生成能力越強[24]。 通過圖4 可以看出,當(dāng)T =8 時LDA 主題模型困惑度最小,因此本文將主題個數(shù)T設(shè)定為8。
4.3.2 實驗2 確定最佳聚類閾值
實驗中采用4.2 節(jié)所描述的F1 值來計算不同聚類閾值下聚類效果的優(yōu)劣。 經(jīng)多次實驗,當(dāng)聚類閾值小于0.3 時,所有評論文本被聚類為同一簇,聚類閾值過小。 因此,本實驗中擬定聚類閾值在σ∈(0.3,1) 這一區(qū)間內(nèi),分別進行6 次實驗,得到F1值變化如圖5 所示。 可以看出,當(dāng)聚類閾值σ =0.52時,聚類效果最好,此時的F1 值為0.724,因此本文將確定聚類閾值σ為0.52。
圖5 確定最佳聚類閾值Fig.5 The determination of threshold value in clustering
4.3.3 實驗3 對比實驗與分析
為驗證本文基于融合特征表示的子話題聚類方法的有效性,對于LDA 主題模型所提取單一文本主題特征文檔—主題分布、Doc2Vec 模型提取單一文本語義特征句向量、3.2 節(jié)所表述的文本融合特征分別進行Single-Pass 子話題聚類實驗,并采用精確率、召回率、F1 值來度量聚類效果的優(yōu)劣。 實驗結(jié)果見表2。
表2 實驗3 結(jié)果對比Tab.2 The result of test 3
依據(jù)表2 中數(shù)據(jù)分析可知:
(1)基于單一文本語義特征的子話題聚類的F1值為67.3%。 Doc2Vec 模型通過三層神經(jīng)網(wǎng)絡(luò)根據(jù)所輸入的目標(biāo)詞來預(yù)測目標(biāo)詞的上下文單詞,從而得到副產(chǎn)物句向量與詞向量。 一方面,相比將一條評論文本中每個詞的詞向量進行求和或加權(quán)平均求和來表示整條文本評論的方法,Doc2Vec 能夠給出整條文本評論的文檔向量化表示,能夠避免前者忽略單詞在句子中的語序問題;另一方面,相比于LDA 主題模型基于詞袋模型,Doc2Vec 模型能夠有效提取文本中的語序及上下文語義信息。 但未考慮文本的全局信息,因而在F1 值位于另外兩種特征子話題聚類之間。
(2)基于單一文本主題特征的子話題聚類的F1值為64.4%,相較于另外兩種特征F1 值最低。 LDA主題模型將文本表示為維數(shù)為主題個數(shù)的多項分布,從而提取文本全局主題特征。 LDA 主題模型所基于的詞袋模型忽視了文本中單詞的語序與語義表達(dá),對于同一突發(fā)事件下相似度高、區(qū)分度差的評論文本而言,雖能夠提取文本的主題特征,但僅用LDA 主題特征來進行相似背景子話題聚類,則難以發(fā)揮LDA 主題模型的優(yōu)勢與作用。
(3)基于融合特征的子話題聚類方法相較于單一特征聚類效果最佳,F(xiàn)1 值達(dá)72.4%。 融合特征考慮到同一突發(fā)事件下子話題具有相似背景詞而導(dǎo)致區(qū)分度差的特點,且LDA 主題模型所提取主題特征基于詞袋模型,缺乏語義信息,從文本主題層面與語義層面融合LDA 文檔—主題分布與Doc2Vec 句向量,改善了單一特征進行子話題聚類的缺陷,能更加全面有效地表達(dá)文本特征,從而提高同一突發(fā)事件下子話題聚類效果。
本文提出的基于文本融合特征的子話題聚類方法,結(jié)合LDA 主題模型提取的文本主題特征與Doc2Vec 模型提取的文本語義特征構(gòu)建一種文本融合特征,并通過Single-Pass 增量聚類實現(xiàn)子話題聚類。 研究中使用本文方法,以新浪微博為數(shù)據(jù)來源平臺,對“鄭州地鐵7.20 事件”這一突發(fā)事件評論文本進行實驗分析。 在對比實驗中,采用F1 值與兩種單一特征子話題聚類進行聚類效果評估。 實驗結(jié)果表明,融合特征能更加全面地表達(dá)文本特征,改善了單一特征進行子話題聚類缺乏上下文語義信息及忽略語序的問題,有效地提高了突發(fā)事件中子話題聚類的準(zhǔn)確率。
受各方面因素所限,本文還存在一定的局限與不足。 在突發(fā)事件網(wǎng)絡(luò)輿論中,網(wǎng)民往往帶有濃烈的正向或負(fù)向的情感色彩。 因此,在文本的特征表達(dá)中,如何提取評論文本的情感特征并將其進行融合處理,從而更有效地進行子話題挖掘,在后續(xù)的研究中仍有待進一步深入和突破。