蔣明敏,王雪芬,劉 玥
(南京信息工程大學 當代中國馬克思主義研究院,江蘇 南京 210044)
科學文獻的主題挖掘可以幫助情報服務機構(gòu)快速準確地捕捉學科主題和脈絡,分析主題演化路徑,并對學科未來的研究熱點和發(fā)展趨勢做出預測[1]。從知識結(jié)構(gòu)層面來看,研究主題屬于隱性層次,代表某個學科領域的研究方向,表現(xiàn)為若干個或一組關鍵詞的集合;科學文獻屬于顯性層次,是研究主題的外在表現(xiàn)和知識載體[2]。面對海量科學文獻,如何有效挖掘隱性研究主題和潛在演化模式,是眾多研究學者關注的問題。
主題模型可以在大規(guī)模的文獻數(shù)據(jù)中,通過主題的概率分布來表示數(shù)據(jù)集內(nèi)部的特征信息。既解決了傳統(tǒng)聚類算法的“維數(shù)災難”問題,又進一步挖掘了科學文獻的潛在演化模式。其中,最為主流的主題模型是由Blei等提出的LDA模型(Latent Dirichlet Allocation)。然而,隨著文獻數(shù)量的急劇增長,研究人員已經(jīng)不滿足于靜態(tài)時間下研究主題的挖掘和分析。在研究主題的演化路徑中,“時間”維度是一個重要的標簽,但傳統(tǒng)LDA模型并沒有考慮文獻時間這一維度,而現(xiàn)實情況是研究主題在時間序列趨勢下不斷演化。
基于此,本文以“網(wǎng)絡輿情”為研究對象,以CNKI數(shù)據(jù)庫中的文獻標題和摘要為數(shù)據(jù)來源,結(jié)合多種停用詞表進行中文分詞并提取領域術(shù)語。在LDA主題挖掘的基礎上,引入文獻時間信息,計算不同時間維度的研究主題概率分布相似度,分析研究主題隨時間的演化規(guī)律,為學科主題挖掘和演化分析研究提供新的思路和方法。
當前學科主題挖掘與演化分析主要采用共詞網(wǎng)絡和主題模型的分析方法[3],主題模型是以非監(jiān)督學習的方式對文檔集合的隱含語義結(jié)構(gòu)(latent semantic structure)進行聚類的統(tǒng)計模型,可以用于收集、分類和降維文本。最具代表性的主題模型是2003年由Blei等人提出的LDA主題模型:引入Dirichlet先驗分布,構(gòu)建“文檔——主題——關鍵詞”三層貝葉斯模型,運用概率方法對模型求解,挖掘文檔主題[4]。目前LDA模型在不同領域的主題挖掘研究中已被深入應用,如陳偉等[5]利用LDA主題模型和隱含馬爾科夫模型,從技術(shù)主題的轉(zhuǎn)移概率角度分析技術(shù)主題的語義演化趨勢,對于技術(shù)主題預測起到一定作用;吳菲菲等[6]利用LDA主題模型抽取專利技術(shù)主題,以主題相似度為關系權(quán)重新構(gòu)建專利引用網(wǎng)絡,以此分析技術(shù)主路徑及其演化規(guī)律,屬于基于圖挖掘的主題演化分析方法;曲佳彬等[7]利用LDA主題模型設計主題演化方法,通過主題過濾和主題關聯(lián)確定學科領域主題之間的語義關系;王曰芬等[8]以國內(nèi)知識流領域為研究對象,利用LDA主題模型探索分類視角下的主題提取與分布狀態(tài),得到11個不同學科的熱點主題及其所揭示的知識點;王文娟等[9]利用LDA對海洋酸化相關研究進行了主題分析,確定了科研立項重點以及各主題的強度;楊慧等[10]選取國際氣候領域作為試點對象,對政策文本數(shù)據(jù)進行了LDA主題挖掘,并結(jié)合主題強度變化為我國相關政策制定提出了完善建議;Kim等[11]利用LDA主題模型對Twitter用戶發(fā)布的信息進行興趣主題挖掘,實現(xiàn)興趣內(nèi)容推送和好友推薦;Song等[12]構(gòu)建基于“主語——行為——賓語”結(jié)構(gòu)的LDA主題模型,實現(xiàn)對產(chǎn)業(yè)領域中專利文獻主題的內(nèi)容分析;Suominen等[13]基于專利數(shù)據(jù)通過LAD模型對企業(yè)研發(fā)方向進行分析和預測,并基于Gephi進行主題可視化,但未進行專利和論文整合數(shù)據(jù)的對比研究。
縱觀上述研究,基于LDA模型的學科主題挖掘與演化分析已取得諸多研究成果。然而少有研究考慮時間標簽信息,缺乏時間維度上的研究主題關聯(lián)與演化分析?;诖?,本文提出多時間窗口下基于LDA模型的主題挖掘和演化分析框架,為學科主題挖掘、關聯(lián)和演化研究提供新的思路和方法。
本文研究框架主要包括三個部分:數(shù)據(jù)預處理、LDA主題聚類分析和多時間窗口主題演化分析。
首先,選擇合適的檢索詞在CNKI數(shù)據(jù)庫查找相關的中文文獻,選取文獻的標題和摘要作為主題挖掘的數(shù)據(jù)來源。對原始數(shù)據(jù)進行數(shù)據(jù)清洗,過濾征稿啟事、新聞報道、會議通知等內(nèi)容,進而進行中文分詞、去除停用詞和提取領域術(shù)語,其中去除停用詞主要是過濾出現(xiàn)頻率很高,卻無實際含義的詞語,包括英文字符、數(shù)字、數(shù)學字符、標點符號及使用頻率特高的單漢字等,以便提高后續(xù)分析的準確度和效率。
本文選取tf-idf作為H-LDA主題模型的文本向量特征,tf-idf(term frequency-inverse document frequency)是一種詞頻和逆向文件頻率的統(tǒng)計方法,可以很好地反映出某個詞語對于一份文檔的重要程度,詞語的重要性隨著它在文檔中出現(xiàn)的次數(shù)成正比增加,但同時也會隨著它在語料庫中出現(xiàn)的頻率成反比下降[14]。
LDA(Latent Dirichlet Allocation)主題聚類模型由Blei等提出,是一種“文檔——主題”生成模型,包含詞、主題和文檔三層結(jié)構(gòu)。三層結(jié)構(gòu)都符合多項式概率分布,即文檔到主題服從多項式分布,主題到詞服從多項式分布[15]。LDA主題模型克服了基于傳統(tǒng)向量空間模型建模時文本矩陣稀疏、忽略文本語義等缺陷,其基本流程如圖1所示。其中,表示詞分布,表示主題分布,是主題分布的先驗分布(即Dirichlet分布)參數(shù),是詞分布的先驗分布參數(shù),z表示模型生成的主題,w表示模型最終生成的詞,S表示文檔的詞語數(shù)量,D表示文檔數(shù)量。
圖1 LDA主題模型
運用LDA主題模型對預處理后的文本數(shù)據(jù)進行層次主題聚類,通過計算困惑度得到最優(yōu)主題集合,以及每篇研究文獻所屬的主題。為從時間維度上梳理研究主題的演化路徑,本文將文本數(shù)據(jù)劃分為多個時間窗口,運用LDA模型挖掘不同時間窗口的研究主題,并采用歸一化后的JS散度(Jensen-Shannon divergence)計算不同研究主題的相似度,從而勾勒出多時間窗口下研究主題的演化路徑和趨勢。
隨著移動通訊技術(shù)的發(fā)展和智能終端的普及,越來越多的人們以互聯(lián)網(wǎng)為載體,以社交平臺和自媒體為渠道,在網(wǎng)絡上表達情感、態(tài)度、意見和觀點,并與他人交流,形成網(wǎng)絡輿情[16]。網(wǎng)絡輿情是社會輿情在互聯(lián)網(wǎng)空間的映射,是社會輿情的直接反映。在Web2.0環(huán)境下,政府部門需要對網(wǎng)絡輿情予以正視,做好網(wǎng)絡輿情治理工作,創(chuàng)造健康的網(wǎng)絡環(huán)境。從研究文獻來看,輿情治理與管控一直是研究者關注的重點,國內(nèi)外在輿情監(jiān)測、輿情傳播、輿情應急管理等領域已經(jīng)產(chǎn)生了大量的研究成果?;诖耍疚倪\用第三節(jié)提出的研究思路和方法,對網(wǎng)絡輿情的研究主題進行挖掘和聚類,分析近10年研究主題的演化路徑,從而為輿情治理的理論研究和實踐應用提供對策建議。
本文使用CNKI期刊論文數(shù)據(jù)庫進行文獻檢索,檢索關鍵詞為“網(wǎng)絡輿情”“輿情治理”“突發(fā)事件”“應急管理”“意見領袖”“自媒體”等,檢索時間為2019年10月15日,時間跨度為2009年至2018年。經(jīng)人工篩選后得到相關文獻11634篇,數(shù)量演化趨勢如圖2所示。從圖中可以看出,近10年網(wǎng)絡輿情研究的文獻數(shù)量呈現(xiàn)穩(wěn)步增長趨勢,在2016年達到頂峰(1765篇)。
圖2 文獻數(shù)量演化趨勢
根據(jù)網(wǎng)絡輿情的相關研究主題,結(jié)合多個中文停用詞表,運用Jieba分詞工具對11634篇文獻標題和摘要進行分詞,得到“輿情”“情報”“民意”“危機”“化解”“傳播”“突發(fā)事件”等領域詞匯。定義,其中為第n篇文獻的文本向量。對所有的文本向量進行tf-idf特征提取,作為LDA主題模型的輸入?yún)?shù)。
LDA是一種無監(jiān)督聚類算法,其主題抽取效果與迭代次數(shù)(iteration)密切相關。本文以文獻數(shù)量最多的2015-2016區(qū)間為例,設置測試主題數(shù)分別為10,20,30,當?shù)螖?shù)增加時,模型迅速收斂,迭代至50次之后,不同主題數(shù)的收斂效果均無明顯區(qū)別,收斂趨勢如圖3所示。綜合考慮運算速度和收斂效果,本文將迭代次數(shù)設定為100次。
圖3 迭代次數(shù)對機器學習效果的影響
本文運用LDA模型中的Perplexity(困惑度)參數(shù)確定網(wǎng)絡輿情研究文獻的最優(yōu)主題數(shù)。分別計算2009-2010、2011-2012、2013-2014、2015-2016和2017-2018區(qū)間不同主題數(shù)的困惑度值,(如圖4所示),確定不同區(qū)間的最優(yōu)主題數(shù)為5、7、14、27和16。
根據(jù)上述參數(shù)訓練對多時間窗口的文獻數(shù)據(jù)進行LDA分析,結(jié)果如下:
(1)2009-2010
在2009-2010時間窗口LDA模型聚類得到的5個主題均有實際含義(見圖4),主題關鍵詞分布和標簽如表1所示。
圖4 不同主題數(shù)的困惑度值
表1 2009-2010時間窗口中LDA主題標簽及關鍵詞分布
從表1可以看出,在當前時間窗口下網(wǎng)絡輿情的研究主題較少,主要集中在輿情傳播、輿情影響和輿情應急等領域。其中,高校輿情是指在校大學生通過多個渠道對其所關心的事件、政策和新聞發(fā)表個人看法、意見和情緒。在校大學生處在青年時期,其人生觀、價值對和世界觀容易被他人影響,因此高校輿情監(jiān)測和管控對社會輿情治理有著非常重要的意義。
(2)2011-2012
在2011-2012時間窗口LDA模型聚類得到的7個主題中,去除由虛詞組成的主題聚類(2個),其余5個主題的關鍵詞分布和標簽如表2所示。從表2可以看出隨著互聯(lián)網(wǎng)的發(fā)展和普及,新型媒體如博客已替代傳統(tǒng)媒體成為輿情傳播的主要媒介。高校輿情監(jiān)測和管控仍然是研究的重點,同時各級政府和社會機構(gòu)也開始對輿情治理機制進行深入探討。
表2 2011-2012時間窗口中LDA主題標簽及關鍵詞分布
(3)2013-2014
在2013-2014時間窗口LDA模型聚類得到的14個主題中,去除由虛詞組成的主題聚類(2個),去除與輿情研究無關或相關度較小的主題聚類(2個),去除研究文獻數(shù)量為0的主題聚類(1個),其余9個主題的關鍵詞分布和標簽如表3所示。從表3可以看出,在這一時間段涌現(xiàn)出新的研究主題,如“輿情文化建設”研究中提及社會主義文化建設需要提高公民信息素養(yǎng),微博等自媒體的興起使得自媒體輿情的傳播和管控成為研究的焦點。隨著網(wǎng)絡輿情研究的不斷深入,越來越多的學者運用傳染病動力學、系統(tǒng)動力學、演化計算等數(shù)學模型研究輿情傳播。同時,在食品安全和反腐倡廉等領域,輿情的監(jiān)測和管理也逐步得到重視。
表3 2013-2014時間窗口中LDA主題標簽及關鍵詞分布
(4)2015-2016
在2015-2016時間窗口LDA模型聚類得到的27個主題中,去除由虛詞組成的主題聚類(3個),去除與輿情研究無關或相關度較小的主題聚類(4個),去除研究文獻數(shù)量為0的主題聚類(1個),其余9個主題的關鍵詞分布和標簽如表4所示。從表4可以看出,在2015-2016這一事件窗口,新的研究主題大量涌現(xiàn),如“意見領袖”“謠言管控”“微博輿情”等,說明隨著微博、微信、知乎等網(wǎng)絡自媒體平臺的興起,用戶和網(wǎng)民在輿情傳播過程中的作用越來越大,“高校輿情”“輿情監(jiān)測”“輿情應急管理”則一直是研究學者關注的重點。由于輿情傳播媒介和渠道的增多,增強輿情掌控和建立輿情治理的司法制度已成為亟需解決的問題。同時,隨著輿情模型研究的深入,越來越多的學者運用機器學習的方法對輿情傳播的走向和熱點進行預測。
表4 2015-2016時間窗口中LDA主題標簽及關鍵詞分布
(5)2017-2018
在2017-2018時間窗口LDA模型聚類得到的16個主題中,去除由虛詞組成的主題聚類(3個),去除與輿情研究無關或相關度較小的主題聚類(4個),去除研究文獻數(shù)量為0的主題聚類(1個),其余9個主題的關鍵詞分布和標簽如表5所示。
表5 2017-2018時間窗口中LDA主題標簽及關鍵詞分布
從表5可以看出,在這一時間窗口“高校輿情”仍然是關注的重點,同時網(wǎng)民和用戶的“輿情情感”也得到了關注。隨著生活水平的提高,“旅游輿情”主題逐漸受到研究學者的重視,如“青島天價龍蝦”事件在微博等自媒體平臺上引起極大的關注。同時“輿情反轉(zhuǎn)”研究主題第一次出現(xiàn),原因在于在輿情傳播的不同階段,由于信息的不完全性和不對稱性,輿論導向和網(wǎng)民關注度可能出現(xiàn)較大的反差,如“重慶公交墜橋”事件。
針對LDA模型聚類得到的主題及關鍵詞,計算兩個相鄰時間窗口的JS散度,得到主題相似度矩陣,并對主題演化路徑可視化,如圖5所示。
圖5 不同時間窗口的主題演化路徑
圖中圓圈大小代表主題所含文獻數(shù)量的多少,圓圈越大,文獻數(shù)量越多。圓圈之間連線的粗細代表主題相似度,連線越粗,相似度越高。
從圖5可以看出,高校輿情和輿情應急管理一直是研究學者關注的焦點,因此不同時間窗口相關主題的相似度較高,連線較粗。此外,相似度較高的主題還包括以下演化路徑:
1.“輿情傳播”→“輿情研究模型”→“輿情預測”
2.“輿情系統(tǒng)”→“輿情監(jiān)測模型”→“輿情預警平”
3.“新型輿情傳播媒介”→“微博輿情”→“自媒體輿情”
4.“食品安全輿情”→“醫(yī)療輿情”→“旅游輿情”
5.“新型輿情傳播媒介”→“輿情意見領袖”→“輿情媒體引導”
本文結(jié)合LDA主題模型及多時間窗口,嘗試從時間維度上梳理科學文獻研究主題的演化路徑。在對網(wǎng)絡輿情研究的主題演化分析中,本文將所采集文本數(shù)據(jù)劃分為5個時間窗口,并運用LDA模型挖掘不同時間窗口的研究主題,進而采用歸一化后的JS散度計算不同研究主題的相似度,深入探求多時間窗口下網(wǎng)絡輿情相關研究主題的演化路徑和趨勢,其結(jié)果為輿情治理的理論研究與實踐應用提供數(shù)據(jù)支撐。研究結(jié)果也進一步證明,LDA主題模型及多時間窗口的綜合運用,能有效挖掘科學文獻研究主題的演化路徑,更為準確、清晰地揭示研究主題的演化規(guī)律。