茅利鋒,張 偉
(南京郵電大學(xué)計算機學(xué)院,江蘇南京 210023)
基于隱含狄利克雷模型的文獻主題演化預(yù)測
茅利鋒,張 偉
(南京郵電大學(xué)計算機學(xué)院,江蘇南京 210023)
利用隱含狄利克雷分配模型(LDA),根據(jù)科技文獻往年的主題變化來分析科技文獻主題的演化,是目前主題演化研究的熱點。根據(jù)科技論文的主題演化具有無后效性的特點,使用馬爾可夫鏈來預(yù)測主題的演化信息。該方法利用LDA模型獲取不同時段的主題,使用相似度等方法對相鄰時間窗口的主題進行關(guān)聯(lián),并根據(jù)主題的強度將主題分為熱門主題、普通主題和冷門主題,最后利用馬爾可夫鏈得到主題之間的強度轉(zhuǎn)移概率矩陣,對主題的強度變化趨勢進行分析和預(yù)測。對NIPS論文集進行實驗表明,科技論文主題在長時間演化后,其狀態(tài)占比趨于穩(wěn)定,熱門主題、普通主題和冷門主題占比將保持在30%、60%和10%左右。說明該方法能有效地根據(jù)現(xiàn)有的主題演化結(jié)果對主題在未來幾年的演化信息進行預(yù)測。
隱含狄利克雷分配模型;主題演化預(yù)測;馬爾可夫鏈;狀態(tài)轉(zhuǎn)移
隨著Web2.0的快速發(fā)展,如何從承載著科學(xué)研究各個領(lǐng)域最新成果的科技文獻中挖掘出自己感興趣的主題并研究其發(fā)展方向,成為了困擾科研工作者的一個難題??萍嘉墨I的主題演化主要研究一定時期內(nèi)期刊主題的變化程度以及不同主題隨時間變化的規(guī)律,這有助于揭示各領(lǐng)域在不同時期內(nèi)的變化規(guī)律以及重點研究對象,為科研工作者提供決策依據(jù)。
主題的發(fā)現(xiàn)和演化工作最早源于主題的探測和追蹤(Topic Detection and Tracking,TDT)研究[1]。TDT主要是基于統(tǒng)計知識,對文本進行信息過濾,然后利用分類策略跟蹤相關(guān)主題,但它不能反映不同文本間詞匯的語義信息。為了解決這個問題,主題模型的方法被提出。隱含狄利克雷分配(Latent Dirichlet Alloca-tion,LDA)模型[2],作為主題模型的一種,因為其可以很好地模擬大規(guī)模語料的語義信息,越來越受到研究者的重視。
LDA模型在主題發(fā)現(xiàn)方面優(yōu)勢明顯,但是普通的LDA模型很難發(fā)現(xiàn)主題的演變過程[3-6],因此如何將LDA模型應(yīng)用到主題演化研究中成為了科研工作者研究的重點。文中認為科技論文的主題演化具有無后效性的特點,即一個主題將來處于什么狀態(tài)、取什么值,僅與它現(xiàn)在的狀態(tài)相關(guān),與它過去處于什么狀態(tài)、取什么值無關(guān)。馬爾可夫鏈作為馬爾可夫過程的一種特殊情況,它表明事物的狀態(tài)由過去轉(zhuǎn)變到現(xiàn)在,由現(xiàn)在轉(zhuǎn)變到將來的過程,同樣具有無后效性[7]。因此,根據(jù)馬爾可夫鏈的特性,可以將它應(yīng)用到科技文獻的主題演化研究中,預(yù)測主題的狀態(tài)演變規(guī)律。
Deerwester等首先提出了潛在語義索引(Latent Semantic Indexing,LSI)[8],但是該方法缺乏數(shù)學(xué)理論支撐。隨后,Hofmann等[9]提出了概率潛在語義索引(Probabilistic Latent Semantic Indexing,PLSI),該模型能對文本及其隱含主題構(gòu)建模型,在性能上優(yōu)于LSI模型,但易導(dǎo)致過擬合問題。為了克服這個問題,Blei等在PLSI的基礎(chǔ)上,引入了超參數(shù),提出了隱含狄利克雷分配模型(Latent Dirichlet Allocation,LDA)。該模型克服了PLSI在理論上的缺陷,并且繼承了PLSI的降維優(yōu)勢,提出后得到了廣泛應(yīng)用。
基于靜態(tài)的主題模型方法很難發(fā)現(xiàn)主題的演變過程及趨勢變化,因此基于主題模型的演化模型被提出。Wang等[10]將時間作為主題模型的內(nèi)在變量,提出了TOT(Topic Over Time)模型。該模型可以表示主題在不同時刻的分布強度,能很好地揭示主題強度的變化趨勢。Xu等[11]又在此基礎(chǔ)上,加入了作者(Author)這一因素,提出了ATOT模型。不同于TOT模型,Griffiths等[12]提出了先獲取主題再離散到時間窗的方法。該方法首先用LDA模型獲取文本集合所有的主題,然后再利用文本的時間信息來衡量演化,在科技會議論文測試中取得了較好的結(jié)果。以上兩種方法都要求將文本集作為一個整體來處理,這會導(dǎo)致不同時間窗主題個數(shù)固定以及在線處理功能的缺失。因此,目前科研工作者主要集中于先離散到時間窗再獲取主題的方法,為以后每個時間窗內(nèi)的分析提供充分的靈活性。Blei等[13]提出的DTM(Dynamic Topic Model)就是其中的代表。該模型每個時間窗口的文本都是由LDA模型生成,然后使用KL距離(Kullback-Leibler divergence)計算不同時間窗內(nèi)主題分布的相似程度。在DTM模型的基礎(chǔ)上,Ahmed等[14]提出了iDTM模型,引入了HDP方法,解決了各時間窗口內(nèi)主題數(shù)固定的問題。Wei等[15]和 AlSumait等[16]分別提出了DMM(Dynamic Mixture Model)和 OLDA(Online LDA),分別實現(xiàn)了連續(xù)時間模型和離散時間模型的在線化。Wang等[17]提出了OHDP(Online HDP)模型,解決了HDP方法難以處理大規(guī)模以及實時性要求高的文本流的難題。
以上方法都集中于如何使用或改進LDA模型以實現(xiàn)對文本數(shù)據(jù)的動態(tài)挖掘,沒有對其演化規(guī)律的預(yù)測進行進一步的研究。文中根據(jù)科技論文的演化具有無后效性的特點,引入馬爾可夫鏈來對主題的強度進行演化預(yù)測。該方法采用先離散到時間窗再獲取主題的方法,然后依據(jù)主題的強度對主題進行狀態(tài)劃分,根據(jù)馬爾可夫鏈計算主題強度的狀態(tài)轉(zhuǎn)移矩陣,憑借該矩陣可以總結(jié)出主題強度的演變規(guī)律并對未來幾年的主題強度演化進行預(yù)測。
2.1 LDA模型
LDA模型[2]是一個三層變參數(shù)層次貝葉斯模型,它假設(shè)每個文檔都是由多個主題混合而成,而每個主題都是由多個詞的概率分布組成。通過這種隱變量模型,可以獲得觀測數(shù)據(jù)后面隱藏的主題分布,通過后驗概率推斷來獲得這個隱藏的結(jié)構(gòu)。其具體生成過程如下:
(1)對于每個文檔d∈D,根據(jù)θd~Dir(α),得到文檔d上主題的多項式分布參數(shù)θd。
(2)對于每個主題z∈K,根據(jù)φz~Dir(β),得到主題z上詞匯的多項式分布參數(shù)φz。
(3)對于文檔d中的詞匯wd,j,根據(jù)多項分布zd,j~Mult(φz),得到主題 zd,j,根據(jù)多項分布 wd,j~Mult(θz)得到詞匯wd,j。
為了得到LDA模型,首先要對θ和φ進行推理。由于精確的推理很困難,一般都采用近似的推理方法,目前主要使用的有Variational Inference和Gibbs Sampling兩種方法。Gibbs Sampling因為實現(xiàn)簡單,被廣泛采用。文中也采用Gibbs Sampling方法。
2.2 馬爾可夫鏈模型
馬爾可夫分析法[5]主要分析隨機事件未來發(fā)展變化的趨勢,即利用某一變量現(xiàn)在的狀態(tài)去預(yù)測其未來的狀態(tài),以預(yù)測某未來時刻可能產(chǎn)生的變化,以便采用相應(yīng)的對策。
馬爾可夫過程是具有無后效性的隨機過程。無后效性是指當過程在tm時刻所處的狀態(tài)為已知時,過程在大于tm的時刻所處的狀態(tài)的概率特性與過程在tm時刻所處的狀態(tài)有關(guān),而與過程在tm時刻以前的狀態(tài)無關(guān)。通常把時間和狀態(tài)都離散的馬爾可夫過程稱為馬爾可夫鏈。
馬爾可夫鏈中需要使用轉(zhuǎn)移概率矩陣,轉(zhuǎn)移概率矩陣的定義如下:設(shè)系統(tǒng)的狀態(tài)有n個,系統(tǒng)在tm時刻處于狀態(tài)i,在下一時間tm+1轉(zhuǎn)為狀態(tài)j的概率為pij,則稱pij為一步轉(zhuǎn)移概率。將這些pij依序排列,即構(gòu)成一步轉(zhuǎn)移概率矩陣P。若系統(tǒng)經(jīng)過k次轉(zhuǎn)移后在時刻tm+k處于狀態(tài)j的概率為pij,則pij(k)稱為k步轉(zhuǎn)移概率。相應(yīng)的構(gòu)成k步轉(zhuǎn)移概率矩陣P(k)。
3.1 算法體系結(jié)構(gòu)
對于期刊主題而言,演化主要由三個方面組成。首先是主題在時間維度上的強度變化,也叫做主題的活躍度變化;然后是主題隨時間在內(nèi)容上的變化,即主題的內(nèi)容遷移;最后是主題隨時間的社會網(wǎng)絡(luò)變化,比如作者的變化。文中主要討論第一種變化,即主題的活躍度變化。
整體流程框架如圖1所示。
首先,針對不同時間窗口的文獻集,經(jīng)LDA模型得到每個時間窗口的主題;然后,計算各個時間窗口的主題強度和相鄰時間窗口的主題相似度,根據(jù)強度大小對主題狀態(tài)進行劃分,根據(jù)相似度對相鄰時間窗口的主題進行關(guān)聯(lián);最后,根據(jù)關(guān)聯(lián)信息統(tǒng)計計算得到狀態(tài)轉(zhuǎn)移概率矩陣,憑借狀態(tài)轉(zhuǎn)移概率矩陣對主題演化信息進行預(yù)測。
3.2 主題識別及關(guān)聯(lián)
在傳統(tǒng)的TDT中,主題定義為由一個種子事件或活動以及與其直接相關(guān)的事件或活動的集合,而在LDA中,主題表示為分布在一組主題詞上的向量,即
其中,vi是與主題T相關(guān)的詞;pi是主題T在該詞上的概率分布。
同樣的,文獻則是這些主題上的多項分布,其表示如下:
經(jīng)LDA識別的主題在不同時間窗口是互相獨立的,為了分析主題的演化,需要對不同時間窗口的主題進行關(guān)聯(lián)。研究者認為主題的演化過程中必然存在內(nèi)容的延續(xù)與改變,相鄰時間窗口相關(guān)聯(lián)的主題必然存在著內(nèi)容的相似性,因此文中使用基于相似度的主題關(guān)聯(lián)方法,通過計算相鄰時間窗口的主題相似度來衡量主題內(nèi)容的延續(xù)性,并建立主題關(guān)聯(lián)。因為不同時間窗口LDA的詞匯分布不相同,所以首先要把相鄰時間窗口的兩個詞匯表擴充為一個詞匯表。為了方便起見,對于原本不屬于當前時間窗口的詞匯,其概率取為0。
計算主題之間的相似度的方法常使用基于KL散度的方法和余弦相似度方法。文中使用余弦相似度方法。主題與主題之間的余弦相似度計算公式如下:
在關(guān)聯(lián)規(guī)則的選取中,采用最簡單的關(guān)聯(lián)規(guī)則,即認為當前時間窗口中的每個主題與下一時間窗口中相似度最高的主題之間存在關(guān)聯(lián)。
3.3 主題強度度量及狀態(tài)劃分
主題強度主要描述了主題熱門程度,在某一時刻關(guān)于某個主題的文章數(shù)量越多,說明該主題的強度越高。對時間窗口t內(nèi)的主題Tti,其主題強度S(Tti)計算公式如下:
其中,Dt為時間窗口t內(nèi)文檔的數(shù)目。
計算每個主題的強度后,根據(jù)強度的大小把主題的狀態(tài)劃分為熱門主題、普通主題和冷門主題,其具體的劃分方法如下所示:
(1)首先計算主題的平均強度:
其中,T為時間窗口t內(nèi)的主題數(shù)。
(2)對數(shù)據(jù)進行分析,給出一個閾值εt。
3.4 轉(zhuǎn)移概率矩陣的建立及狀態(tài)預(yù)測
在計算狀態(tài)轉(zhuǎn)移概率前,首先要對隨機序列進行無后效性檢驗,若序列不具備無后效性,則不能當作馬爾可夫鏈來對待。常用χ2統(tǒng)計量對隨機序列進行馬氏性檢驗。
由于數(shù)據(jù)的隨機性,準確地確定轉(zhuǎn)移矩陣是馬爾可夫過程求解中的難題,文中使用統(tǒng)計估算法,其方法如下:
首先對一組或者幾組所需要研究的離散數(shù)據(jù),按照3.3節(jié)提出的方法將狀態(tài)分為3種,結(jié)合馬爾可夫鏈的概念對這些離散數(shù)據(jù)進行統(tǒng)計,將從i狀態(tài)轉(zhuǎn)移到j(luò)狀態(tài)出現(xiàn)的次數(shù)統(tǒng)計到矩陣M(i,j)中,最后根據(jù)式(5)計算得到馬爾可夫鏈轉(zhuǎn)移矩陣。
在確定了馬爾可夫狀態(tài)轉(zhuǎn)移矩陣后,就可以對未來幾個時間窗口的狀態(tài)進行預(yù)測,具體方法如下:
(1)確定初始狀態(tài)概率向量。選取一個初始時間窗口,以該時間窗口各主題狀態(tài)所占的比例為分向量,建立初始狀態(tài)概率向量S(0)。
(2)利用馬爾可夫鏈預(yù)測k年后的狀態(tài),公式為:
文中選取了英文數(shù)據(jù)集 NIPS作為研究對象。NIPS會議是神經(jīng)計算和機器學(xué)習(xí)領(lǐng)域最好的會議之一,該數(shù)據(jù)集包含1988~2001年共14年會議1 879篇論文的全文數(shù)據(jù),文中僅摘取了標題和摘要作為實驗的研究對象,并去除了停用詞和數(shù)詞。將數(shù)據(jù)集按照年份分為14個時間窗口,其中前10個時間窗口用來進行主題發(fā)現(xiàn)和演化實驗,后4個時間窗口用來進行預(yù)測分析。
4.1 文獻主題挖掘及強度演化結(jié)果
對于文檔的建模過程,使用Gibbs Sampling進行參數(shù)推演,迭代1 000次,模型參數(shù)α和β分別設(shè)置為50/K和0.01,K取值20。實驗使用了開源的Gibbs Sampling工具GibbsLDA++。文中列舉時間窗口1強度最高的5個主題包含的主題信息(主題序號由LDA算法產(chǎn)生),如表1所示,其強度從上往下依次降低。
從表1中可知,1988年NIPS會議的重點集中于網(wǎng)絡(luò)、模型、代碼優(yōu)化、模擬電路性能以及信息采集等方面。
根據(jù)3.2節(jié)的方法,計算主題之間的相似度,取相似度最高的主題作為關(guān)聯(lián)主題,以表1所列的五個主題為例,分析這五個主題在時間窗口1~10的主題強度變化,如圖2所示。
觀察圖2,發(fā)現(xiàn)主題3和主題5的曲線在時間窗口4的曲線發(fā)生了合并,分析這兩個主題在合并前的主題內(nèi)容,發(fā)現(xiàn)主題3在時間窗口1、2和3中均為關(guān)于模擬電路的內(nèi)容,而在時間窗口4其內(nèi)容轉(zhuǎn)移到了關(guān)于代碼優(yōu)化等方面的內(nèi)容,而主題5內(nèi)容隨時間變化區(qū)別不大,因此分析主題3隨著時間的進行而逐漸消亡的可能性較大。主題7在時間窗口3和時間窗口5主題強度變化程度較大,分析該主題在時間窗口3、4、5和6的主題內(nèi)容,發(fā)現(xiàn)時間窗口4的主題內(nèi)容相較時間窗口3關(guān)于硬件方面的詞的比例顯著上升,而時間窗口6的主題內(nèi)容相較時間窗口5無顯著變化。主題2在時間窗口3、4和5經(jīng)歷了強度顯著下降又明顯上升的過程,同樣分析其在這三個時間窗口的主題內(nèi)容,發(fā)現(xiàn)在時間窗口3和時間窗口4主題內(nèi)容無明顯變化,而在時間窗口5主題內(nèi)容關(guān)于圖像方面的內(nèi)容比例顯著上升。同理,觀察其他主題,發(fā)現(xiàn)當主題強度顯著上升時,其主題內(nèi)容均發(fā)生了比較明顯的變化,而主題強度明顯下降時,主題內(nèi)容變化不大。說明當該主題產(chǎn)生了新的技術(shù)或者有新的發(fā)現(xiàn)時,其主題強度會在短時間提升,而當主題在長時間一成不變的時候,其主題強度自然而然會下降。這說明一個主題要想長時間保持熱度,必須要隨時保持創(chuàng)新。
4.2 馬爾可夫鏈預(yù)測
根據(jù)表2,計算一步轉(zhuǎn)移概率矩陣P,得到:
根據(jù)P對時間窗口11~14的主題狀態(tài)進行預(yù)測,結(jié)果如表3所示。
由表3可知,平均誤差在16.6%左右,因主題總數(shù)只有20,誤差在可接受范圍之內(nèi)。在主題窗口11~14,熱門主題、普通主題和冷門主題的數(shù)量變化不大,說明時間窗口1的主題隨著長時間的演變后,其狀態(tài)占比趨于穩(wěn)定,熱門主題、普通主題和冷門主題占比將保持在30%、60%和10%左右。
文中選用LDA模型,采用馬爾可夫鏈預(yù)測方法對科技論文主題的演化進行了探索,并以NIPS會議的論文集為例對該方法的有效性進行了驗證。實驗結(jié)果表明,該方法在主題強度的演化中有一定的準確度,能夠有效地反映出主題的熱度演變規(guī)律。
但是仍存在以下不足:首先,設(shè)置每個時間窗口內(nèi)主題的數(shù)量相同,這與實際并不相符;其次,關(guān)聯(lián)規(guī)則設(shè)置過于簡單,不能有效地顯示出主題演化過程中的主題消亡、合并、分裂等現(xiàn)象;最后,馬爾可夫鏈狀態(tài)轉(zhuǎn)移計算方法需要進一步改進。
因此,下一步研究中,將針對以上幾點不足,對基于LDA模型的科技論文演化方法進行演化和改進。
[1] Allan J,Carbonell J,Doddington G,et al.Topic detection and tracking pilot study final report[R].Virginia:Lansdowne,1998.
[2] Blei D M,Ng A Y,Jordan M I.Latent Dirichlet allocation[J]. The Journal of Machine Learning Research,2003,3:993-1022.
[3] 趙迎光,洪 娜,安新穎.主題模型在主題演化方法中的應(yīng)用研究進展[J].現(xiàn)代圖書情報技術(shù),2014,30(10):63-69.
[4] 楚克明,李 芳.基于LDA模型的新聞話題的演化[J].計算機應(yīng)用與軟件,2011,28(4):4-7.
[5] 趙旭劍,楊春明,李 波,等.一種基于特征演變的新聞話題演化挖掘方法[J].計算機學(xué)報,2014,37(4):819-832.
[6] 胡艷麗,白 亮,張維明.一種話題演化建模與分析方法[J].自動化學(xué)報,2012,38(10):1690-1697.
[7] Karlin S.A first course in stochastic processes[M].[s.l.]:Academic Press,2014.
[8] Deerwester S,Dumais S,Landauer T,et al.Indexing by latent semantic analysis[J].Journal of the American Society of Information Science,1990,41(6):391-407.
[9] Hofmann T.Probabilistic Latent semantic indexing[C]//Proceedings of the 22nd annual international ACM SIGIR conference on research and development in information retrieval.
New York:ACM,1999:50-57.
[10]Wang X,McCallum A.Topics over time:a non-Markov continuous-time model of topical trends[C]//Proceedings of the 12th ACM SIGKDD international conference on knowledge discovery and data mining.[s.l.]:ACM,2006:424-433.
[11]Xu S,Shi Q,Qiao X,et al.Author-Topic over Time(AToT):a dynamic users'interest model[M]//Mobile,ubiquitous,and intelligent computing.Berlin:Springer,2014:239-245.
[12]Griffiths T L,Steyvers M.Finding scientific topics[J].Proceeding of the National Academy of Science,2004,101(S1):5228 -5235.
[13]Blei D M,Lafferty J D.Dynamic topic models[C]//Proceedings of the 23rd international conference on machine learning. [s.l.]:[s.n.],2006:113-120.
[14] Ahmed A,Xing E P.Timeline:a dynamic hierarchical Dirichlet process model for recovering birth/death and evolution of topics in text stream[C]//Proceedings of the 26th conference on uncertainty in artificial intelligence.[s.l.]:AUAI Press,2010.
[15]Wei X,Sun J,Wang X.Dynamic mixture models for multiple time-series[C]//Proceedings of the 20th international joint conference on artificial intelligence.Hyderabad,India:[s.n.],2007:2909-2914.
[16]Al Sumait L,Barbará D,Domeniconi C.On-line lda:adaptive topic models for mining text streams with applications to topic detection and tracking[C]//Proc of eighth IEEE international conference on data mining.[s.l.]:IEEE,2008:3-12.
[17]Wang C,Paisley J W,Blei D M.Online variational inference for the hierarchical Dirichlet process[C]//Proc of international conference on artificial intelligence and statistics.[s.l.]:[s. n.],2011:752-760.
Topic Evolution and Prediction of Scientific Papers Based on Latent Dirichlet Allocation Model
MAO Li-feng,ZHANG Wei
(School of Computer Science&Technology,Nanjing University of Posts and Telecommunications,Nanjing 210023,China)
According to the change of the topic of scientific papers in previous years,to analyze the evolution of scientific papers based on Latent Dirichlet Allocation(LDA)is the current research focus.Through the aftereffect for topic evolution of scientific paper,Markov Chain is used to predict the evolution information of topic.In this method,LDA is used first to obtain the topics in different time windows,then some calculation method like similarity is used to associate with topics in neighboring time window.According to the intensity of topics,these topics are divided into 3 states including popular,normal and cold.Finally,the state transition matrix which is gained by the Markov Chain is used to analyze and forecast the trend of topic evolution.The experiment on proceedings of NIPS shows that after a long period evolution,the state proportion of topics of scientific papers is stabilized,with hot 30%,normal 60%and cold 10%remained,which shows that this method can effectively predict the trend of topic evolution in the next few years according to the existing evolutionary information.
Latent Dirichlet Allocation;topic evolution and prediction;Markov Chain;state transition
TP301
A
1673-629X(2016)09-0034-05
10.3969/j.issn.1673-629X.2016.09.008
2015-12-12
2016-04-05< class="emphasis_bold">網(wǎng)絡(luò)出版時間:
時間:2016-08-01
國家自然科學(xué)基金資助項目(61272422)
茅利鋒(1991-),男,碩士,研究方向為社會計算;張 偉,博士,教授,研究方向為計算機病毒技術(shù)、網(wǎng)絡(luò)數(shù)據(jù)行為分析、Web應(yīng)用與數(shù)據(jù)安全等。
http://www.cnki.net/kcms/detail/61.1450.TP.20160801.0907.056.html