單 斌,李 芳
(上海交通大學(xué) 計(jì)算機(jī)科學(xué)與工程系 中德語言技術(shù)聯(lián)合實(shí)驗(yàn)室,上海 200240)
互聯(lián)網(wǎng)已經(jīng)成為人們獲取信息的一個(gè)主要渠道,突發(fā)新聞事件或新聞話題可以在互聯(lián)網(wǎng)上瞬間傳播,如何跟蹤該新聞話題或新聞事件的后續(xù)發(fā)展,是人們關(guān)心和需要迫切解決的問題。隨著時(shí)間的發(fā)展,新聞話題的內(nèi)容會(huì)發(fā)生變化,新聞話題的強(qiáng)度也會(huì)經(jīng)歷一個(gè)從高潮到低潮的過程。如何有效地組織這些大規(guī)模文檔,并且按時(shí)間順序來獲取文本集合中話題的演化,從而幫助用戶追蹤感興趣的話題,具有實(shí)際意義。更重要的是,在新聞專題報(bào)道和一些安全機(jī)構(gòu)針對(duì)犯罪探測(cè)和預(yù)防的任務(wù)中,更需要從文本集合中快速準(zhǔn)確地追蹤話題的演化并且根據(jù)演化做出相應(yīng)的預(yù)測(cè)。因此,話題演化研究具有現(xiàn)實(shí)的應(yīng)用背景。
早在話題檢測(cè)與跟蹤(Topic Detection and Tracking,簡稱TDT)研究中,人們就已經(jīng)認(rèn)識(shí)到對(duì)新話題的自動(dòng)識(shí)別和已知話題的持續(xù)跟蹤的重要性。在TDT中,話題被定義為一個(gè)種子事件或活動(dòng)以及與之相關(guān)的所有事件或活動(dòng)[1]。話題跟蹤(Topic Tracking)主要就是跟蹤已知話題的后續(xù)報(bào)道,采用相似度計(jì)算公式來判斷新話題是否屬于已知話題,主要方法基于統(tǒng)計(jì)知識(shí),對(duì)文本進(jìn)行信息過濾,然后利用分類策略來跟蹤相關(guān)話題,但是TDT早期的研究并沒有有效利用語料的時(shí)間信息,在時(shí)間軸上分析話題的分布。
隨著話題模型[2-4]的興起,如何借助話題模型,引入文本語料的時(shí)間信息,研究話題隨時(shí)間的演化,成為在機(jī)器學(xué)習(xí)領(lǐng)域、文本挖掘領(lǐng)域研究的熱點(diǎn)。不同于TDT中話題的表示,話題模型假設(shè):每篇文本是話題的混合分布,而每一個(gè)話題是一組詞語的混合分布[5]。話題模型借助話題可以很好地模擬文本的生成過程,對(duì)文本的預(yù)測(cè)也有很好的效果,因此在話題演化領(lǐng)域有著一定的優(yōu)勢(shì),目前關(guān)于這方面的研究已經(jīng)有很多方法和成果[6-11]。
本文將主要關(guān)注基于Latent Dirichlet Allocation(簡稱LDA)話題模型[3]的話題演化方法。首先簡要的介紹LDA技術(shù)以及相關(guān)概念,第3部分著重介紹各種基于LDA的話題演化方法,第4部分對(duì)所有方法進(jìn)行總結(jié)比較,第5部分介紹話題演化的評(píng)測(cè)方法,最后,對(duì)全文進(jìn)行總結(jié),并對(duì)該研究方向進(jìn)行展望。
在話題演化研究中,一個(gè)重要的任務(wù)就是獲取文本集合的話題。話題實(shí)際就是文本的一種降維表示。最早的文本降維技術(shù)是詞頻—反文檔頻率(Term Frequency-Inverse Document Frequency,簡稱tf-idf),但tf-idf無法在語義層面表示文本。隨后Deerwester等人[12]利用矩陣的奇異值分解技術(shù)對(duì)文本降維,即隱性語義索引(Latent Semantic Indexing,簡稱LSI)模型。Hofmann[2]在LSI基礎(chǔ)上提出了概率隱性語義索引模型(probabilistic Latent Semantic Indexing,簡稱pLSI),它假設(shè)每篇文檔是由多項(xiàng)式隨機(jī)變量(話題)混合而成,而文檔中每個(gè)詞,由一個(gè)話題產(chǎn)生,文檔中不同的詞可有不同的話題生成。但是pLSI模型參數(shù)數(shù)量隨著文集增長而線性增長,并且會(huì)產(chǎn)生過擬合的問題。
Blei等人[3]在2003年提出了Latent Dirichlet Allocation (簡稱LDA)模型。LDA模型是一個(gè)概率生成模型,同時(shí)也是一個(gè)話題模型,它的參數(shù)不會(huì)隨著文集增長而線性增長,有很好的泛化能力,是機(jī)器學(xué)習(xí)、信息檢索等領(lǐng)域很流行的一個(gè)模型。目前,為滿足不同的需求,出現(xiàn)了很多基于LDA的擴(kuò)展模型和應(yīng)用模型,例如文獻(xiàn)[13-14]。
下面先介紹LDA模型中使用的符號(hào),見表1。
表1 文中用到的符號(hào)
LDA是三層的變參數(shù)層次貝葉斯模型,假設(shè)一篇文檔是由一些潛在的話題的多項(xiàng)式分布表示,而話題由一組詞的多項(xiàng)式分布組成。所以又叫話題模型。模型描述了文檔的生成過程,步驟如下:
1) 對(duì)于每個(gè)文檔d∈D,根據(jù)θd~Dir(α),得到多項(xiàng)式分布參數(shù)θd;
2) 對(duì)于每個(gè)話題z∈K,根據(jù)φz~Dir(β),得到多項(xiàng)式分布參數(shù)φz;
3) 對(duì)文檔d中的第i個(gè)詞wd,i
a) 根據(jù)多項(xiàng)式分布zd,i~Mult(θd),得到話題zd,i。
b) 根據(jù)多項(xiàng)式分布wd,i~Mult(φz),得到詞wd,i。
在LDA中,話題(Topic)由一組語義上相關(guān)的詞語以及詞語在該話題上出現(xiàn)的概率表示。即:話題z={(w1,p(w1|z)),…,(wV,p(wV|z))},其中p(wv|z)表示已觀測(cè)到話題z的情況下詞語wv出現(xiàn)的概率。
話題演化衡量的是同一話題隨時(shí)間推移表現(xiàn)出的動(dòng)態(tài)性、發(fā)展性和差異性。話題的演化定義為話題隨時(shí)間的變化,而這個(gè)變化往往反應(yīng)在兩方面,第一,就是話題強(qiáng)度隨著時(shí)間推移發(fā)生的變化,例如,四年一屆的奧運(yùn)會(huì),在奧運(yùn)年受關(guān)注度高,而在非奧運(yùn)年,受關(guān)注度低。第二,就是話題內(nèi)容隨著時(shí)間的推移而發(fā)生的變化,具體到基于LDA的話題,就是表示話題的詞語和詞語的分布概率的變化。例如:在奧運(yùn)會(huì)前夕,大家關(guān)注奧運(yùn)會(huì)的準(zhǔn)備工作,奧運(yùn)會(huì)結(jié)束后,大家關(guān)注對(duì)奧運(yùn)會(huì)的總結(jié)和盤點(diǎn)。話題強(qiáng)度的演化衡量的是話題受關(guān)注程度的變化,話題內(nèi)容的演化衡量的是話題關(guān)注點(diǎn)的遷移,從而體現(xiàn)出話題的動(dòng)態(tài)性、發(fā)展性和差異性。
目前基于LDA的話題演化方法,在內(nèi)容演化和強(qiáng)度演化上有各自不同的特點(diǎn)。根據(jù)引入時(shí)間方式的不同,我們總結(jié)了三種不同的演化方法:第一種方法是將時(shí)間作為可觀測(cè)變量結(jié)合到LDA模型中;第二種方法是在整個(gè)文本集合上用LDA模型生成話題,然后按文本的時(shí)間信息,根據(jù)話題后驗(yàn)離散地分析話題隨時(shí)間的演化;第三種方法將文本集合先按一定時(shí)間粒度離散到相應(yīng)的時(shí)間窗口,在每個(gè)窗口上運(yùn)用LDA模型來獲取演化。下面依此對(duì)上述三種方法進(jìn)行詳細(xì)闡述。
這種方法將文本的時(shí)間信息作為可觀測(cè)變量,結(jié)合到LDA話題模型中,指導(dǎo)文本集合上話題的分布,這樣,話題表現(xiàn)出在時(shí)間軸上強(qiáng)度的演化。
基于這種方法的代表模型是Topic Over Time(簡稱TOT)模型[6]。TOT模型不依賴于馬爾科夫假設(shè),而是將時(shí)間看作連續(xù)的可觀測(cè)變量。TOT模型假設(shè)每個(gè)詞的生成不僅僅受到它所屬的話題的限制,同時(shí)也受到時(shí)間屬性的影響,因此可以更好的描述每個(gè)話題在不同時(shí)間窗口的強(qiáng)度。
TOT的模型生成過程與LDA模型類似,只是每個(gè)詞語wd,i多了一個(gè)時(shí)間屬性td,i,而td,i由連續(xù)貝塔(Beta)分布(td,i~Beta(ψzd,i))生成,其中ψzd,i為文檔d中詞語i的時(shí)間先驗(yàn)分布。雖然同LDA模型一樣,話題內(nèi)容是不變的,但是由于TOT模型考慮了文本的時(shí)間信息,所以可以表示話題在不同時(shí)刻的分布強(qiáng)度,使得TOT模型生成的話題比原始LDA模型生成的話題在時(shí)間分布上更準(zhǔn)確,也具有更好的可解釋性。
TOT模型的優(yōu)點(diǎn)是模型的時(shí)間是連續(xù)的,不會(huì)出現(xiàn)在離散時(shí)間的方法中時(shí)間粒度選取的問題,而在很多語料中,時(shí)間粒度的選取決定了最后結(jié)果的好壞。但是TOT模型所展示的話題在時(shí)間上的演化,僅僅是指話題強(qiáng)度的變化趨勢(shì),而忽略了話題內(nèi)容的變化。另外,TOT是基于LDA模型的改進(jìn),所以TOT是離線的對(duì)文集進(jìn)行處理,不具備擴(kuò)展性,必須一次對(duì)所有的文檔運(yùn)用TOT模型。對(duì)于新觀測(cè)到的文本,必須重新建模。
這種方法是在先忽略時(shí)間的情況下,在整個(gè)文本集合上運(yùn)用LDA或者LDA的改進(jìn)模型獲取話題,然后利用文本的時(shí)間信息檢查話題在離散時(shí)間上的分布來衡量演化,稱為后離散分析(Post-discretized Analysis)方法。
(1)
Dt表示屬于時(shí)間窗口t的文檔數(shù)量。
從而顯示了隨時(shí)間推移,強(qiáng)度明顯上升的熱話題(hot topic)和下降的冷話題(cold topic)。
另一種后離散分析的方法由Hall等人[7]在2008年提出,通過計(jì)算話題在以年為粒度的離散時(shí)間上分布的后驗(yàn)概率來表示話題分布的強(qiáng)度。
(2)
其中每篇文檔僅屬于一個(gè)時(shí)間窗口td,且P(d|y)是一個(gè)常量1/C,表示文檔d在時(shí)間窗口y上出現(xiàn)的概率,P(z|d)表示話題z在文檔d上出現(xiàn)的概率,由該話題在文檔上出現(xiàn)次數(shù)的指示函數(shù)計(jì)算而來。這種方法很好地衡量了科學(xué)領(lǐng)域話題發(fā)展的趨勢(shì)。
以上兩種方法都主要應(yīng)用于追蹤科學(xué)領(lǐng)域的話題強(qiáng)度演化,實(shí)驗(yàn)文集也都來自于科學(xué)領(lǐng)域的會(huì)議或期刊。這是因?yàn)闀?huì)議期刊的時(shí)間粒度是確定的(文獻(xiàn)[7]中實(shí)驗(yàn)數(shù)據(jù)來自ACL,COLING會(huì)議,他們是每年舉行一次),而且每篇文章的內(nèi)容具有差異性,同時(shí)每一年發(fā)表的文章一定基于前幾年的研究結(jié)果,這保證了話題演化的特性。與TOT模型相同,它們衡量的話題演化是基于話題強(qiáng)度,而不是基于話題內(nèi)容的演化;另外這種方法也是基于在整個(gè)文集上一次性獲取話題,所以是離線的,很難擴(kuò)展到基于流的數(shù)據(jù)集。不過比起下文提及的先離散再獲取話題(pre-discretized)的方法,post-discretized方法沒有話題對(duì)齊(align)的問題。但是很明顯,這種post-discretized的方法依賴于話題在時(shí)間上分布的后驗(yàn)的計(jì)算方式,兩種方法對(duì)于強(qiáng)度的具體計(jì)算公式不同,但是,表現(xiàn)的意義確是相似的。
文本先根據(jù)其時(shí)間信息離散到時(shí)間序列上對(duì)應(yīng)的時(shí)間窗口內(nèi),然后依次地處理每個(gè)時(shí)間窗口上的文本集合,最終形成話題隨時(shí)間的演化,因此被稱為先離散(pre-discretized)分析的方法。
先離散方法有各自不同的特點(diǎn)。從處理文集的類型上:有的模型處理的是封閉的文本集合,如文獻(xiàn)[8];有的處理基于流的數(shù)據(jù)集合,如文獻(xiàn)[17]。從演化的時(shí)間粒度上:很多模型的時(shí)間粒度,往往受限于模型處理的文本集合,有的以年為粒度,如文獻(xiàn)[8],有的可以以天為粒度,如文獻(xiàn)[9],有的模型可以從不同的時(shí)間粒度展現(xiàn)話題演化,如文獻(xiàn)[16],還有的模型基于連續(xù)的時(shí)間,如文獻(xiàn)[19]。
另外,在先離散分析的方法中,下一時(shí)刻的模型參數(shù)往往依賴于當(dāng)前時(shí)刻(或前幾個(gè)時(shí)刻)的模型參數(shù)的后驗(yàn)或者模型輸出結(jié)果。這種依賴表現(xiàn)為條件概率依賴[22]或者非條件概率依賴。本節(jié)將從這個(gè)角度詳細(xì)介紹這兩種基于先離散方法的模型。
3.3.1 基于條件概率的先離散方法
這種方法的主要思想是當(dāng)前時(shí)刻的模型參數(shù)后驗(yàn)作為下一時(shí)刻模型參數(shù)的條件分布引入模型,這樣從全局上看,整個(gè)話題演化模型依然是圖形模型(Graphic Model),但在模型參數(shù)推導(dǎo)過程中可能比較困難。另外對(duì)全局的處理使得通過一次建模就可以得到所有時(shí)刻的話題表示,但不具有在線添加新文本的功能,對(duì)于新到達(dá)的文本只能重新離散、全局建模。
這種方法的代表之一就是動(dòng)態(tài)話題模型(Dynamic Topic Model,簡稱DTM)[8]。DTM先根據(jù)時(shí)間窗口分割文本集合,并假設(shè)話題數(shù)量K是固定的,即每個(gè)時(shí)間窗口的文本都由K個(gè)話題的LDA模型生成。
DTM用狀態(tài)空間模型來實(shí)現(xiàn)演化。在DTM中,實(shí)際獲取的演化特征是話題在文集上分布的演化以及詞語在話題上的分布的演化,即話題的分布強(qiáng)度和話題的內(nèi)容都在隨著時(shí)間而演化。
由于DTM將時(shí)間離散,所以演化的效果決定于時(shí)間粒度的選擇,粒度太大會(huì)導(dǎo)致演化并不真實(shí),粒度太小使得在模型參數(shù)推導(dǎo)中引入太多的時(shí)間節(jié)點(diǎn)。為了解決DTM中時(shí)間粒度的問題,Chong Wang等人提出了連續(xù)時(shí)間的動(dòng)態(tài)話題模型(Continuous Time Dynamic Topic Model,簡稱為CTDTM)[19]。CTDTM用布朗運(yùn)動(dòng)(Brownian Motion)模型來實(shí)現(xiàn)話題的演化過程,并將文本的時(shí)間差信息引入到參數(shù)演化的過程中,可以看作是選取最佳時(shí)間粒度下的DTM模型。所以,無論是DTM還是CTDTM,在獲取演化的能力上,是類似的。
另一種基于條件概率的先離散方法是動(dòng)態(tài)混合模型(Dynamic Mixture Model,簡稱DMM)[17]。DMM與DTM(或CTDTM)相比,具有更強(qiáng)的時(shí)間假設(shè)。在DMM中的文本是嚴(yán)格按照時(shí)間順序先后到達(dá)的,每個(gè)時(shí)刻只到達(dá)一篇文本,從這個(gè)角度DMM可以看作在線的話題演化模型。DMM假設(shè)模型參數(shù)θ由前一時(shí)刻θt-1的混合分布生成。即:
θt+1|θt~Dir(ψθt)
(4)
從DMM的演化依賴關(guān)系上,說明了DMM假設(shè)連續(xù)兩篇文檔中話題的分布存在演化關(guān)系,所以更適用于獲取文本間更細(xì)微的內(nèi)容和強(qiáng)度的演化。
Multiscale Topic Tomography模型(簡稱MTTM)[16]也是基于這種方法的模型。但與前面的模型不同,MTTM更關(guān)注于多時(shí)間粒度的話題演化。MTTM用泊松過程來模擬文檔的生成,用泊松參數(shù)來表示詞語在話題上出現(xiàn)的期望次數(shù)。MTTM把時(shí)間重復(fù)的分割成相等地兩個(gè)時(shí)間窗口,最終時(shí)間窗口形成二叉樹的層次結(jié)構(gòu),進(jìn)而假設(shè)父時(shí)間窗口上模型的泊松參數(shù)由其左右孩子時(shí)間窗口的泊松分布按一定比例組合成。
經(jīng)過參數(shù)推導(dǎo)簡化后,可以估計(jì)出不同粒度上的模型參數(shù),也就可以表示話題內(nèi)容和強(qiáng)度的演化。因而MTTM模型不僅體現(xiàn)出TOT模型衡量話題演化強(qiáng)度的性質(zhì),也體現(xiàn)出DTM模型衡量話題內(nèi)容演化的性質(zhì)。
3.3.2 基于非條件概率的先離散方法
基于非條件概率的方法中,當(dāng)前時(shí)刻的模型參數(shù)后驗(yàn)或輸出結(jié)果直接用來計(jì)算下一時(shí)刻的模型參數(shù),而不存在條件依賴的關(guān)系,這樣雖然每個(gè)時(shí)刻模型依然是圖形模型,但是從全局上看并不是一個(gè)圖形模型。非條件概率依賴的好處是:保持了Dirichlet先驗(yàn)分布,從而使得模型的參數(shù)推導(dǎo)非常方便,而且由于獨(dú)立獲取每個(gè)時(shí)間窗口的話題,使得模型具有在線處理的能力,對(duì)于新到達(dá)的文本(或文本集合)可以增量處理。
據(jù)我們所知,最早提出對(duì)LDA模型按照文本達(dá)到時(shí)間來增量建模的方法是增量LDA(Incremental Latent Dirichlet Allocation,簡稱ILDA)[18]算法。ILDA算法利用了T.L Griffiths和M.Steyvers[15]中提出的用Gibbs采樣方法,估計(jì)LDA的話題后驗(yàn)分布和LDA模型參數(shù)。其中每個(gè)時(shí)間段上的話題個(gè)數(shù),都由獨(dú)立的貝葉斯模型選擇方法來確定,因此ILDA的演化話題個(gè)數(shù)是可變的。ILDA算法獲取的演化是話題上詞語分布的演化,展現(xiàn)出話題內(nèi)容的變化。
OLDA模型不像DMM模型按嚴(yán)格的時(shí)間順序依次處理文本,同樣也不像DTM模型需要一次處理較大的文本集,OLDA模型的時(shí)間粒度可以介于DMM和DTM模型之間。更深入地,L.AlSumait等人[21]詳細(xì)地分析了關(guān)于OLDA中演化矩陣時(shí)間窗口大小δ和權(quán)重的ω的選擇方法,使得OLDA展現(xiàn)出更好的效果。
本節(jié)主要對(duì)第三部分提到的各種模型方法進(jìn)行總結(jié)比較,見表2。根據(jù)話題演化任務(wù)關(guān)注的特征,我們選擇了是否在線,引入時(shí)間方式,時(shí)間粒度,話題數(shù)量等特征來比較。是否在線主要考察模型對(duì)于新觀測(cè)文本的處理能力; 引入時(shí)間的方式和時(shí)間粒度的選擇說明了模型獲取演化的細(xì)致程度;演化類型主要表明模型在強(qiáng)度演化和內(nèi)容演化兩方面的能力;最后話題數(shù)目主要說明模型對(duì)新話題或衰亡話題的探測(cè)。
表2 基于LDA話題演化方法比較
話題演化任務(wù)中,有一些常用的評(píng)測(cè)指標(biāo):話題的相似度、模型的泛化能力,以及演化結(jié)果的評(píng)測(cè)上。需要指出的是,在演化結(jié)果的評(píng)測(cè)上,目前并沒有統(tǒng)一的標(biāo)準(zhǔn)。
首先,在話題演化任務(wù)中,有一些方法中話題并不是對(duì)齊的[10],所以需要一些衡量話題相似度的方法來對(duì)齊話題。另外,即使有些話題模型的話題是對(duì)齊的,但是往往為了探測(cè)話題的產(chǎn)生[9],同樣需要衡量話題相似度。
采用比較多的話題相似度度量方法,是利用Kullback-Leibler差分距離的方法[5]。話題j1和話題j2的不相似度,由對(duì)稱的Kullback-Leibler距離衡量,即:
(9)
其中φ表示話題—詞語的分布參數(shù)。根據(jù)具體實(shí)驗(yàn),設(shè)定合適的閾值,可以判斷話題是否同一或者是否新生。
當(dāng)然其他的一些距離度量方法也可用于話題相似度的衡量,如余弦距離,Jenson-Shannon距離等。
模型泛化能力是衡量模型對(duì)于未觀測(cè)到的數(shù)據(jù)的預(yù)測(cè)能力。比較公認(rèn)的判斷方法是衡量模型的困惑度(Perplexity)。模型的困惑度往往與基礎(chǔ)(Baseline)模型的困惑度進(jìn)行對(duì)比,來說明新模型對(duì)于預(yù)測(cè)未觀測(cè)數(shù)據(jù)有更好的能力。困惑度表示為:
(10)
困惑度越小,表示模型的泛化能力越強(qiáng)。
5.3.1 話題內(nèi)容演化評(píng)測(cè)
某一時(shí)間段話題內(nèi)容的表示是一組詞,也就是用模型在每個(gè)時(shí)間窗口t上的話題—詞語分布的后驗(yàn)參數(shù)βt,z或φt,z,按照概率來排序,將出現(xiàn)頻率最高的W個(gè)詞語來顯示話題。話題內(nèi)容演化是否正確是根據(jù)人的判斷。
另外,話題在內(nèi)容上的變化也可以用同一個(gè)詞語(word)在同一個(gè)話題上出現(xiàn)的次數(shù)(即概率)隨時(shí)間的變化來表示。
5.3.2 話題強(qiáng)度演化評(píng)測(cè)
話題強(qiáng)度的演化圖,用坐標(biāo)圖來表示,一般橫軸表示時(shí)間,縱軸表示話題k的概率,即p(k),這個(gè)概率可以由模型的后驗(yàn)來得到。
在先離散的方法中,由于文本已經(jīng)被劃分到相應(yīng)的時(shí)間窗口,所以可以直接利用時(shí)間窗口t中的每個(gè)文檔的參數(shù)θt,d={θt,d,1,…,θt,d,K}(文檔上話題的分布概率)的平均值來計(jì)算每個(gè)話題在t時(shí)刻的出現(xiàn)強(qiáng)度,以此來衡量話題強(qiáng)度的演化。
在后離散和引入時(shí)間觀測(cè)變量的方法中,要計(jì)算話題k在時(shí)間t上的后驗(yàn)p(k|t)來得到話題的強(qiáng)度分布。一般來說,這要借助于文本的時(shí)間信息。
目前,話題內(nèi)容演化和話題強(qiáng)度演化沒有統(tǒng)一的評(píng)判標(biāo)準(zhǔn),也沒有有效的量化比較,只是通過人工來自動(dòng)判斷。上述這些評(píng)測(cè)方法是根據(jù)許多參考文獻(xiàn)總結(jié)的。
本文詳細(xì)介紹了基于LDA話題模型的話題演化各種不同的方法。按照引入時(shí)間的方式,將基于LDA的話題演化技術(shù)分為:直接把時(shí)間作為觀測(cè)變量引入模型、按時(shí)間后離散和先離散三種方法。直接將時(shí)間引入模型,可以自然地探測(cè)到話題強(qiáng)度的變化,無須考慮時(shí)間的粒度。后離散方法簡單,基于靜態(tài)的詞語集合和話題數(shù)目,不易擴(kuò)展。先離散方法因?yàn)榉先藗冇^測(cè)文本信息的事實(shí),受到更多關(guān)注。根據(jù)演化的不同特征,我們對(duì)比和總結(jié)了各種不同的方法,見表2, 不同的方法有其不同的特點(diǎn),可以應(yīng)用在不同的任務(wù)中。
但是基于LDA的話題演化課題依然處于研究階段。作者認(rèn)為主要是該課題中還有很多需要解決的問題和技術(shù)難點(diǎn)。
首先,從我們的對(duì)比中可以看出,大多數(shù)基于LDA話題演化方法都假設(shè)話題數(shù)目是固定的,無法探測(cè)新話題的產(chǎn)生,舊話題的消亡和分裂,這不符合現(xiàn)實(shí)中的話題。如果假設(shè)不同時(shí)間段話題數(shù)目不同,那么這涉及到如何定義同一話題和相關(guān)話題,在話題模型里,如何定義和區(qū)分同一話題和相關(guān)話題具有一定的挑戰(zhàn)。目前的大多數(shù)研究都回避了這一問題,通過假設(shè)話題數(shù)目固定,不同時(shí)間段話題對(duì)齊,忽略了話題的消亡、分裂、遷移的可能。因此在今后的研究中,需要提出一種新的方法和明確的定義,來判斷同一話題或者相關(guān)話題,從而發(fā)現(xiàn)隨時(shí)間的話題演化關(guān)系。
其次,隨著LDA模型的廣泛使用,對(duì)LDA話題的表示和話題可解釋性問題備受學(xué)者的關(guān)注。很多學(xué)者致力于這方面的研究,有一些初步的結(jié)果。這些研究中,一種是基于LDA的擴(kuò)展模型,通過引入其他的特征指導(dǎo)LDA話題生成,例如引入文章的作者信息(Author-Topic Model)[14]、科學(xué)研究論文中的參考文獻(xiàn)信息(Citation LDA)[23]等;另一種是通過半監(jiān)督或監(jiān)督的方法指導(dǎo)LDA話題的生成,如Supervised Topic Model[13];對(duì)話題的表示,最近的研究是通過對(duì)表示話題的詞語進(jìn)行分析組合,用更有意義的詞組(n-gram)代替單個(gè)詞語來表示話題,如文獻(xiàn)[24]。因此,如何把自然語言處理技術(shù)以及其他的技術(shù)引入到基于LDA模型的話題演化任務(wù)中,構(gòu)造更明確清晰的話題演化,也將是我們面臨的又一項(xiàng)挑戰(zhàn)。
最后,雖然已經(jīng)有很多關(guān)于話題演化的研究,但是對(duì)于話題演化的評(píng)測(cè),沒有一個(gè)評(píng)判標(biāo)準(zhǔn),沒有統(tǒng)一的測(cè)試指標(biāo)和相應(yīng)的測(cè)試語料。目前,無論是話題強(qiáng)度還是內(nèi)容的演化,都是基于人們對(duì)話題的主觀理解。這種方法不具有可比性,對(duì)于話題未來的發(fā)展趨勢(shì)的預(yù)測(cè)也不是很科學(xué)。所以,提出一個(gè)話題演化的評(píng)判標(biāo)準(zhǔn)也是需要解決的問題之一。
盡管基于LDA話題演化研究存在著眾多挑戰(zhàn),但是,LDA話題模型能夠自動(dòng)獲取海量文本信息的主題或話題,它是一種非監(jiān)督的方法,具有實(shí)際應(yīng)用的前景,因此,基于LDA的話題演化研究仍然受到很多關(guān)注,發(fā)展也很快,我們相信,隨著研究的深入,問題的解決,話題演化研究一定會(huì)得到廣泛的實(shí)際應(yīng)用。
[1] 洪宇,張宇,劉挺,等. 話題檢測(cè)與跟蹤的評(píng)測(cè)與研究綜述[J]. 中文信息學(xué)報(bào),2007,21(6):71-87.
[2] Thomas Hofmann. Probabilistic latent semantic indexing[C]//Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Berkeley,CA,USA,1999,50-57.
[3] David M. Blei,Andrew Y. Ng, Michael I. Jordan. Latent dirichlet allocation[J]. The Journal of Machine Learning Research,2003,3:993-1022.
[4] T. Griffiths,M. Steyvers. A probabilistic approach to semantic representation[C]//Proceedings of the 24th Annual Conference of the Congnitive Science Society.Mahwah,NJ:Erlbaum,2002,381-386.
[5] M. Steyvers,T. Griffiths. Probabilistic topic models. In:T. Landauer, D. S. McNamara, S. Dennis, W. Kintsch (Eds.), handbook of Latent Semantic Analysis [M]. Hillsdale, NJ.. Erlbaum. 2007.
[6] X.Wang,A.McCallum. Topic over time:A non-markov continuous-time model of topical trends[C]//Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Philadelphia,PA,USA,2006:424-433.
[7] D.Hall,D.Jurafsky,C.D.Manning. Studying the history of ideas using topic models[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing.Honolulu,Hawaii,2008,363-371.
[8] D.M.Blei,J.D.Lafferty. Dynamic topic model[C]//Proceedings of the 23rd International Conference on Machine Learning.Pittsburgh,Pennsylvania,2006:113-120.
[9] L.Alsumait,D.Barbara,C.Domeniconi. On-line LDA:Adaptive topic models of mining text streams with applications to topic detection and tracking[C]//Proceeding of the 8th IEEE International Conference on Data Mining.Washington,DC,USA:IEEE Computer Society,2008:3-12.
[10] 楚克明. 基于LDA新聞話題的演化[C]//第五屆全國信息檢索學(xué)術(shù)會(huì)議.上海,中國,2009:64-72.
[11] A.Gohr,A.Hinnerburg,R.Schult,M.Spiliopoulou. Topic evolution in a stream of documents[C]//Proceeding of the Society for Industrial and Applied Mathematics.2009:859-870.
[12] S.Deerwester,S.Dumais,T.Landauer,etc. Indexing by latent semantic analysis[J].Journal of the American Society of Information Science,1990,41(6):391-407.
[13] D.M.Blei,J.D.McAuliffe. Supervised topic models[C]//Proceeding of the 22nd Annual Conference on Neural Information Processing Systems,2008.
[14] M.Rosen-Zvi, T.Griffiths, M.Steyvers, etc. The
author-topic model for authors and documents[C]//Proceedings of the 20th Conference on Uncertainty in Artificial Intelligence.Banff,Canada,2004:487-494.
[15] T.L.Griffiths,M.Steyvers. Finding scientific topics[C]//Proceeding of the National Academy of Science of United States of America,2004,101:5228-5235.
[16] R.M.Nallapati,S.Ditmore,J.D.Lafferty,etc. Multiscale topic tomography[C]//Proceedings of the 13th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.San Jose,California,USA,2007:520-529.
[17] X.Wei,J.Sun,X.Wang. Dynamic mixture models for multiple time series[C]//Proceedings of the 20th International Joint Conference on Artificial Intelligent.Hyderabad,India,2007:2909-2914.
[18] X.Song,C.Y.Lin,B.L.Tseng,etc. Modeling and predicting personal information dissemination behavior[C]//Proceedings of the 11th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Chicago,Illinois,USA,2005:479-488.
[19] C.Wang,D.Blei,D.Heckerman. Continuous time dynamic topic models[C]//Proceeding of the 23rd Conference on Uncertainty in Artificial Intelligence,2008.
[20] D.M.Blei,J.D.Lafferty. Correlated topic model[C]//Advances in Neural Information Processing System 17.Cambridge,MA:MIT Press,2005.
[21] L.AlSumait,D.Barbara,C.Domeniconi. The role of semantic history on online generative topic modeling[R].http://www.ise.gmu.edu/~carlotta/publications/Siam_SemOLDA.pdf:2009.
[22] G.Shafer. Advances in the understanding and use of conditional independence[J].Annals of Mathematics and Artificial Intelligence,1997,21(1):1-11.
[23] R.Nallapati,A.Ahmed,E.P.Xing,etc. Joint latent topic models for text and citations[C]//Proceeding of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Las Vegas,Nevada,USA,2008:542-550.
[24] D.M.Blei,J.D.Lafferty. Visualizing topics with multi-word expressions[J]. The Journal of Machine Learning Research,2009,7.