衡 偉,于 佳,李 蕾,劉詠彬
(北京郵電大學 計算機學院 智能科學技術中心,北京 100876)
為了從數(shù)據(jù)中學習層次信息,Blei等人[1]提出了基于nCRP的層次潛在狄利克雷分配(以下簡稱hLDA)非參模型。模擬數(shù)據(jù)和JACM語料的實驗評估證明了其具有非常好的效果[2]。Asli和Dilek等人[3]采用交叉驗證的方法對hLDA進行英文多文檔摘要建模,效果顯著。劉等[4]利用hLDA進行中文多文檔聚類和摘要的研究,亦取得了非常好的效果。
但hLDA的建模效果卻因語料和應用建模者的不同而差異巨大。雖然在Blei的論文中提出了無監(jiān)督的、針對先驗超參的MH抽樣方法[5],在迭代盡可能多的條件下,理論上可以實現(xiàn)完備的后驗推理[6]。但是,實際應用中資源有限,我們無法保證進行足夠多次的迭代,且不同的語料特征以及建模需求使得迭代次數(shù)具有很大的不確定性;加之吉布斯后驗推理算法是一種隨機算法,每次迭代穩(wěn)定的狀態(tài)都不同[7];再者,應用中對最優(yōu)樹結構的評估方法也有較大的不確定性。一定程度上需要通過多次局部最優(yōu)的結果來逼近全局最優(yōu)。Blei僅僅給出了模型參數(shù)本身[2],卻沒有詳細的分析參數(shù)選擇過程。同樣Asli和Dilek的交叉檢驗尋找模型參數(shù)方法則過多的限制了模型的泛化效果。本文通過統(tǒng)一分析框架,采用理論分析與實驗相結合的方式,對應用hLDA到多文檔主題建模任務中的關鍵影響因素進行深入研究,試圖尋找優(yōu)化的建模策略、建模流程以及有效的參數(shù)配置方法,能在有限資源、有限迭代、語料多變的情況下,盡可能讓建模結果更好地逼近全局最優(yōu),從而為hLDA實現(xiàn)高效的層次主題建模提供有益的參考。
文章結構安排如下: 第2節(jié)介紹統(tǒng)一分析框架,從貝葉斯線索和范圍線索兩個角度分析多種影響因子,同時簡要介紹了實驗模塊;第3節(jié)針對 hLDA 模型文檔生成過程的超參進行分析和實驗;第4節(jié)給出了吉布斯抽樣算法后驗推理的關鍵影響因素;第5節(jié)針對影響建模的全局因子進行了分析;第6節(jié)給出一個經驗型優(yōu)化建模流程,并結合最新的ACL MultiLing 2013多語言多文檔摘要數(shù)據(jù)進行建模效果實驗與效果評估。
如圖1所示,黑色矩形虛線表示范圍線索,在虛線框之外是一些全局的建模影響因子,如抽樣與否、樹的深度、語料的大小,詞匯量等特征。虛線內部是貝葉斯線索的影響因子,如狄利克雷(Dirichlet*為了與Blei論文中表示一致,后面我們將使用Dir()表示。())分布超參η、 GEM分布超參m, π、nCRP過程超參γ*此處表示同Blei hlda算法包[http://www.cs.princeton.edu/~blei/topicmodeling.html]中參數(shù)命名。。黑色橢圓形實線是貝葉斯過程: 黑色有向實線箭頭所示為基于先驗的文檔生成過程。逆向的黑色虛線箭頭即貝葉斯后驗推理: 從語料出發(fā)*忽略了預處理到生成文檔到詞的過程,圖中的Doc, Wd,n也應該有相應的黑色虛線表示。,選擇路徑Cd和詞Wd,n,獲得最優(yōu)樹結構。
圖1 統(tǒng)一分析框架
從圖1的統(tǒng)一分析框架,我們能夠窺見hLDA模型算法的全貌,從而有利于深入分析建模影響因子。后面三節(jié)便是以這兩個線索為綱展開的,并結合具體的實驗分析,為此,我們對用于建模分析的實驗系統(tǒng)做一個較為全面的介紹。
2.2.1 實驗系統(tǒng)框架
實驗系統(tǒng)由三個模塊組成: 預處理、hLDA建模、結果分析評估。如圖2所示。預處理模塊對語料進行分句、分詞、生成詞表、統(tǒng)計詞頻特征等。生成hLDA建模輸入文件,同時為hLDA超參選擇提供分析依據(jù)。hLDA建模是核心模塊, 其設置文件中的超參選擇是建模的重點,主要依據(jù)語料本身的特征分析以及對于建模結果分析的反饋。結果分析評估模塊是實驗分析的基礎,從而驗證各個建模影響因素。
圖2 試驗系統(tǒng)框架圖
2.2.2 實驗語料來源
實驗語料來源于兩部分: 其一收集了國內門戶網站新聞報道,共十個話題,每個話題10篇相關報道,即Portal News。便于圖表敘述,給出了英文縮寫,如甘肅校車事故(SBAG),伊朗制裁(IRSA)等。其二是ACL MultiLing 2013多語言多文檔摘要評測發(fā)布的數(shù)據(jù),也由十個話題,每個話題下10篇新聞組成: 如印度洋海嘯(M000),倫敦爆炸案(M001)等。
nCRP是hLDA的核心,屬于貝葉斯非參建模家族,近些年在層次主題建模領域受到了廣泛的關注[8-10]。nCRP構造了一個樹狀層次結構先驗,超參γ決定先驗樹結構的形狀,即每個文檔每一層的路徑選擇。稱之為嵌套中國餐館過程是因為本質上它只是對于每一層都使用中國餐館模型(即CRP)進行路徑選擇。
3.1.1 中國餐館過程CRP
CRP可被簡單表述為如何從以下等式的條件概率函數(shù)中選擇一個樣本所屬的類別聚簇,見式(1)。
(1)
其中,N表示已有的樣本數(shù),CN+1表示新來的樣本,K表示目前的樣本類別數(shù),nk表示第k個樣本類別所含有的樣本數(shù)目,n表示所有nk所組成的集合向量。可以看出,某一個類別上的樣本越多,則新抽樣本屬于該類別的概率越大。最終聚簇數(shù)的期望如式(2)所示。
在給定γ的情況下,占用聚簇數(shù)的期望隨著樣本數(shù)n呈指數(shù)增長,因此,可以通過分析文檔數(shù)目和期望的聚簇數(shù)來反向估計γ的范圍。這在實際的分析nCRP超參的過程中亦具有較高的參考意義。
3.1.2 nCRP及γ值實驗分析
CRP是一個在整型離散空間上的隨機過程,nCRP同樣是一個隨機過程,但不是在一維的整型空間,而是在樹的深度維度上的整型向量空間。因此,當假設每個聚簇上有一個潛在主題變量βk時,某一條聚簇路徑上也有一個潛在向量<β0,kβ…,kβl,k>。nCRP過程指定了文檔所屬的潛在向量聚簇。對于三層樹結構,nCRP過程相當于在一個三維整型空間中去選擇聚簇,每個樣本則是三維空間中的某一個點。
如表1所示,實驗分析在同一個話題語料*ACL MultiLing 2013中文語料下的M004話題。下,γ值所引起的聚簇數(shù)(即路徑數(shù))的變化。
表1 GAMMA值對聚簇數(shù)和詞層分配影響
當γ=0.2時,前段主要路徑聚集,而路徑數(shù)卻相應的減少。隨著γ值從1.0變化到8.0,各聚簇分布逐漸趨向平均,且路徑數(shù)也在相應增加。各層詞分配在隨機抽樣允許的變動范圍內,比例基本不變。從原理上分析,如式(1)所示,γ值增大使得選擇新聚簇的可能性增加,在總文檔數(shù)不變時,原本過于聚集的簇傾向于分散,產生更多新聚簇。而第三層詞的分配是隨著γ的增大而減少,而最后的路徑數(shù)卻呈現(xiàn)增多的趨勢,其原因便在于,γ增大的過程中,從根節(jié)點到葉子節(jié)點各個層次聚簇數(shù)都相應的增加,由式(2)可知,文檔數(shù)越大,詞數(shù)越多的情況,聚簇的增加越快,因此相對而言,根節(jié)點增加的要比葉子節(jié)點快,為了滿足這樣的先驗假設,后驗詞分配便逐漸的從葉子往根聚集,從而導致葉子節(jié)點詞的減少。
折棒構造是狄利克雷過程(以下簡稱DP過程)的另一種構造方式,側重于以最終分布為中心的構造。每次折棒,都會通過Beta分布得到最終分布比例的一部分,而CRP每次抽樣只是對最終分布比例的一次更新,隨著抽樣次數(shù)的增加進而愈加接近最終分布。關于折棒過程更為詳細的敘述,很多論文中皆可參考[3-4,8,10]。既然CRP和折棒過程都是DP過程的不同構造方式,對于CRP的理論分析同樣適用于折棒過程,如最終聚簇的期望等。
3.2.1 參數(shù)m和π實驗分析
參數(shù)m控制著從根節(jié)點到葉子節(jié)點的分配比例,而π則指定該分配比例的嚴格程度,但相對m,其影響要小。實驗首先從Portal News語料中隨機選取兩篇,分析m從0.25到0.75變化時詞的分配。如圖3所示,上下各三個餅狀比例圖,分別表示一個主題在不同的m值條件下,樹中各層詞分配比例。餅狀圖中的黑色部分表示第三層葉子節(jié)點所占詞的比例,白色部分表示中間層詞所占據(jù)的比例,而灰色部分則表示根節(jié)點詞所占的比例。
圖3 不同m下,三層樹結構時詞的分配比例
從第一行三個餅狀圖的比例變化可以看出,隨著m值的變大,葉子節(jié)點中詞的比例明顯增加,而根節(jié)點中詞所占的比例則在減少。第二行雖然不同語料差異使得各層詞的比例不完全相同,但是這種趨勢也非常顯著??梢酝茰y,m越大,文檔中的詞越向葉子節(jié)點聚集,越傾向于較為具體的主題,反之亦然。
接著圖3的分析,利用ACL MultiLing 2013中前五個主題的語料,分析確定m值情況下,詞分配比例的穩(wěn)定性。如表2所示,隨著m從0.25增加到0.75的過程中,level0層的分配比例在逐漸減小,level2層的比例在逐漸增加。從原理上來看,折棒構造過程中m、π的先驗影響效果比較明顯,尤其在樹的層數(shù)小、主題下文檔數(shù)較少時,貝葉斯后驗解釋受先驗的影響較大。因此,在應用建模時可以根據(jù)期望的主題層次分布和抽象具體詞的比例來確定m值的范圍。以此類推,結合CRP中的理論分析和實驗評估,我們可以給出一個經驗化的比例范圍,從而有利于我們所期望的更為精確的m值控制。
接著前面在nCRP試驗中的分析, 當γ產生較大變化時,對于路徑樹和聚簇比例的變化有一定的影響, 但是各個層次詞的分配比例受到γ參數(shù)的影響較小。這在一定程度上為我們細化γ和m參數(shù)對樹結構的調節(jié)范圍提供了可能。
表2 不同語料數(shù)據(jù)時,確定m值下各詞層分配的穩(wěn)定性
狄利克雷分布決定了每個節(jié)點上主題先驗βk。文檔生成過程中,首先假設一個無限深度和無限寬度的樹結構,樹中的每一個節(jié)點以超參η生成一個主題,以此進行嵌套中國餐館過程和折棒過程的構造。兩種構造卻已經不僅僅是由樣本數(shù)N和先驗超參γ或m、π控制,在單純的整型空間上的聚簇劃分。因為每個節(jié)點都有了實際意義,即主題βk。于是這兩種過程都變成了在潛在主題變量下的混合模型。我們首先分析DP的形式化定義以及DP的兩種構造過程,以此為切入點來分析狄利克雷分布所確定的主題和這兩個構造過程的關系。
3.3.1 從DP的角度分析文檔生成過程
DP是一種隨機概率測量在一個可測量空間上的分布[11]。在生成主題節(jié)點值空間的Dir()分布的基礎上,分別把nCRP和GEM的構造過程理解成為一種DP過程。對于nCRP而言:
式(3)中,L表示的是嵌套的層數(shù)向量所構成的分布矩陣,對于每一層通過CRP過程,得到一個比例分布,結合層數(shù)得到這樣一個矩陣結構。接下來對一篇文檔從L矩陣中的第一行開始一直到結束,逐步選擇相應的基分布值,即β向量,其向量長度等于嵌套的次數(shù),也即樹的深度。Categorical(K)分布表示從某一有K個結果的隨機事件中抽樣。這便是通過嵌套CRP方式構造一個DP過程。而式(4)中,則是直接從DP定義的概率測量的角度來生成。好處在于能夠直接清晰的分析出狄利克雷分布作為基分布在整個nCRP過程中的作用。而對于GEM而言,其基分布則是前面nCRP所形成的β向量的分布,然后對于向量的維度即同樣樹的深度L,進行折棒構造,如式(5),(6)所示。
從以上的分析我們不難理解,對于基分布狄利克雷而言,nCRP過程類似于一種對每一層取值空間進行了擴展組合,然后在一個高維的更大的空間內進行向量選擇,在此基礎上,GEM分布再對已選的向量進行每一維度上的概率選擇,從而產生相應的詞。
3.3.2 參數(shù)η實驗
如表3所示,我們分析在葉子節(jié)點上的η值(其余兩層值分別為5.2/0.025)變化時,相應的主題路徑以及各節(jié)點上文檔和詞的變化。
表3 η對樹結構的影響
其中,第一列是葉子節(jié)點上的η值,第二列是從根節(jié)點到葉子節(jié)點總的詞分配,第三列是總的路徑數(shù),剩下的五列表示最主要的五個路徑上文檔和詞分配。當η為0.05和0.005時,葉子節(jié)點的詞分別為582和564,在一定抽樣不確定性允許的情況下,詞數(shù)是相對穩(wěn)定的,葉子節(jié)點上總路徑數(shù)變多,各個路徑上文檔和詞的數(shù)量則變小。隨著葉子節(jié)點η的迅速變小,其詞由上往下流動,前面兩層的路徑數(shù)變小,下層的路徑數(shù)相對變多,嵌套的效果使得整體路徑數(shù)變小。因此η對于詞的分配、路徑數(shù)有很大影響。且往往在與GEM_MEAN(m)參數(shù)混合作用的情況下,這種影響會導致在實際建模中一些意想不到的問題,最經典的則是mode.levels文件的缺失。
吉布斯(Gibbs)抽樣廣泛應用于統(tǒng)計推理領域,尤其是貝葉斯后驗推理。主要通過構造一個蒙特卡羅馬爾科夫鏈使得其穩(wěn)定狀態(tài)分布等于后驗分布[2]。實際應用中如何評估馬爾科夫鏈的收斂性往往決定著推理的效果。而迭代次數(shù)的設定對鏈的收斂有著很大的影響。
通過Gibbs抽樣算法,在無限次迭代達到收斂時,可以實現(xiàn)對語料理想的建模。但正如我們在第1節(jié)所討論的,往往受限于實際應用瓶頸。因此,在前面參數(shù)調節(jié)的基礎上,我們首先通過初始參數(shù)設定,對目標語料形成了一個較為理想的層次分類,然后分析在增加迭代次數(shù)的條件下,各個層次主題的變化。在m和π參數(shù)不變的情況下(m=0.5, π=100),觀察迭代次數(shù)對詞層分配的影響,如表4所示。
表4 迭代次數(shù)對于詞層次分布的影響
在此迭代條件下,可以發(fā)現(xiàn)迭代次數(shù)對于詞分布影響很小,馬爾科夫鏈已經達到穩(wěn)定的局部收斂狀態(tài),因此,我們可以從詞層的穩(wěn)定性上來判斷鏈的收斂情況。但是,對于不同特征的語料,不同迭代次數(shù)下迭代收斂和路徑數(shù)卻是不同的,如圖4所示。
圖4 不同迭代次數(shù)下路徑數(shù)比較
橫坐標為話題,縱坐標為最終的路徑數(shù)。在其他參數(shù)一定的情況下,迭代次數(shù)越大,得分最高的mode所形成的最優(yōu)路徑便會越逼近實際主題中的真實路徑。從圖4中可以看出,在考慮到隨機算法的不確定性影響的情況下,這種變化趨勢基本上是保持一致的。一般可以分為兩種情況,第一種如主題4,5,7,9,10,路徑數(shù)隨著迭代次數(shù)增加,成一致的變化趨勢,說明通常在給定語料大小條件下,隨著迭代次數(shù)的增加,最終路徑數(shù)會趨向于一致的狀態(tài)。而對于主題如1,2,3的路徑數(shù)則表明在目前迭代情況下,樹的路徑已經趨向于一種較為穩(wěn)定的變化狀態(tài),這恰恰是我們抽樣最優(yōu)樹結構的基礎。但也有較為不一致的情況,如主題8,由于其語料特征的差異使得在實驗的10 000到100 000次的迭代范圍之內,路徑數(shù)不穩(wěn)定,并沒有達到一個較為穩(wěn)定的狀態(tài),因而三組實驗時路徑數(shù)變化很大。
還有一種情況,在一定的迭代范圍內,路徑樹已經趨向于穩(wěn)定狀態(tài),但可能陷入一種局部最優(yōu)的穩(wěn)定狀態(tài)。對此,我們不可能通過無限制的增加迭代次數(shù)來最優(yōu)化,通常通過多次重啟抽樣,或是改變抽樣中的隨機延遲值*詳情見Bleihlda算法包[http://www.cs.1rinQton.edu/~blei/topicmobdeling.html]中源碼實現(xiàn)。(SHUFFLE_LAG)或是抽樣延遲值(SAMPLE_LAG)。模型本身的超參很多,加之隨著文檔數(shù)的增加帶來鏈上變量的急速增長,隨機條件下通過有限的迭代,很難有較好的效果。因此,相比于這種概率隨機條件,啟發(fā)式的逼近調節(jié)效果往往更為顯著。
深度假設是hLDA一個最基本的假設,也反映了主題建模粒度的期望。我們給出了不同樹深度條件下,Portal News中的8個話題平均路徑數(shù)變化,如表5所示。
表5 不同深度情況下的平均路徑樹變化
隨著樹深度的增長,路徑數(shù)呈現(xiàn)快速增長的趨勢。與其他超參對于路徑數(shù)的影響比較,其增長趨勢是最快的。由此分析,在設定超參時,樹的路徑樹是我們首先需要考慮的參數(shù)。結合原理分析,我們知道hLDA的核心是基于nCRP的先驗樹結構,不管是對于文檔生成的路徑選擇還是每個節(jié)點的主題分配,首先需要對深度做假設,樹越深則CRP的嵌套效果越明顯,GEM分布層次的后驗性越強。同時主題層次越多,每次運行的穩(wěn)定性越差。
超參抽樣的目的是為了盡可能的減少手工設定超參對于最終文檔樹結構的影響[12],使得實驗結果來源于語料本身特征。但是抽樣也同樣存在一些缺點,首先其限制了我們對于超參更為靈活的、目的性的調整;其次,從算法的效率考慮,抽樣情況下的時間復雜度要高出許多。抽樣超參的選擇主要集中在主題βk的超參η,詞分配超參m和π。我們從語料中隨機選擇四個主題,進行抽樣影響因素的分析,如圖5所示。
圖5中分析了不抽樣,抽樣η(ETA),抽樣m,π(GEM)和兩者都抽樣時,四個話題路徑數(shù)的變化。一方面對于不同的抽樣選擇, 四個話題最終的文檔路徑數(shù)變化趨勢是一致的,對于抽樣η和不抽樣η的情況,路徑數(shù)變化尤其的大,相比之下GEM參數(shù)的抽樣要小點。結合3.3.1節(jié)的分析,η是nCRP過程中的基分布,控制著節(jié)點的主題,最直接的反映了文檔的后驗解釋。另一方面,在對其選擇抽樣時,相比于GEM參數(shù)m的0-1的取值區(qū)間,其可以在整個實數(shù)范圍內取值,因此隨機化的區(qū)間更大,在一定的迭代次數(shù)下,并不一定能保證逼近最優(yōu)值,因此對于整個路徑數(shù)的影響比GEM的變化更大。
圖5 不同超參的抽樣情況下的路徑樹變化
如表6所示,仍然從Portal News語料中隨機選擇四個話題,統(tǒng)計每個話題下的句子數(shù)、總詞數(shù)、詞表大小,以及相應的人工專家進行主題摘要歸納的主題數(shù)。
表6 語料大小與詞表統(tǒng)計
對表6中詞頻特征按照文檔中詞的出現(xiàn)順序進行了統(tǒng)計,以盡可能保證文檔中詞分布特點的同時,保留住其出現(xiàn)的上下文特征*主要是詞的前后關聯(lián)順序不變,有利于我們分析相同詞頻下相似詞的聚集。,如圖6所示。
圖6 四個話題詞頻分布特征
結合表6和圖6來分析語料特征因素對潛在主題數(shù)目的影響。如第二個IRSA話題,詞匯量、總詞數(shù)相對較少,占據(jù)詞匯量大部分的主題出現(xiàn)的便會少;再根據(jù)圖6中的詞頻分布情況,只有三個較為明顯的突出部分。與之作為對比的則可以看話題HCDH,首先句子數(shù)目,詞匯量以及詞表都比較大,但是我們發(fā)現(xiàn)其主題也比較少,結合詞頻特征,其詞頻高的也比較多,但為何主題數(shù)比像IRSA中的還要少,原因在于很多詞的詞頻都比較高,但是這些較高的詞頻往往同時出現(xiàn),且是關于某個特定的話題,即詞之間上下文相關度比較高。
基于全局和局部因子的統(tǒng)一分析,本文給出一個實際建模應用中的經驗化建模流程。
1) 產生hLDA模型的輸入文件以及分析語料中的特征信息。
做必要的預處理工作產生hLDA模型的輸入文件,同時分析語料的特征信息,如每個話題下文檔的大小、詞匯量、詞頻分布、關聯(lián)度等統(tǒng)計特征。
2) 評估待建模樹結構的深度。
結合語料規(guī)模、高頻詞語義相似度,以及建模目標等,來最終確定主題建模的深度。一般而言,樹的深度至少為三層,且樹層數(shù)越深,后驗推理越復雜,所需的迭代次數(shù)也越多,在這最終得到最優(yōu)結果的穩(wěn)定性也越差。
3) 是否選擇抽樣超參。
后驗推理的核心過程便是迭代最優(yōu)化,因此在足夠多次迭代下,往往抽樣是較好的選擇,但對于hLDA抽樣初始值的選擇還沒有較為成熟的算法指導,對于一般建模者而言,隨機初始化抽樣往往不能取得較好的效果。經驗表明,一般在兩種情況下,我們采取抽樣超參的策略。首先, 在人工設定超參的情況下,如果建模這對于各個因素的影響不清楚。其二,對于運行結果我們不滿意,可以通過抽樣來確定一個近似的范圍,其后在進行人工設置。在抽樣超參時應當盡可能增加超參的迭代次數(shù)。
4) 每一層的主題參數(shù)η。
我們注意到如果η太大了(如η> 8.0),后驗的節(jié)點聚集便會很大,相應的路徑數(shù)便會變得非常少,反之亦然。同時,我們還應該考慮到最后馬爾科夫鏈的收斂性,對于η的先驗評估應該盡可能的與下面GEM參數(shù)的調節(jié)趨勢一致,否則可能導致在迭代次數(shù)內評估最優(yōu)mode的失敗。
5) 路徑詞分配的m,π參數(shù)。
后驗解釋傾向于把一般的詞放在根節(jié)點,具體的詞在葉子節(jié)點。因此,根據(jù)樹的深度對m進行設置,一般三層或四層的情況如圖3和表2中所示的那樣,0.75已經是很大的值了,其將直接影響詞的層次分配和前面η參數(shù)的調節(jié)效果。
6) 非葉子層上的nCRP參數(shù)γ:
由公式(2)我們知道隨著語料數(shù)量大小的增加,每一層聚簇數(shù)目的期望是呈現(xiàn)log增長的趨勢,同時在表1中我們給出了聚簇數(shù)和γ之間的關系。我們可以再此基礎上相應的較為準確的評估γ的超參設置。
7) 樹結構先驗的參數(shù):
一個重要的參數(shù)便是SCALING_SHAPE,其直接影響著樹的形狀。通過對它的調節(jié)來對抽樣的效果進行修正。參數(shù)SCALING_SCAL控制著樹的規(guī)模比例大小。通常我們在對其形狀先驗預設的基礎上,再來調節(jié)它。
基于以上建模流程,我們參照2.2.1節(jié)的框架圖進行具體語料超參的設置,順序建模和部分的循環(huán)修正,最終實現(xiàn)最優(yōu)效果。
我們對Portal News語料下的十個話題進行了實驗,在三次修正后,對hLDA建模結果和人工總結的結果進行了比較,實驗中樹的層次為3,如表7 所示。
表7 建模結果與評估得分
續(xù)表
themelevel#1level#2hLDA#1hLDA#2scoreHCDH574.8104CQWF495.3105SBAG4106105GBAB684.8113LTFC6147.2125MACO476.784ROHN59794
其中分數(shù)主要分為五個等級,從1(差)到5(非常好)。從十個話題的實際建模效果來看,平均都在4(好)等級左右。接下來我們又選擇了ACL MultiLing 2013語料下的巴厘氣候會議(M004)話題,對比抽樣建模(10萬次迭代)、隨機建模結果以及本文提出的基于分析框架下的建模,給出一個可視化的建模樹結構,每個樹節(jié)點就是一個主題,我們選取了每個主題上高頻詞來反映這個主題的特征,如果某個主題節(jié)點上詞數(shù)太少則為了樹結構的展現(xiàn)效果,我們會用其父節(jié)點上的詞填充。
如圖7所示,整體上來看,兩者樹結構顯得比較單一、少分支,這反映出了建模聚類結構過分的聚集在前面主要路徑上,這不符合我們實際語料中子主題的特點。對于抽樣建模(左)情況下,中間層詞幾乎和其父節(jié)點一致,根據(jù)前面所說,其表示中間層次的詞分配極少,大部分詞集中在根節(jié)點,這種抽樣結果顯然不能夠很好的解釋語料特點。對于隨機抽樣情況,雖然具有一定的層次樹結構,但是各層詞明顯缺乏主題意義上的聚集。
圖8則是經驗化建模流程指導下的層次樹結構。如根節(jié)點展示了這個主題的一個概括性話題主旨,[巴厘]、[大會]、上關于[全球]氣體[排放量]的[協(xié)議]問題。接下來在第二層的左邊第一個節(jié)點顯示的是各個參與國家[美國]、[聯(lián)合國]、[歐盟]等關于[溫室氣體]排放的談判。第二層左邊第二個節(jié)點顯示關于[同意]、[接受]大會上設定的一些[決議]等。如此分析接下來分別是美國,聯(lián)合國其他國家關于京都議定書上結果的意見;關于溫室氣體排放引發(fā)的一系列討論;中國和一些發(fā)展中國家以及歐盟對線路圖的立場以及時間規(guī)劃等等。此處由于文檔形成的樹結構很大,因此我們只選取了幾個主要的節(jié)點路徑上的主要的一些詞。同樣和人工總結的子主題進行比較發(fā)現(xiàn),其效果是非常好的。
圖8 建模結果樹狀結構圖
我們針對在實際主題建模過程中的建模效果較差,也大多缺乏具體可依據(jù)的建模策略的問題,提出了基于關鍵因素分析的統(tǒng)一分析建??蚣?,并在此框架基礎上,提出了一個統(tǒng)一的建模流程,實驗表明取得了很好的效果。但我們也采用了人工評估的方法進行建模效果的評估,這在一定程度上受個人主觀性所限。未來仍然有很多值得努力的方向,如關鍵因子啟發(fā)式的自調節(jié),如何自動對建模結果進行合理評估等。
[1] Blei D M, Griffiths T L, Jordan M I, et al. Hierarchical topic models and the nested Chinese restaurant process[M]. Advances in Neural Information Processing Systems 2004,(16): 106-114.
[2] Blei, D M, Griffiths, T L, Jordan, M I. The nested Chinese restaurant process and Bayesian nonparametric inference of topic hierarchies[J]. Journal of the ACM (jACM), 2010,57(2):1-30.
[3] Asli C, Dilek H. A hybrid hierarchical model for multi-document summarization[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. 2010(7): 815-824.
[4] 劉平安. 基于HLDA模型的中文多文檔摘要技術研究[D].北京郵電大學碩士論文, 2012.
[5] Geman, Stuart, Donald Geman. Stochastic relaxation, Gibbs distributions, and the Bayesian restoration of images[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on 1984(6): 721-741.
[6] Smith, Adrian FM, Gareth O. Roberts. Bayesian computation via the Gibbs sampler and related Markov chain Monte Carlo methods[J]. Journal of the Royal Statistical Society. Series B (Methodological), 1993: 3-23.
[7] Blei D M. Probabilistic topic models[J].Communications of the ACM, 2012, 55(4): 77-84.
[8] Joon H K, Dong W K, Suin K, et al. Modeling topic hierarchies with the recursive Chinese restaurant process[C]//Proceedings of the 21st ACM international conference on information and knowledge management, ACM, New York,2012)(10): 783-792.
[9] Paisley J, Wang C, Blei D M, et al. Nested Hierarchical Dirichlet Processes[C]//Proceedings of arXiv preprint arXiv, 2012(5).
[10] Rodriguez Abel, Dunson D B. Nonparametric Bayesian models through probit stick-breaking processes[M]. Bayesian Analysis. 2011,6(1): 145-177.
[11] Ferguson Thomas S. A Bayesian analysis of some nonparametric problems[J]. The annals of statistics, 1973: 209-230.
[12] Bernardo José M, Adrian FM Smith. Bayesian theory[M]. Wiley, 2009.