李昌亞,劉方方
(上海大學(xué) 計(jì)算機(jī)工程與科學(xué)學(xué)院,上海 200444)
社會(huì)科學(xué)文獻(xiàn),簡(jiǎn)稱社科文獻(xiàn),是指記載有關(guān)社會(huì)科學(xué)知識(shí)、信息的一切物質(zhì)載體。在現(xiàn)代信息社會(huì)中,社科文獻(xiàn)數(shù)量龐大,內(nèi)容廣泛,種類繁多,載體多樣,發(fā)展速度快[1],尤其是社科文獻(xiàn)領(lǐng)域下的專題文獻(xiàn)主題交叉比較明顯。隨著社會(huì)發(fā)展,文獻(xiàn)中會(huì)不斷出現(xiàn)很多新詞,很多詞語會(huì)具有特定含義,如“四化并舉”、“黃金水道”、“成本化解”等。這種情況僅僅通過人工分類,或者單純地依靠機(jī)器自動(dòng)進(jìn)行主題提取、分類,不能很好地提取出文獻(xiàn)的主題和類別。
對(duì)于處理自然語言中的問題,主題模型是一種很常見和成熟的技術(shù)。主題模型的起源是隱性語義索引(latent semantic analysis,LSA)[2],嚴(yán)格意義上講,隱性語義索引并不是真正的主題模型,但是其基本思想促進(jìn)了主題模型的發(fā)展。概率隱性語義索引(probabilistic latent semantic analysis,pLSA)[3]就是由LSA發(fā)展而來的一個(gè)基于概率模型的主題模型。Blei等以pLSA為基礎(chǔ)提出的LDA(latent Dirichlet allocation)[4]是一個(gè)完全的概率生成模型。近年來,業(yè)內(nèi)出現(xiàn)的許多概率模型都是以LDA為基礎(chǔ),結(jié)合不同的業(yè)務(wù)進(jìn)行改進(jìn)的,但是這些算法都不太適合對(duì)社科文獻(xiàn)領(lǐng)域類的文檔集進(jìn)行主題提取。
因此,為了能夠高效、準(zhǔn)確地提取社科文獻(xiàn)領(lǐng)域類中文檔集的主題,文中提出一種以LDA模型為基礎(chǔ),結(jié)合社科文獻(xiàn)的特點(diǎn),改進(jìn)主題建模過程的主題建模方法。
LDA主題模型,本質(zhì)思想是以概率為基礎(chǔ)對(duì)文本進(jìn)行主題建模。它獨(dú)立于文本自身特點(diǎn),所以對(duì)于不同領(lǐng)域的業(yè)務(wù)需求,如果直接應(yīng)用LDA算法進(jìn)行主題建模,結(jié)果都是不夠精準(zhǔn)的。因此,提出了很多結(jié)合不同的業(yè)務(wù)需求,對(duì)LDA進(jìn)行相應(yīng)改進(jìn)的算法。首先是將LDA模型運(yùn)用到短文本領(lǐng)域,如微博、用戶評(píng)論等,它們對(duì)LDA模型本身沒有過多的改進(jìn),而是偏向?qū)DA模型的應(yīng)用。張志飛等[5]利用LDA建模后的主題特點(diǎn)對(duì)短文本進(jìn)行分類;高明等[6]將LDA主題模型應(yīng)用在對(duì)微博的個(gè)性推薦方面。將LDA模型應(yīng)用到博客、帖子和話題追蹤和預(yù)測(cè)等方面[7-8]都有很好的價(jià)值,但是對(duì)于該論文背景中篇幅較長(zhǎng)、量比較大的社科文獻(xiàn),這些方法明顯不太適合。
其次,主要是在LDA模型的基礎(chǔ)上引入新的參數(shù)或者約束條件。何錦群[9]提出對(duì)文檔集的所有隱藏主題進(jìn)行分類,即主題層之上再引入一層表示主題的類別,該算法適合文檔集主題分布比較廣泛的情形,但是對(duì)于主題交叉和特征詞比較明顯的文檔集效果不太明顯。SA-LDA[10]算法和SRC-LDA[11]中利用句法分析構(gòu)建語料庫(kù)的約束條件,從而引導(dǎo)主題建模,但該算法使用于短文本,不太適合具有篇幅較長(zhǎng)的文檔。
另外,還有就是從LDA概率模型的基本原理出發(fā),認(rèn)為概率模型主要受高頻詞的影響,會(huì)使得建模后的主題不夠明確。胡勇軍等[12]利用LDA高頻詞作為短文本分類的空間模型的特征向量。張小平[13]在建模過程中選擇降低高頻詞的權(quán)重,這個(gè)改進(jìn)雖然可以降低常用高頻詞匯對(duì)建模的影響,但是對(duì)于那些主題詞比較明顯、具有很多新詞新義的文檔集依然存在不足。雖然從整體上降低了常用高頻詞的干擾,但是不能提高特征詞和新詞在主題建模過程中的重要性。
因此,文中提出一種根據(jù)文檔集自身的主題特征進(jìn)行特征詞標(biāo)注,然后在LDA建模過程中增加主題特征詞權(quán)重的建模方法,從而使得建模結(jié)果的主題分布更加準(zhǔn)確,更加符合文檔集自身的特點(diǎn)。
LDA是一種非監(jiān)督學(xué)習(xí)技術(shù),可以用來識(shí)別大規(guī)模文檔集(document collection)或語料庫(kù)(corpus)中潛藏的主題信息[14-15]。LDA模型從實(shí)際情況出發(fā),一個(gè)文檔由多個(gè)隱含主題隨機(jī)組成,而每個(gè)主題又可以由文檔中的多個(gè)詞語進(jìn)行表示(如圖1所示)。因此,可將一篇文檔表示為隱含主題的概率分布(doc-topic),而每一個(gè)隱含主題又可以看作詞語的概率分布(topic-word)。這種思想有利于大規(guī)模文檔集處理中的空間降維,即把文檔映射到topic層面上。LDA在建立兩個(gè)分布時(shí),采用了詞袋(bag of words)[16]的方法,這種方法忽略了每一篇文檔中句子的語法、次序,以及詞之間的關(guān)系,文檔中每個(gè)詞語的出現(xiàn)都是相互獨(dú)立的。
圖1 文檔-主題-詞語關(guān)系
LDA建模的基本層次結(jié)構(gòu)是文檔-主題-詞語。簡(jiǎn)單理解為:每篇文檔都是由若干個(gè)詞語組成的,同時(shí)每篇文檔都有潛在的幾個(gè)相關(guān)的主題,而組成這篇文檔所有的有用詞語可以看成是這幾個(gè)主題詞對(duì)應(yīng)的一部分相關(guān)的詞語。因此,認(rèn)為文檔與主題之間的概率分布(doc-topic)是多項(xiàng)分布Z~Multinational(θm),主題與詞語之間的概率分布(topic-word)也是多相分布W~Multinational(ψk)。LDA引入了Dirichlet分布作為多項(xiàng)分布的先驗(yàn)分布進(jìn)行求解,LDA模型的結(jié)構(gòu)如圖2所示。
圖2 LDA模型結(jié)構(gòu)
利用LDA模型[17]對(duì)文檔集主題模型進(jìn)行生成可以理解為對(duì)整個(gè)文檔集中的詞語進(jìn)行生成,其具體過程如下:
(1)建模過程中,首先給定α和β的值,及主題K的取值。對(duì)于α和β通常根據(jù)經(jīng)驗(yàn)取值。
(3)確定文檔中的詞語。首先,在給定主題zij的情況下,根據(jù)β值結(jié)合
(4)重復(fù)步驟2和步驟3,直到完成對(duì)一篇文檔的所有詞語的生成,再到所有文檔的生成。
由LDA模型的建立過程可知,對(duì)于圖2中參數(shù)的理解,可以得到所有變量的聯(lián)合分布公式:
p(Zm,n|θm)p(θm|α)p(ψk|β)
(1)
利用上述LDA模型對(duì)社科文獻(xiàn)領(lǐng)域的文檔集建模后的部分主題結(jié)果如表1所示。結(jié)果表明,同一個(gè)主題下的所有主題詞明顯是同一類別的詞語,但是部分主題中仍然存在一些相關(guān)度很低的詞語,而且對(duì)于一些文檔集中出現(xiàn)次數(shù)較少且很重要的詞語-主題特征詞,明顯是不會(huì)出現(xiàn)在主題詞中或者位序很靠后。
表1 LDA模型建模后的主題類別
LDA模型的超參數(shù)估計(jì)通常采用EM算法和Gibbs Sampling算法,其中Gibbs Sampling算法通過迭代采樣來逼近真實(shí)的概率分布[18],實(shí)現(xiàn)相對(duì)簡(jiǎn)單,而且應(yīng)用較廣泛。
在實(shí)際應(yīng)用過程中,從文檔集的輸入到最終主題模型結(jié)果的輸出,對(duì)文檔集預(yù)處理、分詞之后直接應(yīng)用Gibbs采樣對(duì)文檔集進(jìn)行LDA模型的實(shí)現(xiàn)處理,其步驟如下:
Step1:輸入文檔集進(jìn)行預(yù)處理、分詞;
Step2:利用Gibbs Sampling算法對(duì)分詞后的文本進(jìn)行迭代采樣;
Step3:迭代完成,輸出主題模型結(jié)果。
整個(gè)模型實(shí)現(xiàn)過程并沒有考慮到文檔集自身的主題特點(diǎn),而是對(duì)預(yù)處理、分詞之后的文檔集直接利用Gibbs Sampling算法進(jìn)行實(shí)現(xiàn)。這種做法會(huì)造成主題分布偏向文檔中那些常用的高頻詞,忽略了文檔中那些主題特征明顯的詞語在建模過程中的影響。
(2)
(3)
(4)
在實(shí)際處理過程中,超參數(shù)α和β是作為常量處理的。式(3)表示文檔m下的主題k的分布情況,其中nm.k表示文檔m下主題k出現(xiàn)的次數(shù),分母表示文檔m中所有主題出現(xiàn)次數(shù)的總和。式(4)表示主題k下的詞w的分布情況,其中nk,w表示主題k下的詞w出現(xiàn)的次數(shù),分母表示主題k中所有詞語出現(xiàn)次數(shù)的總和。
根據(jù)Gibbs Sampling的公式可以得出,nm.k和nk,w是對(duì)所有的詞或者主題通過詞自身出現(xiàn)的次數(shù)或者主題被記錄次數(shù)的統(tǒng)計(jì),而并沒有考慮詞本身對(duì)該篇文檔的重要性。由于高頻詞在主題中和文檔中占有的比例都較大,導(dǎo)致主題的分布偏向高頻詞的主題傾斜。對(duì)于那些主題特征比較明顯的詞語,出現(xiàn)的次數(shù)比較少,就會(huì)在建模過程中低作用化,甚至沒有作用。
如果在利用Gibbs采樣過程中,對(duì)于采樣那些主題特征比較明顯的詞語時(shí),不僅考慮統(tǒng)計(jì)次數(shù),而且考慮它們?cè)谖臋n中的權(quán)重值,那么就能增加這些詞語在建模過程中的重要性。如表1中的主題3的“文化產(chǎn)業(yè)”和“世博會(huì)”、主題4的“金融機(jī)構(gòu)”、主題5的“知識(shí)產(chǎn)權(quán)”、主題6中的“長(zhǎng)江三角洲”等詞語,如果增加這些詞語的權(quán)重值,那么在模型結(jié)果中,它們對(duì)應(yīng)的主題詞位序就會(huì)上升,主題詞間相關(guān)度也會(huì)增加。
由于LDA模型是一種概率模型,建模過程中是以詞頻作為基礎(chǔ),所以對(duì)主題的采樣結(jié)果會(huì)偏向高頻詞。這種建模方法是不符合社科文獻(xiàn)主題分布特點(diǎn)的。為了能夠?qū)ι缈祁愇墨I(xiàn)提取更加準(zhǔn)確的主題模型,提出一種結(jié)合文檔集自身隱含的主題特征,改進(jìn)LDA建模過程中采樣策略的方法,然后應(yīng)用該方法對(duì)文檔集進(jìn)行主題的提取。
主要介紹的是對(duì)建模過程中的改進(jìn)方法,不同于改進(jìn)前的LDA建模過程。改進(jìn)后的建模過程中將考慮文檔集自身的主題特點(diǎn),即在文檔集預(yù)處理之后,先進(jìn)行初步采樣,根據(jù)文檔集的特征詞標(biāo)記文檔中的詞語信息,形成一個(gè)主題引導(dǎo)詞庫(kù),然后再利用主題引導(dǎo)詞庫(kù)計(jì)算特征詞的權(quán)重,從而達(dá)到增加主題引導(dǎo)詞對(duì)主題建模時(shí)的影響。與之前的三步實(shí)現(xiàn)過程比較,增加了相應(yīng)的四個(gè)處理步驟,改進(jìn)后的總體實(shí)現(xiàn)步驟如下:
Step1:輸入文檔集進(jìn)行預(yù)處理、分詞;
Step2:初步采樣;
Step3:特征詞標(biāo)注;
Step4:獲取主題引導(dǎo)詞庫(kù);
Step5:結(jié)合步驟2、4,計(jì)算引導(dǎo)詞權(quán)重;
Step6:利用Gibbs Sampling算法對(duì)分詞后的文本進(jìn)行迭代采樣;
Step7:迭代完成,輸出主題模型結(jié)果。
在利用Gibbs采樣之前對(duì)預(yù)處理、分詞后的文檔集進(jìn)行初步采樣、特征詞標(biāo)注、計(jì)算引導(dǎo)詞權(quán)重三個(gè)過程。通過這三個(gè)過程可以提取出文檔集中主題特征比較明顯的詞語信息,然后利用這些信息再進(jìn)行Gibbs采樣。
初步采樣:記錄文檔集中文檔數(shù)量和每篇文檔中詞語的數(shù)量。
特征詞標(biāo)記:標(biāo)記每一個(gè)主題特征詞在每一篇文檔中出現(xiàn)的次數(shù)。該過程的結(jié)果形成一個(gè)主題引導(dǎo)詞庫(kù),詞庫(kù)中的詞都是文檔中出現(xiàn)頻率較小的,而且是文檔主題導(dǎo)向的關(guān)鍵詞。
計(jì)算引導(dǎo)詞權(quán)重:根據(jù)初步采樣的信息和特征詞標(biāo)記的結(jié)果,計(jì)算主題特征詞中每一個(gè)詞在每篇文檔中對(duì)應(yīng)的權(quán)重值。
由于引導(dǎo)詞庫(kù)中不同的詞語出現(xiàn)的頻率不一樣,而且對(duì)于不同文檔的重要程度也不一樣,故借鑒TF-IDF[19]的思想和一個(gè)可變參數(shù)δ對(duì)引導(dǎo)詞進(jìn)行權(quán)值計(jì)算。
(5)
計(jì)算好主題引導(dǎo)詞對(duì)應(yīng)的權(quán)重之后,在Gibbs Sampling過程中,在求主題和詞的分布時(shí)加上該詞對(duì)應(yīng)的權(quán)重值即可。
由于該方法中考慮了文檔集自身的特點(diǎn),增加了主題特征詞在采樣過程中的重要性,所以會(huì)增加主題特征詞在文檔主題分布中的影響,最終使建模結(jié)果更加準(zhǔn)確,文檔集的主題分布更加精準(zhǔn)。
改進(jìn)后的建模方法較改進(jìn)前的建模過程在Gibbs采樣前增加了一些與計(jì)算主題特征詞相關(guān)的處理過程。因此,改進(jìn)后算法的基本步驟如下:
步驟1:輸入分詞后的每一篇文檔,一行為一篇文檔,同時(shí)輸入α、β、δ、主題數(shù)K,以及迭代次數(shù)。
步驟2:掃描每一篇文檔的每一個(gè)詞語和特征詞庫(kù)進(jìn)行比較,并記錄每篇文檔詞的個(gè)數(shù)dm,如果不是特征詞,循環(huán)此步驟,直至所有的文檔都被掃描完。
步驟5:Gibbs采樣,采樣過程中統(tǒng)計(jì)每篇文檔中每個(gè)詞語的頻率時(shí),要和特征詞進(jìn)行比對(duì),如果是,需要在主題特征詞中查找對(duì)應(yīng)的權(quán)重,并且加上該詞對(duì)應(yīng)的權(quán)值。
步驟6:循環(huán)執(zhí)行步驟5,直至結(jié)果收斂,即迭代次數(shù)完成。
步驟7:輸出主題建模結(jié)果。
(6)
(7)
(8)
已知文檔集中“文化產(chǎn)業(yè)”、“世博會(huì)”、“金融機(jī)構(gòu)”、“知識(shí)產(chǎn)權(quán)”、“長(zhǎng)江三角洲”等詞語都屬于文檔集中文檔的主題特征詞語,它們?cè)谥黝}建模過程中應(yīng)該起著很重要的作用。為了增加這些詞語的重要性,在進(jìn)行初步采樣時(shí),首先把這些詞作為主題特征詞進(jìn)行標(biāo)記加入主題引導(dǎo)詞庫(kù)中,然后計(jì)算它們各自在每篇文章的權(quán)重值,最后在進(jìn)行Gibbs采樣的過程中,掃描到這些詞語后,在統(tǒng)計(jì)頻率時(shí)加入它們對(duì)應(yīng)的權(quán)重值,即式(7)和式(8)的實(shí)現(xiàn)過程。
按照改進(jìn)后的實(shí)現(xiàn)步驟進(jìn)行相應(yīng)的實(shí)驗(yàn)得到建模結(jié)果,其中包含了主題特征詞的部分主題分布,與表1中展示的結(jié)果相比,那些主題引導(dǎo)詞庫(kù)中的主題特征詞在主題詞中的位序明顯有所提高。部分主題分布對(duì)比的情況如下:
主題3:“文化產(chǎn)業(yè)”、“世博會(huì)”分別上升了1個(gè)位序和3個(gè)位序;
主題4:“金融機(jī)構(gòu)”上升了5個(gè)位序;
主題5:“知識(shí)產(chǎn)權(quán)”上升了7個(gè)位序;
主題6:“長(zhǎng)江三角洲”上升了4個(gè)位序。
通過上述的建模過程,可以促使采樣的主題分布偏向主題特征詞的方向,同時(shí)那些常見高頻詞的影響就會(huì)有所降低,最終使文檔的主題建模更加準(zhǔn)確。
實(shí)驗(yàn)主要通過應(yīng)用LDA模型改進(jìn)建模方法前后兩種情況的對(duì)比進(jìn)行。
實(shí)驗(yàn)中文檔集使用的是社科文獻(xiàn)領(lǐng)域類的專題文獻(xiàn)。對(duì)于文檔集的數(shù)量大小,依次是100篇、1000篇、5000篇、10000篇。α的默認(rèn)值是1/K(K是主題數(shù)量,取值為20);β一般設(shè)置為0.02;δ默認(rèn)取0.02;吉布斯采樣的迭代次數(shù)一般設(shè)置為2000。
為了保證實(shí)驗(yàn)的對(duì)比性,其他參數(shù)都是相同的。即相同文檔集下,α、β、主題數(shù)K,以及迭代次數(shù)都是一樣的。
對(duì)相同的文檔主題特征詞增加權(quán)重值前后在主題建模后的模型結(jié)果中的情況進(jìn)行對(duì)比。圖3展示了主題特征詞(t1:文化產(chǎn)業(yè),t2:世博會(huì),t3:金融機(jī)構(gòu),t4:知識(shí)產(chǎn)權(quán),t5:長(zhǎng)江三角洲)在對(duì)應(yīng)主題中的概率值的變化。結(jié)果表明,這些主題特征詞增加權(quán)重后,其概率值明顯有所增加,即它們?cè)诮_^程中對(duì)主題分布的影響有所增強(qiáng)。
圖3主題特征詞概率值對(duì)比
兩種不同建模方法得到的主題模型中,對(duì)同一個(gè)主題下的主題詞之間的相似度,即主題的明確度進(jìn)行對(duì)比,相似度越高,文檔主題提取的越明確。圖4展示了兩種模型結(jié)果中部分主題的主題詞相似度對(duì)比情況。
圖4 主題的主題詞相似度對(duì)比
圖5為在兩種不同方法下建模后文檔主題之間的相似度的對(duì)比情況。結(jié)果表明,主題之間相似度越低,文檔集主題提取的類別越準(zhǔn)確。
圖5主題之間的相似度對(duì)比
通過對(duì)主題引導(dǎo)詞的加權(quán),提高主題引導(dǎo)詞在文檔中的重要性,從而影響文檔和文檔集的主題分布情況,最終使主題建模的結(jié)果更加符合文檔集自身的主題分布特點(diǎn)。實(shí)驗(yàn)表明,在主題建模過程中增加文檔集中主題特征詞的權(quán)重進(jìn)行主題建模的方法是行之有效的。
算法中對(duì)主題引導(dǎo)詞加權(quán)時(shí)需要用到的引導(dǎo)參數(shù)δ,依據(jù)經(jīng)驗(yàn)選取了0.02。在具體的應(yīng)用中,可以根據(jù)主題引導(dǎo)詞對(duì)文檔集的重要性進(jìn)行適當(dāng)改變,δ值越大,引導(dǎo)詞對(duì)主題的貢獻(xiàn)率就越大,對(duì)主題的分布就越偏向該引導(dǎo)詞。
提出一種針對(duì)社科文獻(xiàn)領(lǐng)域類的文檔集的主題建模方法。首先利用文檔集中主題特征詞處理得到主題引導(dǎo)詞庫(kù),然后計(jì)算主題引導(dǎo)詞權(quán)重并將其權(quán)重值增加到建模過程中,引導(dǎo)模型的主題分布,最后得到符合文檔集自身主題特點(diǎn)的建模結(jié)果。
實(shí)驗(yàn)結(jié)果表明,該方法可以成功引導(dǎo)主題分布的情況,達(dá)到建模后的主題更加符合文檔集本身主題分布特點(diǎn)的目的。
[1] 王 昱.社科文獻(xiàn)的特點(diǎn)、作用及省級(jí)社科文獻(xiàn)資源建設(shè)[J].青海社會(huì)科學(xué),1994(6):83-89.
[2] DEERWESTER S,DUMAIS S T,FURNAS G W,et al.Indexing by latent semantic analysis[J].Journal of the Association for Information Science and Technology,1990,41(6):391-407.
[3] DAN O.Probabilistic latent semantic analysis[C]//Proceed-ings of uncertainty in artificial intelligence.[s.l.]:[s.n.],1999:289-296.
[4] BLEI D M,NG A Y,JORDAN M I.Latent Dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022.
[5] 張志飛,苗奪謙,高 燦.基于LDA主題模型的短文本分類方法[J].計(jì)算機(jī)應(yīng)用,2013,33(6):1587-1590.
[6] 高 明,金澈清,錢衛(wèi)寧,等.面向微博系統(tǒng)的實(shí)時(shí)個(gè)性化推薦[J].計(jì)算機(jī)學(xué)報(bào),2014,37(4):963-975.
[7] YANO T,COHEN W W,SMITH N A.Predicting response to political blog posts with topic models[C]//Human language technologies:the2009conference of the north american chapter of the association for computational linguistics.[s.l.]:Association for Computational Linguistics,2009:477-485.
[8] 張曉艷,王 挺,梁曉波.LDA模型在話題追蹤中的應(yīng)用[J].計(jì)算機(jī)科學(xué),2011,38(10A):136-139.
[9] 何錦群.LDA在信息檢索中的應(yīng)用研究[D].天津:天津理工大學(xué),2014.
[10] 余維軍,劉子平,楊衛(wèi)芳.基于改進(jìn)LDA主題模型的產(chǎn)品特征抽取[J].計(jì)算機(jī)與現(xiàn)代化,2016(11):1-6.
[11] 彭 云,萬常選,江騰蛟,等.基于語義約束LDA的商品特征和情感詞提取[J].軟件學(xué)報(bào),2017,28(3):676-693.
[12] 胡勇軍,江嘉欣,常會(huì)友.基于LDA高頻詞擴(kuò)展的中文短文本分類[J].現(xiàn)代圖書情報(bào)技術(shù),2013(6):42-48.
[13] 張小平,周雪忠,黃厚寬,等.一種改進(jìn)的LDA主題模型[J].北京交通大學(xué)學(xué)報(bào):自然科學(xué)版,2010,34(2):111-114.
[14] 施乾坤.基于LDA模型的文本主題挖掘和文本靜態(tài)可視化的研究[D].南寧:廣西大學(xué),2013.
[15] 倪麗萍,劉小軍,馬馳宇.基于LDA模型和AP聚類的主題演化分析[J].計(jì)算機(jī)技術(shù)與發(fā)展,2016,26(12):6-11.
[16] WALLACH H.Topic modeling:beyond bag of words[C]//Proceedings of the23rd international conference on machine learning.Pittsburgh,Pennsylvania:[s.n.],2006.
[17] WEI Xing,CROFT W B.LDA-based document models for Ad-hoc retrieval[C]//Proceedings of the29th annual international ACM SIGIR conference on research and development in information retrieval.New York:ACM,2006:178-185.
[18] NEVADA L V. Fast collapsed Gibbs sampling for latent Dirichlet allocation[C]//Proceeding of the14th ACM SIGKDD international conference on knowledge discovery and data mining.New York,USA:ACM,2008:569-577.
[19] SALTON G. Introduction to modern information retrieval[M].New York:McGraw-Hill Book Company,1983.