彭仁杰,余正濤,高盛祥,李云龍,郭軍軍,趙培蓮
(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,昆明 650500)(昆明理工大學(xué) 云南省人工智能重點(diǎn)實(shí)驗(yàn)室,昆明 650500) E-mail:ztyu@hotmail.com
隨著互聯(lián)網(wǎng)的迅速發(fā)展,互聯(lián)網(wǎng)信息已經(jīng)在人民生活中扮演者越來(lái)越重要的角色.微博上的信息傳播及時(shí),擴(kuò)散速度快,許多案件的發(fā)生和討論都是從微博上開(kāi)始發(fā)生,并且引起了廣大網(wǎng)民的討論,導(dǎo)致微博成為新的輿情事件產(chǎn)生和民意反映的集聚地.近年來(lái),司法部門(mén)對(duì)于新聞?shì)浨橐仓饾u重視起來(lái).通過(guò)自然語(yǔ)言處理技術(shù)處理與法律相關(guān)的數(shù)據(jù),有利于提升相關(guān)部門(mén)的工作效率,并且能夠了解當(dāng)下廣大網(wǎng)民所關(guān)心關(guān)注的話(huà)題,能夠更好的引導(dǎo)公眾的輿論和引導(dǎo)事件往有利的方向發(fā)展.
為了得到與案件相關(guān)的話(huà)題,其關(guān)鍵就是在于利用案件要素得到與案件關(guān)聯(lián)緊密的話(huà)題.當(dāng)前,在話(huà)題發(fā)現(xiàn)方面已有很多研究,代表性方法有基于聚類(lèi)算法的話(huà)題發(fā)現(xiàn)方法[1-5]和基于潛在狄立克雷分配(latent Dirichlet allocation,LDA)主題模型的熱點(diǎn)話(huà)題發(fā)現(xiàn)方法[6-9].David Blei提出了LDA(Latent Dirichlet Allocation)模型[10],該模型是基于詞袋模型,考慮詞條共現(xiàn),來(lái)生成文檔的話(huà)題分布,在長(zhǎng)文本中取得了很好的效果;但是由于短文本長(zhǎng)度較短,詞語(yǔ)之間聯(lián)系弱,文檔級(jí)水平的詞共現(xiàn)信息缺少.因此在傳統(tǒng)狄利克雷分布LDA模型(Latent Dirichlet Allocation)的基礎(chǔ)上,出現(xiàn)了一系列的改進(jìn)模型,He Li等人提出了基于潛在狄利克雷分配的分層分類(lèi)模型[11],使用LDA模型作為特征提取技術(shù)來(lái)提取潛在話(huà)題,以減少數(shù)據(jù)稀疏性的影響,并構(gòu)建與語(yǔ)料庫(kù)關(guān)聯(lián)的主題特征向量.Chien J T等人提出了一種新的層次分割模型(HSM)[12],通過(guò)上下文信息來(lái)反映句子與話(huà)題間的相似度.Jen-Tzung Chien提出一種基于貝葉斯稀疏學(xué)習(xí)的方法來(lái)為稀疏話(huà)題模型選擇顯著詞匯特征,以此來(lái)建立所選相關(guān)詞的潛在話(huà)題模型[13].Xiaohui Yan等人提出了基于Biterm的話(huà)題模型BTM(Bitrem Topic Model)[14],能在一定程度上針對(duì)共現(xiàn)對(duì)bitrem建模緩解詞條共現(xiàn)的稀疏性,在微博文本話(huà)題發(fā)現(xiàn)中取得了很好的效果.李衛(wèi)疆等[15]引入BTM話(huà)題模型來(lái)處理微博短文本的同時(shí)整合了K-means聚類(lèi)算法來(lái)對(duì)BTM模型所發(fā)現(xiàn)的話(huà)題進(jìn)行聚類(lèi),緩解了短文本的數(shù)據(jù)稀疏性問(wèn)題,提高了話(huà)題的質(zhì)量.由于傳統(tǒng)的話(huà)題模型是對(duì)整個(gè)文本進(jìn)行話(huà)題抽樣,所以得到的話(huà)題具有發(fā)散性,與所期望的案件關(guān)聯(lián)度不大,且部分短語(yǔ)被切分為多個(gè)個(gè)體詞后會(huì)引起額外的重現(xiàn),使得生成的話(huà)題中可能出現(xiàn)一些無(wú)關(guān)詞匯從而導(dǎo)致話(huà)題可讀性下降,對(duì)于案件領(lǐng)域話(huà)題發(fā)現(xiàn)不適用.
在案件領(lǐng)域中,傳統(tǒng)的話(huà)題模型在進(jìn)行話(huà)題建模的時(shí)候都是以數(shù)理統(tǒng)計(jì)為基礎(chǔ)的,忽略了詞項(xiàng)之間的語(yǔ)義關(guān)系,得到的話(huà)題都太過(guò)發(fā)散,有很多噪聲話(huà)題,并且得到的話(huà)題與案件關(guān)聯(lián)不緊密;同時(shí),話(huà)題中詞的優(yōu)劣直接影響話(huà)題的可解讀性,話(huà)題詞之間的相關(guān)性方面有很大的局限性,導(dǎo)致案件話(huà)題生成質(zhì)量不高,無(wú)法對(duì)案件話(huà)題進(jìn)行很好的表述.通過(guò)對(duì)大量的案件相關(guān)微博和案件的構(gòu)成進(jìn)行分析,發(fā)現(xiàn)案件是由“人、事、物、時(shí)、空”等多個(gè)要素構(gòu)成的;同時(shí),這些案件要素也會(huì)在微博中出現(xiàn),因此,本文提出了一種利用基于案件要素對(duì)BTM話(huà)題模型進(jìn)行改進(jìn)的方法,將通過(guò)詞嵌入向量獲得的語(yǔ)義信息與原始主題模型相結(jié)合,考慮文檔詞與案件要素的相似特征頻率,更好的獲得微博話(huà)題中與案件更相關(guān)的話(huà)題,如表1所示,再選取概率較高的話(huà)題對(duì)案件話(huà)題進(jìn)行表征;同時(shí)計(jì)算案件話(huà)題的表征與文本詞進(jìn)行相關(guān)性和案件要素與文本詞的相似度,得到案件話(huà)題詞集.
表1 案件相關(guān)微博舉例Table 1 Examples of case Weibo
本文的創(chuàng)新包括兩個(gè)方面:
1)通過(guò)提取案件要素與文檔詞的相似特征來(lái)對(duì)原始的主題模型進(jìn)行改進(jìn),優(yōu)化主題模型得到的概率矩陣,得到與案件相關(guān)的話(huà)題詞,選取概率較高的詞來(lái)進(jìn)行話(huà)題表征;
2)得到了案件相關(guān)候選詞后,提利用候選詞與文本詞之間的相關(guān)性和案件要素與文本詞之間的相似度,得到案件話(huà)題詞集,解決了生成的話(huà)題與案件相關(guān)性不高,可解釋性比較差,話(huà)題生成質(zhì)量不高的問(wèn)題.
案件是由多種要素構(gòu)成的[16],通過(guò)案件要素,可以對(duì)案件進(jìn)行表述,關(guān)于案件構(gòu)成要素的理論或說(shuō)法,主要有“五要素論”、“七要素論”、“縱向動(dòng)態(tài)和橫向靜態(tài)要素論”、“信息化偵查要素論”等.由于微博文本為短文本,且沒(méi)有太多事實(shí)描述,通過(guò)對(duì)大量的案件相關(guān)的微博進(jìn)行分析,提取出了與犯罪事件相關(guān)的人、事、物、空等基本結(jié)構(gòu)要素.將這些案件要素作為監(jiān)督,可以得到與案件關(guān)系緊密的話(huà)題.
案件要素指導(dǎo)下的話(huà)題發(fā)現(xiàn)方法分為案件相關(guān)話(huà)題發(fā)現(xiàn)和案件相關(guān)話(huà)題的詞的優(yōu)化兩部分,其關(guān)鍵步驟如圖1所示.案件相關(guān)話(huà)題的生成:輸入微博文本,通過(guò)BTM話(huà)題模型訓(xùn)練得到話(huà)題的概率分布Z,通過(guò)對(duì)案件文本進(jìn)行分析,獲取案件要素信息C={C1,C2,…,Cm},微博文本D={T1,T2,…,Tn}其中Ti代表文本中的詞,Ci代表組成案件的要素,m代表案件描述的長(zhǎng)度,e∈E,E為案件要素的集合.通過(guò)詞嵌入將文檔詞和要素嵌入為詞級(jí)的向量空間表示,再經(jīng)過(guò)語(yǔ)義表征計(jì)算兩者的語(yǔ)義相似度,得到特征相似矩陣,再與話(huà)題概率矩陣相乘得到案件相關(guān)話(huà)題分布矩陣,選取話(huà)題詞對(duì)案件話(huà)題進(jìn)行表征.案件話(huà)題詞的優(yōu)化:使用互信息的方法,通過(guò)KL距離來(lái)計(jì)算話(huà)題與文檔中詞的相關(guān)性,同時(shí)利用詞嵌入將文檔中的詞和要素嵌入為詞級(jí)的向量空間表示,計(jì)算文檔中詞與案件要素的相似度,兩者加權(quán)最終選擇前k個(gè)詞作為案件話(huà)題詞.
圖1 基于案件要素指導(dǎo)下的話(huà)題優(yōu)化方法Fig.1 Diagram of topic optimization method based on case element guidance
BTM是針對(duì)短文本進(jìn)行建模的話(huà)題模型,可以有效解決短文本稀疏性的問(wèn)題,通過(guò)將上下文共現(xiàn)的詞對(duì)進(jìn)行建模,利用整個(gè)語(yǔ)料中的信息來(lái)抽樣話(huà)題,從而得到整個(gè)語(yǔ)料集上的話(huà)題分布.BTM話(huà)題模型如圖2所示.
圖2 BTM話(huà)題模型Fig.2 BTM topic model
圖2中,θ是BTM語(yǔ)料中話(huà)題的分布概率,φ是話(huà)題-詞對(duì)的分布,z為詞對(duì)的話(huà)題標(biāo)號(hào),wi,wj是詞對(duì)中的兩個(gè)詞,|B|是語(yǔ)料中詞對(duì)的數(shù)目.
該模型的生成過(guò)程可以描述如下:
對(duì)于每個(gè)話(huà)題k∈{1,2,…,K},生成詞-話(huà)題分布φk~Dir(β).
對(duì)于每篇文檔m∈{1,2,…,M},生成話(huà)題-文檔分布θ~Dir(α).
對(duì)于詞對(duì)|B|中的每個(gè)詞對(duì)按照以下步驟產(chǎn)生,假設(shè)一個(gè)詞對(duì)用b表示,則b=(bi,bj):
從語(yǔ)料庫(kù)級(jí)別的話(huà)題分布θ中抽取一個(gè)話(huà)題Z,即Z~Muil(θ).
從被抽取到的話(huà)題Z中同時(shí)抽取2個(gè)詞bi,bj,服從基本假設(shè),每一個(gè)詞對(duì)都從一個(gè)獨(dú)立話(huà)題中產(chǎn)生,即bi,bj~Muil(φ).
BTM話(huà)題模型對(duì)文本中所有詞進(jìn)行建模,而不是對(duì)文檔生成的過(guò)程建模,而是對(duì)整個(gè)文本中的“詞對(duì)”進(jìn)行建模,因此,文檔的話(huà)題不能直接得出.所以假設(shè)文檔中話(huà)題的概率等于文檔中生成“詞對(duì)”的話(huà)題期望,話(huà)題最終可以表示為:
(1)
矩陣Z表示文檔中話(huà)題的生成概率關(guān)系,矩陣可用公式(2)表示,其中k代表話(huà)題數(shù),M代表詞對(duì)的個(gè)數(shù):
(2)
由于BTM話(huà)題模型是對(duì)整個(gè)文本進(jìn)行話(huà)題抽樣,得到的只是話(huà)題的生成概率,不具備完整的語(yǔ)義信息,所以得到的話(huà)題具有發(fā)散性,與所期望的案件關(guān)聯(lián)度不大.
通過(guò)對(duì)案件微博的分析,可以通過(guò)案件要素來(lái)對(duì)案件進(jìn)行表征,同時(shí),考慮微博文檔與案件的語(yǔ)義信息,利用特征加權(quán)的方法來(lái)對(duì)原始話(huà)題模型進(jìn)行一個(gè)改進(jìn),從語(yǔ)義的角度查找隱藏的話(huà)題詞,從而獲得與案件相關(guān)的話(huà)題詞.通過(guò)將所定義的案件要素作為案件的特征,將文檔中所有詞與案件特征進(jìn)行相似度比較,并將其相似度作為特征權(quán)值來(lái)優(yōu)化話(huà)題模型.
設(shè)D={t1,t2,…,tn}∈RV文檔詞集,n為D的長(zhǎng)度,V為詞表大小.通過(guò)預(yù)訓(xùn)練的詞向量矩陣M∈RV×d,將D中每個(gè)單詞轉(zhuǎn)換為d維的向量t∈Rd.同理將案件要素C中的詞嵌入為C∈Rd.
文檔詞集D和案件要素C通過(guò)詞嵌入編碼得到D′和C′.過(guò)濾層通過(guò)計(jì)算D′和C′的距離或者相似度從而計(jì)算出文檔詞集D與案件要素C之間的相似度.
案件要素與文檔詞相似度計(jì)算公式如下:
(3)
其中η為判斷詞與案件特征是否相似的閾值,如果相似度小于閾值,則權(quán)值為0.對(duì)于整個(gè)文檔D來(lái)說(shuō),可以根據(jù)公式(4)來(lái)計(jì)算特征相似度頻率.
(4)
其中,V(d)表示d中單詞的數(shù)量,ti表示d中單詞.
通過(guò)特征相似度計(jì)算,獲得每個(gè)詞的TS值,可以將其視為文檔詞t在文檔中的權(quán)重,因此文檔的TS也可用向量D表示,可以得到文檔與詞之間的矩陣關(guān)系.
(5)
這些特征權(quán)重可與BTM話(huà)題模型得到的概率結(jié)合起來(lái),得到案件特征與話(huà)題之間的關(guān)系.考慮到概率的范圍,我們將TS矩陣歸一化,所得的矩陣再與話(huà)題模型概率矩陣相乘,得到了有案件要素相似特征的主題模型概率.
TS-BTM=TS×Z
(6)
通過(guò)計(jì)算主題下具有較高權(quán)重值的單詞,可以得到與案件較為相關(guān)的話(huà)題.從中選出前k個(gè)概率較高的話(huà)題詞來(lái)對(duì)案件話(huà)題進(jìn)行表征.
在針對(duì)話(huà)題中詞與詞之間相關(guān)性較差,且存在一些噪聲詞,話(huà)題生成質(zhì)量不高,話(huà)題可讀性不強(qiáng)和話(huà)題判別性不高的問(wèn)題,利用了“信息熵”的概念,用互信息的方法來(lái)優(yōu)化話(huà)題詞,通過(guò)案件話(huà)題與微博文檔的互信息來(lái)判斷兩者的相關(guān)度,相關(guān)度越大,互信息越大,相關(guān)度越小,互信息越小.
兩個(gè)隨機(jī)變量之間X1和X2的相互信息可以表示為;
I(X1:X2)=H(X1)+H(X2)-H(X1;X2)
(7)
而一組隨機(jī)變量XG的總相關(guān)性表示為:
TC(XG)=∑i∈GH(Xi)-H(XG)=DKL(p(xG)‖∏i∈Gp(xi))
(8)
為了方便計(jì)算,因此使用KL散度來(lái)表示總體相關(guān)性.
計(jì)算話(huà)題與文本中詞的相關(guān)性時(shí),使用WG來(lái)表示文本中的詞,用Y來(lái)代表所得到的案件話(huà)題,當(dāng)j=1,…,m時(shí),分別將要素詞表表示為Y1,…,Ym和他們對(duì)應(yīng)的數(shù)據(jù)詞組WG.
TC(WG;Y)=TC(WG)-TC(WG|Y)=
∑i∈GI(Wi:Y)-I(WG:Y)
(9)
通過(guò)計(jì)算案件話(huà)題和文本的互信息,可以更好地得到與案件話(huà)題相關(guān)的詞,例如:在“昆山反殺案”中,可以通過(guò)計(jì)算“于明?!边@個(gè)話(huà)題與文本詞的互信息,來(lái)得到文檔中的詞與案件話(huà)題“于明海”之間的相關(guān)性.
同時(shí),為了使得文檔中的詞更好的與案件相關(guān),通過(guò)計(jì)算微博文檔中的詞與案件要素之間的相似性,
設(shè)W={w1,w2,…,wG}∈RV表示微博數(shù)據(jù)集D,其中w表示詞,G為詞的個(gè)數(shù),V為詞表大小.通過(guò)預(yù)訓(xùn)練的詞向量矩陣M∈RV×d,將W中每個(gè)單詞轉(zhuǎn)換為d維的向量w∈Rd.同理將案件要素C中的詞嵌入為C∈Rd.
文本數(shù)據(jù)集W和案件要素C通過(guò)詞嵌入編碼得到W′和C′.過(guò)濾層通過(guò)計(jì)算W′和C′的距離或者相似度從而計(jì)算出話(huà)題W與案件要素C之間的相似度.
文本數(shù)據(jù)集與案件要素相似度計(jì)算公式如下:
(10)
得到案件話(huà)題和文本的互信息TC(WG;Y)件話(huà)題和文本的互信息γ之后,對(duì)他們進(jìn)行加權(quán)求和:
S=αTC+(1-α)δ
(11)
其中α為經(jīng)驗(yàn)參數(shù).通過(guò)件話(huà)題和文本的互信息件話(huà)題和文本的互信息,可以得到案件要素與話(huà)題詞之間的相關(guān)性,通過(guò)將相關(guān)性進(jìn)行排序,選取與案件最相關(guān)的前K個(gè)詞來(lái)對(duì)話(huà)題進(jìn)行表征,從而提高話(huà)題生成的質(zhì)量.
本文利用新浪微博數(shù)據(jù)進(jìn)行實(shí)驗(yàn),采用對(duì)比算法為L(zhǎng)DA、BTM,對(duì)本文使用的案件要素話(huà)題發(fā)現(xiàn)方法與對(duì)比模型在話(huà)題發(fā)現(xiàn)的準(zhǔn)確性、發(fā)現(xiàn)的話(huà)題質(zhì)量等指標(biāo)進(jìn)行比較.
通過(guò)選定今年來(lái)的熱點(diǎn)案件,本文選取了“昆山反殺案”等熱門(mén)案件,選取與案件相關(guān)的微博數(shù)據(jù)6621條.并對(duì)數(shù)據(jù)進(jìn)行以下處理:去除重復(fù)文檔并過(guò)濾廣告和噪聲數(shù)據(jù),去除了詞數(shù)小于5的文檔;對(duì)數(shù)據(jù)進(jìn)行切分詞、去除停用詞.
本文實(shí)驗(yàn)中,話(huà)題模型的狄利克雷先驗(yàn)超參數(shù)均使用相同的設(shè)置,分別設(shè)置如下α=0.5/k,β=0.1;此外,話(huà)題優(yōu)化的相似度閾值參數(shù)σ=0.6;word2vec主要采用negative-sampling訓(xùn)練數(shù)據(jù),詞語(yǔ)維度為200維.為了適應(yīng)短文本,窗口大小調(diào)整為10,初始學(xué)習(xí)率為 0.025,去除語(yǔ)料中頻率小于5的詞語(yǔ),語(yǔ)料庫(kù)上的迭代次數(shù)為 20.
作為閾值參數(shù),當(dāng)η=0.8時(shí)效果最好,因?yàn)楹雎晕臋n詞與案件要素特征相似性很小的詞,保留相似度大的詞,得到的話(huà)題與案件最為相關(guān).
本文使用主題一致性(topic coherence)和準(zhǔn)確率(P)、召回率(R)和(F)值作為評(píng)價(jià)指標(biāo).
主題一致性是用來(lái)評(píng)價(jià)話(huà)題模型的一種指標(biāo),主題一致性越大,就表明主題模型的效果越好.主題一致性是計(jì)算所有話(huà)題下前K個(gè)詞語(yǔ)的語(yǔ)義相似度平均值.Aletras[17]等利用標(biāo)準(zhǔn)化互信息的方法來(lái)計(jì)算每個(gè)話(huà)題下每?jī)蓚€(gè)詞語(yǔ)的語(yǔ)義相似度.主題一致性計(jì)算如公式(12)所示:
(12)
其中cos(·)表示余弦相似度,vi,vi為詞向量,N為話(huà)題個(gè)數(shù),C表示詞向量組合數(shù).
準(zhǔn)確率P計(jì)算如公式(13)所示:
(13)
召回率R計(jì)算如公式(14)所示:
(14)
F值是召回率和準(zhǔn)確率的加權(quán)幾何平均值,公式如式(15)所示:
(15)
通過(guò)分別與LDA與BTM方法進(jìn)行比較,驗(yàn)證提出方法的有效性.對(duì)每組實(shí)驗(yàn)都計(jì)算給定話(huà)題下的話(huà)題一致性,結(jié)果如表2所示,由于選取單一案件作為實(shí)驗(yàn),所以話(huà)題數(shù)不宜過(guò)多,經(jīng)測(cè)試,當(dāng)話(huà)題數(shù)為10時(shí),效果最好.
表2 主題一致性對(duì)比分析Table 2 Comparative analysis of themes
分析表2可以看出案件話(huà)題發(fā)現(xiàn)中,本文提出的方法所得到的話(huà)題一致性比傳統(tǒng)的話(huà)題模型LDA和BTM的要高.
傳統(tǒng)的LDA模型受限于數(shù)據(jù)稀疏的問(wèn)題,在短文本上效果不好,而B(niǎo)TM模型由于話(huà)題詞發(fā)散,得到的話(huà)題與案件相關(guān)性不大,而本文的方法,利用了案件要素的信息,更加適用于本任務(wù).
分析表3可以看出案件話(huà)題發(fā)現(xiàn)中,傳統(tǒng)的話(huà)題模型LDA和BTM的表現(xiàn)并不好,本文方法較對(duì)比模型在準(zhǔn)確率、召回率、F值提高了許多.
表3 準(zhǔn)確度對(duì)比分析Table 3 Comparison of accuracy
傳統(tǒng)的LDA模型受限于數(shù)據(jù)稀疏的問(wèn)題,在短文本上效果不好,而B(niǎo)TM模型由于話(huà)題詞發(fā)散,得到的話(huà)題與案件相關(guān)性不大,而本文的方法,利用了案件要素的信息,更加適用于本任務(wù).
通過(guò)BTM話(huà)題模型可以得話(huà)題詞分布,分布值P(z|d)作為文檔的話(huà)題分布,再利用案件要素特征與文檔詞的相似度優(yōu)化話(huà)題詞的概率分布,得到微博文本的話(huà)題集,且選擇每個(gè)話(huà)題下概率最大的兩個(gè)詞來(lái)表征該話(huà)題.結(jié)果如表4所示.
表4 昆山反殺案話(huà)題Table 4 Topic of Kunshan anti-homicide
可以看出,通過(guò)案件要素特征對(duì)話(huà)題模型進(jìn)行改進(jìn)后,得到的案件話(huà)題候選詞都是與案件相關(guān)的詞.
在話(huà)題質(zhì)量上,可以看出,LDA中發(fā)現(xiàn)的詞包含一些不相關(guān)的詞,是由于微博短文本中與話(huà)題相關(guān)的詞匯出現(xiàn)的頻率較低,話(huà)題詞較少是因?yàn)槲⒉┪谋咎∈?,影響了?huà)題產(chǎn)生的有效性,BTM在較短微博集上解決數(shù)據(jù)稀疏問(wèn)題的性能優(yōu)于LDA模型,但是在話(huà)題詞的可解釋性上也存在不足,而通過(guò)將話(huà)題過(guò)濾再發(fā)現(xiàn)話(huà)題詞的方法得到案件要素關(guān)鍵詞相關(guān)的話(huà)題詞,有很強(qiáng)的解釋性,可以很好的表述案件話(huà)題,如表5-表7所示.
表5 本文方法每個(gè)話(huà)題下的話(huà)題詞Table 5 Topic word of our method
表6 BTM方法每個(gè)話(huà)題下的話(huà)題詞Table 6 Topic word of BTM
表7 LDA方法每個(gè)話(huà)題下的話(huà)題詞Table 7 Topic word of LDA
本文針對(duì)在案件領(lǐng)域下話(huà)題模型得到的話(huà)題質(zhì)量不高,無(wú)法對(duì)案件話(huà)題進(jìn)行很好的表述的問(wèn)題,提出了基于案件要素的話(huà)題優(yōu)化方法,結(jié)合案件要素信息對(duì)案件話(huà)題和話(huà)題詞進(jìn)行了優(yōu)化.結(jié)合案件要素與文檔詞的相似特征來(lái)對(duì)原始的主題模型進(jìn)行改進(jìn),優(yōu)化主題模型得到的概率矩陣,很好的對(duì)案件話(huà)題進(jìn)行表征,同時(shí)利用了案件話(huà)題與文檔的相似性對(duì)案件話(huà)題進(jìn)行擴(kuò)充,得到了與案件關(guān)系緊密的話(huà)題.進(jìn)一步的工作還可以考慮在對(duì)案件話(huà)題的演化進(jìn)行分析,得到案件話(huà)題演化脈絡(luò)圖.