胡朝舉 徐永峰
摘要:
針對短文本信息篇幅短、信息量少、特征稀疏的特點,提出一種基于LDA(Laten Dirichlet Allocation)主題模型特征擴展的短文本分類方法。該方法利用LDA模型得到文檔的主題分布,然后將對應(yīng)主題下的詞擴充到原來短文本的特征中,作為新的部分特征詞,最后利用SVM分類方法進行分類。實驗結(jié)果表明,相比于傳統(tǒng)的基于VSM模型的分類方法,基于LDA特征擴展的短文本分類方法克服了特征稀疏的問題,在各個類別上的查準(zhǔn)率、查全率和F1值都有所提高,充分驗證了該方法對短文本分類的可行性。
關(guān)鍵詞:
短文本分類;隱含狄利克雷分布(LDA);特征擴展;SVM
DOIDOI:10.11907/rjdk.172295
中圖分類號:TP301
文獻標(biāo)識碼:A文章編號文章編號:16727800(2018)003006304
英文摘要Abstract:This paper presented a short text classification method based on LDA (Laten Dirichlet Allocation) theme model for short text information, short message, and sparse features. This method used the LDA model to obtain the subject distribution of the document, and then extended the word under the corresponding topic into the characteristics of the original short text as a new part of the feature word. Finally, SVM classification method was used to classify. The experimental results show that the short text classification method based on the LDA feature extension overcomes the problem of sparseness of features, and the precision, recall and F1 values are improved in all categories compared with the traditional classification method based on VSM model. It is proved that the method is feasible for short text classification.
英文關(guān)鍵詞Key Words:short text classification; Laten Dirichlet Allocation (LDA); feature expansion; SVM
0引言
隨著互聯(lián)網(wǎng)的快速發(fā)展,手機、平板電腦等移動終端的普及,手機短信息、微博、網(wǎng)絡(luò)評論、論壇發(fā)帖回帖等短文本形式的信息不斷涌入人們的生活中。面對大量短文本信息,如何快速而準(zhǔn)確地從中獲取所需的關(guān)鍵信息,成為眾多研究者關(guān)注的熱點問題。近年來,短文本處理技術(shù)也應(yīng)用于輿情分析[1]和搜索引擎[2]等領(lǐng)域。
目前對于文本信息的處理,如文本分類,已經(jīng)有了可用性比較高的技術(shù),然而對于篇幅較短的文本,還沒有比較成熟的方法。當(dāng)前常用的文本分類方法主要有樸素貝葉斯算法、K近鄰算法、支持向量機算法等,這些方法要求足夠的詞頻共現(xiàn)信息,適用于長文本分類。但是短文本具有篇幅短、信息量少、特征稀疏等特點,相關(guān)方法直接應(yīng)用于短文本分類并不能取得良好效果,其主要困難在于短文本的特征稀疏問題[3]。
對于短文本分類方法的研究,近年來主要有基于語義和基于規(guī)則兩種方法?;谡Z義的方法主要是借助外部知識庫獲取短文本中的語義信息,該方法可以發(fā)現(xiàn)大部分詞之間存在的語義關(guān)系,但是對庫中不存在的詞則不起作用;基于規(guī)則的方法是利用各類詞語之間相關(guān)聯(lián)的規(guī)則進行分類,比如基于搜索引擎的方法,利用搜索引擎的查詢結(jié)果對短文本進行擴展,該方法對搜索質(zhì)量要求較高,且比較耗時,影響短文本分類的實時性。針對短文本的分類問題,Quan[4]、宋志理[5]、王細薇等[6]都從不同方面對短文本分類方法進行了研究。經(jīng)過對已有各種方法的研究比較,本文使用LDA模型對短文本特征進行擴展,以克服其特征稀疏的缺點,具有良好的分類效果。
1相關(guān)技術(shù)
1.1向量空間模型
向量空間模型(Vector Space Model,VSM)[7]由Saltor等提出,是當(dāng)前最常用的文本表示模型。該模型將文檔d看作向量空間中的一個n維向量,形如:
d=((t1,w1),(t2,w2),…,(tn,wn))
其中t1,t2,…,tn表示文本的n個特征項;w1,w2,…,wn表示這n個特征項的權(quán)重值,一般使用詞頻-逆文檔頻率(TF-IDF)進行計算:
wn=tf×lnMdf(1)
其中tf表示某個特征在一篇文本中出現(xiàn)的次數(shù),M表示文檔總數(shù),df表示包含該特征詞的文檔總數(shù)。
1.2信息增益
信息增益[8]主要是衡量某個特征為分類系統(tǒng)帶來的信息量,信息越多,該特征越重要。信息增益采用信息熵作為衡量信息量的準(zhǔn)則,對于某個特征,系統(tǒng)包含它和不包含它時的信息量差就是它帶給系統(tǒng)的價值,也即增益,計算公式如下:
IG(t)=Entropy(S)-Expected.Entropy(st)=-∑mi=1p(ci)logp(ci)+p(t)∑mi=1P(ci|t)logp(ci|t)+
p(t-)∑mi=1p(ci|t-)logp(ci|t-)(2)
其中,m代表文檔類別數(shù),p(ci)代表ci類中包含的文檔數(shù)占總文檔數(shù)的概率,p(t)代表包含特征t的文檔數(shù)占總文檔數(shù)的概率,p(ci|t)代表文檔中出現(xiàn)特征t時屬于ci類的概率,t-代表t不出現(xiàn)。
1.3LDA主題模型
隱含狄利克雷分布(Laten Dirichlet Allocation,LDA)[9]由Blei等于2003年提出,是一種主題生成模型,也是一個三層Bayes概率模型。LDA模型如圖1所示。該模型引入兩個超參數(shù)α、β,使“文檔—主題”和“主題—詞”分別服從θ和φ的多項分布,而θ和φ又是由α和β兩個參數(shù)從Dirichlet先驗分布中采樣得到的。模型各參數(shù)符號含義如表1所示。
成過程如下:
(1)輸入一個文檔集W。
(2)對于文檔m,首先選擇 Nm,Nm服從Poisson(ζ)分布。
(3)對文檔集中的每個文檔按概率生成“文檔—主題”分布θ。
(4)對每個主題按概率生成“主題—詞”分布φ。
(5)對某文檔m中詞項w的生成過程為:①從文檔m的θ分布中選擇一個主題z;②從主題z的φ分布中選擇一個詞項w。
不斷重復(fù)上述過程完成M篇文檔的生成。該過程的圖形描述如圖1所示,根據(jù)LDA的圖模型,可以寫出所有變量的聯(lián)合分布:
P(wm→,zm→,m→,Φ|α→,β→)=∏Nmn=1p(wm,n|φ→zm,n)p(zm,n|→m)·p(→m|α→)·p(Φ|β→)(3)
通過對→m和Φ積分以及zm,n求和,可以求得wm,n→的分布:
P(wm→|α→,β→)=p(→m|α→)·p(Φ|β→)·∏Nmn=1∑zm,np(wm,n|φ→zm,n)p(zm,n|→m)dΦd→m=
p(→m|α→)·p(Φ|β→)·∏Nmn=1p(wm,n|→m,Φ)dΦd→m(4)
整個文檔集W的分布為:
p(W|α→,β→)=∏Mm=1p(wm→|α→,β→)(5)
1.4Gibbs抽樣
直接估計LDA的參數(shù)十分困難,為此,解決方案是使用近似估計方法,如最大期望算法(EM)和Gibbs抽樣。Gibbs抽樣[10]是MCMC算法的一種,由于其運行速度快、容易理解且易于實現(xiàn),本文用它對LDA主題進行估計。其推斷主題概率公式如下:
p(zi=k|zi→,wi→)=n(t)k,i+βt∑Vt=1n(t)k,i+βt·n(t)k,i+αk∑Kk=1n(k)m+αk-1(6)
其中n(t)k,i表示第k個詞被歸結(jié)到第t個主題的次數(shù)?!芕t=1n(t)k,i表示第k個主題中包含的詞語個數(shù),∑Kk=1n(k)m表示第m個文檔中的詞語個數(shù),以上參數(shù)均是除了zi=k的這次迭代。
Gibbs抽樣算法的過程如下:①初始時為每個文檔的每個詞項隨機選擇一個主題zi;②統(tǒng)計每個主題zi下每個詞wi的主題概率p(zi|zi→,wi→);③循環(huán)迭代第二步,直到發(fā)現(xiàn)“文檔—主題”分布θ和“主題—詞”分布φ收斂時,停止迭代,得到待估計的參數(shù)θ和φ,同時也得到每個詞對應(yīng)的主題zmn。
θ和φ的推導(dǎo)公式如下:
φk,t=n(t)k+βt∑Vt=1n(t)k+βt(7)
m,k=n(k)m+αk∑Kk=1n(k)m+αk(8)
2基于LDA特征擴展的短文本分類
2.1分類框架
由于短文本長度短,包含信息量少,過濾掉停用詞后剩下的信息更加稀少,使用VSM模型表示文本會使文檔矩陣特別稀疏?;诖?,本文提出基于LDA模型的特征擴展的短文本分類方法,具體分類框架如圖2所示。
2.2文本預(yù)處理
文本預(yù)處理是文本分類的基礎(chǔ),包括中文分詞和去停用詞,本文選用結(jié)巴分詞工具進行分詞,分詞完畢后去停用詞,包括語氣詞、連接詞、副詞、介詞和大量重復(fù)出現(xiàn)的詞等,根據(jù)文檔集文本的特點生成一個停用詞表。最終每個短文本都是由兩個字或兩個字以上的詞組成。
2.3特征選擇
在進行文本表示之前,首先進行特征選擇。將預(yù)處理后的文本構(gòu)建一個詞典,詞典信息包括詞的信息、詞出現(xiàn)的總次數(shù)、每一類中出現(xiàn)的次數(shù)。再利用公式(2)計算出每個詞的增益,然后降序排列,選擇前k個詞作為該類的特征詞。對訓(xùn)練集里的每個類都作同樣處理,最后把這8個類的特征詞進行合并,形成一個特征詞典并且進行唯一編號。對于測試集的數(shù)據(jù)處理方法相同,只是依然將訓(xùn)練集得到的特征詞典中的詞作為測試集特征。
2.4文本表示
文本表示是指將短文本信息表示成計算機可以識別的形式,使用VSM將訓(xùn)練集數(shù)據(jù)向量化。最后使用LIBSVM工具進行文本分類,文檔轉(zhuǎn)換的數(shù)據(jù)格式為(lable 1:value 2:value…),lable為類別標(biāo)識,1、2為特征詞序號即特征詞典編號,value為特征詞的特征值即tfidf值,利用公式(1)進行計算。對于測試集數(shù)據(jù),經(jīng)過文本預(yù)處理后,對比短文本中是否包含特征詞典中的詞,若包含,則計算該特征的特征值。介于短文本的特征稀疏性,特征向量矩陣特別稀疏,無法直接利用SVM進行分類,所以進行特征擴展。
2.5特征擴展
由于短文本的特征稀疏性,本文基于LDA主題模型進行短文本特征擴展。具體過程為:首先使用訓(xùn)練集數(shù)據(jù)訓(xùn)練LDA模型,得到“主題—詞”分布矩陣;然后用訓(xùn)練好的LDA模型預(yù)測測試集文檔的主題,得到“文檔—主題”分布矩陣;將概率最大主題下的詞語擴展到短文本初始特征中,并把該主題中詞的概率值設(shè)為特征值,從而形成新的特征向量。因為LDA生成一篇文檔的過程中,文檔以一定概率選擇某一主題,并且從選擇的主題中以一定概率選擇某個詞語,所以這些詞及其概率可以很好地表示文檔特征。LDA特征擴展具體步驟如下:①輸入訓(xùn)練集語料庫;②得到“文檔—主題”分布矩陣;③預(yù)測測試集文檔主題,選擇文檔對應(yīng)概率最大的主題;④查詢主題下所對應(yīng)的詞;⑤比較需要添加的詞和原始特征詞,若存在,則無需添加,否則將相應(yīng)的詞和概率值擴充到原始特征向量右邊。
3實驗結(jié)果與分析
3.1實驗環(huán)境與語料庫
實驗環(huán)境操作系統(tǒng)為Windows 8.1,開發(fā)工具為MyEclipse,使用JGibbLDA開發(fā)包,進行LDA模型的訓(xùn)練和預(yù)測。本文數(shù)據(jù)來源于搜狗實驗室提供的新聞數(shù)據(jù),共分為8類,包括財經(jīng)、軍事、科技、旅游、體育、醫(yī)療、招聘、教育。從各類中選取1 000個文本,共8 000個文本作為訓(xùn)練集數(shù)據(jù);篩選了各類500個短文本,共4 000個短文本作為測試集數(shù)據(jù)。
3.2分類器
構(gòu)造分類器使用的算法是支持向量機,SVM在文本分類中表現(xiàn)出良好的分類效果。開發(fā)包選用臺灣林智仁教授開發(fā)的LIBSVM工具包。 LIBSVM是一套基于支持向量機的庫,該工具包運算速度快,并且是開源的,易于擴展,適用于模式識別和回歸分析。
3.3實驗評估
本文采用傳統(tǒng)的文本分類評估方法,利用查準(zhǔn)率Pr和查全率Re以及兩者的綜合評價指標(biāo)F1值:
F1=2×Pr×RePr+Re(9)
3.4實驗結(jié)果
經(jīng)過文本預(yù)處理后,使用信息增益計算出每類詞語的增益值,選擇每一類的前500個詞作為特征,然后合并為特征詞典,并且把訓(xùn)練集和測試集的短文本轉(zhuǎn)換為向量空間模型。為了確定LDA主題數(shù),采用Gibbs抽樣算法進行主題抽取。將LDA的主題數(shù)設(shè)置在10~100之間(間隔為10),通過實驗發(fā)現(xiàn),隨著主題數(shù)增加,效果越來越好,但在主題數(shù)50之后效果提升不是很明顯。所以最終選取主題數(shù)T=50。根據(jù)經(jīng)驗值設(shè)定超參數(shù)α=50/T,β=0.01。設(shè)置每個主題下的主題詞為100個,循環(huán)迭代次數(shù)為1 000次。實驗結(jié)果如表2所示。
從表2的實驗結(jié)果可以看出,本文所采用的VSM+LDA+SVM分類方法優(yōu)于直接采用VSM+SVM方法,在各個類上無論是查準(zhǔn)率還是查全率都有很大提高。由于體育類、軍事類的特征詞比較明顯,所以分類準(zhǔn)確率較高。實驗結(jié)果F1值對比如圖3所示。
如圖3所示,VSM+LDA+SVM方法的F1值也高于VSM+SVM方法,充分驗證了本文利用LDA模型進行特征擴展的短文本分類方法是有效、可行的。
4結(jié)語
短文本分類是文本分類中的重要研究方向之一,應(yīng)用領(lǐng)域也比較廣泛,尤其在輿情分析、搜索引擎領(lǐng)域發(fā)揮著重要作用。針對短文本數(shù)據(jù)的特點,本文從短文本分類的文本表示方面著手,基于LDA主題模型對原始短文本進行特征擴展,豐富了短文本的語義信息,解決了短文本數(shù)據(jù)長度短、信息弱的問題,從而克服了采用傳統(tǒng)向量空間模型(VSM)表示短文本特征稀疏的問題。通過對實驗結(jié)果的分析,在各個類別上的查準(zhǔn)率Pr、查全率Re和F1值都有所提高,驗證了本文方法在短文本分類中是有效可行的。
參考文獻參考文獻:
[1]李太白.短文本分類中特征選擇算法的研究[D].重慶:重慶師范大學(xué),2013.
[2]PARK E K, RA D Y, JANG M G. Techniques for improving web retrieval effectiveness[J]. Information Processing & Management, 2005,41(5):12071223.
[3]張虹.短文本分類技術(shù)研究[D].大連:遼寧師范大學(xué),2015.
[4]QUAN X,LIU G,LU Z,et al.Short text similarity based on probabilistic topics[J].Knowledge and Information Systems,2010,25(3):473491.
[5]姚全珠,宋志理,彭程.基于LDA模型的文本分類研究[J].計算機工程與應(yīng)用,2011(13):150153.
[6]王細薇,樊興華,趙軍.一種基于特征擴展的中文短文本分類方法[J].計算機應(yīng)用,2009(3):843845.
[7]SALTON G,WONG A,YANG C S.A vector space model for automatic indexing[J].Communications of the ACM,1975,18(11):613620.
[8]徐燕,李錦濤,王斌,等.文本分類中特征選擇的約束研究[J].計算機研究與發(fā)展,2008(4):596602.
[9]BLEI D M,NG A Y,JORDAN M I.Latent Dirichlet allocation[J].Journal of Machine Learning Research,2003,3(3):9931022.
[10]QIU Z, WU B, WANG B, et al.Collapsed Gibbs sampling for latent dirichlet allocation on spark [J] . Journal Machine Learning Research, 2014,36:1728.
責(zé)任編輯(責(zé)任編輯:黃?。?