付學敏,陳旭東
安徽新聞出版職業(yè)技術(shù)學院,合肥,230601
移動互聯(lián)網(wǎng)的快速發(fā)展,使得微博、在線評論、電子郵件等形式的短文本呈現(xiàn)出爆炸性的增長。由于短文本與長文本相比具有其獨特的特點,例如長度較短、描述概念信號弱等,利用傳統(tǒng)的文本分類方法實現(xiàn)短文本分類很難取得較好的分類效果。
目前,在短文本領(lǐng)域的研究方法主要分為兩類:(1)通過外部庫的短文本特征擴展方法;(2)基于短文本自身的無特征擴展方法。Metzler等人通過搜索引擎返回的結(jié)果和Web語義核函數(shù)確定短文本的相似度[1-2],但計算結(jié)果對搜索引擎作為唯一標準進行文本之間的相似判定時依賴度較高,Phan等通過LDA主題模型對維基百科進行隱含主題挖掘來實現(xiàn)短文本分類[3],但并沒有明顯改變短文本稀疏性對分類帶來的影響;Chen在短文本分類中利用多粒度主題模型實現(xiàn)文本擴展和最優(yōu)主題選擇技術(shù),并采用了新的特征拓展算法[4],這種方法能有效擴展短文本,降低特征稀疏帶來的影響,但擴展的過程時間長,且分類效果對外部語料的質(zhì)量依賴明顯。
本文通過一種基于高頻詞擴展的方法SC-HFW(Short Text Classification Based on Extension with High Frequency Word)實現(xiàn)短文本分類。該方法首先抽取每個類別的高頻詞來組成向量空間,然后從特征空間中抽取與文本中具有高共現(xiàn)性的特征加入文本進行擴充,可有效豐富短文本的語義表征能力并提高短文本分類的效果。
SC-HFW算法的整體流程圖如圖1所示。通過用詞的頻數(shù)即詞頻來衡量一個詞的權(quán)重大小,通過選取的高頻詞進行特征空間的組成,然后利用特征空間對短文本數(shù)據(jù)集進行向量化表示,在一些極端情況下,會出現(xiàn)短文本包含的特征詞不在特征空間中,特別是選擇的特征詞較少時,這種情況很可能會出現(xiàn)[5]。為了解決這個問題,采用特征之間的共現(xiàn)關(guān)系來進行短文本的補充。最后,在向量化的文本上利用已有的Weka分類工具進行訓練分類和對測試文本標簽預測。
圖1 算法流程
在訓練集中選擇對類別指示性高的特征詞構(gòu)建特征空間,通常對一篇短文本進行相應的預處理后會得到一個含有名詞、形容詞、動詞等詞性標記的結(jié)果,不同的詞性對文本主題的表征貢獻程度不同。研究發(fā)現(xiàn),高頻詞對短文本主題的識別貢獻度較大,而低頻詞對短文本主題的識別貢獻度較小。如果在詞典中加入識別貢獻度小的低頻詞,不僅對后期的分類效果幫助不大,反而會為短文本帶來噪聲,影響分類器對短文本的識別,降低分類的效率。因此,本文對短文本數(shù)據(jù)集抽取出現(xiàn)次數(shù)較高的高頻詞,過濾掉噪聲和冗余的低頻詞。在特征選擇上不僅考慮特征詞出現(xiàn)的頻數(shù),還會分別在每個類別中進行選擇,即按相同的比例進行每個類別中特征詞的抽取,例如,類C1中總共包含50個特征,類C2中總共包含150個特征,在C1和C2中各抽取出現(xiàn)次數(shù)在前50%的特征詞進行合并。這種方法可以在選擇對類別有高貢獻度的特征詞的同時,兼顧短文本數(shù)據(jù)集類分布不平衡的問題,避免出現(xiàn)小類被大類覆蓋的可能。
特征詞選取的步驟如下:
(1)短文本數(shù)據(jù)集預處理,即進行分詞、去停用詞[6]等;
(2)對于每個類別,抽取相同比例k的高頻特征詞;
(3)用提取的高頻特征詞組成特征空間F。
SC-HFW方法特征擴展的目標為利用構(gòu)建好的特征空間對短文本進行擴展并進行向量化。在這個階段,當一條短文本中的特征fk在特征空間F中時,則將F中與fk共現(xiàn)次數(shù)最大的特征加入短文本中;另一種情況,當構(gòu)建的特征空間維數(shù)不高,且短文本包含的特征不在特征空間時,方法SC-HFW將與短文本自身所包含的特征fk有最大共現(xiàn)次數(shù)[7]的特征加入短文本中進行擴展。
算法SC-HFW的相關(guān)描述如下:
(1)對于短文本集D中的一條短文本T
(2)對于T中的一個特征t
(3)如特征空間F中包含t
將短文本向量FV(T)中相應特征位置置為1
(4)如短文本向量為空
(5)對于T中的一個特征t
(6)計算t與特征空間中所有特征的共現(xiàn)次數(shù)Co(t,ft)
(7)取前n共現(xiàn)次數(shù)最大(Max(Co(t,ft)))的特征加入到短文本向量FV(T)中
(8)else
從F中選取與FV(T)非0位置特征共現(xiàn)次數(shù)最大的特征加入到FV(T)
(9)返回短文本特征向量FV(T)
(10)結(jié)束
參數(shù)解釋:
D:短文本數(shù)據(jù)集T:D中的一條短文本
t:短文本中的特征F:構(gòu)建的特征空間
ft:特征空間中的一個特征Co(t,ft):t與ft的相關(guān)度
FV(T):短文本特征向量
通過實驗驗證方法SC-HFW的有效性,主要包括實驗的設置、SC-HFW方法的參數(shù)討論、SC-HFW方法與對比算法的準確率比較、不同分類器對SC-HFW方法影響。
對實驗各類參數(shù)進行設置,主要包括以下四個方面:實驗環(huán)境設置、數(shù)據(jù)集設置、實驗參數(shù)設置及對比算法設置。
(1)實驗環(huán)境
Windows 8操作系統(tǒng),4GB內(nèi)存,Intel(R)Core(TM)2 Duo 2.93Hz CPU。開發(fā)環(huán)境為java平臺,編譯運行環(huán)境是jdk1.6。
(2)實驗數(shù)據(jù)集
為驗證SC-HFW方法的有效性,采用Web snippet數(shù)據(jù)集,此數(shù)據(jù)集為Google的搜索片段Web snippet數(shù)據(jù)集,數(shù)據(jù)集總共包含8類:即Business、Computers、Culture-Arts-Entertainment、Education-Science、Engineering、Health、Politics-Society和Sports,其中訓練集包含10 060條樣本,測試集包含2 280條樣本,數(shù)據(jù)集的具體描述如表1所示:
表1 Web snippet數(shù)據(jù)信息
(3)參數(shù)設置
經(jīng)過實驗調(diào)整,統(tǒng)一采用如下參數(shù)設置:抽取比例k為1/40,選取的補充特征個數(shù)n為2。
(4)對比算法設置
為了驗證方法的有效性,設置了以下對比實驗算法:
①MaxEnt:傳統(tǒng)的最大熵分類算法。
②TFClarity:采用特征頻率和KL距離相結(jié)合進行特征選擇的分類方法。
SC-HFW算法中關(guān)鍵參數(shù)為k和n的取值,特征詞抽取比例k直接影響特征空間的維度,特征詞抽取的比例越大,特征空間維度越大,反之越小。
圖2表示在實驗數(shù)據(jù)集上SC-HFW方法的準確率隨特征詞提取比例的變化曲線圖,在短文本中補充加入特征詞的個數(shù)n,比較不加入特征詞和分別加入1、2、3、4個特征詞后的結(jié)果,從圖中可以看出,當選擇加入2個共現(xiàn)特征時,短文本的擴充效果最好,實驗最終選擇的n值為2。另外,從圖2中還可以看出,隨著特征詞抽取比例k的變化,短文本分類的準確率先上升,隨后逐步趨向穩(wěn)定甚至出現(xiàn)少許下滑,主要原因在于特征詞提取比率較小時,部分具有較高的類別指示性的特征被排除,從而影響分類精度。實驗最終選擇的k值為1/40。
圖2 SC-HFW方法的準確率在數(shù)據(jù)集上的變化曲線圖
通過與已有的其他分類方法對比來說明SC-HFW方法的有效性,圖3顯示在實驗數(shù)據(jù)集上各方法準確率的對比結(jié)果??芍c傳統(tǒng)的分類方法MaxEnt及現(xiàn)有的短文本分類方法TFClarity相比,SC-HFW在準確率上分別提高了8.74%和4.73%,說明SC-HFW方法在一定程度上解決了短文本的特征稀疏問題。
在不同分類器上進行實驗,驗證方法SC-HFW對分類器的敏感度。這里直接利用Weka中三種分
圖3 各方法的分類準確率對比
類器即RandomForest、J48和NaiveBayes,圖4表示實驗數(shù)據(jù)集在不同分類器上的分類結(jié)果,從圖中可以看出,在不同的分類器上,隨著特征提取比例的變化,分類結(jié)果整體變化趨勢幾乎一致,且準確率差距不大,說明不同的分類器對SC-HFW方法的影響不大,該方法具有很好的普適性。
圖4 SC-HFW方法在不同分類器上的分類結(jié)果
本文提出了一種基于高頻詞擴展的短文本分類方法,通過借助外界資源,利用特征詞出現(xiàn)的頻數(shù)高低及特征詞之間的共現(xiàn)關(guān)系,對短文本特征詞進行選擇并進行特征擴充。針對短文本的特征稀疏等特性,通過對特征空間構(gòu)成的研究,在降低特征空間維數(shù)的同時,也豐富了短文本自身的內(nèi)容。實驗結(jié)果表明,在實際的數(shù)據(jù)集上,本文所提的方法在分類精度及普適性上均有一定的效果。