文嶠
摘要:文本分類在大數(shù)據(jù)時(shí)代具有重要意義,傳統(tǒng)的機(jī)器學(xué)習(xí)方法是目前流行且成熟的解決方法。而傳統(tǒng)分類方法的關(guān)鍵在于文本的特征提取,一個(gè)好的方法能準(zhǔn)確地挖掘出文本的關(guān)鍵信息,得到極佳的分類效果。除此之外,特征維度的選取也是影響分類效果的另一關(guān)鍵因素?;诖?,本文基于相同的分類算法比較了不同的文本的特征提取算法以及不同特征維度對(duì)分類結(jié)果的影響。
關(guān)鍵詞:文本分類;數(shù)據(jù)挖掘;特提取;特征維度
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)18-0188-02
Text Categorization based on Text Feature Extraction
WEN Qiao
(School Of Computer Science, Southwest Petroleum University, Chengdu 610500,China)
Abstract:Text classification is of great significance in the era of big data, and traditional machine learning is a both popular and proven method for the time being. The key to the traditional classification method lies in the feature extraction of texts. A good method can accurately mine the key information of texts, thus obtaining optimal results of classification. In addition, the selection of feature dimensions is another key factor affecting classification results. Based on this, this paper compares the influences of feature extraction algorithm of different texts and different feature dimensions on classification results on the basis of the same classification algorithm.
Key words: Text Classification;Data Mining;Feature Extraction;Feature Dimension
1引言
自動(dòng)文本分類(Automatic Text Categorization),或者簡稱為文本分類,是指計(jì)算機(jī)將一篇文章或者一段文字歸于預(yù)先給定的主題類別的某一類或某幾類的過程,文本分類是文本挖掘的一項(xiàng)重要內(nèi)容。
文本分類這個(gè)在NLP領(lǐng)域是一個(gè)很普通而應(yīng)用很廣的課題,而且已經(jīng)有了相當(dāng)多的研究成果,比如應(yīng)用很廣泛的基于規(guī)則特征的SVM分類器,還有最大熵分類器、基于條件隨機(jī)場來構(gòu)建依賴樹的分類方法等。中文文本分類的意義就在于能夠?qū)⒑A康臄?shù)據(jù)按照內(nèi)容劃分成我們所需要的類別。對(duì)于中文文本處理。當(dāng)前的中文文本分類主要集中在如何利用中文文本本身的一些特征來更好的表示文本樣本以及運(yùn)用神經(jīng)網(wǎng)絡(luò)和樣本的矢量矩陣更好的抽取文本的特征,進(jìn)而進(jìn)行文本的分類等任務(wù)。
總之,盡管機(jī)器學(xué)習(xí)理論對(duì)于文本分類的研究起了不可低估的作用,在這之前文本分類的研究曾一度處于低潮,但是文本分類的實(shí)際應(yīng)用和它自身的固有的特性給機(jī)器學(xué)習(xí)提出新的挑戰(zhàn),這使得文本分類的研究仍是信息處理領(lǐng)域一個(gè)開放的、重要的研究方向。
2特征提取方法介紹
2.1詞頻(Term Frequency, TF)
在提取文本的特征的時(shí)候,最容易想到也最直觀的特征提取方式就是詞頻,考慮每個(gè)詞在訓(xùn)練數(shù)據(jù)集中出現(xiàn)的頻次,頻次越大就認(rèn)為該詞越是數(shù)據(jù)集的一個(gè)特征詞。計(jì)算公式如下:
[TF(w)=nN] (1)
其中:w為相應(yīng)的候選詞,n為w在語料中出現(xiàn)的次數(shù),N為語料中總的詞數(shù)。
2.2詞頻-逆文件頻率(Term Frequency-Inverse Document Frequency, TF-IDF)
TF-IDF是目前較為成熟的計(jì)算特征權(quán)重的方法。TF為文本詞的頻數(shù),缺點(diǎn)是不能區(qū)分出沒有實(shí)際類別意義的高頻詞。IDF正是針對(duì)這一缺點(diǎn)的改進(jìn),IDF即為逆文檔頻率,當(dāng)文本詞出現(xiàn)在很多的類別下時(shí),該值很?。环粗?,當(dāng)該文本詞出現(xiàn)在較少的類別下時(shí),該值較大。不難理解,計(jì)算出來的詞在類別與類別之間具有很好的區(qū)分度。
[tfi,j=ni,jknk,j] (2)
該式為詞頻計(jì)算公式,[ni,j]是該詞在文檔[dj]中的出現(xiàn)次數(shù),而分母則是文檔[dj]中所有的字詞的出現(xiàn)次數(shù)之和
[idfi,j=logDj:ti∈dj] (3)
其中,[D]表示語料庫中的文件總數(shù),[j:ti∈dj]表示包含詞[ti]的文檔數(shù)目,為了防止計(jì)算時(shí)分母為零,則一般使用[1+j:ti∈dj],每個(gè)詞最后的權(quán)值計(jì)算公式為:
[tfidfi,j=tfi,j*idfi,j] (4)
最后根據(jù)預(yù)設(shè)的閾值決定從大到小依次提取出特征詞數(shù),依次用于分類任務(wù)。
2.3卡方檢驗(yàn)(CHI)
卡方檢驗(yàn)特征選擇方法利用了統(tǒng)計(jì)學(xué)中的思想,通過觀測實(shí)際值與理論值的偏差來衡量假設(shè)的正確與否。假設(shè)變量[X1]與變量[X2]獨(dú)立,根據(jù)實(shí)際觀測值與理論值的差異來確定是否獨(dú)立。如果偏差足夠小,可以認(rèn)為這是樣本觀測誤差,即總體中兩個(gè)變量不相關(guān),原假設(shè)成立。若差值較大,認(rèn)為超過了樣本觀測本身會(huì)產(chǎn)生的誤差的時(shí)候,我們就認(rèn)為變量[X1]與變量[X2]不獨(dú)立,具有相關(guān)性,即原假設(shè)不成立。
[i=1n(xi-E)2E] (5)
其中,E表示理論值,x表示實(shí)際觀測值,上式計(jì)算出了總的偏差程度,并設(shè)置一個(gè)閾值,小于某個(gè)值就認(rèn)為假設(shè)成立,兩個(gè)變量不相關(guān);反之,大于了預(yù)設(shè)閾值,認(rèn)為假設(shè)不成立,表示兩個(gè)變量相關(guān)。
基于這樣一個(gè)原理,在文本的特診選擇中,一般用“特征T與類別C不相關(guān)”來做原假設(shè)。具體的計(jì)算公式為:
[χ2=N(AD-BC)2(A+C)(A+B)(B+D)(B+C)] (6)
其中,[N]表示樣本集中文檔總數(shù),[A]表示每個(gè)詞的正文檔出現(xiàn)頻率,[B]表示每個(gè)詞出現(xiàn)的負(fù)文檔頻率,[C]表示正文檔不出現(xiàn)的頻率,[D]表示負(fù)文檔不出現(xiàn)頻率。根據(jù)計(jì)算式,根據(jù)一定的要求選取前k個(gè)詞作為特征。
2.4 互信息(MI)
在文本特征提取方法中,互信息通過判斷特征項(xiàng)與類別的關(guān)聯(lián)程度來提取特征,
[MI(w,C)=iP(Ci)logP(w,Ci)P(w)P(Ci)] (7)
式中,P(w)指特征詞w在整個(gè)文本訓(xùn)練集中出現(xiàn)的概率,[ P(Ci)]指類別[Ci]在整個(gè)文本集中出現(xiàn)的概率;[ P(w,Ci)]代表文本類別[Ci]中出現(xiàn)特征項(xiàng)w的文本數(shù)目在整個(gè)訓(xùn)練集中的比重。值得說明的是,這里計(jì)算的是全局的特征,若要計(jì)算某一類別下的特征,式中不加和。
3數(shù)據(jù)集介紹
本文數(shù)據(jù)集來自搜狗新聞文本數(shù)據(jù)集,是一個(gè)專門用于文本分類任務(wù)的數(shù)據(jù)集,我們從中提取了汽車(auto)、商業(yè)(bussiness)、文化(cul)、體育(sports)、旅游(travel)、娛樂(yule)六個(gè)類別的新聞文本,訓(xùn)練集和測試集分別為26000、12000條。獲取數(shù)據(jù)之后首先進(jìn)行數(shù)據(jù)清洗提取出我們需要的有關(guān)類別的新聞文本,只保留類別和正文,最后利用jieba進(jìn)行分詞后得到我們的訓(xùn)練集。
我們一次用上述四種方法提取特征,嘗試每個(gè)類別獲取300個(gè)維度的特征集,從中我們分析了四種方法的特征相似度,如表1所示:
由表1可知,四種特征提取方法得到的特征相似度整體不到0.5,相似度較低,而實(shí)驗(yàn)結(jié)果準(zhǔn)確度差別很小,這就說明,不同方法提取出的特征詞具有一定的類別意義,能夠表現(xiàn)出較好的效果,并不強(qiáng)依賴于某個(gè)別特征。
將四特征提取方法提取出的特征輸入到相同的分類模型,這里我們使用樸素貝葉斯分類,使得在相同的分類方法之下我們可以看出在此任務(wù)四種特征提取方法的優(yōu)劣。
4實(shí)驗(yàn)結(jié)果及其分析
在實(shí)驗(yàn)中,為了具有可比性,分類算法采用樸素貝葉斯,根據(jù)提取的不同特征維度進(jìn)行分類,對(duì)于多分類問題的評(píng)價(jià)指標(biāo)我們選用準(zhǔn)確率以及宏平均F1值。
如圖3,此任務(wù)下,當(dāng)每個(gè)類別特征維度達(dá)到100時(shí),分類準(zhǔn)確率便不會(huì)有較大的提升。針對(duì)每個(gè)單獨(dú)任務(wù),卡方檢驗(yàn)(CHI)在特征維度為50左右時(shí),分類效果最佳,當(dāng)特征維度大于50之后,效果呈現(xiàn)下降趨勢;而特征維度為300時(shí),TF-IDF表現(xiàn)最佳,之后隨著維度的提升性能上下波動(dòng);而互信息(MI)和詞頻(TF)兩種方法在此分類任務(wù)中隨著特征維度的增加效果幾乎一致,同樣在特征維度大于300后效果提升并不明顯。圖4是對(duì)于多分類結(jié)果的宏平均指標(biāo)評(píng)價(jià),整體趨勢與準(zhǔn)確率相似,但是整體值并不高,其原因是訓(xùn)練數(shù)據(jù)集的不平衡,導(dǎo)致各個(gè)類別的結(jié)果差異很大。
綜上,我們可以得出,卡方檢驗(yàn)?zāi)軌蚩焖偬崛〕鲱悇e特征,保證低維特征能夠達(dá)到最佳效果,而對(duì)于此任務(wù),特征維度太大或者太小都不能達(dá)到最佳效果,300維的特征集為最佳特征集,四種方法都能達(dá)到一個(gè)比較理想的分類效果。
5結(jié)束語
本文通過對(duì)比實(shí)驗(yàn),驗(yàn)證了四種特征提取方法在同一數(shù)據(jù)集上特征提取效果以及不同維度設(shè)定對(duì)效果的影響。希望為大家在中文文本分類的實(shí)際應(yīng)用中特征維度以及特征提取方法的選取提供一定的幫助。
參考文獻(xiàn):
[1] 宗成慶. 統(tǒng)計(jì)自然語言處理[M]. 北京:清華大學(xué)出版社, 2008.
[2] 單麗莉,劉秉權(quán),孫承杰.文本分類中特征選擇方法的比較與改進(jìn)[D]. 哈爾濱工業(yè)大學(xué), 2011.
[3] 張玉芳,王勇,熊忠陽,等. 不平衡數(shù)據(jù)集上的文本分類特征選擇新方法.計(jì)算機(jī)應(yīng)用研究 , 2011.
[4] Pengfei Liu,Xipeng Qiu, Xuanjing Huang. AdversarialMulti-taskLearningforTextClassi?cation. 清華大學(xué)電子工程系, 2003.
[5] 叢帥,張積賓,徐志明,王宇. Feature selection algorithm for text classification based on improved mutual information. Journal of Computer Science & Technology, 2011.