□文/霍 亮楊 柳霍 烽
(1.河北金融學(xué)院;2.河北大學(xué)經(jīng)濟管理實驗教學(xué)中心;3.保定市科學(xué)技術(shù)協(xié)會 河北·保定)
談文本分類中的相關(guān)技術(shù)
□文/霍 亮1楊 柳2霍 烽3
(1.河北金融學(xué)院;2.河北大學(xué)經(jīng)濟管理實驗教學(xué)中心;3.保定市科學(xué)技術(shù)協(xié)會 河北·保定)
本文從整體上介紹文本分類系統(tǒng)的任務(wù),簡單描述文本分類的流程,并對文本表示、特征抽取和性能評價等關(guān)鍵環(huán)節(jié)常用的技術(shù)進行介紹。
文本分類;文本表示;特征抽取
收錄日期:2012年5月11日
簡單地說,文本分類系統(tǒng)的任務(wù)就是:在給定的分類體系下,根據(jù)文本的內(nèi)容自動確定文本的類別。從數(shù)學(xué)角度來看,文本分類是一個映射的過程,它將未標明類別的文本映射到已有的類別中,該映射可以是一對一的映射,也可以是一對多的映射,因為通常一篇文本可以同多個類別相關(guān)聯(lián)。文本分類的映射過程是根據(jù)映射規(guī)則完成的。映射規(guī)則是系統(tǒng)根據(jù)已經(jīng)掌握的每類樣本的數(shù)據(jù)信息,通過總結(jié)分類的規(guī)律性而建立的判別規(guī)則。在遇到新文本時,根據(jù)總結(jié)出的判別規(guī)則,確定新文本的類別。
人類在閱讀文章后,能夠根據(jù)自身的理解能力和已經(jīng)掌握的知識對文章內(nèi)容產(chǎn)生總體的認識,但計算機并不具有人類這樣的智能,因而它也就不能輕易地“讀懂”文章。因此,文本自動分類的基本問題是如何將文本按照計算機可以“理解”的方式進行有效的表示,從而在這個表示的基礎(chǔ)上進行分類。向量空間模型是目前常用的文本表示模型。
向量空間模型的基本思想是以文本的特征向量
在向量空間模型中,文本集合是用詞-文本形成的矩陣表示,矩陣中的每一項表示一個詞在某個文本中出現(xiàn)的情況:
這里aik表示詞i在文本k中的權(quán)重,因為詞不是均勻分布在各個文本中的,所以A通常為稀疏矩陣。
令fik表示詞i在文本k中出現(xiàn)的頻率,N為文本集合中文本的數(shù)目,ni為詞i在文本集合中出現(xiàn)的總次數(shù),下面介紹幾種計算權(quán)重的方法。
(1)布爾權(quán)重。這是最簡單的一種方法:如果詞在文本中出現(xiàn),其權(quán)重就為1,否則為0:
(2)詞頻權(quán)重。該方法直接使用詞頻作為權(quán)重:
(3)t f×idf權(quán)重。以上兩種方法都沒有考慮詞在文本集合中出現(xiàn)的頻率。tf×idf權(quán)重對此進行了改進:
(4)t fc權(quán)重。tf×idf權(quán)重沒有考慮到集合中文本長度的問題,tfc權(quán)重將長度歸一化因子作為計算詞權(quán)重的因素:
(5)l tc權(quán)重。ltc權(quán)重與tfc權(quán)重方法稍有不同,它不是簡單的采用詞頻,而是使用了詞頻的對數(shù),減小了因詞頻的差異所造成的影響:
(6)熵權(quán)重。熵權(quán)重基于信息理論,被認為是最經(jīng)典的權(quán)重衡量方法,詞i在文本k中的權(quán)重按如下公式計算:
通常情況下,構(gòu)成文本的詞匯數(shù)量是相當大的,這樣表示文本的向量空間的維數(shù)也會非常大,因此需要進行維數(shù)壓縮的工作。這樣做的目的主要有兩個:第一,提高分類效率;第二,提高分類精度。不同詞匯對文本分類的意義是不同的:通用的、在各個類別中都普遍存在的詞匯對分類的貢獻小;在某一類中出現(xiàn)的比重大而在其他類中出現(xiàn)的比重小的詞匯對文本分類的貢獻大。因此,我們應(yīng)去除那些對分類貢獻小的詞匯,篩選出每一類文本的特征項集合。下面簡單介紹幾種提取特征詞的方法:
(1)文本頻度閾值。這是最簡單的特征提取方法,包含某詞條的文本的數(shù)目被定義為該詞條的文本頻度。給定一文本頻度閾值,去掉文本頻度小于該閾值的詞條,剩余詞條即為特征詞。
(2)互信息。互信息衡量的是詞和類別之間的統(tǒng)計獨立關(guān)系,考慮詞t和類別c,互信息定義如下:
式中p(t∧c)表示t和 c同時出現(xiàn)的概率;p(t)為 t出現(xiàn)的概率;p(c)為 c 出現(xiàn)的概率。
(3)信息增益。信息增益需要已知某個詞在文本中是否出現(xiàn)及出現(xiàn)的情況。假設(shè)C1∪C2∪…∪Ck為已知的k個類別,對每個詞w,通過以下公式求出其IG值:
式中P(C)j表示Cj類文本占文本總數(shù)的比重;P(w)表示包含詞w的文本占文本總數(shù)的比重;P(Cj)表示 Cj類中包含詞w的文本占Cj類文本總數(shù)的比重;P(C)表示Cj類中不包含詞w的文本占Cj類文本總數(shù)的比重。
通過計算得到每個詞的IG值,再選取適當?shù)拈撝担槐A鬒G值大于此閾值的詞作為向量空間的特征項,即可達到降維的目的。
圖1 文本分類流程
在文本分類過程中,首先將文本表示成以某種形式的元素(通常用詞)表示的向量,然后按照某種方法進行特征提取,并用權(quán)值對提取的特征元素進行描述,這樣就可以對元素-權(quán)值表示的文本向量進行訓(xùn)練,得到向量模型(即分類器)。在對新文本進行分類時,同樣要將待分類的文本表示成元素-權(quán)值文本向量,然后將其與訓(xùn)練得到的向量模型進行比較,最終判斷其類別。圖1給出了文本分類的流程。(圖1)
本文主要對文本分類中的一些相關(guān)技術(shù)進行了總結(jié)。從整體上介紹了文本分類系統(tǒng)的任務(wù),簡單描述了文本分類的流程,并對文本表示、特征抽取幾個關(guān)鍵環(huán)節(jié)常用的技術(shù)進行了介紹。
[1]Salton G,Wang A,Yang C.A Vector Space Model for Information Retrieval[J].Journalof the America Society for Information Science,1975.18.
[2]宮秀軍,孫建平,史忠植.主動貝葉斯網(wǎng)絡(luò)分類器 [J].計算機研究與發(fā)展,2002.39.5.
[3]李靜梅,孫麗華,張巧榮等.一種文本處理中的樸素貝葉斯分類器[J].哈爾濱工程大學(xué)學(xué)報.
F49
A