王景中 易路杰
北方工業(yè)大學信息工程學院 北京 100144
樸素貝葉斯分類器是貝葉斯分類中一種最常見且原理簡單,實際應用很成功的方法。樸素貝葉斯分類器中的“樸素”主要是指假設各屬性間相互獨立。在文本分類中,假設不同的特征項在確定的類別下的條件概率分布相互獨立,這樣在計算特征項之間的聯(lián)合分布概率時可以大大提高分類器的速度。目前,很多文本分類系統(tǒng)都采用貝葉斯分類算法,在郵件分類、電子會議、信息過濾等方面都有了廣泛的應用。
貝葉斯定理為:設S為試驗E的樣本空間,A為E的事件,B1,B2,…Bn為S的一個劃分,且有P(A)>0,P(Bi)>0(i=1,2,…n),則有:
貝葉斯文本分類模型是一種基于統(tǒng)計方法的分類模型,是現(xiàn)有文本分類算法中最有效的方法之一。其基本原理是:通過樣本數(shù)據(jù)的先驗概率信息計算確定事件的后驗概率。在文本分類中的應用為:通過計算給定文本的特征值在樣本庫中某一確定類Ci中的先驗概率,得出給定文本的特征值屬于Ci類的后驗概率,再通過比較,得出后驗概率最大的即為給定文本最可能屬于的類別。因此,貝葉斯類別判別式為:
本文采用布爾表示法描述文本,每個文本表示為特征矢量(w1,w2,…w),V為特征詞表,為特征詞表總詞數(shù),V=(B1, B2,…B)。特征矢量中的wi={0,1},1表示特征詞表中的第i個詞出現(xiàn),0表示沒有出現(xiàn)。
根據(jù)貝葉斯公式:
式中P( Ci)為樣本集中屬于Ci類的概率,為Ci類中給定文本特征詞的概率。
式中P( Ci)的值為每個類別在樣本集中的頻率,即為樣本集中屬于Ci類的文本數(shù)與樣本集中的總的文本數(shù)的比率。的值計算比較困難,理論上只有建立一個足夠大的樣本集才能準確得到。如何得出的值也是貝葉斯算法的關鍵,直接影響分類的性能。目前只能通過估算得出。
由于貝葉斯分類模型的假設,文本特征屬性之間獨立同分布,因此各屬性聯(lián)合概率等于各屬性概率的乘積,即:
式中P(wj/Ci)為Ci類文本中wj的詞頻與Ci類文本的總詞頻的比率。在本文中P(wj/Ci)的值估算采用下式:
式中Nwj表示特征詞的詞頻,表示類文本數(shù),B(Ci/dk)={0,1},1表示文本dk屬于Ci類,0表示不屬于Ci類。
由Friedman等人提出的TAN(Tree Augmented Naive)樹狀結構模型,使樸素貝葉斯模型獨立性假設更符合實際。在應用中的主要思路是采用貝葉斯網(wǎng)絡中的表示依賴關系的方法,在其中的各葉節(jié)點之間增加一些必要的邊,用來表示各屬性變量之間的關系,從而放寬了樸素貝葉斯中的獨立性假設。
樸素貝葉斯理論的獨立性假設即要求每個屬性有且僅有一個父節(jié)點,為類節(jié)點。而 TAN模型中,用節(jié)點表示屬性,通過有向邊表示屬性間的關系,把類別屬性作為根節(jié)點,其余屬性作為它的子節(jié)點。在具體實現(xiàn)時這些增加的邊需滿足兩個條件,首先,類別變量沒有父節(jié)點。其次,每個屬性變量有一個類變量為父節(jié)點和最多另一個屬性變量作為其父節(jié)點,即
在給定待分類文本中,貝葉斯分類器選擇后驗概率最大的CNB為該文本所屬類別,據(jù)(3)式、(4)式得:
式中πwj代表wj的父節(jié)點集。增加有向邊后πwj具有兩種形式:πwj沒有非類父節(jié)點和πwj有一個非類父節(jié)點。因此要計算(6)式就需要估算出三個值:P(Ci)、P(wj/Ci)、P(wj/Ci,ws)。前兩個值在上文中已經(jīng)說明,而P(wj/Ci,ws)為在Ci類中,ws出現(xiàn)時wj的概率。因此這里就考慮了兩個詞之間的關系。P(wj/Ci,ws)的值等于Ci類文本中出現(xiàn)ws的文本中wj的總詞頻與Ci類中出現(xiàn)ws的文檔的總詞頻的比率。即:
目前,人們最常用的評價分類性能的指標是查準率(精確率)和查全率(召回率)。查準率是指分類器正確判別為該類的測試樣本數(shù)與分類器判別為該類的測試樣本總數(shù)的比率。查全率是指分類器正確判別為該類的測試樣本數(shù)與該類的總測試樣本數(shù)的比率。以上兩個指標體現(xiàn)了文本分類質(zhì)量的兩個方面,需要綜合考慮,因此有F1測試作為綜合評估指標。
實驗選取中文自然語言處理開發(fā)平臺提供的語料庫的文章,選擇六類文本進行測試,分別是計算機、農(nóng)業(yè)、經(jīng)濟、藝術、環(huán)境、政治,共1800篇,每類300篇。其中從每類中選取200篇為訓練樣本文檔,余下100篇為測試文檔。測試結果見表1。
表1 實驗結果
從表1可看出,在所取測試集中,平均查準率達到0.80,平均查全率達到 0.79,平均F1測試值達到 0.79?;具_到了文本分類的效果。
上述樸素貝葉斯分類算法基本實現(xiàn)了文本分類,但是還存在著一些問題。首先 TAN結構雖然考慮了兩兩屬性間的關聯(lián),但文本中屬性之間可能存在的其他更多的關聯(lián)并沒有考慮到,因此適用范圍還是有一定的局限性。還有在計算特征詞屬于某一確定的類的概率時,由于訓練集的選擇不同,或者訓練集不足夠大,這會有某些不常見的特征詞在訓練庫中不出現(xiàn),而樸素貝葉斯判別式是一個乘積的值,這樣就會對結果影響很大。這些問題在以后的工作中還需要不斷的改進。
[1] 陳葉旺,余金山.一種改進的樸素貝葉斯文本分類方法[J].華僑大學學報(自然科學版).2011.
[2] 陳欣,張菁,李曉光.一種面向中文敏感網(wǎng)頁識別的文本分類方法[J].測控技術.2011.
[3]張玉芳,陳劍敏,熊忠陽.一種改進的貝葉斯文本分類方法[J].華僑大學學報(自然科學版).2007.
[4] 史瑞芳.貝葉斯文本分類器的研究與改進[J].計算機工程與應用.2009.
[5] 王瀟,胡鑫,三種分類算法的比較[J].石河子大學學報(自然科學版).2005.
[6] 石洪波,王志海,黃厚寬.貝葉斯文本分類方法研究[J].山西大學學報[J].2002.
[7] 安艷輝,董五洲,游自英.基于改進的樸素貝葉斯文本分類研究[J].河北省科學院學報.2007.
[8] 劉沛騫,馮晶晶.一種改進的樸素貝葉斯文本分類算法[J].微計算機信息.2010.
[9] 梁宏勝,徐建民,成岳鵬.一種改進的樸素貝葉斯文本分類方法[J].河北大學學報(自然科學版).2007.
[10] 余芳,姜云飛.一種基于樸素貝葉斯分類的特征選擇方法[J].2004.