• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于TAN結構的貝葉斯文本分類器研究

      2012-08-13 09:19:14王景中易路杰
      網(wǎng)絡安全技術與應用 2012年1期
      關鍵詞:詞頻樸素貝葉斯

      王景中 易路杰

      北方工業(yè)大學信息工程學院 北京 100144

      0 引言

      樸素貝葉斯分類器是貝葉斯分類中一種最常見且原理簡單,實際應用很成功的方法。樸素貝葉斯分類器中的“樸素”主要是指假設各屬性間相互獨立。在文本分類中,假設不同的特征項在確定的類別下的條件概率分布相互獨立,這樣在計算特征項之間的聯(lián)合分布概率時可以大大提高分類器的速度。目前,很多文本分類系統(tǒng)都采用貝葉斯分類算法,在郵件分類、電子會議、信息過濾等方面都有了廣泛的應用。

      1 樸素貝葉斯分類器

      1.1 貝葉斯公式介紹

      貝葉斯定理為:設S為試驗E的樣本空間,A為E的事件,B1,B2,…Bn為S的一個劃分,且有P(A)>0,P(Bi)>0(i=1,2,…n),則有:

      1.2 貝葉斯文本分類

      貝葉斯文本分類模型是一種基于統(tǒng)計方法的分類模型,是現(xiàn)有文本分類算法中最有效的方法之一。其基本原理是:通過樣本數(shù)據(jù)的先驗概率信息計算確定事件的后驗概率。在文本分類中的應用為:通過計算給定文本的特征值在樣本庫中某一確定類Ci中的先驗概率,得出給定文本的特征值屬于Ci類的后驗概率,再通過比較,得出后驗概率最大的即為給定文本最可能屬于的類別。因此,貝葉斯類別判別式為:

      本文采用布爾表示法描述文本,每個文本表示為特征矢量(w1,w2,…w),V為特征詞表,為特征詞表總詞數(shù),V=(B1, B2,…B)。特征矢量中的wi={0,1},1表示特征詞表中的第i個詞出現(xiàn),0表示沒有出現(xiàn)。

      根據(jù)貝葉斯公式:

      式中P( Ci)為樣本集中屬于Ci類的概率,為Ci類中給定文本特征詞的概率。

      式中P( Ci)的值為每個類別在樣本集中的頻率,即為樣本集中屬于Ci類的文本數(shù)與樣本集中的總的文本數(shù)的比率。的值計算比較困難,理論上只有建立一個足夠大的樣本集才能準確得到。如何得出的值也是貝葉斯算法的關鍵,直接影響分類的性能。目前只能通過估算得出。

      由于貝葉斯分類模型的假設,文本特征屬性之間獨立同分布,因此各屬性聯(lián)合概率等于各屬性概率的乘積,即:

      式中P(wj/Ci)為Ci類文本中wj的詞頻與Ci類文本的總詞頻的比率。在本文中P(wj/Ci)的值估算采用下式:

      式中Nwj表示特征詞的詞頻,表示類文本數(shù),B(Ci/dk)={0,1},1表示文本dk屬于Ci類,0表示不屬于Ci類。

      1.3 TAN結構的貝葉斯文本分類

      由Friedman等人提出的TAN(Tree Augmented Naive)樹狀結構模型,使樸素貝葉斯模型獨立性假設更符合實際。在應用中的主要思路是采用貝葉斯網(wǎng)絡中的表示依賴關系的方法,在其中的各葉節(jié)點之間增加一些必要的邊,用來表示各屬性變量之間的關系,從而放寬了樸素貝葉斯中的獨立性假設。

      樸素貝葉斯理論的獨立性假設即要求每個屬性有且僅有一個父節(jié)點,為類節(jié)點。而 TAN模型中,用節(jié)點表示屬性,通過有向邊表示屬性間的關系,把類別屬性作為根節(jié)點,其余屬性作為它的子節(jié)點。在具體實現(xiàn)時這些增加的邊需滿足兩個條件,首先,類別變量沒有父節(jié)點。其次,每個屬性變量有一個類變量為父節(jié)點和最多另一個屬性變量作為其父節(jié)點,即

      在給定待分類文本中,貝葉斯分類器選擇后驗概率最大的CNB為該文本所屬類別,據(jù)(3)式、(4)式得:

      式中πwj代表wj的父節(jié)點集。增加有向邊后πwj具有兩種形式:πwj沒有非類父節(jié)點和πwj有一個非類父節(jié)點。因此要計算(6)式就需要估算出三個值:P(Ci)、P(wj/Ci)、P(wj/Ci,ws)。前兩個值在上文中已經(jīng)說明,而P(wj/Ci,ws)為在Ci類中,ws出現(xiàn)時wj的概率。因此這里就考慮了兩個詞之間的關系。P(wj/Ci,ws)的值等于Ci類文本中出現(xiàn)ws的文本中wj的總詞頻與Ci類中出現(xiàn)ws的文檔的總詞頻的比率。即:

      2 實驗結果

      目前,人們最常用的評價分類性能的指標是查準率(精確率)和查全率(召回率)。查準率是指分類器正確判別為該類的測試樣本數(shù)與分類器判別為該類的測試樣本總數(shù)的比率。查全率是指分類器正確判別為該類的測試樣本數(shù)與該類的總測試樣本數(shù)的比率。以上兩個指標體現(xiàn)了文本分類質(zhì)量的兩個方面,需要綜合考慮,因此有F1測試作為綜合評估指標。

      實驗選取中文自然語言處理開發(fā)平臺提供的語料庫的文章,選擇六類文本進行測試,分別是計算機、農(nóng)業(yè)、經(jīng)濟、藝術、環(huán)境、政治,共1800篇,每類300篇。其中從每類中選取200篇為訓練樣本文檔,余下100篇為測試文檔。測試結果見表1。

      表1 實驗結果

      從表1可看出,在所取測試集中,平均查準率達到0.80,平均查全率達到 0.79,平均F1測試值達到 0.79?;具_到了文本分類的效果。

      3 結束語

      上述樸素貝葉斯分類算法基本實現(xiàn)了文本分類,但是還存在著一些問題。首先 TAN結構雖然考慮了兩兩屬性間的關聯(lián),但文本中屬性之間可能存在的其他更多的關聯(lián)并沒有考慮到,因此適用范圍還是有一定的局限性。還有在計算特征詞屬于某一確定的類的概率時,由于訓練集的選擇不同,或者訓練集不足夠大,這會有某些不常見的特征詞在訓練庫中不出現(xiàn),而樸素貝葉斯判別式是一個乘積的值,這樣就會對結果影響很大。這些問題在以后的工作中還需要不斷的改進。

      [1] 陳葉旺,余金山.一種改進的樸素貝葉斯文本分類方法[J].華僑大學學報(自然科學版).2011.

      [2] 陳欣,張菁,李曉光.一種面向中文敏感網(wǎng)頁識別的文本分類方法[J].測控技術.2011.

      [3]張玉芳,陳劍敏,熊忠陽.一種改進的貝葉斯文本分類方法[J].華僑大學學報(自然科學版).2007.

      [4] 史瑞芳.貝葉斯文本分類器的研究與改進[J].計算機工程與應用.2009.

      [5] 王瀟,胡鑫,三種分類算法的比較[J].石河子大學學報(自然科學版).2005.

      [6] 石洪波,王志海,黃厚寬.貝葉斯文本分類方法研究[J].山西大學學報[J].2002.

      [7] 安艷輝,董五洲,游自英.基于改進的樸素貝葉斯文本分類研究[J].河北省科學院學報.2007.

      [8] 劉沛騫,馮晶晶.一種改進的樸素貝葉斯文本分類算法[J].微計算機信息.2010.

      [9] 梁宏勝,徐建民,成岳鵬.一種改進的樸素貝葉斯文本分類方法[J].河北大學學報(自然科學版).2007.

      [10] 余芳,姜云飛.一種基于樸素貝葉斯分類的特征選擇方法[J].2004.

      猜你喜歡
      詞頻樸素貝葉斯
      基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
      園林科技(2021年3期)2022-01-19 03:17:48
      隔離樸素
      樸素的安慰(組詩)
      四川文學(2020年11期)2020-02-06 01:54:30
      他是那樣“笨拙”和樸素——30多年后,我們?yōu)槭裁催€需要讀路遙?
      當代陜西(2019年23期)2020-01-06 12:18:04
      最神奇最樸素的兩本書
      當代陜西(2019年9期)2019-05-20 09:47:38
      貝葉斯公式及其應用
      基于貝葉斯估計的軌道占用識別方法
      一種基于貝葉斯壓縮感知的說話人識別方法
      電子器件(2015年5期)2015-12-29 08:43:15
      詞頻,一部隱秘的歷史
      云存儲中支持詞頻和用戶喜好的密文模糊檢索
      井陉县| 永清县| 潼南县| 法库县| 北安市| 东海县| 红安县| 荔浦县| 贡嘎县| 任丘市| 酒泉市| 太仓市| 诏安县| 托里县| 榆社县| 手游| 阜城县| 泰兴市| 双流县| 和静县| 外汇| 县级市| 庄浪县| 建湖县| 五莲县| 九江市| 万山特区| 那坡县| 沂水县| 达尔| 凤山县| 房产| 盐亭县| 台北市| 枣阳市| 武乡县| 京山县| 雷波县| 石台县| 茶陵县| 南乐县|