史琬瑩
摘要 在互聯(lián)網(wǎng)飛速發(fā)展的背景下,面對(duì)龐大的數(shù)據(jù),我們急需一種有效的數(shù)據(jù)分類方式,樸素貝葉斯就是在這種情況下得廣泛關(guān)注的。樸素貝葉斯是一種基于條件獨(dú)立性和貝葉斯定理的分類方法。本文通過樸素貝葉斯原理,樸素貝葉斯分類流程,模型評(píng)估,介紹了如何用樸素貝葉斯方法處理文本分類問題。
[關(guān)鍵詞]樸素貝葉斯 特征選擇 文本分類
1 引言
隨著互聯(lián)網(wǎng)的飛速發(fā)展,海量數(shù)據(jù)注入到通訊設(shè)備中。如此大量的信息就讓信息檢索和數(shù)據(jù)挖掘的重要性更加突出。文本分類作為數(shù)據(jù)挖掘的一部分也逐漸被人們重視起來。其中文本分類的主要內(nèi)容是在預(yù)先給定的類標(biāo)簽的集合下,根據(jù)文章內(nèi)容,確定它的類別。當(dāng)前比較流行的文本分類方法主要包涵文本的表示,分類方法及效果,評(píng)估,這三部分。我們接下來將要通過三個(gè)方面來介紹:文本表示,分類器構(gòu)造和分類器評(píng)估。
2 樸素貝葉斯原理
樸素貝葉斯是基于條件獨(dú)立性和貝葉斯定理的分類方法。
2.1 條件獨(dú)立性
條件獨(dú)立性是指集合中任意兩個(gè)事件均為相互獨(dú)立事件,不存在依賴關(guān)系,滿足:
P(XY|Z)=P(X|Z)*P(Y|Z)
(1)
2.2 條件概率
條件概率是指事件x在另一個(gè)事件y發(fā)生的條件下,其發(fā)生的概率,可以表示為:
其中,P(X)表示X的先驗(yàn)概率或者稱為邊緣概率。P(Y|X)表示己知事件x發(fā)生后事件Y發(fā)生的條件概率,也稱Y的后驗(yàn)概率。
2.3 全概率公式
設(shè)實(shí)驗(yàn)E的樣本空間為S,Y1,…,Yn為S的一個(gè)劃分,且P(Yi》O(i=l,2,…,n),則對(duì)樣本空間中的任一事件X,恒有
P(X)=∑niP(Yi)P(XIYi)
(3)
2.4 貝葉斯公式
設(shè)Y1,Y2,…,Yn為樣本空間的一個(gè)劃分,X為Ω中的任一事件,且P(X)>O,則恒有
3 樸素貝葉斯分類流程
3.1 特征選擇
本文使用TFIDF做特征選擇。TF-IDF是一種用以評(píng)測(cè)某一個(gè)文件或是文件集,在所有語料中重要程度的統(tǒng)計(jì)方法,字詞的重要性與其在文件中出現(xiàn)的次數(shù)成正比,與在語料庫中出現(xiàn)的頻率成反比。
詞頻(TF)表示詞語在文件中出現(xiàn)的頻率。為了減小因文件長(zhǎng)度造成的誤差,通常以頻率表示這個(gè)數(shù)字。
對(duì)于在某個(gè)特定文件中的文本,它的重要性通??梢员硎緸椋?/p>
文件頻率(DF) DF,表示包含詞語t的文檔個(gè)數(shù)。
逆向文件頻率(IDF)用來表示詞語在文件中的普遍程度。用總文件數(shù)與包含該詞語的文件數(shù)目相除,可以得到該詞在文件中的普遍程度。若包含該詞的文件越少,則IDF值越大,則可以說明該詞區(qū)分某一類文件的能力較強(qiáng)。結(jié)算公式為:
在計(jì)算得到每個(gè)詞匯的TFIDF值以后,按照值的大小進(jìn)行遞減排序,選出TFIDF值較大的部分詞匯作為特征。
3.2 樸素貝葉斯模型計(jì)算流程
樸素貝葉斯模型的計(jì)算流程如下所示:
(1)設(shè)x為一個(gè)待分類項(xiàng);
(2)有類別集合C={y1,…ym);
(3)計(jì)算P(y1|x),…,P(yn|x);
(4) 如果P(yk|x)=max{P(y1|x),…, P(yn|x}),則x屬于yk。
根據(jù)上述分析,樸素貝葉斯流程如圖1表示。
4 模型評(píng)估
4.1 準(zhǔn)確率
準(zhǔn)確率是最常用的分類指標(biāo)。就最常見的二分類問題來說,模型的目的是分析出正類和負(fù)類。在測(cè)試集合中,被正確識(shí)別的量,除以測(cè)試集中的總量(包括把正樣本識(shí)別為負(fù)樣本以及把負(fù)樣本識(shí)別為負(fù)樣本的情況)就是準(zhǔn)確率。
4.2 精確度和召回率
精確度容易和準(zhǔn)確率混為一談。其實(shí),精確度針對(duì)的只是預(yù)測(cè)正確的樣本中,正樣本的數(shù)量。它可以由預(yù)測(cè)正確的樣本中,正樣本的數(shù)量除以模型中所有正樣本的數(shù)量總數(shù)得到。表現(xiàn)為預(yù)測(cè)為正的樣本中,真正是正的數(shù)目。
召回率表示對(duì)于測(cè)試集中的正樣本,分類器能識(shí)別出來的概率,它是用預(yù)測(cè)正確的正樣本數(shù)目除以測(cè)試集中所有的正樣本數(shù)目計(jì)算得出的。
4.3 混淆矩陣
混淆矩陣將實(shí)際樣本數(shù)和預(yù)測(cè)樣本數(shù)放到同一表格中進(jìn)行分析的方法,是用來計(jì)算準(zhǔn)確率、精確度、召回率常用的一種方法。對(duì)于二類分類問題而言,樣本一般會(huì)被標(biāo)為正類和負(fù)類,其中正類是我們關(guān)注的類型。
參考文獻(xiàn)
[1]蘇金樹,張博鋒,徐昕,基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展[J],軟件學(xué)報(bào),2006,17 (09):1848-1859.
[2]李學(xué)明,李海瑞,薛亮,何光軍,基于信息增益與信息熵的TFIDF算法[J].計(jì)算機(jī)工程,2012,38 (08):37-40.