夏貞麗
【摘要】貝葉斯判別法是假定對研究對象已有一定的認識, 并且它是常用先驗分布來描述,取得樣本之后,就可以是樣本來修正原先的先驗概率分布,得出后驗概率分布。本文將使用貝葉斯判別方法對數(shù)據(jù)集iris進行分類。
【關(guān)鍵詞】貝葉斯判別 R語言 多分類問題
一、貝葉斯判別方法的理論基礎(chǔ)
貝葉斯判別的其實是找到一種判別方法, 當平均誤判損失達到最小時,也就是相應(yīng)的概率達到最大.
假設(shè)樣本共有K類,分別是,X1,X2…Xk,相應(yīng)的先驗概率為,p1,p2…p3,并假設(shè)所有錯判損失相同,因此相應(yīng)的判別準則為
程序分別考慮了總體協(xié)方差陣相同和協(xié)方差陣不同的情況。輸入變量TrnX表示訓練樣本,其輸入格式是矩陣(樣本按行輸入)或數(shù)據(jù)框。TrnG是因子變量,表示訓練樣本的分類情況,輸入變量p是先驗概率,默認值均為1.輸入變量Tst是待測樣本,其輸入格式是矩陣(樣本按行輸入),數(shù)據(jù)框或向量(一個待測樣本)。如果不輸入TstX(默認值),則待測樣本是訓練樣本,輸入變量var.equal是邏輯變量,var.equal=TRUE表示認為總體協(xié)方差陣相同:否則(默認值)是不同的。函數(shù)的輸出是由數(shù)字構(gòu)成一維矩陣,數(shù)字表示相應(yīng)的類。
三、貝葉斯判別法的結(jié)果分析
數(shù)據(jù):Iris數(shù)據(jù)集有四個屬性,萼片的長度,萼片的寬度,花瓣長度和花瓣寬度,數(shù)據(jù)共有150個樣本,分為3類,前50個數(shù)據(jù)是第一類——Setosa,中間的50個數(shù)據(jù)是第二類——Versicolor,最后50個數(shù)據(jù)集是第三類——Virginica。
分析:從計算的結(jié)果可以得到,只有第71,73,84號樣本錯判,回帶的判別正確率為147/150=98%.
參考文獻
[1]薛毅,陳立萍.R統(tǒng)計建模與R軟件[M].清華大學出版社.
[2]張亞萍,胡學鋼.基于K-means的樸素貝葉斯分類算法的研究[J].計算機技術(shù)與發(fā)展,2007:33-35.
[3]周顏軍,王雙成等.基于貝葉斯網(wǎng)絡(luò)的分類器研究[J].東北師大學報(自然科學版),2003,(2):25-31.endprint