• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于屬性加權(quán)核密度估計(jì)的樸素貝葉斯分類算法

      2016-09-08 01:52:18謝小軍陳光喜丁伯倫
      關(guān)鍵詞:密度估計(jì)互信息樸素

      謝小軍,陳光喜,丁伯倫

      (1.桂林電子科技大學(xué) 數(shù)學(xué)與計(jì)算科學(xué)學(xué)院,廣西 桂林 541004;2.安徽工程大學(xué)機(jī)電學(xué)院,安徽 蕪湖 241000)

      ?

      基于屬性加權(quán)核密度估計(jì)的樸素貝葉斯分類算法

      謝小軍1,陳光喜1,丁伯倫2

      (1.桂林電子科技大學(xué) 數(shù)學(xué)與計(jì)算科學(xué)學(xué)院,廣西 桂林541004;2.安徽工程大學(xué)機(jī)電學(xué)院,安徽 蕪湖241000)

      為了削弱樸素貝葉斯分類算法的屬性條件獨(dú)立性假設(shè),提出了一種屬性加權(quán)核密度估計(jì)的樸素貝葉斯分類算法。該算法結(jié)合條件屬性與決策屬性的相關(guān)系數(shù)以及互信息得到新的屬性加權(quán)值,并將該加權(quán)值嵌入核密度估計(jì)的樸素貝葉斯分類算法。實(shí)驗(yàn)結(jié)果表明,該算法提高了分類準(zhǔn)確率。

      屬性加權(quán);核密度估計(jì);樸素貝葉斯;分類

      分類是數(shù)據(jù)挖掘的核心之一。分類算法的目的是構(gòu)造分類模型,該模型通過分析訓(xùn)練樣本數(shù)據(jù)建立分類模型,并對未知類別的數(shù)據(jù)進(jìn)行分類預(yù)測。樸素貝葉斯算法由于計(jì)算高效、精度高,被廣泛應(yīng)用于模式識別、垃圾郵件處理、故障檢測、自然語言處理、機(jī)器人導(dǎo)航等領(lǐng)域[1-4]。樸素貝葉斯算法的前提是在給定分類特征的條件下屬性之間相互獨(dú)立,而現(xiàn)實(shí)中常常不能滿足屬性獨(dú)立性假設(shè)。針對此問題,研究人員做了大量的研究工作。文獻(xiàn)[5-8]分別使用粗糙集屬性重要度、屬性之間互信息、屬性之間相關(guān)系數(shù)、分類概率建立了加權(quán)樸素貝葉斯分類模型。文獻(xiàn)[9]提出了一種基于加權(quán)核密度估計(jì)的半樸素貝葉斯分類模型,采用最小二乘交叉驗(yàn)證方法選擇最優(yōu)加權(quán)值。文獻(xiàn)[10]提出了一種新的加權(quán)核密度估計(jì)的樸素貝葉斯算法,該算法利用屬性之間互信息,對分類屬性進(jìn)行屬性加權(quán),并結(jié)合核密度估計(jì)方法,減弱了樸素貝葉斯算法的屬性獨(dú)立性假設(shè)。

      鑒于此,基于屬性加權(quán)[11],提出了一種新的加權(quán)核密度估計(jì)的樸素貝葉斯分類算法。該算法通過計(jì)算條件屬性與決策屬性的相關(guān)系數(shù),并結(jié)合互信息作為新的屬性加權(quán)值,然后將屬性加權(quán)值嵌入到核密度估計(jì)方法,以提高樸素貝葉斯算法的分類性能。

      1 樸素貝葉斯分類算法

      (1)

      (2)

      假設(shè)測試實(shí)例t=〈a1,a2,…,an〉,樸素貝葉斯分類算法得到實(shí)例t的類別預(yù)測為:

      (3)

      2 加權(quán)的樸素貝葉斯分類模型

      樸素貝葉斯算法在實(shí)際中難以滿足屬性獨(dú)立性假設(shè),不同的屬性根據(jù)其分類重要性賦予不同的加權(quán)值,則加權(quán)樸素貝葉斯分類模型為:

      (4)

      其中Wci為屬性Ai的加權(quán)值。若屬性Ai在數(shù)據(jù)集D中能提供更多的信息以減少類別的熵,則屬性Ai應(yīng)該分配更大的加權(quán)值。

      3 屬性加權(quán)核密度估計(jì)的樸素貝葉斯分類模型

      3.1核密度估計(jì)

      給定樣本X=〈x1,x2,…,xn〉,其中xi為樣本X的屬性Ai的值,其核函數(shù)為:

      (5)

      (6)

      對所有的屬性構(gòu)造一組參數(shù)值,并定義損失函數(shù)為:

      (7)

      (8)

      屬性加權(quán)核密度估計(jì)的樸素貝葉斯分類模型為:

      (10)

      3.2屬性加權(quán)

      屬性加權(quán)通過求條件屬性與決策屬性的相關(guān)系數(shù),并結(jié)合互信息得到新的加權(quán)值[11]。條件屬性與決策屬性的相關(guān)度越高,則該條件屬性對分類的影響就越大;反之條件屬性與決策屬性之間的相關(guān)度越小,則該條件屬性對分類的影響就越小。條件屬性X與決策屬性Y之間的相關(guān)系數(shù)為:

      (11)

      設(shè)加權(quán)值為:

      (12)

      相關(guān)系數(shù)側(cè)重于屬性間的偏離程度,它對屬性的變化不敏感,故結(jié)合互信息獲得更好的加權(quán)值。條件屬性Ai與決策屬性的互信息定義為:

      (13)

      I(Ai,C)越大,則屬性Ai對決策C越重要,故屬性Ai的加權(quán)值為:

      (14)

      綜合相關(guān)系數(shù)與互信息的加權(quán)值,則新的加權(quán)值為:

      (15)

      屬性加權(quán)核密度估計(jì)的樸素貝葉斯分類模型構(gòu)造步驟為:

      1)利用數(shù)據(jù)預(yù)處理技術(shù)將原始數(shù)據(jù)補(bǔ)齊和離散化。

      2)構(gòu)造分類器:

      b)通過式(12)計(jì)算條件屬性對應(yīng)的加權(quán)值Wc,然后通過式(13)計(jì)算每個條件屬性和決策屬性對應(yīng)的互信息I(Ai,C)、加權(quán)值Wi,綜合Wc和Wi得Wci;

      3)分類評估,根據(jù)分類模型(10)得到分類結(jié)果。

      4 仿真實(shí)驗(yàn)

      實(shí)驗(yàn)采用UCI(university of California in Irvine)機(jī)器學(xué)習(xí)數(shù)據(jù)庫的8個數(shù)據(jù)集進(jìn)行測試,其中訓(xùn)練集為70%,測試集為30%。預(yù)處理后的實(shí)驗(yàn)數(shù)據(jù)集及算法分類結(jié)果如表1所示。其中:NBA表示樸素貝葉斯分類算法;NBAWKDE表示以互信息作為權(quán)值的加權(quán)核密度估計(jì)的樸素貝葉斯分類算法;NBA-AWI表示結(jié)合互信息與相關(guān)系數(shù)的加權(quán)樸素貝葉斯分類算法;NBAWKDE-AWI表示結(jié)合互信息與相關(guān)系數(shù)的屬性加權(quán)核密度估計(jì)的樸素貝葉斯分類算法。

      表1  預(yù)處理后的實(shí)驗(yàn)數(shù)據(jù)集及分類結(jié)果

      由表1可知,除了在實(shí)例數(shù)較小的數(shù)據(jù)集Iris和Waveform,NBAWKDE分類準(zhǔn)確率小于NBA外,在其他數(shù)據(jù)集NBAWKDE的分類準(zhǔn)確率大于NBA,NBAWKDE更適合實(shí)例數(shù)大的數(shù)據(jù)集進(jìn)行分類。在8個數(shù)據(jù)集中,NBAWKDE-AWI分類準(zhǔn)確率大于NBA、NBAWKDE,說明結(jié)合互信息與相關(guān)系數(shù)的屬性加權(quán)核密度估計(jì)的樸素貝葉斯算法分類更加準(zhǔn)確,可以提高分類器的性能。

      5 結(jié)束語

      通過計(jì)算條件屬性與決策屬性的相關(guān)系數(shù),結(jié)合互信息作為屬性權(quán)值,提出了一種新的屬性加權(quán)核密度估計(jì)的樸素貝葉斯算法。仿真實(shí)驗(yàn)表明,該算法是有效和可行的。

      [1]馬小龍.一種改進(jìn)的貝葉斯算法在垃圾郵件過濾中的研究[J].計(jì)算機(jī)應(yīng)用研究,2012,29(3):1091-1094.

      [2]張輪,楊文臣,劉拓,等.基于樸素貝葉斯分類的高速公路交通事件檢測[J].同濟(jì)大學(xué)學(xué)報(自然科學(xué)版),2014,42(4):558-563.

      [3]朱克楠,尹寶林,冒亞明,等.基于有效窗口和樸素貝葉斯的惡意代碼分類[J].計(jì)算機(jī)研究與發(fā)展,2014(2):373-381.

      [4]蘇中,張宏江,馬少平.基于貝葉斯分類器的圖像檢索相關(guān)反饋算法[J].軟件學(xué)報,2002,13(10):2001-2006.

      [5]鄧維斌,王國胤,王燕.基于Rough Set的加權(quán)樸素貝葉斯分類算法[J].計(jì)算機(jī)科學(xué), 2007,34(2):204-206.

      [6]張明衛(wèi),王波,張斌,等.基于相關(guān)系數(shù)的加權(quán)樸素貝葉斯分類算法[J].東北大學(xué)學(xué)報(自然科學(xué)版),2008,29(7):952-955.

      [7]鄭默,劉瓊蓀.一種屬性相關(guān)性的加權(quán)貝葉斯分類算法研究[J].微型機(jī)與應(yīng)用,2011,30(7):96-98.

      [8]張步良.基于分類概率加權(quán)的樸素貝葉斯分類方法[J].重慶理工大學(xué)學(xué)報(自然科學(xué)版),2012,26(7):81-83.

      [9]CHEN L,WANG S.Semi-naive Bayesian classification by weighted kernel density estimation[C]//8th International Conference on Advanced Data Mining and Applications,2012:260-270.

      [10]XIANG Z L,YU X R,HUI A W M,et al. Novel naive Bayes based on attribute weighting in kernel density estimation[C]//2014 Joint 7th International Conference on Soft Computing and Intelligent Systems and 15th International Symposium on Advanced Intelligent Systems,2014:1439-1442.

      [11]劉牛.基于屬性加權(quán)的樸素貝葉斯分類算法改進(jìn)[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2011(6):72-74.

      編輯:曹壽平

      A naive Bayes classification algorithm based on attribute weighting and kernel density estimation

      XIE Xiaojun1, CHEN Guangxi1, DING Bolun2

      (1.School of mathematics and computational science, Guilin University of Electronic Technology, Guilin 541004, China;2.College of Mechanical and Electrical Engineering, Anhui Polytechnic University, Wuhu 241000, China)

      In order to weaken the attribute conditional independence assumption in the naive Bayes classification algorithm, a naive Bayes classification algorithm based on attribute weighting and kernel density estimation is presented. Combining the correlation coefficients of conditional attributes and decision attributes with mutual information, a new attribute weighting is obtained. Then the weighting is embedded into the naive Bayes classification algorithm based on kernel density estimation. Experimental results show that the classification accuracy is improved by the proposed algorithm.

      attribute weighting; kernel density estimation; naive Bayes; classification

      2015-12-14

      廣西自然科學(xué)基金(2013GXNSFC019330);廣西教育廳科研項(xiàng)目(2013YB086)

      陳光喜(1971-),男,四川金堂人,教授,博士,研究方向?yàn)榭尚庞?jì)算、圖像處理。E-mail:chgx@guet.edu.cn

      TP181

      A

      1673-808X(2016)03-0231-03

      引文格式: 謝小軍,陳光喜,丁伯倫.基于屬性加權(quán)核密度估計(jì)的樸素貝葉斯分類算法[J].桂林電子科技大學(xué)學(xué)報,2016,36(3):231-233.

      猜你喜歡
      密度估計(jì)互信息樸素
      中國人均可支配收入的空間區(qū)域動態(tài)演變與差異分析
      m-NOD樣本最近鄰密度估計(jì)的相合性
      面向魚眼圖像的人群密度估計(jì)
      隔離樸素
      基于MATLAB 的核密度估計(jì)研究
      科技視界(2021年4期)2021-04-13 06:03:56
      樸素的安慰(組詩)
      他是那樣“笨拙”和樸素——30多年后,我們?yōu)槭裁催€需要讀路遙?
      最神奇最樸素的兩本書
      基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      赤壁市| 枝江市| 弥渡县| 河北省| 新和县| 永川市| 凤山市| 乌兰浩特市| 瓦房店市| 宝应县| 大渡口区| 建水县| 黔南| 白玉县| 福海县| 元江| 城口县| 紫阳县| 武汉市| 新河县| 北票市| 左云县| 郧西县| 图木舒克市| 铜梁县| 双鸭山市| 东乡县| 嵊泗县| 舟山市| 德保县| 汝州市| 衢州市| 磐安县| 宜宾县| 噶尔县| 平陆县| 临江市| 楚雄市| 清涧县| 大足县| 伊川县|