• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      樸素貝葉斯模型及樸素貝葉斯假設(shè)改進(jìn)

      2017-07-25 09:25:12李文超王彥焱吉林大學(xué)軟件學(xué)院
      數(shù)碼世界 2017年7期
      關(guān)鍵詞:樸素獨(dú)立性貝葉斯

      李文超 王彥焱 吉林大學(xué)軟件學(xué)院

      樸素貝葉斯模型及樸素貝葉斯假設(shè)改進(jìn)

      李文超 王彥焱 吉林大學(xué)軟件學(xué)院

      分類問(wèn)題是數(shù)據(jù)挖掘領(lǐng)域內(nèi)的重要研究課題,而樸素貝葉斯分類是最常見(jiàn)的分類算法之一。本文系統(tǒng)的探討了對(duì)NB模型中的樸素貝葉斯假設(shè)進(jìn)行改進(jìn)的多種方法,介紹了樸素貝葉斯模型及多種擴(kuò)展模型,并對(duì)模型的優(yōu)劣進(jìn)行了簡(jiǎn)單分析。

      樸素貝葉斯 分類模型 數(shù)據(jù)挖掘

      1 引言

      樸素貝葉斯(Naive Bayes)分類器是一種簡(jiǎn)單而高效的分類器,它可以與決策樹(shù)和經(jīng)過(guò)挑選的神經(jīng)網(wǎng)絡(luò)分類器等算法相媲美。但是樸素貝葉斯算法對(duì)各屬性相互獨(dú)立的要求過(guò)于苛刻,于是人們采用不同的辦法進(jìn)行改進(jìn)。本文對(duì)其進(jìn)行系統(tǒng)的整理。

      2 樸素貝葉斯模型

      2.1 模型描述

      樸素貝葉斯分類器(Naive Bayes Classifier,NBC)是最基本的貝葉斯模型。模型結(jié)構(gòu)如圖1所示:

      圖1 樸素貝葉斯模型結(jié)構(gòu)圖

      給定的數(shù)據(jù)集屬性過(guò)多時(shí),計(jì)算開(kāi)銷可能過(guò)大。此時(shí)可以做類條件獨(dú)立的樸素假定,假設(shè)各屬性值獨(dú)立于類別變量C,此時(shí),=1

      k。若ak是分類屬性,則是屬性為ak的值為 xk的Ci類的元組數(shù)除以Ci類的總元組數(shù);若ak是連續(xù)值屬性,則可按照高斯分布計(jì)算。

      分類器訓(xùn)練完畢后,為了預(yù)測(cè)元組x的類標(biāo)號(hào),對(duì)每個(gè)類Ci,計(jì)算上述步驟(2)中分子的值,使該值最大化的即為被預(yù)測(cè)的類別。

      2.2 模型主要優(yōu)缺點(diǎn)

      優(yōu)點(diǎn):公式形式簡(jiǎn)單,均為數(shù)學(xué)中的基本公式,可擴(kuò)展性強(qiáng);模型時(shí)間和空間復(fù)雜性小,易于實(shí)現(xiàn);算法的性能穩(wěn)定,模型的健壯性較好。

      缺點(diǎn):實(shí)際問(wèn)題中元組各屬性的相互獨(dú)立性很難實(shí)現(xiàn),所以該模型無(wú)法處理組合特征產(chǎn)生的變化結(jié)果;算法依賴于所選的訓(xùn)練集的質(zhì)量,如果訓(xùn)練集含有較多噪聲,則分類結(jié)果的準(zhǔn)確性將受明顯影響。

      3 半樸素貝葉斯分類模型

      3.1 模型描述

      SNBC的基本想法是適當(dāng)考慮一部分屬性間的相互依賴信息,從而既不需要進(jìn)行完全聯(lián)合概率計(jì)算,又不至于徹底忽略了比較強(qiáng)的屬性依賴關(guān)系。實(shí)際上,SNBC將屬性劃分為幾個(gè)沒(méi)有交集的屬性組,使得屬性組以獨(dú)立的方式存在,這樣就實(shí)現(xiàn)了屬性組間的獨(dú)立性,放低了對(duì)屬性間完全獨(dú)立的要求。SNBC的模型圖如圖2所示:

      圖2 半樸素貝葉斯模型結(jié)構(gòu)圖

      在實(shí)際問(wèn)題中應(yīng)用SNBC時(shí),最常用的一種策略是“獨(dú)依賴估計(jì)”(One-Dependent Estimator),即每個(gè)屬性在類別之外最多僅依賴于一個(gè)其他屬性。而最直接的實(shí)現(xiàn)ODE的做法是令所有屬性都指向同一個(gè)父節(jié)點(diǎn)“超父”(super-parent),然后通過(guò)模型選擇的相關(guān)算法確定超父屬性。

      3.2 模型主要優(yōu)缺點(diǎn)

      由于體育旅游專業(yè)的復(fù)合屬性,現(xiàn)有基礎(chǔ)師資構(gòu)成主要是以體育專業(yè)出身和旅游專業(yè)出身的師資為主。體育院校類和綜合高校的體育院系開(kāi)設(shè)體育旅游方向的專業(yè),師資力量的構(gòu)成主要是體育學(xué)教師,旅游院系則主要是旅游管理類教師,缺乏復(fù)合型的師資體系和教學(xué)隊(duì)伍。進(jìn)一步完善教學(xué)師資力量結(jié)構(gòu)體系是體育旅游專業(yè)人才培養(yǎng)首先需要解決的問(wèn)題。應(yīng)加強(qiáng)體育旅游專業(yè)人才師資隊(duì)伍的建設(shè),建立專門的培養(yǎng)機(jī)構(gòu)或者在相關(guān)高等院校開(kāi)設(shè)長(zhǎng)短期的進(jìn)修班,培養(yǎng)復(fù)合應(yīng)用型的師資隊(duì)伍。

      優(yōu)點(diǎn):通過(guò)建立屬性組,減少了過(guò)于嚴(yán)苛的獨(dú)立性假設(shè)對(duì)分類性能的負(fù)面影響。

      缺點(diǎn):如果目標(biāo)數(shù)據(jù)集太大,或者數(shù)據(jù)集中的屬性太多,那么條件互信息的計(jì)算效率將非常高,對(duì)運(yùn)行環(huán)境有較高的要求。不過(guò),采用ODE策略可以在一定程度上緩解該問(wèn)題。

      4 提升的樸素貝葉斯分類模型

      4.1 模型描述

      Freund等提出了提升的樸素貝葉斯分類模型。這種算法可以把“弱學(xué)習(xí)算法”提升為“強(qiáng)學(xué)習(xí)算法”,且并未改變獨(dú)立性假設(shè)。AdaBoost算法的大概流程如下:

      ①設(shè)總樣本數(shù)為Nm,將所有樣本的初始權(quán)重設(shè)為1/N。

      ②做T次循環(huán),T是趟數(shù)。A)訓(xùn)練弱分類器ym,直到權(quán)重誤差函數(shù)取最小值。B)計(jì)算話語(yǔ)權(quán)α。C)更新權(quán)重。D)得到最后的分類器

      優(yōu)點(diǎn):較大的提高了分類準(zhǔn)確性,提高了分類性能。

      缺點(diǎn):仍然沒(méi)有解決獨(dú)立性假設(shè)的限制;當(dāng)訓(xùn)練集中存在噪音數(shù)據(jù)時(shí),boosting過(guò)程會(huì)把噪音數(shù)據(jù)也當(dāng)成有用的信息而放大。

      5 基于屬性相關(guān)性分析的貝葉斯分類模型

      5.1 模型描述

      文獻(xiàn)[3]提出了基于屬性相關(guān)性分析的貝葉斯分類模型CB(Correlated Bayes),改進(jìn)了NB模型在屬性獨(dú)立性假設(shè)方面的問(wèn)題。CB模型中事件 x屬于類Ci的概率計(jì)算公式為為向量相關(guān)度的估計(jì)公式:特征向量X共有n個(gè)屬性,連乘的個(gè)數(shù),β是控制參數(shù),可設(shè)置為0.1~0.3。

      要構(gòu)建CB分類模型,首先要求出屬性類條件概率及相關(guān)度,然后確定控制參數(shù)。該算法通過(guò)估算向量相關(guān)度的方法,從另一個(gè)角度改進(jìn)了對(duì)屬性獨(dú)立性的依賴。

      5.2 模型主要優(yōu)缺點(diǎn)

      優(yōu)點(diǎn):拋棄了樸素貝葉斯假設(shè),改進(jìn)了NBC。

      缺點(diǎn):控制參數(shù)的最優(yōu)值不易求出,增加了算法的計(jì)算量和成本。對(duì)連續(xù)型數(shù)據(jù)的處理不夠便利。

      6 結(jié)束語(yǔ)

      NBC在數(shù)據(jù)挖掘領(lǐng)域被人們廣泛利用,具有良好的效率和準(zhǔn)確性。但其條件獨(dú)立假設(shè)過(guò)于嚴(yán)苛,在實(shí)際應(yīng)用時(shí)存在一定的偏差。對(duì)于如何改進(jìn)樸素貝葉斯假設(shè)帶來(lái)的準(zhǔn)確性問(wèn)題仍將是一個(gè)研究焦點(diǎn)。

      [1]Stern M, Beck J, Woolf B. Naive Bayes classifiers for user modeling[J]. Center for Knowledge Communication, Computer Science Department, University of Massachusetts, 1999

      [2]HanJiaWei,KamberM. 數(shù)據(jù)挖掘概念與技術(shù)[M].范明,孟小峰等譯.北京:機(jī)械工業(yè)出版社

      [3]章舜仲,王樹(shù)梅,黃河燕等.基于屬性相關(guān)性分析的貝葉斯分類模型[J].情報(bào)學(xué)報(bào),2007,(2):271-274

      猜你喜歡
      樸素獨(dú)立性貝葉斯
      事件的相互獨(dú)立性題型例講
      隔離樸素
      培養(yǎng)幼兒獨(dú)立性的有效策略
      甘肅教育(2020年12期)2020-04-13 06:25:10
      樸素的安慰(組詩(shī))
      他是那樣“笨拙”和樸素——30多年后,我們?yōu)槭裁催€需要讀路遙?
      最神奇最樸素的兩本書
      貝葉斯公式及其應(yīng)用
      基于貝葉斯估計(jì)的軌道占用識(shí)別方法
      考慮誤差非獨(dú)立性的電力系統(tǒng)參數(shù)辨識(shí)估計(jì)
      一種基于貝葉斯壓縮感知的說(shuō)話人識(shí)別方法
      電子器件(2015年5期)2015-12-29 08:43:15
      应城市| 郑州市| 北票市| 晋宁县| 晋江市| 静乐县| 红河县| 北川| 沂水县| 沅江市| 晋城| 麟游县| 马鞍山市| 萨嘎县| 丰镇市| 广汉市| 临西县| 桂平市| 昌邑市| 伊春市| 连云港市| 谢通门县| 云南省| 库尔勒市| 都匀市| 永城市| 盐津县| 呼伦贝尔市| 双城市| 米林县| 五寨县| 眉山市| 榆社县| 建瓯市| 山丹县| 县级市| 吉安市| 信宜市| 尉氏县| 大渡口区| 玛纳斯县|