關鍵詞:樸素貝葉斯;屬性約簡;對稱不確定性;加權
中圖分類號:O211. 9 文獻標志碼:A 文章編號:1001-8395(2023)04-0532-08
doi:10. 3969 / j. issn. 1001-8395. 2023. 04. 014
0引言
分類[1]作為數(shù)據(jù)挖掘中的一個重要研究分支,被廣泛應用于文本、生物學、多媒體等各個領域,它主要通過分析已知類別的訓練數(shù)據(jù)集來構造合適的分類模型,得到分類規(guī)則,從而對未知類別的待判樣本進行分類. 目前,已存在理論較為成熟的幾種分類算法[23],其中樸素貝葉斯[45]與其他分類算法相比簡單高效,是機器學習探究領域中較為經(jīng)典的分類算法,它假設屬性之間在給定類別下是條件獨立的,且每個屬性對分類的影響是相同的,但在實際問題中這些都難以被滿足,使得在應用上具有一定的局限性,其分類性能也受到影響. 于是,針對屬性的“條件獨立性假設”問題,李楚進等[6]利用主成分分析方法將原屬性集映射到新的特征空間,使得新屬性間互不相關,然后再對新屬性集建立樸素貝葉斯模型,從而提高了分類準確率;王峻[7]根據(jù)χ2 統(tǒng)計量計算出的屬性相關性大小及文中定義的規(guī)則,刪除了所有的冗余屬性和無關屬性,以盡量滿足獨立性假設,改善了其分類效果. 另外,針對各屬性對結果影響程度相同的問題,Zhang等[8]通過計算屬性和類變量的增益比來衡量各屬性的重要性,從而提出了加權的樸素貝葉斯算法;張步良[9]將各屬性的分類準確率作為權重來建立加權樸素貝葉斯模型,提高了其分類精度;胡勝利等[10]通過計算屬性的增益率大小與關聯(lián)度得分,將其平均值作為新的權重,提高了分類準確度;張偉等[11]利用各待測樣本的近鄰集合來求得其各屬性的權重,得到了較好的分類結果;謝小軍等[12]使用了核密度估計的屬性加權模型,并將條件屬性與類屬性的相關系數(shù)和互信息作為權重,增強了其分類性能. 同時,針對以上2 個問題,楊立洪等[13]根據(jù)各屬性的信息值和屬性間的相關性大小對屬性進行篩選,并將信息值作為權重進行加權,提升了算法的準確率;王行甫等[14]通過CFS 算法中的評估函數(shù)來選擇屬性集合,去除了原屬性集中的一些不相關屬性,有效地提升了分類效率;寧可等[15]通過計算出的類條件概率來刪除類別個數(shù)相同的冗余屬性,再將保留下的屬性的平均置信度作為權重,進而提升分類效果.
因此,為了降低屬性間的相關性,并考慮到在分類過程中,不同屬性的貢獻程度不同,本文針對屬性“獨立性假設”和“各屬性對分類的影響程度相同”的2 個問題,提出了基于屬性約簡的加權樸素貝葉斯分類算法,該算法考慮了各屬性不同取值對分類結果的影響及屬性間的相關度,從而選出分類能力強的屬性,使得被去除的屬性與類屬性的關聯(lián)度低,而與其余屬性的冗余程度高,然后再結合屬性與類變量間應該具有較高的關聯(lián)性,而屬性間應具有較低的關聯(lián)性來計算得到各屬性不同的權重,最后進行加權分類,由此得到了ARWNB 模型,提高了分類準確率.
1 樸素貝葉斯算法
樸素貝葉斯分類算法在各個領域都得到了廣泛的應用,它主要在貝葉斯定理的基礎上假設屬性之間是條件獨立的,由此計算出待判樣本在不同類別下的條件概率,然后將其判別為概率最大的那一類.