張春英,馮曉澤,劉 洋,馬逸濤,劉鳳春,高瑞艷,任 靜
1(華北理工大學(xué) 理學(xué)院,河北 唐山 063210) 2(華北理工大學(xué) 遷安學(xué)院,河北 唐山 063210) 3(河北省數(shù)據(jù)科學(xué)與應(yīng)用重點(diǎn)實(shí)驗(yàn)室,河北 唐山 063210)
樸素貝葉斯分類(lèi)器(Naive Bayes classifiers,NB)由Duda和Hart于1973年首次提出,因簡(jiǎn)單、高效而被廣泛應(yīng)用,但樸素貝葉斯分類(lèi)器基于屬性條件獨(dú)立性假設(shè),應(yīng)用時(shí)此假設(shè)很難滿足,故人們嘗試對(duì)這一假設(shè)條件進(jìn)行一定程度的放松,考慮部分屬性間的相互依賴信息.文獻(xiàn)[1]提出一種樸素貝葉斯分類(lèi)器的樹(shù)擴(kuò)展—TAN貝葉斯分類(lèi)器,它允許屬性節(jié)點(diǎn)最多只依賴于一個(gè)非類(lèi)節(jié)點(diǎn).目前關(guān)于TAN貝葉斯分類(lèi)器的研究主要是網(wǎng)絡(luò)結(jié)構(gòu)的構(gòu)建,文獻(xiàn)[2]提出了擴(kuò)展的TAN貝葉斯分類(lèi)器——SETAN貝葉斯分類(lèi)器,考慮條件屬性對(duì)類(lèi)屬性的貢獻(xiàn)度差異,允許屬性沒(méi)有父節(jié)點(diǎn),增強(qiáng)了分類(lèi)準(zhǔn)確性;文獻(xiàn)[3]利用不確定屬性間的依賴關(guān)系進(jìn)行分類(lèi),提出了一種不確定正樹(shù)擴(kuò)展樸素貝葉斯算法;文獻(xiàn)[4]提出了不考慮邊重定向的TAN分類(lèi)器學(xué)習(xí)算法,構(gòu)建時(shí)以最大化LCL為優(yōu)化目標(biāo);文獻(xiàn)[5]采用條件對(duì)數(shù)似然方法增強(qiáng)了TAN貝葉斯分類(lèi)器的類(lèi)概率估計(jì)性能,提出了擴(kuò)展的TAN貝葉斯分類(lèi)器(ATAN);雖然目前TAN的研究改進(jìn)了分類(lèi)模型,但這些分類(lèi)模型均屬于二支決策——接受或拒絕.實(shí)際應(yīng)用中的數(shù)據(jù)存在不完整不確定性,簡(jiǎn)單的采取二支決策會(huì)對(duì)結(jié)果造成一定的損失.
三支決策[6,7]是Yao在粗糙集理論的研究過(guò)程中總結(jié)而來(lái)的一種理論方法,主要思想是將論域一分為三(正域、負(fù)域和邊界域),對(duì)每個(gè)論域都制定不同的決策策略,尤其是將延遲決策作為處理信息難以做出決策的決策方式,其符合人類(lèi)的思想與認(rèn)知.盡管三支決策在很多領(lǐng)域已取得很多成果,但條件概率的計(jì)算面臨些問(wèn)題[8].Yao 和 Zhou通過(guò)樸素貝葉斯模型估計(jì)條件概率,提出了一種樸素貝葉斯粗糙集模型,提高了計(jì)算效率[9];文獻(xiàn)[10]將三支決策與樸素貝葉斯分類(lèi)器結(jié)合起來(lái),并用于垃圾郵件的分類(lèi),除了把郵件分為正常郵件,垃圾郵件外,允許用戶對(duì)于不確定的郵件進(jìn)行進(jìn)一步的檢查,通過(guò)實(shí)驗(yàn)證明降低了誤分類(lèi)率.
為了緩解三支樸素貝葉斯分類(lèi)器屬性條件獨(dú)立性假設(shè)的問(wèn)題,本文融合TAN貝葉斯分類(lèi)器與三支決策,提出一種新的三支擴(kuò)展TAN貝葉斯分類(lèi)器:3WD-TAN.在三支分類(lèi)規(guī)則制定時(shí),利用TAN貝葉斯公式估計(jì)三支決策中的條件概率P(Cc|xh),構(gòu)建了3WD-TAN貝葉斯分類(lèi)模型,并通過(guò)對(duì)比實(shí)驗(yàn)驗(yàn)證了算法有效性.
本文其余部分的結(jié)構(gòu)如下:第2節(jié)介紹了TAN貝葉斯分類(lèi)器的相關(guān)工作;第3節(jié)融合TAN貝葉斯分類(lèi)器與三支決策,提出一種新的三支擴(kuò)展TAN貝葉斯分類(lèi)器,并制定3WD-TAN貝葉斯分類(lèi)規(guī)則,設(shè)計(jì)3WD-TAN貝葉斯分類(lèi)器的分類(lèi)流程,以及分析該分類(lèi)器的時(shí)間復(fù)雜度從理論上驗(yàn)證可行性;第4節(jié)分析閾值(α,β)變化對(duì)分類(lèi)結(jié)果的影響,并選取NB、TAN、SETAN算法進(jìn)行對(duì)比實(shí)驗(yàn),說(shuō)明該分類(lèi)器的可行性.
樹(shù)擴(kuò)展樸素貝葉斯分類(lèi)器(Tree Augmented Naive Bayesian Classification,TAN)由Friedman于1997年提出,是在樸素貝葉斯分類(lèi)器的基礎(chǔ)上弱化屬性之間獨(dú)立性要求而進(jìn)行的擴(kuò)展.TAN能有效利用屬性間依賴信息,允許屬性節(jié)點(diǎn)最多有兩個(gè)父節(jié)點(diǎn),其原理如下:
(1)
(2)
(3)
(4)
TAN貝葉斯分類(lèi)器模型的詳細(xì)構(gòu)建過(guò)程如下:
1) 計(jì)算任意兩個(gè)屬性之間的條件互信息I(ai,aj|Cc),i≠j,構(gòu)建完全無(wú)向圖;
(5)
2)構(gòu)建最大權(quán)生成樹(shù);
根據(jù)不產(chǎn)生回路的原則,由上步無(wú)向圖中邊的權(quán)重大小選擇邊,直到選擇n-1條邊為止,構(gòu)建出最大權(quán)生成樹(shù);
3)將無(wú)向圖轉(zhuǎn)換為有向圖;
任意選擇屬性節(jié)點(diǎn)為根節(jié)點(diǎn),以根節(jié)點(diǎn)為起始其它節(jié)點(diǎn)為結(jié)束設(shè)置邊的方向,將無(wú)向圖轉(zhuǎn)換為有向圖;
4)增加類(lèi)節(jié)點(diǎn)及其指向各個(gè)屬性節(jié)點(diǎn)的有向邊,構(gòu)建一個(gè)TAN模型.
約定:給定信息系統(tǒng)S=(U,A∪D,{Va|a∈A},{Ia|a∈A}),其中,U為有限論域;A是屬性集,表示為A={a1,a2,…,an};D={C1,C2,…,Ck}表示k個(gè)不相交的決策類(lèi);Va是全部屬性值的集合;Ia:U→Va是信息函數(shù),將U屬性a映射到Va,即Ia(x)∈Va.
本文通過(guò)融合TAN貝葉斯分類(lèi)器與三支決策模型,提出了3WD-TAN貝葉斯分類(lèi)器.本節(jié)將建立3WD-TAN貝葉斯分類(lèi)規(guī)則,設(shè)計(jì)3WD-TAN貝葉斯分類(lèi)器的分類(lèi)流程,以及分析該分類(lèi)器的時(shí)間復(fù)雜度從理論上驗(yàn)證可行性.
構(gòu)建3WD-TAN貝葉斯分類(lèi)模型的關(guān)鍵是條件概率的估計(jì)以及3WD-TAN貝葉斯分類(lèi)規(guī)則的建立,因?yàn)闂l件概率P(Cc|xh)很難從可觀察到的數(shù)值中估計(jì),通常用貝葉斯公式進(jìn)行變換.因此本文通過(guò)構(gòu)建TAN貝葉斯分類(lèi)器,利用TAN貝葉斯公式估計(jì)條件概率P(Cc|xh),并考慮了屬性間的部分依賴關(guān)系,使之能夠取得較為精確的條件概率值.
(6)
將TAN貝葉斯公式(2)代入到式(6)中,由于在運(yùn)算過(guò)程中,連加運(yùn)算遠(yuǎn)比連乘運(yùn)算計(jì)算量小,故加入后使得運(yùn)算更簡(jiǎn)便[12].以最小風(fēng)險(xiǎn)理論為準(zhǔn)則得到3WD-TAN貝葉斯分類(lèi)規(guī)則:
(P)規(guī)則:如果:
則xh∈POS(α,β)(Cc);
(N)規(guī)則:如果:
則xh∈NEG(α,β)(Cc);
(B)規(guī)則:如果:
則xh∈BND(α,β)(Cc);
(7)
其中:
(8)
3.2.1 分類(lèi)器思想
為了解決傳統(tǒng)二支決策TAN貝葉斯分類(lèi)器在處理不確定性數(shù)據(jù)時(shí)具有較高的錯(cuò)分率,將三支決策思想與TAN貝葉斯分類(lèi)器相融合,提出一種新的三支擴(kuò)展TAN貝葉斯分類(lèi)器:3WD-TAN.假設(shè)有訓(xùn)練集U={x1,x2,…,xN}和測(cè)試集T={t1,t2,…,tP}.首先,根據(jù)訓(xùn)練集U構(gòu)建TAN貝葉斯分類(lèi)器,利用式(5)計(jì)算任意兩個(gè)屬性的條件互信息I(ai,aj|Cc),構(gòu)建最大權(quán)生成樹(shù),將無(wú)向圖轉(zhuǎn)為有向圖,增加類(lèi)節(jié)點(diǎn)及指向各個(gè)屬性節(jié)點(diǎn)的有向邊,構(gòu)建TAN模型;然后,考慮屬性間的部分依賴關(guān)系,通過(guò)TAN貝葉斯公式估計(jì)三支決策中的條件概率P(Cc|xh),并建立3WD-TAN貝葉斯分類(lèi)規(guī)則;最后,利用3WD-TAN貝葉斯分類(lèi)器對(duì)測(cè)試集T進(jìn)行三支分類(lèi).具體的流程如下:
算法.3WD-TAN Bayesian classification
輸入:訓(xùn)練集U={x1,x2,…,xN},測(cè)試集T={t1,t2,…,tP},每個(gè)類(lèi)別的閾值(αCc,βCc)
輸出:測(cè)試集T的分類(lèi)結(jié)果{POS,NEG,BND}
1.構(gòu)建TAN貝葉斯分類(lèi)器
2.forai∈Ado
3.foraj∈Ado
4. 根據(jù)式(5)計(jì)算條件互信息I(ai,aj|Cc)
5.endfor
6.endfor
7.根據(jù)最大權(quán)生成樹(shù)算法,構(gòu)建最大權(quán)生成樹(shù)
8.選擇屬性節(jié)點(diǎn)為根節(jié)點(diǎn)
9.forai∈Ado
10.以根節(jié)點(diǎn)為起始其它節(jié)點(diǎn)為結(jié)束設(shè)置邊的方向,將無(wú)向圖轉(zhuǎn)換為有向圖
11.endfor
12.增加類(lèi)節(jié)點(diǎn)Cc
13.forai∈Ado
14.添加類(lèi)節(jié)點(diǎn)指向各個(gè)屬性節(jié)點(diǎn)的有向邊
15.endfor
17.利用訓(xùn)練好的分類(lèi)器對(duì)測(cè)試集T進(jìn)行分類(lèi),對(duì)測(cè)試集T中的樣本根據(jù)式(7)計(jì)算類(lèi)Cc的正域、負(fù)域和邊界域;
18.fort=1,2,…,pdo:
26.endif
27.endfor
28.return測(cè)試集T的三支分類(lèi)結(jié)果{POS,NEG,BND}.
3.2.2 復(fù)雜度分析
從整體上考慮,本文提出的3WD-TAN貝葉斯分類(lèi)器主要分為3個(gè)部分:
1)步驟1-步聚15主要是根據(jù)訓(xùn)練集U構(gòu)建TAN貝葉斯分類(lèi)器,此步主要耗時(shí)的是步驟2-步聚6中的計(jì)算任意兩個(gè)屬性之間的條件互信息I(ai,aj|Cc)和步驟7中的構(gòu)建最大權(quán)生成樹(shù);
②步驟7中構(gòu)建最大權(quán)生成樹(shù)的時(shí)間復(fù)雜度為O(n2·logn)[13];
一般情況下,N>logn,故在整個(gè)步驟1-步聚15構(gòu)建TAN貝葉斯分類(lèi)器的過(guò)程中,時(shí)間復(fù)雜度為O(N·n2);
3)步驟17-步聚27對(duì)測(cè)試集T中的P個(gè)樣本進(jìn)行分類(lèi),時(shí)間復(fù)雜度為O(P).
綜上,3WD-TAN貝葉斯器的時(shí)間復(fù)雜度為O(N·n2)+O(k)+O(P)=O(N·n2)+O(P).與TAN貝葉斯分類(lèi)器相比,主要的區(qū)別在于步驟16-步聚17,故額外的時(shí)間復(fù)雜度為O(P),因此本文提出的3WD-TAN分類(lèi)器是可行的.
為了說(shuō)明3WD-TAN分類(lèi)器的性能,實(shí)驗(yàn)選取UCI機(jī)器學(xué)習(xí)數(shù)據(jù)集中的5個(gè)不同規(guī)模的數(shù)據(jù).數(shù)據(jù)集基本信息如表 1所示.該實(shí)驗(yàn)在基于Inter Core i7-6700的處理器,RAM為8.00GB的WIN7系統(tǒng)環(huán)境下的PyCharm 2018.3.4版本下實(shí)現(xiàn).
表1 數(shù)據(jù)集基本信息Table 1 Dataset basic information
在實(shí)驗(yàn)的評(píng)價(jià)標(biāo)準(zhǔn)上,采取了Jia 和Shang提出的基于三支決策分類(lèi)問(wèn)題的評(píng)價(jià)標(biāo)準(zhǔn)[14],如表 2所示.
表2 基于三支決策分類(lèi)的混淆矩陣Table 2 Confusion matrix based on the three-way decision classification
其中n*·表示實(shí)際為類(lèi)別·時(shí)判別為*的樣本個(gè)數(shù).
準(zhǔn)確率(Accuracy)是對(duì)分類(lèi)器在測(cè)試集上表現(xiàn)的總體評(píng)價(jià),表示被正確劃分的樣本占被確定劃分的樣本的比例,如式(9)所示.
(9)
召回率(Recall)表示預(yù)測(cè)為正類(lèi)占實(shí)際為正類(lèi)的比例,實(shí)際為正類(lèi)的樣本不僅要考慮劃分到正域、負(fù)域的正類(lèi)樣本,同時(shí)也要考慮劃分到邊界域的正類(lèi)樣本,如式(10)所示.
(10)
本文采用準(zhǔn)確率(Accuracy)、召回率(Recall)分類(lèi)指標(biāo)進(jìn)行性能評(píng)估,在實(shí)驗(yàn)中采用十折交叉驗(yàn)證的方法.對(duì)數(shù)據(jù)集的缺失值進(jìn)行簡(jiǎn)單處理,對(duì)于條件屬性,數(shù)值型用平均值代替,非數(shù)值型用眾數(shù)代替;決策屬性用眾數(shù)代替.
4.2.1 閾值(α,β)變化分析
閾值(α,β)是3WD-TAN分類(lèi)器的一個(gè)重要參數(shù),通常介于0,1之間且α>β,(α,β)的選擇會(huì)影響3WD-TAN的結(jié)果.為了分析不同的閾值(α,β)對(duì)結(jié)果的影響情況,本文在(0,1)之間以0.05為步長(zhǎng)選取不同的(α,β)對(duì)UCI數(shù)據(jù)集進(jìn)
圖1 Vote準(zhǔn)確率Fig.1 Vote accuracy
圖2 Vote召回率Fig.2 Vote recall
圖3 Car準(zhǔn)確率Fig.3 Car accuracy
圖4 Car召回率Fig.4 Car recall
行實(shí)驗(yàn),并以Vote和Car數(shù)據(jù)集為代表分析閾值(α,β)變化對(duì)結(jié)果的影響.由于變化范圍較小,為了更好的分析閾值變化對(duì)準(zhǔn)確率和召回率的影響,將結(jié)果集中的部分展示(只展示了每個(gè)數(shù)據(jù)集的其中一種類(lèi)別的部分結(jié)果情況),如圖1-圖4所示.表3中列出了不同數(shù)據(jù)集在分類(lèi)結(jié)果最優(yōu)時(shí)所對(duì)應(yīng)的閾值(α,β).
3WD-TAN分類(lèi)器要求閾值(α,β)介于0,1之間且α>β.故在圖1-圖4中,當(dāng)β≤α?xí)r,設(shè)置準(zhǔn)確率和召回率的結(jié)果為0,主要討論閾值α>β的情況并以Vote和Car數(shù)據(jù)集為代表分析閾值(α,β)變化對(duì)結(jié)果的影響.
圖1與圖2分別為Vote數(shù)據(jù)集在不同閾值(α,β)下的準(zhǔn)確率和召回率的變化情況.由圖1可知,3WD-TAN在數(shù)據(jù)集Vote下的準(zhǔn)確率總體上在97.7%以上.當(dāng)(αC1,βC1)在(0, 0.50)范圍迭代變化時(shí),準(zhǔn)確率基本持平于97.7%;當(dāng)αC1的迭代范圍為(0.55, 0.90),βC1的迭代范圍為(0, 0.70)時(shí),準(zhǔn)確率增加到100%;當(dāng)αC1的迭代范圍為(0.95, 1),βC1的迭代范圍為(0, 0.70)時(shí),準(zhǔn)確率又降低到98.0%;當(dāng)(αC1,βC1)在(0.75, 1)范圍迭代變化時(shí),準(zhǔn)確率從97.7%逐漸降低到80.4%.由圖2可知,3WD-TAN在數(shù)據(jù)集Vote下的召回率總體上在99.0%以上.當(dāng)(αC1,βC1)在(0,0.55)范圍迭代變化時(shí),召回率基本持平于99.0%;當(dāng)αC1的迭代范圍為(0.60, 0.65),βC1的迭代范圍為(0, 0.65)時(shí),召回率增加到100%;當(dāng)αC1的迭代范圍為(0.70, 1),βC1的迭代范圍為(0, 1)時(shí),召回率從99.0%逐漸降低到89.3%.當(dāng)閾值(αC1,βC1)=(0.65,0.40),(αC2,βC2)=(0.60,0.45)時(shí),準(zhǔn)確率和召回率高達(dá)100%.故當(dāng)閾值(α,β)的取值合適時(shí),3WD-TAN的準(zhǔn)確率和召回率優(yōu)于NB、TAN和SETAN.
表3 不同數(shù)據(jù)集下每個(gè)類(lèi)別的閾值Table 3 Thresholds for each class under different datasets
圖3與圖4分別為Car數(shù)據(jù)集在不同閾值(α,β)下的準(zhǔn)確率和召回率的變化情況.由圖3可知,3WD-TAN在數(shù)據(jù)集Car(C1類(lèi))下的準(zhǔn)確率總體上在94.1%以上.當(dāng)(αC1,βC1)在(0, 0.50)范圍迭代變化時(shí),準(zhǔn)確率基本持平于94.1%;當(dāng)αC1的迭代范圍為(0.55, 0.80),βC1的迭代范圍為(0, 0.80)時(shí),準(zhǔn)確率增加到95.1%;當(dāng)αC1的迭代范圍為(0.85, 0.95),βC1的迭代范圍為(0, 0.95)時(shí),準(zhǔn)確率增加到98.0%.由圖4可知,3WD-TAN在數(shù)據(jù)集Car(C1類(lèi))下的召回率總體上在99.0%以上.當(dāng)(αC1,βC1)在(0, 0.55)范圍迭代變化時(shí),召回率基本持平于99.0%;當(dāng)αC1的迭代范圍為(0.60, 0.70),βC1的迭代范圍為(0, 0.70)時(shí),召回率增加到100%;當(dāng)αC1的迭代范圍為(0.75, 0.85),βC1的迭代范圍為(0, 0.85)時(shí),召回率又降低到99.0%;當(dāng)αC1的迭代范圍為(0.90, 1),βC1的迭代范圍為(0, 1)時(shí),召回率從99.0%逐漸降低到81.1%.當(dāng)閾值(αC1,βC1)=(0.85,0.60)、(αC2,βC2)=(0.80,0.50)、(αC3,βC3)=(0.75,0.55)和(αC4,βC4)=(0.65,0.40)時(shí),3WD-TAN在數(shù)據(jù)集Car上的準(zhǔn)確率為91.9%,略低于SETAN,但高于NB和TAN;召回率為97.0%,優(yōu)于NB、TAN和SETAN.
綜上,當(dāng)閾值(α,β)取值合適時(shí),3WD-TAN分類(lèi)器的準(zhǔn)確率和召回率在多數(shù)情況下優(yōu)于NB、TAN和SETAN分類(lèi)器.
4.2.2 對(duì)比實(shí)驗(yàn)
表 4給出了本文提出的3WD-TAN分類(lèi)器與NB、TAN、SETAN分類(lèi)器在5種數(shù)據(jù)集下關(guān)于表3所示的閾值參數(shù)下的準(zhǔn)確率和召回率對(duì)比結(jié)果.
表4 準(zhǔn)確率、召回率對(duì)比結(jié)果Table 4 Accuracy,recall comparison results
由表4得出,當(dāng)閾值(α,β)取一定值時(shí),絕大數(shù)情況下,本文給出的三支擴(kuò)展TAN貝葉斯分類(lèi)器(3WD-TAN)在二分類(lèi)和多分類(lèi)數(shù)據(jù)集上的結(jié)果高于SETAN分類(lèi)器以及傳統(tǒng)的NB、TAN分類(lèi)器.且3WD-TAN貝葉斯分類(lèi)模型適用于不同規(guī)模的數(shù)據(jù)集.
由二分類(lèi)實(shí)驗(yàn)結(jié)果可知,3WD-TAN分類(lèi)器在數(shù)據(jù)規(guī)模較大,屬性較多的Mushroom數(shù)據(jù)集上的結(jié)果優(yōu)于NB、TAN和SETAN分類(lèi)器;對(duì)于數(shù)據(jù)規(guī)模較小,屬性數(shù)目中等的Vote和Breast Cancer數(shù)據(jù)集,3WD-TAN分類(lèi)器的準(zhǔn)確率高于對(duì)比的分類(lèi)器較多,故在處理數(shù)據(jù)規(guī)模小,屬性數(shù)較多的數(shù)據(jù)集時(shí),3WD-TAN依然效果良好.
由多分類(lèi)實(shí)驗(yàn)結(jié)果可知,3WD-TAN分類(lèi)器在數(shù)據(jù)規(guī)模中等,屬性數(shù)目較小的Balance數(shù)據(jù)集上的結(jié)果優(yōu)于NB、TAN和SETAN分類(lèi)器;對(duì)于數(shù)據(jù)規(guī)模中等,屬性數(shù)目中等的Car數(shù)據(jù)集,3WD-TAN分類(lèi)器的準(zhǔn)確率高于NB和TAN,略低于SETAN,但3WD-TAN分類(lèi)器的召回率高于NB、TAN和SETAN.
從數(shù)據(jù)集的規(guī)模、屬性數(shù)和類(lèi)別數(shù)3個(gè)角度綜合分析.相比較數(shù)據(jù)規(guī)模與類(lèi)別數(shù)目,屬性數(shù)量對(duì)分類(lèi)結(jié)果的影響較大,但3WD-TAN貝葉斯分類(lèi)模型的分類(lèi)效果要優(yōu)于NB、TAN和SETAN分類(lèi)模型.
考慮到在分類(lèi)過(guò)程中將不確定的對(duì)象強(qiáng)制劃分到某個(gè)類(lèi)中與人們的實(shí)際決策并不符合,文中將三支決策思想與TAN貝葉斯分類(lèi)器相融合,提出了一種新的三支擴(kuò)展TAN貝葉斯分類(lèi)器(3WD-TAN),將傳統(tǒng)的TAN分類(lèi)器推廣為三支TAN分類(lèi)模型.考慮屬性間的部分依賴關(guān)系,通過(guò)構(gòu)建TAN貝葉斯分類(lèi)模型計(jì)算三支決策中的條件概率,改善了條件概率的計(jì)算,并一定程度上提高了TAN貝葉斯分類(lèi)器的精確率.通過(guò)5個(gè)數(shù)據(jù)集的對(duì)比實(shí)驗(yàn),驗(yàn)證3WD-TAN具有較高的準(zhǔn)確率和召回率.然而,該方法是針對(duì)靜態(tài)數(shù)據(jù)集進(jìn)行分類(lèi)的,下一步將考慮數(shù)據(jù)的動(dòng)態(tài)特征,研究構(gòu)建動(dòng)態(tài)的3WD-TAN半樸素貝葉斯分類(lèi)模型.同時(shí)TAN分類(lèi)器的屬性間依賴存在一定的限制,可考慮進(jìn)一步研究3WD-貝葉斯網(wǎng)絡(luò)模型.