張 璐,劉 盾,楊 新
1(西南交通大學(xué) 經(jīng)濟(jì)管理學(xué)院,成都 610031)
2(西南財(cái)經(jīng)大學(xué) 經(jīng)濟(jì)信息工程學(xué)院,成都 611130)
隨著科學(xué)技術(shù)的不斷進(jìn)步和互聯(lián)網(wǎng)的飛速發(fā)展,人類開始邁入大數(shù)據(jù)時(shí)代.面對(duì)數(shù)據(jù)的爆發(fā)式增長,人類需要有效的方法對(duì)多源異構(gòu)數(shù)據(jù)進(jìn)行分析處理,各種機(jī)器學(xué)習(xí)算法應(yīng)運(yùn)而生.機(jī)器學(xué)習(xí)方法的出現(xiàn)適應(yīng)了大數(shù)據(jù)時(shí)代的迫切需求,因而被廣泛的應(yīng)用于諸多領(lǐng)域,并取得了巨大的成功.分類作為機(jī)器學(xué)習(xí)的重點(diǎn)研究領(lǐng)域之一,一直受到國內(nèi)外學(xué)者的廣泛關(guān)注.目前,靜態(tài)分類器大多是根據(jù)給定的屬性集合對(duì)樣本進(jìn)行分類,在分類過程中沒有考慮樣本之間的差異性,這會(huì)導(dǎo)致信息獲取成本大幅增加,整體分類成本過高.例如,在人臉識(shí)別任務(wù)中,面部特征明顯的個(gè)體使用清晰度較低的圖像就能進(jìn)行準(zhǔn)確判別;面部特征隱晦的個(gè)體才需要高清圖像進(jìn)行識(shí)別.靜態(tài)分類器往往只能根據(jù)同一粒度的圖像對(duì)全體樣本進(jìn)行判別.這種無差異的靜態(tài)判別方法可能會(huì)造成信息資源的浪費(fèi),增加圖像的獲取成本.在實(shí)際生活中,理性決策者往往可以先利用少量信息對(duì)容易分類的樣本進(jìn)行判別;之后再獲取更多信息對(duì)難以分類的樣本進(jìn)行進(jìn)一步識(shí)別,即:利用不同粒度信息對(duì)不同樣本進(jìn)行分類.
三支決策[1-4]是一種以“三分而治”(Trisecting and Acting)為核心思想的決策方法.Yao[5,6]將粒計(jì)算的思想引入三支決策,基于粒度由粗到細(xì)的多層粒結(jié)構(gòu),提出了序貫三支決策方法,其核心思想為:隨著粒度的增加,利用一系列分治策略對(duì)樣本進(jìn)行動(dòng)態(tài)處理.一系列研究表明:序貫三支決策方法可以顯著降低決策成本[7-9].一般而言,實(shí)現(xiàn)序貫三支決策的關(guān)鍵步驟是構(gòu)造多層次的粒結(jié)構(gòu).現(xiàn)有研究主要是通過逐步添加樣本屬性的方式來構(gòu)造不同層次粒結(jié)構(gòu)[10-12].然而,已有研究忽略了添加過程中屬性的冗余性問題,也沒有考慮添加順序?qū)Ψ诸惤Y(jié)果的影響.
Wrapper特征選擇框架是將特征選擇過程與學(xué)習(xí)器預(yù)測(cè)結(jié)果結(jié)合起來的一種學(xué)習(xí)框架[13],它將學(xué)習(xí)器作為一個(gè)黑箱,利用學(xué)習(xí)器的精度對(duì)一個(gè)特征子集的優(yōu)劣進(jìn)行評(píng)價(jià),并采用一定的搜索策略對(duì)特征子集不斷優(yōu)化.大量研究表明,Wrapper特征選擇框架能大幅提高學(xué)習(xí)器精度[14-16].與其他特征選擇方法相比,它通常可以獲得更好的特征子集[17].目前,Wrapper特征選擇框架的優(yōu)化搜索策略主要分為3類:精確搜索算法,序列搜索算法和隨機(jī)搜索算法[13,17].精確搜索算法可以保證找到全局最優(yōu)解,但隨著特征數(shù)目的數(shù)量增加,算法時(shí)間復(fù)雜度成指數(shù)形式上升;序列搜索僅能在很小的解空間進(jìn)行搜索,通常會(huì)導(dǎo)致得到的屬性子集距離最優(yōu)解較遠(yuǎn);隨機(jī)搜索算法根據(jù)一定的啟發(fā)式搜索規(guī)則,同時(shí)在局部和整體進(jìn)行搜索,既能保證一定的搜索范圍,也能保證較低的時(shí)間復(fù)雜度.遺傳算法作為一種經(jīng)典的隨機(jī)搜索算法,對(duì)優(yōu)化問題的數(shù)學(xué)性質(zhì)要求較低,能夠很好地適用于隱式函數(shù)目標(biāo).因此,本文采用遺傳算法作為Wrapper特征選擇框架的搜索策略.
基于上述分析,為了彌補(bǔ)靜態(tài)分類器的缺陷,本文將序貫三支決策的思想引入分類過程中,利用“三分而治”的動(dòng)態(tài)分類策略和多粒度的靜態(tài)分類器對(duì)樣本進(jìn)行差異化分類;同時(shí)考慮到冗余屬性和屬性添加順序?qū)Ψ诸惤Y(jié)果的影響,將Wrapper特征選擇框架引入?;^程中,提出了一種Wrapper特征選擇下的序貫三支分類方法,最后通過實(shí)驗(yàn)分析來驗(yàn)證所提出方法的有效性.
三支決策(Three-way decision)是 Yao[1-4]提出的一種重要的粒計(jì)算和不確定性決策方法.作為決策粗糙集的延伸與擴(kuò)展[18-20],三支決策能很好的處理不確定性問題和代價(jià)敏感問題,并在信息、醫(yī)學(xué)、管理和工程領(lǐng)域得到了廣泛應(yīng)用[18].隨著研究的不斷深入,三支決策逐漸從狹義擴(kuò)展到廣義[20,21],從粗糙集[22,23]擴(kuò)展到區(qū)間集,模糊集[24],陰影集,概念分析,機(jī)器學(xué)習(xí)[25,26]等各方面.Yang[27]和Liu[28]對(duì)三支決策的發(fā)展進(jìn)行了全面的總結(jié)和回顧,并且指出了未來的新機(jī)遇和新挑戰(zhàn).
在三支決策理論中,決策者可以根據(jù)決策目標(biāo)將整體論域分為正域、負(fù)域和邊界域3個(gè)部分.對(duì)于3個(gè)區(qū)域,決策者可以進(jìn)一步采用接受、拒絕和延遲策略.下面,通過一個(gè)評(píng)價(jià)函數(shù)和一對(duì)閾值給出三支決策模型中“三分“的定義[18]:
(1)
可以看到,當(dāng)POS,BND和NEG中當(dāng)且僅有一個(gè)區(qū)域?yàn)榭占瘯r(shí),三支決策退化為二支決策。圖1為三支決策的基本模型.
圖1 三支決策基本模型
在實(shí)際的決策過程中,三支決策的過程往往呈現(xiàn)出動(dòng)態(tài)特征.針對(duì)于動(dòng)態(tài)三支決策過程中多層次的粒結(jié)構(gòu)特點(diǎn),Yao[5-6]提出了序貫三支決策方法.在序貫三支決策模型的每個(gè)粒層,每個(gè)對(duì)象將被劃分到正域,負(fù)域或邊界域中的某一個(gè)區(qū)域里面.劃分到正域和負(fù)域的對(duì)象能夠在該粒層立刻做出接受或拒絕的判斷,而劃分到邊界域的對(duì)象將被移動(dòng)到更細(xì)的粒層去做進(jìn)一步判斷,直到最終決策目標(biāo)實(shí)現(xiàn).
粒計(jì)算(Granular computing)是一種模擬人類思維、研究人腦認(rèn)知和解決復(fù)雜信息處理問題的新興不確定性理論.在序貫三支決策方法中通常需要一個(gè)多層次的粒結(jié)構(gòu)實(shí)現(xiàn)其動(dòng)態(tài)決策過程.一個(gè)粒結(jié)構(gòu)由粒子、粒層和層次結(jié)構(gòu)3個(gè)元素組成.粒子是構(gòu)成粒計(jì)算模型的基本單位,是一個(gè)問題的抽象模型.粒層是由具有相同粒度的所有粒子所構(gòu)成的整體,是問題空間在某一粒度下的一種抽象描述.粒度是描述粒子大小的概念.若根據(jù)一個(gè)有序的粒度關(guān)系對(duì)層進(jìn)行排列,則會(huì)得到一個(gè)層次結(jié)構(gòu).通常根據(jù)粒度的不同序關(guān)系,層次結(jié)構(gòu)分為自頂向下,自底向上和自中向外.本文主要采用自頂向下的多層次粒結(jié)構(gòu).
Wrapper特征選擇框架中主要有兩個(gè)主體部分:一是搜索策略,二是分類器.本文選用遺傳算法作為Wrapper框架的搜索策略.分類器需要根據(jù)實(shí)際需求進(jìn)行選擇,本文選取邏輯回歸(LOG)和支持向量機(jī)(SVM)兩種分類方法進(jìn)行實(shí)驗(yàn).
在20世紀(jì)70年代,John Holland提出了遺傳算法(Genetic Algorithm,GA).遺傳算法是以達(dá)爾文的進(jìn)化論以及遺傳學(xué)為基礎(chǔ)而提出的元啟發(fā)式算法,通過優(yōu)勝劣汰的進(jìn)化過程來獲得問題的最優(yōu)解.遺傳算法對(duì)求解問題的性質(zhì)要求很低,對(duì)函數(shù)的連續(xù)性和可導(dǎo)性沒有要求,甚至對(duì)沒有明確解析式的優(yōu)化問題也保持良好的全局尋優(yōu)能力.由于遺傳算法良好的適應(yīng)性,它被廣泛應(yīng)用于人工智能的各個(gè)領(lǐng)域[29,30].
基于遺傳算法的Wrapper特征選擇框架對(duì)屬性子集變量進(jìn)行合理編碼,產(chǎn)生初始種群,并利用分類器的精度作為屬性子集的評(píng)價(jià)指標(biāo),通過精英保留,選擇,交叉,變異等遺傳算子不斷搜索更優(yōu)屬性子集并進(jìn)行記錄,直至收斂或達(dá)到迭代次數(shù),最終得到優(yōu)化后的屬性子集.
假設(shè)S=(U,C∪D)是一個(gè)信息系統(tǒng),其中U為論域,C為條件屬性,D為決策屬性。對(duì)于?a∈C∪D,定義映射fa:U→Va,Va表示屬性a的值域。下面給出等價(jià)關(guān)系與等價(jià)粒子的定義[11].
定義 2.給定一個(gè)信息系統(tǒng)S=(U,C∪D),A?C∪D,則論域U上的等價(jià)關(guān)系可定義為:
RA={(x,y)∈U×U|?a∈A,fa(x)=fa(y)}
通過等價(jià)關(guān)系RA可以定義論域U的一個(gè)劃分U/RA={[x]|x∈U},[x]為等價(jià)類,也稱等價(jià)粒子。等價(jià)粒子中的對(duì)象存在不可分辨關(guān)系。
如果兩個(gè)等價(jià)關(guān)系R1,R2之間存在關(guān)系R1?R2,則通過R1誘導(dǎo)出的等價(jià)類[x]1和R2誘導(dǎo)出的等價(jià)類[x]2滿足:[x]1?[x]2。通常地,可以通過一組有序的條件屬性集合定義一組有序的等價(jià)關(guān)系,實(shí)現(xiàn)對(duì)論域的多層次劃分,進(jìn)而構(gòu)造一個(gè)多層次粒結(jié)構(gòu)。
實(shí)現(xiàn)序貫三支分類方法的首要工作就是要建立一個(gè)多層次的粒結(jié)構(gòu).本文將Wrapper特征選擇框架引入?;^程中,提出了基于Wrapper特征選擇的?;椒?Wrapper based Granulation method,WG).
該算法主要分為3個(gè)步驟:屬性選擇,屬性排序,基于等價(jià)關(guān)系構(gòu)造多層次粒結(jié)構(gòu).原始條件屬性集首先對(duì)冗余屬性和不相關(guān)屬性進(jìn)行約簡,之后對(duì)屬性的添加順序進(jìn)行排列,進(jìn)而構(gòu)造出一組存在有序關(guān)系的條件屬性集,最后根據(jù)等價(jià)關(guān)系構(gòu)造出一個(gè)多層次的粒結(jié)構(gòu),其過程如圖2所示.
圖2 基于Wrapper特征選擇的?;椒?/p>
為了消除冗余屬性對(duì)后續(xù)粒化過程的影響,首先利用基于遺傳算法的Wrapper特征選擇框架進(jìn)行屬性選擇,其流程如算法1所示.
算法 1.屬性選擇算法
輸入:信息系統(tǒng)Strain=(U,C∪D),遺傳算法參數(shù)集GAP(交叉率cp,變異率mp,種群數(shù)m,迭代次數(shù)n,停止次數(shù)q),分類器ψ.
輸出:條件屬性子集Cr
1.BI=?BF=0BA=0i=1
//編碼1代表選取該屬性,0表示不選取
3.while1≤i≤nor|i-BA| 3.1.for1≤j≤mdo 3.1.1.Ej=Crossvalidation(ψ(Sj=(U,Ij∪D)) //對(duì)屬性子集進(jìn)行交叉驗(yàn)證 3.1.2.j=j+1 3.2.endfor 3.3.ifmax(Ej)>BF 3.3.1.BI=Imax(Ej)//更新歷史最優(yōu)個(gè)體 3.3.2.BF=max(Ej) //更新歷史最優(yōu)適應(yīng)度 3.3.3.BA=i//更新歷史最優(yōu)輪次 3.4.ifmax(Ej) 3.4.1.Imin(Ej)=BI//精英保留 3.9.i=i+1 4.endwhile 5.returnBI 在屬性約簡后,如何決定屬性的添加順序也是十分重要的問題.對(duì)于每一粒層,都會(huì)添加一部分屬性以確保下一粒層粒子的粒度更細(xì).如果一些分類能力比較差的屬性被優(yōu)先添加,則會(huì)導(dǎo)致分類器在粗粒度的精度很低,誤分類成本和延遲成本增加.每一粒層添加的屬性均由基于遺傳算法的Wrapper特征選擇框架選出,其流程與算法1相似,算法2只列出不同的部分. 算法2.單粒層待添加屬性的選擇算法 輸出:本粒層添加的屬性集TC … //編碼1代表選取該屬性,0表示不選取 … 3.1.1.Ej=Crossvalidation(ψ(Sj=(U,(Ij+EC)∪D))) … 算法3.屬性排序算法 1.EC=?LC=Cri=1 2.while1≤i≤L-1 2.2.Gi=EC=TC∪EC 2.3.LC=Cr-EC 2.4.i=i+1 3.endwhile 4.ifi=L 4.1.Gi=Cr 5.endif 通過3.2節(jié),可以得到一組有序的條件屬性集G1?G2?…?Gi?…?GL,據(jù)此可以定義一組有序的等價(jià)關(guān)系EL?…?Ei?…?E2?E1,進(jìn)一步地,可以得到其等價(jià)粒子存在如下關(guān)系: [x]EL?…?[x]Ei?…?[x]E2?[x]E1 (2) 基于上述分析,可以定義如下多層次粒結(jié)構(gòu): GS=(GS1,GS2,…,GSL)GSi=(Ui,Ei,Gi,[x]Gi) (3) 為了實(shí)現(xiàn)樣本的差異化分類,減少分類成本,本文將序貫三支決策的思想引入分類過程中,提出了一種序貫三支分類方法,其基本框架如圖3所示. 圖3 序貫三支分類方法的基本框架 為了進(jìn)一步說明序貫三支分類方法的具體過程,第4.1節(jié)對(duì)動(dòng)態(tài)分類過程中涉及的分類策略進(jìn)行介紹.第4.2節(jié),結(jié)合第3節(jié)?;椒ǖ玫降亩鄬哟瘟=Y(jié)構(gòu),提出一種Wrapper特征選擇下的序貫三支分類方法. 根據(jù)圖3的模型框架,對(duì)于粒層i(0 接著,對(duì)粒層i的三支分類策略進(jìn)行定義. (4) 其中,正域表示預(yù)測(cè)屬于正類的對(duì)象集合,負(fù)域表示預(yù)測(cè)屬于負(fù)類的對(duì)象集合,邊界域表示暫時(shí)不能劃分的對(duì)象集合.對(duì)于正域POSi(X)對(duì)象采取行動(dòng)aP,即標(biāo)記為正類,對(duì)于負(fù)域NEGi(X)對(duì)象采取行動(dòng)aN,即標(biāo)記為負(fù)類,對(duì)于邊界域BNDi(X)對(duì)象采取行動(dòng)aB,即暫不分類. 然后,分析閾值αi和βi的計(jì)算過程.根據(jù)表1中的代價(jià)矩陣,基于貝葉斯風(fēng)險(xiǎn)最小化原則,可以對(duì)三支分類策略的閾值進(jìn)行計(jì)算. 表1 三支分類代價(jià)矩陣 在粒層i(0 (5) 根據(jù)貝葉斯準(zhǔn)則,最佳的行動(dòng)方案應(yīng)該是期望損失最小的行動(dòng)集,于是閾值的計(jì)算應(yīng)該滿足如下三條決策準(zhǔn)則: (P)若Ri(aP|x)≤Ri(aB|x)Ri(aP|x)≤Ri(aN|x)同時(shí)成立,則x∈POSi(X); (B)若Ri(aB|x)≤Ri(aP|x)Ri(aB|x)≤Ri(aN|x)同時(shí)成立,則x∈BNDi(X); (N)若Ri(aN|x)≤Ri(aP|x)Ri(aN|x)≤Ri(aB|x)同時(shí)成立,則x∈NEGi(X). 最后,結(jié)合決策規(guī)則(P)-(N),可得到αi和βi的計(jì)算公式: (6) (7) 特別地,如果在前L-1粒層不能完全劃分樣本,則在粒層L使用二支分類策略,二支分類策略定義如下: (8) 其中,正域POSL表示預(yù)測(cè)屬于正類的對(duì)象集合,負(fù)域NEGL表示預(yù)測(cè)屬于負(fù)類的對(duì)象集合.對(duì)于正域POSL對(duì)象,我們采取aP,即標(biāo)記為正類,對(duì)于負(fù)NEGL對(duì)象,我們采取aB,即標(biāo)記為負(fù)類. 對(duì)于閾值γL,可以根據(jù)表2的代價(jià)矩陣進(jìn)行計(jì)算. 表2 二支分類代價(jià)矩陣 則采取aP,aN兩種行動(dòng)下的期望損失可分別表示為: (9) 根據(jù)貝葉斯風(fēng)險(xiǎn)最小化原則: (P1)若RL(aP|x)≤RL(aN|x)成立,則x∈POSL(X); (N1)若RL(aN|x)≤RL(aP|x)成立,則x∈NEGL(X). 結(jié)合決策規(guī)則(P1)-(N1),可以得到γL的計(jì)算公式: (10) 基于上述討論,結(jié)合第3節(jié)基于Wrapper特征選擇的?;椒?,本文提出一種wrapper特征選擇下的序貫三支分類方法,其具體實(shí)現(xiàn)步驟如算法4所示. 算法 4.Wrapper特征選擇下的序貫三支分類方法 輸出:分類結(jié)果 //基于Wrapper框架構(gòu)造多層次粒結(jié)構(gòu) //訓(xùn)練多粒度分類器,計(jì)算分類閾值 2.for1≤i≤L 2.1.Si=(U,Gi∪D) 2.2.ψi′=train(ψ,Si) 2.3.i=i+1 3. (αi,βi)=threshold(Mi),1≤i≤L-1,byEq(6),(7) γL=threshold(ML),byEq(10) //序貫三支分類方法 4.U1=U′POS=?NEG=?BND=?i=1 5.while1≤i≤L-1 5.1.foreachx∈Uido 5.1.1.POSi={x∈Ui|ψi′(x)≥αi} 5.1.2.BNDi={x∈Ui|βi<ψi′(x)<αi} 5.1.3.NEGi={x∈Ui|ψi′(x)≤βi} 5.2.POS=POS∪POSi 5.3.BND=BNDi 5.4.NEG=NEG∪NEGi 5.5.Ui+1=BND 5.6.ifUi+1=? 5.6.1.returnPOS,NEG;break 5.7.elsei=i+1 6.endwhile 7.ifi=L 7.3.POS=POS∪POSL 7.4.NEG=NEG∪NEGL 8.endif 9.returnPOS,NEG 為了驗(yàn)證本文所提出方法的有效性,表3選取了5個(gè)經(jīng)典的UCI數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證.實(shí)驗(yàn)運(yùn)行環(huán)境為Windows 10,運(yùn)行實(shí)驗(yàn)的處理器為Intel i5-8250U,1.6GHz CPU,內(nèi)存為8G,編程語言為Python 3.7.在本節(jié)中,首先介紹數(shù)據(jù)集的一些基本信息,評(píng)價(jià)指標(biāo),參數(shù)和實(shí)驗(yàn)的設(shè)計(jì);然后對(duì)各算法的分類質(zhì)量進(jìn)行對(duì)比分析;最后對(duì)分類的成本進(jìn)行評(píng)估. 表3 數(shù)據(jù)集描述 本文主要評(píng)估評(píng)分類質(zhì)量和分類成本兩個(gè)方面.在分類質(zhì)量方面,選用F1值和精度來對(duì)方法進(jìn)行評(píng)估. 關(guān)于序貫三支分類方法中的參數(shù)設(shè)置,本文以三層粒結(jié)構(gòu)為例進(jìn)行對(duì)比試驗(yàn).每層添加屬性數(shù)目為(|Cr|/2,|Cr|/4,|Cr|/4),其分類代價(jià)矩陣設(shè)置如表4所示.其中λBP和λBN由延遲成本和信息獲取成本兩部分構(gòu)成.進(jìn)一步地,通過式(6),式(7)和式(10),可以計(jì)算得出每層的分類閾值.為了方便起見,我們?cè)O(shè)置遺傳算法參數(shù)為:種群數(shù)50,交叉率0.9,變異率0.3,迭代次數(shù)的停止條件為10次.因?yàn)檫z傳算法具有一定的隨機(jī)性,所以本文重復(fù)運(yùn)行5次計(jì)算平均值.此外,我們假定表3中各數(shù)據(jù)集屬性的測(cè)試代價(jià)相同.關(guān)于WS3WC中分類器ψ的選擇,本文以邏輯回歸(LOG)和支持向量機(jī)(SVM)為例來進(jìn)行試驗(yàn). 表4 各粒層分類代價(jià)矩陣 為了進(jìn)一步說明本文方法的有效性,我們選擇靜態(tài)分類器和TS3WC作為基準(zhǔn)算法,設(shè)計(jì)了兩組對(duì)比實(shí)驗(yàn),具體如表5所示.其中靜態(tài)分類器是指靜態(tài)二支分類器; TS3WC引入了序貫三支決策的思想,對(duì)樣本進(jìn)行差異化分類,但在粒化過程中不對(duì)屬性進(jìn)行約簡和排序. 表5 實(shí)驗(yàn)設(shè)計(jì) 表6、表7給出了各方法在每個(gè)數(shù)據(jù)集下的F1值和精度值,以及在5個(gè)數(shù)據(jù)集下的平均F1值和平均精度值.從表6-表7可以看出,3種方法在不同數(shù)據(jù)集上的分類質(zhì)量各有高低.當(dāng)選取LOG分類器時(shí),WS3WC-LOG的表現(xiàn)要略好一些.當(dāng)選取SVM分類器時(shí),靜態(tài)分類的表現(xiàn)更好.通過觀察3種方法在5個(gè)UCI數(shù)據(jù)集下的平均F1值和平均精度值可以看出:WS3WC和靜態(tài)分類器的平均F1值和平均精度相差不大,但都優(yōu)于TS3WC. 表6 算法在各數(shù)據(jù)集下的的F1值 表7 算法在各數(shù)據(jù)集下的精度 綜上所述,WS3WC與靜態(tài)分類器在分類質(zhì)量上差距不大,能夠保持較好的分類質(zhì)量,TS3WC的分類質(zhì)量要略低于靜態(tài)分類器和WS3WC.這說明WS3WC能夠保持較好分類質(zhì)量的主要原因在于其?;椒ǖ膬?yōu)勢(shì),將Wrapper特征選擇框架引入?;^程是合理的. 圖4(a)-圖4(e)給出了各算法在5個(gè)數(shù)據(jù)集上的分類成本,其中分類成本由誤分成本,延遲成本和信息處理成本3部分構(gòu)成.圖4(f)給出了各算法在所有數(shù)據(jù)集上的平均分類成本.為了方便比較,本文將靜態(tài)分類器的平均分類成本設(shè)置為1.從圖4中可以看出,相較于靜態(tài)分類器,WS3WC的分類成本在各個(gè)數(shù)據(jù)集上均有大幅度的下降;TS3WC的分類成本在4個(gè)數(shù)據(jù)集上有較大幅度的降低;同時(shí)WS3WC與TS3WC的平均分類成本明顯減少,這充分說明了引入序貫三支決策思想可以有效降低靜態(tài)分類器的分類成本.與此同時(shí),我們注意到?;椒▽?duì)分類成本也有極其重要的影響.在Wdbc和Dermatology數(shù)據(jù)集上, TS3WC的分類成本明顯比WS3WC升高;在Shop數(shù)據(jù)集上,TS3WC的分類成本甚至超過了靜態(tài)分類器;只有在Ionosphere和Sports數(shù)據(jù)集上TS3WC和WS3WC的分類成本比較相近;此外,WS3WC的平均分類成本低于TS3WC.通過上述分析可以看出:在?;^程中考慮冗余屬性和屬性添加順序是十分必要的,本文提出的?;椒軌蛴行У慕档头诸惓杀? 圖4 算法在各數(shù)據(jù)集上的分類成本與平均分類成本 如何降低靜態(tài)分類器的分類成本,以便更好地解決代價(jià)敏感分類問題是本文的研究動(dòng)機(jī)和最終目標(biāo).本文將序貫三支決策的思想引入分類過程中,對(duì)樣本進(jìn)行差異化分類;同時(shí)利用Wrapper特征選擇框架消除粒化過程中的冗余屬性并且確定屬性的添加順序,提出了一種Wrapper特征選擇下的序貫三支分類方法.實(shí)驗(yàn)表明,WS3WC不僅保持了良好的分類質(zhì)量,而且能夠大幅降低分類成本. 本文提出的WS3WC方法只是一個(gè)基本框架,還有許多問題值得深入研究.三支決策理論在處理多類問題時(shí)具有一定的局限性,因此如何解決多分類問題是未來研究方向之一.此外,本文主要關(guān)注應(yīng)用過程中的分類成本,忽略了訓(xùn)練成本,如何將二者綜合考慮也是值得進(jìn)一步研究的問題.3.2 屬性排序
3.3 多層次粒結(jié)構(gòu)
4 序貫三支分類方法
4.1 動(dòng)態(tài)分類策略
4.2 Wrapper特征選擇下的序貫三支分類方法
5 實(shí)驗(yàn)分析
5.1 評(píng)估指標(biāo)的選擇
5.2 參數(shù)設(shè)置和實(shí)驗(yàn)設(shè)計(jì)
5.3 分類質(zhì)量評(píng)估
5.4 分類成本評(píng)估
5 結(jié) 論