和紅順,韓德強(qiáng),楊藝
(1.西安交通大學(xué)電子與信息工程學(xué)院,710049,西安;2.中國電子科技集團(tuán)公司航天信息應(yīng)用技術(shù)重點(diǎn)實(shí)驗(yàn)室,050004,石家莊;3.西安交通大學(xué)機(jī)械結(jié)構(gòu)強(qiáng)度與振動國家重點(diǎn)實(shí)驗(yàn)室,710049,西安)
復(fù)雜環(huán)境或場景下,單一分類器的分類效果往往不夠理想[1]。多分類器系統(tǒng)[2]是應(yīng)對復(fù)雜環(huán)境下模式分類問題的有效方法,已被廣泛應(yīng)用于圖像識別[3]、語音識別[3]、醫(yī)療診斷[4]等領(lǐng)域。
學(xué)者們基于多分類器系統(tǒng)的多個層面開展了研究。在成員分類器生成層面,已有研究方法主要有選用不同訓(xùn)練樣本獲得成員分類器[5]及基于不同的分類算法生成成員分類器[6]等。由多個相同的分類器構(gòu)成的多分類器系統(tǒng),其性能并不會優(yōu)于單一成員分類器[7]。如果多個成員分類器所提供的信息是互補(bǔ)的、有差異的,則融合分類性能一定會優(yōu)于單一最優(yōu)分類器,采用具有一定互補(bǔ)性[8]的不同成員分類器是多分類器系統(tǒng)提升融合分類性能的關(guān)鍵。一些學(xué)者分析了如何生成和選擇具備互補(bǔ)性的成員分類器[9-10]。在多分類器融合規(guī)則方面,對成員分類器的不同輸出形式采用不同的融合方式,如投票法[11]、Bayes法[12]以及DS證據(jù)理論法[13]等。
成員分類器的生成是多分類器系統(tǒng)設(shè)計(jì)的基礎(chǔ)。神經(jīng)網(wǎng)絡(luò)是一類常用的分類器,其中BP神經(jīng)網(wǎng)絡(luò)是一種簡單有效的分類算法。然而,在分類訓(xùn)練過程中,訓(xùn)練樣本中往往存在很難準(zhǔn)確判斷類別歸屬的數(shù)據(jù),即這些樣本在分類時(shí)存在不確定性。證據(jù)理論是一種表示和處理不確定性的有效的工具。針對數(shù)據(jù)的不確定性問題,本文提出一種證據(jù)神經(jīng)網(wǎng)絡(luò)分類器并將其作為成員分類器來構(gòu)造多分類器系統(tǒng)。首先對訓(xùn)練數(shù)據(jù)進(jìn)行重組,將難以準(zhǔn)確分辨類別的數(shù)據(jù)劃歸到新的類別(混合類),在建模過程中保留著訓(xùn)練數(shù)據(jù)本身含混性的這一不確定性。然后使用重組后含有混合類數(shù)據(jù)的訓(xùn)練集訓(xùn)練成員分類器,將得到的輸出進(jìn)行證據(jù)函數(shù)建模。最后用證據(jù)組合規(guī)則來融合多個成員分類器結(jié)果以提高多分類器系統(tǒng)的性能。實(shí)驗(yàn)結(jié)果表明,本文提出的多分類器系統(tǒng)合理、有效。
多分類器系統(tǒng)是一種應(yīng)對復(fù)雜模式識別問題的有效方法,在模式識別領(lǐng)域得到了廣泛的關(guān)注和應(yīng)用。多分類器系統(tǒng)使用多個不同的分類器進(jìn)行分類,然后通過一定的組合機(jī)制融合多個具有一定互補(bǔ)性[14]的分類器結(jié)果,以獲得更加有效的分類效果。多分類器系統(tǒng)的流程如圖1所示。
圖1 多分類器系統(tǒng)流程圖
系統(tǒng)基于成員分類器的不同輸出形式選擇合適的融合方式,融合成員分類器結(jié)果,得到最終的決策結(jié)果。成員分類器的輸出為度量級(即輸出為一系列代表各類別可能性的度量值)時(shí),可以采用DS證據(jù)理論[15]等方法進(jìn)行融合。
多分類系統(tǒng)能夠一定程度上提高分類精度,但并非任意分類器組合都能獲得這樣的提升。不同成員分類器之間的互補(bǔ)性非常關(guān)鍵。
差異性度量[16]的目的是通過某種方法對分類器集合中各個分類器之間的差異進(jìn)行量化。成對差異性度量較為常用。成對差異性度量需要考慮兩兩分類器之間的差異性,其代表方法有統(tǒng)計(jì)法、相關(guān)系數(shù)統(tǒng)計(jì)法、不一致度量法及雙錯法等。本文使用其中應(yīng)用最多的不一致度量法。不一致度量法由于要計(jì)算兩兩基分類器之間的統(tǒng)計(jì)關(guān)系,因而依賴于兩基分類器的聯(lián)合分布。令分類器Si、Sj判斷正確為1,判斷錯誤為0,分類器輸出統(tǒng)計(jì)量Nmn(m,n∈{0,1})表示分類器Si、Sj判斷為m、n的樣本個數(shù),分類器Si、Sj的聯(lián)合輸出碼如表1所示。
表1 分類器Si、Sj的聯(lián)合輸出碼
不一致度量值表達(dá)式如下
(1)
對一個由L個成員分類器構(gòu)成的成員分類器集的差異性度量值為成員分類器集中所有兩兩分類器差異性度量值的平均,表示如下
(2)
傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程是基于“硬”標(biāo)簽(清晰的類別標(biāo)簽)的訓(xùn)練樣本,而在真實(shí)數(shù)據(jù)中往往存在一些難以準(zhǔn)確分類的樣本。這部分?jǐn)?shù)據(jù)在類別歸屬上存在著含混性,使用傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)直接對這些數(shù)據(jù)進(jìn)行分類往往容易得到錯誤的結(jié)果。證據(jù)理論,又稱為信度函數(shù)理論,是處理這種含混的不確定性的有效工具[17-22],因此本文利用證據(jù)理論對神經(jīng)網(wǎng)絡(luò)分類器訓(xùn)練數(shù)據(jù)本身存在的不確定性進(jìn)行建模表征和處理,使用證據(jù)組合規(guī)則融合多個分類器結(jié)果來減少或消解不確定性,以求得到更好的分類性能。
在證據(jù)理論中,設(shè)集合Θ={θ1,θ2,…,θn}為辨識框架,2Θ是Θ所有子集的集合。若m:2Θ→[0,1]滿足
(?)=0
(3)
則稱m為辨識框架上的基本信度賦值(BBA),也稱mass函數(shù)。若?A?Θ,m(A)>0,A被稱為焦元。
對于辨識框架Θ中的某個命題A,其信任函數(shù)和似真函數(shù)的定義分別為bel(A)和pl(A),表示如下
(4)
(5)
區(qū)間[bel(A),pl(A)]用于表示A的不確定性。
Dempster組合規(guī)則用于獨(dú)立證據(jù)間的組合。辨識框架Θ上的2個獨(dú)立證據(jù)的mass函數(shù)為m1和m2,對于?A?Θ,A≠?,依據(jù)Dempster組合規(guī)則如下
(6)
Dempster組合規(guī)則在高沖突證據(jù)組合中會得到反直觀的結(jié)果,為了解決這一問題,一些研究者提出了一些改進(jìn)的方法,其中具有代表性的有Yager組合規(guī)則和Murphy組合規(guī)則。
Yage認(rèn)為證據(jù)沖突部分代表了不可靠信息,應(yīng)該被賦給全集,以表征“未知”[23],規(guī)則定義為
(7)
Yager規(guī)則滿足交換律,但不滿足結(jié)合律。
Murphy首先采用了等權(quán)值的方式得到平均證據(jù)[24],假設(shè)有s個證據(jù),則平均證據(jù)為
(8)
然后應(yīng)用Dempster組合規(guī)則對平均證據(jù)mave自身組合s-1次。其他一些組合規(guī)則詳見文獻(xiàn)[25]。
在得到融合證據(jù)后,由證據(jù)至概率的轉(zhuǎn)換是實(shí)現(xiàn)融合決策的重要步驟。Smets定義的Pignistic概率轉(zhuǎn)換[15]用于將mass函數(shù)轉(zhuǎn)換為概率
(9)
證據(jù)理論中證據(jù)函數(shù)的生成,特別是混合焦元的確定是難點(diǎn)所在。傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程是基于“硬”的類別標(biāo)簽,如圖2a所示,用傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)來生成證據(jù)函數(shù)只能得到單點(diǎn)的焦元[26],無法發(fā)揮證據(jù)理論的優(yōu)勢,不能對含混性進(jìn)行建模和表征。而本方法得到的輸出包含單點(diǎn)焦元和混合焦元,如圖2b所示用神經(jīng)網(wǎng)絡(luò)對包含混合類數(shù)據(jù)的訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,可以得到包含混合焦元在內(nèi)的多個焦元,能夠有效的表征數(shù)據(jù)的含混性。這里以BP神經(jīng)網(wǎng)絡(luò)(三分類問題)為例,闡述本文方法的具體實(shí)現(xiàn)。
(a)傳統(tǒng)神經(jīng)網(wǎng)絡(luò)分類器
(b)證據(jù)神經(jīng)網(wǎng)絡(luò)分類器圖2 證據(jù)BP神經(jīng)網(wǎng)絡(luò)分類器
假設(shè)訓(xùn)練數(shù)據(jù)有3類,類別標(biāo)簽為C1、C2、C3。首先對原有的訓(xùn)練樣本進(jìn)行重組,得到包含混合類在內(nèi)的新訓(xùn)練樣本,共23-1=7個類別,分別為{C1}、{C2}、{C3}、{C1,C2}、{C1,C3}、{C2,C3}、{C1,C2,C3}。給定任意一個測試樣本,采用后向傳播(BP)神經(jīng)網(wǎng)絡(luò)得到的焦元以及所對應(yīng)的mass賦值,如表2所示。
表2 證據(jù)神經(jīng)網(wǎng)絡(luò)焦元及所對應(yīng)的mass賦值
mass賦值形式如表2的神經(jīng)網(wǎng)絡(luò)稱之為證據(jù)神經(jīng)網(wǎng)絡(luò)。當(dāng)數(shù)據(jù)含有M個類別時(shí)得到2M-1個mass賦值。信度分配方式為對于輸入的訓(xùn)練樣本x={x(1),x(2),…,x(d)},將神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果歸一化為
(10)
式中:y(Ak)為測試樣本輸出。得到證據(jù)函數(shù)m(Ak),表示BP網(wǎng)絡(luò)在重組后的數(shù)據(jù)屬于第k個命題Ak的基本信任分配。舉例說明,設(shè)測試樣本輸出為y(A1)=0.5、y(A2)=0.3、y(A3)=0.3、y(A4)=0.2、y(A5)=0.2、y(A6)=0.3、y(A7)=0.2,利用式(10)歸一化得到一組證據(jù)函數(shù)m(A1)=0.25、m(A2)=0.15、m(A3)=0.15、m(A4)=0.1、m(A5)=0.1、m(A6)=0.15、m(A7)=0.1。圖2為傳統(tǒng)神經(jīng)網(wǎng)絡(luò)分類器與BP神經(jīng)網(wǎng)絡(luò)分類器的網(wǎng)絡(luò)結(jié)構(gòu)對比示意圖。
需要指出的是,傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)是基于“硬”的清晰類別標(biāo)簽的,而本文中的方法是采用混合類作為標(biāo)準(zhǔn)輸出,在證據(jù)建模的過程中不隨意丟棄數(shù)據(jù)含混的這一確定性,構(gòu)造復(fù)合焦元(包括焦元組成及mass函數(shù)賦值),通過構(gòu)造多個成員分類器并用證據(jù)理論方法融合來減少或消解這種不確定性,以求達(dá)到更好的分類效果。
在對訓(xùn)練數(shù)據(jù)進(jìn)行重組中最關(guān)鍵的一點(diǎn)是如何去定義混合類。
本節(jié)介紹如何確定訓(xùn)練數(shù)據(jù)中的含混數(shù)據(jù)部分以及數(shù)據(jù)的重組過程。本文采用K近鄰算法[27]和集合交并運(yùn)算來確定混合類數(shù)據(jù)并完成訓(xùn)練數(shù)據(jù)的重組。
(1)對于二分類的訓(xùn)練數(shù)據(jù),給定K值,遍歷找出距離當(dāng)前訓(xùn)練樣本最近的K個樣本,和當(dāng)前樣本標(biāo)簽一致的數(shù)據(jù)個數(shù)記為N1,與當(dāng)前數(shù)據(jù)標(biāo)簽不一致的數(shù)據(jù)個數(shù)記為N2。當(dāng)N2≥N1時(shí),把當(dāng)前樣本劃分到混合類部分。
(2)對于多分類問題,以3類問題為例,選取C1、C2類的混合部分?jǐn)?shù)據(jù)M12(M12由用上述劃分二分類混合類的方法得到,M13、M23也用同樣的方法得到),最終的C1、C2類混合數(shù)據(jù)為S12=M12-M12∩M13-M12∩M23;同樣的可以得到C1、C3類混合S13=M13-M13∩M12-M13∩M23和C2、C3類混合S23=M23-M23∩M12-M23∩M13。C1、C2、C3的混合類S123由下式得到
S123=(S12∩S13)∪(S12∩S23)∪(S23∩S13)
(11)
訓(xùn)練數(shù)據(jù)重組之后往往會出現(xiàn)數(shù)據(jù)的不均衡。兩類數(shù)據(jù)經(jīng)過重組后的訓(xùn)練數(shù)據(jù)C1類數(shù)據(jù)、C2類數(shù)據(jù)遠(yuǎn)多于混合類{C1,C2}數(shù)據(jù),如圖3所示。不均衡數(shù)據(jù)直接進(jìn)行分類往往效果不佳,需要進(jìn)行均衡化的處理。
圖3 訓(xùn)練數(shù)據(jù)重組后的分類數(shù)據(jù)不均衡狀況
本文采用SMOTE過采樣算法[28]均衡化數(shù)據(jù)。SMOTE算法是利用特征空間中現(xiàn)存少數(shù)類樣本之間的相似性建立人工數(shù)據(jù)的方法。Smin表示當(dāng)前的需要補(bǔ)充數(shù)據(jù)的原始樣本集合,對于每一個樣本xi∈Smin使用K近鄰法,其中K是指定的整數(shù)。通過以下方法得到人工樣本
(12)
為了驗(yàn)證本文提出的證據(jù)神經(jīng)網(wǎng)絡(luò)多分類器系統(tǒng)的合理有效性,基于人工數(shù)據(jù)集和UCI數(shù)據(jù)集進(jìn)對比實(shí)驗(yàn)。實(shí)驗(yàn)方法:依次選取原始數(shù)據(jù)的每三維特征構(gòu)成一個子空間(最后一個子空間維度為原始特征維度除以3的余數(shù)),例如假設(shè)原始數(shù)據(jù)有8維特征{d1,d2,d3,d4,d5,d6,d7,d8},則可以得到{d1,d2,d3}、{d4,d5,d6}、{d7,d8} 3個特征子空間,將原始數(shù)據(jù)按列隨機(jī)排序,同樣的依次選取特征得到不同的子空間集合,將原始數(shù)據(jù)按列多次隨機(jī)依次選取生成多個不同的特征子空間集合,來構(gòu)造出多個不同的多分類器系統(tǒng),利用成對差異性度量(式(2))選取其中差異性最大的子空間集合構(gòu)造多分類器系統(tǒng)。實(shí)驗(yàn)將樣本數(shù)據(jù)平均分成5份,任意選取其中的3份作為訓(xùn)練數(shù)據(jù),其余2份數(shù)據(jù)作為待測數(shù)據(jù),重復(fù)多次實(shí)驗(yàn)取平均正確率。實(shí)驗(yàn)中數(shù)據(jù)的每一維特征Fi都做歸一化處理
(13)
需要指出的是,在使用本文提出的證據(jù)神經(jīng)網(wǎng)絡(luò)多分類器時(shí),使用的訓(xùn)練數(shù)據(jù)是重組后包含混合類的訓(xùn)練數(shù)據(jù)(均衡化后)。
本文實(shí)驗(yàn)使用了多種不同的融合規(guī)則進(jìn)行對比,其中不同的融合規(guī)則對應(yīng)的本文方法的簡稱如表3所示。
表3 本文設(shè)計(jì)的3種分類器系統(tǒng)方法的融合規(guī)則及簡稱
在同等條件下,將本文提出的方法(MNE-DS、MNE-Yager、MNE-Mur)與投票法(MaVot)和貝葉斯BBA(BBBA)方法進(jìn)行對比。投票法[29-30]是一種簡單有效的融合方式,已廣泛的應(yīng)用于多分類器系統(tǒng)中。貝葉斯BBA(只含有單焦元的BBA)是將BP神經(jīng)網(wǎng)絡(luò)的輸出歸一化,再使用融合方法進(jìn)行融合。
本文構(gòu)造的人工數(shù)據(jù)集共3類,每個樣本包含6個獨(dú)立的特征維度。第1、2維度,3、4維度,5、6維度的數(shù)據(jù)分別由下式得到
(14)
式中:r是[01]的隨機(jī)數(shù);αk(k=1,2,3)為給定常數(shù);θ為一個隨機(jī)角度。人工數(shù)據(jù)集Da可以表示為Da=[x1(1),x1(2),x2(1),x2(2),x3(1),x3(2)]。
每一類數(shù)據(jù)包含100個樣本,樣本每個維度對應(yīng)的αk的值如表4所示。
表4 不同維度數(shù)據(jù)3個類別所對應(yīng)的αk值
本文構(gòu)造的人工數(shù)據(jù)如圖4~圖6所示。本文分別使用訓(xùn)練數(shù)據(jù)的1、2維度,3、4維度,5、6維度這3個子空間訓(xùn)練成員分類器來構(gòu)造多分類器系統(tǒng)。從圖4~圖6可見,第1個子空間上C1、C3類數(shù)據(jù)是容易區(qū)分的,第2個子空間上C1、C2類數(shù)據(jù)是容易區(qū)分的,第3個子空間上C2、C3類數(shù)據(jù)是容易區(qū)分的。這3個子空間有一定的差異性。
圖4 人工數(shù)據(jù)集1、2維度特征
圖5 人工數(shù)據(jù)集3、4維度特征
圖6 人工數(shù)據(jù)集5、6維度特征
人工數(shù)據(jù)集下多分類器系統(tǒng)的平均分類正確率如表5所示。由表5可見,本文提出的方法MNE-DS、MNE-Yager、MNE-Mur相比于投票法、Bayes BBA方法可以得到更好的分類效果。
表5 人工數(shù)據(jù)集下多分類器系統(tǒng)的分類效果比較
實(shí)驗(yàn)使用的UCI數(shù)據(jù)集信息如表6所示。本文依次選取原始訓(xùn)練數(shù)據(jù)的維度特征構(gòu)成子空間,將原始訓(xùn)練數(shù)據(jù)按列隨機(jī)排序,用同樣的依次選取方法可以得到不同的子空間集合。重復(fù)上述操作生成30個不同的特征子空間集合,用得到的不同的子空間集合訓(xùn)練得到多個不同的多分類器系統(tǒng),利用成對差異性度量(式(2))選取其中差異性最大的子空間集合構(gòu)造多分類器系統(tǒng)。
表6 實(shí)驗(yàn)所用UCI數(shù)據(jù)集信息
采用本文提出的3種算法(MNE-DS、MNE-Yager、MNE-Mur)與投票法(MaVot)和Bayes BBA(BBBA)方法進(jìn)行對比,結(jié)果如表7所示。從表7可以看出,本文提出的證據(jù)神經(jīng)網(wǎng)絡(luò)多分類器有很好的分類效果,在數(shù)據(jù)集Diabetes和Seeds分類正確率明顯高于其他多分類器系統(tǒng)。一般而言,對于證據(jù)神經(jīng)網(wǎng)絡(luò)多分類器,類別數(shù)據(jù)多且特征維
數(shù)低時(shí),數(shù)據(jù)的不確定性比較突出。在二分類數(shù)據(jù)集Pima、Magic 04和Diabetes上,特征維數(shù)屬于中低水平,相比投票法,證據(jù)神經(jīng)網(wǎng)絡(luò)多分類器分類正確率有明顯的提高,在特征維度很高的Wdbc數(shù)據(jù)集上分類正確率有一定程度的提高;在三分類數(shù)據(jù)集Seeds和Iris上,數(shù)據(jù)的特征維度較低,類別數(shù)目較高,說明證據(jù)神經(jīng)網(wǎng)絡(luò)多分類器系統(tǒng)具有很好的分類性能。
總體而言,本文提出的證據(jù)神經(jīng)網(wǎng)絡(luò)多分類器在繼承了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)良好的分類性能的同時(shí),充分利用了數(shù)據(jù)間含混的不確定性,并利用證據(jù)組合規(guī)則融合來消解這一含混的不確定性,從而得到更好的分類效果。
本文提出了一種基于證據(jù)神經(jīng)網(wǎng)絡(luò)的多分類器系統(tǒng),該系統(tǒng)在建模過程中保留數(shù)據(jù)的含混性并嘗試用證據(jù)理論去消解這一含混的不確定性。本文基于證據(jù)神經(jīng)網(wǎng)絡(luò)的多分類器系統(tǒng)能更加充分地利用訓(xùn)練數(shù)據(jù)所包含的信息,相比于其他基于神經(jīng)網(wǎng)絡(luò)的多分類器系統(tǒng)如基于投票法的多分類器系統(tǒng)以及基于貝葉斯BBA的多分類器系統(tǒng),在建模過程中能更為有效的避免信息的丟失,得到的識別結(jié)果具有更高的可靠性,進(jìn)一步提高了分類正確率,得到的分類效果更為準(zhǔn)確。
在今后的研究中,我們將嘗試使用其他類型的有監(jiān)督神經(jīng)網(wǎng)絡(luò)分類器構(gòu)造多分類器系統(tǒng),以及探尋更為合理有效的劃分混合類數(shù)據(jù)的方法,更為科學(xué)地完成訓(xùn)練數(shù)據(jù)的重組過程。差異性度量是多分類器系統(tǒng)的一個重要部分,近來取得了一些進(jìn)展,在將來的工作中,我們將在本文方法的基礎(chǔ)上設(shè)計(jì)更為科學(xué)有效的差異性度量方法,構(gòu)造出更為科學(xué)可靠的多分類器系統(tǒng),以求得到更為準(zhǔn)確的分類結(jié)果。
表7 本文3種算法與其他2種算法在UCI數(shù)據(jù)集上的分類效果比較