張振良 劉君強(qiáng) 黃 亮 張 曦
(1.鄂爾多斯應(yīng)用技術(shù)學(xué)院 鄂爾多斯 017000)(2.南京航空航天大學(xué)民航學(xué)院 南京 211100)
在機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘應(yīng)用程序中,我們尋找很多方法來(lái)提高分類(lèi)器的性能。集成學(xué)習(xí)是一種機(jī)器學(xué)習(xí)方法,最初,集成學(xué)習(xí)的提出是由于Schapire 證明了多個(gè)弱分類(lèi)器可以形成一個(gè)強(qiáng)分類(lèi)器,所謂的弱分類(lèi)器是指分類(lèi)效果很差的模型,集成學(xué)習(xí)的目的是通過(guò)組合多個(gè)分類(lèi)器的輸出來(lái)構(gòu)造多個(gè)不同的分類(lèi)器[1]。所謂“集成”是專家的混合體,用以防止過(guò)度擬合以及減少所有基礎(chǔ)學(xué)習(xí)器的誤差,而如何結(jié)合多種學(xué)習(xí)器的輸出結(jié)果和提高基分類(lèi)器的多樣性來(lái)提高分類(lèi)器的精度是重點(diǎn)[2]。
集成分類(lèi)器的關(guān)鍵是根據(jù)所有基分類(lèi)器的預(yù)測(cè)來(lái)量化未標(biāo)記樣本的置信度,而精度也隨分類(lèi)器的數(shù)量增加而增加,而且對(duì)所有的訓(xùn)練集以及算法沒(méi)有要求,避免了大量交叉驗(yàn)證[3]。
現(xiàn)有的算法大多只使用標(biāo)記數(shù)據(jù)來(lái)構(gòu)造分類(lèi)器,而且在很多情況下,標(biāo)記數(shù)據(jù)的數(shù)量通常不足以訓(xùn)練出魯棒性很強(qiáng)的分類(lèi)器,同時(shí)大多數(shù)情況下,標(biāo)簽數(shù)據(jù)的獲取成本很高,而未標(biāo)記的數(shù)據(jù)則很容易獲得而且數(shù)量更多?;谶@個(gè)原因,半監(jiān)督學(xué)習(xí)獲得了越來(lái)越多的關(guān)注,它致力于從未標(biāo)記樣本中獲得信息,尋找大量的未標(biāo)記數(shù)據(jù)中的規(guī)律,再利用少部分已標(biāo)記數(shù)據(jù)的信息,做出預(yù)測(cè)。大多數(shù)現(xiàn)有的SSL(Semi-supervised learning)技術(shù)主要是在未標(biāo)記數(shù)據(jù)的信息獲取方式上加以區(qū)別。
將半監(jiān)督學(xué)習(xí)方法引入到集成學(xué)習(xí)中,鄔[4]提出三重訓(xùn)練的思想,訓(xùn)練生成三個(gè)分類(lèi)器,而且無(wú)需滿足苛刻的獨(dú)立條件,然后使用其他兩個(gè)分類(lèi)器同意的未標(biāo)記數(shù)據(jù)對(duì)另一個(gè)分類(lèi)器進(jìn)行改進(jìn),由于未標(biāo)記數(shù)據(jù)的分類(lèi)誤差估計(jì)比較困難,因此,在未標(biāo)記數(shù)據(jù)與標(biāo)記數(shù)據(jù)具有相同分布的前提下,僅對(duì)標(biāo)記數(shù)據(jù)進(jìn)行分類(lèi)誤差計(jì)算。三次訓(xùn)練過(guò)程的學(xué)習(xí)一直持續(xù)到誤差停止減小為止,這意味著已經(jīng)達(dá)到了最大的泛化效果。在一定的理論證明限制下,將一致的未標(biāo)記樣本逐步加入到標(biāo)記數(shù)據(jù)中,用于細(xì)化相應(yīng)的分類(lèi)器,直到?jīng)]有一個(gè)分類(lèi)器的預(yù)測(cè)誤差進(jìn)一步減小,一旦學(xué)習(xí)過(guò)程完成,就可以用兩個(gè)或多個(gè)成員分類(lèi)器一致同意的標(biāo)簽來(lái)預(yù)測(cè)未標(biāo)記或看不見(jiàn)的數(shù)據(jù)[5]。三重訓(xùn)練方法很有吸引力,因?yàn)樗谠嫉墓餐?xùn)練方法中成功地解除了對(duì)兩個(gè)條件獨(dú)立視圖的要求,而沒(méi)有經(jīng)歷過(guò)實(shí)踐中提出的耗時(shí)的交叉驗(yàn)證過(guò)程。
王立國(guó)[6]提出改進(jìn)的三重訓(xùn)練算法,先選取信息量最大的未標(biāo)記樣本,利用差分進(jìn)化算法產(chǎn)生新樣本,再利用這些新樣本繼續(xù)迭代[2]。楊印衛(wèi)、王國(guó)鋒[1]選取了支持向量機(jī)(SVM)、隱馬爾科夫模型(HMM)以及徑向基神經(jīng)網(wǎng)絡(luò)(RBF)這三個(gè)單分類(lèi)器作為異構(gòu)集成學(xué)習(xí)模型的基分類(lèi)器,同時(shí)采用了majority voting和stacking兩種集成結(jié)果整合策略來(lái)選擇最優(yōu)組合,證明異構(gòu)集成學(xué)習(xí)模型的泛化能力相比于以往單分類(lèi)模型得到了改善,同時(shí)模型復(fù)雜度降低。傅向華、馮博琴[7]等提出一種異構(gòu)神經(jīng)網(wǎng)絡(luò)集成協(xié)同構(gòu)造算法,利用進(jìn)化規(guī)劃同時(shí)進(jìn)化網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和連接權(quán)值,連續(xù)學(xué)習(xí)生成多個(gè)異構(gòu)最優(yōu)網(wǎng)絡(luò),然后對(duì)異構(gòu)網(wǎng)絡(luò)進(jìn)行組合。在構(gòu)造神經(jīng)網(wǎng)絡(luò)集成的過(guò)程中通過(guò)協(xié)同合作,保持各網(wǎng)絡(luò)間的負(fù)相關(guān),從而在提高成員網(wǎng)絡(luò)精度的同時(shí)增加各成員網(wǎng)絡(luò)之間的差異度。
這些算法的優(yōu)點(diǎn)在于不要求用于分類(lèi)的屬性由多個(gè)獨(dú)立視圖描述,從而大大擴(kuò)展了基于共同訓(xùn)練的半監(jiān)督學(xué)習(xí)的適用性。但是,這些算法的一個(gè)潛在弱點(diǎn)是,因?yàn)槌跏挤诸?lèi)器是由Boosting 算法進(jìn)行自舉采樣,基分類(lèi)器差異性被樣本多樣性局限,算法的成功在很大程度上取決于原始集合分類(lèi)的多樣性
本文將從采用多個(gè)視圖以及不同的特征降維方法和學(xué)習(xí)模型來(lái)創(chuàng)建更加多樣化的基學(xué)習(xí)器,未標(biāo)記的數(shù)據(jù)通過(guò)集合成員的簡(jiǎn)單多數(shù)表決來(lái)預(yù)測(cè),而不是復(fù)雜測(cè)量方法,以期有效地提高以最小的開(kāi)銷(xiāo)成本預(yù)測(cè)未標(biāo)記樣本的標(biāo)記的準(zhǔn)確性,其次所提出的方法預(yù)測(cè)具有特定標(biāo)簽的數(shù)據(jù)的概率,然后可以使用該方法選擇最可靠的預(yù)測(cè)的未標(biāo)記數(shù)據(jù)以添加到標(biāo)記數(shù)據(jù)。相比之下,其他算法隨機(jī)選擇池中的一定數(shù)量的未標(biāo)記數(shù)據(jù)用以訓(xùn)練。鑒于這些屬性,基于多視圖的半監(jiān)督集成學(xué)習(xí)算法能夠可靠地應(yīng)用于各種分類(lèi)問(wèn)題。
所謂視圖其實(shí)就是特征集,在具體的分類(lèi)過(guò)程中,由于訓(xùn)練集可能有著多種多樣的特征屬性,如果全部輸入到網(wǎng)絡(luò)中進(jìn)行學(xué)習(xí)不但數(shù)據(jù)龐大難以學(xué)習(xí),而且特征之間也無(wú)主次,影響精度。我們以垃圾郵件的分類(lèi)為例[8],在諸如公共垃圾郵件數(shù)據(jù)集之類(lèi)的研究中,如主題長(zhǎng)度,信息大小,附件大小和圖片數(shù)量等特征都在分類(lèi)垃圾電子郵件時(shí)有所幫助?;谝陨咸攸c(diǎn),本文總結(jié)了上述14 個(gè)特征如表1 所示,并且采用兩個(gè)視圖也就是數(shù)據(jù)集來(lái)表示電子郵件。這種特殊的數(shù)據(jù)構(gòu)建方法使我們的工作與大多數(shù)現(xiàn)有工作不同。在實(shí)際部署中,我們確定可以通過(guò)當(dāng)前的電子郵件技術(shù)(即路線跟蹤和內(nèi)容記錄)輕松捕獲和計(jì)算上述特征。
表1 視圖示例
為了更好地描述本文方法,使用ɑ 和b 表示兩個(gè)視圖的所有特征,已標(biāo)記樣本用(<ɑ,b>,c)表示,其中 ɑ∈ A 和 b∈ B 是示例的兩個(gè)部分,c 是標(biāo)簽,0表示負(fù)類(lèi),1 表示正類(lèi)。假設(shè)在A 和B 上有兩個(gè)函數(shù)f1和f2,使得f1(ɑ)=f2(b)=c。這意味著每個(gè)標(biāo)簽都與兩個(gè)視圖相關(guān)聯(lián),其中每個(gè)視圖都包含足夠的信息來(lái)確定示例的標(biāo)簽。因此,如果給出k 個(gè)例子,可以給出具有標(biāo)記的數(shù)據(jù)集 L:(<ɑk,bk>,ck)(k=1,2,…,ck是已知的)。設(shè) U=(<ɑi,bi>,ci)(i=1,2,…,ci未知)表示大量未標(biāo)記數(shù)據(jù),我們的任務(wù)是訓(xùn)練一個(gè)分類(lèi)器來(lái)分類(lèi)新的例子。
由上可知,采用多個(gè)視圖描述兩組特征,但為了構(gòu)建用于解決分類(lèi)問(wèn)題的可靠模型,期望特征應(yīng)包含盡可能多的有用信息,并且特征的數(shù)量盡可能?。?]。但是,由于關(guān)于數(shù)據(jù)集的先驗(yàn)知識(shí)通常很少,因此難以區(qū)分哪些特征是相關(guān)的哪些特征不相關(guān)。因此,通常需要考慮大量功能,包括許多不相關(guān)和冗余的功能。不幸的是,不相關(guān)和冗余的特征不僅會(huì)降低學(xué)習(xí)效率,而且會(huì)對(duì)因此訓(xùn)練的機(jī)器學(xué)習(xí)的性能產(chǎn)生負(fù)面影響,從優(yōu)化的角度而言,特征選擇是一個(gè)組合優(yōu)化問(wèn)題。首先,由于特征子集的大小不是先驗(yàn)已知的,因此決策空間的維度是不可簡(jiǎn)化的。其次,因?yàn)楣δ芸赡鼙舜酥g具有互補(bǔ)或相互矛盾的相互作用,決策空間是不可分離的。因此,給定m 維特征集,所有可能的特征子集的數(shù)量都大到2m,這使得用傳統(tǒng)的窮舉搜索方法解決它的可能性很?。?0]。
現(xiàn)有的特征降維方法有獨(dú)立成分分析(ICA)、主成分分析法(PCA)、粒子群優(yōu)化算法(PSO)以及競(jìng)爭(zhēng)群優(yōu)化算法(CSO)等。ICA的基本思想即在線性變換的基礎(chǔ)上,使用訓(xùn)練樣本找到一組相互獨(dú)立的投影軸,利用其獨(dú)立成份作為樣本數(shù)據(jù)。PCA利用去除了樣本二階統(tǒng)計(jì)意義的相關(guān)性信息,ICA則利用去基于訓(xùn)練樣本的二階統(tǒng)計(jì)信息。使樣本的各階統(tǒng)計(jì)意義下的信息都得到了充分利用。PCA 基于訓(xùn)練樣本的二階統(tǒng)計(jì)信息,因而其忽視了高階統(tǒng)計(jì)意義下的信息。在PSO中,每個(gè)粒子在n 維搜索空間中保持位置和速度,表示候選解決方案和可能更好的解決方案的方向。為了搜索全局最優(yōu)的位置,每個(gè)粒子按公式迭代更新,但當(dāng)優(yōu)化問(wèn)題具有高維度和復(fù)雜的搜索空間時(shí),其性能仍然有限,為了提高PSO 的性能,已經(jīng)提出了許多PSO變體,包括基于參數(shù)自適應(yīng)的變體,基于結(jié)構(gòu)的拓?fù)渥凅w等。在CSO中[11],粒子從隨機(jī)選擇的競(jìng)爭(zhēng)者中學(xué)習(xí),而不是從全球或個(gè)人最佳位置學(xué)習(xí)。在每次迭代中,將群體隨機(jī)分成兩組,并在每組的粒子之間進(jìn)行成對(duì)競(jìng)爭(zhēng)。在每次比賽之后,獲勝者粒子將直接傳遞到下一次迭代,而輸家粒子將通過(guò)從獲勝者粒子中學(xué)習(xí)來(lái)更新其位置和速度。
半監(jiān)督學(xué)習(xí)算法的關(guān)鍵步驟是估計(jì)標(biāo)簽置信度,以選擇適當(dāng)?shù)奈礃?biāo)記樣本進(jìn)行標(biāo)記。這對(duì)于普通的分類(lèi)而言很簡(jiǎn)單,只需要隨機(jī)選擇未標(biāo)記樣本即可,但由于有著大量的未標(biāo)記樣本,有些未標(biāo)記樣本可能對(duì)于學(xué)習(xí)沒(méi)有幫助甚至?xí)鸬椒醋饔?,所以?duì)未標(biāo)記樣本的篩選是很有必要的,很多文獻(xiàn)[12]忽略了這一點(diǎn)。
為了解決這個(gè)問(wèn)題,通過(guò)評(píng)估未標(biāo)記樣本的標(biāo)記對(duì)現(xiàn)有標(biāo)記數(shù)據(jù)的影響來(lái)估計(jì)標(biāo)記置信度是可行的,但是基于假設(shè)標(biāo)記數(shù)據(jù)上的回歸量的誤差應(yīng)該減少最多,如果使用最可信的未標(biāo)記樣品在每次迭代中重復(fù)評(píng)估模型將導(dǎo)致高計(jì)算復(fù)雜性?;谶@些原因,提出了一種基于分歧的篩選算法。借用Tri-Training[13]的想法,使用基于三個(gè)視圖訓(xùn)練的三個(gè)回歸量來(lái)確定如何選擇合適的未標(biāo)記樣品進(jìn)行標(biāo)記。對(duì)于任何回歸量,我們通過(guò)利用其他兩個(gè)回歸量的均勻性來(lái)估計(jì)標(biāo)記置信度。如果其他兩個(gè)回歸量的估計(jì)值之間的差異較小,則未標(biāo)記的樣本獲得較高的標(biāo)記置信度。使用此方案,不再需要評(píng)估模型。在每次迭代中,我們選擇具有最小估計(jì)差異的未標(biāo)記樣本以擴(kuò)展標(biāo)記數(shù)據(jù)。
然而,僅考慮估計(jì)差異將導(dǎo)致所選未標(biāo)記樣本的分布偏差。原因是較小的估計(jì)差異傾向于有利于具有較低估計(jì)值的未標(biāo)記樣本。例如,如果樣本A 和 B 的估計(jì)變量值約為 30 和 300,則樣本 A 更容易獲得較小的估計(jì)差異。這個(gè)問(wèn)題會(huì)導(dǎo)致模型傾向于僅從樣本空間的一部分學(xué)習(xí)知識(shí),從而降低模型的泛化。為了緩解這個(gè)問(wèn)題,在每次迭代中,我們按照它們的估計(jì)值對(duì)未標(biāo)記的樣本進(jìn)行排序,并將它們分成幾個(gè)具有相同數(shù)量的未標(biāo)記樣本的區(qū)間,然后分別為每個(gè)區(qū)域選擇未標(biāo)記的樣本。
在學(xué)習(xí)步驟中,它應(yīng)用學(xué)習(xí)模型根據(jù)當(dāng)前標(biāo)記數(shù)據(jù)從三個(gè)視圖重新訓(xùn)練學(xué)習(xí)模型,并且用以對(duì)未標(biāo)記樣本U1預(yù)測(cè),在選擇步驟中,對(duì)于每個(gè)視圖,它首先通過(guò)使用式(1)計(jì)算估計(jì)差異Δy,其次,它根據(jù)候選樣本集進(jìn)行排序估計(jì)并將其分成具有相同數(shù)量樣本的β部分。最后,它分別選擇每個(gè)部分中具有最小估計(jì)差異的α%樣本篩選出來(lái)得到U用以下面的算法。
構(gòu)造差異性更好的基學(xué)習(xí)器是我們的目的,從而促進(jìn)半監(jiān)督以及集成學(xué)習(xí)的泛化性能。值得一提的是,為了盡可能獨(dú)立地創(chuàng)建視圖,模型應(yīng)盡可能地不同。例如,線性判別分析(LDA)和線性支持向量機(jī)(LSVM)都具有線性超平面,因此,它們創(chuàng)建的“模型”不太獨(dú)立。相比之下,LDA 和k-近鄰(kNN)更可能會(huì)創(chuàng)建不同的視圖,因?yàn)镵NN具有與LDA 不同的離散超平面。假如我們根據(jù)特征的多少我們構(gòu)建了兩種視圖,選取了獨(dú)立成分分析(ICA)、主成分分析法(PCA)、粒子群優(yōu)化算法(PSO)以及競(jìng)爭(zhēng)群優(yōu)化算法(CSO)四種特征降維方法,模型上采用樸素貝葉斯分類(lèi)器(NB)、J48 決策樹(shù)(J48)以及KNN(k=5)3 種模型。則我們可以提供2*4*3=24 種不同的訓(xùn)練方式,再通過(guò)重抽樣方法提高訓(xùn)練集的多樣性,提供具有穩(wěn)定差異性的基分類(lèi)器。
通過(guò)上述步驟,可以生成大量的基分類(lèi)器。但由于基分類(lèi)器的數(shù)量可能很大,所以其他所有分類(lèi)器都不太可能就未標(biāo)記數(shù)據(jù)達(dá)成一致。該問(wèn)題的解決方案是引入投票機(jī)制來(lái)預(yù)測(cè)標(biāo)簽,與給出確定性標(biāo)簽的三訓(xùn)練算法不同,所提出的方法預(yù)測(cè)具有特定標(biāo)簽的數(shù)據(jù)的概率。然后可以使用該概率來(lái)選擇最合適的未標(biāo)記樣本。這不會(huì)增加太多計(jì)算復(fù)雜度,因?yàn)榛趤?lái)自每個(gè)基礎(chǔ)分類(lèi)器的置信度輸出而不是如在共同學(xué)習(xí)算法中使用交叉驗(yàn)證來(lái)計(jì)算置信水平。
首先定義已標(biāo)記樣本L 及篩選后的未標(biāo)記樣本集U,重抽樣算法[14]B(x),排序函數(shù)S
1)根據(jù)上述方法構(gòu)造24 種學(xué)習(xí)模型P=<V,F(xiàn)(x),H(x)> ,其中 V 為視圖,F(xiàn) 為特征降維方法,H 為基本模型,同時(shí)對(duì)L 進(jìn)行重抽樣,依照重抽樣后的樣本以及學(xué)習(xí)模型訓(xùn)練24 種基分類(lèi)器hi=P<B(L)>,其中B為重抽樣算法。
2)使用第i個(gè)分類(lèi)器hi預(yù)測(cè)未標(biāo)記樣本xk,得到其分類(lèi)結(jié)果hi(xk)=yi,同時(shí)使用其余23 個(gè)分類(lèi)器進(jìn)行預(yù)測(cè)得到分類(lèi)結(jié)果hj(xk)=yj,(j≠i,i,j=1,2,…,24),若有ni個(gè)預(yù)測(cè)結(jié)果與hi預(yù)測(cè)結(jié)果相同,則得到xk在置信度為
相比于其他算法,本算法優(yōu)點(diǎn)有:
1)通過(guò)增加多視圖以及特征降維方法增加基學(xué)習(xí)器差異性。
2)通過(guò)對(duì)未標(biāo)記樣本的篩選,增加半監(jiān)督學(xué)習(xí)的穩(wěn)定性。
3)集成方式在運(yùn)算中調(diào)整各分類(lèi)器權(quán)值,進(jìn)行增量式學(xué)習(xí),進(jìn)一步提升分類(lèi)器性能。
為了比較所提算法與其他算法的性能,我們對(duì)來(lái)自UCI 機(jī)器學(xué)習(xí)庫(kù)的8 個(gè)數(shù)據(jù)集進(jìn)行了一系列實(shí)驗(yàn)[15]。數(shù)據(jù)集的屬性總結(jié)如表2。
表2 UCI分類(lèi)數(shù)據(jù)屬性
對(duì)于每個(gè)數(shù)據(jù)集,使用數(shù)據(jù)集中的25%樣本作為測(cè)試數(shù)據(jù),其余75%用于訓(xùn)練。在我們測(cè)試SSL 算法時(shí),并非所有訓(xùn)練數(shù)據(jù)都與標(biāo)簽一起使用,盡管所有數(shù)據(jù)都已標(biāo)記。我們?nèi)藶榈貙?0%的數(shù)據(jù)設(shè)置為標(biāo)記其余80%未標(biāo)記。例如,假設(shè)有一個(gè)包含1000個(gè)實(shí)例的數(shù)據(jù)集,250個(gè)實(shí)例用作測(cè)試數(shù)據(jù),750個(gè)實(shí)例用作訓(xùn)練數(shù)據(jù),其中750個(gè)實(shí)例中的150 個(gè)被視為已標(biāo)記,其余600 個(gè)被視為未標(biāo)記,訓(xùn)練和測(cè)試集的選擇是隨機(jī)的,同時(shí)保留所有集合中正負(fù)類(lèi)的原始比率。
本文使用n 倍交叉驗(yàn)證的平均錯(cuò)誤率(用n =3)在標(biāo)記數(shù)據(jù)上作為CSO的適應(yīng)度函數(shù),以降低選擇特征子集中過(guò)度擬合的風(fēng)險(xiǎn)。CSO 算法中的其他參數(shù)設(shè)置如下。種群大小為30,最大迭代次數(shù)為100,φ為0.1。在第一次在[0,1]之間隨機(jī)初始化粒子,閾值參數(shù)λ為0.5。PCA 轉(zhuǎn)換中涵蓋的方差設(shè)置為0.95。每個(gè)算法獨(dú)立運(yùn)行25次,
計(jì)算各分類(lèi)器絕對(duì)誤差后的具體結(jié)果見(jiàn)表3~表6,其中“MT”表示采用多種學(xué)習(xí)模型,“MF”表示多種特征降維方法,“MV”表示多視圖方法,“3M”表示所提算法,“ST”表示單視圖方法,“TT”表示三重訓(xùn)練方法,具體的特征降維以及學(xué)習(xí)模型的字母表示在3.2 節(jié)中已有描述。在表3 中,我們發(fā)現(xiàn)J48決策樹(shù)在這些特定數(shù)據(jù)集上比其他學(xué)習(xí)模型有著更好的性能,而其他模型在相同數(shù)據(jù)集上產(chǎn)生更大的誤差。因此在MT算法中由于其他模型會(huì)降低整體集成,因?yàn)樗麄兘o出了更多的錯(cuò)誤決策,即便如此,MT 方法仍然具有與J48 方法極其相近的誤差。我們可以得出結(jié)論,直接使用原始的學(xué)習(xí)模型,不經(jīng)過(guò)其他方法的調(diào)整,MT方法并沒(méi)有展現(xiàn)出自身的優(yōu)勢(shì),因?yàn)樗隙喾N模型優(yōu)勢(shì)的同時(shí)也吸收了其劣勢(shì)。
表4~5 為使用多種特征降維方法以及多視圖方法對(duì)分類(lèi)器泛化能力的提升,可以看到無(wú)論對(duì)于單一的學(xué)習(xí)模型,還是MT方法,多視圖以及多特征降維方法都可以極大提升分類(lèi)器的精度,單一的特征操作方法誤差都與MF 方法相差甚遠(yuǎn),多視圖方法對(duì)TT 學(xué)習(xí)模型也有著巨大的改進(jìn)。同樣的,在有其他算法的調(diào)整下,無(wú)論是特征降維還是多視圖方法,MT算法都展現(xiàn)出了優(yōu)于單一分類(lèi)器的性能,此時(shí)集成學(xué)習(xí)能夠更好吸收多種學(xué)習(xí)模型的優(yōu)勢(shì),展現(xiàn)出對(duì)單一分類(lèi)器模型的巨大優(yōu)勢(shì)。
表3 MT算法誤差比較
表5 MV算法誤差比較
表6 3M算法誤差比較
在最后一組實(shí)驗(yàn)中最后我們同時(shí)采用MT、MF以及MV 方法來(lái)構(gòu)造分類(lèi)器,調(diào)查包含更多基礎(chǔ)學(xué)習(xí)器是否能夠進(jìn)一步提高泛化能力。在這項(xiàng)工作中進(jìn)行的最后一組實(shí)驗(yàn)是比較使用前3 組實(shí)證研究中使用的設(shè)置組合生成的集合。具體結(jié)果如表6,3M 通過(guò)結(jié)合使用三種不同的特征操作方法和四種不同的分類(lèi)器模型來(lái)創(chuàng)建多樣性,從而產(chǎn)生24種不同的基學(xué)習(xí)器。 MF-MT,MV-MT,MV-MF-TT,MF-TT 和 MV-TT 分別有著 12,6,6,4,2 種基分類(lèi)器,其錯(cuò)誤率也隨基分類(lèi)器數(shù)量的減少而增加。所以我們可以得出結(jié)論,所提方法通過(guò)增加基分類(lèi)器的多樣性來(lái)提升集成學(xué)習(xí)的泛化性能。
在本節(jié)中,我們使用真實(shí)郵件數(shù)據(jù)集并在真實(shí)的網(wǎng)絡(luò)環(huán)境中評(píng)估我們提出3M分類(lèi)模型。其中包含58 個(gè)屬性和總共4601 封電子郵件(813 封垃圾郵件和688 封合法電子郵件)[16]。為了評(píng)估基于分歧的半監(jiān)督學(xué)習(xí)算法,我們將該數(shù)據(jù)集分為兩部分:標(biāo)記數(shù)據(jù)和未標(biāo)記數(shù)據(jù),其中未標(biāo)記數(shù)據(jù)由從原始數(shù)據(jù)集中隨機(jī)選擇的600個(gè)實(shí)例組成,進(jìn)行60次迭代測(cè)試,然后計(jì)算預(yù)測(cè)率后與其他分類(lèi)器模型相比較。
圖1為ROC曲線圖,是用于比較各種分類(lèi)器性能的重要度量。它代表了作為單個(gè)標(biāo)量的預(yù)期性能,其中曲線下面積越大,表示分類(lèi)器性能實(shí)驗(yàn)越好,可以看出,即便在考慮原樣本中正負(fù)樣本比例的情況下,3M算法仍然展現(xiàn)了良好的性能。
圖2 為在學(xué)習(xí)過(guò)程中分類(lèi)器的精度變化,可以看出在少量訓(xùn)練樣本時(shí)相較于其他算法由于3M算法可以吸收未標(biāo)記樣本的從而有著良好的預(yù)測(cè)性能,與普通的半監(jiān)督算法相比,它有著多種模型用以及時(shí)糾正半監(jiān)督算法中的錯(cuò)誤。
圖1 ROC曲線圖
圖2 預(yù)測(cè)精度變化圖
圖3 參數(shù)β對(duì)算法的影響
圖3~圖4 為篩選未標(biāo)記樣本時(shí)參數(shù)的設(shè)置對(duì)誤差的影響,當(dāng)β=1 時(shí),算法根本無(wú)法達(dá)到其最優(yōu)性能。也就是直接選用全部的未標(biāo)記樣本根本無(wú)法窮盡半監(jiān)督算法的性能,當(dāng)β=3 時(shí),多視圖半監(jiān)督回歸算法可以很快最優(yōu)性能。
其次,所提出算法在每組中選擇ɑ%樣本用以學(xué)習(xí)。為了研究參數(shù)ɑ的影響,我們確定β=3,并將ɑ從1 增加到9。結(jié)果顯示在圖4。如果我們?yōu)楱唬è弧?)指定一個(gè)太小的值,則多視圖半監(jiān)督回歸算法在幾次迭代中無(wú)法達(dá)到其最佳性能。它表明,ɑ可以加速半監(jiān)督學(xué)習(xí)過(guò)程。但是,如果我們?yōu)楱唬è?≥7)設(shè)置了太大的值,則在多次迭代后RMSE 將顯示不穩(wěn)定的上升和下降趨勢(shì)。它表明在一次迭代中選擇太多未標(biāo)記的樣本往往會(huì)帶來(lái)噪音。最終在ɑ=3時(shí)半監(jiān)督效果較好。
圖4 參數(shù)α對(duì)算法的影響
本文提出了一種新型的集成分類(lèi)器,使用多種視圖、特征降維方法和學(xué)習(xí)模型來(lái)構(gòu)造更多的基分類(lèi)器來(lái)提高集成性能,篩選無(wú)標(biāo)記樣本加入到學(xué)習(xí)中,最后在將其與Tri-Training 和非SSL 學(xué)習(xí)模型進(jìn)行比較,表明所提出的3M 模型優(yōu)于比較算法。與原始單視圖數(shù)據(jù)相比,更好的性能可歸因于多個(gè)視圖配合不同的特征操縱方法帶來(lái)的多樣性。此外,通過(guò)使用集成方法,改善了未標(biāo)記數(shù)據(jù)的預(yù)測(cè)準(zhǔn)確度,因此能夠降低半監(jiān)督學(xué)習(xí)未標(biāo)記數(shù)據(jù)的風(fēng)險(xiǎn)。我們的結(jié)果證實(shí),由不同類(lèi)型的基礎(chǔ)模型組成并使用不同特征的異構(gòu)集成學(xué)習(xí)具有優(yōu)異的泛化性能。
將來(lái)我們將研究此種方法在差異性方面的更多發(fā)展以及在故障預(yù)測(cè)方面的應(yīng)用。并將其應(yīng)用于民用航空故障診斷或分類(lèi)中,更好地提升安全性以及降低維修成本。