莫建文,陳瑤嘉
(1.桂林電子科技大學(xué) 信息與通信學(xué)院 認(rèn)知無線電與信息處理省部共建教育部重點(diǎn)實(shí)驗(yàn)室, 廣西 桂林 541004;2.桂林電子科技大學(xué) 信息與通信學(xué)院,廣西 桂林 541004)
自然學(xué)習(xí)系統(tǒng)本質(zhì)上是漸進(jìn)的,新知識(shí)是隨著時(shí)間的推移而不斷學(xué)習(xí)的,而現(xiàn)有的知識(shí)是保持不變的[1]。在現(xiàn)實(shí)世界中,許多計(jì)算機(jī)視覺應(yīng)用都需要內(nèi)置的學(xué)習(xí)能力。例如,人臉識(shí)別系統(tǒng)應(yīng)該能夠在不忘記已學(xué)過的面孔的情況下添加新面孔。然而,大多數(shù)深度學(xué)習(xí)方法都遭遇了災(zāi)難性的遺忘[2],即當(dāng)無法獲得過去的數(shù)據(jù)時(shí),性能會(huì)顯著下降。這是完成能不斷學(xué)習(xí)的人工智能體目前最迫切需要解決的問題。
偽樣本重排練(pseudo-rehearsal)被提出作為一個(gè)在神經(jīng)網(wǎng)絡(luò)中進(jìn)行增量學(xué)習(xí)解決災(zāi)難性遺忘的方案。當(dāng)需要對(duì)網(wǎng)絡(luò)進(jìn)行新任務(wù)訓(xùn)練時(shí),偽樣本重排練會(huì)通過生成捕獲舊任務(wù)結(jié)構(gòu)的網(wǎng)絡(luò)行為樣本來保護(hù)先前的舊任務(wù)學(xué)習(xí)。這是通過隨機(jī)生成輸入樣本并使其通過網(wǎng)絡(luò)分配其目標(biāo)輸出來完成的。然后可以在學(xué)習(xí)新任務(wù)時(shí),對(duì)這些隨機(jī)生成的輸入與其輸出對(duì)一同進(jìn)行訓(xùn)練。偽樣本重排練限制了網(wǎng)絡(luò)功能的更改,因此,對(duì)于以前學(xué)習(xí)的任務(wù)的輸入空間,該功能將保持大致相同,而對(duì)于新任務(wù)的輸入空間,該功能將進(jìn)行更改。偽排練與突觸可塑性假說是一致的,因?yàn)橹灰W(wǎng)絡(luò)的整體功能保持一致,編碼上一個(gè)任務(wù)的單個(gè)神經(jīng)元的權(quán)重就可以改變。
然而,在深層學(xué)習(xí)中,純隨機(jī)生成的偽樣本不太可能很好地表示訓(xùn)練數(shù)據(jù)。這對(duì)于圖像來說尤其明顯,因?yàn)樯删哂芯鶆蚍植嫉膫螆D像會(huì)生成不代表自然圖像的靜態(tài)圖像。此外,這些靜態(tài)圖像不能很好地表示類的分布。當(dāng)這些靜態(tài)圖像被用于偽樣本重排練時(shí),網(wǎng)絡(luò)對(duì)之前所學(xué)的任務(wù)幾乎一無所知。
針對(duì)這個(gè)問題,本文采用變分自編碼器(variational autoencoder,VAE)生成偽樣本的方法來實(shí)現(xiàn)偽排練。VAE是一種利用無監(jiān)督學(xué)習(xí)生成隨機(jī)圖像的神經(jīng)網(wǎng)絡(luò)模型。它能很好生成與真實(shí)圖像相似的偽圖像。此外,引入Large-Margin Softmax Loss(L-Softmax損失)[3]來訓(xùn)練分類器,它能使得分類器學(xué)習(xí)到類間距離更大,類內(nèi)距離更小的特征。最后,因?yàn)椴捎玫腣AE是無監(jiān)督模型,且樣本的生成是隨機(jī)的,隨著類數(shù)目的增加,僅靠著VAE模型的隨機(jī)生成很難準(zhǔn)確把控每個(gè)舊類的樣本生成數(shù)量及其質(zhì)量。因此,提出一種基于類均值特征的偽樣本選擇策略,它基于分類器訓(xùn)練樣本的類均值特征,使得篩選出來的偽樣本更具代表性。
災(zāi)難性遺忘是對(duì)基于神經(jīng)網(wǎng)絡(luò)的人工智能的一個(gè)根本性挑戰(zhàn)。最近的文獻(xiàn)中,改善增量學(xué)習(xí)中存在的災(zāi)難性遺忘現(xiàn)象的方法大致可分為4大類:正則化方法、網(wǎng)絡(luò)擴(kuò)展方法、精餾方法和重放方法。
正則化方法:近年來,將正則化函數(shù)應(yīng)用到由舊任務(wù)訓(xùn)練的網(wǎng)絡(luò)中學(xué)習(xí)新任務(wù)的概念受到了廣泛的關(guān)注。這種方法可以解釋為一個(gè)連續(xù)貝葉斯的近似。具體來說,正則化方法對(duì)權(quán)值更新施加額外的約束,以便在學(xué)習(xí)新概念的同時(shí)保留以前的記憶。受神經(jīng)可塑性的啟發(fā),文獻(xiàn)[4]提出一種記憶感知突觸(memory aware synapses,MAS)的增量學(xué)習(xí)方法來減少災(zāi)難性遺忘,該方法基于神經(jīng)網(wǎng)絡(luò)主動(dòng)應(yīng)用的數(shù)據(jù)以無監(jiān)督的方式計(jì)算神經(jīng)網(wǎng)絡(luò)參數(shù)的重要性。學(xué)習(xí)完任務(wù)后,每當(dāng)樣本被網(wǎng)絡(luò)接收時(shí),都會(huì)根據(jù)預(yù)測(cè)的輸出對(duì)該參數(shù)變化的敏感程度,為網(wǎng)絡(luò)的每個(gè)參數(shù)積累重要度。當(dāng)學(xué)習(xí)新任務(wù)時(shí),對(duì)重要參數(shù)的更改會(huì)受到處罰。文獻(xiàn)[5]基于增量矩匹配(incremental moment matching,IMM)的方法來解決災(zāi)難性遺忘,IMM首先用正則化方法對(duì)網(wǎng)絡(luò)進(jìn)行細(xì)化,然后通過矩匹配將得到的模型與原始模型進(jìn)行混合。為了使后驗(yàn)參數(shù)的搜索空間平滑,IMM過程中加入了各種轉(zhuǎn)移學(xué)習(xí)技術(shù),包括權(quán)值轉(zhuǎn)移、新老參數(shù)的L2范數(shù)、舊參數(shù)的dropout變式等。文獻(xiàn)[6]提出一種彈性權(quán)重鞏固(elastic weight consolidation,EWC)的方法,該方法允許在新的學(xué)習(xí)過程中對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行選擇性正則化,它使用Fisher信息矩陣(FIM)來判斷網(wǎng)絡(luò)中權(quán)值對(duì)執(zhí)行已學(xué)習(xí)任務(wù)重要的重要性,并通過約束重要的權(quán)值來保持網(wǎng)絡(luò)對(duì)舊任務(wù)的性能。其中Fisher信息矩陣是一個(gè)可以用來描述神經(jīng)網(wǎng)絡(luò)模型參數(shù)關(guān)于任務(wù)的信息量,即它對(duì)每個(gè)網(wǎng)絡(luò)參數(shù)計(jì)算一個(gè)值,這個(gè)值表明了這個(gè)網(wǎng)絡(luò)參數(shù)對(duì)任務(wù)的重要程度,值越大,越重要。
網(wǎng)絡(luò)擴(kuò)展方法:基于網(wǎng)絡(luò)擴(kuò)展的增量學(xué)習(xí)方法類似于域自適應(yīng)和轉(zhuǎn)移學(xué)習(xí)。域自適應(yīng)將為任務(wù)獲取的知識(shí)從一個(gè)數(shù)據(jù)集轉(zhuǎn)移到另一個(gè)(相關(guān))數(shù)據(jù)集。轉(zhuǎn)移學(xué)習(xí)利用從一項(xiàng)任務(wù)中學(xué)到的知識(shí)來協(xié)助學(xué)習(xí)另一項(xiàng)任務(wù)。文獻(xiàn)[7]提出一種殘差適配器的方法,該方法通過在相對(duì)較小的殘差網(wǎng)絡(luò)中壓縮許多可視域,并在它們之間共享大量的參數(shù)來解決災(zāi)難性遺忘問題。文獻(xiàn)[8]提出了一種擴(kuò)展的網(wǎng)絡(luò)架構(gòu)(ExpandNet)來增強(qiáng)CNN的增量學(xué)習(xí)能力。它一方面保留了原始網(wǎng)絡(luò)的過濾器,另一方面又為卷積層和全連接層添加了額外的過濾器。新的體系結(jié)構(gòu)不需要原始數(shù)據(jù)集的任何信息,它只使用新數(shù)據(jù)集進(jìn)行訓(xùn)練。文獻(xiàn)[9]提出一種增量式神經(jīng)網(wǎng)絡(luò)來支持任務(wù)序列間的轉(zhuǎn)移。增量式神經(jīng)網(wǎng)絡(luò)在整個(gè)訓(xùn)練過程中保留了一組預(yù)訓(xùn)練的模型,并從中學(xué)習(xí)橫向連接以提取新任務(wù)的有用特征。通過以這種方式組合先前學(xué)習(xí)的特征,增量式神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了更豐富的組合性,其中先驗(yàn)知識(shí)不再是瞬時(shí)的,可以在特征層次結(jié)構(gòu)的每一層進(jìn)行集成。
精餾方法:知識(shí)精餾[10]一開始提出的目的是為了實(shí)現(xiàn)知識(shí)遷移,其主要思想是將復(fù)雜網(wǎng)絡(luò)得到的軟目標(biāo)作為總損失的一部分,誘導(dǎo)簡單網(wǎng)絡(luò)的訓(xùn)練,使得簡單網(wǎng)絡(luò)能達(dá)到復(fù)雜網(wǎng)絡(luò)的性能。文獻(xiàn)[11]提出了一種學(xué)而不忘(learning without forgetting,LWF)的方法,該方法利用蒸餾損失和標(biāo)準(zhǔn)交叉熵?fù)p失來保持舊任務(wù)的性能,在學(xué)習(xí)新任務(wù)之前,將新任務(wù)的訓(xùn)練數(shù)據(jù)放入舊網(wǎng)絡(luò)中,并將輸出作為偽訓(xùn)練數(shù)據(jù)的偽標(biāo)簽。雖然這種方法通過優(yōu)化舊任務(wù)的偽訓(xùn)練數(shù)據(jù)和新任務(wù)的真實(shí)數(shù)據(jù)在某種程度上減少了災(zāi)難性遺忘,特別是在簡單的場景中,舊樣本和新樣本來自不同的數(shù)據(jù)集,它們之間幾乎沒有混淆,但因其舊類的知識(shí)表示較弱,其性能遠(yuǎn)非理想。文獻(xiàn)[12]基于文獻(xiàn)[11]的方法,使用自動(dòng)編碼器而不是蒸餾損失來保留舊任務(wù)的知識(shí),該方法還在一個(gè)限制性場景中進(jìn)行了評(píng)估,其中舊網(wǎng)絡(luò)和新網(wǎng)絡(luò)在不同的數(shù)據(jù)集上進(jìn)行訓(xùn)練,結(jié)果類似于文獻(xiàn)[11]。文獻(xiàn)[13]蒸餾損失應(yīng)用到增量目標(biāo)檢測(cè)器的學(xué)習(xí)中,并在目標(biāo)檢測(cè)方面取得了較好的效果,但是這種特定體系結(jié)構(gòu)不太適用于更一般的分類場景。
偽樣本重排練方法:基于偽樣本重排練方法的神經(jīng)網(wǎng)絡(luò)模型不再保留關(guān)鍵濾波器或權(quán)重,通過訓(xùn)練生成器模擬舊類的數(shù)據(jù)和標(biāo)簽來估計(jì)舊類數(shù)據(jù)的分布,如文獻(xiàn)[14]中,通過使用遞歸神經(jīng)網(wǎng)絡(luò)生成代表舊類的隨機(jī)圖像來實(shí)現(xiàn)類增量學(xué)習(xí)。但生成模型要求為每個(gè)學(xué)習(xí)的類別存儲(chǔ)每個(gè)像素的平均值和標(biāo)準(zhǔn)差,這導(dǎo)致模型的存儲(chǔ)需求隨所學(xué)習(xí)的類的數(shù)量而增加。文獻(xiàn)[15]提出的深度生成重放(deep generative replay,DGR)方法對(duì)每個(gè)任務(wù)都訓(xùn)練一個(gè)無條件的GAN來累積生成和區(qū)分圖像,由于提出的GAN是無條件的,因此DGR使用了一個(gè)額外的分類器,該分類器經(jīng)過并行訓(xùn)練,對(duì)生成的圖像進(jìn)行分類并分配相應(yīng)的標(biāo)簽;文獻(xiàn)[16]提出一種記憶重放GAN(memory replay GANs,MeRGAN)方法通過對(duì)DGR框架進(jìn)行修改,將無條件的GAN替換為ACGAN,從而消除了額外分類器的需要。文獻(xiàn)[17]結(jié)合這兩個(gè)方面提出了一種閉環(huán)記憶GAN(closed-loop memory GAN,CloGAN)方法將非常小的內(nèi)存緩沖區(qū)與訓(xùn)練生成器結(jié)合使用,用內(nèi)存緩沖區(qū)中的真實(shí)樣本充當(dāng)生成器的外部正則化,以降低生成器生成的圖像隨類增量次數(shù)增多引起的生成圖像退化問題。
盡管有越來越多的解決方案,但災(zāi)難性遺忘并不是一個(gè)已經(jīng)解決的問題。正則化方法在類增量類學(xué)習(xí)中表現(xiàn)不佳,例如EWC[6]方法,文獻(xiàn)[17]中的實(shí)驗(yàn)驗(yàn)證了這一局限性。另一方面,網(wǎng)絡(luò)擴(kuò)展的方法雖然通常為約束的增量問題提供簡潔的解決方案,但很快就會(huì)變得不可持續(xù),因?yàn)殡S著參數(shù)或網(wǎng)絡(luò)層數(shù)量的快速增加,導(dǎo)致大量內(nèi)存占用。
本文采用變分自編碼器生成偽樣本的方法來實(shí)現(xiàn)偽樣本重排練。首先在訓(xùn)練分類器時(shí)加入L-Softmax損失來使得各類樣本通過分類器能得類間距離更大,類內(nèi)距離更小的特征,這使得接下來的基于類均值特征的偽樣本選擇能得到更具代表性的偽樣本。其次需要訓(xùn)練一個(gè)VAE通過生成舊類的偽樣本來保留舊類在分類器上的性能。最后基于類均值特征的偽樣本選擇能在平衡生成的每個(gè)類的偽樣本數(shù)量的前提下,基于均值特征保留更具代表性的偽樣本。總體的實(shí)現(xiàn)流程如圖1所示。
圖1 類增量學(xué)習(xí)實(shí)現(xiàn)流程
分類器基于全連接神經(jīng)網(wǎng)絡(luò)模型,該框架采用了Softmax分類方法來預(yù)測(cè)輸入的類別,Softmax的定義如下
(1)
其中,φ(x)為前級(jí)輸出單元的輸出,表示的是將輸入的樣本x映射為一組D維的特征,即φ∶x→RD,i表示類別的索引,Si表示x屬于類i的可能性,C表示總的類別數(shù),對(duì)應(yīng)的權(quán)值為w1,…,wC。
在神經(jīng)網(wǎng)絡(luò)中,帶Softmax的交叉熵?fù)p失是最常用的監(jiān)督組件,盡管它很常用而且很簡單,但是它并沒有明顯地鼓勵(lì)區(qū)別性地學(xué)習(xí)特性。本文的分類器應(yīng)用了L-Softmax損失,該損失明顯地促進(jìn)了學(xué)習(xí)特征之間的類間的可分性和類內(nèi)的緊密性。具體地,對(duì)于二分類問題,假設(shè)x是屬于0類的一個(gè)樣本,為了正確的分類x,原始的Softmax是使
(2)
其中,θ是特征和權(quán)值之間的夾角。而L-Softmax損失則設(shè)置了更為嚴(yán)格的限制,即
(3)
其中,m為一個(gè)正整數(shù)。如上述公式所示,則新的分類損失是對(duì)正確分類x的一個(gè)更嚴(yán)格的要求,它為類0生成一個(gè)更嚴(yán)格的決策邊界。對(duì)于更一般的分類問題,設(shè)輸入樣本x的標(biāo)簽為y,C為總的類別數(shù),則對(duì)標(biāo)簽y進(jìn)行one-hot編碼后,可以獲得帶有C維向量的軟標(biāo)簽{y1,y2,…,yC}。則L-Softmax損失的定義如下
(4)
其中
(5)
其中,k∈[0,m-1],且k為整數(shù),m(前面提到過)是與分類邊界密切相關(guān)的正整數(shù)。當(dāng)m=1時(shí),L-Softmax等于Softmax,更大的m意味著學(xué)習(xí)的邊界更大,學(xué)習(xí)目標(biāo)更困難。為了方便前向和反向傳播,L-Softmax損失分別將cos(θj)與cos(mθy)替換為
(6)
(7)
其中,n為整數(shù),且2n 為了更直觀顯示L-Softmax與Softmax在學(xué)習(xí)特征之間的類間的可分性和類內(nèi)的緊密性,分別使用L-Softmax與Softmax損失在MNIST訓(xùn)練集上完成訓(xùn)練后,在MNIST的測(cè)試集的特征可視化如圖2所示。 圖2 MNSIT測(cè)試集的特征可視化 從圖2中可以看到,運(yùn)用L-Softmax損失訓(xùn)練分類器能得到類間距離更大,類內(nèi)距離更小的特征。 圖3 VAE的實(shí)現(xiàn)過程 (8) 通過得到專屬于xk的均值與方差后,就能從這個(gè)專屬分布中采樣Zk,即 Zk=μk+ε·σk (9) 其中,ε為均值為0,方差為1的標(biāo)準(zhǔn)正態(tài)分布,即ε∈N(0,1)。 x′>k=ψ(Zk) (10) 最后為VAE的損失函數(shù),VAE有兩個(gè)損失函數(shù),一個(gè)為重構(gòu)損失LR,一個(gè)為Kullback-Leibler散度(KL散度)損失LKL。其中重構(gòu)損失LR是為了使解碼出來的重構(gòu)樣本與真實(shí)樣本盡可能的一致,即 LR=(xk-x′>k)2 (11) 對(duì)于KL散度,描述的是兩個(gè)概率分布間的差異,因?yàn)樽罱K得到的解碼網(wǎng)絡(luò)是要從標(biāo)準(zhǔn)正態(tài)分布N(0,1)中采樣Z來解碼生成偽樣本,所以VAE利用KL散度來讓所有通過解碼器得到的分布都向N(0,1)看齊,即 (12) 為了確認(rèn)VAE可以用來生成看起來與真實(shí)圖像相似的偽圖像,將VAE應(yīng)用于MNIST數(shù)據(jù)集。圖4(b)說明了所生成的圖像與MNIST的真實(shí)圖像(圖4(a))相似,盡管在仔細(xì)檢查時(shí)會(huì)發(fā)現(xiàn)差異,但生成的圖像仍然包含網(wǎng)絡(luò)可以學(xué)習(xí)保留的類特定特征。通過將VAE在上一輪訓(xùn)練類的圖像上進(jìn)行訓(xùn)練,可以將其用于生成代表上一輪類的偽圖像,而無需存儲(chǔ)實(shí)際數(shù)據(jù)集。 圖4 MNIST真實(shí)圖像(a)與生成圖像(b)的比較 步驟1 計(jì)算分類器訓(xùn)練樣本的類均值特征Fk,即 (13) 其中,nk為k類訓(xùn)練樣本的總數(shù),φ(xkj)代表第j個(gè)k類訓(xùn)練樣本在分類器輸出層前一層得到的特征。 步驟2計(jì)算每個(gè)k類訓(xùn)練樣本到其均值特征Fk的距離,并得最大距離dkmax和最小距離dkmin,即 (14) (15) (16) (17) 且當(dāng) dkmin (18) 則令偽樣本x′>j的標(biāo)簽yj=k,且將偽樣本x′>j和標(biāo)簽yj放入對(duì)應(yīng)的數(shù)據(jù)集,即 (19) 經(jīng)過樣本選擇后的偽樣本如圖5所示,通過圖5與直接用VAE生成的偽圖像(圖4(b))的比較,可以很明顯看出經(jīng)過樣本選擇后,不僅能平衡每個(gè)舊類的偽樣本數(shù)量,且能夠剔除生成效果差的,基于類均值特征保留更具代表性的偽樣本。 圖5 經(jīng)過樣本選擇后的偽樣本的比較 綜上所述,基于VAE的偽樣本重排練實(shí)現(xiàn)的類增量學(xué)習(xí),不僅能使基于神經(jīng)網(wǎng)絡(luò)的分類模型克服災(zāi)難性遺忘問題,且不需要額外的內(nèi)存來保留舊類的數(shù)據(jù)。此外,基于VAE的偽樣本重排練不需要為每次添加新類擴(kuò)展網(wǎng)絡(luò),且對(duì)于分類模型的單個(gè)神經(jīng)元應(yīng)該如何學(xué)習(xí)新類,網(wǎng)絡(luò)也沒有任何硬性約束。 實(shí)驗(yàn)采用MNIST與FASHION數(shù)據(jù)集,其中MNIST數(shù)據(jù)集是機(jī)器學(xué)習(xí)中用于識(shí)別手寫數(shù)字的分類任務(wù)的常用基準(zhǔn)數(shù)據(jù)集,問題的簡單性使得測(cè)試精度很高?,F(xiàn)代機(jī)器學(xué)習(xí)方法可以很容易地在MNIST上實(shí)現(xiàn)97%的測(cè)試精度。這種高測(cè)試精度使得機(jī)器學(xué)習(xí)算法之間的比較不是那么明顯。FASHIO作為MNIST的一個(gè)更困難的替代被認(rèn)為是解決這一問題的更好的選擇。FASHION數(shù)據(jù)集包含從在線購物網(wǎng)站檢索到的標(biāo)記服裝圖像,由于圖像更加多樣化,使得算法區(qū)分類的問題更加困難,能更準(zhǔn)確地對(duì)模型的表現(xiàn)進(jìn)行反饋。在表1中總結(jié)了MNIST與FASHION數(shù)據(jù)集的統(tǒng)計(jì)信息。 表1 使用的數(shù)據(jù)集的統(tǒng)計(jì)信息 在這里,以類的平均分類精度評(píng)估類增量學(xué)習(xí),每次類增量學(xué)習(xí)都是來自整個(gè)數(shù)據(jù)集的類的一個(gè)不相交子集,MNIST與FASHION數(shù)據(jù)集每個(gè)子集有2個(gè)類,總共5個(gè)子集覆蓋數(shù)據(jù)集所有的類。在MNIST與FASHION數(shù)據(jù)集中評(píng)估各種類增量學(xué)習(xí)方法,其中包括閉環(huán)記憶GAN(closed-loop memory GAN,CloGAN)、EWC與微調(diào)。CloGAN是一種將非常小的內(nèi)存緩沖區(qū)與生成器結(jié)合使用的方法,該方法用內(nèi)存緩沖區(qū)中的真實(shí)樣本充當(dāng)生成器的外部正則化,以此降低生成器生成的圖像隨類增量次數(shù)增多引起的生成圖像退化問題。微調(diào)方法是使用隨機(jī)梯度下降僅在新類的數(shù)據(jù)上直接微調(diào)現(xiàn)有的分類模型,這會(huì)導(dǎo)致分類模型完全遭受災(zāi)難性遺忘的影響。此外,在本實(shí)驗(yàn)中,CloGAN在MNIST與FASHION數(shù)據(jù)集上的預(yù)留圖像緩沖區(qū)分為數(shù)據(jù)集訓(xùn)練樣本數(shù)量的0.16%。各種方法的對(duì)比結(jié)果如圖6所示。 圖6中各個(gè)折線圖的縱坐標(biāo)為分類精度,橫坐標(biāo)為類名,通過比較各種方法的結(jié)果表明基于VAE的偽樣本重排練方法比起CloGAN具有更好的分類效果,即使是不使用舊類的圖像作為緩沖區(qū),也能有效地降低災(zāi)難性的遺忘的影響。其次,從圖6可以看出,隨著類增量學(xué)習(xí)的進(jìn)行,EWC方法的準(zhǔn)確性迅速下降,逐漸接近微調(diào)方法,即接近完全遭受災(zāi)難性遺忘的效果,驗(yàn)證了EWC在類增量學(xué)習(xí)中表現(xiàn)不佳。 圖6 各種方法在MNIST(a)與FASHION (b)數(shù)據(jù)集上的平均分類精度 表2比較了各種類增量學(xué)習(xí)方法在完成每個(gè)數(shù)據(jù)集的所有類增量訓(xùn)練后的最大平均分類精度。 表2 各種增量學(xué)習(xí)方法的平均分類精度 為了進(jìn)一步說明基于VAE的偽樣本重排練實(shí)現(xiàn)的類增量學(xué)習(xí)的有效性,在MNIST與FASHION數(shù)據(jù)集上進(jìn)行了額外的實(shí)驗(yàn),在實(shí)驗(yàn)中分離了算法的各個(gè)模塊,其中包含:①基于均值特征的偽樣本選擇;②基于L-Softmax損失的分類器。創(chuàng)建了3種混合設(shè)置:第一種設(shè)置為基于傳統(tǒng)VAE+one-hot標(biāo)簽;第二種設(shè)置為基于傳統(tǒng)VAE+偽樣本選擇;第三種設(shè)置為基于CF-VAE+偽樣本選擇+L-Softmax。 以平均分類精度作為衡量標(biāo)準(zhǔn),實(shí)驗(yàn)結(jié)果如圖7所示。 圖7 3種混合設(shè)置的平均分類精度 圖7表明每增加一個(gè)模塊,分類性能都能有所提升,即提出的基于VAE的偽樣本重排練實(shí)現(xiàn)的類增量學(xué)習(xí)的各個(gè)模塊都可以為其良好的性能做出貢獻(xiàn),所有這些模塊結(jié)合能夠獲得最優(yōu)的結(jié)果。 綜上所述,實(shí)驗(yàn)驗(yàn)證了與簡單的梯度下降來微調(diào)模型的微調(diào)方法、保留重要權(quán)值的EWC方法或結(jié)合生成器與圖像內(nèi)存緩沖區(qū)的CloGAN方法相比,本文的基于VAE的偽樣本重排練方法具有主要的優(yōu)勢(shì),因?yàn)樗恍枰獮槊看翁砑有骂悢U(kuò)展網(wǎng)絡(luò),且對(duì)于分類模型的單個(gè)神經(jīng)元應(yīng)該如何學(xué)習(xí)新類,網(wǎng)絡(luò)也沒有任何硬性約束。并且它不僅在分類效果上更佳,更因?yàn)槠渫耆恍枰A襞f類樣本數(shù)據(jù),降低內(nèi)存的占用,使其在內(nèi)存資源受限的移動(dòng)設(shè)備上進(jìn)行類增量學(xué)習(xí)成為可能。2.2 基于VAE的偽樣本生成器
2.3 基于類均值特征的偽樣本選擇
3 實(shí)驗(yàn)結(jié)果與分析
3.1 實(shí)驗(yàn)數(shù)據(jù)集
3.2 對(duì)比實(shí)驗(yàn)分析
4 結(jié)束語