摘要:圖像分類是計(jì)算機(jī)視覺(jué)領(lǐng)域的熱門研究之一。然而,深度神經(jīng)網(wǎng)絡(luò)在面對(duì)少樣本學(xué)習(xí)時(shí),可能因數(shù)據(jù)量不足導(dǎo)致過(guò)擬合等問(wèn)題。為此,提出了一種基于VGG網(wǎng)絡(luò)模型的多層次濾波器方法(IVGG) 。首先,在VGG網(wǎng)絡(luò)中引入濾波器組,通過(guò)采用1×1、3×3和5×5多層次濾波器組,從多個(gè)角度獲取圖像的形狀和紋理等特征信息,從而避免單一濾波器的不足。然后,在卷積層之后引入批歸一化處理,可緩解梯度消失、增加模型魯棒性和學(xué)習(xí)速率。通過(guò)在四種數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn),結(jié)果表明,IVGG與DN4、MACO和CovaMNet方法相比,對(duì)少樣本圖像的分類準(zhǔn)確率提高了0.82%~1.87%,并且損失值降低了0.02~0.18。證明該方法在處理少樣本圖像分類中具有更高的準(zhǔn)確率與更低的損失值,同時(shí)能一定程度上減小網(wǎng)絡(luò)模型的復(fù)雜度。
關(guān)鍵詞:VGG網(wǎng)絡(luò);圖像分類;少樣本學(xué)習(xí);濾波器組;批歸一化
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2024)17-0006-05 開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID) :
0 引言
圖像分類是利用特定的算法提取圖像的紋理、形狀等特征信息,是計(jì)算機(jī)視覺(jué)領(lǐng)域中重要的基礎(chǔ)技術(shù)之一。圖像分類訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型依賴于大規(guī)模數(shù)據(jù)。然而,在某些應(yīng)用場(chǎng)景中(如航天、醫(yī)療、軍事等領(lǐng)域),由于隱私條例和法律等限制,圖像獲取異常困難,這就導(dǎo)致了少樣本分類問(wèn)題的出現(xiàn)。
目前,國(guó)內(nèi)外學(xué)術(shù)界常用的少樣本學(xué)習(xí)方法有數(shù)據(jù)增強(qiáng)、遷移學(xué)習(xí)和元學(xué)習(xí)。在訓(xùn)練樣本有限的情況下,可以采用直推學(xué)習(xí)、半監(jiān)督學(xué)習(xí)[1]或生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN) 實(shí)現(xiàn)數(shù)據(jù)增強(qiáng),提高樣本多樣性。Elezi等[2]提出了一種基于標(biāo)記的數(shù)據(jù)增強(qiáng)方法,通過(guò)該方法可以生成大量且準(zhǔn)確的標(biāo)簽數(shù)據(jù),從而獲得更好的訓(xùn)練效果。Tran等[3]提出了一種優(yōu)化GAN的數(shù)據(jù)增強(qiáng)方法,改善判別器和生成器的學(xué)習(xí)。盡管生成對(duì)抗模型具有強(qiáng)大的性能,但也存在一些不足,如網(wǎng)絡(luò)訓(xùn)練困難、模型易于坍塌以及生成圖像與樣本圖像相似度過(guò)高導(dǎo)致冗余問(wèn)題等。遷移學(xué)習(xí)的目標(biāo)是將已學(xué)習(xí)到的知識(shí)應(yīng)用到一個(gè)新的領(lǐng)域中。He等[4]提出了一種采用監(jiān)督式自編碼或卷積自編碼解決學(xué)習(xí)遷移問(wèn)題的新型選擇性學(xué)習(xí)方法,從而克服了兩個(gè)遠(yuǎn)距離區(qū)域之間的信息分配差異,但這種方法在樣本數(shù)量較少的情況下,準(zhǔn)確率會(huì)有所下降。元學(xué)習(xí)的目標(biāo)是使模型具備學(xué)習(xí)調(diào)參的能力,使其可以在已獲取知識(shí)的基礎(chǔ)上迅速學(xué)習(xí)新任務(wù)。Vinyals等[5]提出了一種基于匹配的網(wǎng)絡(luò),實(shí)現(xiàn)少樣本分類任務(wù)。Sung等[6]提出采用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)不同屬性之間的距離進(jìn)行度量。這些方法可以學(xué)習(xí)訓(xùn)練之外的知識(shí),但是復(fù)雜度較高,增加了計(jì)算開銷。
盡管上述研究取得了顯著的分類效果,但是缺乏對(duì)少樣本的多尺度特征分析。因此,本文提出了一種改進(jìn)的VGG(Visual Geometry Group) 網(wǎng)絡(luò)結(jié)構(gòu)模型(Improved VGG Network,IVGG) ,該模型在VGG 網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上引入了多層次濾波技術(shù)和批歸一化,從而實(shí)現(xiàn)對(duì)多個(gè)不同角度的圖像特征信息的提取,有效地解決了參數(shù)在神經(jīng)網(wǎng)絡(luò)傳遞中被放大和過(guò)擬合等問(wèn)題,同時(shí)減小了模型復(fù)雜度。
1 改進(jìn)VGG 網(wǎng)絡(luò)結(jié)構(gòu)
1.1 VGG 網(wǎng)絡(luò)結(jié)構(gòu)
VGG網(wǎng)絡(luò)結(jié)構(gòu)[7]是2014年ILSVRC競(jìng)賽中由牛津大學(xué)的幾何團(tuán)隊(duì)提出的。VGG 網(wǎng)絡(luò)很好地繼承了AlexNet的衣缽,同時(shí)也擁有著鮮明的特點(diǎn),具有較深的網(wǎng)絡(luò)層次結(jié)構(gòu)。VGG16(見圖1) 是比較經(jīng)典的VGG網(wǎng)絡(luò)之一。
從圖1中可以看出,VGG網(wǎng)絡(luò)中輸入圖像的大小默認(rèn)為224×224×3,每個(gè)卷積核包含3 個(gè)權(quán)值。VGG16代表了包含13個(gè)卷積層和3個(gè)全連接層的16 層網(wǎng)絡(luò)結(jié)構(gòu),不包含池化層和SoftMax層。在不同的卷積層中,卷積核的數(shù)量也有差異,VGG16的卷積核尺寸為3×3。池化層大小為2×2。在全連接層中,神經(jīng)元數(shù)目分別為4 096,4 096,1 000。第三級(jí)的全部連接層包含了1 000個(gè)負(fù)責(zé)分類輸出的神經(jīng)元,最后一層為SoftMax輸出層。
1.2 改進(jìn)的VGG 網(wǎng)絡(luò)結(jié)構(gòu)
圖2為本文提出的IVGG模型結(jié)構(gòu),由濾波器組、卷積層、批歸一化、池化層、分類器等構(gòu)成。
1.2.1 濾波器組
濾波器實(shí)質(zhì)上是一種矩陣。該方法通過(guò)矩陣大小的變化,從多個(gè)角度進(jìn)行特征信息的提取。輸入圖像的濾波算法,其實(shí)就是將m × n 矩陣與圖片中同樣尺寸的面積相乘并相加。將該矩陣從左至右依次進(jìn)行1次點(diǎn)乘運(yùn)算,最后將所得到的結(jié)果相加,完成對(duì)整幅圖像的濾波。矩陣與局部圖像相乘的過(guò)程與CNN 的卷積操作相同。
在IVGG模型中,采用了三種不同尺寸的多尺度濾波器(1×1、3×3和5×5) ,以獲得多個(gè)不同角度的圖像特征。濾波器組如圖3所示。
針對(duì)三個(gè)濾波器的特征圖的大小差異,本文提出了一種通過(guò)調(diào)節(jié)三個(gè)特征圖大小來(lái)合成聯(lián)合特征圖的方法。首先,將三種不同尺寸濾波器得到的特征圖尺寸分別設(shè)定為(H+4、W+4) 、(H+2、W+2) 、(H、W) ,其中H與W為輸入圖像的高與寬。IVGG模型的輸入是一個(gè)32×32像素值的陣列。利用零來(lái)填充圖像邊緣后,這三種濾波器的尺寸都變成了5×5,卷積后可獲得28×28的圖像,這是由濾波器經(jīng)卷積運(yùn)算獲得的圖像特征信息。圖4描述了濾波器和圖像的卷積操作。
在經(jīng)過(guò)一組濾波器的計(jì)算后,將其合成特性圖輸出給下一個(gè)卷積層。本文的卷積層視窗設(shè)定為1×1,核心數(shù)目設(shè)定為128,最后得到128 張28×28 的特性圖。
1.2.2 批歸一化
2012年,AlexNet模型[8]首次提出了局部歸一化算法(Local Response Normalization) ,簡(jiǎn)稱LRN。
式(1)中歸一化的結(jié)構(gòu)為bix,y,將通道位置的值標(biāo)記為i,j ~ i 的像素值平方和標(biāo)記為j,像素的位置表示為x,y,bix,y 為L(zhǎng)RN層的輸入值同時(shí)也是ReLU激活函數(shù)的輸出值,卷積層表示為α(包括卷積層與池化層操作),N表示通道數(shù)量channel。
IVGG網(wǎng)絡(luò)在提出時(shí)拋棄了LRN歸一化的處理,采用批歸一化來(lái)代替。在模型訓(xùn)練過(guò)程中,參數(shù)會(huì)不斷更新,數(shù)據(jù)在各個(gè)層次上通過(guò)向前傳播而不斷變化,這種變化導(dǎo)致了分布偏差。針對(duì)這一問(wèn)題,提出了批歸一化(Batch Normalization,BN) ,通過(guò)引入BN方法,可以使數(shù)據(jù)保持正常分布,加速模型的收斂,并減少訓(xùn)練過(guò)程中網(wǎng)絡(luò)模型的計(jì)算消耗。
1) 記n 為batch樣本的總和,{ x1,x2,x3,...,xn }為輸入數(shù)據(jù)集合,計(jì)算該批輸入數(shù)據(jù)均值E,表達(dá)式為:
由式(5)可以得出,該操作是在水平和垂直兩個(gè)維度對(duì)BN計(jì)算后的值進(jìn)行變換,將最終輸出值調(diào)整為標(biāo)準(zhǔn)的正態(tài)分布。
2 仿真實(shí)驗(yàn)與結(jié)果分析
2.1 數(shù)據(jù)集選擇
本文采用CIFAR-10 數(shù)據(jù)集、ImageNet 數(shù)據(jù)集、Pascal VOC2012數(shù)據(jù)集、MNIST數(shù)據(jù)集對(duì)IVGG模型進(jìn)行評(píng)價(jià)。CIFAR-10的資料包括10種類型的60 000 個(gè)樣本,每種類型6 000個(gè)。ImageNet的資料包括27 個(gè)大類別,超過(guò)一千四百萬(wàn)張照片,每一個(gè)類別都有數(shù)千至數(shù)萬(wàn)幅。Pascal VOC2012的資料包括17 125 張照片,可以分成20個(gè)常見物體類別。MNIST的資料包括10種類型的70 000個(gè)樣本。
在這四種數(shù)據(jù)集中,從每個(gè)類別的訓(xùn)練樣本中選取250個(gè)作為訓(xùn)練集,測(cè)試樣本中選取1 000個(gè)作為測(cè)試集。在此基礎(chǔ)上,選擇5%的樣本作為訓(xùn)練樣本,以模擬在使用少量的樣本時(shí),模型能夠獲得更多的特征信息,從而達(dá)到更好的分類效果。
2.2 參數(shù)設(shè)置
實(shí)驗(yàn)相關(guān)參數(shù)設(shè)置如下,設(shè)定訓(xùn)練參數(shù)Batchsize 為24,Dropout 值為0.5,weight decay 為5 × 10-4,初始學(xué)習(xí)速率為0.002,學(xué)習(xí)速率的幅度隨著迭代次數(shù)的增加不斷調(diào)節(jié)。卷積核窗口大小設(shè)定為1×1,數(shù)量為128個(gè),卷積步長(zhǎng)為1,最終的分類器包含10個(gè)神經(jīng)元,并將其劃分為10個(gè)類別。迭代次數(shù)為300。在所有的實(shí)驗(yàn)中,進(jìn)行了300次隨機(jī)的訓(xùn)練與分類實(shí)驗(yàn),并報(bào)告了整體的分類準(zhǔn)確度和損失值。
2.3 實(shí)驗(yàn)結(jié)果與分析
為了體現(xiàn)IVGG方法的特點(diǎn)和性能,將其與DN4 方法[9]、MACO 方法[10] 以及CovaMNet 方法[11] 進(jìn)行了對(duì)比。
圖5中顯示了四種方法的分類準(zhǔn)確度實(shí)驗(yàn)對(duì)比結(jié)果。實(shí)驗(yàn)對(duì)每一種方法進(jìn)行了300 次迭代訓(xùn)練,在CIFAR-10、ImageNet、Pascal VOC2012 和MNIST 四組數(shù)據(jù)集中,四種方法的準(zhǔn)確率在250~285次迭代間逐漸趨于平穩(wěn)。表1中顯示了四種方法的分類準(zhǔn)確度實(shí)驗(yàn)對(duì)比結(jié)果。IVGG方法在CIFAR-10、ImageNet、Pas?cal VOC2012和MNIST數(shù)據(jù)集上的分類準(zhǔn)確度分別為91.21%、90.12%、89.88%和91.85%。其中,IVGG相較DN4方法的分類準(zhǔn)確度提升在0.82%~1.51%。IVGG 相較MACO方法的分類準(zhǔn)確度提升在0.99%~1.41%。IVGG 相較CovaMNet 方法的分類準(zhǔn)確度提升在1.36%~1.87%,在MNIST 數(shù)據(jù)集上的準(zhǔn)確率提升最高,達(dá)1.87%。綜合實(shí)驗(yàn)結(jié)果,對(duì)比其他三種方法,IVGG在四種數(shù)據(jù)集上的分類準(zhǔn)確度都取得了最高值,證明了提出模型的有效性;IVGG每次進(jìn)行特征提取時(shí)利用多尺度濾波器組獲得多個(gè)角度的圖像特征,相較于其他方法,在樣本數(shù)量較少的情況下圖像分類的準(zhǔn)確率更高。
各網(wǎng)絡(luò)結(jié)構(gòu)在四種數(shù)據(jù)集上的損失值隨迭代次數(shù)的變化趨勢(shì)如圖6所示,可以看出四種方法的損失值在250-290次迭代間得到了比較穩(wěn)定的結(jié)果。其中本文所提的IVGG方法具有更快的收斂速度,最終損失值也最低。表2顯示了四種方法的損失值實(shí)驗(yàn)對(duì)比結(jié)果。IVGG 方法在CIFAR-10、ImageNet、PascalVOC2012 和MNIST 數(shù)據(jù)集上的損失值分別為0.21、0.20、0.19和0.18。相較其他方法,IVGG的損失值均有大幅度下降。與DN4方法相比,IVGG在CIFAR-10 上的損失值下降幅度最大,下降了0.18。與MACO和CovaMNet方法相比,IVGG的損失值下降幅度分別為0.07~0.14和0.02~0.12。從實(shí)驗(yàn)結(jié)果來(lái)看,另外三種方法的損失值比IVGG方法要大得多,證明本文所提出的改進(jìn)方法在提高模型準(zhǔn)確率的同時(shí),擁有更低的損失值。
2.4 消融實(shí)驗(yàn)
2.4.1 最優(yōu)內(nèi)核數(shù)目
表3 為在CIFAR-10、ImageNet、Pascal VOC2012 和MNIST數(shù)據(jù)集上驗(yàn)證IVGG模型內(nèi)核數(shù)變化時(shí)的分類準(zhǔn)確率消融實(shí)驗(yàn)結(jié)果。由于樣本數(shù)目和類型的增多,為了獲得最優(yōu)的模型,必須使用更多的卷積核,但加入過(guò)多的內(nèi)核不僅會(huì)降低模型性能,還會(huì)增加計(jì)算開銷。本文對(duì)不同內(nèi)核數(shù)目組合的IVGG模型進(jìn)行了少樣本圖像分類實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表3所示,當(dāng)內(nèi)核數(shù)為128時(shí),IVGG方法在CIFAR-10、Pascal VOC2012 和MNIST三個(gè)數(shù)據(jù)集上的圖像分類正確率最高。在ImageNet數(shù)據(jù)集上,IVGG方法達(dá)到最高分類精度時(shí),內(nèi)核數(shù)為192,而在128個(gè)內(nèi)核的情況下,其精確度也能達(dá)到89.51%。因此,IVGG模型選擇的最優(yōu)內(nèi)核數(shù)目為128。
2.4.2 多層次濾波器的有效性
多層次濾波器考慮了從多個(gè)角度對(duì)圖像特征的提取。表4為在CIFAR-10、ImageNet、Pascal VOC2012和MNIST數(shù)據(jù)集上驗(yàn)證IVGG模型中的濾波器的數(shù)量和大小對(duì)分類準(zhǔn)確率的影響。實(shí)驗(yàn)結(jié)果顯示:在只采用單一濾波器的情況下,模型對(duì)四種數(shù)據(jù)集的分類精度均在80%左右;采用雙濾波器對(duì)不同類型的樣本進(jìn)行分類,其正確率大多在83%~88%;采用三種不同的卷積濾波,IVGG 模型在CIFAR-10、Pascal VOC2012 和MNIST數(shù)據(jù)集上分類的正確率分別為91.21%、89.88% 和91.85%;在ImageNet數(shù)據(jù)集上,使用3×3和5×5的濾波器達(dá)到的分類效果最佳,但使用1×1、3×3和5×5 濾波器的分類效果也很好,準(zhǔn)確率為89.45%,證明了多層次濾波器的優(yōu)勢(shì)。而IVGG模型僅采用單一濾波器時(shí)其性能降低的主要原因在于,單一濾波器不具備多層次濾波器多方位特征提取的優(yōu)點(diǎn)。
3 結(jié)論與展望
本文提出了一種基于VGG網(wǎng)絡(luò)模型的多層次濾波器方法,IVGG。該方法主要利用1×1、3×3和5×5的多個(gè)濾波器對(duì)輸入的圖像進(jìn)行全方位、多角度的特征采集,以便能夠最大程度地獲取圖像的語(yǔ)義信息。在卷積層之后,引入了批歸一化處理,以提高模型的魯棒性和學(xué)習(xí)效率。最后,通過(guò)應(yīng)用SoftMax函數(shù)對(duì)輸出進(jìn)行分類,從而達(dá)到圖像分類的目的。實(shí)驗(yàn)結(jié)果表明,本文所提出的IVGG模型在少樣本圖像分類方面具有較高的準(zhǔn)確率,并且能夠獲得更低的損失值,證明了該方法的有效性。然而,由于目前的數(shù)據(jù)集樣本類型相對(duì)單一,為了更好地適應(yīng)處理多個(gè)小樣本集的情況,需要進(jìn)行更深入的研究。在未來(lái)的工作中,將進(jìn)一步擴(kuò)充和豐富數(shù)據(jù)集,探索更多樣本類型的特征,設(shè)計(jì)泛化能力和穩(wěn)定性更高的模型。
參考文獻(xiàn):
[1] 劉建偉,劉媛,羅雄麟.半監(jiān)督學(xué)習(xí)方法[J].計(jì)算機(jī)學(xué)報(bào),2015,38(8):1592-1617.
[2] ELEZI I,TORCINOVICH A,VASCON S,et al.Transductive la?bel augmentation for improved deep network learning[C]//201824th International Conference on Pattern Recognition (ICPR).Beijing,China.IEEE,2018:1432-1437.
[3] TRAN N T,TRAN V H,NGUYEN N B,et al.On data augmenta?tion for GAN training[C]//IEEE Transactions on Image Process?ing.IEEE,2021:1882-1897.
[4] HE K M,ZHANG X Y,REN S Q,et al.Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vi?sion and Pattern Recognition (CVPR). Las Vegas, NV, USA.IEEE,2016:770-778.
[5] VINYALS O,BLUNDELL C,LILLICRAP T, et al.Matching net?works for one shot learning[C]//Proceedings of the 30th Interna?tional Conference on Neural Information Processing Systems.Barcelona, Spain. MIT Press,2016: 3637-3645.
[6] SUNG F,YANG Y X,ZHANG L,et al.Learning to compare:rela?tion network for few-shot learning[C]//2018 IEEE/CVF Confer?ence on Computer Vision and Pattern Recognition. Salt Lake City,UT,USA.IEEE,2018:1199-1208.
[7] SIMONYAN K,ZISSERMAN A.Very deep convolutional net?works for large-scale image recognition[J].ArXiv e-Prints,2014:arXiv:1409.1556.
[8] KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet clas?sification with deep convolutional neural networks[J].Communi?cations of the ACM,2017,60(6):84-90.
[9] LI W B,WANG L,XU J L,et al.Revisiting local descriptor based image-to-class measure for few-shot learning[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Long Beach,CA,USA.IEEE,2019:7253-7260.
[10] LIN T Y,ROYCHOWDHURY A,MAJI S.Bilinear CNN modelsfor fine-grained visual recognition[C]//2015 IEEE Interna?tional Conference on Computer Vision (ICCV).Santiago,Chile.IEEE,2015:1449-1457.
[11] LI W B,XU J L,HUO J,et al.Distribution consistency based co?variance metric networks for few-shot learning[J].Proceedings of the AAAI Conference on Artificial Intelligence,2019,33(1):8642-8649.
【通聯(lián)編輯:梁書】
基金項(xiàng)目:安徽理工大學(xué)國(guó)家級(jí)大學(xué)生創(chuàng)新訓(xùn)練項(xiàng)目(2020103661092);安徽理工大學(xué)(HX2022082726)