邱 佳,馬晟翔,王家琦,刑昊翔
(湖南工程學(xué)院計(jì)算機(jī)與通信學(xué)院 湖南 湘潭 411100)
圖像分類是計(jì)算機(jī)視覺的基礎(chǔ)任務(wù),通過視覺圖像特征信息實(shí)現(xiàn)對(duì)場景下的目標(biāo)識(shí)別和分類,在無人駕駛、智能交通、圖像檢索和軍事等領(lǐng)域都有著廣泛的應(yīng)用[1]。圖像分類一直受到研究者青睞,從傳統(tǒng)的紋理,梯度等相關(guān)特征的學(xué)習(xí)到深度學(xué)習(xí),目標(biāo)分類有了長足的發(fā)展。隨著2012年,Hinton團(tuán)隊(duì)提出Alex Net[2]在Image Net數(shù)據(jù)集上取得了較大的提升,深度學(xué)習(xí)開始逐步地應(yīng)用在圖像處理相關(guān)任務(wù)中。2014年,Simonyan和Christian Szegedy等[3-4]從模型的深度和寬度兩個(gè)方向領(lǐng)域進(jìn)行擴(kuò)展,分別提出了VGG Net和Google Net并取得了成功;2015年,Kaiming He[5]結(jié)合快速連接的思想針對(duì)梯度消失的問題提出了殘差神經(jīng)網(wǎng)絡(luò)(Res Net),進(jìn)一步擴(kuò)展了網(wǎng)絡(luò)的層數(shù);2017年,Huang Gao等[6]提出Dense Net,在殘差網(wǎng)絡(luò)上增加密集的連接層,復(fù)用上下文信息,提升網(wǎng)絡(luò)的表現(xiàn)效果,同時(shí)也證明了上下文信息的表征是有效的。2019年,Ke Sun等[7]提出了HR Net,通過保留多尺度的特征信息的思想來提升網(wǎng)絡(luò)的表現(xiàn)。多尺度特征對(duì)模型的表達(dá)有著重要的影響。
在模型的輕量化領(lǐng)域,2016年,Squeeze Net[8]網(wǎng)絡(luò)結(jié)合Fire模塊,采用1x1的卷積層降低通道維度,進(jìn)而降低模型參數(shù);Xiangyu Zhang等[9]通過通道分組和打亂重用網(wǎng)絡(luò)特征,有效提升了模型地表現(xiàn)。Howard A G等[10]采用深度可分離的卷積層構(gòu)建網(wǎng)絡(luò)模型,有效地降低卷積層的可學(xué)習(xí)參數(shù)量和所需運(yùn)算量,但較深度的層次結(jié)構(gòu)導(dǎo)致模型訓(xùn)練較為不穩(wěn)定。2017年,Jie Hu等[11]提出建立通道特征相互依賴的模型實(shí)現(xiàn)通道間的特征融合。Mark Sandler[12]提出Mobile Net V2倒置的殘差連接和線性瓶頸結(jié)構(gòu),殘差結(jié)構(gòu)有利于模型梯度的傳遞,降低模型訓(xùn)練的不穩(wěn)定性;線性瓶頸處利用線性層替代線性激活層,方便數(shù)據(jù)表征信息的傳輸。
Mobile Net V2雖然兼顧了模塊內(nèi)部特征的殘差連接,增加了信息的傳遞,但是缺少對(duì)不同尺度的特征信息的整合。設(shè)想直接引入Dense Net的思想,密集的連接在不降低通道的維度的基礎(chǔ)上會(huì)大規(guī)模的增加數(shù)據(jù)。本算法在基于Mobile Net V2的基礎(chǔ)上,引入一種快速的基于通道維度和空間維度的特征提取模塊,通過整合多尺度特征信息實(shí)現(xiàn)特征信息的融合--MFDF Mobile Net V2。本文主要的貢獻(xiàn)有以下幾點(diǎn):
(1)提出了一種快速的通道和空間維度的特征提取模塊,實(shí)現(xiàn)快速的上下文信息整合。
(2)本文在Mobile Net V2的基礎(chǔ)上,結(jié)合密集連接的思想,融合多尺度特征,在以較小的計(jì)算代價(jià)的基礎(chǔ)上提升模型的分類精度。
本部分將從模型網(wǎng)絡(luò)結(jié)構(gòu)和優(yōu)化目標(biāo)兩方面介紹算法,模型網(wǎng)絡(luò)結(jié)構(gòu)包含有密集連接層和特征融合層兩部分。
Mobile Net V2網(wǎng)絡(luò)結(jié)構(gòu)在基于Mobile Net V1結(jié)構(gòu)基礎(chǔ)上構(gòu)建,Mobile Net V1中采用深度可分離的卷積替代傳統(tǒng)的卷積方式,采用3×3尺寸的Depth Wise(DW)卷積層實(shí)現(xiàn)針對(duì)空間維度的信息提取,從空間維度采用1x1大小尺寸的Point Wise(PW)卷積層整合特征。然而,深層卷積的堆積易導(dǎo)致梯度信息的消失,造成模型訓(xùn)練不穩(wěn)定。Mobile Net V2在Mobile Net V1的基礎(chǔ)上引入倒置的殘差連接網(wǎng)絡(luò),與原有的殘差連接不同,倒置的殘差結(jié)構(gòu)為避免狹窄連接處信息的丟失,增加了額外的PW卷積層,增加特征的通道維度來增大信息的表征空間。此外,為了降低激活函數(shù)對(duì)特征信息的過濾丟失,在深度可分離的卷積PW后引入了線性連接層替代原有的激活層。
1.1.1 密集連接層
MFDF Mobile Net V2網(wǎng)絡(luò)在Mobile Net V2的基礎(chǔ)上,增加多條連接層,從淺層bottleneck block層輸出引向深層的bottleneck block輸出層,多尺度的特征信息用于特征融合。如圖1所示。本算法在bottleneck 層后增加連接結(jié)構(gòu),本網(wǎng)絡(luò)結(jié)構(gòu)中總共包含有7個(gè)bottleneck block(Bnblock層,密集連接涉及前6個(gè)Bnblock,Bnblock_7輸出后接1×1卷積核和全局池化層,后為輸出通道數(shù))。因此,總計(jì)會(huì)增加15條連接層。密集的連接層如果采用常規(guī)的空間尺度和通道維度的對(duì)齊會(huì)引入大量的額外計(jì)算。為避免于此,本算法受到Squeeze and Excitation Module(SE Module)和深度可分離卷積啟發(fā)。提出一種快速的通道壓縮和空間壓縮的方式將不同尺寸的特征進(jìn)行快速對(duì)齊。如圖2所示。本模塊將輸出的特征進(jìn)行空間維度和通道維度的壓縮,并實(shí)現(xiàn)快速的目標(biāo)尺寸對(duì)齊。
在空間維度特征中,如圖2(a)所示。采用全局平均池化和全局最大池化的方式對(duì)通道維度進(jìn)行壓縮,分別得到一層通道的空間維度特征,通過逐元素相加的方式融合池化特征。采用不同尺度大小的空間池化層實(shí)現(xiàn)特征的空間維度的尺寸對(duì)齊,增加1×1的卷積核引入可學(xué)習(xí)的權(quán)重參數(shù)增加自適應(yīng)調(diào)整系數(shù)。最后采用Softmax函數(shù)操作將特征值映射歸一化處理。
在通道維度特征中,如圖2(b)所示。在特征空間維度中進(jìn)行全局平均池化和全局最大池化操作進(jìn)而壓縮空間特征維度,得到1×1的多維通道維度特征,采用逐元素相加的方式融合池化多維度通道特征,結(jié)合兩層矩陣感知層實(shí)現(xiàn)通道維度的特征對(duì)齊,第一層感知層先降低特征通道維度8倍,后提升到目標(biāo)指定的特征通道維度。這有利于特征維度對(duì)齊的映射的可學(xué)習(xí)參數(shù),后采用Softmax函數(shù)映射歸一處理特征值。
1.1.2 特征融合
在融合層,接受來自不同尺度的空間維度特征和通道維度的特征。本融合結(jié)構(gòu)如圖3所示。上層為多尺度的特征,下層為主干網(wǎng)絡(luò)bottleneck層特征。先通過逐元素相加的操作分別將空間維度特征和通道維度特征進(jìn)行融合得到1×1×N維度融合后的空間維度特征和通道維度特征。采取矩陣廣播擴(kuò)展的方式實(shí)現(xiàn)對(duì)特征空間維度和通道維度對(duì)齊,采用逐元素相乘的方式實(shí)現(xiàn)多尺度通道及空間維度特征融合。
在目標(biāo)優(yōu)化方面,采用交叉熵?fù)p失來衡量多分類損失函數(shù)。其具體表達(dá)如公式1所示。
其中m表示批量樣本數(shù);Gi表示第i個(gè)樣本的交叉熵?fù)p失;y表示預(yù)測標(biāo)簽與真實(shí)標(biāo)簽的匹配值,若匹配為1,若不匹配為0;表示類別預(yù)測的分?jǐn)?shù)。C表示類別數(shù),c表示第c個(gè)類別,為整數(shù),取值在[0,C)中。yiC表示的是第i個(gè)樣本的標(biāo)簽值與第c類的類別是否匹配,若匹配,yiC值為1;否則,yiC值為0。表示第i個(gè)樣本的第c類的預(yù)測分?jǐn)?shù)。其具體的表達(dá)式如公式2所示,采用softmax預(yù)測每類別的分?jǐn)?shù)。
其中xc表示第c個(gè)類別的值。
此外,采用與Mobile Net V2網(wǎng)絡(luò)相同的訓(xùn)練配置參數(shù)進(jìn)行訓(xùn)練,初始學(xué)習(xí)率采用0.0025,權(quán)重衰減為0.9,經(jīng)過120個(gè)epoch的訓(xùn)練。
本文在分別從模型參數(shù)量、準(zhǔn)確度等方面來衡量模型。本算法分別在Cifar10與Celtech101數(shù)據(jù)集上進(jìn)行訓(xùn)練和驗(yàn)證測試。如表1所示,在Cifar10數(shù)據(jù)集上,輸入圖片大小為(32,32,3),改進(jìn)后的模型(MFDF Mobile Net V2)在驗(yàn)證集上的準(zhǔn)確率上達(dá)到了95.3%,相比原有的Mobile Net V2網(wǎng)絡(luò)精度的92.2%,MFDF Mobile Net V2算法提升了,增加了3個(gè)百分點(diǎn)左右。參數(shù)量和浮點(diǎn)運(yùn)算有較小的提升。
表1 cifar10數(shù)據(jù)集表現(xiàn)
在Celtech101數(shù)據(jù)集上,圖像的輸入大小為(224,224,3),改進(jìn)后的MFDF Mobile Net V2模型在驗(yàn)證集上的表現(xiàn)為94.2%,相比原有模型提升了2.3個(gè)百分點(diǎn),如表2所示。
本算法基于Mobile Net V2輕量級(jí)網(wǎng)絡(luò)上進(jìn)行改進(jìn),通過結(jié)合輕量級(jí)的快速多尺度空間和通道特征連接和融合。較好地整合了上下文信息,強(qiáng)化了模型的表達(dá)。盡管如此,但總體數(shù)據(jù)集體量相對(duì)較小,且模型的內(nèi)存訪問和多尺度池化特征的生成可以進(jìn)一步優(yōu)化。如何打造一款高性能的輕量級(jí)圖像分類算法是我們未來將要研究的主要方向。