王 橋,胡春燕,李菲菲
(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)
場(chǎng)景識(shí)別的研究目的是使計(jì)算機(jī)能夠像人一樣對(duì)不同的圖像進(jìn)行分析,并識(shí)別其中的場(chǎng)景。隨著攝像設(shè)備的普及,圖像被大量生產(chǎn),并快速在網(wǎng)絡(luò)上傳播。場(chǎng)景識(shí)別技術(shù)的發(fā)展為有效管理圖像數(shù)據(jù)提供了新思路,其也在圖像分類(lèi)、自動(dòng)駕駛等領(lǐng)域中發(fā)揮重要作用。
場(chǎng)景識(shí)別主要分為3個(gè)階段:特征提取、特征變換和分類(lèi)器訓(xùn)練。由于計(jì)算機(jī)性能的提升,深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)(CNN)[1]技術(shù)得到了快速發(fā)展和廣泛運(yùn)用。包括AlexNet[2]、GoogLeNet[3]、VGGNet[4]和ResNet[5]等在內(nèi)的CNN機(jī)器變體都得到了廣泛應(yīng)用。然而,神經(jīng)網(wǎng)絡(luò)深度的加深導(dǎo)致網(wǎng)絡(luò)容易產(chǎn)生梯度爆炸與彌散問(wèn)題。針對(duì)此類(lèi)問(wèn)題,ResNet引入殘差結(jié)構(gòu),有效解決了隨著網(wǎng)絡(luò)深度的增加到質(zhì)變性能突然下降的問(wèn)題,使其在較深的網(wǎng)絡(luò)中依然具有較好的性能表現(xiàn)。相較于低效率構(gòu)建手工特征,使用卷積神經(jīng)網(wǎng)絡(luò)能夠自動(dòng)學(xué)習(xí)場(chǎng)景圖像的特征表示。同時(shí),由CNN提取的深度卷積特征更精煉抽象并富有語(yǔ)義信息。由于數(shù)據(jù)庫(kù)中不同尺度大小的場(chǎng)景圖像影響其中物體大小,因此文獻(xiàn)[6]提出多尺度的網(wǎng)絡(luò)結(jié)構(gòu),使用CNN全連接層提取特征,識(shí)別準(zhǔn)確率隨著提取尺度量增加而逐漸提升。然而增加尺度將大幅降低網(wǎng)絡(luò)效率。文獻(xiàn)[7]提出融合卷積神經(jīng)網(wǎng)絡(luò)中的全連接層和Softmax層的概率輸出作為場(chǎng)景圖片的表示。文獻(xiàn)[8]指出CNN最后一層卷積層輸出的卷積特征包含了更豐富的語(yǔ)義信息和空間信息。CNN的卷積層能夠接受不同尺度的場(chǎng)景圖片輸入且計(jì)算資源的消耗更小。因此,該研究直接使用卷積層特征作為場(chǎng)景圖片的表示。
盡管現(xiàn)階段深度卷積特征具有較強(qiáng)的表達(dá)能力,但若使用傳統(tǒng)方法對(duì)深度卷積特征進(jìn)行變換,仍能進(jìn)一步提升特征的表達(dá)能力。文獻(xiàn)[9]使用稀疏字典學(xué)習(xí)(Sparse Dictionary Learning,SDL)用于場(chǎng)景識(shí)別中的編碼卷積特征,并取代全連接層(Fully Connected Layer,FCL)和校正線(xiàn)性單元(Linear Unit,ReLu)。此外,改進(jìn)的稀疏自動(dòng)編碼機(jī)[10]以及根據(jù)場(chǎng)景圖片的特性提出的多尺度空間編碼方法[11]也在場(chǎng)景識(shí)別領(lǐng)域取得了成功。雖然傳統(tǒng)編碼特征方法與深度卷積特征提取的結(jié)合在場(chǎng)景識(shí)別中取得了較好效果,但隨著場(chǎng)景識(shí)別的進(jìn)一步發(fā)展,研究人員開(kāi)始嘗試從不同角度進(jìn)一步提升場(chǎng)景識(shí)別的準(zhǔn)確率,例如提取場(chǎng)景圖像的背景信息與局部重點(diǎn)物體信息,或通過(guò)結(jié)合圖像的全局信息與局部信息。目前,為緩解場(chǎng)景圖像類(lèi)內(nèi)差異與類(lèi)間相似問(wèn)題的干擾,研究者使用深度學(xué)習(xí)方法從多個(gè)尺度獨(dú)立提取卷積特征[12],例如采用費(fèi)希爾向量(Fisher Vector,FV)[13]、局部聚合描述符向量(Vector of Locally Aggregated Descriptors,VLAD)[14]和語(yǔ)義聚合描述符向量(Vector of Semantically Aggregating Descriptor,VSAD)[15]等編碼方法。與單一圖像級(jí)別的表示方法相比,此類(lèi)方法在識(shí)別性能上有明顯改善。由于局部對(duì)象包含在更大場(chǎng)景背景中,因此需要結(jié)合對(duì)象級(jí)別和場(chǎng)景級(jí)別的知識(shí)來(lái)確定圖像的場(chǎng)景類(lèi)別。這種組合可以通過(guò)使用在不同數(shù)據(jù)庫(kù)(即ImageNet和Places)上預(yù)先訓(xùn)練的混合CNN模型,從多尺度圖像塊中提取深度特征來(lái)實(shí)現(xiàn)識(shí)別。綜上所述,本文分析場(chǎng)景圖像的背景與物體信息,根據(jù)輸入圖像經(jīng)過(guò)類(lèi)激活圖生成器生成的類(lèi)激活圖的兩個(gè)不同尺度得到相應(yīng)的圖像區(qū)域,對(duì)全局級(jí)圖像進(jìn)行補(bǔ)充,獲取場(chǎng)景圖像的綜合表示,進(jìn)一步提升網(wǎng)絡(luò)的圖像特征提取性能。
使用深度學(xué)習(xí)方法訓(xùn)練一個(gè)性能表現(xiàn)良好的深度卷積神經(jīng)網(wǎng)絡(luò)需要兩個(gè)條件:1)需要有充足有標(biāo)簽的訓(xùn)練數(shù)據(jù),例如ImageNet數(shù)據(jù)集擁有一千多個(gè)類(lèi)別,超百萬(wàn)張圖片;2)需要擁有強(qiáng)大計(jì)算性能的計(jì)算機(jī)硬件,例如GPU等。上述條件導(dǎo)致在一些需要使用卷積神經(jīng)網(wǎng)絡(luò)的任務(wù)中缺少任務(wù)相關(guān)的訓(xùn)練數(shù)據(jù)會(huì)造成網(wǎng)絡(luò)欠擬合,使得最終的網(wǎng)絡(luò)性能不佳。在研究中可以觀察到許多遷移學(xué)習(xí)的例子,例如研究發(fā)現(xiàn)通過(guò)訓(xùn)練識(shí)別蘋(píng)果的網(wǎng)絡(luò)模型可能有助于識(shí)別梨[16],訓(xùn)練網(wǎng)絡(luò)識(shí)別電子管風(fēng)琴可能有助于網(wǎng)絡(luò)學(xué)習(xí)識(shí)別鋼琴。因此當(dāng)訓(xùn)練樣本不足時(shí),使用遷移學(xué)習(xí)可以提高場(chǎng)景圖像識(shí)別模型的準(zhǔn)確性和訓(xùn)練速度。本文由于每類(lèi)圖像只有100張,故只能選擇其中50張用于訓(xùn)練。為了在樣本情況較小的情況下獲取足夠多的對(duì)象級(jí)別和場(chǎng)景級(jí)別的知識(shí),本文使用在ImageNet和Places上預(yù)先訓(xùn)練的混合CNN模型結(jié)合遷移學(xué)習(xí)的方法從多尺度圖像塊中提取深度特征來(lái)實(shí)現(xiàn)目標(biāo)任務(wù),該方法比在單個(gè)大型數(shù)據(jù)集上訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)更有效。在實(shí)驗(yàn)過(guò)程中發(fā)現(xiàn),遷移網(wǎng)絡(luò)參數(shù)不但加速目標(biāo)網(wǎng)絡(luò)的學(xué)習(xí)和優(yōu)化,而且網(wǎng)絡(luò)收斂速度更快,節(jié)省了時(shí)間成本,得到的目標(biāo)網(wǎng)絡(luò)也比隨機(jī)初始化權(quán)重的網(wǎng)絡(luò)效果更好。通過(guò)網(wǎng)絡(luò)遷移性研究在深度遷移網(wǎng)絡(luò)中加入微調(diào)可以使遷移后的網(wǎng)絡(luò)更加貼合目標(biāo)網(wǎng)絡(luò)的需求[17],使得卷積神經(jīng)網(wǎng)絡(luò)能夠在目標(biāo)任務(wù)的數(shù)據(jù)集上進(jìn)一步提升網(wǎng)絡(luò)性能[18]。
本文提出了一種基于深度遷移學(xué)習(xí)與多尺度特征融合的場(chǎng)景識(shí)別算法。首先在類(lèi)激活圖生成器中加入SE-Block[19]模塊,然后獲取預(yù)訓(xùn)練后性能優(yōu)異的網(wǎng)絡(luò)參數(shù)并將其遷移到本文的神經(jīng)網(wǎng)絡(luò)模型中,將預(yù)訓(xùn)練的特征提取器在目標(biāo)數(shù)據(jù)集上進(jìn)行微調(diào)。本文將目標(biāo)圖片送入類(lèi)激活圖生成器生成類(lèi)激活圖,從類(lèi)激活圖中獲取圖片的關(guān)鍵區(qū)域,然后使用卷積神經(jīng)網(wǎng)絡(luò)從關(guān)鍵區(qū)域提取卷積特征,并通過(guò)連接所有3個(gè)L2歸一化的尺度特征向量來(lái)獲得最終的圖像表示,如圖1所示。多尺度特征融合框架尋找熱點(diǎn)區(qū)域的核心部分為類(lèi)激活圖生成器(Discriminative Discovery Network,Dis-Net)。通過(guò)類(lèi)激活映射獲取類(lèi)激活圖(Discriminative Map,Dis-Map),并使用局部最大值的搜尋和篩選來(lái)提取場(chǎng)景圖像的重要信息,從重要信息中提取卷積特征,形成不同尺度特征。最后,本文采用最大池化策略進(jìn)行特征聚合。本文方法的總體目標(biāo)是從局部區(qū)域中提取鑒別性信息以補(bǔ)充全局層面的圖像表示。實(shí)驗(yàn)結(jié)果表明,本文方法在場(chǎng)景識(shí)別的任務(wù)中效果良好。
圖1 本文模型的總體框架Figure 1. Overall framework of the proposed model
傳統(tǒng)的機(jī)器學(xué)習(xí)技術(shù)試圖從頭開(kāi)始學(xué)習(xí)每個(gè)任務(wù),而遷移學(xué)習(xí)技術(shù)在目標(biāo)任務(wù)的訓(xùn)練數(shù)據(jù)較少時(shí)會(huì)將之前在一些任務(wù)中學(xué)習(xí)到的知識(shí)轉(zhuǎn)移到目標(biāo)任務(wù)中。傳統(tǒng)的機(jī)器學(xué)習(xí)與遷移學(xué)習(xí)的差異如圖2所示。
(a)
近年來(lái)常使用深度卷積神經(jīng)網(wǎng)絡(luò)作為解決計(jì)算機(jī)視覺(jué)任務(wù)的方法,但是初始訓(xùn)練一個(gè)新的卷積神經(jīng)網(wǎng)絡(luò)不僅需要大量訓(xùn)練樣本,還需要大量時(shí)間與高性能的硬件設(shè)施。當(dāng)數(shù)據(jù)集樣本不足時(shí),訓(xùn)練的網(wǎng)絡(luò)難以滿(mǎn)足精度需求。當(dāng)計(jì)算機(jī)性能有限時(shí),將消耗大量時(shí)間用來(lái)訓(xùn)練。針對(duì)此類(lèi)問(wèn)題,深度遷移學(xué)習(xí)具有先天優(yōu)勢(shì)。為了能夠在每類(lèi)數(shù)據(jù)集較小且計(jì)算機(jī)能力有限的情況下進(jìn)一步優(yōu)化卷積網(wǎng)絡(luò)參數(shù),本文采用融合遷移學(xué)習(xí)的手段進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練。
遷移學(xué)習(xí)通過(guò)將已經(jīng)獲取的能力應(yīng)用在相關(guān)領(lǐng)域模型中,使得網(wǎng)絡(luò)模型具有充足的知識(shí),以此使得本文模型可以減少訓(xùn)練時(shí)間,并調(diào)高識(shí)別精度,更加準(zhǔn)確地完成目標(biāo)任務(wù)。本文將在場(chǎng)景數(shù)據(jù)集Places訓(xùn)練的網(wǎng)絡(luò)用于提取場(chǎng)景類(lèi)型的特征,并將在物體數(shù)據(jù)集ImageNet中訓(xùn)練的網(wǎng)絡(luò)用于提取物體特征。待網(wǎng)絡(luò)訓(xùn)練完成后,將其遷移到本文模型中。由于場(chǎng)景圖像的差異性,需要通過(guò)微調(diào)使遷移后的網(wǎng)絡(luò)更加適應(yīng)目標(biāo)任務(wù)的需求,以此進(jìn)一步提升網(wǎng)絡(luò)性能[20]。
目前常用的CNN有AlexNet、VGGNet、ResNet和InceptionNet等。ResNet網(wǎng)絡(luò)通過(guò)引入獨(dú)特的殘差結(jié)構(gòu),使網(wǎng)絡(luò)能夠達(dá)到更深層,并避免由于網(wǎng)絡(luò)深度增加導(dǎo)致的梯度爆炸與彌散問(wèn)題,且不會(huì)導(dǎo)致網(wǎng)絡(luò)模型的性能下降。因此,ResNet在深度、寬度、參數(shù)以及計(jì)算成本上都具有優(yōu)勢(shì)。
本文在基于熱點(diǎn)區(qū)域探尋的場(chǎng)景識(shí)別方法基礎(chǔ)上進(jìn)行改進(jìn)。本文使用SUN397數(shù)據(jù)集,且每個(gè)類(lèi)別選取100張照片。采用ResNet網(wǎng)絡(luò)可以更好地訓(xùn)練網(wǎng)絡(luò),而ResNet-50[21]比ResNet-18更深,能得到更好的圖片標(biāo)簽對(duì)應(yīng)的權(quán)重。由于圖片標(biāo)簽的精準(zhǔn)度直接決定類(lèi)激活圖的準(zhǔn)確程度,因此本文將類(lèi)激活圖生成器的主干網(wǎng)絡(luò)由ResNet-18改為ResNet-50,以此來(lái)增加類(lèi)激活圖生成器生成的類(lèi)激活圖的準(zhǔn)確度。ResNet網(wǎng)絡(luò)的殘差結(jié)構(gòu)如圖3所示。
圖3 ResNet中的殘差結(jié)構(gòu) Figure 3. Residual structure in ResNet
將預(yù)訓(xùn)練好的場(chǎng)景特征提取網(wǎng)絡(luò)的參數(shù)與物體特征提取網(wǎng)絡(luò)的參數(shù)遷移到本文的卷積神經(jīng)網(wǎng)絡(luò)模型中,如圖4所示。
圖4 基于遷移學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Figure 4. CNN structure based on transfer learning
由于深度卷積特征具有優(yōu)異的表示性能,因此在場(chǎng)景識(shí)別中,卷積特征已基本取代了傳統(tǒng)的手工特征。在眾多CNN及其結(jié)構(gòu)變體中,本文選擇 ResNet-50作為特征提取器。相較于其他卷積神經(jīng)網(wǎng)絡(luò)(例如AlexNet、GoogLeNet、VGG),ResNet-50網(wǎng)絡(luò)更深,參數(shù)更少。而且,由于ResNet具有殘差連接,更易訓(xùn)練和收斂。對(duì)于深度卷積神經(jīng)網(wǎng)絡(luò)而言,不同階段的特征表示能力不同,最后一層卷積信息具有豐富的語(yǔ)義信息。使用深度卷積特征能夠縮減特征表示與圖片標(biāo)簽之間的語(yǔ)義鴻溝。相比于全連接層輸出的特征,CNN最后一層卷積層輸出的卷積特征包含了更豐富的語(yǔ)義信息和空間信息,且CNN的卷積層能夠接受任意大小的圖片輸入,其消耗的計(jì)算資源也更小。因此,本文去除了ResNet-50的全連接分類(lèi)層,直接使用卷積層特征進(jìn)行場(chǎng)景圖像的表示,采用提取最后一次的多尺度卷積特征進(jìn)行融合以達(dá)到最佳的場(chǎng)景分類(lèi)準(zhǔn)確率。具有全連接層的傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)在輸入全連接層時(shí)會(huì)將卷積特征從三維的特征塊拉平至一維的特征向量,從而造成空間信息損失。在進(jìn)行物體分類(lèi)任務(wù)時(shí),全連接層帶來(lái)了空間點(diǎn)位之間的連接,使得特征擁有空間不變性,具有較大優(yōu)勢(shì)。對(duì)于卷積特征來(lái)說(shuō),每一塊空間區(qū)域均能擁有投射至輸入圖片的一片視野域,可理解為每個(gè)1×1×C大小的卷積特征都能表示原圖的一小塊區(qū)域特征,因而卷積特征具有空間表示能力。由此可知,使用卷積特征有益于保留場(chǎng)景圖片中的空間信息,從而提升準(zhǔn)確度。
類(lèi)激活圖生成器和特征提取器(全局尺度、1/4尺度)均使用了在大型場(chǎng)景數(shù)據(jù)集Places上預(yù)訓(xùn)練的ResNet-50。源域數(shù)據(jù)集Places和目標(biāo)域數(shù)據(jù)集SUN397在數(shù)據(jù)分布上有所不同,且兩者在場(chǎng)景類(lèi)別上具有較大差異。因此,本文基于深度遷移學(xué)習(xí)的理論,使用目標(biāo)域數(shù)據(jù)集SUN397對(duì)預(yù)訓(xùn)練的網(wǎng)絡(luò)進(jìn)行微調(diào)。在微調(diào)類(lèi)激活圖生成器的過(guò)程中,為了加強(qiáng)類(lèi)激活圖的熱點(diǎn)區(qū)域檢測(cè)能力,在類(lèi)激活圖生成器的結(jié)構(gòu)中加入了一個(gè)SE-Block(Squeeze-and-Excitation-Block)。
微調(diào)涉及兩個(gè)網(wǎng)絡(luò),即類(lèi)激活圖生成器和特征提取器的主干網(wǎng)絡(luò),網(wǎng)絡(luò)均為 ResNet-50。特征提取器的微調(diào)過(guò)程如下:首先,在卷積層參數(shù)凍結(jié)的基礎(chǔ)上訓(xùn)練其分類(lèi)器;然后,解凍卷積層的參數(shù),以一個(gè)稍小的學(xué)習(xí)率微調(diào)卷積層和分類(lèi)器(即微調(diào)整個(gè)主干網(wǎng)絡(luò))。類(lèi)激活圖生成器的卷積層取自預(yù)訓(xùn)練的卷積層,同時(shí)微調(diào)卷積層和后接的SE-Block和分類(lèi)器。對(duì)卷積層設(shè)置一個(gè)較小的學(xué)習(xí)率以保護(hù)其特征提取能力,對(duì)于后接模塊正常設(shè)置其學(xué)習(xí)率。
深度卷積網(wǎng)絡(luò)在特征提取方面具有優(yōu)異表現(xiàn),逐漸取代了傳統(tǒng)的特征提取方法。為了獲取較好的圖像特征,既要保障圖像類(lèi)內(nèi)特征的一致性,又要保證類(lèi)間特征在特征空間的多樣性與獨(dú)特性。場(chǎng)景圖像一般比較復(fù)雜,單特征提取易導(dǎo)致提取的特征不夠全面,使最終識(shí)別的效果難以達(dá)到預(yù)期水平。場(chǎng)景圖像在不同尺度包含的特征均包含豐富的信息,淺層網(wǎng)絡(luò)對(duì)幾何細(xì)節(jié)信息具有較強(qiáng)的表示能力,深層網(wǎng)絡(luò)提取語(yǔ)義信息的表示能力明顯高于淺層網(wǎng)絡(luò)。因此,本文采用多個(gè)尺度特征共同表示場(chǎng)景圖片的方法來(lái)獲取更為準(zhǔn)確的圖片特征。對(duì)于提取深度卷積特征,本文模型使用了3個(gè)尺度架構(gòu)提取圖片特征,通過(guò)將目標(biāo)圖片送入類(lèi)激活圖生成器來(lái)生成類(lèi)激活圖。從圖1中的類(lèi)激活圖可以看出,關(guān)鍵區(qū)域的特征在類(lèi)激活圖上表現(xiàn)出相對(duì)較大的數(shù)值,因而能根據(jù)數(shù)值大小來(lái)推斷該區(qū)域的特征是否關(guān)鍵。為獲得分布在圖像上的不同鑒別區(qū)域,使用滑動(dòng)窗口搜索類(lèi)激活圖的局部極大值。對(duì)于每一個(gè)步幅為1的3×3窗口,選擇大于或等于其周?chē)?個(gè)位置的中心值作為局部最大值。對(duì)于兩個(gè)重疊窗口中具有相同值的局部極大值只計(jì)算一次,以避免對(duì)彼此接近的區(qū)域進(jìn)行冗余區(qū)域選擇。然后,選擇值高于閾值T的局部極大值作為最終判別位置。最后,裁剪以每個(gè)最終選擇的區(qū)分位置為中心的方形區(qū)域,即以局部最大值為中心,提取特定大小的特征塊作為關(guān)鍵區(qū)域的特征。對(duì)于生成的圖塊大小超出圖像區(qū)域的特殊情況,將其位置移動(dòng)到圖像內(nèi)進(jìn)行劃分。使用兩種不同的圖塊大小(圖像大小的1/4和1/16),將其稱(chēng)之為“局部尺度”。尺寸的選擇著眼于捕捉圖像中互補(bǔ)的局部信息。本文模型采用了一種三尺度特征聚合管道,使用CNN提取深層特征,獲取最高(全局)尺度和粗略(1/4)局部尺度的CNN網(wǎng)絡(luò)在Place上預(yù)訓(xùn)練,同時(shí)獲取精細(xì)(1/16)局部尺度的CNN網(wǎng)絡(luò)在ImageNet上預(yù)訓(xùn)練,并最終從目標(biāo)模型卷積神經(jīng)網(wǎng)絡(luò)分別提取卷積特征全局尺度特征、1/4局部尺度特征以及1/16局部尺度特征。
采用基于類(lèi)激活映射的類(lèi)激活圖生成器(Dis-Net)探尋熱點(diǎn)區(qū)域的核心部分,由此生成的Dis-Map經(jīng)過(guò)局部最大值的搜尋和篩選能夠反映場(chǎng)景圖片中的熱點(diǎn)區(qū)域。圖5為原類(lèi)激活圖生成器,圖6為改進(jìn)后的類(lèi)激活圖生成器。
圖5 原始類(lèi)激活圖生成器Figure 5. Original class activation map generator
圖6 改進(jìn)后的類(lèi)激活圖生成器 Figure 6. Improved class activation map generator
將類(lèi)激活圖生成器的主干網(wǎng)絡(luò)從ResNet-18更換為ResNet-50,并添加SE-Block模塊。圖片標(biāo)簽對(duì)應(yīng)的分類(lèi)權(quán)重是生成類(lèi)激活圖的關(guān)鍵,而類(lèi)激活圖的準(zhǔn)確程度受圖片標(biāo)簽準(zhǔn)確度的影響。文獻(xiàn)[22]的類(lèi)激活圖生成器通過(guò)去除主干網(wǎng)絡(luò)的第1個(gè)最大池化層,獲得了更高分辨率的激活圖,從而產(chǎn)生14×14的分布圖。然而,本文發(fā)現(xiàn)去除第1個(gè)最大池化層對(duì)主干網(wǎng)絡(luò)的分類(lèi)準(zhǔn)確度存在不良影響,導(dǎo)致熱點(diǎn)區(qū)域識(shí)別不準(zhǔn)確。因此,本文選擇保留主干網(wǎng)絡(luò)的第1個(gè)最大池化層,并擴(kuò)大原圖片的輸入尺寸以增大類(lèi)激活圖的分辨率。
為了加強(qiáng)類(lèi)激活圖的熱點(diǎn)區(qū)域檢測(cè)能力,在類(lèi)激活圖生成器的結(jié)構(gòu)中加入SE-Block[23]模塊。SE-Block能夠提取卷積層內(nèi)不同通道之間的跨通道聯(lián)系(Cross-channel Correlation),并利用此全局信息為每個(gè)通道賦予一個(gè)權(quán)重:對(duì)包含熱點(diǎn)信息的卷積通道賦予一個(gè)較高的權(quán)重,對(duì)無(wú)用卷積通道賦予一個(gè)較低的權(quán)重。
圖 7 SE-Block結(jié)構(gòu)Figure 7. Structure of SE-Block
SE-Block的結(jié)構(gòu)如圖7所示。輸入特征X首先經(jīng)過(guò)Ftr操作,即常規(guī)的卷積操作,得到特征圖U,X∈H′×W′×C′以及U∈H×W×C。然后利用壓縮(Squeeze)函數(shù)Fsq(·)提取通道間的關(guān)聯(lián)信息Z∈c。最后使用激發(fā)(Excitation)函數(shù)Fex(·)生成每個(gè)通道的權(quán)重S∈с。上述函數(shù)的計(jì)算式為
(1)
S=Fex(Z,W)=σ(g(Z,W))=σ(W2σ(W1Z))
(2)
其中,zc∈Z;uc∈U;W=[W1,W2]。
SE-Block可突出有用特征,并抑制無(wú)用特征,能以最小的計(jì)算代價(jià)顯著提高現(xiàn)有神經(jīng)網(wǎng)絡(luò)的性能。
本文使用一種三尺度框架,通過(guò)最大池化實(shí)現(xiàn)特征融合。根據(jù)熱點(diǎn)區(qū)域的中心坐標(biāo),在不同尺寸的場(chǎng)景圖片金字塔中采樣多尺度的圖像塊,分別送入到預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)中提取特征,再將通過(guò)提取得到的不同特征進(jìn)行融合。
在模型中使用CNN來(lái)提取深度特征,CNN針對(duì)最高(全局)尺度和粗略(1/4)局部尺度以及精細(xì)(1/16)局部尺度。在每個(gè)尺度上,調(diào)整輸入?yún)^(qū)域的大小,從而得到不同尺度的不同特征向量,使用一個(gè)最大化池化(Max Pooling,MP)操作進(jìn)行尺度內(nèi)特征聚合,將3個(gè)L2歸一化尺度特征向量串聯(lián)得到最終的圖像表示向量。
全局尺度特征圖是原始輸入圖像的特征圖,1/4尺度和1/16尺度是熱點(diǎn)區(qū)域的面積與原圖的面積之比。
支持向量機(jī)(Support Vector Machine,SVM)為場(chǎng)景識(shí)別的分類(lèi)提供了一種有效的解決方法,可以處理線(xiàn)性和非線(xiàn)性數(shù)據(jù)。為了獲得良好的分類(lèi)精度,SVM通過(guò)訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練,找到一個(gè)超平面。超平面需要定位在最合適的位置。位于從超平面測(cè)量的最小垂直距離處的所有點(diǎn)被稱(chēng)為支持向量。支持向量之間的最短距離稱(chēng)為邊距。本文使用的支持向量機(jī)如圖8所示。
圖8 支持向量機(jī)Figure 8. Support vector machine
本文采用生成的多尺度深度特征來(lái)訓(xùn)練多個(gè)一對(duì)多的線(xiàn)性SVM分類(lèi)器?;谟?xùn)練圖像的尺度特征,對(duì)SVM分類(lèi)器的參數(shù)C進(jìn)行了優(yōu)化。C是支持向量機(jī)目標(biāo)函數(shù)的超參數(shù),是對(duì)于誤分類(lèi)樣本的懲罰項(xiàng)。在輸入線(xiàn)性SVM之前,特征經(jīng)過(guò)最大最小歸一化。本文使用的C值為0.02,同時(shí)采用平方鉸鏈損失函數(shù)。
本文在SUN397[24]進(jìn)行了實(shí)驗(yàn)。SUN397是一個(gè)大規(guī)模的場(chǎng)景識(shí)別數(shù)據(jù)集,共包含 130 519張、899類(lèi)場(chǎng)景圖片,其中397類(lèi)用作場(chǎng)景識(shí)別任務(wù)。使用數(shù)據(jù)集內(nèi)的397個(gè)類(lèi),且每個(gè)類(lèi)別取100張場(chǎng)景圖像,對(duì)每個(gè)類(lèi)內(nèi)選取的圖像對(duì)半劃分,分別構(gòu)成訓(xùn)練集和測(cè)試集。
提出的網(wǎng)絡(luò)模型訓(xùn)練所用的硬件平臺(tái)為: CPU為Intel Core i7-10875H,主頻2.3 GHz,睿頻5.1 GHz;SAMSUNG 32 GB內(nèi)存;GPU為NVIDIA 2080 8 GB。
微調(diào)涉及兩個(gè)網(wǎng)絡(luò),即類(lèi)激活生成器和特征提取器的主干網(wǎng)絡(luò)。兩個(gè)網(wǎng)絡(luò)涉及3次訓(xùn)練,訓(xùn)練時(shí)的網(wǎng)絡(luò)參數(shù)如表1所示。
表1 特征提取器和類(lèi)激活圖生成器3次訓(xùn)練的網(wǎng)絡(luò)參數(shù)
在訓(xùn)練時(shí),考慮到SUN397每個(gè)類(lèi)別訓(xùn)練集只有50張圖片,故采用基于隨機(jī)采樣的數(shù)據(jù)增強(qiáng)[25]方法。本文在原始輸入圖片上采樣任意尺寸的圖像塊,采樣得到的圖像塊與原圖的尺寸比例范圍為在[0.08,1.00],長(zhǎng)寬比范圍為[3/4,3/4]。采樣后將圖像塊調(diào)整成224×224大小,并對(duì)圖片進(jìn)行隨機(jī)水平翻轉(zhuǎn)。最后對(duì)圖片進(jìn)行標(biāo)準(zhǔn)化,在整個(gè)訓(xùn)練集上求取標(biāo)準(zhǔn)化參數(shù)。由于數(shù)據(jù)集內(nèi)的圖片是彩色圖片,故三通道的標(biāo)準(zhǔn)化參數(shù)均值mean=[0.466,0.453,0.419],標(biāo)準(zhǔn)差std=[0.264,0.263,0.287]。在訓(xùn)練時(shí),使用帶動(dòng)量的小批量隨機(jī)梯度下降優(yōu)化器。
使用SE-Block對(duì)類(lèi)激活圖的影響如圖9所示。SE-Block對(duì)類(lèi)激活圖的值具有抑制作用,可減少熱點(diǎn)區(qū)域的數(shù)量,但能增強(qiáng)有效的熱點(diǎn)區(qū)域的激活值。
(a)
本文使用3個(gè)尺度構(gòu)成的最終特征進(jìn)行C值選取。逐漸加大C值,得到準(zhǔn)確度與C值的關(guān)系,如圖10所示。隨著C值增大,模型訓(xùn)練的準(zhǔn)確度達(dá)到100%,并保持不變。預(yù)測(cè)準(zhǔn)確度在前期隨著C值的增大而逐漸增大,并在達(dá)到峰之后隨著C值的增大逐漸減小,模型經(jīng)歷了從欠擬合、擬合、過(guò)擬合3個(gè)不同階段。選擇較大的C值,縮小支持向量所在的超平面的間隔,以減少在訓(xùn)練集上被錯(cuò)誤分類(lèi)的樣本。選擇較小的C值,訓(xùn)練得到超平面的間隔較遠(yuǎn),但是被錯(cuò)誤分類(lèi)的樣本較多。C值越大,在訓(xùn)練集上的準(zhǔn)確度越高,超平面將對(duì)訓(xùn)練集上產(chǎn)生過(guò)擬合造成較大的泛化誤差。C值越小,支持向量機(jī)可能無(wú)法收斂而無(wú)法得到最優(yōu)超平面,此時(shí)不僅在訓(xùn)練集上表現(xiàn)較差,泛化誤差也較大。因此,本文選取測(cè)試準(zhǔn)確度較高的點(diǎn)為C的取值點(diǎn),即C=0.02較合理。
圖10 SVM參數(shù)C和準(zhǔn)確度的關(guān)系Figure 10. Relationship between parameter C of SVM and accuracy
表2主要對(duì)特征提取器和類(lèi)激活圖生成器主干網(wǎng)絡(luò)的處理方式進(jìn)行標(biāo)記,例如序號(hào)2表示類(lèi)激活圖生成器在Places上進(jìn)行了預(yù)訓(xùn)練并在 SUN397上進(jìn)行了微調(diào)(Finetune),特征提取器的主干網(wǎng)絡(luò)在全局尺度和1/4尺度上使用同樣的方式進(jìn)行了處理。在1/16尺度上,特征提取器的主干網(wǎng)絡(luò)經(jīng)過(guò)ImageNet的預(yù)訓(xùn)練。從表2可以看出,如果對(duì)主干網(wǎng)絡(luò)進(jìn)行微調(diào),能夠緩解數(shù)據(jù)集偏置的問(wèn)題,并提高場(chǎng)景識(shí)別的準(zhǔn)確度。
表2 微調(diào)特征提取器和CAM生成器對(duì)準(zhǔn)確度的影響
如表3所示,將本文方法與其它使用CNN的場(chǎng)景識(shí)別方法進(jìn)行了比較。其中,VS-CNN通過(guò)多維度信息提取多種類(lèi)型的特征,Dual CNN-DL、Multi-scale CNNs使用了多尺度多模型結(jié)合的網(wǎng)絡(luò)結(jié)構(gòu),Adi-Red解決了鑒別性區(qū)域自動(dòng)發(fā)現(xiàn)。經(jīng)實(shí)驗(yàn)對(duì)比發(fā)現(xiàn),采用多尺度特征融合的方法在場(chǎng)景識(shí)別中優(yōu)于當(dāng)前的卷積神經(jīng)網(wǎng)絡(luò)算法模型。本文結(jié)合遷移學(xué)習(xí)與多尺度特征融合,通過(guò)3種不同的特征尺度解決了復(fù)雜場(chǎng)景的分類(lèi)問(wèn)題,其中全局尺度特征對(duì)于簡(jiǎn)單場(chǎng)景具有較好的效果。本文構(gòu)建了新的類(lèi)激活圖生成器,生成了更細(xì)膩的類(lèi)激活圖,從而能夠更精準(zhǔn)地尋找關(guān)鍵特征的位置并裁剪此區(qū)域的特征。本文提取的局部尺度特征能夠進(jìn)一步補(bǔ)充場(chǎng)景圖像的特征信息,賦予了網(wǎng)絡(luò)模型分類(lèi)復(fù)雜場(chǎng)景的能力。此方法識(shí)別準(zhǔn)確度高于類(lèi)似的識(shí)別算法,證明了通過(guò)改進(jìn)類(lèi)激活圖生成器網(wǎng)絡(luò)結(jié)構(gòu),結(jié)合圖像的全局與局部特征方法的有效性。
表3 在SUN397數(shù)據(jù)集上的準(zhǔn)確度比較
本文提出一種基于深度遷移學(xué)習(xí)與多尺度特征融合的場(chǎng)景識(shí)別算法模型。該模型以ResNet-50網(wǎng)絡(luò)模型為基礎(chǔ),通過(guò)遷移學(xué)習(xí),使模型獲取豐富的知識(shí),簡(jiǎn)化網(wǎng)絡(luò)模型的訓(xùn)練難度,提升網(wǎng)絡(luò)的訓(xùn)練效率。改進(jìn)了類(lèi)激活圖生成器,通過(guò)擴(kuò)大原圖像尺寸增加了類(lèi)激活圖的分辨率,使卷積網(wǎng)絡(luò)獲得了較多特征信息,采用區(qū)分區(qū)域來(lái)提取場(chǎng)景圖像的深層特征。通過(guò)卷積網(wǎng)絡(luò)使不同尺度的特征向量進(jìn)行融合,增加了最終特征的特征信息豐富度,更加具體地對(duì)圖像進(jìn)行表示。最終,將表示向量送入線(xiàn)性SVM分類(lèi)器進(jìn)行場(chǎng)景類(lèi)別的識(shí)別。研究結(jié)果表明,本文方法能夠明顯緩解數(shù)據(jù)集偏執(zhí)的問(wèn)題,改善圖像類(lèi)內(nèi)差異與類(lèi)間相似的問(wèn)題,提高了場(chǎng)景識(shí)別的準(zhǔn)確度。在改進(jìn)類(lèi)激活圖生成器網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上使用遷移學(xué)習(xí)與微調(diào)技術(shù),不提取沉余區(qū)域即可獲取信息豐富的熱點(diǎn)區(qū)域特征信息,更加符合人類(lèi)對(duì)場(chǎng)景的觀察機(jī)制。未來(lái)將進(jìn)一步結(jié)合深度學(xué)習(xí)的方法,探討更有效的提取場(chǎng)景圖像的背景、物體、空間位置等信息的算法,并在特征融合方面開(kāi)展進(jìn)一步的研究工作。