陶東華,申志軍,2,穆麗娜,2,薛有為
(1.內(nèi)蒙古農(nóng)業(yè)大學(xué) 計(jì)算機(jī)與信息工程學(xué)院;2.內(nèi)蒙古自治區(qū)農(nóng)牧業(yè)大數(shù)據(jù)研究與應(yīng)用重點(diǎn)實(shí)驗(yàn)室,內(nèi)蒙古 呼和浩特 010018)
近年來(lái),隨著高分遙感衛(wèi)星技術(shù)的迅速發(fā)展,遙感影像數(shù)據(jù)量呈現(xiàn)爆炸式增長(zhǎng),而遙感影像場(chǎng)景分類也在農(nóng)業(yè)發(fā)展、生態(tài)建設(shè)、城市規(guī)劃等領(lǐng)域廣泛應(yīng)用,因此遙感影像場(chǎng)景分類成為當(dāng)前研究領(lǐng)域的熱點(diǎn)之一。2006年,美國(guó)麻省理工學(xué)院主持召開(kāi)了場(chǎng)景理解研討會(huì),會(huì)中明確表示將場(chǎng)景分類劃分為分類任務(wù)的研究重點(diǎn),奠定了場(chǎng)景分類在計(jì)算機(jī)視覺(jué)領(lǐng)域的重要地位。
場(chǎng)景分類是從眾多的圖像數(shù)據(jù)中區(qū)分出具有相似場(chǎng)景特征的圖像,并且對(duì)這些圖像進(jìn)行正確的分類[1]。一般來(lái)說(shuō),場(chǎng)景分類方法主要有3類。第一類是基于底層視覺(jué)特征的分類方法,主要是提取顏色、紋理、光譜等底層特征來(lái)進(jìn)行分類,常見(jiàn)的方法有:尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)[2],局部二值模式(Local Binary Pattern,LBP)[3],顏色直方圖(Colour Histogram,CH)[4],方向梯度直方圖(Histogram of Oriented,HOG)[5],這些方法具有旋轉(zhuǎn)不變,操作簡(jiǎn)單的特點(diǎn),但泛化能力弱,具有局限性。第二類是基于中層視覺(jué)表達(dá)的分類方法,在底層信息上繼續(xù)進(jìn)行特征提取,并對(duì)提取到的特征進(jìn)行編碼,得到更具有判別能力的特征表達(dá),再與分類器相結(jié)合實(shí)現(xiàn)分類任務(wù),其主要代表有詞袋模型(Bag-of-words model, Bow model)[6]、空間金字塔(Spatial Pyramid Matching,SPM)。該類方法相較于基于底層的視覺(jué)特征提取方法準(zhǔn)確率有所提高,但實(shí)際操作更加復(fù)雜,不利于后續(xù)研究。第三類是基于高層視覺(jué)表達(dá)的分類方法,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練深度網(wǎng)絡(luò)模型提取抽象語(yǔ)義信息,實(shí)現(xiàn)高層視覺(jué)信息的表達(dá)。相比于前兩類方法,此類方法具有更強(qiáng)的特征提取能力和模型泛化能力,使得模型性能更優(yōu)。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)作為深度學(xué)習(xí)的主要代表之一,憑借其較強(qiáng)的特征提取能力和泛化能力,在圖像領(lǐng)域取得令人滿意的成績(jī)。文獻(xiàn)[7]將卷積神經(jīng)網(wǎng)絡(luò)運(yùn)用到高分遙感影響分類中,證明了卷積神經(jīng)網(wǎng)絡(luò)在遙感影像分類中的可行性和精度優(yōu)勢(shì)。文獻(xiàn)[8]改進(jìn)了經(jīng)典模型VGG16,使用L2正則化,增加Dropout層等方法,在NWPU-RESISC45數(shù)據(jù)集上取得了91.07的分類準(zhǔn)確率。文獻(xiàn)[9]提出了一種深度卷積神經(jīng)網(wǎng)絡(luò),在21UCmerced數(shù)據(jù)集上進(jìn)行數(shù)據(jù)增廣,準(zhǔn)確率達(dá)到了91.33%。但在類別間差距較小的情況下,其分類準(zhǔn)確度較低。
現(xiàn)有工作表明,卷積神經(jīng)網(wǎng)絡(luò)在遙感領(lǐng)域場(chǎng)景分類中具有較大的潛力和優(yōu)勢(shì)。而由于遙感影像場(chǎng)景空間尺度大、背景復(fù)雜以及相似類別間差異性小,有效提取場(chǎng)景特征存在困難,導(dǎo)致場(chǎng)景分類任務(wù)的準(zhǔn)確度不高。因此,筆者引入注意力機(jī)制(Attention Mechanism)[10],學(xué)習(xí)更明顯的特征區(qū)域信息,從而緩解復(fù)雜場(chǎng)景中冗余信息的干擾。
綜上,筆者提出了一種改進(jìn)的遙感影像場(chǎng)景分類模型AResNet。該模型主要貢獻(xiàn)如下:①將卷積注意力模塊(Convolutional Block Attention Module,CBAM)[11]引入到殘差網(wǎng)絡(luò)模型ResNet[12]進(jìn)行特征提取,最終證明注意力機(jī)制的引入能夠提升模型對(duì)特征區(qū)域的關(guān)注度。②將ImageNet預(yù)訓(xùn)練權(quán)重遷移到AResNet中,提升模型泛化能力,加快收斂速度。
卷積神經(jīng)網(wǎng)絡(luò)可提取圖像底層特征,進(jìn)而組合形成抽象高級(jí)特征,以降低人工提取特征的額外開(kāi)銷。遙感影像場(chǎng)景是不同語(yǔ)義特征的組合,不同的語(yǔ)義特征對(duì)應(yīng)不同的底層特征,場(chǎng)景分類任務(wù)的關(guān)鍵就在于對(duì)特征的有效提取。卷積神經(jīng)網(wǎng)絡(luò)逐層提取的優(yōu)勢(shì),恰好能夠應(yīng)用在影像低中高層的特征提取中,進(jìn)而實(shí)現(xiàn)影像深層特征的表達(dá),最終取得優(yōu)秀的場(chǎng)景分類效果?;诰矸e神經(jīng)網(wǎng)絡(luò)的遙感影像場(chǎng)景分類的總體流程,如圖1所示。
圖1 遙感影像場(chǎng)景分類總體流程
基本卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)通常包含3層,分別是輸入層、隱含層、輸出層。隱含層中包含4部分,分別是卷積層、池化層、激活函數(shù)、全連接層。其詳細(xì)結(jié)構(gòu),如圖2所示。
圖2 卷積神經(jīng)網(wǎng)絡(luò)框架
卷積層主要通過(guò)線性操作進(jìn)行特征提取和特征映射,所以也稱為特征提取層,結(jié)構(gòu)通常為組合卷積,參數(shù)主要包含卷積核尺寸大小、卷積核數(shù)量、步長(zhǎng)、填充方式等。其計(jì)算如式(1)所示。
(1)
池化層是過(guò)濾卷積層的輸出圖像,是對(duì)卷積層輸出的特征向量降維,減少特征圖的尺寸,簡(jiǎn)化計(jì)算復(fù)雜度。第l層的第j個(gè)特征圖的計(jì)算如公式(2)所示。
(2)
激活函數(shù)能夠在神經(jīng)網(wǎng)絡(luò)中加入一些非線性因素來(lái)解決復(fù)雜問(wèn)題。筆者使用線性整流函數(shù)(Rectified Linear Unit,ReLU)[13],ReLU是一個(gè)分段線性函數(shù),在輸入為負(fù)值時(shí),輸出為0,神經(jīng)網(wǎng)絡(luò)中神經(jīng)元不會(huì)激活,使網(wǎng)絡(luò)具有稀疏性,減少參數(shù)之間的依賴關(guān)系,進(jìn)而緩解過(guò)擬合和梯度消失問(wèn)題,其計(jì)算如公式(3)所示。
f(x)=max(0,x)
(3)
全連接層將每個(gè)神經(jīng)元與前一層網(wǎng)絡(luò)的神經(jīng)元連接,對(duì)輸入的高階不變性特征進(jìn)行分類,輸出圖像的高層特征,最后使用分類器進(jìn)行計(jì)算,得到最終輸出,即輸入圖像所對(duì)應(yīng)類別標(biāo)簽的概率。筆者使用Softmax分類器計(jì)算每個(gè)類別的概率,其計(jì)算如式(4)所示。
(4)
公式(4)中,k為訓(xùn)練集中的類別總數(shù),aj表示上一層節(jié)點(diǎn)輸入全連接層后輸出的第j類的值;Sj表示經(jīng)過(guò)Softmax分類器后第j類樣本對(duì)應(yīng)的概率值。
通常,神經(jīng)網(wǎng)絡(luò)的深度越深模型的學(xué)習(xí)能力越強(qiáng),而模型網(wǎng)絡(luò)層數(shù)的增加會(huì)產(chǎn)生梯度消失,進(jìn)而出現(xiàn)網(wǎng)絡(luò)退化問(wèn)題,導(dǎo)致層數(shù)越多訓(xùn)練誤差越大。深度殘差學(xué)習(xí)思想可有效緩解梯度消失現(xiàn)象,緩解網(wǎng)絡(luò)退化問(wèn)題,殘差網(wǎng)絡(luò)引入殘差結(jié)構(gòu)通過(guò)恒等映射(Identity Mapping)形成跳躍結(jié)構(gòu),不僅降低深層網(wǎng)絡(luò)的訓(xùn)練負(fù)擔(dān),也提高了網(wǎng)絡(luò)模型的準(zhǔn)確率。筆者所提出的AResNet由ResNet50改進(jìn)得到,Resnet50網(wǎng)絡(luò)參數(shù),如表1所示。
表1 ResNet50網(wǎng)絡(luò)參數(shù)表
殘差塊(Residual Block)是殘差網(wǎng)絡(luò)的一個(gè)重要結(jié)構(gòu),即在網(wǎng)絡(luò)結(jié)構(gòu)中增加一個(gè)恒等映射。殘差塊結(jié)構(gòu),如圖3所示。
圖3 殘差塊
對(duì)于網(wǎng)絡(luò)的輸入x,假設(shè)H(x)是最優(yōu)解,傳統(tǒng)做法是讓網(wǎng)絡(luò)層無(wú)限逼近H(x),而殘差網(wǎng)絡(luò)的思想是構(gòu)建F(x)=H(x)-x。當(dāng)H(x)=x時(shí),卷積層也稱為冗余層,此時(shí)F(x)=0,殘差塊的功能為恒等映射。實(shí)際F(x)取0的可能性極低,其值為卷積層所學(xué)習(xí)的新特征,從而使得特征提取性能更優(yōu)。ResNet50 使用“1×1+3×3+1×1”疊加卷積的瓶頸結(jié)構(gòu)(Bottleneck Residual Block),其中前后兩個(gè)“1×1”的卷積核分別用來(lái)降維和恢復(fù)維度,中間“3×3”的卷積核不僅用于加深網(wǎng)絡(luò),且能更好地提取非線性特征。
注意力機(jī)制思想來(lái)源于人類視覺(jué)注意力機(jī)制,即人類獲取信息的時(shí)候,僅會(huì)關(guān)注當(dāng)前場(chǎng)景中的關(guān)鍵信息,忽略其他無(wú)關(guān)信息,進(jìn)而實(shí)現(xiàn)信息的有效提取。深度學(xué)習(xí)中的注意力機(jī)制跟人類視覺(jué)的注意力機(jī)制類似,其核心思想就是從眾多信息中獲取當(dāng)前任務(wù)所需的關(guān)鍵信息,抑制無(wú)關(guān)信息的干擾。
2017年,WANG等人提出的Residual Attention Networks[14]將注意力機(jī)制用在所有維度上,出現(xiàn)了特征信息冗余,計(jì)算量大等問(wèn)題。2017年,HU等人提出的SE Module[15]只在通道維度上使用注意力機(jī)制,忽略了空間維度上的特征信息。筆者使用卷積注意力模塊CBAM,其將通道注意力和空間注意力結(jié)合以獲取特征圖,從通道和空間兩個(gè)維度學(xué)習(xí)特征“是什么”和“在哪里”,進(jìn)而實(shí)現(xiàn)對(duì)圖像差異性的重點(diǎn)關(guān)注,使得場(chǎng)景分類任務(wù)可以取得更加優(yōu)異的分類結(jié)果。圖4為卷積注意力模塊CBAM結(jié)構(gòu)圖。
圖4 卷積注意力模塊(CBAM)結(jié)構(gòu)
本模型以殘差網(wǎng)絡(luò)resnet50為基本結(jié)構(gòu),將卷積注意力模塊CBAM引入到resnet50結(jié)構(gòu)中相鄰殘差塊之間,利用CBAM的通道注意力決定學(xué)習(xí)什么特征,利用CBAM的空間注意力決定學(xué)習(xí)何處的特征,更好的關(guān)注相似類別間的差異性,從而提高模型的特征提取能力,該模型的結(jié)構(gòu)圖如圖5所示。
在卷積神經(jīng)網(wǎng)絡(luò)模型中,利用前向傳播計(jì)算網(wǎng)絡(luò)模型的輸出值,對(duì)于第m層卷積層,計(jì)算公式如(5)所示。
(5)
模型使用交叉熵?fù)p失函數(shù)計(jì)算損失,計(jì)算如公式(6)所示。
(6)
最后利用Adam(Adaptive Moment Estimation)算法優(yōu)化損失,輸出最終模型權(quán)重。
實(shí)驗(yàn)在Centos6.2系統(tǒng)下進(jìn)行,實(shí)驗(yàn)環(huán)境是基于Centos6.2的Pytorch深度學(xué)習(xí)框架,采用GPU進(jìn)行加速訓(xùn)練,其型號(hào)為NVIDIA Tesla P40。
訓(xùn)練過(guò)程中,Batch-size為16,Epoch為20,Learning-rate為0.0001,使用Adam算法優(yōu)化損失。
圖5 AResNet結(jié)構(gòu)
本次實(shí)驗(yàn)的數(shù)據(jù)集是西北工業(yè)大學(xué)創(chuàng)建的公開(kāi)遙感圖像場(chǎng)景分類數(shù)據(jù)集NWPU-RESISC45。數(shù)據(jù)集一共包含45個(gè)場(chǎng)景類別,每個(gè)類別有700張圖片,每張圖片的像素大小是256×256,共計(jì)31 500張。此數(shù)據(jù)集的遙感影像空間分別率從每像素0.2m~30m不等。由于該數(shù)據(jù)集的影像,相同類別間差異性較大,不同類別間相似性較小,非常適用于場(chǎng)景分類等任務(wù)。
本實(shí)驗(yàn)將數(shù)據(jù)集按照8∶2的比例劃分為訓(xùn)練集和測(cè)試集兩部分,訓(xùn)練集用于訓(xùn)練模型參數(shù),測(cè)試集用于測(cè)試已訓(xùn)練的模型。以ImageNet預(yù)訓(xùn)練權(quán)重初始化網(wǎng)絡(luò)參數(shù),在卷積神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行前向傳播,得到輸出值,使用交叉熵?fù)p失函數(shù)判斷真實(shí)值和預(yù)測(cè)值之間的分布差距,用Adam算法優(yōu)化損失,最后得到模型AResNet。詳細(xì)的訓(xùn)練過(guò)程,如圖6所示。
圖6 訓(xùn)練和驗(yàn)證過(guò)程流程
為了評(píng)價(jià)模型AResNet的有效性,將該模型與現(xiàn)有的場(chǎng)景分類模型或方法在同一個(gè)數(shù)據(jù)集上進(jìn)行比較,結(jié)果見(jiàn)表2。由表2可以看出,AResNet加入了注意力機(jī)制,使得其分類效果明顯優(yōu)于其他方法與模型。
表2 不同方法在NWPU45數(shù)據(jù)集的準(zhǔn)確率對(duì)比
AResNet在NWPU-RESISC45數(shù)據(jù)集上進(jìn)行試驗(yàn),得到表3的實(shí)驗(yàn)結(jié)果。由表3可知,AResNet在編號(hào)為1,2,……,24,這24個(gè)類別取得了不錯(cuò)的分類結(jié)果,平均分類準(zhǔn)確率達(dá)到了97.3%,原因是具有特別的區(qū)別于其他類別的特征。編號(hào)為25,26,……,45,這21個(gè)類別分類表現(xiàn)一般,平均分類準(zhǔn)確率是90.9%,特別是編號(hào)為41,42,43,44,45,這5個(gè)類別的分類準(zhǔn)確率均沒(méi)有達(dá)到90%,原因是這5種類別具有高度相似的場(chǎng)景特征。
表3 AResNet在NWPU-RESISC45數(shù)據(jù)集的分類結(jié)果
如圖7所示,在(a)中,編號(hào)41、42這2個(gè)類別,背景中植被覆蓋率較高,且中間的特征區(qū)域也具有相似的形狀特征,導(dǎo)致類別錯(cuò)分。在(b)中,編號(hào)43、44、45,這3個(gè)類別,同樣具有高度相似背景,其特征區(qū)域都具有規(guī)則、方正、棱角分明的特點(diǎn),所以導(dǎo)致出現(xiàn)錯(cuò)分情況。
(a).41 (b).42 (c).43 (d).44 (e).45
筆者提出了基于注意力機(jī)制的殘差網(wǎng)絡(luò)模型AResNet。通過(guò)引入CBAM,使得模型可以適應(yīng)背景復(fù)雜,背景冗余度高,不同類別差異性較小的遙感影像數(shù)據(jù)集,提高了模型的特征提取能力,使其可以聚焦到更具有辨別性的特征區(qū)域。相比較于已有的工作結(jié)果,AResNet在NWPU_RESISC45數(shù)據(jù)集上的準(zhǔn)確率提高到了94.3%,其中40類的分類準(zhǔn)確率都保持在90%以上。然而,對(duì)于相似場(chǎng)景的分類效果不夠理想,準(zhǔn)確率有待提高。因此,下一步,考慮在網(wǎng)絡(luò)模型的特征提取方面進(jìn)行優(yōu)化,以適應(yīng)更多相似背景下的遙感影像數(shù)據(jù),提高模型的分類準(zhǔn)確率。