潘海俠, 徐嘉璐, 李錦濤, 王赟豪, 王華鋒,2,*
(1. 北京航空航天大學(xué)軟件學(xué)院, 北京 100083; 2. 北方工業(yè)大學(xué)信息學(xué)院, 北京 100144)
航拍圖像定位大多利用航拍圖像的絕對(duì)定位。匹配方法中基于特征點(diǎn)的匹配應(yīng)用最為廣泛,適合匹配的特征點(diǎn)有邊緣特征[1-3]、點(diǎn)特征[4-6]和區(qū)域特征[7-9]等。根據(jù)特征空間的不同,基于特征點(diǎn)的匹配方法分為基于特征點(diǎn)局部灰度區(qū)域描述符的匹配方法和基于特征點(diǎn)空間結(jié)構(gòu)信息的匹配方法?;谔卣鼽c(diǎn)局部灰度區(qū)域描述符的匹配方法是指在匹配時(shí)提取以特征點(diǎn)位置為中心的局部區(qū)域灰度信息的某類特征作為描述符進(jìn)行相似性度量,如提取局部區(qū)域 128 維特征向量作為描述子進(jìn)行匹配的SIFT 特征點(diǎn)匹配[7]等?;谔卣鼽c(diǎn)空間結(jié)構(gòu)信息的匹配方法是指僅利用特征點(diǎn)的空間結(jié)構(gòu)信息進(jìn)行相似性度量,如基于邊緣點(diǎn)集的 Hausdorff 距離匹配[10-13]、基于形狀上下文特征匹配[14-15]等。
近年來,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[16]在圖像領(lǐng)域有很好的表現(xiàn)。其中,OverFeat[17]獲得了極具競(jìng)爭(zhēng)力的結(jié)果,其運(yùn)用卷積網(wǎng)絡(luò)有效實(shí)現(xiàn)了一個(gè)多尺寸輸入的滑動(dòng)窗口方法,可用于圖像分類、目標(biāo)定位和檢測(cè)任務(wù)?;贑NN善于學(xué)習(xí)圖像高層次特征的特點(diǎn),科研人員希望利用CNN將航拍圖像定位問題轉(zhuǎn)化為圖像分類問題,利用飛行區(qū)域的全部信息訓(xùn)練卷積網(wǎng)絡(luò),對(duì)航拍圖像直接進(jìn)行分類。本文將航拍圖像定位問題轉(zhuǎn)化為了一種圖像分類問題,基于AlexNet提出了一個(gè)融合顯著性特征的全卷積網(wǎng)絡(luò)模型,同時(shí)自行制作了航拍圖像數(shù)據(jù)集,提出一種鄰域顯著性參照定位策略來篩選分類結(jié)果,從而實(shí)現(xiàn)多尺寸航拍圖像的定位。實(shí)驗(yàn)結(jié)果表明,本文模型提取圖像特征的能力好于傳統(tǒng)方法。同時(shí),多尺寸航拍圖像定位實(shí)驗(yàn)驗(yàn)證了本文方法的準(zhǔn)確率。
本文在AlexNet[12]的基礎(chǔ)上進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn),設(shè)計(jì)了一種基于特征融合的多通道全卷積網(wǎng)絡(luò)模型,稱為multi-channel AlexNet-FCN,其是有效支持多尺寸輸入的滑動(dòng)窗口分類器。
AlexNet規(guī)定輸入圖像大小為224×224,當(dāng)輸入更大尺寸的圖片時(shí),網(wǎng)絡(luò)會(huì)先將輸入圖片尺寸調(diào)整成規(guī)定大小。為了適應(yīng)多尺寸輸入,本文使用類似OverFeat[18]的方法,將AlexNet轉(zhuǎn)換為全卷積形式的AlexNet,稱為AlexNet-FCN,使其變?yōu)橐粋€(gè)可以輸入任意的不小于規(guī)定大小圖像的滑動(dòng)窗口分類器。
全卷積網(wǎng)絡(luò)在以滑動(dòng)方式應(yīng)用時(shí)本質(zhì)上是高效的,因?yàn)榇翱谧匀坏毓蚕碇丿B區(qū)域上共有的計(jì)算。對(duì)于AlexNet-FCN,滑動(dòng)窗口大小為224×224,滑動(dòng)窗口步長為32。
輸入一張256×256大小的圖像時(shí),輸出是一個(gè)N(類別個(gè)數(shù))個(gè)通道的2×2大小的類別得分矩陣,如圖1所示。相當(dāng)于在圖像的垂直方向和水平方向上各進(jìn)行2次滑窗,每個(gè)窗口分別映射到輸入圖像中的一個(gè)224×224大小的區(qū)域。
圖1 FCN滑動(dòng)窗口形式Fig.1 FCN sliding window
航拍圖像含有大量的不顯著特征,而不顯著特征在不同航拍區(qū)域中可能差異很小,將稀疏的顯著性區(qū)域突出為前景有助于提取可區(qū)別的特征。使用 Image Signature[14]來標(biāo)記航拍圖像中稀疏的顯著性區(qū)域,并生成顯著性特征圖(見圖2),用以進(jìn)行后續(xù)的特征融合。
圖2 航拍圖像的顯著性特征圖Fig.2 Saliency feature map of aerial image
基于特征融合的思想,本文提出了一種稱為 multi-channel AlexNet-FCN的多通道特征融合CNN模型,結(jié)構(gòu)如圖3所示。原始RGB航拍圖像與其單通道特征圖(本文使用Image Signature[14]生成顯著性特征圖)組合為一個(gè)四通道的輸入層,經(jīng)過卷積核為1×1的卷積層進(jìn)行降維,將降維后的三通道特征圖輸入AlexNet-FCN。
圖3 Multi-channel AlexNet-FCN示意圖Fig.3 Schematic diagram of multi-channel AlexNet-FCN
針對(duì)包含多網(wǎng)格區(qū)域的航拍圖像,本文提出了一種多尺寸圖像定位方法,稱為鄰域顯著性參照定位方法。
由于航拍圖像中區(qū)域的連續(xù)性,一個(gè)正確預(yù)測(cè)的區(qū)域類別,其周圍也應(yīng)該存在正確預(yù)測(cè)的區(qū)域。基于鄰域參照的思想,某個(gè)被預(yù)測(cè)區(qū)域的相鄰區(qū)域的顯著性越強(qiáng),可以判斷此區(qū)域越可能是正確的預(yù)測(cè)。因此本文提出了一種基于聯(lián)通區(qū)域分析(connected-component analysis)和最大投票(majority vote)思想的鄰域顯著性參照定位方法,通過區(qū)域及其鄰域信息來篩選分類結(jié)果,從而提高航拍圖像定位的準(zhǔn)確性,其主要包括4個(gè)步驟:類別得票數(shù)統(tǒng)計(jì)、區(qū)域顯著性權(quán)重計(jì)算、預(yù)測(cè)概率鄰域顯著性參照加強(qiáng)和聯(lián)通區(qū)域分析。
對(duì)于全卷積網(wǎng)絡(luò)輸出的類別得分圖(class score map),將每個(gè)位置的所有通道中得分最高且大于閾值的類別作為一個(gè)預(yù)測(cè)分類結(jié)果。統(tǒng)計(jì)由類別得分圖得到的所有分類結(jié)果,得到輸入圖像可能包含的若干個(gè)區(qū)域的類別及個(gè)數(shù),并用一個(gè)表示網(wǎng)格區(qū)域類別間的真實(shí)位置關(guān)系的投票矩陣(vote map)來描述,投票矩陣中每個(gè)位置的值等于該位置所代表的區(qū)域類別的預(yù)測(cè)個(gè)數(shù),未被預(yù)測(cè)的類別值為0。
為得到所有網(wǎng)格區(qū)域的顯著性權(quán)重,先將恰好包含所有網(wǎng)格區(qū)域的航拍圖像混合顯著性特征圖(Image Signature[14])輸入訓(xùn)練好的multi-channel AlexNet-FCN,得到投票矩陣。由于越顯著的區(qū)域越容易被識(shí)別,而投票矩陣描述了每個(gè)區(qū)域的判別個(gè)數(shù),可以認(rèn)為投票矩陣中每個(gè)位置的值表示了該區(qū)域的顯著性高低,因此本文提出了一種區(qū)域顯著性權(quán)重計(jì)算方法:
(1)
式中:?(x,y,i,j)∈vote map代表網(wǎng)格區(qū)域中的一個(gè)位置;vi,j為區(qū)域判別個(gè)數(shù);wi,j為計(jì)算顯著性權(quán)重。
由此得到所有網(wǎng)格區(qū)域的顯著性權(quán)重矩陣(saliency weight map),其大小與投票矩陣相同。一個(gè)如圖4(a)所示的投票矩陣的三維曲面圖,得到的顯著性權(quán)重矩陣如圖4(b)所示。其中,x、y代表相對(duì)位置,在投票矩陣中,z軸為投票矩陣中該位置所代表的區(qū)域類別的預(yù)測(cè)個(gè)數(shù),顯著性權(quán)重矩陣中z軸為顯著性權(quán)重。
圖4 三維曲面樣例Fig.4 3D surface sample diagram
測(cè)試時(shí),將大于224×224的航拍圖像混合顯著性特征輸入訓(xùn)練好的網(wǎng)絡(luò),得到輸入類別得分圖及投票矩陣,已知投票矩陣中每個(gè)位置代表一個(gè)區(qū)域,對(duì)于任意區(qū)域,其預(yù)測(cè)概率為
(2)
式中:Pi,j為預(yù)測(cè)概率。對(duì)每個(gè)位置(i,j)∈vote map(見圖5),有8個(gè)鄰域,組成鄰域預(yù)測(cè)概率的集合為:Gi,j={Pi-1,j-1,Pi-1,j,Pi-1,j+1,Pi,j-1,Pi,j,Pi,j+1,Pi+1,j-1,Pi+1,j,Pi+1,j+1}。2.2節(jié)中得到的領(lǐng)域顯著性權(quán)重:Si,j={Wi-1,j-1,Wi-1,j,Wi-1,j+1,Wi,j-1,Wi,j,Wi,j+1,Wi+1,j-1,Wi+1,j,Wi+1,j+1},其中不在投票矩陣中的鄰域的概率和顯著性權(quán)重均設(shè)置為0。
對(duì)?(i,j)∈vote map,根據(jù)該位置及其8個(gè)鄰域的預(yù)測(cè)概率,以及顯著性權(quán)重,計(jì)算其加強(qiáng)概率為
(3)
標(biāo)準(zhǔn)化后得到
(4)
為加強(qiáng)概率。
圖5 顯著性權(quán)重示意圖Fig.5 Schematic diagram of saliency weight
已知概率矩陣中所有不為0的位置組成若干連通區(qū)域,由于航拍圖像中區(qū)域相鄰的特性,可以認(rèn)為概率矩陣中擁有最大概率和的連通區(qū)域所包含位置的類別即為輸入航拍圖像的定位結(jié)果,并且按照聯(lián)通區(qū)域中每個(gè)區(qū)域的概率高低排列定位結(jié)果的優(yōu)先級(jí),概率越高優(yōu)先級(jí)越高。若不存在唯一的擁有最大概率和的連通區(qū)域,則對(duì)概率矩陣反復(fù)進(jìn)行鄰域顯著性參照加強(qiáng),直到得到唯一連通區(qū)域。
例如,一個(gè)概率矩陣的熱力圖如圖6所示。其中,x、y軸表示相對(duì)位置,z軸表示熱力值,熱力值越高且越聚集的位置可判斷為預(yù)測(cè)正確的區(qū)域,即擁有最大概率,可得按照概率降序的定位結(jié)
圖6 概率矩陣熱力圖Fig.6 Heat map of probability matrix
果為{12×15,11×15,12×17,12×16,11×16,11×17,10×15}。
本文從Google Earth 軟件獲取了黑龍江省哈爾濱市地區(qū)某2個(gè)不同時(shí)間下的衛(wèi)星圖像作為航拍數(shù)據(jù),區(qū)域范圍如圖7所示。將圖像劃分為37×27(行×列)個(gè)大小相同的正方形網(wǎng)格區(qū)域,每個(gè)區(qū)域圖片像素值為256×256。為了后續(xù)數(shù)據(jù)增強(qiáng)的需要,去掉最外層網(wǎng)格后共得到35×25張圖片,作為要分類的875類區(qū)域,每一類圖片用其所在行列號(hào)標(biāo)記。
本文采用了一種填充周圍真實(shí)區(qū)域的旋轉(zhuǎn)方法對(duì)圖像進(jìn)行隨機(jī)旋轉(zhuǎn),同時(shí)對(duì)圖像進(jìn)行一定范圍內(nèi)的隨機(jī)顏色抖動(dòng),以及對(duì)圖像進(jìn)行一定范圍內(nèi)的高斯模糊和椒鹽噪聲,用以增強(qiáng)數(shù)據(jù)并模擬真實(shí)環(huán)境。
通過以上方法,將每類數(shù)據(jù)的數(shù)量增加到500張,得到875類區(qū)域的數(shù)據(jù)共437 500張,其中訓(xùn)練集、驗(yàn)證集、測(cè)試集比例為8∶1∶1。
圖7 哈爾濱市的航拍圖像Fig.7 Aerial image of Harbin
采用3.1節(jié)中的數(shù)據(jù)集作為訓(xùn)練集,網(wǎng)絡(luò)定義輸入大小為224×224,當(dāng)訓(xùn)練時(shí)輸入大于定義的圖片時(shí),先將輸入圖片做224×224的隨機(jī)裁剪。本文訓(xùn)練集大小為256×256,經(jīng)過隨機(jī)裁剪后進(jìn)行訓(xùn)練,可以增強(qiáng)網(wǎng)絡(luò)對(duì)局部圖像信息的分類能力,提高準(zhǔn)確率。本文在單尺寸下分別訓(xùn)練了AlexNet-FCN和multi-channel AlexNet-FCN,在訓(xùn)練multi-channel AlexNet-FCN時(shí),分別混合Hog[19]和LBP[19]特征作為網(wǎng)絡(luò)的輸入。
為了驗(yàn)證第2節(jié)設(shè)計(jì)訓(xùn)練的卷積網(wǎng)絡(luò)對(duì)單一網(wǎng)格圖像的分類能力,并與傳統(tǒng)方法進(jìn)行對(duì)比,本文從Google Earth上再次獲取了3.1節(jié)中地區(qū)的另一時(shí)間的衛(wèi)星圖像,并劃分為同樣的875個(gè)網(wǎng)格圖像,將每個(gè)網(wǎng)格圖像進(jìn)行一次隨機(jī)旋轉(zhuǎn)來模擬某時(shí)間下無人機(jī)飛行時(shí)的航拍圖像。將旋轉(zhuǎn)后的875張圖像作為查詢圖像集,將3.1節(jié)中875類內(nèi)部數(shù)據(jù)的原始網(wǎng)格圖像作為標(biāo)準(zhǔn)圖像集,這樣每張查詢圖像都與某兩張標(biāo)準(zhǔn)圖像所屬類別相同。分別將查詢圖像集輸入訓(xùn)練好的AlexNet-FCN 和 multi-channel AlexNet-FCN,得到每張查詢圖像輸出的類別得分圖,其中數(shù)值越大的類別越可能是該查詢圖像的所屬類別。對(duì)每張標(biāo)準(zhǔn)圖像和查詢圖像分別用具有旋轉(zhuǎn)不變性的SIFT[7]、SURF[8]、ORB[9]提取特征,并計(jì)算每張查詢圖像與標(biāo)準(zhǔn)圖像的相似度,相似度越高代表兩張圖像越相近,越可能是同一類別。統(tǒng)計(jì)得到查詢圖像集的準(zhǔn)確率如表1所示,可知使用CNN對(duì)單一網(wǎng)格圖像進(jìn)行分類的效果遠(yuǎn)好于傳統(tǒng)特征,且 CNN對(duì)每張航拍圖像的平均處理速度遠(yuǎn)快于傳統(tǒng)方法;在CNN模型中,混合顯著性特征的multi-channel AlexNet-FCN具有最好的分類效果,其準(zhǔn)確率達(dá)到了95.4%。
在查詢圖像集中隨機(jī)選取10類區(qū)域,并分別旋轉(zhuǎn)50個(gè)角度來模擬飛行時(shí)采集的航拍圖像,作為表1中4種全卷積網(wǎng)絡(luò)的輸入,4個(gè)全卷積網(wǎng)絡(luò)模型的ROC曲線如圖8所示。分類器越靠近左上方,性能越好,可以看出multi-channel AlexNet-FCN效果最好。
表1 查詢圖像集準(zhǔn)確率Table 1 Query image set accuracy
圖8 ROC曲線Fig.8 ROC curves
為了驗(yàn)證本文方法對(duì)多尺寸航拍圖像的定位能力,對(duì)使用鄰域顯著性參照定位策略和不使用鄰域顯著性參照定位策略2種方法進(jìn)行了對(duì)比實(shí)驗(yàn)。
召回率和準(zhǔn)確率是2種常用的精度指標(biāo)。準(zhǔn)確率即正確的正例的數(shù)量與被歸類為正例的數(shù)量的比,其值越高則代表定位識(shí)別率越精準(zhǔn)。召回率也稱查全率,是真正例數(shù)與真正例、假反例數(shù)之和的比值,該值越高則代表識(shí)別結(jié)果查全效果越好。二者共同反映了識(shí)別的效果。
本文從Google Earth上獲取了圖7所示區(qū)域的另一時(shí)間的衛(wèi)星圖像,通過第2節(jié)的方法得到投票矩陣。使用鄰域顯著性參照定位策略得到概率矩陣,對(duì)概率矩陣進(jìn)行基于最大投票的連通區(qū)域分析。分別取每張測(cè)試圖像定位結(jié)果中優(yōu)先級(jí)最高的k個(gè)類別作為識(shí)別結(jié)果,對(duì)于圖像所包含的占整個(gè)網(wǎng)格區(qū)域某個(gè)比例范圍的若干區(qū)域,分別計(jì)算其準(zhǔn)確率與召回率,其中k的最大值為測(cè)試圖像能包含的完整網(wǎng)格區(qū)域的最大個(gè)數(shù)。分別截取512×512大小和768×768大小的測(cè)試集,當(dāng)閾值為0.99時(shí),2種方法得到的top-k下的平均準(zhǔn)確率如表2和表3所示,平均召回率如表4和表5所示。
從實(shí)驗(yàn)結(jié)果可知,在多尺寸航拍圖像定位中,使用鄰域顯著性參照定位時(shí)效果更好,即對(duì)于航拍圖像,本文方法可以準(zhǔn)確識(shí)別出其包含的大部分區(qū)域的類別,且圖像包含的上下文信息越多,定位準(zhǔn)確率越高。
表2 航拍圖像為512×512大小時(shí)top-k下的準(zhǔn)確率Table 2 Accuracy at top-k when aerial image size is 512×512
表3 航拍圖像為768×768大小時(shí)top-k下的準(zhǔn)確率Table 3 Accuracy at top-k when aerial image size is 768×768
表4 航拍圖像為512×512大小時(shí)top-k下的召回率Table 4 Recall rate at top-k when aerial image size is 512×512
表5 航拍圖像為768×768大小時(shí)top-k下的召回率Table 5 Recall rate at top-k when aerial image size is 768×768
本文利用飛行區(qū)域的全部信息將航拍圖像定位問題轉(zhuǎn)化為了圖像分類問題,通過使用飛行區(qū)域內(nèi)帶有位置標(biāo)記的網(wǎng)格圖像制作訓(xùn)練集?;贏lexNet提出了一種融合顯著性特征的多通道全卷積網(wǎng)絡(luò)模型(multi-channel AlexNet-FCN),實(shí)現(xiàn)了一個(gè)支持多尺寸輸入的滑動(dòng)窗口分類器,并提出了一種鄰域顯著性參照定位策略來篩選分類結(jié)果,從而實(shí)現(xiàn)多尺寸航拍圖像的定位。實(shí)驗(yàn)證明,本文方法訓(xùn)練的卷積網(wǎng)絡(luò)對(duì)單一網(wǎng)格圖像分類準(zhǔn)確率可以達(dá)到95.4%,實(shí)現(xiàn)了多尺寸航拍圖像包含的大部分網(wǎng)格的準(zhǔn)確定位,很好地適應(yīng)了航拍圖像的旋轉(zhuǎn)特性。后續(xù)可以通過擴(kuò)充更多時(shí)間和尺度的數(shù)據(jù)集,來提高卷積特征對(duì)航拍圖像的適應(yīng)能力。