張歡,黃濤,許俊杰,徐川,楊威
(1.湖北工業(yè)大學 計算機學院,武漢 430068;2.武昌首義學院 信息科學與工程學院,武漢 430064)
精細化三維模型作為地理空間信息的重要表征,在智慧城市建設(shè)的城市規(guī)劃、管理和交通等方面發(fā)揮了關(guān)鍵作用,傾斜影像等航空影像因具有大范圍的場景感知能力而成為當前城市精細化三維建模的常用數(shù)據(jù)源。然而,在復(fù)雜城市區(qū)域(如遮擋問題嚴重的高樓密集區(qū)),視角變化、遮擋等因素導(dǎo)致基于航空影像生成的三維模型容易出現(xiàn)邊緣不準確、孔洞以及建筑物立面紋理模糊等問題,因此,單一的空中影像并不具有復(fù)雜的建筑立面表示能力,而地面影像作為空中視角的重要補充,發(fā)展聯(lián)合空地影像的三維建??捎行Ы鉀Q立面紋理模糊和模型孔洞問題。為滿足聯(lián)合空地影像的三維建模需求,首先需要解決空地影像的匹配問題。然而,由于拍攝角度的不同以及光照的差異,導(dǎo)致空地影像間存在較大視角差異以及同名區(qū)域遮擋和畸變問題,給空地影像特征匹配帶來了極大的困難[1-3]。
目前,圖像匹配方法大致可以分為3類,即基于區(qū)域的匹配、基于特征點的匹配以及基于深度學習的匹配。
基于區(qū)域的匹配方法通常采用一個合適的區(qū)域相似性度量策略來進行圖像間的像素級匹配。該類方法計算成本高,對尺度變化及視角變化比較敏感[4-6]。
基于特征點的匹配方法主要通過度量特征描述子的距離來實現(xiàn)特征點匹配,從最初的基于圖像灰度的角點檢測算 法Harris[7]以及SIFT(Scale Invariant Feature Transform)算法[8]開始,特征匹配方法應(yīng)用廣泛,發(fā)展迅速,相繼出現(xiàn)了ORB[9]、PCA-SIFT(Principle Component Analysis SIFT)[10]、SURF(Speed Up Robust Feature)[11]、ASIFT(Affine SIFT)[12]、聯(lián)合對數(shù)極坐標描述與位置尺度特征[13]且局部結(jié)構(gòu)約束的相位一致性匹配[14]等匹配方法。這些方法對尺度、旋轉(zhuǎn)、視角變化有一定的適應(yīng)性,對計算時效性也進行了有效的探索,但是在存有顯著視角差異與畸變的空地影像匹配上,這些方法匹配效果較差甚至匹配失敗。
隨著人工智能的興起,深度學習在圖像匹配中的應(yīng)用越來越廣泛,相繼出現(xiàn)了基于學習的不變特征變換LIFT 方法[15]、基于深層特征匹配的DFM 方法[16]、基于全卷積特 征圖像塊描述 的Siamese 網(wǎng)絡(luò)[17]、基于圖神經(jīng)網(wǎng)絡(luò)的SuperGlue 方法[18]以及聯(lián)合梯度描述符的空天匹配網(wǎng)絡(luò)[19]等方法。借助深度學習強大的特征學習能力,這些方法在視角變化較小時匹配性能較好,但是由于網(wǎng)絡(luò)結(jié)構(gòu)的特殊性以及未充分利用特征信息,導(dǎo)致這些方法對空地影像匹配的泛化性不夠。
空地影像匹配的視角差異及同名區(qū)域遮擋導(dǎo)致匹配識別同名點較少甚至匹配失敗等問題。如何提高空地影像同名區(qū)域的特征提取能力與匹配能力,構(gòu)造空地視角特征的有效描述,實現(xiàn)空地影像穩(wěn)健匹配,具有實際研究與應(yīng)用價值。本文借助深度學習高層的語義特征來構(gòu)建空地特征的可靠描述,以進行粗匹配。利用粗匹配結(jié)果變換地面影像到空中視角,然后在空中視角上進行多層的匹配與優(yōu)化。在此基礎(chǔ)上,提出一種多層漸進式匹配網(wǎng)絡(luò)優(yōu)化的空地影像穩(wěn)健匹配方法(MLFM),以克服空地匹配時存在的視角差異與畸變問題,實現(xiàn)空地影像的魯棒匹配。
DFM[16]作為主流的圖像匹配方法,將預(yù)訓練過的ResNet101 網(wǎng)絡(luò)作為圖像局部特征的提取器,通過融合高層語義特征和低層局部特征來優(yōu)化圖像匹配過程,在傾角差異小的影像上取得了魯棒的匹配效果,成為圖像匹配領(lǐng)域一個新的范式。因此,本文算法借鑒DFM 方法相關(guān)的匹配思想。
空地影像由于拍攝角度的不同以及光照的差異,往往會給圖像匹配任務(wù)帶來同名區(qū)域遮擋和畸變等問題,而遮擋區(qū)域和畸變區(qū)域由于局部鄰域在空中和地面影像的表現(xiàn)形式不一致,因此需要較大的感受野或大尺度特征來捕捉穩(wěn)定的特征描述。而在非遮擋區(qū)域和非畸變區(qū)域,空地影像同名點相同鄰域的特征趨于一致,小尺度特征即可構(gòu)成空地影像間的一致性描述,因此,此時不宜采用過大的尺度特征來進行同名點間的特征描述。為了兼顧小尺度特征和大尺度特征,本文采用能聚合多尺度特征的EfficientNet 預(yù)訓練模型來進行空地影像間的特征描述。EfficientNet 通過對網(wǎng)絡(luò)深度和網(wǎng)絡(luò)寬度的探索,利用一組縮放系數(shù)統(tǒng)一縮放這2 個維度,較好地融合了不同尺度的特征,在ImageNet 數(shù)據(jù)集上的分類Top-1 準確率遠高于相同參數(shù)量級的其他網(wǎng)絡(luò),說明了EfficientNet 具有強大的特征提取能力。
本文提出的MLFM 匹配方法包括3 個步驟:
1)圖像特征圖生成。將待匹配圖像A、B 傳入EfficientNet-B3[16]預(yù)訓練網(wǎng)絡(luò)模型中進行前向傳播,得到圖像A、B 的多層特征圖。
2)高層特征圖粗匹配。首先,對A、B 的高層特征圖進行展平操作,得到特征圖上多通道的所有像素點分數(shù);然后,在多通道特征圖上計算匹配圖像到待匹配圖像上每個像素點的距離并作為相似度匹配結(jié)果,取相似度高的兩組匹配點對,采用最近鄰距離比率的方法進行相似度度量,滿足的點作為初始匹配點保留到同名點集中。
3)多層特征圖匹配與優(yōu)化。首先,在上一步得到的初始匹配點對上計算由圖像B 到A 的單應(yīng)矩陣,在圖像B 上運用該單應(yīng)矩陣得到與A 近似視角的變換圖像C;然后,在多層特征圖上對圖像A 和C進行匹配和優(yōu)化,得到圖像A、C 上精確的匹配點對;最后,運用單應(yīng)矩陣逆變換得到A、B 上的匹配點對,將其作為最終的匹配點集。
本文MLFM 方法整體流程如圖1 所示(彩色效果見《計算機工程》官網(wǎng)HTML 版)。
圖1 多層漸進式匹配網(wǎng)絡(luò)優(yōu)化的空地影像匹配流程Fig.1 Procedure of aerial-ground images matching optimized by multi-layer progressive matching network
2.1.1 高層特征圖生成
由于空地影像間具有顯著的視角變化,導(dǎo)致影像間存在較大的幾何畸變、同名區(qū)域遮擋等問題,從而使得基于梯度主方向的匹配方法效果較差甚至匹配失敗。近年來,卷積神經(jīng)網(wǎng)絡(luò)在圖像分類、圖像分割、圖像去噪等任務(wù)中取得了優(yōu)異的效果,體現(xiàn)了卷積神經(jīng)網(wǎng)絡(luò)強大的特征提取能力,而EfficientNet-B3[20]網(wǎng)絡(luò)作為其中的一員,在ImageNet[21]數(shù)據(jù)集上的分類Top-1 準確率遠高于DenseNet-201[22]、ResNet50[23]等具有復(fù)雜結(jié)構(gòu)的網(wǎng)絡(luò),充分說明輕量化網(wǎng)絡(luò)EfficientNet-B3 具有強大的特征提取和語義理解能力。
考慮到高層特征圖包含充分的語義信息,本文在EfficientNet-B3[20]模型上抽取第7 層作為粗匹配特征圖,用以計算初始的單應(yīng)變換。
2.1.2 特征圖粗匹配
在獲取影像A、B 的第7 層512 通道特征圖FMA、FMB后,對特征圖進行展平操作,獲得特征圖上每個像素點在512 通道上的分數(shù),記為FFP,A、FFP,B,對2 個多通道分數(shù)圖進行相似性匹配,計算分數(shù)圖A 上每個點到分數(shù)圖B 上每個點的分數(shù),如式(1)所示:
式(1)記錄了分數(shù)圖A 上每個點到分數(shù)圖B 上每個點的匹配結(jié)果,值越小,相似度越高,取相似度最高的兩組匹配點對,采用最近鄰距離比率的方法去除匹配置信度低的匹配點對,如式(2)所示:
其中:MMPF,A2B為相似度圖MMP,A2B中匹配相似度最高的匹配點對分數(shù);MMPS,A2B為相似度圖MMP,A2B中匹配相似度次高的匹配點對分數(shù);RA2B為兩者的比值,該值小于預(yù)設(shè)的ratio 值(本文取0.99)時則接受該匹配,否則拒絕該匹配。記圖像A 到圖像B 的匹配點集為PPT,A2B。
用相同的方法計算MMP,B2A和RB2A,進而得到圖 像B 到圖像A 的匹配點集為PPT,B2A。取PPT,A2B和PPT,B2A的交集作為粗匹配最終點集InitP。
漸進式匹配與優(yōu)化可以分為如下3 個環(huán)節(jié):
1)初始單應(yīng)矩陣計算。對粗匹配點集采用RANSAC[24]策略計算初始單應(yīng)變換矩陣。
2)變換圖像匹配。利用計算的初始單應(yīng)矩陣將地面影像轉(zhuǎn)換到近似空中視角的影像上,然后在相同視角下進行特征圖的相似性匹配。
3)多層特征圖匹配與優(yōu)化。在每一層特征圖上都進行當前層特征圖匹配和對上層匹配點集矯正的操作,最終得到準確的匹配點集。
漸進式匹配與優(yōu)化示意圖如圖2 所示。
圖2 漸進式匹配與優(yōu)化示意圖Fig.2 Schematic diagram of progressive matching and optimization
2.2.1 初始單應(yīng)矩陣計算
在得到粗匹配點集后,采用RANSAC[24]算法來計算初始單應(yīng)矩陣。RANSAC[24]算法采用迭代的方式從一組包含錯誤數(shù)據(jù)的被觀測數(shù)據(jù)中估算出數(shù)學模型的參數(shù),其計算公式如式(3)所示:
其中:p表示RANSAC[24]算法模型被接受的概率;ω表示數(shù)據(jù)在內(nèi)點集中的概率,ω取0.99;k表示迭代次數(shù),本文最大迭代次數(shù)取5 000。將RANSAC[24]算法計算得到的單應(yīng)矩陣MInit作為初始變換矩陣。
2.2.2 視角變換圖像匹配
在空地影像匹配上,圖像間存在較大的視角變換,導(dǎo)致同名點間匹配困難。因此,本文利用粗匹配計算的初始變換矩陣將地面影像轉(zhuǎn)換到空中視角上,記圖像為C,然后在同一視角下完成后續(xù)的匹配任務(wù)。
2.2.3 多層特征圖匹配與優(yōu)化
在得到空中視角圖像C后,計算圖像C 的特征圖,記為FMC,然后計算2 個同一視角特征圖在倒數(shù)第2 層到第1 層上的匹配,同樣采用雙向最近鄰匹配策略和最近鄰距離比率的方法來抑制置信度低的匹配點。由于特征圖層數(shù)每減少1層,特征圖長寬則擴大1倍,此時需要上采樣匹配點到上一層進行匹配點糾正,本文采用均化上采樣,可有效平滑上采樣誤差,提高匹配精度,如式(4)所示:
其中:PPts,A,C為圖像A、C 在本層特征圖中的雙向匹配結(jié)果;為本層特征圖在上層特征圖上采樣后得到的匹配點映射。然后,對映射的匹配點進行矯正以及計算本層的匹配點,采用八鄰域矯正,如式(5)所示:
其中:MSA,C(i,j)為匹配分數(shù);FMA(i+m,j+n)為空中影像特征圖上匹配點周圍八鄰域點分數(shù);FMC(i+m,j+n)為視角變換影像特征圖上匹配點周圍八鄰域點分數(shù)。當鄰域中有分數(shù)小于原匹配點分數(shù)時,將最小分數(shù)對應(yīng)的匹配點對作為矯正后的匹配點對,對上層匹配點矯正后,將矯正后的匹配點與本層匹配點同時傳入上層進行匹配與矯正,重復(fù)上述操作,得到最終的置信度高的匹配點集。
為驗證MLFM 方法的性能,將其與當前比較先進的SIFT[8]、D2-net[25]、DFM[16]等方法進行對比,采用同名點匹配數(shù)量(Number of Correct Matches,NCM)、匹配所用時間和均方根誤差(Root Mean Square Error,RMSE)指標來衡量算法性能。本文借鑒已有研究通過仿射變換模型求解影像之間對應(yīng)關(guān)系的思路,保留誤差在3像素內(nèi)的匹配結(jié)果且匹配同名點對不能少于4對。對比算法都在Window10 X64 操作系統(tǒng)下由Python 編譯平臺實現(xiàn),設(shè)備處理器是Intel?CoreTMi7-10510U CPU 2.30 GHz,RAM 為24 GB。
本文選取具有重復(fù)紋理、傾角差異、區(qū)域遮擋和尺度差異等4 種不同模式的8 組空地影像來比較算法的匹配性能。其中,8 組影像均拍攝于湖北武漢的不同建筑,空地影像尺寸均為512 像素,測試圖像如圖3 所示。
將MLFM 方法的匹配性能與SIFT[6]、D2-net[21]、DFM[13]等3 種匹配方法進行對比,匹配結(jié)果如圖4~圖7 所示。
圖5 4 種方法在傾角差異影像上的匹配結(jié)果Fig.5 Matching results of four methods on tilt angle difference images
圖6 4 種方法在區(qū)域遮擋影像上的匹配結(jié)果Fig.6 Matching results of four methods on regional occlusion images
圖7 4 種方法在尺度差異影像上的匹配結(jié)果Fig.7 Matching results of four methods on scale difference images
由圖4~圖7 可知:SIFT 方法在空地影像上的匹配結(jié)果較差,誤匹配點數(shù)量較多,總匹配點數(shù)量少于其他3 種方法,在重復(fù)紋理影像與傾角差異影像上匹配失敗,本質(zhì)上是由于SIFT 方法對特征點的描述基于梯度幅值的大小,而在空地影像中,同名點鄰域梯度幅值變化較大,無法構(gòu)成同名區(qū)域的共性描述,從而導(dǎo)致匹配失??;D2-net 方法對區(qū)域遮擋及尺度變換有一定的適應(yīng)性,在傾角差異和重復(fù)紋理影像匹配中正確匹配點數(shù)較少,該方法在匹配點數(shù)量上與DFM 方法相當,遜色于MLFM 方法;DFM 方法在重復(fù)紋理影像上匹配效果很差,在同名區(qū)域遮擋影像上匹配效果較好,該方法匹配點數(shù)量優(yōu)于SIFT 方法,與D2-net 方法相當,遜色于MLFM 方法,且匹配點分布較為集中;MLFM 方法在上述4 種情況下匹配性能均優(yōu)于其他3 種方法,從整體上看,MLFM 方法匹配點數(shù)多于其他3 種方法,說明了多層漸進式網(wǎng)絡(luò)能更好地捕捉空地影像同名區(qū)域間的共性特征,充分挖掘空地影像中較為重要的語義信息。
在圖像匹配任務(wù)中,通常采用NCM 和RMSE 這2 種指標來衡量匹配算法的性能。本文也采用這2 種指標來進行量化分析,其中,RMSE 的定義如式(6)所示:
表1 統(tǒng)計了4 種方法在8 組空地影像匹配中的NCM 和RMSE 結(jié)果,其中,“/”表示匹配失敗,最優(yōu)結(jié)果加粗標注。
表1 4 種方法對8 組空地影像的定量匹配結(jié)果Table 1 Quantitative matching results of eight groups of aerial-ground images using four methods
由表1 可知:SIFT 方法匹配結(jié)果最差,在重復(fù)紋理影像上匹配失敗,對視角變化和區(qū)域遮擋比較敏感,在傾角差異和區(qū)域遮擋影像上匹配近乎失敗,總體匹配點偏少,平均NCM 為6.38,由此可知SIFT 方法對空地特征的一致性描述能力較差;D2-net 方法優(yōu)于SIFT,平均NCM 較低,生成的匹配點較稀疏,且匹配點集中在相同區(qū)域,可知D2-net 方法對空地特征的描述能力一般,對尺度差異和區(qū)域遮擋適應(yīng)性較差,導(dǎo)致匹配結(jié)果較差,平均NCM 為22;DFM 方法在8 組影像中成功匹配了7組,其中,在區(qū)域遮擋影像上匹配魯棒性較好,可獲取豐富的同名點,但該方法對具有較大尺度差異和重復(fù)紋理的影像對不夠魯棒,且生成的匹配點集中在同一區(qū)域,然而該方法的匹配點對具有較高的精度,平均RMSE 為1.16 像素,平均NCM 為18.57;MLFM 方法在8 組影像中都實現(xiàn)了成功匹配,其在重復(fù)紋理及傾角差異影像上匹配效果較好,平均內(nèi)點數(shù)均多于其他3 種方法,且匹配點分布較為均勻,證明MLFM 方法使用的多層漸進式匹配網(wǎng)絡(luò)可以充分挖掘區(qū)域特征的紋理信息,進而構(gòu)成同名點間魯棒的特征描述,平均NCM 為28.88,高于其他3 種方法,平 均RMSE 為1.29 像素,略遜色于DFM 方法。
綜上,MLFM 方法在重復(fù)紋理、傾角差異、區(qū)域遮擋和尺度差異等情況下均具有較好的魯棒性,平均NCM 是SIFT 方法的4.5倍,是D2-net 方法的1.3倍,是DFM 方法的1.6倍。MLFM 的平均RMSE明顯優(yōu)于SIFT 與D2-net,略遜色于DFM 方法。由此可知,MLFM 方法在空地影像中可實現(xiàn)穩(wěn)健匹配。
為解決空地影像匹配問題,本文提出一種MLFM 方法。首先通過多層漸進式匹配網(wǎng)絡(luò)挖掘空地影像同名區(qū)域的共性特征,然后進行多層特征匹配與優(yōu)化,最終得到準確的匹配點集。實驗結(jié)果表明,在重復(fù)紋理、傾角差異、區(qū)域遮擋和尺度差異等不同模式的空地影像上,與SIFT、D2-net、DFM 等主流圖像匹配方法相比,MLFM 方法取得了更優(yōu)的匹配性能,在重復(fù)紋理和傾角差異等復(fù)雜場景下的魯棒性更強。后續(xù)將提高MLFM 對區(qū)域遮擋和尺度差異的適應(yīng)性,進一步提高算法性能。