任超鋒, 蒲禹池, 張福強(qiáng)
(長安大學(xué)地質(zhì)工程與測繪學(xué)院,西安 710054)
無人機(jī)(unmanned aerial vehicle, UAV)低空攝影測量具有現(xiàn)勢性強(qiáng)、分辨率高、采集方式靈活、傳感器多樣化等優(yōu)點(diǎn),近年來在應(yīng)急測繪[1]、城市三維重建[2]、滑坡地形重建[3]、文物三維重建[4]等領(lǐng)域得到了越來越廣泛的應(yīng)用。然而,由于低空UAV一般搭載非量測相機(jī),且受平臺不穩(wěn)定性及傳感器多樣化等諸多因素影響,獲取的影像尺度不一致,且數(shù)據(jù)量龐大,為影像匹配帶來極大挑戰(zhàn)。此外,近年來新興的仿地飛行、環(huán)繞飛行、貼近飛行等數(shù)據(jù)獲取方式,更使傳統(tǒng)的影像匹配方法難以滿足需求。
影像匹配作為三維自動重建的基礎(chǔ)環(huán)節(jié),其效率與穩(wěn)健性對重建結(jié)果起著決定性作用。尤其針對復(fù)雜地形條件下的三維重建,能夠獲取的有效匹配像對越多,影像連接成功的概率也越高。總體上可將其分為2個環(huán)節(jié): ①提取匹配像對,即從大數(shù)據(jù)量的遙感影像中按照一定方法提取具有重疊區(qū)的一對影像; ②按照影像匹配算法對提取的像對進(jìn)行雙像匹配提取匹配像對,獲取同名點(diǎn)列表。近年來,針對多角度、大傾角的無人機(jī)影像,文獻(xiàn)[5-7]在尺度不變特征變換(scale-invariant feature transform,SIFT)[8]和仿射尺度不變特征變換(affine-scale-invariant feature transform, ASIFT)[9]算法基礎(chǔ)上提出了相應(yīng)的匹配策略,同時借助圖形處理器(graphics processing unit, GPU)[10]并行運(yùn)算,這一類方法均可快速完成像對的同名點(diǎn)匹配。然而,如何從大量影像中提取匹配像對的研究還處于比較初級的研究階段。
在UAV影像匹配像對提取方面,文獻(xiàn)[11-12]采用窮舉遍歷策略,對影像集中任意兩兩影像進(jìn)行匹配。該類方法可靠性最高,但存在大量盲目的無效運(yùn)算,效率太低; 文獻(xiàn)[13]利用影像初始地理位置信息,計算當(dāng)前影像與其相鄰影像的空間距離,進(jìn)而采用固定閾值范圍內(nèi)的像對進(jìn)行匹配; 文獻(xiàn)[14]則通過動態(tài)搜索的方法確定閾值,提高了匹配的可靠度,但當(dāng)測區(qū)內(nèi)存在多層次、不同分辨率的UAV影像時,其獲取的搜索閾值無法保證為全局最優(yōu)值; 文獻(xiàn)[7,15-16]則利用影像的定位定向系統(tǒng)(positioning and orientation system, POS)測量數(shù)據(jù)、傳感器結(jié)構(gòu)設(shè)計參數(shù)及內(nèi)方位元素、測區(qū)地形信息等先驗知識,計算每張影像的腳印圖,進(jìn)而利用腳印圖的拓?fù)潢P(guān)系,判定像對是否具有重疊區(qū)。由于該類方法計算量小,且對常規(guī)數(shù)據(jù)獲取方式具有較好的適應(yīng)性,因此是目前低空UAV影像匹配像對提取的主要方法。然而,從原理可知,該類方法高度依賴先驗知識的準(zhǔn)確性,因此,當(dāng)測區(qū)地形信息不確定(如滑坡、山谷、獨(dú)立地物等)、或者傳感器設(shè)計參數(shù)無法準(zhǔn)確得知時(如多鏡頭傾斜相機(jī)、組合傾擺相機(jī)),該類方法便無法準(zhǔn)確計算出像對的相關(guān)性。文獻(xiàn)[17]則從影像內(nèi)容信息出發(fā),利用提取的特征信息構(gòu)建視覺詞袋(bag of visual words, BoW)模型,進(jìn)而利用影像檢索方式確定待匹配像對; 文獻(xiàn)[18]在生成BoW模型過程中,計算海明嵌(hamming embedding, HE)來提升影像檢索的準(zhǔn)確度; 文獻(xiàn)[19]則提出了一種霍夫投票算法加速影像檢索過程。由于這類方法一般面向的都是無序、無地理信息的網(wǎng)絡(luò)圖像數(shù)據(jù),其檢索結(jié)果與影像是否具有重疊區(qū)沒有明確關(guān)系,且計算量過大,難以直接使用。
針對上述問題,本文提出一種顧及影像地理空間信息的BoW模型方法來確定待匹配像對,對地形條件、影像獲取方式、傳感器類型均無限制條件,進(jìn)而減少影像匹配過程中的冗余計算,以解決UAV影像匹配像對的高效、準(zhǔn)確提取問題。
本文提出的UAV影像匹配像對提取方法流程為: ①按照文獻(xiàn)[8]和[10]所述方法,依次完成測區(qū)所有影像的SIFT特征提??; ②為了提高影像檢索效率,對提取的SIFT特征進(jìn)行降維,降低生成視覺詞匯樹的運(yùn)算量; ③采用文獻(xiàn)[20]方法,利用降維后的特征向量構(gòu)建視覺詞匯樹; ④檢索所有影像,并計算詞匯樹內(nèi)單詞的檢索權(quán)重; ⑤在詞匯樹內(nèi),查詢與當(dāng)前影像最相似的影像列表,并計算其與查詢列表內(nèi)影像的空間距離指數(shù),綜合相似指數(shù)與空間距離指數(shù)對檢索列表進(jìn)行排序,最后利用綜合指數(shù)計算查詢深度閾值,將閾值之前的查詢影像與當(dāng)前影像組合形成匹配像對。具體方法流程如圖1所示。
圖1 顧及地理空間信息的UAV影像匹配像對提取方法流程
SIFT算法以其尺度、旋轉(zhuǎn)不變性并能克服一定程度仿射變形和光照變化得以在影像匹配領(lǐng)域得到廣泛使用[7],但原始的SIFT特征包含128維特征向量,若將其直接用于影像檢索,會產(chǎn)生大量的高維度運(yùn)算,造成影像檢索效率過低。因此,本文采用主成分分析(principal component analysis, PCA)方法對高維度的SIFT特征向量進(jìn)行降維。
將構(gòu)建視覺詞匯樹的m個SIFT特征組成矩陣Xm×128,按照PCA原理對其進(jìn)行奇異值分解 (singular value decomposition, SVD),即
(1)
式中:U和V分別為m階和128階正交矩陣;Wm×128為r個降序排列的特征值σi(i=1,2,…,r)構(gòu)成的m×128矩形對角矩陣。
(2)
將降維后的SIFT特征進(jìn)行聚類,聚類的過程即為構(gòu)建視覺詞匯樹過程。聚類之后,每一個聚類中心表示為一個視覺單詞,一幅影像可以表示為多個視覺單詞的無序集合,此時,UAV影像之間的相似性判定即可轉(zhuǎn)變?yōu)橐曈X單詞之間的相似性判定。
本文采用文獻(xiàn)[20]的方法構(gòu)建層次詞匯樹,同時采用詞頻逆文檔頻率(term frequency-inverse document frequency, TF-IDF)評價某一個視覺單詞對于視覺詞匯樹中某一影像的重要程度,其定義為:
(3)
式中:ft為詞頻;fid為逆文檔頻率;nip為影像p中出現(xiàn)視覺單詞i的數(shù)量;np為影像p中出現(xiàn)的所有視覺單詞數(shù)量;N為影像總體數(shù)量;ni為包含視覺單詞i的影像數(shù)量。
詞頻ft表達(dá)了某個視覺單詞在影像中的出現(xiàn)頻率,而逆文檔頻率fid則表達(dá)了該視覺單詞在其他影像上的重復(fù)頻率,兩者組合之后可將視覺單詞的重要性隨著它在影像文件中出現(xiàn)的頻率呈正比增加,同時也會隨著它在視覺詞典中出現(xiàn)的頻率呈反比下降。
當(dāng)視覺詞匯樹創(chuàng)建完成后,依次檢索數(shù)據(jù)集中每一幅影像中視覺單詞的出現(xiàn)頻率。檢索完成之后,即可計算其TF-IDF因子。此時,每一幅影像均可表示為一組帶不同權(quán)重的視覺單詞組合。評價2幅影像是否相似,即可通過計算2幅影像的單詞向量點(diǎn)積完成,公式為:
(4)
相似因子只是評價2幅影像所含視覺單詞的相似性,在大部分情況下,具有相似內(nèi)容的影像一般也具有重疊區(qū)。然而,當(dāng)?shù)乇眍愋捅容^單一時(如大片田地、灌木、裸露山地),相似的區(qū)域并非一定具有重疊區(qū)。此時,若將影像之間的空間距離作為影響因素參與評價,則可大大提高兩者之間的相關(guān)性。圖2為反距離權(quán)重因子示意圖。
圖2 反距離權(quán)重因子
如圖2所示,當(dāng)前影像Ii與查詢影像Ij之間空間距離越近,則其存在重疊區(qū)的可能性越高。因此,本文計算當(dāng)前影像與相似影像列表之間的反距離權(quán)重因子,用以評價兩者之間的空間相關(guān)性,公式為:
(5)
(6)
查詢深度是指以綜合權(quán)重因子為依據(jù),在影像集合中查詢出與當(dāng)前影像相似性最高的前Q張影像,組成待匹配像對,如圖3所示。
圖3 查詢深度閾值
圖3中,查詢影像Ii與查詢深度Q共組成Q對像對進(jìn)行匹配。實際處理過程中,Q值過小會造成漏檢,而Q值過大則會引入大量無效匹配像對,降低匹配效率。因此,本文采用查詢深度閾值的方式對查詢深度進(jìn)行分割,僅將閾值前的影像與查詢影像組成匹配像對進(jìn)入匹配環(huán)節(jié)。閾值計算公式為:
(7)
式(7)以類間方差最大為原則,將Q內(nèi)的影像分為前景與背景2部分。式中:N1為屬于閾值t之前的影像數(shù)量;w1和w2分別為前景和背景的影像頻率;μ1為閾值t之前影像的綜合因子平均值;μ2為閾值t之后的影像綜合因子平均值;g表示前景影像與背景影像之間的類間方差。在查詢深度內(nèi),類間方差最大對應(yīng)的位置即為查詢閾值t*,公式為:
(8)
為驗證本文方法在多采集方式、多傳感器類型、多地形條件下提取匹配像對的可行性、精度與效率,共收集了5組實驗數(shù)據(jù)進(jìn)行實驗。數(shù)據(jù)集的詳細(xì)信息如表1所示。
表1 試驗無人機(jī)數(shù)據(jù)集
基于Windows10 64位操作系統(tǒng),采用VC++2015開發(fā)了海量UAV影像自動空三處理軟件MRI,用于測試本文方法的適應(yīng)性。硬件平臺為Dell Precision 3630工作站,CPU i7-8700K 3.7 GHz,內(nèi)存64 G DDR4,硬盤512 G SSD,顯卡為英偉達(dá) Titan XP 12 G。
為了評價低維特征對影像檢索效率及精度造成的影響,對表1中5組影像提取的原始128維特征向量進(jìn)行降維,分別降至96維、64維、32維,并按照文獻(xiàn)[19]方法對影像進(jìn)行檢索。檢索過程中,生成詞匯樹的聚類中心數(shù)量統(tǒng)一設(shè)置為影像數(shù)量的200倍,檢索深度統(tǒng)一設(shè)置為100,構(gòu)建詞匯樹的影像從數(shù)據(jù)集中隨機(jī)提取,其數(shù)量設(shè)置為數(shù)據(jù)集影像數(shù)量的20%,且最大影像數(shù)量不超過500幅。評價檢索方法精度時,首先采用窮舉法完成5組影像匹配,然后以其匹配結(jié)果為基準(zhǔn),評價其他檢索方法的查詢精度。
評價影像查詢精度通常采用查準(zhǔn)率和查全率(圖4)。查準(zhǔn)率通過計算查詢深度內(nèi)正確的查詢影像與查詢深度的比值構(gòu)成,它反映了查詢過程中正確像對的比例,查準(zhǔn)率越低,意味著匹配環(huán)節(jié)引入錯誤匹配像對數(shù)量越高,相應(yīng)的匹配耗時也越高。查全率則通過計算查詢深度內(nèi)正確的查詢影像與窮舉法匹配中得到的所有正確影像數(shù)量比值構(gòu)成,它反映了當(dāng)前特征條件下,能提取到的匹配像對的完整度,查全率越低,意味著稀疏重建時的可靠性越低,容易丟片。因此,查準(zhǔn)率與查全率之間相互制約,在查全率相當(dāng)?shù)那疤嵯?,查?zhǔn)率越高,則算法的效率越高。除了計算128維、96維、64維、32維特征的檢索精度外,按照本文方法分別計算32維和64維的綜合檢索因子檢索精度,分別用32G和64G表述。從圖4(a)中可知,總體上,影像查詢的查準(zhǔn)率隨著特征維度降低而遞減,當(dāng)特征維度降到32維時,其影像查準(zhǔn)率明顯降低。反觀圖4(b),此時的查全率卻最高。其原因主要是32維的影像特征丟失了過多的細(xì)節(jié)信息,使特征之間的可分性降低,在引入大量錯誤匹配像對基礎(chǔ)上,也將大量弱連接的像對引入匹配環(huán)節(jié)。雖然提升了整體的查全率,但后續(xù)的匹配環(huán)節(jié)效率太低。因此,綜合考慮效率與精度,將特征降低至64維進(jìn)行影像檢索是合適的。
(a) 查準(zhǔn)率 (b) 查全率
表1中的5個測試數(shù)據(jù)集,數(shù)據(jù)A和B為正射類型,數(shù)據(jù)C,D,E可歸為傾斜類型。正射類型中,隨著特征維度降低,其查準(zhǔn)率和查全率均緩慢降低,而本文的綜合查詢因子方法在相同特征維度條件下,均獲得了最高的查準(zhǔn)率和查全率。為了分析綜合查詢因子的計算過程,從數(shù)據(jù)集B中提取一張影像在64維和64G模式下的查詢因子曲線進(jìn)行說明,其結(jié)果如圖5所示。
圖5 相似因子與綜合因子曲線
圖5中,相似因子曲線在前端具有明顯差異,后端則趨于平坦,不具有明顯的可分性。而且,在常規(guī)相似因子曲線中,查詢曲線后端還包含大量正確的檢索影像。而采用本文綜合因子的曲線,正確的檢索影像大部分集中在查詢曲線的前端。
圖6即為圖5的部分查詢影像,其中圖6(a)為當(dāng)前查詢影像,圖6(b)為采用64維傳統(tǒng)相似因子的查詢影像,在曲線中索引位置為21,按照傳統(tǒng)相似因子判定依據(jù),圖6(a)和(b)將會組成待匹配像對進(jìn)入匹配環(huán)節(jié)。然而,從影像內(nèi)容分析,雖然兩者之間存在大量相似的林木區(qū)域,但卻不具有重疊區(qū),因此,內(nèi)容相似的影像并非一定具有重疊區(qū)。通過計算綜合查詢因子,圖6(b)所代表的影像已不在綜合查詢曲線內(nèi),而原本不在傳統(tǒng)查詢曲線內(nèi)的圖6(c)影像進(jìn)入了綜合查詢曲線。因此,綜合查詢因子不僅可以有效剔除錯誤像對,還能將遺漏的部分影像納入影像匹配環(huán)節(jié)。此外,通過式(7)計算得到的查詢閾值,將大量錯誤的影像剔除匹配環(huán)節(jié),進(jìn)一步提高了查詢過程的查準(zhǔn)率。
(a) 當(dāng)前查詢影像(b) 采用64維傳統(tǒng)相似因子的查詢影像(c) 遺漏的待匹配影像
與正射類型數(shù)據(jù)不同,圖4中的傾斜影像數(shù)據(jù)C,D和E呈現(xiàn)超高的查準(zhǔn)率和超低的查全率,且查全率隨著特征維度降低不降反升。通過分析實驗數(shù)據(jù)發(fā)現(xiàn),其原因主要在于數(shù)據(jù)類型的差異。通常情況下,正射攝影方式獲取的UAV數(shù)據(jù),其影像重疊度一般不超過50,即一個地物點(diǎn)可在50張影像上成像。而傾斜影像不同,其影像重疊度一般超過200。此時,將Q設(shè)置為100將使查詢出的大部分影像都為正確的匹配影像,即查詢結(jié)果表現(xiàn)為超高的查準(zhǔn)率。而大量的正確匹配像對由于查詢深度限制并未提取出來,從而造成了超低的查全率。
表2中依次設(shè)置Q為100,200和300時,對數(shù)據(jù)C,D,E的查詢精度進(jìn)行統(tǒng)計,隨著查詢深度的增加,傾斜類型數(shù)據(jù)的查準(zhǔn)率逐漸降低,而查全率得到大幅提升,并且本文方法均取得最高的查準(zhǔn)率和查全率。因此,針對傾斜類型的查詢深度設(shè)置應(yīng)不小于200。
表2 不同查詢深度的查準(zhǔn)率和查全率
查詢過程中會產(chǎn)生很多重復(fù)查詢像對,而最終進(jìn)入匹配環(huán)節(jié)的則是剔除重復(fù)像對之后的像對列表。因此,為了綜合評價本文方法效率,特將匹配像對提取耗時歸入影像匹配環(huán)節(jié)。此外,為便于比較分析,分別實現(xiàn)了基于腳印圖的影像檢索[7]、基于128維傳統(tǒng)影像檢索[17]以及本文顧及地理空間信息的64維特征影像檢索3種匹配像對提取方法,針對傾斜影像數(shù)據(jù)C,D,E,其查詢深度統(tǒng)一設(shè)置為200,稀疏重建采用增量式重建,統(tǒng)計結(jié)果如表3所示。采用本文方法進(jìn)行稀疏重建的結(jié)果如圖7所示。
表3 稀疏重建的效率、完整性及精度
(a) 數(shù)據(jù)A(b) 數(shù)據(jù)B
(c) 數(shù)據(jù)C(d) 數(shù)據(jù)D
(e) 數(shù)據(jù)E
為了綜合評價不同方法之間的匹配效率,本文將構(gòu)建詞匯樹、構(gòu)建索引、影像檢索及雙像匹配耗時相加,統(tǒng)稱為匹配時間。從表3中可知,針對正射影像數(shù)據(jù)A和B而言,傳統(tǒng)的腳印圖法匹配效率最高。而128維特征檢索方法效率最低,且穩(wěn)定性也不足。比如數(shù)據(jù)A中,相較于其他2種方式,128維特征的稀疏重建結(jié)果丟失了10幅影像,而丟失的影像基本都處于影像紋理匱乏的測區(qū)邊緣區(qū)域,說明單純依靠紋理特征的相似性判定像對是否具有重疊區(qū)并不嚴(yán)密。而針對傾斜類型的數(shù)據(jù)C,D,E而言,本文方法的效率、穩(wěn)定性最高。如圖7(c)所示,數(shù)據(jù)C由于地形條件限制,其航線設(shè)計比較混亂,且包含了正射、貼近2種攝影方式。傳統(tǒng)的腳印圖方法沒法準(zhǔn)確估算貼近攝影方式的腳印圖,所以最終獲取的稀疏重建結(jié)果丟片比較嚴(yán)重,且主要集中在測區(qū)右上角,即貼近方式獲取的影像區(qū)域,而128維、64G檢索方法則成功將大部分貼近方式獲取的影像連接成功。此外,本文的64G模式獲得了最完整的稀疏重建結(jié)果。當(dāng)數(shù)據(jù)量增多時,本文方法的匹配效率優(yōu)勢更加明顯。與腳印圖方法相比,數(shù)據(jù)C,D,E的匹配效率分別提升了15.16%,23.27%,45.25%,而與傳統(tǒng)128維檢索方法相比,其匹配效率分別提升了39.66%,61.00%,51.73%。
綜上所述,本文方法的優(yōu)勢可歸納為以下3點(diǎn): 第一,適應(yīng)性最高。不需要傳感器的先驗知識,對場地類型及數(shù)據(jù)獲取方式也無限制。第二,通過綜合查詢因子,提高了匹配效率及精度,尤其適合海量UAV數(shù)據(jù)的匹配像對提取。第三,檢索深度與影像類型相關(guān)。正射類型的影像數(shù)據(jù),查詢深度設(shè)置為100即可,傾斜類型的數(shù)據(jù),查詢深度應(yīng)不小于200。結(jié)合處理效率、重建結(jié)果的完整性、算法的適應(yīng)性等結(jié)果對比,本文提出的顧及地理空間信息的UAV影像匹配像對提取方法更具優(yōu)勢。
本文針對UAV影像匹配像對的提取問題,將高維度的特征降維至低維特征,同時引入影像之間的空間信息構(gòu)建綜合查詢因子,并通過計算檢索閾值,舍棄檢索深度內(nèi)的無效匹配像對,獲得了較高的效率及全面的重建結(jié)果。
利用5種不同類型的數(shù)據(jù)進(jìn)行實驗與分析,結(jié)果表明,與前人已提出的腳印圖法相比,前2種常規(guī)類型的單相機(jī)正射影像數(shù)據(jù)匹配效率并未提高,而后3種多相機(jī)傾斜影像數(shù)據(jù)匹配效率分別提升了15.16%,23.27%和45.25%。與傳統(tǒng)128維檢索方法相比,5種數(shù)據(jù)的效率分別提升了46.29%,38.66%,39.66%,61.00%和51.73%。此外,本文方法僅需影像的空間位置信息,更適合數(shù)據(jù)量較大的傾斜影像,具有更好的適應(yīng)性。
本文方法還需改進(jìn)的地方在于,遺漏了少量正確的待匹配像對,其對三維重建結(jié)果的影響還需進(jìn)一步評定。