萬 杰,Alper YILMAZ
1. 北京大學(xué)地球與空間科學(xué)學(xué)院遙感與地理信息系統(tǒng)研究所,空間信息集成與3S工程應(yīng)用北京市重點(diǎn)實(shí)驗(yàn)室,北京 100871; 2. 俄亥俄州立大學(xué)土木與環(huán)境工程系, 美國 俄亥俄 43210
基于影像的三維重建是攝影測量學(xué)、機(jī)器人、同步定位和構(gòu)圖及文物保護(hù)等領(lǐng)域的研究熱點(diǎn)?;诙S影像的三維重建主要包含兩個主要步驟,如圖1所示。第一個步驟是從運(yùn)動恢復(fù)結(jié)構(gòu)(structure from motion,SfM)。通過特征提取算法提取影像上的特征點(diǎn),計算影像上同名像點(diǎn)對,計算相機(jī)間的相對運(yùn)動從而獲取到相機(jī)的外方位元素和重建稀疏點(diǎn)云。第二個步驟是影像的多視角立體匹配?;诘谝粋€步驟后獲取到的圖像內(nèi)外方位元素,采用立體匹配算法獲取稠密的三維點(diǎn)云。本文不展開討論這部分內(nèi)容。
圖1 標(biāo)準(zhǔn)的三維重建流程Fig.1 The standard 3D reconstruction pipeline
SfM的主要過程如下。首先通過特征提取算法在影像上提取興趣點(diǎn),通過不同的特征描述符算法對以興趣點(diǎn)為中心的圖像塊進(jìn)行描述,比如SIFT[1]、SURF[2]、ORB[3]和BRISK[4]。然后通過比較興趣點(diǎn)的描述符,從而獲取到影像上的初始同名像點(diǎn)對。這些初始的同名像點(diǎn)對中包含了一部分錯誤的同名像點(diǎn)對。根據(jù)影像間的單應(yīng)矩陣或基礎(chǔ)矩陣表征的像點(diǎn)間的對應(yīng)關(guān)系,通過RANSAC算法剔除影像間的錯點(diǎn),保留正確的同名像點(diǎn)對。通過相對定向,依據(jù)同名像點(diǎn)對獲取相機(jī)間的相對位置和朝向。最后,光束法平差被用來優(yōu)化相機(jī)的位置和姿態(tài)。這整個過程被稱為SfM。SfM可分為增量SfM和全局SfM。其中,前者是指逐一計算相機(jī)的姿態(tài),后者是同時計算所有相機(jī)的姿態(tài)[5]。
圖像匹配是整個SfM階段中最耗時的部分。主要原因是特征和描述符的提取以及描述符的匹配本身就是非常耗時,比如攝影測量中常用的經(jīng)典SIFT算子。為了提高特征提取匹配的效率,文獻(xiàn)[6]提出了基于GPU的SIFT算子。但是圖像匹配耗時的另外一個原因是通常情況下圖像間匹配是窮舉匹配,比如常見的開源軟件Bundler[7]、VisualSFM[8]和MVE[9]等。當(dāng)二維影像是高分辨率影像時,直接使用圖像的特征來逐一進(jìn)行所有圖像對的特征匹配的效率非常低。在攝影測量中,許多工程在獲取影像的同時也會獲取GPS數(shù)據(jù)。這種情況下圖像間的關(guān)系表可以通過GPS數(shù)據(jù)來估計,從而避免窮舉匹配。
隨著計算機(jī)性能的不斷提升及大數(shù)據(jù)時代的到來,深度學(xué)習(xí)技術(shù)已經(jīng)在計算機(jī)視覺、自然語言處理和語音識別等領(lǐng)域取得了巨大的成功[10]。深度學(xué)習(xí)是由多層神經(jīng)網(wǎng)絡(luò)構(gòu)成。神經(jīng)網(wǎng)絡(luò)中的一層,就是一個線性變換加上一個簡單的非線性操作,而多層神經(jīng)網(wǎng)絡(luò)就是多個簡單的非線性函數(shù)的組合。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)是深度學(xué)習(xí)中神經(jīng)網(wǎng)絡(luò)的一種,已大量用于檢測、分割、物體識別及圖像處理的各個領(lǐng)域。Fischer(arXiv Preprint arXin:1405.5769,2014)通過比較CNN特征和SIFT特征,發(fā)現(xiàn)通過AlexNet[11]提取的特征描述符遠(yuǎn)遠(yuǎn)超過SIFT。AlexNet神經(jīng)網(wǎng)絡(luò)是在包含有超過1400萬張影像的數(shù)據(jù)集上訓(xùn)練而成。在沒有大量的數(shù)據(jù)集時,需要采用遷移學(xué)習(xí)。遷移學(xué)習(xí)是指把在特定的數(shù)據(jù)集上訓(xùn)練好的模型運(yùn)用到新的領(lǐng)域中,它可以解決訓(xùn)練樣本不足的問題[12]。本文提出了基于遷移學(xué)習(xí)的深度卷積特征的影像關(guān)系表創(chuàng)建方法。
圖像匹配是SfM過程中非常耗時的階段。如果采用窮舉匹配,那么整個過程的計算復(fù)雜度約為O(n2),其中n為影像數(shù)。為解決影像對匹配耗時的問題,文獻(xiàn)[13]在2011年提出了基于SIFT特征的詞匯樹算法。該算法通過層次K均值樹來量化每張影像上提取到的特征描述符,通過TD-IDF對特征進(jìn)行加權(quán),用于描述每張影像。通過影像檢索的方式避免窮舉匹配。文獻(xiàn)[14]通過一個包含1600萬視覺單詞的視覺字典把所有的影像轉(zhuǎn)化到一個逆文件上,進(jìn)而區(qū)分出有連接關(guān)系的圖像像對。為了提高詞匯書構(gòu)建的效率,文獻(xiàn)[15]提出了基于GPU的多層詞匯樹構(gòu)建影像關(guān)系表方法。最近開源的COLMAP[16]上為避免窮舉匹配,提出一種在圖像檢索時,構(gòu)建詞匯樹,并使用Vote-and-Verify策略[17]。這類方法本質(zhì)上均屬于通過構(gòu)建視覺字典,然后通過圖像檢索來避免無效匹配的方法。
回環(huán)檢測是同步定位和構(gòu)圖領(lǐng)域的研究問題,其是解決移動機(jī)器人的閉環(huán)重定位,提高系統(tǒng)穩(wěn)定性的必要步驟。雖然,構(gòu)建影像關(guān)系表和回環(huán)檢測是兩個不同領(lǐng)域的問題,但二者有一定的相似性,均可以計算影像的相似度。因此,了解回環(huán)檢測的研究現(xiàn)狀有助于研究影像關(guān)系表的構(gòu)建。其中大量的方法是通過提取影像上的特征,構(gòu)建視覺字典,然后通過概率模型來實(shí)現(xiàn)回環(huán)檢測。該類方法可以統(tǒng)稱為詞袋法(bag-of-visual-words,BoVW)[18-20]。其中,DBoW2[20]是目前最先進(jìn)的SLAM系統(tǒng)之一,ORB-SLAM2[21]上所采用的回環(huán)檢測方法。隨著深度學(xué)習(xí)的涌現(xiàn),有研究人員利用深度學(xué)習(xí)的方法來解決回環(huán)檢測的問題。文獻(xiàn)[22]提出利用多層的自編碼器來表征影像特征,然后通過自編碼器提取的特征計算影像間的相似度。文獻(xiàn)[23]提出利用已經(jīng)訓(xùn)練好的深度學(xué)習(xí)模型OverFeat的全鏈接層的信息表征影像特征,進(jìn)而計算影像的相似度。通過設(shè)置閾值來計算回環(huán)檢測。
受深度學(xué)習(xí)及SLAM回環(huán)檢測領(lǐng)域的研究啟發(fā),本文提出基于遷移學(xué)習(xí)的深度卷積層特征的影像關(guān)系表創(chuàng)建方法。
目前主流的開源SfM和SLAM系統(tǒng)均采用基于視覺字典的方法來創(chuàng)建影像關(guān)系,本文則提出基于VGG網(wǎng)絡(luò)的卷積層特征來創(chuàng)建影像關(guān)系表方法。本文算法的流程如圖2所示。首先用已經(jīng)在ImageNet上訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)VGG提取給定影像的三維特征圖,然后對特征圖進(jìn)行操作,提取其卷積層特征,根據(jù)提取的特征,計算影像間的相似度。通過計算每一張影像和其余所有影像的相似度,這樣可以獲取數(shù)據(jù)集的相似性矩陣,通過設(shè)置閾值,獲取影像的關(guān)系表。
圖2 基于遷移學(xué)習(xí)的深度卷積層特征的影像相似度計算流程Fig.2 Flowchart of image similarity calculation based on deep convolutional features through transfer learning
VGG網(wǎng)絡(luò)是牛津大學(xué)的Simonyan在2014年提出的卷積神經(jīng)網(wǎng)絡(luò),并在該年ImageNet的定位和分類比賽中分別排名第一和第二。與之前的模型相比,該模型加寬和加深了網(wǎng)絡(luò)結(jié)構(gòu),它的核心是5組卷積操作,每二組之間采用2×2最大池化(max pooling)空間降維。同一組內(nèi)采用多層次連續(xù)的3×3卷積,卷積核的數(shù)目由開始的64層變?yōu)樽詈蟮?12層卷積核,同一組內(nèi)的卷積核的數(shù)目是一樣的。卷積層之后是兩個結(jié)點(diǎn)數(shù)為4096的全連接層,最后一層為結(jié)點(diǎn)數(shù)為1000的分類層。由于每組內(nèi)卷積層的不同,因此,VGG模型有11、13、16和19層等多種模型結(jié)構(gòu)。16層和19層網(wǎng)絡(luò)的VGG模型的性能明顯優(yōu)于11層和13層網(wǎng)絡(luò)的模型,但二者的性能區(qū)別不大(arXiv preprint arXiv:1409.1556,2014)。對于一張分辨率為224的3通道圖像,其總參數(shù)超過138萬個。本文在這里選用VGG-16的網(wǎng)絡(luò)模型,其模型結(jié)構(gòu)如下圖3所示。
圖3 VGG-16網(wǎng)絡(luò)的模型結(jié)構(gòu)Fig.3 The structure of VGG-16 network model
VGG-16網(wǎng)絡(luò)的每一層均可以用來表達(dá)圖像。最初研究人員利用第一層全連接層特征表達(dá)圖像[24-25]。卷積神經(jīng)網(wǎng)絡(luò)全連接層特征在各種圖像分類和檢索的領(lǐng)域中都比傳統(tǒng)的手工設(shè)計的SIFT和SURF等算子提取的特征要好。隨后,研究人員發(fā)現(xiàn)在圖像檢索領(lǐng)域,最后一層卷積層后的池化層表達(dá)的特征比全連接層的特征效果要好,因?yàn)榫矸e層仍然保留了圖像原始的空間語義信息[26](arXiv preprint arXiv:1511.05879,2015)。因此,本文選用了VGG網(wǎng)絡(luò)中第13層后的池化層后的特征作為圖像的特征表達(dá),具體計算方法如下。
假定ζ∈R(K×W×H)是從第l層網(wǎng)絡(luò)中提取的三維特征張量。其中,K是卷積核的數(shù)目,W和H分別是特征張量的空間維度。顯然,W和H的值依賴于原始影像的大小。如果定義ζkij為在第k個卷積核上空間位置(i,j)的特征。
(1) 和池化。首先,采用和池化作為該卷積核的深度特征。第l層網(wǎng)絡(luò)上的第k個卷積核表征的圖像特征則可以定義為
(2) 基于和池化特征的圖像表達(dá)。包含有K個卷積核網(wǎng)絡(luò)的第l層網(wǎng)絡(luò)中的圖像特征則可以表達(dá)為
Il={V1,…Vk,…VK}=
k∈(1,K)
然后,把圖像特征歸一化,則可以得到歸一化圖像特征:
k∈(1,K)
假定兩張影像i、j的深度特征分別為Ii和Ij,本文采用兩個向量間的夾角的余弦來衡量兩個特征的相似度S(i,j)
式中,θ為兩向量間的夾角。計算每張影像和其余所有影像的相似度,這樣就獲取了整個數(shù)據(jù)集的相似性矩陣。因?yàn)槊繌堄跋癫豢赡芘c其余所有影像都有重疊關(guān)系,通過設(shè)置閾值,即設(shè)置每張影像和剩余多少張影像有重疊區(qū)域。本文把閾值設(shè)置為10,即每張影像和其相似度最大的10張影像構(gòu)成影像關(guān)系表。
本文選取了兩組數(shù)據(jù)來驗(yàn)證本文提出的方法的有效性。兩組數(shù)據(jù)的基本情況如下表1所示。第1組數(shù)據(jù)Urban來自武漢某公司,該數(shù)據(jù)集包含387張分辨率為4608×2592像素的DMC-GH4影像。該影像集均為俯視圖。該次飛行試驗(yàn)共包括9條航帶。數(shù)據(jù)的航向重疊度和旁向重疊度分別約為75%和65%。該試驗(yàn)的無人機(jī)的軌跡符合攝影測量中的作業(yè)規(guī)范,相鄰攝站的間距較為一致。該試驗(yàn)場地主要包含裸地、草地、道路、房屋和湖泊等。第2組數(shù)據(jù)來自蘇黎世理工大學(xué)的South Building數(shù)據(jù)集[15]。該數(shù)據(jù)集為128張高分辨率的DMC-TZ3影像。相機(jī)圍繞著北卡羅納大學(xué)教堂山分校的South Building建筑進(jìn)行拍攝,該影像集均為側(cè)視圖。攝站間沒有很強(qiáng)的規(guī)律性。該試驗(yàn)場地主要包含房屋和植被。
表1 兩組試驗(yàn)數(shù)據(jù)
利用商業(yè)軟件Agisoft LLC公司發(fā)布的軟件Photoscan生成的兩組數(shù)據(jù)的軌跡和相機(jī)的位置信息如圖4所示。可以發(fā)現(xiàn)Urban數(shù)據(jù)集相機(jī)的分布呈現(xiàn)明顯的規(guī)律性,相機(jī)拍攝地點(diǎn)均勻地分布在9條軌跡上。而South Building數(shù)據(jù)集的相機(jī)分布則沒有明顯的規(guī)律,整個數(shù)據(jù)集由兩次分布疊合而成。
(圓點(diǎn)表示相機(jī)的相對位置,線段表示無人機(jī)的軌跡。)圖4 試驗(yàn)中兩組數(shù)據(jù)Fig.4 The top view of camera distributions in the experiments
本文將利用基于深度卷積特征創(chuàng)建的影像關(guān)系表(為方便表述,將本文提出的方法簡稱為DCF)同目前最先進(jìn)的SLAM系統(tǒng)ORB-SLAM2中的DBoW3算法的結(jié)果進(jìn)行了對比。為進(jìn)一步驗(yàn)證關(guān)系表能夠適用于SfM,本文使用開源軟件MicMac[27]比較了窮舉匹配(exhaustive matching,EM),利用本文提出的基于用深度特征創(chuàng)建的影像關(guān)系表和利用DBoW3創(chuàng)建的關(guān)系表后的SfM重建結(jié)果。
4.2.1 數(shù)據(jù)集Urban
本文提出的DCF和DBoW算法生成的關(guān)系表如下圖5所示??傮w上看,兩種方法建立的關(guān)系表較為一致,都能夠較好地鑒別出在航向和旁向上有重疊的影像對。但是,DBoW3方法建立的影像關(guān)系表存在大量的噪點(diǎn),即兩張影像明顯不是相鄰關(guān)系,但該方法卻將兩張影像檢測成相鄰關(guān)系。
圖5 基于(a)本文提出DCF和(b)DBoW3方法計算的Urban數(shù)據(jù)集的影像關(guān)系表。淺色的像素塊表示兩張影像有重疊關(guān)系,而深色的像素塊表示影像無重疊關(guān)系Fig.5 The correlation graph of the Urban dataset determined by (a) the proposed DCF and (b) DBoW3 approaches. The light color squares denote that two images are connected, and the dark are not
MicMac軟件提供了多種重建模式,其中包括窮舉匹配模式和提供影像關(guān)系表的重建模式。圖6展示了(a)EM窮舉匹配,(b)基于本文提出的DCF關(guān)系表的匹配和(c)基于DBoW3關(guān)系表的匹配的Urban數(shù)據(jù)集SfM重建的點(diǎn)云圖。從中可以看出,這3種方法都能夠較好地重建場景,目視效果差別不大。
本文也比較了3種不同模式的SfM重建后的相機(jī)相對位置和姿態(tài)。圖7和圖8分別表示3種方法重建后獲取的角元素(Phi,Omega和Kappa)和線元素(X,Y和Z)的對比圖。從中可以看出3種方法獲取的相機(jī)姿態(tài)較為接近,差別不大。可以發(fā)現(xiàn),3種方法都能夠較好地重建Urban場景,且差別不大。
圖7 3種不同模式SfM重建后的相機(jī)的角元素Fig.7 SfM Camera orientations for the Urban dataset
圖8 3種不同模式SfM 重建后的相機(jī)的線元素Fig.8 SfM Camera positions for the Urban dataset
4.2.2 數(shù)據(jù)集South Building
本文提出的DCF和DBoW算法生成的關(guān)系表如圖9所示。總體上看,兩種方法建立的關(guān)系表有一定的相似性,大致輪廓比較接近。但兩種方法建立的關(guān)系表有明顯的不同,DBoW3方法建立的影像關(guān)系表存在大量的噪點(diǎn),即兩張影像明顯不是相鄰關(guān)系,但該方法卻將兩張影像檢測成相鄰關(guān)系。
圖10展示了(a)EM窮舉匹配,(b)基于本文提出的DCF關(guān)系表的匹配和(c)基于DBoW3關(guān)系表的匹配的Urban數(shù)據(jù)集SfM重建的點(diǎn)云圖。從中可以看出,這3種方法都能夠較好地重建場景。但DBoW3的方法重建的建筑右側(cè)的樹木的位置明顯偏離了原有位置,同其余兩種方法存在一定的差異。本文提出的DCF方法重建結(jié)果和EM窮舉匹配的結(jié)果則非常接近。
本文也比較了3種不同模式的SfM重建后的相機(jī)相對位置和姿態(tài)。圖11和圖12分別表示3種方法重建后獲取的角元素(Phi,Omega和Kappa)和線元素(X,Y和Z)的對比圖。從中可以看出3種方法獲取的相機(jī)角元素較為接近,差別不大,但DBoW3獲取的相機(jī)的線元素同其余兩種方法的差異非常大,而本文提出的DCF方法則同窮舉匹配的方法獲取的相機(jī)位置和姿態(tài)基本一致。
4.2.3 討 論
從上文的試驗(yàn)中,可以看出3種匹配模式,包括EM窮舉匹配、基于DCF與DBoW3關(guān)系表匹配下的Urban場景重建的結(jié)果比較接近,沒有明顯差別。在South Building場景下,基于DCF關(guān)系表匹配與EM窮舉匹配的結(jié)果比較接近,而DBoW3重建的結(jié)果和前二者差別較大。
圖9 基于(a)本文提出DCF和(b)DBoW3方法計算的South Building數(shù)據(jù)集的影像關(guān)系表,淺色的像素塊表示兩張影像有重疊關(guān)系,而深色的像素塊表示影像無重疊關(guān)系Fig.9 The correlation graph of the South Building dataset determined by (a) the proposed DCF and (b) DBoW3 approaches. The light color squares denote that two images are connected, and dark blues are not
圖10 SfM重建South Building數(shù)據(jù)集的三維點(diǎn)云Fig.10 SfM reconstruction results for the South Building dataset
圖11 3種不同模式對South Building數(shù)據(jù)集SfM重建后的相機(jī)的角元素Fig.11 SfM camera orientations for the South Building dataset
表2對比了3種匹配模式包括EM窮舉匹配、基于DCF和DBoW3關(guān)系表匹配下的匹配次數(shù)和三維點(diǎn)云個數(shù)??梢?,EM窮舉匹配的次數(shù)遠(yuǎn)遠(yuǎn)超過了基于DCF和DBoW3關(guān)系表匹配次數(shù)。假定數(shù)據(jù)集包含N張影像,那么EM窮舉匹配則需要匹配N×(N-1)次,而基于DCF關(guān)系表匹配則需要N×n(n為每張影像需要匹配的次數(shù),在本文中為10。可見,基于關(guān)系表的匹配能明顯減少匹配次數(shù),提高重建效率。但是,基于窮舉匹配的場景重建的點(diǎn)云數(shù)量最多,基于DCF關(guān)系表重建的數(shù)量次之,基于DBow3關(guān)系表重建的點(diǎn)云數(shù)量最少。這也從側(cè)面反映出基于DCF重建的關(guān)系表比DBoW3方法效果更好,因?yàn)樵摲椒軌蛘页龈嗟钠ヅ湎駥?,而DBoW3方法則丟失了相對更多的潛在影像對。另外,基于DCF和DBoW3關(guān)系表的匹配,均丟失了一定數(shù)量的潛在匹配相對,因此,重建出的點(diǎn)云個數(shù)比窮舉匹配要少。
圖12 3種不同模式對South Building數(shù)據(jù)集SfM 重建后的相機(jī)的線元素Fig.12 SfM Camera positions for the South Building dataset
表23種匹配模式下的Urban和SouthBuilding場景重建的匹配次數(shù)和三維點(diǎn)云個數(shù)對比
Tab.2Comparisonofthenumberofmatchingtimesandnumberof3DpointcloudsforurbanandSouthBuildinddateset
方法匹配次數(shù)/(次)三維點(diǎn)云數(shù)/(個)UrbanSouth BuildingUrbanSouth BuildingEM1493821625655301654249623DCF3870128049635054003618DBoW33870128046442283528917
本文提出了一種適用于從運(yùn)動恢復(fù)結(jié)構(gòu)的基于深度卷積層特征的影像關(guān)系表構(gòu)建方法。該方法能夠高效快速地從大量無序的數(shù)據(jù)集中構(gòu)建影像關(guān)系表,找出潛在的匹配像對。相比于傳統(tǒng)的基于人工設(shè)計特征的詞袋法,本文提出的基于深度卷積層特征能更好地表達(dá)影像特征。同窮舉匹配相比,本文算法在Urban和South Building數(shù)據(jù)集上都能夠明顯地減少匹配次數(shù),加快重建效率,而且保持重建的效果基本一致。同主流的ORB-SLAM2系統(tǒng)中的DBoW3算法相比,本文提出的基于深度卷積特征的DCF算法構(gòu)建的影像關(guān)系表明顯優(yōu)于DBoW3算法,能夠更好地找出潛在的匹配像對,這一優(yōu)勢在South Building數(shù)據(jù)集上得到了明顯的體現(xiàn)。綜上,本文提出的基于深度卷積特征DCF算法能夠在包含大量影像的數(shù)據(jù)集上快速創(chuàng)建影像關(guān)系表,減少影像匹配次數(shù),在提高SfM重建的效率的基礎(chǔ)上同時保持了SfM重建的精度。
致謝:感謝晏磊教授對本文的試驗(yàn)提供的指導(dǎo),感謝俄亥俄州立大學(xué)的Photogrammetric Computer Vision提供的試驗(yàn)設(shè)備。
參考文獻(xiàn):
[1] LOWE D G. Object Recognition from Local Scale-invariant Features[C]∥Proceedings of the Seventh IEEE International Conference on Computer Vision. Kerkyra, Greece: IEEE, 1999.
[2] BAY H, ESS A, TUYTELAARS T, et al, Speeded-up Robust Features (SURF)[J]. Computer Vision and Image Understanding, 2008, 110(3): 346-359.
[3] RUBLEE E, RABAUD V, KONOLIGE K, et al. ORB: An Efficient Alternative to SIFT or SURF[C]∥IEEE International Conference on Computer Vision. Barcelona, Spain: IEEE, 2011.
[4] LEUTENEGGER S, CHLI M, SIEGWART R Y. BRISK: Binary Robust Invariant Scalable Keypoints[C]∥IEEE International Conference on Computer Vision. Barcelona, Spain: IEEE, 2011.
[5] CRANDALL D, OWENS A, SNAVELY N, et al. Discrete-continuous Optimization for Large-scale Structure from Motion[C]∥IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI: IEEE, 2011.
[6] WU Changchang. SiftGPU: A GPU Implementation of Scale Invariant Feature Transform (SIFT).(2007). URL http:∥cs.unc.edu/~ccwu/siftgpu.
[7] SNAVELY N, SEITZ S M, SZELISKI R. Modeling the World from Internet Photo Collections[J]. International Journal of Computer Vision, 2008, 80(2): 189-210.
[8] Wu Changchang. VisualSFM: A Visual Structure from Motion System[EB/OL].[2017-12-12]. http:∥www.cs.washington.edu/homes/ccwu/vsfm.
[9] FUHRMANN S, LANGGUTH F, MOEHRLE N, et al. MVE:An Image-based Reconstruction Environment[J]. Computers & Graphics, 2015, 53: 44-53.
[10] LECUN Y, BENGIO Y, HINTON G. Deep Learning[J]. Nature, 2015, 521(7553): 436-444.
[11] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet Classification with Deep Convolutional Neural Networks[J]. Communications of the ACM, 2017, 60(6): 84-90.
[12] BENGIO Y. Deep Learning of Representations for Unsupervised and Transfer Learning[C]∥ Proceedings of 2011 International Conference on Unsupervised and Transfer Learning workshop. Washington, USA: JMLR, 2012.
[13] AGARWAL S, FURUKAWA Y, SNAVELY N, et al. Building Rome in a Day[J]. Communications of the ACM, 2011, 54(10): 105-112.
[14] HAVLENA M, SCHINDLER K. VocMatch: Efficient Multiview Correspondence for Structure from Motion[M]∥FLEET D, PAJDLA T, SCHIELE B, et al. Computer Vision-ECCV 2014. Cham: Springer, 2014.
[15] ZHAN Zongqian, WANG Xin, WEI Minglu. Fast Method of Constructing Image Correlations to Build a Free Network Based on Image Multivocabulary Trees[J]. Journal of Electronic Imaging, 2015, 24(3): 033029.
[16] SCH?NBERGER J L, FRAHM J M. Structure-from-Motion Revisited[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV: IEEE, 2016.
[17] SCH?NBERGER J L, PRICE T, SATTLER T, et al. A Vote-and-verify Strategy for Fast Spatial Verification in Image Retrieval[M]∥LAI S H, LEPETIT V, NISHINO K, et al. Computer Vision-ACCV 2016. Cham: Springer, 2016.
[18] ANGELI A, FILLIAT D, DONCIEUX S, et al. Fast and Incremental Method for Loop-closure Detection Using Bags of Visual Words[J]. IEEE Transactions on Robotics, 2008, 24(5): 1027-1037.
[19] CUMMINS M,NEWMAN P. Appearance-only SLAM at Large Scale with FAB-MAP 2.0[J]. The International Journal of Robotics Research, 2011, 30(9): 1100-1123.
[21] MUR-ARTAL R, TARDS J D. ORB-SLAM2: An Open-source SLAM System for Monocular, Stereo, and RGB-D Cameras[J]. IEEE Transactions on Robotics, 2017, 33(5): 1255-1262.
[22] GAO Xiang, ZHANG Tao. Unsupervised Learning to Detect Loops Using Deep Neural Networks for Visual Slam System[J]. Autonomous Robots, 2017, 41(1): 1-18.
[23] ZHANG Xiwu, SU Yan, ZHU Xinhua. Loop Closure Detection for Visual SLAM Systems Using Convolutional Neural Network[C]∥The 23rd International Conference on Automation and Computing. Huddersfield, UK: IEEE, 2017.
[24] BABENKO A, SLESAREV A, CHIGORIN A, et al. Neural Codes for Image Retrieval[M]∥FLEET D, PAJDLA T, SCHIELE B, et al. Computer Vision-ECCV 2014. Cham: Springer, 2014.
[25] RAZAVIAN A S, AZIZPOUR H, SULLIVAN J, et al. CNN Features Off-the-shelf: An Astounding Baseline for Recognition[C]∥IEEE Conference on Computer Vision and Pattern Recognition Workshops. Columbus, OH: IEEE, 2014.
[26] YANDE A B, LEMPITSKY V. Aggregating Local Deep Features for Image Retrieval[C]∥Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015.
[27] DESEILLIGNY M P, CLéRY I. Apero, An Open Source Bundle Adjusment Software for Automatic Calibration and Orientation of Set of Images[C]∥Proceedings of the ISPRS Symposium. [S.l.]: ISPRS, 2011: 269-276.