袁 一,程 亮,宗雯雯,李舒怡,李滿春
1. 南京大學(xué)江蘇省地理信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210023; 2. 南京大學(xué)中國南海研究協(xié)同創(chuàng)新中心,江蘇 南京 210023; 3. 南京大學(xué)軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心,江蘇 南京 210023; 4. 南京大學(xué)地理與海洋科學(xué)學(xué)院,江蘇 南京 210023; 5. 南京師范大學(xué)江蘇省地理信息資源開發(fā)與利用協(xié)同創(chuàng)新中心,江蘇 南京 210023
隨著電子產(chǎn)品的普及和物聯(lián)網(wǎng)的發(fā)展,人們習(xí)慣性地將在城市里發(fā)生的生活細(xì)節(jié)用手機(jī)拍攝下來,然后上傳到主流圖片分享網(wǎng)站和社交媒體。主流圖片分享網(wǎng)站(如Flickr和Instagram等)和社交媒體網(wǎng)站(如新浪微博、QQ空間和百度貼吧等)上有大量照片,這些眾籌照片有著不同來源、不同分辨率和不同尺寸[1-2]。然而,其中的大部分照片都沒有地理坐標(biāo)或僅有模糊的位置信息,而且經(jīng)過上傳、發(fā)布或下載,它們的位置信息容易丟失。如果這些眾籌照片能被恢復(fù)出原始的位置,它們將可以用來輔助室外定位[3]、行人探測[4]、無人駕駛[5-6]等,這些對增強(qiáng)現(xiàn)實(shí)研究[7]都很有幫助;另外,它們也可以輔助城市景觀分析[8-10]和城市建設(shè)[11]。目前,照片定位的主流方法可以分為3類:基于圖像、基于點(diǎn)云和基于語義。
基于圖像的照片定位方法類似于計(jì)算機(jī)視覺領(lǐng)域中的圖像檢索[13-14]。思路如下:首先建立一個(gè)包含大量照片(帶有位置信息)的參考庫,然后從參考庫中檢索與待查詢的眾籌照片最匹配的照片,最終用該最匹配照片的位置作為待查詢照片的位置[15-19]。
與激光雷達(dá)點(diǎn)云(LiDAR)和遙感數(shù)據(jù)相比,街景數(shù)據(jù)提供了獨(dú)特的“人視角”的地圖服務(wù),這與眾籌照片的視角相一致。于是街景數(shù)據(jù)常被用來建立參考庫,然后使用詞匯樹[20]、地理信息碼本[21]或數(shù)據(jù)驅(qū)動(dòng)的場景識(shí)別[22]等方法,或加上局部、全局等約束條件[19],來實(shí)現(xiàn)照片的地理定位。其中,用來描述局部特征的SIFT(scale-invariant feature transform)描述子已被不斷優(yōu)化,出現(xiàn)了SURF(speeded-up robust features)[23]和PCA-SIFT[24]描述子等,它們在特定情況下能提供更好的匹配效果[25-26]。
同時(shí),匹配算法研究方面也有很大進(jìn)展,深度學(xué)習(xí)算法促使了遙感影像的內(nèi)容檢索[27]與目標(biāo)識(shí)別[28-29]、無人機(jī)視頻的視頻內(nèi)容檢索[30-31]和人工智能系統(tǒng)的迅速發(fā)展。
基于點(diǎn)云的照片定位方法建立了2D圖像與3D點(diǎn)云之間的對應(yīng)關(guān)系,與基于圖像的定位方法相比,基于點(diǎn)云的照片定位方法從重建的3D場景中獲得更多的立體信息,從而實(shí)現(xiàn)了更高精度的定位[14]。文獻(xiàn)[32]建立了由數(shù)千萬3D點(diǎn)組成的數(shù)據(jù)集,使用隨機(jī)抽樣一致算法(RANSAC)和雙向匹配規(guī)則,將照片地理定位、地標(biāo)識(shí)別和3D姿態(tài)恢復(fù)融合在一起,實(shí)現(xiàn)了出色的定位效果。但該方法評價(jià)精度中,所用到的已地理配準(zhǔn)好的3D點(diǎn)云很難建立[33-34]。
基于語義的照片定位方法以高級(jí)語義線索為基礎(chǔ),這些語義線索小到與人相關(guān)的符號(hào),如文字、建筑風(fēng)格、車輛類型或城市結(jié)構(gòu)等,大到與自然相關(guān)的信息,如植被類型或者天氣狀況等[35]。語義定位方法目前面臨的難點(diǎn)可以概括為以下3點(diǎn):使用什么特征、如何匹配特征和如何將多樣的語義線索整合。文獻(xiàn)[36]以互聯(lián)網(wǎng)的語義元數(shù)據(jù)為基礎(chǔ),使用支持向量機(jī)(SVM)建立地標(biāo)模型庫,并總結(jié)得到紋理標(biāo)簽和時(shí)間條件的約束可以明顯改善定位效果。
照片的精確地理定位一直是研究難點(diǎn),這涉及對圖像中細(xì)小地理位置線索的挖掘,對大數(shù)據(jù)庫中地理信息特征的識(shí)別、提取、索引和檢索等[12]。為了解決這個(gè)難題,本文提出以街景數(shù)據(jù)作為參考數(shù)據(jù)集,使用“三步走”策略:圖像檢索粗定位、圖像匹配細(xì)篩選和三維重建精定位,給互聯(lián)網(wǎng)上不明來源的眾籌照片附上地理標(biāo)簽。相比之前Zamir和Shah的方法[18],該方法使用近景攝影測量技術(shù)來優(yōu)化定位,實(shí)現(xiàn)了更精確的地理定位效果。
圖1(b)是以一張待查詢照片為示例的流程。在流程中,一張待查詢照片將會(huì)經(jīng)歷圖像檢索粗定位(第一步)、圖像匹配細(xì)篩選(第二步)和三維重建精定位(第三步),從而實(shí)現(xiàn)精確地理定位。
所有待查詢照片都會(huì)先經(jīng)歷第一、二步,然后判斷是否滿足重建要求,如果無法重建,將第一步獲得的最匹配街景作為定位結(jié)果;如果可以重建,就經(jīng)歷第三步,將三維點(diǎn)云估算得到的位置作為照片定位結(jié)果。
并不是每張待查詢照片都會(huì)經(jīng)歷三維重建精定位,因?yàn)橛行┱掌绻诘谝徊降亩ㄎ痪炔焕硐?,那么其緩沖區(qū)內(nèi)相似街景數(shù)量可能不夠,這將導(dǎo)致不滿足三維重建要求。其他一些原因類似于拍攝視角、拍攝距離和拍攝環(huán)境也會(huì)導(dǎo)致無法重建三維場景。在這種情況下,最匹配街景的GPS坐標(biāo)將會(huì)被作為照片定位結(jié)果。
圖像檢索粗定位的目標(biāo)是為待查詢照片檢索到最匹配街景。方法流程如下:
2.1.1 通過騰訊地圖API爬取街景數(shù)據(jù)作為參考數(shù)據(jù)集
本文以12 m為采樣間隔爬取街景數(shù)據(jù),這與街景采集車采集街景的間隔相一致;在每個(gè)采樣點(diǎn),從初始方位角開始的順時(shí)針一圈上,通過騰訊地圖API,每45°爬取一張街景。騰訊地圖API允許用戶通過HTTP協(xié)議下的一個(gè)URL地址來訪問并爬取一張街景照片,參數(shù)設(shè)置如表1所示。
表1騰訊地圖API爬取街景照片的參數(shù)設(shè)置
Tab.1ParametersforTencentmaptocrawlstreetviewimages
參數(shù)說明示例尺寸街景照片的尺寸:長×寬size=960×640位置坐標(biāo)location=39.12,116.83偏航角偏航角與正北方向的順時(shí)針夾角due north: heading=0clockwise仰角街景相機(jī)的俯角后者仰角pitch=0: horizontal angle.密鑰開發(fā)者密鑰key=OB4BZ-D4W3U-7BVVO-4PJWW-6TKDJ-WPB77
本文給照片設(shè)定20°的仰角來模擬人視角,并以45°為間隔切割360°全景街景。最終每個(gè)采樣點(diǎn)上,爬取8張960×640像素分辨率的街景,這樣既保證了相鄰街景的重疊又占用了較小的存儲(chǔ)空間。這些結(jié)構(gòu)化、組織好的街景數(shù)據(jù)組成了參考數(shù)據(jù)集。
2.1.2 提取和描述參考數(shù)據(jù)集特征以建立特征索引
(1) 本文使用SIFT描述子提取和描述局部特征,因?yàn)镾IFT描述子具有良好的尺度不變性和旋轉(zhuǎn)不變性,可以很好地適應(yīng)照片目標(biāo)的旋轉(zhuǎn)、縮放和變形[13]。因此,它可以處理好下載街景時(shí)切割球形照片產(chǎn)生的畸變。
(2) 本文使用Kd樹給提取的特征建立索引。多維索引方式可以分為特征驅(qū)動(dòng)和數(shù)據(jù)驅(qū)動(dòng)兩種方式,特征驅(qū)動(dòng)方式使用數(shù)據(jù)結(jié)構(gòu)(如Kd樹)將多維空間中的向量迅速劃分到不同的空間[37-38],數(shù)據(jù)驅(qū)動(dòng)方式則根據(jù)數(shù)據(jù)分布進(jìn)行聚類[17]。本文受存儲(chǔ)空間限制,選擇計(jì)算復(fù)雜度低且響應(yīng)較快的特征驅(qū)動(dòng)方式建立特征索引。
2.1.3 為待查詢照片的每個(gè)特征(叫作待查詢特征)在特征索引中尋找最近鄰特征
對任意一張待查詢照片,首先提取和描述特征,然后通過計(jì)算歐幾里得距離,為每一個(gè)待查詢特征在特征索引中尋找最近鄰特征。由于每個(gè)最近鄰特征都對應(yīng)一張街景、每個(gè)街景又對應(yīng)一個(gè)GPS坐標(biāo),所以待查詢照片的每個(gè)特征都對應(yīng)一個(gè)可能的GPS位置。
2.1.4 獲得最匹配街景
在上一步,每個(gè)待查詢特征對應(yīng)一個(gè)可能的GPS位置,接著待查詢特征對這些可能的位置進(jìn)行投票。在理想情況下,所有的待查詢特征投票給同一個(gè)位置,該位置即是真正的照片位置。然而實(shí)際上投票并不集中,所以需要接下來的修剪和平滑處理[18]。
(1) 本文使用Zamir和Shah提出的動(dòng)態(tài)修剪方法[18],即當(dāng)最近鄰特征對應(yīng)的位置分散時(shí),根據(jù)位置分布修剪不可靠位置上的投票。這個(gè)方法被證明比文獻(xiàn)[13]提出的方法更合適,因?yàn)槲墨I(xiàn)[13]的方法只設(shè)定最近鄰特征距離和次近鄰特征距離之間的比例閾值來去除不可靠特征,而動(dòng)態(tài)修剪方法則為下一步的平滑處理保留了更多的特征。
?j→|Loc(NN(ki,1))-Loc(NN(ki,j))|>D
(1)
式中,Vflag(ki)是特征ki的投票標(biāo)識(shí),值為1時(shí)該特征參與投票,值為0時(shí)不參與投票。NN(ki,j)是待查詢照片k的第i個(gè)特征的第j個(gè)近鄰特征,Loc(NN(ki,j))是NN(ki,j)的GPS坐標(biāo),|*|是兩個(gè)GPS坐標(biāo)之間的空間距離,D是提前設(shè)定好的特征之間空間距離的閾值。最終,只去除了與最近鄰特征空間距離較遠(yuǎn)而且比值大于0.8的特征。
(2) 本文使用高斯分布函數(shù)對修剪之后的投票進(jìn)行平滑處理[18],使得正確位置對應(yīng)的高投票數(shù)更明顯。平滑處理放大了聚集峰、衰減了孤立峰,使得最高投票數(shù)(最有可能的拍攝位置)更加明顯。
V(λ′-λ,φ′-φ)Vflag(λ′-λ,φ′-φ)
(2)
式中,λ和φ代表最近鄰特征所對應(yīng)街景照片的GPS坐標(biāo),V(λ,φ)與Vflag(λ,φ)分別是待查詢照片特征的投票和投票標(biāo)識(shí),前面的參數(shù)是具有標(biāo)準(zhǔn)偏差σ′的二維高斯函數(shù)。
最終明顯突出了正確的結(jié)果。本文將在最高投票數(shù)位置上的街景稱為最匹配街景。
本文首先通過圖像檢索,在參考數(shù)據(jù)集中檢索到了最匹配街景;然后利用這個(gè)最匹配街景,從參考數(shù)據(jù)集中牽引出其他包含待查詢照片信息的相關(guān)照片,然后將它們納入相似街景集中,用作后續(xù)的三維重建。
2.2.1 生成所有街景采樣點(diǎn)之間的空間距離表
(1) 本文根據(jù)街景采樣點(diǎn)已知的坐標(biāo),計(jì)算所有街景采樣點(diǎn)之間的空間距離。
D(λ1,φ1;λ2,φ2)=R·arccos{cos[radians(φ1)]·
cos[radians(φ2)]·cos[radians(λ1-λ2)+
sin[radians(φ1)]·sin[radians(φ2)]}·
PI/180
(3)
式中,(λ1,φ1)和(λ2,φ2)是兩個(gè)采樣點(diǎn),經(jīng)度分別為λ1、λ2,緯度分別是φ1、φ2。D(λ1,φ1;λ2,φ2)代表兩個(gè)采樣點(diǎn)之間的距離。R是地球半徑。Radians是將度轉(zhuǎn)為弧度的函數(shù)。
(2) 本文對某采樣點(diǎn)的所有空間距離進(jìn)行排序,確定在其特定范圍內(nèi)(叫作緩沖區(qū)范圍)的采樣點(diǎn)的編號(hào)。
(4)
式中,λ,φ是最匹配照片的經(jīng)度和緯度,λ1、φ1是另一個(gè)采樣點(diǎn)的經(jīng)度和緯度Sflag(λ1,φ1)是該采樣點(diǎn)是否在最匹配照片的緩沖區(qū)范圍內(nèi)的標(biāo)志。D(λ,φ;λ1,φ1)是兩點(diǎn)(λ,φ)和(λ1,φ1)之間的距離。
2.2.2 將高相似度的街景加入到相似街景集
本文使用具有仿射不變性的SIFT局部描述子,來計(jì)算緩沖區(qū)內(nèi)街景和待查詢照片的相似度,因?yàn)楸疚男枰恼掌嗨贫仁蔷植肯嗨贫?,而不是全局相似度。換句話說,本文希望相似內(nèi)容但不同布局的兩張照片,比相似布局但不同內(nèi)容的兩張照片,相似度更高。因此,本文將待查詢照片與目標(biāo)街景間特征匹配對的數(shù)量與待查詢照片的特征總數(shù)的比值,作為相似度的衡量標(biāo)準(zhǔn)。特征匹配對的數(shù)量越多,比值越大,那么相似度越高。相似度計(jì)算公式如下
(5)
(6)
式中,NN(ki,j)是第k張待查詢照片的第i個(gè)特征在目標(biāo)街景中對應(yīng)的第j個(gè)最近鄰特征;flagi是第k張待查詢照片的第i個(gè)特征是否找到其符合要求的特征匹配對的標(biāo)識(shí);NKeypoints是第k張待查詢照片的特征總數(shù)。
本文根據(jù)前一步獲得的最匹配街景,將其緩沖區(qū)范圍內(nèi)的高相似度街景歸為相似街景集,將其緩沖區(qū)范圍內(nèi)的低相似度街景和不在其緩沖區(qū)范圍內(nèi)的街景歸為無關(guān)街景集。由于相似街景集中的街景與待查詢照片拍攝了相似的內(nèi)容,但是角度和位置不一樣,所以,相似街景集可以進(jìn)行基于近景攝影測量的三維重建。
本文使用低成本攝影測量技術(shù)SfM(structure from motion)來從2D照片中獲得3D信息[39-40]。SfM技術(shù)既不需要相機(jī)參數(shù)也不需要地面控制點(diǎn),它使用光束法平差對多個(gè)重疊的照片進(jìn)行配準(zhǔn),來同時(shí)確定相機(jī)位置和地理場景。
2.3.1 提取特征和篩選特征
本文使用一種抗差的仿射不變特征提取技術(shù),綜合利用當(dāng)前最優(yōu)的特征提取算子MSER[41]和最優(yōu)的局部特征描述子SIFT,有效地提取高質(zhì)量的局部不變特征。
本文使用基于信息量和空間分布均衡性雙重約束的多層次特征篩選方法[42]。特征區(qū)域被檢測出后、進(jìn)行特征描述前,以信息量和空間分布均衡性為衡量標(biāo)準(zhǔn),對提取出的特征進(jìn)行評估,過濾掉信息量不佳、空間分布均衡性差的特征,只保留高質(zhì)量特征,以提高特征的重復(fù)率以及后續(xù)的立體影像匹配的成功率,進(jìn)而有利于后續(xù)的立體匹配。
2.3.2 匹配特征和篩選匹配對
本文使用ANN(approximate nearest neighbors)算法[43]對已提取的特征進(jìn)行匹配,得到匹配對,然后設(shè)定閾值篩選匹配對,去除較差的匹配對,進(jìn)一步使用RANSAC算法對匹配對進(jìn)行更精細(xì)的篩選,以提高匹配質(zhì)量。
2.3.3 配準(zhǔn)照片并生成點(diǎn)云
試驗(yàn)證明,當(dāng)兩張照片之間存在超過5對匹配對,就可以實(shí)現(xiàn)2D照片到3D場景的映射[44],同時(shí)能確定照片姿態(tài)和照片中拍攝對象的相對位置。
本文使用的SfM算法是一種迭代計(jì)算[45]。首先,匹配對最多的一組照片I1和I2將被作為初始照片對來計(jì)算初始相機(jī)參數(shù)、初始坐標(biāo)系統(tǒng)和點(diǎn)云。然后,以這個(gè)初始點(diǎn)云為參考,不斷加入新照片通過SfM迭代計(jì)算來產(chǎn)生稀疏點(diǎn)云。一旦加入一張新照片,將通過光束平差法BA(bundle adjustment)[46]來估算和優(yōu)化該照片的姿態(tài)和照片中拍攝對象的相對位置。光束平差法是一個(gè)用非線性最小二乘法來調(diào)整所有光束(即從2D照片上的點(diǎn)到3D空間上對應(yīng)點(diǎn)的方向)和相機(jī)位置的優(yōu)化模型,來最小化重投影誤差。
本文為了達(dá)到更好的展示效果,結(jié)果部分展示的點(diǎn)云為密集點(diǎn)云。密集點(diǎn)云是在稀疏點(diǎn)云的基礎(chǔ)上使用PMVS(patch-based multi-view stereo)算法生成富含紋理信息的密集點(diǎn)云,主要步驟包括初始匹配、區(qū)域生長、視覺條件約束和三維面片數(shù)據(jù)建立。
2.3.4 根據(jù)已知參數(shù)估計(jì)未知參數(shù)
本文通過上述步驟,生成了三維稀疏點(diǎn)云,恢復(fù)了待查詢照片和相似照片集的相對空間關(guān)系,即在自由坐標(biāo)系下,待查詢照片和相似照片集的空間位置。然后根據(jù)相似照片集已知的GPS坐標(biāo),推算待查詢照片未知的GPS坐標(biāo),即在大地坐標(biāo)系下,待查詢照片的空間位置。
圖2展示了本文研究區(qū)南京市建鄴區(qū)。建鄴區(qū)是南京的主城區(qū)之一,位于南京市區(qū)西南部,東、南緊鄰?fù)馇鼗春雍颓鼗葱潞?,西臨長江,北止?jié)h中門大街。建鄴區(qū)中既有老城區(qū),也有新城區(qū),既包含歷史,又展現(xiàn)現(xiàn)代,是南京市發(fā)展中最具代表的縮影,其街道景觀很大程度上能夠反映南京市的街道景觀特點(diǎn)。研究區(qū)覆蓋面積約為76.4 km2,長約10 km,寬約8 km。
圖2 研究區(qū)和數(shù)據(jù)集Fig.2 Study area and dataset
本文為實(shí)現(xiàn)眾籌照片的地理定位,使用12萬張街景數(shù)據(jù)作為數(shù)據(jù)集,所使用的街景數(shù)據(jù)覆蓋了180 km的城市道路。試驗(yàn)以12 m為采樣間隔爬取街景數(shù)據(jù),這與街景采集車采集街景的間隔相一致;在每個(gè)采樣點(diǎn),從初始方位角開始的順時(shí)針一圈上,每45°爬取一張街景。本文選用騰訊街景地圖,它是我國國內(nèi)首個(gè)高清街景地圖商,目前已覆蓋國內(nèi)所有地級(jí)市。
試驗(yàn)數(shù)據(jù)包含了227張眾籌照片,均勻分布在試驗(yàn)區(qū)內(nèi),這些眾籌照片是通過帶有GPS定位功能的智能手機(jī)拍攝而得。試驗(yàn)先去除了無關(guān)和涉及隱私的照片,最終保留227張照片。這些照片有著不同的視角、分辨率、尺寸和場景,這與互聯(lián)網(wǎng)上眾籌照片的存在形式類似。
在進(jìn)行試驗(yàn)之前,每張照片的EXIF標(biāo)簽都已被去除;在進(jìn)行試驗(yàn)之后,照片的原始GPS信息將被用來驗(yàn)證地理定位精度。
本文通過照片的真實(shí)位置和估算位置之間的距離,來評價(jià)照片定位方法的精度,距離越小,定位精度越高。
本文使用227張待查詢照片(已去除EXIF標(biāo)簽)來進(jìn)行照片定位試驗(yàn),平均重建時(shí)間是457 s。圖3展示了試驗(yàn)結(jié)果。定位結(jié)果分為兩種,一種是第三步中根據(jù)相似街景集建立起的三維點(diǎn)云,估算得到的待查詢照片的GPS位置,另一種是第一步中根據(jù)參考數(shù)據(jù)集檢索得到的最匹配街景的GPS位置。
3.4.1 總誤差分析
定義從真實(shí)位置到估算位置的方向?yàn)檎`差方向,從真實(shí)位置到估算位置的距離為誤差距離。誤差等級(jí)是根據(jù)研究區(qū)內(nèi)道路的分布進(jìn)行確定的,其中小路之間的距離約為200 m,主干路之間的距離約為800 m,平均為500 m;另外約有一半的待查詢照片的定位誤差集中在50 m以內(nèi)。
從圖4(a)和4(b)可以得到以下結(jié)論:
(1) 本文方法的誤差距離分布高度集中在“<200 m”范圍(68.7%)、極少分布在“>800 m”范圍(3.1%);
(2) 誤差距離小的待查詢照片通常包含清晰且有針對性的目標(biāo)(圖4(b),1-8)。誤差距離大的待查詢照片有的包含大量植被(圖4(b),9-11)或有相似外墻的居民樓(圖4(b),15-16)造成有辨識(shí)度的目標(biāo)較少(圖4(b),17-19),有的則包含能從更大視角和更遠(yuǎn)范圍看到的高大建筑(圖4(b),20-22),從而造成干擾。
圖3 待查詢照片分布圖和局部區(qū)域照片定位結(jié)果示意Fig.3 Query pictures distribution map and geo-localization results in two local areas
3.4.2 誤差成因分析
本文所使用的待查詢照片中,共有192張(占總數(shù)的84.6%)照片成功經(jīng)歷了第三步的三維重建,下面分析這些待查詢照片重建誤差的成因。
(1) 待查詢照片的拍攝相機(jī)和其主拍攝目標(biāo)之間的距離,與總誤差可能存在相關(guān)性。對于一張待查詢照片,其主拍攝目標(biāo)是后期通過人工觀察確定得到的,并在地圖上標(biāo)注以便來計(jì)算其到拍攝相機(jī)的距離。
在圖5中,拍攝相機(jī)與主拍攝目標(biāo)之間的距離,與總誤差呈正相關(guān)(R2=0.614 1)。意味著拍攝相機(jī)距離目標(biāo)越近,總誤差越小,反之,總誤差越大。
注:用箭頭方向表達(dá)總誤差方向,用5個(gè)等級(jí)的灰度表達(dá)總誤差距離。圖4 總誤差結(jié)果和總誤差分布統(tǒng)計(jì)圖Fig.4 Total error and its distribution statistics
圖5 待查詢照片的拍攝相機(jī)與主拍攝目標(biāo)之間的距離,與總誤差的相關(guān)性Fig.5 Correlation between distance from the query camera to the main object of query pictures and their total error
(2) 總誤差被分解為平行于和垂直于道路的兩個(gè)分量,其中平行于道路的誤差分量被定義為X軸誤差(ΔX),垂直于道路的誤差分量被定義為Y軸誤差(ΔY),如圖6所示。分析結(jié)果展示在圖7和表2,并分析得到以下結(jié)論。
圖6 X軸誤差和Y軸誤差示意圖Fig.6 Diagram of X-axis error and Y-axis error
從圖7中可以發(fā)現(xiàn),ΔX>ΔY的待查詢照片被標(biāo)為黑色(128個(gè)),ΔX<ΔY被標(biāo)為灰色(64個(gè))。ΔX較大的點(diǎn)數(shù)量上是ΔY較大的兩倍。從表2中可以發(fā)現(xiàn),ΔX的平均值、標(biāo)準(zhǔn)差、最大值、最小值和中值均超過ΔY。因此可以推測,ΔX對總誤差的貢獻(xiàn)更大。
圖7 總誤差的兩個(gè)分量:X軸誤差和Y軸誤差分析圖Fig.7 Real GPS location, total error direction, and quantitative relationship between X-axis error and Y-axis error
參數(shù)中位數(shù)平均值標(biāo)準(zhǔn)差最大值最小值X軸誤差40.0117.3164.5858.50.3Y軸誤差24.979.8122.7654.50.1
3.4.3 緩沖區(qū)半徑分析
變換緩沖區(qū)半徑,并統(tǒng)計(jì)不同緩沖區(qū)半徑下,滿足不同精度要求的待查詢照片比例。統(tǒng)計(jì)結(jié)果如圖8所示,可以得到以下結(jié)論:
(1) Zamir和Shah提出的定位方法[18],即本文方法的第一步:圖像檢索粗定位,相當(dāng)于設(shè)緩沖區(qū)半徑=0即不進(jìn)行第二、三步。統(tǒng)計(jì)結(jié)果表明,本文方法(緩沖區(qū)半徑>0)的定位效果明顯優(yōu)于Zamir和Shah的方法,因?yàn)橥粋€(gè)精度要求下,本文方法可以定位到更多的照片。
(2) 緩沖區(qū)半徑影響定位結(jié)果。本文選取200 m作為最佳緩沖區(qū)半徑,這可能與試驗(yàn)區(qū)街道長度有關(guān)。較大的取值(紫色線)將引入很多不相關(guān)的照片,破壞了高度重疊照片進(jìn)行近景三維重建的優(yōu)勢,而較小的取值(藍(lán)色和綠色線)將限制相似街景集的查找范圍,導(dǎo)致不能爬取出足夠的照片用于三維重建。
(3) 在0~50 m的誤差距離內(nèi),藍(lán)線(緩沖區(qū)半徑=50 m)和綠線(緩沖區(qū)半徑=100 m)均超過了黑線(緩沖區(qū)半徑=0 m)和紅線(緩沖區(qū)半徑=200 m)。這意味著當(dāng)待查詢照片已經(jīng)獲得較好的粗定位效果時(shí),較小的緩沖區(qū)半徑也許更加有效。
圖8 不同緩沖區(qū)半徑下滿足不同精度要求的待查詢照片比例Fig.8 Percentage of query pictures within different error distances under a specific buffer radius
3.4.4 方法比較
Zamir和Shah的定位方法,即本文方法的第一步:圖像檢索粗定位。為了探討第二步和第三步能否提升定位精度,計(jì)算了對Zamir和Shah的方法的精度提升值。精度提升值計(jì)算公式如下:
精度提升值=誤差距離(Zamir和Shah方法)-
誤差距離(本文方法)
(7)
從圖9(a),9(b)和表3可得出一下結(jié)論:
圖9 方法比較Fig.9 Methods comparison
(1) 本文方法在Zamir和Shah的方法基礎(chǔ)上,提升75.3%待查詢照片的定位精度(精度提升值>0),未改變15.4%待查詢照片的定位精度(精度提升值=0)和降低了9.3%待查詢照片的定位精度(精度提升值<0)。
(2) 對于所有的待查詢照片,本文方法的定位誤差平均距離為206.0 m,Zamir和Shah的方法平均距離為350.4 m。在50 m精度要求下,本文方法實(shí)現(xiàn)了對43.2%照片的定位,而Zamir和Shah的方法只實(shí)現(xiàn)了17.2%;在800 m精度要求下,本文方法實(shí)現(xiàn)了對96.9%照片的定位,而Zamir和Shah的方法只實(shí)現(xiàn)了92.5%(表2)。
(3) 被本文方法降低了定位精度的待查詢照片通常包含有相似外墻的建筑(圖9(b),1-3)或者能從更大視角更遠(yuǎn)范圍看到的摩天大樓(圖9(b),4-6)。這些目標(biāo)導(dǎo)致三維重建無法獲得更好的定位效果。
未被本文方法改變定位精度的待查詢照片沒有經(jīng)歷第三步的三維重建。有些照片包含了大量的干擾目標(biāo)如植被(圖9(b),7-9)導(dǎo)致三維重建失敗,有些照片雖然包含了針對性的目標(biāo)但其周圍不能提供足夠的三維信息用于重建(圖9(b),10-12)。
被本文方法提升了定位精度的照片包含清晰且有針對性的目標(biāo)(圖9(b),13-18)。其中拍攝了摩天大樓的待查詢照片的定位精度明顯被提升了(圖9(b),19-24),這表明本文方法對拍攝大城市中密集高樓大廈的照片可以獲得較好的定位效果。
表3 兩種方法的定位結(jié)果統(tǒng)計(jì)
本文提出了一種互聯(lián)網(wǎng)眾籌照片的三維重建定位技術(shù),該方法以結(jié)構(gòu)化組織的街景數(shù)據(jù)為參考數(shù)據(jù)集,使用三步策略:圖像檢索粗定位、圖像匹配細(xì)篩選和三維重建精定位,給不明來源的照片附上精確的地理標(biāo)簽。本文的主要貢獻(xiàn)是使用了新興的街景數(shù)據(jù),并巧妙綜合了檢索、匹配和重建3種算法,實(shí)現(xiàn)了更精確的照片定位,特別是拍攝大城市里密集高樓的照片。本文通過攝影測量原理恢復(fù)待查詢照片周圍的三維空間信息,較之前Zamir和Shah的方法,定位精度中值從256.7 m提升到69.0 m,平均值從350.4 m提升到206.0 m,在50 m精度要求下的照片數(shù)量占比從17.2%提升到43.2%。本文的另一個(gè)發(fā)現(xiàn)是重建誤差成因方面,待查詢照片的拍攝相機(jī)距離主拍攝目標(biāo)越近,總誤差越?。黄叫杏诮值赖恼`差分量對總誤差貢獻(xiàn)更大。另外,本文提出的方法提供了靈活的參數(shù),可以應(yīng)用于更大尺度范圍的地區(qū)。
在未來工作中,筆者將探索季節(jié)、天氣和時(shí)辰對試驗(yàn)結(jié)果的影響,來提升方法的抗差性;同時(shí)致力于提升方法的計(jì)算效率,以便應(yīng)用于更大尺度范圍。
參考文獻(xiàn):
[1] LI Songnian, DRAGICEVIC S, CASTRO F A, et al. Geospatial Big Data Handling Theory and Methods: A Review and Research Challenges[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2016, 115: 119-133.
[2] HEIPKE C. Crowdsourcing Geospatial Data[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2010, 65(6): 550-557.
[3] ARTH C, PIRCHHEIM C, VENTURA J, et al. Instant Outdoor Localization and SLAM Initialization from 2.5D Maps[J]. IEEE Transactions on Visualization and Computer Graphics, 2015, 21(11): 1309-1318.
[4] YIN Li, CHENG Qimin, WANG Zhenxin, et al. ‘Big Data’ for Pedestrian Volume: Exploring the Use of Google Street View Images for Pedestrian Counts[J]. Applied Geography, 2015, 63: 337-345.
[5] SALMEN J, HOUBEN S, SCHLIPSING M. Google Street View Images Support the Development of Vision-based Driver Assistance Systems[C]∥Proceedings of 2012 IEEE Intelligent Vehicles Symposium. Alcala de Henares, Spain: IEEE, 2012: 891-895.
[6] TSAI V J D. Traffic Sign Detection and Positioning from Google Street View Streamlines[C]∥Proceedings of ASPRS 2015 Annual Conference. Tampa, Florida: ASPRS, 2015.
[7] LIU Yue, WANG Yongtian. AR-view: An Augmented Reality Device for Digital Reconstruction of Yuangmingyuan[C]∥Proceedings of 2009 IEEE International Symposium on Mixed and Augmented Reality-arts, Media and Humanities. Orlando, FL: IEEE, 2009: 3-7.
[8] BADLAND H M, OPIT S, WITTEN K, et al. Can Virtual Streetscape Audits Reliably Replace Physical Streetscape Audits?[J]. Journal of Urban Health, 2010, 87(6): 1007-1016.
[9] LI Xiaojiang, ZHANG Chuanrong, LI Weidong, et al. Assessing Street-level Urban Greenery Using Google Street View and a Modified Green View Index[J]. Urban Forestry & Urban Greening, 2015, 14(3): 675-685.
[10] YIN Li, WANG Zhenxin. Measuring Visual Enclosure for Street Walkability: Using Machine Learning Algorithms and Google Street View Imagery[J]. Applied Geography, 2016, 76: 147-153.
[11] HARA K, AZENKOT S, CAMPBELL M, et al. Improving Public Transit Accessibility for Blind Riders by Crowdsourcing Bus Stop Landmark Locations with Google Street View: An Extended Analysis[J]. ACM Transactions on Accessible Computing (TACCESS), 2015, 6(2): 5.
[12] ZAMIR A R, HAKEEM A, VAN GOOL L, et al. Large-scale Visual Geo-localization[M]. Cham: Springer, 2016.
[13] LOWE D G. Distinctive Image Features from Scale-invariant Keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110.
[14] SATTLER T, LEIBE B, KOBBELT L. Fast Image-based Localization Using Direct 2D-to-3D Matching[C]∥Proceedings of 2011 IEEE International Conference on Computer Vision. Barcelona, Spain: IEEE, 2011: 667-674.
[15] CHEN D M, BAATZ G, K?SER K, et al. City-scale Landmark Identification on Mobile Devices[C]∥Proceedings of 2011 IEEE Conference on Computer Vision and Pattern Recognition. Colorado Springs, CO: IEEE, 2011: 737-744.
[16] KNOPP J, SIVIC J, PAJDLA T. Avoiding Confusing Features in Place Recognition[C]∥Proceedings of the 11th European Conference on Computer Vision. Heraklion, Greece: Springer, 2010: 748-761.
[17] NISTER D, STEWENIUS H. Scalable Recognition with a Vocabulary Tree[C]∥Proceedings of 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2006: 2161-2168.
[18] ZAMIR A R, SHAH M. Accurate Image Localization Based on Google Maps Street View[C]∥Proceedings of the 11th European Conference on Computer Vision. Heraklion, Greece: Springer, 2010: 255-268.
[19] ZAMIR A R, SHAH M. Image Geo-localization Based on Multiplenearest Neighbor Feature Matching Using Generalized Graphs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(8): 1546-1558.
[20] SCHINDLER G, BROWN M, SZELISKI R. City-scale Location Recognition[C]∥Proceedings of 2007 IEEE Conference on Computer Vision and Pattern Recognition. Minneapolis: IEEE, 2007: 1-7.
[21] KNOPP J, SIVIC J, PAJDLA T. Avoiding Confusing Features in Place Recognition[C]∥Proceedings of the 11th European Conference on Computer Vision. Heraklion, Greece: Springer, 2010: 748-761.
[22] HAYS J, EFROS A A. IM2GPS: Estimating Geographic Information from a Single Image[C]∥Proceedings of 2008 IEEE Conference on Computer Vision and Pattern Recognition. Anchorage: IEEE, 2008: 1-8.
[23] YAZAWA N, UCHIYAMA H, SAITO H, et al. Image Based View Localization System Retrieving from a Panorama Database by SURF[C]∥Proceedings of 2009 IAPR Conference on Machine Vision Applications. Yokohama, Japan: [s.n.], 2009: 3632-3636.
[24] KE Yan, SUKTHANKAR R. PCA-SIFT: A More Distinctive Representation for Local Image Descriptors[C]∥Proceedings of 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE, 2004: 506-513.
[25] PARK H, MOON K S. Fast Feature Matching by Coarse-to-fine Comparison of Rearranged SURF Descriptors[J]. IEICE Transactions on Information and Systems, 2015, E98-D(1): 210-213.
[26] KAMENCAY P, BREZNAN M, JELSOVKA D, et al. Improved Face Recognition Method Based on Segmentation Algorithm Using SIFT-PCA[C]∥Proceedings of the 35th International Conference on Telecommunications and Signal Processing. Prague, Czech Republic: IEEE, 2012: 758-762.
[27] TANG Gefu, XIAO Zhifeng, LIU Qing, et al. A Novel Airport Detection Method via Line Segment Classification and Texture Classification[J]. IEEE Geoscience and Remote Sensing Letters, 2015, 12(12): 2408-2412.
[28] XIAO Zhifeng, LIU Qing, TANG Gefu, et al. Elliptic Fourier Transformation-based Histograms of Oriented Gradients for Rotationally Invariant Object Detection in Remote-Sensing Images[J]. International Journal of Remote Sensing, 2015, 36(2): 618-644.
[29] BLASCHKE T. Object Based Image Analysis for Remote Sensing[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2010, 65(1): 2-16.
[30] SE S, NADEAU C, WOOD S. Automated UAV-based Video Exploitation Using Service Oriented Architecture Framework[C]∥Proceedings of Volume 8020, Airborne Intelligence, Surveillance, Reconnaissance (ISR) Systems and Applications VIII. Orlando, FL: SPIE, 2011: 80200Y.
[32] LI Yunpeng, SNAVELY N, HUTTENLOCHER D, et al. Worldwide Pose Estimation Using 3D Point Clouds[C]∥Proceedings of the 12th European Conference on Computer Vision. Florence, Italy: Springer, 2012: 15-29.
[34] GERNHARDT S, AUER S, EDER K. Persistent Scatterers at Building Facades-evaluation of Appearance and Localization Accuracy[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2015, 100: 92-105.
[35] SINGH G, KOECKJ. Semantically Guided Geo-location and Modeling in Urban Environments[M]∥ZAMIR A R, HAKEEM A, VAN GOOL L, et al. Large-scale Visual Geo-localization. Cham: Springer, 2016: 101-120.
[36] CRANDALL D J, LI Yunpeng, LEE S, et al. Recognizing Landmarks in Large-scale Social Image Collections[M]∥ZAMIR A R, HAKEEM A, VAN GOOL L, et al. Large-scale Visual Geo-localization. Cham: Springer, 2016: 121-144.
[37] NIEVERGELT J, HINTERBERGER H, SEVCIK K C. The Grid File: An Adaptable, Symmetric Multikey File Structure[J]. ACM Transactions on Database Systems (TODS), 1984, 9(1): 38-71.
[38] ROBINSON J T. The K-D-B-Tree: A Search Structure for Large Multidimensional Dynamic Indexes[C]∥Proceedings of 1981 ACM SIGMOD International Conference on Management of Data. Ann Arbor, Michigan: ACM, 1981: 10-18.
[39] SNAVELY N, SEITZ S M, SZELISKI R. Modeling the World from Internet Photo Collections[J]. International Journal of Computer Vision, 2008, 80(2): 189-210.
[40] WU Changchang. Towards Linear-time Incremental Structure from Motion[C]∥Proceedings of 2013 International Conference on 3D Vision-3DV 2013. Seattle: IEEE, 2013: 127-134.
[41] MATAS J, CHUM O, URBAN M, et al. Robust Wide-baseline Stereo from Maximally Stable Extremal Regions[J]. Image and Vision Computing, 2004, 22(10): 761-767.
[42] 程亮, 龔健雅, 宋小剛, 等. 面向?qū)捇€立體影像匹配的高質(zhì)量仿射不變特征提取方法[J]. 測繪學(xué)報(bào), 2008, 37(1): 77-82.
CHENG Liang, GONG Jianya, SONG Xiaogang, et al. A Method for Affine Invariant Feature Extraction with High Quality for Wide Baseline Stereo Image Matching[J]. Acta Geodaetica et Cartographica Sinica, 2008, 37(1): 77-82.
[43] INDYK P, MOTWANI R. Approximate Nearest Neighbors: Towards Removing the Curse of Dimensionality[C]∥Proceedings of the 30th Annual ACM Symposium on Theory of Computing. Dallas, Texas: ACM, 1998: 604-613.
[44] ZHANG Zhengyou, DERICHE R, FAUGERAS O, et al. A Robust Technique for Matching Two Uncalibrated Images through the Recovery of the Unknown Epipolar Geometry[J]. Artificial Intelligence, 1995, 78(1-2): 87-119.
[45] WESTOBY M J, BRASINGTON J, GLASSER N F, et al. ‘Structure-from-Motion’ Photogrammetry: A Low-cost, Effective Tool for Geoscience Applications[J]. Geomorphology, 2012, 179: 300-314.
[46] LOURAKIS M I A, ARGYROS A A. SBA: A Software Package for Generic Sparse Bundle Adjustment[J]. ACM Transactions on Mathematical Software, 2009, 36(1): 2.
[47] 劉穎真, 賈奮勵(lì), 萬剛, 等. 非專業(yè)弱關(guān)聯(lián)影像的地理配準(zhǔn)及其精度評估[J]. 測繪學(xué)報(bào), 2015, 44(9): 1014-1021, 1028. DOI: 10.11947/j.AGCS.2015.20140394.
LIU Yingzhen, JIA Fenli, WAN Gang, et al. Geo-registration of Unprofessional and Weakly-related Image and Precision Evaluation[J]. Acta Geodaetica et Cartographica Sinica, 2015, 44(9): 1014-1021, 1028. DOI: 10.11947/j.AGCS.2015.20140394.
[48] 陳愛軍, 徐光祐, 史元春. 基于城市航空立體像對的全自動(dòng)3維建筑物建模[J]. 測繪學(xué)報(bào), 2002, 31(1): 54-59.
CHEN Aijun, XU Guangyou, SHI Yuanchun. Automated 3D Building Modeling Based on Urban Aerial Stereopair[J]. Acta Geodaetica et Cartographica Sinica, 2002, 31(1): 54-59.