孫健飛,王占崗,陶恩海
(1.江蘇省地質(zhì)礦產(chǎn)局第六地質(zhì)大隊,江蘇 連云港 222023;2.灌云縣城鄉(xiāng)規(guī)劃服務(wù)中心,江蘇 連云港 222200;3.江蘇兼金信息產(chǎn)業(yè)有限公司,江蘇 連云港 222300)
近年來,無人機航測因其使用靈活方便、成本低、設(shè)備展開及數(shù)據(jù)獲取速度快等優(yōu)勢,廣泛應(yīng)用于國土資源勘探、智慧工地、林業(yè)調(diào)查、應(yīng)急救援等各領(lǐng)域。 外業(yè)量測中,輕量化無人機能根據(jù)需求快速獲取多角度的航測影像。在內(nèi)頁處理中許多影像處理軟件應(yīng)運而生。目前配套的內(nèi)業(yè)處理軟件,如大疆智圖、PIX4D、SMART3D等,這些軟件的處理能力日益豐富,使數(shù)字正射影像圖和三維模型的生產(chǎn)愈發(fā)簡便化。但在矢量化地形圖的生產(chǎn)上,現(xiàn)有軟件在自動識別技術(shù)方面還存在缺陷,如R2V軟件,對原有單色地形圖圖紙的掃描件支持較好,而對于數(shù)字正射影像圖的采集成圖難以實現(xiàn)。識別過程中極易受到航測影像采集的視角、姿態(tài)、光照、遮擋等條件差異和場景的多樣性導(dǎo)致目標發(fā)生形變[1]。另外,海量數(shù)據(jù)帶來的處理效率問題,給航測影像的目標分類和識別帶來巨大挑戰(zhàn)[2-4]。
針對上述問題,本文分析近年來計算機圖像識別方面的人工智能模型,結(jié)合航空影像固有特性,通過研究識別后與已有繪圖軟件交互。通過一組基于經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)的航測影像自動識別實驗對其實用性進行探討。
傳統(tǒng)的目標檢測和識別方法采用基于滑動窗口的特征提取框架:區(qū)域選擇-特征提取(SIFT,HOG)-模型建立(分類器/回歸器)。當(dāng)前研究主要集中于基于人工特征的構(gòu)造和分類算法上,存在嚴重依賴人工經(jīng)驗,模型魯棒性差,泛化能力弱等缺點。并不適用于背景復(fù)雜、分辨率高的無人機航拍圖像。
與傳統(tǒng)方法相比,深度學(xué)習(xí)的方法采用端到端的解決思路,類似于人的視覺系統(tǒng),從原始信號攝入開始(瞳孔攝入像素),首先進行初步處理(大腦皮層某些細胞發(fā)現(xiàn)物體的邊緣、顏色),再進行抽象(大腦判定眼前的物體的形狀是圓形的),然后進一步抽象(大腦進一步判定該物體是只氣球),最后在大腦中構(gòu)建出一幅視覺圖像[5]。卷積網(wǎng)絡(luò)受視覺神經(jīng)機制的啟發(fā),為識別二維形狀專門設(shè)計了一個多層感知器,對平移、比例縮放、傾斜或者其他形式的變形具有高度不變性。
卷積神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)可以分為輸入層、卷積層、全連接層和輸出層4個部分,圖1為牛津大學(xué)的視覺幾何組(Visual Geometry Group)和Google DeepMind公司的研究員一起研發(fā)的用于圖像識別的經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)模型VGG-NET。
圖1 VGG-NET結(jié)構(gòu)圖
由圖1可知,卷積神經(jīng)網(wǎng)絡(luò)借鑒生物神經(jīng)網(wǎng)絡(luò),采用了非全連接和權(quán)值共享的多層網(wǎng)絡(luò)結(jié)構(gòu)。卷積神經(jīng)網(wǎng)絡(luò)因其局部權(quán)值共享的特殊結(jié)構(gòu)在圖像處理方面相比于彼此連接網(wǎng)絡(luò)有著顯著優(yōu)勢。其特征檢測層對訓(xùn)練數(shù)據(jù)進行隱式學(xué)習(xí),避免了顯式的特征抽取,并且由于同一特征映射面上的神經(jīng)元權(quán)值相同,大大降低了網(wǎng)絡(luò)的復(fù)雜性。在處理時可以采用并行計算技術(shù),對于多維輸入向量的圖像,可直接輸入網(wǎng)絡(luò)這一特點避免了特征提取和分類過程中數(shù)據(jù)重建的復(fù)雜度。
2012年,Hinton用CNN結(jié)合GPU并行處理技術(shù)用于Imagenet Challenge數(shù)據(jù)庫中,使分類錯誤率從26.2%下降到16%,取得了當(dāng)年最好的分類結(jié)果。2014年3月,Facebook用400萬張人臉圖片訓(xùn)練了一個9層的卷積神經(jīng)網(wǎng)絡(luò),在著名的公共測試數(shù)據(jù)集LFW(Labeled Face in the Wild)上達到了97.25%的識別正確率,基本接近人眼的辨識水平。
隨后,香港中文大學(xué)基于Fisher Discriminant Analysis的算法將人臉識別的正確率提高到98.52%,超過了人類水平(97.53%)[5-10]。
本文使用Python和Tensorflow的開發(fā)環(huán)境并結(jié)合航測采集軟件探討航測影像自動采集的可行性。實驗環(huán)境如表1所示。
表1 實驗環(huán)境
(1)從歷史航拍的原始圖庫中,挑選包含“廠房”“道路”“民房”3種需要標注的物體的圖片,通過Photoshop人工截取相關(guān)物體的小圖,分類保存在CF(廠房)、DL(道路)和MF(民房)3個文件夾中,每種標簽的樣本制作100個。廠房的原始樣本如圖2所示。
圖2 原始樣本
(2)利用OpenCV對每個樣本分別進行水平翻轉(zhuǎn)(鏡像)、垂直翻轉(zhuǎn)(倒影)、旋轉(zhuǎn)變換,將每個類別的樣本數(shù)量擴展到400個,并將所有樣本圖片縮放到同一大小(圖3)。
圖3 縮放后圖片樣本
(3)每個標簽的樣本圖片隨機取320張,制作用于訓(xùn)練的Tfrecord訓(xùn)練集,剩下的80張圖片制作測試集。運行結(jié)果如圖4所示。
圖4 運行結(jié)果截圖
(1)航測采集軟件及接口
在1∶2000比例尺地形圖采集中,使用PIX4D軟件生成點云并分類、抽稀后處理為高程點,在地物采集方面比較困難。DOM加載進CASS軟件的采集方式較為直觀,上手最容易。CASS作為Auto CAD二次開發(fā)的軟件,支持命令欄輸入的方式繪制地形圖,以命令欄為接口,可方便的實現(xiàn)Python軟件的輸入。
在CASS通過命令導(dǎo)入的方式實現(xiàn)后,逐步探討三維模型采集軟件EPS中自動采集的可行性。
(2)搭建CNN神經(jīng)網(wǎng)絡(luò)
經(jīng)對比LeNet5、AlexNet、GoogleNet、ResNet等常用卷積神經(jīng)網(wǎng)絡(luò)模型,最終選擇采用VGG16模型(圖5)。
圖5 VGG-NET模型分類圖(D即為VGG16)
(3)初始化變量,然后執(zhí)行模型的訓(xùn)練和測試,并保存訓(xùn)練好的模型(圖6-圖8)。
圖6 訓(xùn)練和測試截圖
圖7 保存訓(xùn)練模型
圖8 模型訓(xùn)練驗證對比
載入待處理的航拍圖片,通過過濾器和訓(xùn)練的模型識別圖片中目標物體,得到包含物體的矩形框的4個點坐標(圖9)。
圖9 確定處理范圍
利用坐標截取圖片,通過OpenCV的邊緣檢測獲取邊緣線,得到目標物體的頂點坐標;對于細部生成的邊長短于30 cm的,去除多余邊(圖10)。
圖10 識別邊緣效果
讀取jgw文件中的原始坐標和精度,結(jié)合矩形框坐標和物體頂點坐標,計算出目標物體的實際坐標值,保存到結(jié)果文件中。
將結(jié)果文件導(dǎo)入CAD,經(jīng)驗證對廠房的識別率達到97%,因為目標區(qū)域正處于大規(guī)模基建階段,道路和路燈的完成度低,識別準確率較低。由于影像分辨率差異較大,存在邊緣提取坐標與實測坐標存在誤差的情況,后續(xù)改進時外業(yè)航測精度需提高。
本文探討了利用經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)提取航測圖像中感興趣目標的可行性。結(jié)果表明,VGG16模型非常適合處理能夠有效提升高分辨率和復(fù)雜背景的航拍圖像的識別準確率,但在較小目標如路燈等目標的識別準確率較低,本文后續(xù)考慮從以下幾個方面改進:① 對輸入圖像進行精細的預(yù)處理(如濾波、白化等);② 原數(shù)據(jù)集進行數(shù)據(jù)增強,并進行更多次的迭代;③ 構(gòu)建具有雙重損失函數(shù)的糅合模型。