鄧 燁,丁 濤
(1.安徽理工大學空間信息與測繪工程學院,安徽 淮南 232001;2.礦山采動災害空天地協(xié)同監(jiān)測與預警安徽省教育廳重點實驗室,安徽 淮南 232001)
近年來,無人機技術發(fā)展勢頭迅猛,無人機影像在生活中的使用快速增加。無人機具有時效性高、便捷、成本低等優(yōu)點,利用其拍攝影像及采用影像進行地物提取有著較大的優(yōu)勢。相較于衛(wèi)星遙感影像,無人機影像具有分辨率較高、受云層等遮擋影響小的優(yōu)點;相較于普通影像,無人機影像對地物細節(jié)描述更細致、含有更多的有用信息,傳統(tǒng)的影像分類方法很難有效且精確地從航拍影像中提取建筑物信息。數(shù)字城市的重要地理要素之一就是建筑物,是各類城市專題圖的重要內容,建筑物的自動獲取對于社會公眾、各行各業(yè)的應用都具有重要的意義。建筑物要素的快速提取是我國基礎地理信息建設中一項十分重要的內容。
隨著近年來信息技術的快速發(fā)展,計算機處理性能大幅提升,全卷積神經網絡在影像語義分割及目標識別領域取得了十分顯著的成果。Hosseiny等[1]提出了一種基于分段距離的色調、色飽和度、強度(HSI)異常檢測方法,該方法利用分割區(qū)域的統(tǒng)計特性來抑制誤報。鐘城等[2]提出了一種卷積神經網絡(Convolutional Neural Network,CNN)與生成式對抗網絡(Generative Adversarial Networks,GAN)的組合模型。陸煜斌等[3]提出了一種基于殘差網絡的改進流量分類算法,緩解了傳統(tǒng)卷積網絡因層次太深導致難以訓練的問題。
目前,對于圖像分類,研究者們利用全卷積神經網絡學習建立模型,已經取得了較理想的成果。于洋等[4]提出了一種結合全卷積神經網絡與數(shù)字地表模型(Digital Surface Model,DSM)數(shù)據的無人機影像建筑物自動提取方法。劉文濤等[5]在全卷積神經網絡的設計中使用了特征復用和特征增強。朱巖彬等[6]提出以SegNet模型為基礎,結合U-Net模型的模型。傳統(tǒng)的建筑物提取方法沒有充分利用建筑物的紋理、形狀等特征,對建筑物與其背景之間的空間關系建模能力不足,對于復雜建筑物的提取容易出現(xiàn)遺漏和錯誤的情況。因此,傳統(tǒng)建筑物以及地物分類算法并未取得巨大突破[7]。
全 卷 積 網 絡 (Fully Convolutional Networks,F(xiàn)CN)是2015年加利福尼亞大學伯克利分校(UC Berkeley)的Jonathan Long等在 《Fully Convolutional Networks for Semantic Segmentation》一文中提出的一種框架,用于圖像語義分割。經典的卷積神經網絡的接受域是一定的,導致卷積神經網絡識別不同尺度對象的能力差,由于高分辨率影像中的建筑物都以不同尺度出現(xiàn),因此運用卷積神經網絡對尺度不同的建筑物進行提取,結果會產生很大的差異。由于卷積網絡對建筑物邊界不敏感,會破壞影像中建筑物邊界的完整性,而全卷積神經網絡可以做到輸入圖像和輸出圖像大小一致,保存了圖像的精度,因此人們逐漸用全卷積神經網絡代替卷積網絡提取影像中的建筑物[8]。U-Net模型屬于全卷積網絡中一個熱門的網絡結構,它在醫(yī)療圖像分割中取得了很大的進步,具有結構簡單等優(yōu)點,許多的研究人員將其運用在影像建筑物提取中[9]。
U-Net模型是2015年提出的語義分割模式,用于提取圖像特征,最初用于醫(yī)學領域,因其網絡的形狀類似“U”而得名。由于醫(yī)療圖像數(shù)據較少,設計網絡模型不宜過大,因此U-Net模型適用于較少數(shù)據的圖像提取[10]。通過擴展卷積,U-Net模型可以使輸入和輸出的圖像尺寸保持一致。U-Net模型包括編碼器和編碼程序共同構成的網絡。U-Net的解碼器可以看作是一個卷積神經網絡,它通過對圖像進行卷積和采樣工作來獲取圖像的明顯特征。UNet解碼器是一個上采樣的過程,它使最終輸出圖像的大小與輸入圖像的大小保持一致。U-Net模型基本架構見圖1。
圖1 U-Net模型基本架構
由圖1可知,U-Net模型結構共有5層。圖中的箭頭①表示開始對卷積圖像進行卷積的操作;箭頭②表示跳躍連接層;箭頭③表示對圖像進行下采樣操作;箭頭④表示對圖像進行上采樣操作。跳躍連接層連接圖像的深層特征和淺層特征(邊界、顏色、紋理等信息),能夠很好地保護圖像的特征。經典U-Net模型架構總共有5層,含有9層卷積層,每一層卷積都會對圖像進行兩次卷積運算,每一次卷積運算使用大小為3×3的卷積核,其個數(shù)為64個。U-Net模型中分別使用4次下采樣和4次上采樣運算。假設輸入U-Net模型的圖像大小為572×572,原圖像經過兩次卷積運算后得到64個圖像,圖像大小為568×568;再對圖像進行第一次下采樣操作,下采樣后得到64個圖像,大小為284×284。原圖像經過5組卷積和4次上采樣后圖像大小變?yōu)?8×28,個數(shù)變?yōu)? 024個。先將第5組卷積后的圖像進行第一次上采樣,上采樣后的圖像與第4次下采樣的圖像合并,再對合并的圖像通過3次卷積、上采樣、跳躍連接后使圖像輸出。在U-Net模型中,卷積和下采樣以及上采樣計算中激活函數(shù)為線性整流函數(shù)(Rectified Linear Unit,ReLU),它能使訓練速度加快。U-Net模型最后利用1×1的卷積來輸出提取后的影像,激活函數(shù)使用Sigmoid或Softmax。
采用美國德克薩斯州奧斯?。ˋustin)市無人機攝影測量的正射影像作為驗證數(shù)據集,此數(shù)據集包含大量植被和建筑物,用于驗證本文方法對建筑物區(qū)域數(shù)據集提取的效果。
本文使用的開源數(shù)據是法國國家信息與自動化研究所 (Institut National de Recherche en Informatique et en Automatique,INRIA)公開的圖像數(shù)據集。該圖像數(shù)據集覆蓋區(qū)域為5個城市,分別為奧斯汀(Austin)、芝加哥(Chicago)、基薩普(Kitsap)、維也納(Vienna)、西蒂羅爾(West Tyrol),面積共計810 km2。5個城市的建筑物分布、風格各不相同,奧斯汀的建筑物分布不規(guī)則且遮擋嚴重;芝加哥的建筑物分布交錯縱橫間隙??;基薩普的建筑物分布散亂;維也納有許多圓形建筑物;西蒂羅爾的建筑物比較集中化。5個城市的影像用于訓練數(shù)據集。該圖像數(shù)據集包含360張影像,影像格式為TIFF,大小均為5 000×5 000,分辨率為0.3 m。圖像覆蓋各種城市影像,從人口密集的城市到人口稀少、植被茂密的高山城鎮(zhèn)。該數(shù)據集中了180張被人工標注的圖像,另外180張圖像作為模型的線上測試集使用,本次實驗使用標記好的180張圖像作為數(shù)據集。
為了提高運算速率和降低對配置的需求,一副超大影像在輸入模型之前一般要進行裁剪操作,裁剪方式主要有兩種:滑窗采樣和隨機采樣?;安蓸邮且怨潭ǖ拇笮『筒介L依次按照一定順序在影像中滑動,對超大影像進行裁剪;隨機采樣是指在影像中生成隨機點,以隨機點為中心以一定的角度裁剪出符合樣本大小的影像??紤]到本文數(shù)據集比較大,要充分使用所有數(shù)據,因此本實驗采用滑窗采樣,滑動步長和滑動窗口均設置為224像素。
為了增加訓練樣本的數(shù)據量,提高模型的泛化能力以及模型的穩(wěn)健性,一般要對樣本進行數(shù)據增強。本次實驗對數(shù)據進行了下列操作。
1)旋轉操作。將一半的影像進行90°的整數(shù)倍旋轉。
2)翻轉操作。將一半的影像進行水平或者垂直翻轉。
3)歸一化。將影像中的灰度值進行歸一化。歸一化的方式有兩種:一種是將影像上像素點的灰度值除以255,另一種是將灰度值除以127.5再減去1。本次實驗使用第二種方法將影像中像素灰度值進行歸一化。
使訓練所獲得的模型符合平移和旋轉不變性,滑動窗口將180張影像裁剪成108 000張大小為224×224的影像,并進行數(shù)據增強處理,處理后的影像創(chuàng)建訓練集與測試集,比例為8∶2。其中,訓練集主要應用于培訓模型,測試集主要應用于培訓模型分辨能力,驗證集主要應用于網絡結構,控制模型復雜度參數(shù)的確定。
本實驗在Window 10系統(tǒng)上完成,基于Tensorflow 2.1版本深度學習框架。Tensorflow是一個相對成熟且性能強大的深度學習庫,具有強大的可視化功能,是被運用得最廣泛的靜態(tài)框架。
本實驗使用GPU版本的Tensorflow,實驗耗時40 h,計算機相關參數(shù)見表1。
表1 計算機配置參數(shù)
使用U-Net模型深度遷移學習對無人機影像建筑物進行提取,結果見圖2,可視化地對實驗結果和標簽圖像進行分析。實驗結果表明,本文所用方法確實可以較為有效準確地提取出建筑物的信息,且不受建筑物分布密集程度和建筑物類型的約束。
圖2 部分實驗識別結果
由圖2可知,本文所用方法可以有效地提取實驗場景中建筑物的位置,而不受建筑物分布密度和類型的限制,矩形建筑物提取效果較好,邊緣清晰。同時,由于網絡結構本身進行下采樣和上采樣的操作過程,導致建筑物的提取結果中邊界會存在不完整或者模糊的現(xiàn)象。而且,建筑物周圍的樹木遮擋也會對其識別和提取造成一定的影響[11]。
本文所采用的評價指標有:準確(Accuracy)率RA、精確(Precision)率RP、召回(Recall)率RR,對于本次實驗,本文給出一些評價指標的定義[12]。
真陽性(True Positives,TP)ITP:對于標簽中的建筑物,模型能預測為建筑物的數(shù)量。
真陰性(True Negatives,TN)ITN:對于標簽中的非建筑物,模型能預測為非建筑物的數(shù)量。
假陽性(False Positives,F(xiàn)P)IFP:對于標簽中的非建筑物,模型能預測為建筑物的數(shù)量。
假陰性(False Negatives,F(xiàn)N)IFN:對于標簽中的建筑物,模型能預測為非建筑物的數(shù)量。
準確率RA是指在單標簽分類任務中,每個樣品只有一種確定類別,預測這個類別就是正確分類,沒有預測這個類別就是錯誤分類,表達式為
精確率RP是指真實存在的“真正”的樣本,確定是“真的”所占比重,表達式為
召回率RR是指在所有實際確實為真樣本的情況下,樣本被判為“真的”所占比重,表達式為
為了更好地評價提取結果,采用以上評價指標進行分析。評價結果見表2。
表2 建筑物提取結果評價 (%)
本文利用語義分割U-Net模型完成對正射影像中建筑物的提取,針對目標區(qū)域數(shù)據太少等問題,使用深度遷移學習的方法在開源數(shù)據集訓練U-Net模型,通過遷移學習對無人機正射影像中的建筑物進行提取。實驗結果顯示,該模型可以盡量恢復不同地物,特別是建筑物邊界等細節(jié),能較精確地提取建筑物信息。然而,在建筑和植物紋理類似的情況下,仍然存在著錯誤提取的情況。同時,全卷積神經網絡存在下采樣操作導致提取邊界模糊的問題,下一階段將提高模型精度,以改善提取結果。