彭俊桂 劉曉彬 黃有章
傳統(tǒng)的語義分割方法主要是通過提取圖像特征來實現(xiàn),但由于現(xiàn)實世界物體邊界關系極其復雜,空間位置分布不均勻,成像結果容易受到光線的干擾,使得語義分割任務成為一個復雜的問題。這些問題制約了語義分割的準確性和效率,不能滿足遙感圖像語義分割應用的需求,大量關鍵數(shù)據(jù)不能得到充分利用。
為改善Deeplabv3+模型的語義分割效率和精確度,并針對上述模型的不足之處提出對應的改進方案,提出了采用MobilenetV2作為DeeplabV3+主干網絡的方法,經實驗驗證,在遙感圖像語義分割中具有良好的檢測性能,可以很好地應用于工業(yè)中。
DeepLabV3+網絡包含了骨干網絡、空洞空間金字塔池化層和雙線性插值進行上采樣模塊。此模型算法的流程是:首先遙感圖像進入網絡的編碼階段進行特征提取,在此階段圖片信息進入改進的ASPP層進行多尺度特征提取和通道加權處理,獲得較好的全局和局部信息;最后是進行解碼階段,對獲取到的信息進行采樣恢復至原圖尺寸像素,并對每個像素點分類,達到語義分割效果。
DeeplabV3+原有的主干網絡Xception對類別多的分割任務有較好效果,但其網絡復雜度高、模型參數(shù)量大,由于遙感影像圖像、場景信息量大,隨著訓練的進行,參數(shù)量不斷加大,增加了訓練的難度,故Xception不適合提取遙感地物特征信息,因此使用MobileNetV2替換Xception網絡,使用輕量化網絡MobileNetV2作為DeepLabV3+的主干網絡,其網絡體積小參數(shù)量少,可以更快速、更精準地從大量遙感影像信息中提取遙感地物。引入線性瓶頸結構,構成線性瓶頸倒殘差結構,在減少了遙感影像地物信息提取參數(shù)和計算量的同時,殘差結構下也會減少信息丟失。MobileNetV2中添加擴張倍數(shù)控制網絡大小,雖然網絡結構較深,但計算量少,能節(jié)省訓練時間和資源,對遙感影像中遙感地物特征提取有很大的優(yōu)勢。
將MobileNetV2其他參數(shù)不變,將其中3個步長為2的改為1,改變步長使輸入矩陣變小更慢,但可以使其獲取更多的特征信息。
實驗過程在Linux操作系統(tǒng),內存12 G,GPU(T4)設備上進行,使用深度學習框架pytorch1.2.0和Adam優(yōu)化器來進行迭代更新參數(shù),Adam可動態(tài)調節(jié)學習率,其中weightdecay為1e-4,初始學習率為8e-4。圖片輸入對其進行了翻轉、旋轉、縮放和隨機打亂等操作進行數(shù)據(jù)增強。
WHDLD數(shù)據(jù)集是武漢大學制作的遙感圖像分割數(shù)據(jù)集,數(shù)據(jù)覆蓋包括6類地貌:裸地、遙感地物、人行道、道路、植被以及水域。數(shù)據(jù)集中包含4 940張遙感影像及相對應的地物分類標記樣本。
平均像素準確率(mPA)是指計算正確分類的像素與所有像素數(shù)量的比值;交并比(Intersection over Union,IoU)是指某一類別預測結果與真實值的交集與并集的比值,IoU值越高說明預測結果和真實值的重合比例越高。平均交并比(mean Intersection over Union,mIoU)是對每一類的IoU求和后的再平均。
根據(jù)在WHDLD遙感圖像數(shù)據(jù)集上進行的對比實驗,可以看出,針對模型參數(shù)大、運行內存量過高,難以用于工業(yè)部署等問題,可以采用MobilenetV2作為骨干網絡,改變其步長再提升精確度的解決方案。