程 忠,黃明輝
(長安大學工程機械學院,陜西 西安 710000)
近年來,隨著科學技術的快速發(fā)展,高分辨率的遙感圖像被輕易獲取,并廣泛應用于城鄉(xiāng)規(guī)劃、環(huán)境保護、地理位置檢索和空間目標檢測等領域。遙感圖像分類作為一種重要的技術手段,可以幫助城鄉(xiāng)規(guī)劃部門更好地了解和掌握當?shù)氐淖匀画h(huán)境和人文地理特征,從而制定更加科學合理的城市規(guī)劃方案。因此,研究如何有效地提升遙感圖像分類的分類精度與泛化性能具有重要的現(xiàn)實意義和實際應用價值。
早期遙感圖像分類方法假定相同類別的場景應該共享相似的特征信息,根據人類視覺的特點直接設計特征本身并計算相似度。遙感圖像分類任務中主要面臨的是類內差異大而類間差異小的問題。為解決上述問題,王李祺等[1]提出基于注意卷積模塊(ACM)的MoblieNetv2 模型框架,有效地提高了網絡分類性能,但是此方法并不能很好地捕捉到遙感圖像的全局信息。吳奕恒等[2]提出了融合掩碼重建和對比學習的三階段自監(jiān)督遙感圖像分類新模型——對比掩碼自編碼器,但是此方法過于煩瑣,且需對輸入的不同尺度的圖片進行微調。
針對遙感圖像分類任務,為使模型精確捕獲高層語義信息的同時降低計算復雜度,本研究提出了基于MobileViT 輕量化網絡的遙感圖像分類方法,MobileViT 融合了卷積神經網絡和Vision Transformer,可提取圖像中類別的局部信息和全局信息;引入GridMask 圖像增強方法,在數(shù)據預處理階段適當?shù)貏h除冗余信息,可加快訓練速度。為提高模型的訓練速度和準確率,引入遷移學習,將在ImageNet 數(shù)據集中訓練好的權重遷移到遙感圖像的識別中。經驗證,在AID 測試集的準確率達95.0%,在RSD46-WHU測試集的準確率達87.4%。
卷積神經網絡使用固定尺寸大小的卷積核對圖片進行特征提取,僅能獲取局部特征信息,需要通過疊加多層網絡來進一步獲得全局特征。Vision Transformer(ViT)采用Attention 機制可以實現(xiàn)全局特征提取,但缺乏權值共享和稀疏連接,模型參數(shù)過多導致訓練時間長且需要高算力,并且對于不同尺度的輸入圖像需要微調[3-10]。為了減少參數(shù)同時保持準確率,本研究提出了基于MobileViT 模型的遙感圖像檢測,它將卷積和ViT 相結合并用于遙感圖像特征提取中。MobileViT特征提取流程如圖1所示。
圖1 MobileViT 特征提取流程
MobileViT[6-8]最核心的模塊——MViT 模塊如圖1 所示,首先將特征圖通過一個卷積核大小為3×3 的卷積層進行局部特征建模,然后通過一個卷積核大小為1×1 的卷積層調整通道數(shù)。接著通過Transformer結構進行全局的特征建模,然后再通過一個卷積核大小為1×1 的卷積層將通道數(shù)調整回原始大小。接著通過shortcut 捷徑分支與原始輸入特征圖進行Concat拼接(沿通道channel 方向拼接),最后再通過一個卷積核大小為3×3的卷積層做特征融合得到輸出。
Transformer 結構[9-10]首先對輸入的每個特征圖劃分Patch,假設Patch 大小為2×2,即每個Patch 由4個小特征圖組成。對Patch 后的特征層通過reshape操作進行展平并進行自注意力計算,此時每個小特征圖只和自己顏色相同的小特征圖進行關聯(lián),以此達到減少計算量的目的,最后拼接回原特征圖。需要進行Patch操作的原因有以下兩點:
1)圖像數(shù)據本身存在大量的數(shù)據冗余,比如對于較淺層的特征圖、相鄰像素間信息并無太大差異,此時增加的計算成本遠大于精度提升上的收益。
2)由于Transformer 操作之前已通過3×3 的卷積層進行局部建模,此時已經對相鄰區(qū)域提取過一次特征信息。
實驗通過連接遠程服務器進行訓練,操作系統(tǒng)為Ubuntu 18.04.3、GPU 為NVIDIA RTX 4090、顯存為24 G。實驗環(huán)境為python 3.7,anaconda 2020.11 和CUDA 11.1,深度學習模型框架為pytorch 1.81。
為了驗證所提模型的有效性和適用性,本研究使用AID 和RSD46-WHU 兩個公共數(shù)據集進行驗證試驗。其中,AID 是遙感圖像場景分類任務中常用的數(shù)據集;RSD46-WHU 與AID 相比,場景類別豐富,具有更高的類間相似性。為防止過擬合,實驗中采用的數(shù)據增強方式有:1)隨機旋轉,對圖像進行0~180°的隨機旋轉,模擬圖像獲取過程中角度的隨機性。2)隨機添加噪點,保持圖像原始尺寸不變的條件下,對圖像添加噪點,模擬檢測過程中受遮擋影響造成的物體情況。3)飽和度以及色度的調整,模擬檢測過程中物體受光線的影響情況。
實驗分別采用MobileNet-V2、MobileViT 對遙感圖像進行建模分析。實驗中,以8∶2 的比例劃分訓練集和測試集,訓練輪次(Epoch)設置為100 輪,Bacth Size 的大小為8,優(yōu)化器為Adam,學習率為固定值0.000 2。測試集的準確率如表1所示,結果展示及對比如表2所示。
表1 測試集準確率
表2 結果展示及對比
由表1 和表2 可知,本研究所提的方法相比MobileNet-V2 模型,在兩種數(shù)據集的分類準確率都達到了最佳。在AID 數(shù)據集下所達到的準確率為95.0%;在RSD46-WHU 數(shù)據集下所達到的準確率為87.4%;均超過了MobileNet-V2模型。
本研究通過增加遙感圖像的數(shù)量,使用遷移學習將在ImageNet 數(shù)據集上訓練好的參數(shù)遷移到MobileViT 上,實現(xiàn)對不同遙感圖像的自動識別,在AID 測試集的準確率達到了95.0%,在RSD46-WHU數(shù)據集下所達到的準確率為87.4%,對數(shù)據集以外的圖像也能正確識別,可得出以下結論:
1)MobileViT 自身的Attention 機制可以使模型比傳統(tǒng)卷積神經網絡擁有更大的感受野,能夠在短時間的訓練中快速提升準確率。
2)MobileViT 模型在不損失大量精度的情況下,極大地減少了Transformer 框架訓練所需的參數(shù),可為Transformer輕量化設計奠定基礎。
3)模型已充分學習到遙感圖像的特征,具有較好的魯棒性。